• Tidak ada hasil yang ditemukan

Metode Naive Bayes Classifier dan Forward Selection Untuk Deteksi Berita Hoaks Bahasa Indonesia

N/A
N/A
Protected

Academic year: 2023

Membagikan "Metode Naive Bayes Classifier dan Forward Selection Untuk Deteksi Berita Hoaks Bahasa Indonesia"

Copied!
10
0
0

Teks penuh

(1)

Metode Naive Bayes Classifier dan Forward Selection Untuk Deteksi Berita Hoaks Bahasa Indonesia

Danang Bagus Chandra Prasetiyo*, Pulung Nurtantio Andono, Catur Supriyanto Ilmu Komputer, Teknik Informatika, Universitas Dian Nuswantoro, Semarang, Indonesia Email: 1,*[email protected], 2[email protected], 3[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak–Saat ini hoaks atau berita palsu sudah menjadi ancaman serius bagi kehidupan manusia, berita hoaks bukan hanya dapat menyebabkan kerugian materiil serta keonaran di masyarakat tetapi kini berita palsu juga dapat mempengaruhi psikologi seseorang dengan menimbulkan rasa takut dan terror serta paling parah bisa memecah kedaulatan bangsa. Untuk memproses klasifikasi digunakanlah data miming sehingga bisa diketahui sebuah merupakan berita hoaks ataupun berita asli. Dalam penelitian ini peneliti menggunakan naïve bayes sebagai metode klasifikasi. Kemudian peneliti juga menggunakan fungsi seleksi maju yang digunakan pada metode Naïve-Bayes. Seleksi maju merupakan metode pembentukan model regresi terbaik berdasarkan pendekatan dengan cara melakukan pemilihan variabel dengan memasukkan variabel bebas yang memiliki nilai korelasi terbesar. Sedangkan algoritma naïve bayes bekerja secara independensi bersyarat antar prediksi. Berdasarkan pengujian yang telah dilakukan tentang klasifikasi beria hoaks Bahasa Indonesia dengan menggunakan Naïve Bayes dan Forward Selection mendapatkan akurasi sebesar 84%, dan recall sebesar 63,72% sedangkan presisi naik menjadi 91,19%

dengan peningkatan akurasi sebesar 8,8% dan recall sebesar 8,19% dan presisi meningkat sebesar 20,98%. Dengan demikian diharapkan tingkat akurasi pada klasifikasi berita hoaks Bahasa Indonesia dengan metode naïve bayes yang menggunakan seleksi maju bisa meningkat.

Kata Kunci: Berita Hoaks; Forward Selection; Klasifikasi; Naïve Bayes

Abstract−Presently, hoaxes or fake news have become a serious threat to human life. Hoax news can not only cause material harm and chaos in society, but now fake news can also affect a person's psychology by causing fear and terror, and at worst, it can break national sovereignty. To process the classification, data miming is used so that it can be seen whether a news item is hoax or genuine news. In this study, researchers used naïve Bayes as a classification method. Then the researcher also uses the forward selection function used in the Naïve-Bayes method. Forward selection is the best regression model formation method based on an approach by selecting variables by including the independent variables that have the largest correlation values.

While the naïve Bayes algorithm works conditionally independent between predictions. Based on the tests that have been carried out on the classification of Indonesian hoaxes using Naïve Bayes and Forward Selection to obtain an accuracy of 84%, and a recall of 63.72% while the precision increases to 91.19% with an increase in accuracy of 8.8% and a recall of 8.19% and precision increased by 20.98%. It is hoped that the level of accuracy in the classification of Indonesian hoax news using the naïve Bayes method using forward selection can be increased.

Keywords: Classification; Forward Selection; Hoax News; Naïve Bayes

1. PENDAHULUAN

Pada saat ini banyak berita – berita yang berisi hoaks atau berita palsu bertebaran di internet. Bahkan berita palsu atau hoaks sangat cepat disebarkan oleh masyarakat sendiri yang sesungguhnya belum mengetahui kebenarannya.

Saat ini hoaks atau berita palsu sudah menjadi ancaman serius bagi kehidupan manusia, berita hoaks bukan hanya dapat menyebabkan kerugian materiil serta keonaran di masyarakat tetapi kini berita palsu juga dapat mempengaruhi psikologi seseorang dengan menimbulkan rasa takut dan terror serta paling parah bisa memecah kedaulatan bangsa. Dengan kondisi dimana saat ini banyak orang yang sering menjejalah di dunia maya, ada satu hal yang harus diperhatikan. Yaitu tidak semua berita atau hal yang ada di internet itu benar. Itu dikarenakan terdapat begitu banyak informasi atau berita palsu bertebaran atau hoaks [1][2]. Sekitar 800 ribu situs web digunakan sebagai sarana untuk menyebarkan berita palsu pada tahun 2019, menurut data Kementerian Komunikasi dan Informatika. Kemudian, studi yang dilakukan oleh Asosiasi Telematika Indonesia (Mastel) menemukan bahwa masyarakat menerima hingga 92,4 cerita hoaks melalui media sosial seperti Facebook, Twitter, dan Instagram [3]

Klasifikasi adalah pengelompokan data dimana data yang digunakan memiliki label atau kelas sasaran. Ini membagi algoritma untuk memecahkan masalah klasifikasi menjadi pembelajaran terawasi atau pembelajaran yang diawasi [4][5]. Tujuan pembelajaran terawasi adalah agar label atau target data bertindak sebagai "pemantau"

atau "guru" yang mengawasi proses pembelajaran untuk mencapai tingkat akurasi atau presisi tertentu [6].

Penelitian sebelumnya yang sudah pernah dilakukan yaitu metode naïve bayes yang digunakan pada beberapa bidang. Seperti deteksi virus, deteksi email palsu dan klasifikasi berita hoaks berbasis pembelajaran mesin [7].

Algoritma naïve bayes merupakan sebuah algoritma yang bekerja secara independensi bersyarat antar prediksi [8],[9]. Penelitian yang pernah dilakukan sebelumnya mengatakan bahwa algoritma naïve bayes merupakan sebuah algoritma yang bekerja secara independensi bersyarat antar prediksi. Naive Bayes adalah pengklasifikasi sederhana namun digunakan dengan baik berdasarkan statistic [10]. Dalam penambangan teks, keputusan dibuat berdasarkan ada atau tidak adanya fitur tertentu [11][12]. Itu berarti probabilitas berada di kelas

(2)

tertentu ditetapkan ke setiap fitur berdasarkan data pelatihan. Setelah semua probabilitas dihitung, keputusan dapat dibuat berdasarkan keberadaan fitur dalam set pengujian.

Penelitian sebelumnya yang sudah pernah dilakukan yaitu klasifikasi berita hoaks Bahasa Indonesia menggunakan metode naïve bayes yang dilakukan oleh Inggrid dkk [9]. Dari penelitian ini pula memberikan kontribusi sebuah dataset berita hoaks yang digunakan sebagai pengujian kali ini. Berdasar dari penelitian tersebut, maka penulis mendapatkan inspirasi untuk lebih meningkatkan akurasi pada klasifikasi berita hoaks bahasa Indonesia.

Forward selection adalah algoritma pencarian yang paling sederhana dinyatakan dalam penelitian sebelumnya [13], [14]. Pemilihan ke depan didasarkan pada model regresi linier. Seleksi maju adalah teknik untuk menambahkan variabel independen ke datase . Seleksi maju adalah pemodelan yang dimulai dengan nilai nol (model kosong) dan memasukkan variabel satu per satu hingga suatu kondisi terpenuhi. Penggunaan forward selection lebih bisa meningkatkan akurasi pada metode naïve bayes[15][16][17]. Metode Forward Selection dibutuhkan untuk lebih meningkatkan akurasi pada saat klasifikasi saat menggunakan metode Naïve Bayes.

Dengan demikian maka akan dihasilkan tingkat akurasi yang lebih tinggi pada metode klasifikasi. Sedangkan Z- transformation atau juga dikenal dengan normalisasi z-score memiliki hasil yang lebih bagus daripada metode normalisasi yang lain [18]–[21]. Metode ini bertujuan untuk menormalisasikan data sehingga proses pada saat klasifikasi akan lebih cepat atau tingkat akurasi akan meningkat.

Berdasarkan uraian diatas, maka tingkat akurasi pada klasifikasi berita hoaks Bahasa Indonesia dengan metode naïve bayes masih bisa ditingkatkan lagi dengan menggunakan forward selection.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Penelitian ini dilakukan dengan beberapa tahapan, secara garis besar tahapan penelitian dijelaskan pada gambar berikut ini:

\ Gambar 1. tahapan penelitian Penjelasan pada tahapan penelitian adalah sebagai berikut:

1. Analisa permasalan

Pada tahap awal penelitian yang dilakukan adalah analisa permasalahan. Dimulai dengan mencari review paper dan research paper yang berhubungan dengan klasifikasi teks, setelah itu mencari state of the art pada penelitian tentang klasifikasi berita hoaks.

2. Pengumpulan Data

Pada tahap ini merupakan langkah untuk mencari data penelitian. Data diperoleh dari data sekunder atau data yang sudah pernah dilakukan peneliti sebelumnya yang bersifat publik. Dataset ini diambil dari Mendeley pada alamat web : https://data.mendeley.com/datasets/p3hfgr5j3m/1

3. Preprocessing

Pada tahap ini dijelaskan langkah awal pada proses klasifikasi. Preprocssing terdapat beberapa proses, yaitu case folding, tokenizing, stopword serta dataset akan dilakukan normalisasi data menggunakan metode z score.

4. Eksperimen dan Pengujian Metode

Tahap ini menjelaskan tentang langkah – langkah algoritma yang digunakan pada penelitian sehingga membuktikan bahwa metode yang diusulkan dapat digunakan sebagai klasifikasi bertia hoaks. Algoritma yang digunakan adalah Naïve Bayes dengan ditambahkan proses Forward Selection untuk meningkatkan tingkat

(3)

akurasi. Pengujian dilakukan sebanyak dua kali, yang pertama pengujian klasifikasi berita hoaks menggunakan Naïve Bayes kemudian yang kedua klasifikasi berita hoaks menggunakan Naïve Bayes yang ditambahkan dengan Forward Selection untuk meningkatkan akurasi.

5. Evaluasi dan Validasi Hasil

Tahapan ini merupakan tahapan yang terakhir yaitu menjelaskan hasil dari pengujian serta membuktikan bahwa metode yang digunakan tepat dan mendapatkan hasil yang sesuai seperti yang diusulkan menggunakan Naïve Bayes kemudian yang kedua klasifikasi berita hoaks menggunakan Naïve Bayes yang ditambahkan dengan Forward Selection untuk meningkatkan akurasi.

2.2 Dataset

Penelitian ini menggunakan dataset publik pada penelitian sebelumnya yang diambil dari web Mendeley dengan jumlah 250 berita yang terdiri dari beberapa topik yaitu yaitu (1) Makan lele didalamnya terkandung sel kanker.

(2) Iphone 6 melengkung dengan mudah. (3) Tusuk jari dengan jarum dapat meringankan gejala pada pasien stroke. (4) Reog Ponorogo di Philipina yang dibakar. (5) Sikat gigi terbuat dari bulu babi. (6) Peserta aksi 212 tidak dapat memasuki masjid Istiqlal karena ditutup. (7) saat Gubernur Anies pidato, CTO Traveloka walk out. (8) Pokemon “GO” memiliki arti yaitu “Aku Yahudi”. (9) Kitab Al Quran di Mako Brimob yang dilempar. (10) Permen dot mengandung zat narkoba. Secara manual dataset dikumpulkan melalui mesin pencari Google. Dataset ini masih belum memiliki inisialisasi tanda. Oleh karena itu, tanda kelompok didapatkan dengan cara voting atau suara terbanyak. Hasil output dari sistem ini adalah berupa valid dan hoax, karena itu penggunaan responden harus ganjil sehingga didapatkan nilai valid dan hoax. Dengan cara memilih salah satu berita termasuk berita hoaks atau berita valid dengan cara responden memilih dan dihasilkan suara terbanyak dan nilai sama atau seri atau draw diantara para responden dapat dihindari.

Dataset dibagi menjadi 2 yaitu data trainer, data tester. Setiap dataset berita latih dan uji melalui tahap praproses. Hal ini dilakukan untuk mendapatkan model yang dikehendaki. Tahapan praproses terdiri dari case folding, tokenizing, stopword removal, term frequency, dan yang terakhir adalah z-transformation. Setelah tahapan proposes selesai dilakukan. Maka dilanjutkan perhitungan menggunakan metode naïve bayes dan forwards selection.

2.2.1. Case Folding

Case folding merupakan suatu proses dengan cara merubah huruf besar oada semua data menjadi huruf kecil serta untuk menghapus tanda baca. Sebagai contoh tahap case folding, maka akan diperoleh hasil yang ditampilkan pada table 1 dan 2.

Tabel 1. Dataset berita hoaks

No Berita Tagging

1 Ikan lele merupakan salah satu makanan favorit di Indonesia. Selain harganya murah, rasanya juga sangat enak.

Valid 2 Pertolongan Pertama Pada Penderita Stroke Stroke adalah penyakit yang menyerang saraf

yang terdapat pada otak sehingga menyebabkan berkurangnya fungsi anggota tubuh yang sarafnya sudah terserang.

Hoax

3 Pertama kalinya, pihak Apple cepat merespon dari keluhan iPhone 6 Plus yang melengkung, ketika disimpan di saku bagian depan.

Valid

Tabel 2. Hasil setelah case folding

No Berita Tagging

1 ikan lele merupakan salah satu makanan favorit di indonesia selain harganya murah rasanya juga sangat enak

Valid 2 pertolongan pertama pada penderita stroke stroke adalah penyakit yang menyerang saraf yang

terdapat pada otak sehingga menyebabkan berkurangnya fungsi anggota tubuh yang sarafnya sudah terserang

Hoax

3 pertama kalinya pihak apple cepat merespon dari keluhan iphone 6 plus yang melengkung ketika disimpan di saku bagian depan

Valid

2.2.2. Tokenizing

Selanjutnya dilakukan proses tokenizing yaitu memecah kalimat menjadi token. Proses ini memecah setiap kata pada sebuah kalimat yang kemudian dimasukan ke dalam sebuah array.

2.2.3. Stopword Removal

Proses stopword adalah proses menghapus kata pada dataset yang menggunakan koleksi stopword list yang dimiliki. Pada penelitian ini stopword list dari Talla F. Z yang digunakan. Kata yang terdapat dalam daftar stopword Talla F.Z merupakan kata yang dihapus. Sebagai contoh kata yang dihapus adalah kata “yang” dan “di”

(4)

karena kata – kata tersebut dianggap sebagai kata yang kurang penting dalam daftar stopword. Hasil dari penggunaan stop word ditampilkan pada tabel 3.

Tabel 3. Hasil setelah stopword

No Kata

1 pertama 2 kalinya 3 pihak 4 apple 5 cepat 6 merespon 7 dari 8 keluhan 9 iphone

10 6

11 plus 12 melengkung 13 ketika 14 disimpan 15 saku 16 bagian 17 depan 2.2.4. Term Frequency

Kemudian dilanjutkan pada proses Term Frequency, yaitu suatu metode algoritma yang berguna untuk menghitung bobot setiap kata yang umum digunakan. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat.

Metode ini akan menghitung nilai Term Frequency (TF) pada setiap token (kata) di setiap dokumen dalam korpus.

yaitu suatu metode algoritma yang berguna untuk menghitung bobot setiap kata yang umum digunakan. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) pada setiap token (kata) di setiap dokumen dalam korpus. Secara sederhana, metode TF digunakan untuk mengetahui berapa sering suatu kata muncul di dalam dokumen. Penggunaan TF dijelaskan pada tabel 4 dan tabel 5 dibawah ini.

Tabel 4. Tabel Data Trainer dan Data Tester

No Berita Tagging Keterangan

1 di jejaring sosial banyak beredar informasi yang menyebut lele sebagai ikan paling jorok dalam sesuap daging ikan lele terkandung 3000 sel kanker

Hoax Data Trainer 1 2 pada dasarnya tidak ada makanan yang membawa sel kanker jadi memang

tidak tepat bila dikatakan ikan lele membawa sel kanker dalam tubuhnya

Valid Data Trainer 2 3 dalam sesuap daging ikan lele terkandung 3000 sel kanker judul artikel

tersebut beberapa hari terakhir menjadi pembicaraan hangat di media sosial

? Data Tester

Tabel 5. Tabel Term Frequency Kata D1 D2 D3 artikel 0 0 1 beredar 1 0 0

daging 1 0 1

dasarnya 0 1 0

hangat 0 0 1

ikan 2 1 1

informasi 1 0 0 jejaring 1 0 0

jorok 1 0 0

judul 0 0 1

kanker 1 2 1

lele 2 1 1

makanan 0 1 0

media 0 0 1

membawa 0 2 0 menyebut 1 0 0 pembicaraan 0 0 1

(5)

Kata D1 D2 D3

sel 1 2 1

sesuap 1 0 1

sosial 1 0 1

terkandung 1 0 1 tubuhnya 0 1 0 2.2.5. Z-Transformation

Setelah itu dilanjutkan pada proses z-transformation dengan tujuan menyeimbangkan dataset yang digunakan sehingga menghasilkan perhitungan yang lebih akurat.

2.2.6. Classification Algorithm

Penelitian ini menggunakan algoritma naïve bayes sebagai klasifikasi berita hoaks. Dengan menggunakan pengalaman di masa sebelumnya sebagai pembelajaran digunakan Algoritma Naive Bayes untuk memprediksi peluang di masa depan. Metode probabilitas dan statistik yang digunakan pada klasifikasi Algoritma Naive Bayes dikemukakan oleh ilmuwan Inggris dengan nama Thomas Bayes. Dengan menggunakan pengalaman di masa sebelumnya sebagai pembelajaran digunakan Algoritma Naive Bayes untuk memprediksi peluang di masa depan.

Dengan memiliki beberapa ciri yaitu asumsi yang sangat kuat maka algoritma Naïve Bayes menghasilkan independensi dari masing-masing kondisi maupun kejadian.

2.2.7. Forward Selection

Metode Forward Selection dibutuhkan untuk lebih meningkatkan akurasi pada saat klasifikasi saat menggunakan metode Naïve Bayes. Dengan demikian maka akan dihasilkan tingkat akurasi yang lebih tinggi pada metode klasifikasi. Penggunaan forward selection lebih bisa meningkatkan akurasi pada metode naïve bayes. Metode Forward Selection dibutuhkan untuk lebih meningkatkan akurasi pada saat klasifikasi saat menggunakan metode Naïve Bayes. Dengan demikian maka akan dihasilkan tingkat akurasi yang lebih tinggi pada metode klasifikasi.

Tahap klasifikasi dengan menggunakan metode naïve bayes yang ditambahkan metode forward seleksi dilaksanakan setelah tahap preprocessing selesai.

2.3 Naïve Bayes

Naive Bayes merupakan sebuah metode klasifikasi menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris yang bernama Thomas Bayes. Algoritma Naive Bayes memprediksi peluang di masa depan dengan menggunakan pengalaman di masa sebelumnya sebagai pembelajaran. Ciri utama dari Naïve Bayes ini adalah memiliki asumsi yang sangat kuat akan independensi dari masing-masing kondisi maupun kejadian. Rumus dari naïve bayes terdapat pada gambar 2.

P(c|x) =

P(

x

|

c

)x P(c)

P(x)

(1)

Keterangan:

x : Data yang class belum diketahui c : Hipotesis data dengan class spesifik

P(c|x) : Probabilitas hipotesis yang didasari kondisi (posteriori probability) P(c) : Hipotesis Probabilitas (prior probability)

P(x|c) : Probabilitas yang didasari kondisi pada hipotesis P(x) : Probabilitas c

Kelebihan dari metode naïve bayes ditunjukan dibawah ini:

1. Menangani kuantitatif dan data diskrit

2. Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata – ratakan ketika mengestimasi peluang bersyarat data.

3. Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata – rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.

4. Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi peluang 5. Cepat dan efisiensi ruang

6. Kokoh terhadap atribut yang tidak relevan Kekurangan dari metode naïve bayes dibawah ini:

1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga

2. Mengasumsikan variabel bebas 2.4 Forward Selection

(6)

Forward selection adalah salah satu metode seleksi fitur yang akan digunakan penelitian kali ini. Seleksi fitur merupakan salah satu metode yang digunakan untuk menentukan atribut yang paling berpengaruh di dalam sebuah dataset. Seleksi fitur merupakan salah satu metode yang dapat digunakan mencari atribut yang sangat berpengaruh pada dataset. Di dalam dataset tidak semua fitur relevan dengan problema yang dihadapi, maka dari set fitur asli akan dipilih oleh seleksi fitur sebagai subset yang tepat. Dengan menambahkan variable bebas pada subset, maka akan didapat hasil pehitungan yang maksimal. Metode Forward Selection atau metode seleksi maju merupakan sebuah algoritma pencarian yang memiliki konsep sederhana. Model Regresi Linear merupakan dasar dari metode forward selection. Metode forward seleksi diawali dengan fitur kosong.

Pada tiap – tiap iterasi atau perulangan, akan ditambahakan fitur yang mempunyai pengaruh yang signifikan pada model yang bertujuan untuk meningkatkan model. Setelah itu ditambahkan dengan variabel baru yang tidak dapat kinerja model ditingkatkan. Metode Forward Selection dengan cara satu persatu peubah dimasukan sampai kriteria tertentu dipenuhi pada nol peubah (empty model). Penggunaan forward selection lebih bisa meningkatkan akurasi pada metode naïve bayes. Metode Forward Selection dibutuhkan untuk lebih meningkatkan akurasi pada saat klasifikasi saat menggunakan metode Naïve Bayes. Dengan demikian maka akan dihasilkan tingkat akurasi yang lebih tinggi pada metode klasifikasi.

3. HASIL DAN PEMBAHASAN

Pengujian pada penelitian ini menggunakan validasi 10-Fold Cross validation serta memakai shuffled sampling type. Pengujian pertama kali ini klasifikasi berita hoaks menggunakan metode naïve bayes. Hasil tingkat akurasi dari eksperimen berita hoaks dengan metode naïve bayes yang menggunakan validasi 10-Fold Cross validation serta memakai shuffled sampling type dapat memperoleh hasil tingkat akurasi hanya sebesar 75,20%, dan precission sebesar 70,21% sedangkan recall hanya mendapatkan hasil 55,53%. Hasil eksperimen ditunjukan tabel 6 dibawah ini:

Tabel 6. Tabel Akurasi Dengan Naïve Bayes Akurasi : 75,20%

Valid Hoax Class Precision

Valid 138 41 77,09%

Hoax 21 50 70,42%

Class recall 86,79% 54,95%

Klasifikasi berita hoaks dengan menggunakan algoritma Naïve Bayes menghasilkan tingkat akurasi 75,2%, yakni dengan nilai True Positif (TP) sebesar 138, dan nilai False Positif (FP) sebesar 21, sedangkan nilai False Negatif (FN) sebesar 41 dan nilai True Negatif (TN) sebesar 50, maka dapat dihitung melalui persamaan berikut ini:

Accuracy = TP+TN

TP+FP+FN+TN X 100 = 138+50

138+21+41+50 X 100 = 75,2%

Klasifikasi berita hoaks dengan menggunakan algoritma Naïve Bayes menghasilkan recall 55,53%, yakni dengan nilai True Positif (TP) sebesar 138, dan nilai False Positif (FP) sebesar 21 dan ditunjukkan pada tabel 7, sedangkan nilai False Negatif (FN) sebesar 41 dan nilai True Negatif (TN) sebesar 50. maka dapat dihitung melalui persamaan berikut ini:

Recall = TP

TP+TN X 100 = 138

138+50X 100 = 55,53%

Tabel 7. Tabel Recall Dengan Naïve Bayes Recall : 55,53%

Valid Hoax Class Precision

Valid 138 41 77,09%

Hoax 21 50 70,42%

Class recall 86,79% 54,95%

Klasifikasi berita hoaks dengan menggunakan algoritma Naïve Bayes menghasilkan presisi sebesar 70,21%, yakni dengan nilai True Positif (TP) sebesar 138, dan nilai False Positif (FP) sebesar 21 dan ditunjukkan pada tabel 8, sedangkan nilai False Negatif (FN) sebesar 41 dan nilai True Negatif (TN) sebesar 50, maka dapat dihitung melalui persamaan berikut ini:

Precision = TN

FP+TN x 10 = 50

21+50 x 100 = 70,21% (2)

Tabel 8. Tabel Presisi Dengan Naïve Bayes Presisi : 70,21%

(7)

Valid Hoax Class Precision

Valid 138 41 77,09%

Hoax 21 50 70,42%

Class recall 86,79% 54,95%

Hasil dari eksperimen klasifikasi berita hoaks dengan algoritma naïve bayes diatas dapat digambarkan dengan diagram batang pada gambar 2:

Gambar 2. Hasil Klasifikasi Naïve Bayes

Setelah pengujian pertama selesai, dilanjutkan pada pengujian kedua yaitu klasifikasi dengan menggunakan metode naïve bayes yang ditambahkan metode forward seleksi dan dilakukan setelah tahap preprocessing selesai.

Pada tahapan ini dimasukan variable bebas ke dalam datanya sehingga didapat hasil yang diinginkan. Tahap forward seleksi pada penelitian kali ini dengan menambahkan variable bebas pada kata daging dengan nilai 1 yang ditunjukan pada tabel 9 dibawah ini:

Tabel 9. Tabel Forward Selection Kata D1 D2 D3 FS artikel 0 0 1 0 beredar 1 0 0 0 daging 1 0 1 1 dasarnya 0 1 0 0 hangat 0 0 1 0

ikan 2 1 1 0

informasi 1 0 0 0 jejaring 1 0 0 0

jorok 1 0 0 0

judul 0 0 1 0

kanker 1 2 1 0

lele 2 1 1 0

makanan 0 1 0 0

media 0 0 1 0

membawa 0 2 0 0 menyebut 1 0 0 0 pembicaraan 0 0 1 0

sel 1 2 1 0

sesuap 1 0 1 0 sosial 1 0 1 0 terkandung 1 0 1 0 tubuhnya 0 1 0 0

Hasil tingkat akurasi dari eksperimen berita hoaks dengan metode naïve bayes yang ditambahkan metode forward seleksi serta menggunakan validasi 10-Fold Cross validation dan memakai shuffled sampling type dapat memperoleh hasil tingkat akurasi hanya sebesar 84%, dan precission sebesar 91,19% sedangkan recall mendapat hasil 63,72%. Hasil eksperimen ditunjukan pada tabel 10 dibawah ini:

Tabel 10. Tabel Akurasi Dengan Naïve Bayes dan Forward Selection Akurasi : 84%

Valid Hoax Class Precision

Valid 153 34 81,82%

0,00%

20,00%

40,00%

60,00%

80,00%

AKURASI RECALL PRESISI

Naive Bayes

(8)

Akurasi : 84%

Valid Hoax Class Precision

Hoax 6 57 90,48%

Class recall 96,23% 62,64%

Klasifikasi berita hoaks dengan menggunakan algoritma Naïve Bayes yang ditambahkan Forward Selection menghasilkan tingkat akurasi sebesar 84%, yakni dengan nilai True Positif (TP) sebesar 153, dan nilai False Positif (FP) sebesar 6, sedangkan nilai False Negatif (FN) sebesar 34 dan nilai True Negatif (TN) sebesar 57, maka dapat dihitung melalui persamaan berikut ini:

Accuracy = TP+TN

TP+FP+FN+TN X 10 = 153+57

153+6+34+57 X 100 = 91,19%

Klasifikasi berita hoaks dengan menggunakan algoritma Naïve Bayes yang ditambahkan Forward Selection menghasilkan tingkat recall 63,72%, yakni dengan nilai True Positif (TP) sebesar 153, dan nilai False Positif (FP) sebesar 6 dan ditunjukkan pada tabel 11, sedangkan nilai False Negatif (FN) sebesar 34 dan nilai True Negatif (TN) sebesar 57, maka dapat dihitung melalui persamaan berikut ini:

Recall = TP

TP+TN X 100 = 153

153+57X 100 = 63,72%

Tabel 11. Tabel Recall Dengan Naïve Bayes dan Forward Selection Recall : 63,72%

Valid Hoax Class Precision

Valid 153 34 81,82%

Hoax 6 57 90,48%

Class recall 96,23% 62,64%

Klasifikasi berita hoaks dengan menggunakan algoritma Naïve Bayes yang ditambahkan Forward Selection menghasilkan presisi sebesar 91,19%, yakni dengan nilai True Positif (TP) sebesar 153, dan nilai False Positif (FP) sebesar 6 dan ditunjukkan pada tabel 12, sedangkan nilai False Negatif (FN) sebesar 34 dan nilai True Negatif (TN) sebesar 57, maka dapat dihitung melalui persamaan berikut ini:

Precision = TN

FP+TN x 100 = 57

6+57 x 100 = 91,19%

Tabel 12. Tabel Presisi Dengan Naïve Bayes dan Forward Selection Presisi : 91,19%

Valid Hoax Class Precision

Valid 153 34 81,82%

Hoax 6 57 90,48%

Class recall 96,23% 62,64%

Hasil dari eksperimen klasifikasi berita hoaks dengan algoritma naïve bayes yang ditambahkan forward selection diatas dapat digambarkan dengan diagram batang sebagai berikut:

Gambar 3. Hasil Klasifikasi Naïve Bayes dan Forward Selection

Hasil perbandingan dari eksperimen klasifikasi berita hoaks yang menggunakan dua kali pengujian yang pertama pengujian dengan algoritma naïve bayes dan yang kedua pengujian menggunakan algoritma naïve bayes yang ditambahkan dengan forward selection dijelaskan pada table 9 dibawah berikut ini

Tabel 9. Hasil perbandingan klasifikasi

Naïve Bayes Naïve Bayes Dan Forward Selection Peningkatan

Akurasi 75,20% 84% 8,80%

0,00%

50,00%

100,00%

AKURASI RECALL PRESISI

Naive Bayes + Forward Selection

(9)

Naïve Bayes Naïve Bayes Dan Forward Selection Peningkatan

Recall 55,53% 63,72% 8,19%

Presisi 70,21% 91,19% 20,98%

Gambar 3. Hasil perbandingan klasifikasi

4. KESIMPULAN

Berdasarkan pengujian yang telah dilakukan tentang klasifikasi beria hoaks Bahasa Indonesia dengan menggunakan Naïve Bayes dan Forward Selection mendapatkan akurasi sebesar 84%, dan recall sebesar 63,72%

sedangkan presisi naik menjadi 91,19% dengan peningkatan akurasi sebesar 8,8% dan recall sebesar 8,19% dan presisi meningkat sebesar 20,98%. Maka dapat disimpulkan bahwa penggunaan Forward Selection pada Algoritma Naïve Bayes dapat meningkatkan akurasi yang digunakan untuk klasifikasi berita hoaks Bahasa Indonesia. Saran untuk penelitian selanjutnya adalah dengan menggunakan metode seleksi fitur dan dengan metode tambahan yang lain sehingga diharapkan bisa meningkatkan akurasi klasifikasi berita hoaks Bahasa Indonesia.

REFERENCES

[1] X. Zhang and A. A. Ghorbani, “An overview of online fake news: Characterization, detection, and discussion,” Inf.

Process. Manag., vol. 57, no. 2, p. 102025, 2020, doi: 10.1016/j.ipm.2019.03.004.

[2] C. S. Atodiresei, A. Tǎnǎselea, and A. Iftene, “Identifying Fake News and Fake Users on Twitter,” in Procedia Computer Science, Elsevier B.V., 2018, pp. 451–461. doi: 10.1016/j.procS.2018.07.279.

[3] N. Utami and R. Riyantini, “Kampanye Anti-Hoax Dan Sikap Bela Negara Anti Hoax Campaign and State Defense,”

Jurnal.Idu.Ac.Id, pp. 1–15, 2018, [Online]. Available:

http://jurnal.idu.ac.id/files/journals/18/articles/477/submission/review/477-2063-1-RV.pdf

[4] J. Kolluri and S. Razia, “Text classification using Naïve Bayes classifier,” Mater. Today Proc., p. S2214785320376252, 2020, doi: 10.1016/j.matpr.2020.10.058.

[5] D. Gunawan, R. Mahardika, F. Ranja, S. Purnamawati, and I. Jaya, “The identification of pornographic sentences in Bahasa Indonesia,” in Procedia Computer Science, Elsevier B.V., 2019, pp. 601–606. doi: 10.1016/j.procs.2019.11.162.

[6] G. F. Roberto, M. Z. Nascimento, A. S. Martins, T. A. A. Tosta, P. R. Faria, and L. A. Neves, “Classification of breast and colorectal tumors based on percolation of color normalized images,” Comput. Graph., vol. 84, pp. 134–143, Nov.

2019, doi: 10.1016/j.cag.2019.08.008.

[7] G. Kou, P. Yang, Y. Peng, F. Xiao, Y. Chen, and F. E. Alsaadi, “Evaluation of feature selection methods for text classification with small datasets using multiple criteria decision-making methods,” Appl. Soft Comput. J., vol. 86, p.

105836, 2020, doi: 10.1016/j.asoc.2019.105836.

[8] V. A. Fitri, R. Andreswari, and M. A. Hasibuan, “Sentiment analysis of social media Twitter with case of Anti-LGBT campaign in Indonesia using Naïve Bayes, decision tree, and random forest algorithm,” Procedia Comput. Sci., vol. 161, pp. 765–772, 2019, doi: 10.1016/j.procs.2019.11.181.

[9] I. Y. R. Pratiwi, R. A. Asmara, and F. Rahutomo, “Study of hoax news detection using naïve bayes classifier in Indonesian language,” in Proceedings of the 11th International Conference on Information and Communication Technology and System, ICTS 2017, Institute of Electrical and Electronics Engineers Inc., Jan. 2018, pp. 73–78. doi:

10.1109/ICTS.2017.8265649.

[10] S. Chen, G. I. Webb, L. Liu, and X. Ma, “A novel selective naïve Bayes algorithm,” Knowledge-Based Syst., vol. 192, p. 105361, 2020, doi: 10.1016/j.knosys.2019.105361.

[11] M. Artur, “Review the performance of the Bernoulli Naïve Bayes Classifier in Intrusion Detection Systems using Recursive Feature Elimination with Cross-validated selection of the best number of features,” Procedia Comput. Sci., vol. 190, no. 2019, pp. 564–570, 2021, doi: 10.1016/j.procs.2021.06.066.

[12] K. Mehmood, D. Essam, K. Shafi, and M. K. Malik, “An unsupervised lexical normalization for Roman Hindi and Urdu sentiment analysis,” Inf. Process. Manag., vol. 57, no. 6, p. 102368, 2020, doi: 10.1016/j.ipm.2020.102368.

[13] M. S. N. Van Delsen, H. W. M. Patty, and N. L. Lalurmele, “Model Regresi Linier Dengan Metode Backward Dan Forward ( Studi Kasus : Pendapatan Pajak Daerah Kota Ambon 2007-2016 ),” Variance, vol. 1, pp. 1–10, 2019.

[14] C. Yang, X. Zhu, J. Qiao, and K. Nie, “Forward and backward input variable selection for polynomial echo state networks,” Neurocomputing, vol. 398, pp. 83–94, 2020, doi: 10.1016/j.neucom.2020.02.034.

[15] F. Macedo, M. Rosário Oliveira, A. Pacheco, and R. Valadas, “Theoretical foundations of forward feature selection methods based on mutual information,” Neurocomputing, vol. 325, pp. 67–89, 2019, doi: 10.1016/j.neucom.2018.09.077.

0,00%

50,00%

100,00%

AKURASI RECALL PRESISI

PERBANDINGAN PENGUJIAN

NAÏVE BAYES & FORWARD SELECTION NAÏVE BAYES

(10)

[16] M. M. Saritas, “Performance Analysis of ANN and Naive Bayes Classification Algorithm for Data Classification,” Int.

J. Intell. Syst. Appl. Eng., vol. 7, no. 2, pp. 88–91, 2019, doi: 10.18201/ijisae.2019252786.

[17] A. Tommasel and D. Godoy, “A Social-aware online short-text feature selection technique for social media,” Inf. Fusion, vol. 40, pp. 1–17, 2018, doi: 10.1016/j.inffus.2017.05.003.

[18] D. Wu, X. Ma, and D. L. Olson, “Financial distress prediction using integrated Z-score and multilayer perceptron neural networks,” Decis. Support Syst., vol. 159, no. May, p. 113814, 2022, doi: 10.1016/j.dss.2022.113814.

[19] M. N. Alenezi and F. S. Al-Anzi, “A Study of Z-Transform Based Encryption Algorithm,” Int. J. Commun. Networks Inf. Secur., vol. 13, no. 2, pp. 302–309, 2021, doi: 10.54039/ijcnis.v13i2.5052.

[20] L. Zhu, M. Li, and N. Metawa, “Financial Risk Evaluation Z-Score Model for Intelligent IoT-based Enterprises,” Inf.

Process. Manag., vol. 58, no. 6, p. 102692, 2021, doi: 10.1016/j.ipm.2021.102692.

[21] S. Urolagin, N. Sharma, and T. K. Datta, “A combined architecture of multivariate LSTM with Mahalanobis and Z-Score transformations for oil price forecasting,” Energy, vol. 231, p. 120963, 2021, doi: 10.1016/j.energy.2021.120963.

Referensi

Dokumen terkait

Judul Tesis : Deteksi Jenis Emosi dari Teks Bahasa Indonesia Menggunakan Keyword-Spotting dan Naive Bayes.. menyatakan bahwa penelitian ini adalah hasil pemikiran sendiri

Dari hasil pengujian sistem pendukung keputusan serta penelitian dari pihak perusahaan, Maka dapat di simpulkan dari sistem pendukung keputusan ini pengguna yang sebagai

Hasil evaluasi klasifikasi sentimen terhadap PSBB di Jakarta dengan menggunakan metode Naïve Bayes Classifier dengan 80% data latih dan 20% data uji serta dilakukan

Untuk melakukan pengujian pada sistem pakar ini, kita menggunakan metode pengujian black box, yang berfokus pada persyaratan fungsional dari sistem pakar dan fitur hasil diagnosis

Sistem Pendukung Keputusan (SPK) agar dapat mendapatkan hasil yang tepat dan akurat, maka dengan adanya sistem pengambil keputusan yang terkait dengan masalah

Dengan pengujian menggunakan 3 dataset yang memiliki jumlah data yang berbeda, dan setelah mendapatkan hasil tingkat akurasi dari proses analisis sentimen dapat disimpulkan bahwa jumlah

Dilakukan pengujian pada data test untuk mengetahui nilai accuracy, precission, recall, dan f1-score HASIL DAN PEMBAHASAN Dataset yang digunakan pada penelitian ini adalah dataset

2.7 Pengujian Setelah mendapatkan hasil dari keseluruhan tahapan LSTM yaitu tahap training ,dibentuklah tabel dan grafik yang berisi hasil akurasi serta data aktual dan data prediksi