• Tidak ada hasil yang ditemukan

Perbandingan Klasifikasi Berita Hoax Kategori Kesehatan Menggunakan Metode Naïve Bayes dan Multinomial Naïve Bayes

N/A
N/A
Protected

Academic year: 2022

Membagikan "Perbandingan Klasifikasi Berita Hoax Kategori Kesehatan Menggunakan Metode Naïve Bayes dan Multinomial Naïve Bayes"

Copied!
17
0
0

Teks penuh

(1)

Perbandingan Klasifikasi Berita Hoax Kategori Kesehatan Menggunakan Metode Naïve Bayes dan

Multinomial Naïve Bayes

Tugas Akhir

Chita Nauly Harahap 201710370311194

Bidang Minat Data Science

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2021

(2)

i

LEMBAR PERSETUJUAN

PERBANDINGAN KLASIFIKASI BERITA HOAX KATEGORI KESEHATAN MENGGUNAKAN METODE NAÏVE BAYES DAN

MULTINOMIAL NAÏVE BAYES

Chita Nauly Harahap 201710370311194

Telah Direkomendasikan Untuk Ditujukan Sebagai Judul Tugas Akhir

Di Program Studi Informatika Universitas Muhammadiyah Malang

Menyetujui,

Dosen Pembimbing I Dosen Pembimbing II

Gita Indah Marthasari, S.T., M.Kom Nur Hayatin S, S.T., M.Kom

NIP. 108.0611.0442 NIDN. 0726038402

(3)

ii

LEMBAR PENGESAHAN

(4)

iii

(5)

iv

LEMBAR PERSEMBAHAN

Puji syukur kepada Allah SWT atas segala rahmat dan karunia-Nya yang telah dilimpahkan sehingga penulis dapat menyelesaikan perkuliahan dan Tugas Akhir ini. Banyak pihak - pihak yang terlibat dalam proses pengerjaan dan penulisan Tugas Akhir ini, maka dengan itu pada kesempatan ini penulis mengucapkan terima kasih yang tak terhingga kepada seluruh pihak yang terlibat, khususnya untuk:

1. Ibu Hj. Gita Indah Marthasari, S.T., M.Kom., selaku Dekan Fakultas Teknik Informatika Universitas Muhammadiyah Malang sekaligus Dosen Pembimbing I yang telah memberikan arahan selama pengerjaan tugas akhir.

2. Ibu Nur Hayatin S, S.T., M.Kom., selaku Dosen Pembimbing II yang telah meluangkan waktunya untuk membimbing penulis dalam pengerjaan tugas akhir.

3. Bapak Zamah Sari, S.T., M.T., serta Bapak Didih Rizki Chandranegara, S.Kom., M.Kom., selaku Dosen Penguji seminar proposal tugas akhir yang telah memberikan kritik dan saran untuk penulis.

4. Bapak Wildan Suharso, S.Kom., M.Kom., serta Bapak Didih Rizki Chandranegara, S.Kom., M.Kom., selaku Dosen Penguji sidang tugas akhir yang telah memberikan kritik dan saran untuk penulis

5. Seluruh Dosen serta Staff Program Studi Teknik Informatika Universitas Muhammadiyah Malang yang telah memberikan ilmu, wawasan, dan bantuan yang besar selama penulis menyelesaikan masa studi.

6. Seluruh keluarga penulis Ayah, Ibu, Mas Riski, Adik Erfin, serta Adik Anggi yang telah memberika doa, kasih sayang, dan support kepada penulis dalam menyelesaikan studi.

7. Sahabat-sahabat saya Ferin, Defina, Silsi, Rista, Nanda, dan Kak Pratama yang selalu memberikan bantuan, dukungan, dan menemani saya selama berada di Malang.

8. Sahabat SMA saya Agustina, Devinta, Meichita, Dinda, Prita, Pristina, dan lainnya yang selalu menghibur dan memberikan semangat agar dapat menyelesaikan tugas akhir.

(6)

v

9. Kepada Day6 yang telah membuat penulis berani mengambil langkah besar.

Serta jajaran sub unit NCT yang telah menghibur dan menemani penulis dengan karya-karya mereka. Sehingga penulis tidak mersa kesepian dalam menyelesaikan studi dan masa pengerjaan tugas akhir.

10. Seluruh teman-teman yang penulis kenal, terima kasih telah menjadi bagian dari selesainya masa studi penulis.

Malang, 6 Mei 2021

Penulis

(7)

vi

KATA PENGANTAR

Dengan memanjatkan puji syukur kehadirat Allah SWT atas limpahan rahmat dan hidayah-Nya sehingga penulis dapat meneyelesaikan tugas akhir yang berjudul

“PERBANDINGAN KLASIFIKASI BERITA HOAX KATEGORI KESEHATAN MENGGUNAKAN METODE NAÏVE BAYES DAN

MULTINOMIAL NAÏVE BAYES”

Di dalam penelitian ini disajikan pokok-pokok pembahasan yang meliputi pengambilan data berita kesehatan, pembersihan data berita (preproses), pemberian nilai disetiap kata serta perhitungan nilai atau akurasi dari klasifikasi menggunakan dua metode dengan stratified k-fold cross validation. Tugas akhir ini merupakan salah satu syarat studi yang harus ditempuh oleh seluruh mahasiswa Universitas Muhammadiyah Malang, guna menyelesaikan studi pada jenjang program strata 1.

Penulis menyadari sepenuhnya bahwa dalam pengerjaan dan penulisan tugas akhir ini masih banyak kesalahan dan kekurangan. Oleh karena itu penulis mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu dan pengetahuan.

Malang, 6 Mei 2021

Penulis

(8)

vii ABSTRAK

Berita kesehatan merupakan informasi yang paling dicari dan diminati pada masa pandemi, kebutuhan akan perlunya kiat-kiat kesehatan untuk masyarakat membuat berita kesehatan menduduki peringkat atas berita terpopuler. Disaat meningkatnya minat baca masyarakat terhadap berita, banyak pihak tidak bertanggung jawab memanfaatkan keuntungan tersebut dengan menyebarkan berita tidak benar yang menggiring opini masyarakat agar menyudutkan pihak tertentu dan berisi informasi yang melenceng dari pendapat ahli kesehatan. Oleh karena itu salah satu cara untuk mengatasi tersebarnya berita hoax penelitian ini melakukan klasifikasi berita kesehatan berbahasa Indonesia secara otomatis. Pada penelitian ini dataset yang digunakan meliputi berita kesehatan non-hoax dan berita kesehatan hoax. Proses klasifikasi memalui tahap preproses, pembobotan kata, dan implementasi pada metode naïve bayes dan multimonial naïve bayes. Evaluasi model menggunakan metode 10-fold cross validation, metode multinomial naïve bayes bekerja lebih baik dan efisien dari dapa metode naïve bayes.

Kata Kunci : Naïve bayes, multinomial naïve bayes, klasifikasi, berita kesehatan

(9)

viii ABSTRACT

Health news is the most sought-after information and is in demand during a pandemic, the need for health tips for the public makes health news at the top of most popular news. When the public's interest in reading news increases, many parties are not responsible for taking advantage of this chance by created and spreading hoax news. It may leads public opinion to corner certain parties. Hoax news also contains information that deviates from the opinion of health experts and it can be danger for public. Therefore, one way to overcome the spread of hoax news in this research is classification health news in Indonesian automatically. In this study, the dataset used was includes non-hoax health news and hoax health news. The classification process goes through preprocessing, word weighting, and implementation of the Naïve Bayes method and the Multinomial Naïve Bayes method. The evaluation of the model uses the 10-fold cross-validation method, the Multinomial Naive Bayes method is more better and efficient than the Naïve Bayes method.

Keywords : Naïve bayes, multninomial naive bayes, classification, health news

(10)

ix DAFTAR ISI

LEMBAR PERSETUJUAN... i

LEMBAR PENGESAHAN ... ii

LEMBAR PERNYATAAN ... iii

LEMBAR PERSEMBAHAN ... iv

KATA PENGANTAR ... vi

ABSTRAK ... vii

ABSTRACT ... viii

DAFTAR ISI ... ix

DAFTAR TABEL ... xi

DAFTAR GAMBAR ... xii

BAB I ... 1

PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan Penelitian ... 2

1.4 Manfaat Penelitian ... 2

1.5 Batasan Masalah... 3

1.6 Sistematika Penulisan ... 3

BAB II ... 5

TINJAUAN PUSTAKA ... 5

2.1 Penelitian Terdahulu ... 5

2.2 Berita Kesehatan Hoax ... 6

2.3 Klasifikasi Teks ... 8

2.4 Praproses ... 8

2.5 Pembobotan Kata ... 10

2.5.1 Term Frequency (TF) ... 10

2.5.2 Invers Document Frequency (IDF) ... 10

2.6 Metode Naïve Bayes ... 10

2.7 Metode Multinomial Naïve Bayes ... 11

2.8 Evaluasi Model... 11

BAB III ... 13

METODE PENELITIAN ... 13

3.1 Pengumpulan Data ... 14

(11)

x

3.2 Praproses ... 17

3.3 Pembobotan Kata ... 22

3.3.1 Term Frequency ... 22

3.3.2 Invers Document Frequency ... 23

3.4 Implementasi ... 24

3.4.1 Naïve Bayes ... 25

3.4.2 Multinomial Naïve Bayes ... 26

3.5 Evaluasi Model... 26

BAB IV ... 28

HASIL DAN PEMBAHASAN ... 28

4.1 Data Berita Kesehatan ... 28

4.2 Praproses ... 29

4.3 Pembototan Kata ... 32

4.4 Implementasi ... 34

4.4.1 Implementasi Naïve Bayes ... 35

4.4.2 Implementasi Multinomial Naive Bayes ... 36

4.5 Evaluasi Model... 36

4.5.1 Model Naïve Bayes ... 37

4.5.2 Model Multinomial Naïve Bayes ... 40

4.6 Analisis Hasil ... 44

BAB V ... 47

KESIMPULAN DAN SARAN ... 47

5.1 Kesimpulan ... 47

5.2 Saran ... 47

DAFTAR PUSTAKA ... 48

(12)

xi

DAFTAR TABEL

Tabel 2.1 Penelitian Sejenis ... 5

Tabel 2.2 Berita Manipulasi Rasional ... 7

Tabel 2.3 Berita Manipulasi Emotif ... 7

Tabel 2.4 Berita Manipulasi Evaluatif... 7

Tabel 2.5 Confusion Matrix ... 12

Tabel 3.1 Contoh Data Berita Kesehatan Hoax ... 14

Tabel 3.2 Contoh Data Berita Kesehatan Valid ... 16

Tabel 3.3 Proses Case Folding - Cleaning ... 17

Tabel 3.4 Proses Tokenizing ... 18

Tabel 3.5 Proses Stopwords Remowal ... 20

Tabel 3.6 Proses Stemming ... 21

Tabel 3.7 Berita Kesehatan... 22

Tabel 3.8 Perhitungan TF (Term Frequency) ... 22

Tabel 3.9 Perhitungan TF - IDF ... 23

Tabel 3.10 Hasil Iterasi K ... 26

Tabel 3.11 Confusion Matrix Berita Kesehatan ... 27

Tabel 4.1 Spesifikasi Perangkat keras dan Perangkat Lunak ... 28

Tabel 4.2 Hasil Iterasi K=10 Metode Naïve Bayes ... 37

Tabel 4.3 Hasil Precision, Recall, dan f-measure ... 40

Tabel 4.4 Hasil Iterasi K=10 Metode Multinomial Naïve Bayes ... 40

Tabel 4.5 Hasil Precision, Recall, dan f-measure ... 43

Tabel 4.6 Hasil 10-Fold Cross Validation ... 44

Tabel 4.7 Perbandingan Hasil Akurasi ... 45

Tabel 4.8 Perbandingan Precision, Recall, dan f-measure ... 45

(13)

xii

DAFTAR GAMBAR

Gambar 1 Metode Penelitian ... 13

Gambar 2 Split Dataset pada Cross Validation ... 25

Gambar 3 Flowchart Naïve Bayes ... 26

Gambar 4 Flowchart Multinomial Naïve Bayes ... 26

Gambar 5 Pemrosesan Crawling ... 28

Gambar 6 Halaman Website Berhasil di Crawling ... 29

Gambar 7 Library Pyhton ... 29

Gambar 8 Memuat dan Menggabungkan Dataset ... 30

Gambar 9 Synthax Case Folding, Cleaning, dan Tokenizer... 30

Gambar 10 Synthax Stopword Sastrawi... 31

Gambar 11 Stopword Satrawi ... 31

Gambar 12 Synthax Stemming Sastrawi ... 31

Gambar 13 Synthax Stopword dan Normalisasi Extra ... 31

Gambar 14 Data Bersih Berita Kesehatan ... 32

Gambar 15 Synthax TF-IDF ... 33

Gambar 16 Synthax 10 Kata Nilai TF-IDF Tertinggi ... 33

Gambar 17 Library Pyhton Implementasi ... 34

Gambar 18 Synthax X dan y ... 34

Gambar 19 Synthax Split Data ... 34

Gambar 20 Synthax Fungsi Numerical ... 35

Gambar 21 Synthax Fungsi Preprocessor ... 35

Gambar 22 Synthax StratifiedKFold ... 35

Gambar 23 Synthax Tunning Parameter NB ... 35

Gambar 24 Synthax Implementasi Naïve Bayes... 36

Gambar 25 Synthax Tunning Parameter MNB ... 36

Gambar 26 Synthax Implementasi Multinomial Naïve Bayes... 36

Gambar 27 Synthax Hasil Cross Validation NB ... 37

Gambar 28 Synthax Akurasi Naïve Bayes ... 37

Gambar 29 Grafik Akurasi Naïve Bayes ... 38

Gambar 30 Synthax dan Tabel Probabilitas NB ... 38

Gambar 31 Synthax Confusion Matrix NB ... 39

Gambar 32 Confusion Matrix 4 Split Data ... 39

(14)

xiii

Gambar 33 Synthax Hasil Cross Validation MNB ... 40

Gambar 34 Synthax Akurasi MNB ... 41

Gambar 35 Grafik Akurasi MNB ... 41

Gambar 36 Synthax dan Tabel Probabilitas MNB... 42

Gambar 37 Synthax dan Plot Confusion Matrix MNB ... 42

Gambar 38 Confusion Matrix 4 Split Data ... 43

(15)

48

DAFTAR PUSTAKA

[1] D. N. Chandra, G. Indrawan, and I. N. Sukajaya, “Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram,” vol. 10, no. 1, pp. 11–19, 2016.

[2] T. Trisna et al., “ANALYSIS AND DETECTION OF HOAX CONTENTS IN INDONESIAN NEWS BASED ON MACHINE LEARNING,” vol. 4, no. 1, 2019.

[3] H. Mustofa, A. A. Mahfudh, I. Negeri, and W. Semarang, “Klasifikasi Berita Hoax Dengan Menggunakan Metode Naive Bayes,” vol. 1, no. 1, pp. 1–12, 2019.

[4] A. R. Prasetyo and P. P. Adikara, “Klasifikasi Hoax Pada Berita Kesehatan Berbahasa Indonesia Dengan Menggunakan Metode Modified K-Nearest Neighbor,” vol. 2, no. 12, pp. 7466–7473, 2018.

[5] A. Rahman and A. Doewes, “Online News Classification Using Multinomial Naive Bayes,” 2017. [Online]. Available: www.kompas.com.

[6] F. Rahutomo, I. Yanuar, R. Pratiwi, and D. M. Ramadhani, “EKSPERIMEN NAÏVE BAYES PADA DETEKSI BERITA HOAX BERBAHASA INDONESIA NAÏVE BAYES ’ S EXPERIMENT ON HOAX NEWS DETECTION IN,” 2019.

[7] A. Sabrani, I. W. G. P. W. Wedashwara, and F. Bimantoro, “METODE MULTINOMIAL NAÏVE BAYES UNTUK KLASIFIKASI ARTIKEL ONLINE TENTANG GEMPA DI INDONESIA (Multinomial Naïve Bayes Method for Classification of Online Article About Earthquake in Indonesia),” 2020. [Online].

Available: http://jtika.if.unram.ac.id/index.php/JTIKA/.

[8] H. Ashari, D. Arifianto, and H. A. A. Faruq, “PERBANDINGAN

KINERJA ALGORITMA MULTINOMIAL NAÏVE BAYES (MNB),

MULTIVARIATE BERNOULLI DAN ROCCHIO ALGORITHM DALAM KLASIFIKASI KONTEN BERITA HOAX BERBAHASA INDONESIA PADA MEDIA SOSIAL,” p. 12.

[9] H. Haikal, “Persepsi Masyarakat terhadap Hoax Bidang Kesehatan,”

JMIAK, vol. 3, no. 2, Nov. 2020, doi: 10.32585/jmiak.v3i2.836.

[10] M. M. S. Wardani, “MANIPULASI BAHASA DALAM TEROR KABAR BOHONG (HOAX),” p. 9.

[11] A. Ridok and R. Latifah, “Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN,” p. 6.

[12] Y. Pramudita, U. T. Madura, S. S. Putro, and U. T. Madura, “Klasifikasi Berita Olahraga Menggunakan Metode Naïve Bayes dengan Enhanced Confix Stripping Stemmer,” no. August 2018, 2019, doi: 10.25126/jtiik.201853810.

(16)

49

[13] S. Mujilahwati, P. Studi, T. Informatika, F. Teknik, U. I. Lamongan, and D.

Mining, “PRE-PROCESSING TEXT MINING PADA DATA TWITTER,” vol.

2016, no. Sentika, pp. 18–19, 2016.

[14] S. R. Afif, P. Sukarno, and M. A. Nugroho, “Analisis Perbandingan Algoritma Naive Bayes dan Decision Tree untuk Deteksi Serangan Denial of Service (DoS) pada Arsitektur Software Defined Network (SDN),” 2018.

[15] D. H. Kalokasari, I. M. Shofi, and A. H. Setyaningrum, “IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR ( Studi Kasus : DISKOMINFO Kabupaten Tangerang ),” vol. 10, no. 2, 2017, doi: 10.15408/jti.v10i2.6822.

[16] A. Afriza and J. Adisantoso, “Metode Klasifikasi Rocchio untuk Analisis Hoax Rocchio Classification Method for Hoax Analysis,” Jurnal Ilmu Komputer Agri-Informatika, vol. 5, pp. 1–10, 2018, [Online]. Available:

http://journal.ipb.ac.id/index.php/jika.

[17] C. Anam and H. Budi Santoso, “Perbandingan Kinerja Algoritma C4.5 dan Naive Bayes untuk Klasifikasi Penerima Beasiswa,” vol. 8, no. 1, pp. 13–19, May 2018.

[18] A. P. Wijaya and H. A. Santoso, “Naive Bayes Classification pada Klasifikasi Dokumen Untuk Identifikasi Konten E-Government Naïve Bayes Classification on Document Classification to Identify E-Government Content,”

Journal of Applied Intelligent System, vol. 1, no. 1, pp. 48–55, 2016.

[19] F. R. Aad Miqdad Muadz Muzad, “KORPUS BERITA DARING BAHASA INDONESIA DENGAN DEPTH FIRST FOCUSED CRAWLING,” vol. 01, pp.

15–16, 2016.

[20] B. H. Prakoso, “Pengaruh Preprocessing Data pada Metode SVR dalam Memprediksi Permintaan Obat,” vol. 2, no. 2, p. 8, 2017.

(17)

50

Referensi

Dokumen terkait

Rendemen yang dihasilkan pada proses pembuatan bioetanol dari ubi kayu sangat tergantung pada kemampuan proses hidrolisis komponen-komponen ubi kayu terutama pati menjadi

Technical Assistance for Institutional Development in Participatory Irrigation Management (IDPIM) Water Resources and Irrigation Sector Management Project (WISMP) Indonesia Deputi

Skripsi yang berjudul “Pengaruh Teknik Penyampaian, Pesan, Metode dan Media Terhadap Tingkat Pengetahuan Pekerja Tentang Manajemen Risiko K3 (Studi pada Unit Amoniak

Pengaruh faktor sosial, ekonomi, dan fisik terhadap indeks perkembangan wilayah kecamatan di Kabupaten Mojokerto dianalisis melalui hasil olah data dengan model

1) Pencurian dengan Kekerasan (pasal 365),tindak pidana pokoknya adalah pencurian, sedangkan kejahatan dalam pasal 339 tindak pidana pokoknya adalah pembunuhan. 2) Kematian

Pengembangan staf merupakan bidang yang penting dari supervisi, karena salah satu sasaran supervisi adalah pengembangan staf yang merupakan pelayanan untuk membantu

Perumusan masalah dalam penelitian ini adalah Bagaimanakah Pelayanan Jamkesda Ditinjau Dari Perspektif Transparansi Dan Akuntabilitas (Studi Kasus di RSU Dr. Wahidin Sudiro

Sistem loop tertutup adalah sebuah sistem pengendalian dengan nilai keluaran yang dihasilkan dari sistem tersebut, berpengaruh terhadap sinyal masukan sistem