IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN
INDIKASI DEPRESI
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)
Andre Budiman 00000032851
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG 2021
ii
LEMBAR PENGESAHAN
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN INDIKASI
DEPRESI
Oleh
Nama : Andre Budiman NIM : 00000032851 Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika
Tangerang, 20 Januari 2021 Ketua Penguji
Marlinda Vasty Overbeek, S.Kom, M.Kom
Dosen Penguji
Eunike Endariahna Surbakti, S.Kom., M.T.I
Dosen Pembimbing I
Julio Christian Young, M. Kom
Dosen Pembimbing II
Alethea Suryadibrata, S.Kom, M.Eng
Mengetahui,
Ketua Program Studi Informatika
Marlinda Vasty Overbeek, S.Kom, M.Kom
iii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT
Dengan ini saya:
Nama : Andre Budiman
NIM : 00000032851
Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika
Menyatakan bahwa skripsi yang berjudul “Implementasi Algoritma Naïve Bayes Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi” ini adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.
Tangerang, 20 Januari 2021
Andre Budiman
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:
Nama : Andre Budiman
NIM : 00000032851
Program Studi : Informatika
Fakultas : Fakultas Teknik dan Informatika Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non- exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN INDIKASI
DEPRESI Beserta perangkat yang diperlukan.
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantara berhak menyimpan, mengalih media atau format-kan, mengelola dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.
v Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.
Tangerang, 20 Januari 2021
Andre Budiman
vi
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya yang sudah menyertai orang-orang dan penulis sehingga dapat menyelesaikan laporan Skripsi. Laporan Skripsi yang berjudul “Implementasi Algoritma Naïve Bayes Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi” diajukan kepada Program Studi Informatika, Fakultas Teknik dan Informatika, Universitas Multimedia Nusantara sebagai salah satu syarat kelulusan.
Penulis menyadari bahwa penyusunan laporan skripsi tidak mungkin dapat diselesaikan dengan baik tanpa adanya bantuan dan dorongan dari berbagai pihak.
Oleh karena itu, penulis ingin mengucapkan terima kasih kepada:
1. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara, yang memberi insiprasi bagi penulis untuk berprestasi,
2. Dr. Eng. Niki Prastomo, S.T., M.Sc., Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,
3. Marlinda Vasty Overbeek, S.Kom, M.Kom, Ketua Program Studi Informatika Universitas Multimedia Nusantara,
4. Julio Christian Young, M.Kom, sebagai dosen pembimbing I dan dosen pembimbing akademis yang membimbing pembuatan laporan Skripsi dan yang telah mengajar penulis tata cara menulis karya ilmiah dengan benar, 5. Alethea Suyadibrata, S.Kom., M.Eng, sebagai dosen pembimbing II yang
telah membantu dalam membimbing pembuata laporan Skripsi dan telah mengajar tata cara menulis karya ilmiah dengan benar,
vii 6. Patricia Astrid Nadia, S.Psi dan Narasumber lainnya, sebagai narasumber yang membantu dalam memberikan arahan dalam melakukan indikasi terhadap konten Twitter,
7. Orang tua yang memberikan dukungan,
8. Teman-teman dari prodi Informatika yang sudah mendukung dalam pengerjaan skripsi,
Semoga laporan Skripsi ini dapat menjadi sumber informasi yang bermanfaat bagi orang yang membaca
Tangerang, 20 Januari 2021
Andre Budiman
viii
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN
INDIKASI DEPRESI
ABSTRAK
Depresi merupakan salah satu masalah kesehatan paling umum dan memiliki dampak yang sangat besar. Depresi ditandai atau dipengaruhi oleh banyak aspek, termasuk pengalaman hidup, pekerjaan, kehidupan sosial. Pada tahun 2018, tercatat 6.1% dari 267.7 juta jiwa mengalami gangguan mental di Indonesia. Hal ini juga berhubungan dengan stigma akan penyakit kejiwaan dan rendahnya kesadaran dalam menjalani pengobatan kepada ahli. Pengekspresian diri saat ini kerap kali dilakukan dengan membuat postingan pada media sosial. Twitter adalah salah satu dari alat pengekspresian diri atau emosi dalam bentuk tekstual yang sering digunakan untuk mengekspresikan diri. Penelitian ini didasari pada data yang dikumpulkan dari Twitter dengan konten bahasa Indonesia. Data yang dikumpulkan kemudian dikategorikan ke dalam “Terindikasi Depresi” dan “Tidak Terindikasi Depresi” yang didasari oleh pengertian dan faktor lainnya. Model prediktif yang digunakan adalah Multinomial Naïve Bayes dan Complement Naïve Bayes dengan bantuan metode ekstraksi fitur Term Frequency – Inverse Document Frequency (TF-IDF) dan Grid-Search Cross Validation dalam melakukan pembobotan kata dan pencarian parameter terbaik. Hasil akurasi terbaik yang dihasilkan oleh model Multinomial Naïve Bayes berada pada 93.85% dan model Complement Naïve Bayes berada pada 93.35%.
Kata kunci: Analisis Sentimen, Depresi, TF-IDF¸ Multinomial Naïve Bayes, Complement Naïve Bayes
ix
NAÏVE BAYES ALGORITHM IMPLEMENTATION TO CLASSIFY TWITTER CONTENT
WITH DEPRESSION INDICATION
ABSTRACT
Depression is one of the most common health problems and has a huge impact.
Depression is characterized or influenced by many aspects, including life experiences, work, social life. In 2018, 6.1% of the 267.7 million people experienced mental disorders in Indonesia. This is also related to the stigma of psychiatric illness and low awareness of undergoing treatment to experts. Today's self-expression is often done by making posts on social media. Twitter is one of the tools of self-expression or emotion in textual form which is often used to express oneself. This research is based on data collected from Twitter with Indonesian language content. The data collected were then categorized into "Depression Indication" and "No Depression Indication" which were based on definitions and other factors. The predictive models used are Multinomial Naïve Bayes and Complement Naïve Bayes with the help of Term Frequency - Inverse Document Frequency (TF-IDF) as feature extractor and Grid-Search Cross Validation in weighting words and searching for the parameters best. The best accuracy results produced by the model Multinomial Naïve Bayes are at 93.85% and the model Complement Naïve Bayes is at 93.35%.
Keywords: Sentiment Analysis, Depression, Multinomial Naïve Bayes, Complement Naïve Bayes, TF-IDF
x
DAFTAR ISI
LEMBAR PENGESAHAN ... ii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... iv
KATA PENGANTAR ... vi
ABSTRAK ... viii
ABSTRACT ... ix
DAFTAR ISI ... x
DAFTAR GAMBAR ... xii
DAFTAR TABEL ... xiii
DAFTAR RUMUS ... xiv
BAB 1 PENDAHULUAN ... 1
1.1 Latar Belakang Masalah ... 1
1.2 Rumusan Masalah ... 5
1.3 Batasan Masalah ... 5
1.4 Tujuan Penelitian ... 6
1.5 Manfaat Penelitian ... 6
1.5.1 Manfaat Praktis ... 6
1.5.2 Manfaat Teoritis ... 7
1.6 Sistematika Penulisan ... 7
BAB 2 LANDASAN TEORI ... 9
2.1 Analisis Sentimen ... 9
2.2 Depresi ... 9
2.2.1 Penyebab Depresi ... 11
2.2.2 Risiko Yang Dtiimbulkan Akibat Depresi ... 11
2.3 Twitter ... 12
2.4 Text Preprocessing ... 14
2.5 Klasifikasi Teks ... 16
2.6 Eksraksi Fitur dengan TF-IDF... 17
2.7 Naïve Bayes (NB) ... 19
2.8 Klasifikasi Multinomial Naïve Bayes ... 20
2.9 Klasifikasi Complement Naïve Bayes ... 22
xi
2.10 Confusion Matrix ... 23
2.11 Grid Search Cross Validation ... 24
BAB 3 METODE PENELITIAN... 26
3.1 Diagram Penelitian ... 26
3.2 Metodologi Penelitian ... 28
3.3 Teknik Pengumpulan Data ... 34
3.4 Gambaran Umum Sistem ... 35
3.5 Perancangan Sistem ... 37
3.5.1 Flowchart Sistem Analisa ... 38
BAB 4 IMPLEMENTASI DAN UJI COBA ... 59
4.1 Spesifikasi Perangkat ... 59
4.2 Implementasi Sistem ... 60
4.2.1 Potongan Kode Regular Expression... 60
4.2.2 Potongan Kode Penarik Data Tweet ... 62
4.2.3 Potongan Kode Text Preprocessing – Case Folding ... 62
4.2.4 Potongan Kode Text Preprocessing - Tokenization ... 64
4.2.5 Potongan Kode Teks Preprocessing - Stopwords ... 65
4.2.6 Potongan Kode Teks Preprocessing - Stemming ... 67
4.2.7 Potongan Kode Pembobotan TF-IDF Vectorizer ... 68
4.2.8 Potongan Kode Multinomial Naïve Bayes ... 69
4.2.9 Potongan Kode Complement Naïve Bayes ... 70
4.2.10 Potongan Kode Grid Search Cross Validation ... 71
4.3 Uji Coba ... 74
4.3.1 Skenario Pengujian... 74
4.3.2 Evaluasi Hasil Pengujian... 79
BAB 5 SIMPULAN DAN SARAN ... 87
5.1 Simpulan ... 87
5.2. Saran ... 87
DAFTAR PUSTAKA ... 88
Daftar Lampiran ... 92
xii
DAFTAR GAMBAR
Gambar 3.1 Gambar Diagram Penelitian ... 27
Gambar 3.2 Gambaran Umum Sistem Klasifikasi Tweet ... 35
Gambar 3.3 Crawling Twitter Data ... 38
Gambar 3.4 Fungsi Penarikan Data ... 39
Gambar 3.5 Flowchart Modul Text Preprocessing ... 40
Gambar 3.6 Flowchart Proses Normalisasi ... 41
Gambar 3.7 Flowchart Modul Case Folding ... 42
Gambar 3.8 Flowchart Modul Tokenizing ... 43
Gambar 3.9 Flowchart Modul Filtering ... 44
Gambar 3.10 Flowchart Modul Stemming ... 45
Gambar 3.11 Flowchart Modul Grid-Search Cross Validation ... 46
Gambar 3.12 Flowchart TF-IDF ... 47
Gambar 3.13 Flowchart Modul Term Frequency ... 48
Gambar 3.14 Flowchart Proses Document Frequency ... 49
Gambar 3.15 Flowchart Proses TF-IDF ... 50
Gambar 3.16 Flowchart Modul Training ... 51
Gambar 3.17 Flowchart Modul Populate Data ... 52
Gambar 3.18 Flowchart Modul Conditional Probability ... 53
Gambar 3.19 Flowchart Modul Testing ... 54
Gambar 3.20 Flowchart Modul Likelihood ... 55
Gambar 3.21 Flowchart Modul Prior Probability ... 56
Gambar 3.22 Flowchart Modul Posterior Probability ... 57
Gambar 3.23 Flowchart Modul Klasifikasi Data Tweet ... 58
Gambar 4.1 Implementasi Regular Expression Terhadap Data Awal ... 61
Gambar 4.2 Penarikan dan Penyimpanan Data Tweet ... 62
Gambar 4.3 Implementasi Text Preprocessing Case Folding ... 63
Gambar 4.4 Implementasi Text Preprocessing Tokenization ... 64
Gambar 4.5 Implementasi Text Preprocessing Stopword ... 66
Gambar 4.6 Implementasi Text Preprocessing Stemming ... 67
Gambar 4.7 Implementasi Pembobotan Kata TfIdfVectorizer ... 68
Gambar 4.8 Implementasi Vectorizer TF-IDF ... 69
Gambar 4.9 Implementasi Algoritma Multinomial Naive Bayes ... 70
Gambar 4.10 Implementasi Algoritma Complement Naïve Bayes ... 71
Gambar 4.11 Library Yang Digunakan Untuk Grid-Search Cross Validation .... 72
Gambar 4.12 Implementasi Grid-Search Cross Validation – MNB ... 72
Gambar 4.13 Implementasi Grid-Search Cross Validation - CNB ... 73
Gambar 4.14 Implementasi Prediksi Terhadap Set Data Testing ... 74
Gambar 4.15 Implementasi Matrix Evaluasi ... 74
xiii
DAFTAR TABEL
Tabel 2.1 Confusion Matrix ... 23
Tabel 3.1 Contoh Data Tweet Training ... 30
Tabel 3.2 Kata Baku ... 31
Tabel 3.3 Contoh Normalisasi Pada Data Tweet Awal ... 31
Tabel 4.1 Contoh Hasil Implementasi Regular Expression ... 61
Tabel 4.2 Contoh Hasil Implementasi Text Preprocessing Case Folding ... 64
Tabel 4.3 Contoh Implementasi Text Preprocessing Tokenization ... 65
Tabel 4.4 Contoh Implementasi Text Preprocessing Stopwords ... 66
Tabel 4.5 Contoh Implementasi Text Preprocessing Stemming ... 67
Tabel 4.6 Contoh Hasil Pembobotan Kata TF-IDF ... 68
Tabel 4.7 Hasil Uji Coba Rasio 80:20 ... 75
Tabel 4.8 Hasil Uji Coba Skenario 2 - Complement Naive Bayes ... 76
Tabel 4.9 Hasil Uji Coba Skenario 3 - Analyzer Char - MNB ... 77
Tabel 4.10 Hasil Uji Coba Skenario 3 - Analyzer Char - CNB... 77
Tabel 4.11 Hasil Uji Coba Skenario 4 (n-gram Dengan Analyzer Word) ... 78
Tabel 4.12 Hasil Uji Coba Skenario-4 (n-gram Dengan Analyzer Char) ... 79
xiv
DAFTAR RUMUS
Rumus 2.1 Term Frequency (TF)... 18
Rumus 2.2 Inverse Document Frequency (IDF) ... 18
Rumus 2.3 Teorema Bayes ... 19
Rumus 2.4 HMAP Bayes ... 19
Rumus 2.5 Posterior Probability (Multinomial Naïve Bayes) ... 20
Rumus 2.6 Prior Probability (Multinomial Naïve Bayes) ... 20
Rumus 2.7 Conditional Probability (Multinomial Naïve Bayes) ... 21
Rumus 2.8 Laplace Smoothing (Multinomial Naïve Bayes) ... 21
Rumus 2.9 Likelihood (Complement Naïve Bayes)... 22
Rumus 2.10 Posterior Probability (Complement Naïve Bayes) ... 23
Rumus 2.11 Confusion Matrix ... 24
92
Daftar Lampiran
Daftar lampiran terdiri dari:
Lampiran 1 : Hasil wawancara dengan narasumber ... 93
Lampiran 2 : Dataset ... 98
Lampiran 3 : Form bimbingan skripsi pembimbing 1 ... 112
Lampiran 4 : Form bimbingan skripsi dosen pembimbing 2 ... 113
Lampiran 5 : Riwayat hidup ... 114