PERBANDINGAN ANALISIS SENTIMEN PENDIDIKAN DI INDONESIA SELAMA COVID-19 PADA MEDIA SOSIAL TWITTER DENGAN METODE NAÏVE BAYES,
KNN, DAN SVM SKRIPSI
Diajukan Guna Memenuhi Persyaratan Memperoleh Gelar Sarjana Komputer (S. Kom.)
Davindick Hutama 00000013738
PROGRAM STUDI SISTEM INFORMASI FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
2021
i
HALAMAN PERNYATAAN
Dengan ini saya menyatakan bahwa skripsi ini merupakan karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, serta semua karya ilmiah yang ditulis oleh orang lain atau suatu lembaga yang dirujuk dalam proposal ini telah disebutkan sumber kutipannya serta dicantumkan pada Daftar Pustaka
Jika dikemudian hari terbukti ditemukan kecurangan atau penyimpangan, baik dalam pelaksanaan skripsi maupun penulisan laporan proposal ini, saya bersedia menerima konsekuensinya dengan dinyatakan TIDAK LULUS untuk mata kuliah Metode Riset Sistem Informasi yang telah saya tempuh.
Jakarta, 04 Juni 2021
Davindick Hutama
ii
HALAMAN PENGESAHAN
Skripsi dengan judul
“PERBANDINGAN ANALISIS SENTIMEN PENDIDIKAN DI INDONESIA SELAMA COVID-19 PADA MEDIA SOSIAL TWITTER DENGAN METODE
NAÏVE BAYES, KNN, DAN SVM”
Oleh Davindick Hutama telah diujikan
pada hari Senin 14 Juni 2021 pukul 13.00 dan dinyatakan Lulus dengan susunan penguji sebagai berikut.
Ketua Sidang Penguji
Suryasari, S.Kom., M.T. Ir. Raymond Sunardi Oetama, M.C.I.S.
Dosen Pembimbing
Monika Evelin Johan, S.Kom,.M.M.S.I.
Disahkan oleh
Ketua Program Studi Sistem Informasi – UMN
Ririn Ikana Desanti, S.Kom., M.Kom.
28/06/2021
iii
PERBANDINGAN ANALISIS SENTIMEN PENDIDIKAN DI INDONESIA SELAMA COVID-19 PADA MEDIA SOSIAL TWITTER DENGAN METODE
NAÏVE BAYES, KNN, DAN SVM
ABSTRAK
Oleh: Davindick Hutama
Masyarakat di Indonesia belakangan ini gempar karena munculnya virus mematikan yang dikenal sebagai virus corona atau COVID-19. Munculnya virus ini di Indonesia diketahui masyarakat setelah pemerintah mengeluarkan berita tentang munculnya dua warga negara Indonesia terkena virus corona pada tanggal 2 Maret 2020. Munculnya virus ini membuat beberapa sektor penting di Indonesia mengalami dampak cukup serius terutama sektor pendidikan. Pelaksanaan pendidikan di Indonesia menjadi tidak stabil setelah pemerintah mengeluarkan peraturan pembatasan sosial dan melakukan proses pembelajaran dari rumah atau daring.
Penelitian ini menggunakan metode Analisa sentimen atau biasa disebut dengan opinion mining yang merupakan sebuah Natural Language Processing. Pada dasarnya penelitian ini ditujukan untuk melakukan klasifikasi sentimen masyarakat melalui media sosial Twitter terhadap jalannya pendidikan di Indonesia selama masa pandemi COVID-19. Perbandingan sentimen dilakukan menggunakan metode Naïve Bayes, K- NN, dan SVM untuk mengetahui hasil prediksi dan akurasi sentimen, dengan menggunakan nilai Area Under Curve (AUC) yang dapat memperkuat hasil akurasi yang dihasilkan masing – masing metode.
Hasil yang didapatkan selama melakukan penelitian ini menunjukkan bahwa algoritma Support Vector Machine memiliki tingkat akurasi yang lebih tinggi dengan tingkat akurasi sebesar 81.25% dengan nilai AUC sebesar 0.856 yang masuk kedalam kategori Good Classification. Selain itu penelitian ini juga mendapatkan sentimen masyarakat terhadap pelaksanaan pendidikan di Indonesia selama masa pandemi COVID-19 yang memiliki sentimen bersifat cenderung positif.
Kata Kunci: Analisa Sentimen, AUC, COVID-19, K-NN, Naïve Bayes, SVM, Twitter.
iv
COMPARISON OF EDUCATION SENTIMENT ANALYSIS IN INDONESIA DURING COVID-19 IN TWITTER SOCIAL MEDIA WITH NAÏVE BAYES, KNN,
AND SVM METHODS
ABSTRACT
By: Davindick Hutama
People in Indonesia have been in an uproar recently because of the emergence of a deadly virus known as the corona virus or COVID-19. The emergence of this virus in Indonesia became known to the public after the government issued news about the emergence of two Indonesian citizens affected by the corona virus on March 2, 2020.
The emergence of this virus has made several important sectors in Indonesia experience quite serious impacts, especially the education sector. The implementation of education in Indonesia became unstable after the government issued social restriction regulations and carried out the learning process from home or online.
This research uses sentiment analysis method or commonly called opinion mining which is a Natural Language Processing. Basically, this research is intended to classify public sentiment through social media Twitter on the course of education in Indonesia during the COVID-19 pandemic. Sentiment comparison is carried out using the Naïve Bayes, K-NN, and SVM methods to determine the prediction results and sentiment accuracy, using the Area Under Curve (AUC) value which can strengthen the accuracy results produced by each method.
The results obtained during this research indicate that the Support Vector Machine algorithm has a higher level of accuracy with an accuracy rate of 81.25% with an AUC value of 0.856 which is included in the Good Classification category. In addition, this study also obtained public sentiment towards the implementation of education in Indonesia during the COVID-19 pandemic, which tended to have positive sentiments.
Keywords: AUC, COVID-19, K-NN, Naïve Bayes, Sentiment Analysis, SVM, Twitter.
v
KATA PENGANTAR
Puji dan syukur kepada Tuhan Yang Maha Esa sehingga proposal pengantar skripsi dengan judul “PERBANDINGAN ANALISIS SENTIMEN PENDIDIKAN DI INDONESIA SELAMA COVID-19 PADA MEDIA SOSIAL TWITTER DENGAN METODE NAÏVE BAYES, KNN, DAN SVM” dapat menempuh waktu pengerjaan dengan tepat waktu. Proposal ini diajukan sebagai salah satu syarat dalam menyelesaikan mata kuliah Metode Riset Sistem Informasi, dan juga sebagai syarat penulis dapat melakukan skripsi dan menyelesaikan perkuliahan dengan gelar Strata 1, Program Studi Sistem Informasi, Fakultas Teknologi Informasi dan Komunikasi, Universitas Multimedia Nusantara.
Tidak lupa juga penulis untuk mengucapkan terima kasih kepada pihak – pihak yang telah mengarahkan dan membantu dalam proses penulisan proposal skripsi ini:
1. Ibu Ririn Ikana Desanti, S.Kom., M.Kom. selaku Ketua Program Studi Sistem Informasi Universitas Multimedia Nusantara.
2. Bapak Johan Setiawan, S.Kom., MM. selaku dosen mata kuliah Metode Riset Sistem Informasi yang telah membantu mahasiswa selama satu semester atau 14 pertemuan.
3. Ibu Monika Evelin Johan, S.Kom.,M.M.S.I. selaku dosen pembimbing yang membantu dan memberikan pengetahuan untuk menyelesaikan proposal ini dengan baik.
vi 4. Dosen – dosen Universitas Multimedia Nusantara yang telah membimbing dan memberikan pemahaman yang sebelumnya tidak didapatkan sebelumnya.
Jakarta, 04 Juni 2021
Davindick Hutama
vii
DAFTAR ISI
HALAMAN PERNYATAAN ... i
HALAMAN PENGESAHAN ... ii
ABSTRAK ... iii
ABSTRACT ... iv
KATA PENGANTAR ... v
DAFTAR ISI ... vii
DAFTAR GAMBAR ... ix
DAFTAR TABEL ... xi
DAFTAR RUMUS ... xii
BAB I PENDAHULUAN ... 1
1.1. Latar Belakang ... 1
1.2. Rumusan Masalah ... 5
1.3. Batasan Masalah... 6
1.4. Tujuan Penelitian dan Manfaat Penelitian. ... 6
BAB II LANDASAN TEORI ... 8
2.1. Text Mining ... 8
2.2. Analisis Sentimen ... 9
2.3. Naïve Bayes Classifier ... 11
2.4. K-Nearest Neighbor ... 14
2.5. Support Vector Machine ... 15
2.6. Confusion Matrix ... 16
2.7. Media Sosial ... 18
2.8. Twitter ... 19
2.9. Term Frequency Inverse Document Frequency (TF-IDF)... 21
2.10. Area Under Curve ... 22
2.11. R Studio ... 22
2.12. Rapid Miner ... 23
viii
2.13. Penelitian Terdahulu ... 24
BAB III METODOLOGI PENELITIAN... 29
3.1. Objek Penelitian ... 29
3.2. Teknik Pengumpulan Data ... 30
3.3. Alur Penelitian ... 30
3.3.1. Data Scraping ... 31
3.3.2. Data Pre-Processing ... 32
3.3.3. Data Labeling ... 33
3.3.4. Data Split ... 34
3.4.4. Sentiment Classification ... 34
3.3.5. Hasil Penelitian ... 36
BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... 37
4.1. Data Scraping ... 37
4.2. Pre - Processing ... 38
4.3. Data Labelling ... 42
4.4. Data Sampling ... 46
4.5. Sentiment Classification ... 47
4.6. Hasil Pembahasan ... 54
BAB V KESIMPULAN ... 64
5.1. Kesimpulan ... 64
5.2. Saran ... 65
DAFTAR PUSTAKA ... 66
LAMPIRAN ... 73
ix
DAFTAR GAMBAR
Gambar 1. 1. Contoh salah satu komentar pada Twitter ... 3
Gambar 2. 1. Naïve Bayes Classifier ... 11
Gambar 2. 2. Ilustrasi Metode Support Vector Machine ... 15
Gambar 3. 1. Gambar Alur Penelitian ... 31
Gambar 4. 1. Data Scraping ... 37
Gambar 4. 2. Hasil Data Scraping ... 38
Gambar 4. 3. Remove Duplicate ... 39
Gambar 4. 4.Remove URL... 39
Gambar 4. 5. Remove Username ... 39
Gambar 4. 6. Remove Punctuation ... 40
Gambar 4. 7. Remove Whitespaces ... 40
Gambar 4. 8.Remove Emoticon ... 40
Gambar 4. 9. Lowercase... 40
Gambar 4. 10. Penyimpanan Data Pre-processing ... 41
Gambar 4. 11. Proses Extract Sentiment ... 42
Gambar 4. 12. Hasil Extract Sentimen ... 43
Gambar 4. 13. Generate Attributes Expression ... 44
Gambar 4. 14. Hasil Extract Sentiment ... 45
Gambar 4. 15. Proses Pembagian Data Train dan Data Test ... 47
Gambar 4. 16. Proses Analisis Sentiment ... 47
Gambar 4. 17. Import Data Train ... 48
Gambar 4. 18. Process Document from Data ... 49
Gambar 4. 19.Proses Data Testing ... 51
Gambar 4. 20. Hasil Proses Apply Model... 52
Gambar 4. 21. Proses Klasifikasi Sentimen Metode Naïve Bayes ... 53
Gambar 4. 22. Proses Klasifikasi Sentimen Metode k-NN ... 53
Gambar 4. 23. Proses Klasifikasi Sentimen Metode SVM ... 53
x
Gambar 4. 24. Accuracy Naïve Bayes ... 55
Gambar 4. 25. Precision Naïve Bayes ... 55
Gambar 4. 26. Recall Naïve Bayes ... 55
Gambar 4. 27. Nilai AUC Naïve Bayes ... 56
Gambar 4. 28. Accuracy k-NN ... 56
Gambar 4. 29. Precision k-NN ... 57
Gambar 4. 30. Recall k-NN... 57
Gambar 4. 31. Nilai AUC k-NN ... 58
Gambar 4. 32. Accuracy SVM ... 58
Gambar 4. 33. Precision SVM ... 59
Gambar 4. 34. Recall SVM ... 59
Gambar 4. 35. Nilai AUC SVM ... 60
Gambar 4. 36. Perbandingan Sentimen Masyarakat Terhadap Pelaksanaan Pendidikan di Indonesia Selama Pandemi COVID19 ... 62
xi
DAFTAR TABEL
Tabel 2. 1. Tabel Confusion Matrix ... 17
Tabel 2. 2. Tabel Persamaan Comfusion Matrix... 17
Tabel 2. 3. Tabel Penelitian Terdahulu ... 25
Tabel 3. 1. Tabel Confusion Matrix ... 36
Tabel 4. 1. Contoh tahapan Pre-processing ... 41
Tabel 4. 2. Contoh Tokenize ... 49
Tabel 4. 3. Contoh Filter Stopwords ... 50
Tabel 4. 4. Contoh Stemming ... 51
Tabel 4. 5. Tabel perhitungan Confusion Matrix ... 54
Tabel 4. 6. Tabel Evaluasi Perbandingan Hasil ... 60
xii
DAFTAR RUMUS
Rumus 2. 1. Persamaan Naïve bayes ... 12
Rumus 2. 2. Contoh perhitungan Naïve Bayes ... 13
Rumus 2. 3. Perhitungan posterior ... 13
Rumus 2. 4. Euclidean Distance ... 14
Rumus 2. 5. Perhitungan bobot ... 21