ANALISIS SENTIMEN PADA MEDIA SOSIAL TWITTER MENGGUNAKAN NAÏVE BAYES CLASSIFIER TERHADAP KATA
KUNCI “#ASIANGAMES2018”
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1 Prodi Informatika Universitas Muhammadiyah Malang
Disusun Oleh:
ABDY YOGA SYANTARA 201410370311255
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2021
LEMBAR PERSETUJUAN
Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naïve Bayes Classfier Terhadap Kata Kunci “#AsianGames2018”
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1
Program Studi Informatika Universitas Muhammadiyah Malang
Abdy Yoga Syantara 201410370311255
Menyetujui,
Dosen I Dosen II
Evi Dwi Wahyuni, S.Kom., M.Kom.
NIP. 108.1703.0595
Vinna Rahmayanti S N, S.Si., M.Si.
NIP. 1803.0607.1990
LEMBAR PENGESAHAN
Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naïve Bayes Classfier Terhadap Kata Kunci “#AsianGames2018”
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1
Program Studi Informatika Universitas Muhammadiyah Malang
Abdy Yoga Syantara 201410370311255
Menyetujui,
Penguji I Penguji II
Agus Eko Minarno, S.Kom, M.Kom NIDN. 108.1410.0540
Luqman Hakim, S.Kom, M.Kom NIDN. 0724028602
Mengetahui,
Ketua Program Studi Informatika
Gita Indah Marthasari, S.T., M.Kom.
NIP. 108.0611.0422
KATA PENGANTAR
Dengan memanjatkan puji dan syukur kehadirat Allah SWT atas limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul: Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naïve Bayes Classfier Terhadap Kata Kunci “#AsianGames2018”.
Tulisan ini disajikan pokok – pokok bahasan mengenai Sentiment Analysis dengan metode Naïve Bayes Classifier dalam penerapannya pada data Text Document yang didapat dari ekstraksi dataset twitter. Mulai dari cara mendapatkan dataset twitter, preprocessing data tersebut hingga dapat digunakan dalam implementasi. Selain itu juga dijelaskan mengenai implementasi serta pengujiannya dengan precision, recall, dan F-Measure.
Peneliti menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu, peneliti sangat mengharapkan saran yang membangun agar tulisan ini bermanfaat untuk perkembangan ilmu pengetahuan kedepan.
DAFTAR ISI
TUGAS AKHIR... 1
LEMBAR PERSETUJUAN ...i
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN ... iii
ABSTRAK ...iv
ABSTRACT ... v
LEMBAR PERSEMBAHAN ...vi
KATA PENGANTAR ... vii
DAFTAR ISI ... viii
DAFTAR GAMBAR ... x
DAFTAR TABEL ...xi
1. BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Tujuan Penelitian... 3
1.4 Batasan Masalah ... 3
2. BAB II TINJAUAN PUSTAKA ... 4
2.1 Opinion Mining ... 4
2.2 Text Mining ... 4
2.2.1 Case Folding ... 5
2.2.2 Tokenizing ... 5
2.2.3 Filtering ... 6
2.2.4 Stemming ... 7
2.2.5 Tagging ... 7
2.2.6 Tahap Analysing... 7
2.3 Preprocessing ... 9
2.4 Metode Naïve Bayes ... 9
2.5 Kajian Penelitian Terdahulu ... 11
2.6 Metode Pengujian ... 12
3. BAB III METODOLOGI PENELITIAN ... 14
3.1 Rancangan Penelitian ... 14
3.3.1 Identifikasi Masalah ... 14
3.3.2 Studi Literatur ... 15
3.3.3 Pengumpulan Data ... 16
3.3.4 Preprocessing Data ... 16
3.3.5 Implementasi ... 17
3.3.6 Pengujian dan Hasil ... 18
3.2 Analisa Kebutuhan Sistem ... 18
1. Kebutuhan perangkat keras (Hardware) ... 18
2. Kebutuhan perangkat lunak (Software) ... 18
3.3 Skema Implementasi dan Pengujian ... 19
3.3.1 Preprocessing ... 20
3.3.2 Labeling ... 21
3.3.3 TF-IDF ... 22
3.3.4 Naïve Bayes ... 23
3.3.5 Pengujian... 24
4. BAB IV IMPLEMENTASI DAN PEMBAHASAN ... 25
4.1 Implementasi ... 25
4.1.1 Implementasi Perangkat Keras ... 25
4.1.2 Implementasi Perangkat Lunak ... 25
4.1.3 Implementasi Sistem ... 26
4.2 Pengujian ... 37
5 BAB V KESIMPULAN DAN SARAN ... 41
5.1 Kesimpulan... 41
5.2 Saran ... 42
DAFTAR PUSTAKA ... 43
LAMPIRAN ... 46
Lampiran 1. Dataset Twitter yang didapat dari hasil crawling. ... 46
DAFTAR GAMBAR
Gambar 2.1 Tahapan Text Processing ... 5
Gambar 3.1 Metodologi Penelitian ... 14
Gambar 3.2 Skema Implementasi ... 19
Gambar 4.1 Dataset hasil crawling ... 27
Gambar 4.2 Emoticon Labeling ... 32
Gambar 4.3 Sentiment Labeling ... 32
Gambar 4.4 Negatif Labeling ... 33
Gambar 4.5 Slang Labeling ... 33
Gambar 4.6 Booster Labeling ... 33
Gambar 4.7 Hasil Akurasi dan nilai Sentiment ... 37
Gambar 4.8 Confusion Matrix ... 39
DAFTAR TABEL
Tabel 1 Case Folding ... 5
Tabel 2 Tokenize... 6
Tabel 3 Filtering ... 6
Tabel 4 Stemming ... 7
Tabel 5 Tagging ... 7
Tabel 6 Penelitian Terdahulu ... 11
Tabel 7 Perangkat keras ... 18
Tabel 8 Perangkat Lunak ... 18
Tabel 9 Penerapan Case Folding... 20
Tabel 10 Penerapan Stopword ... 20
Tabel 11 Penerapan Tokenize ... 21
Tabel 12 Penerapan Filtering ... 21
Tabel 13 Penerapan Stemming ... 21
Tabel 14 Implementasi Perangkat Keras ... 25
Tabel 15 Implementasi Perangkat Lunak ... 25
Tabel 16 Crawling data dengan Tweepy ... 26
Tabel 17 Fungsi Case Folding ... 28
Tabel 18 Fungsi Tokenize dan Stopword ... 28
Tabel 19 Fungsi Filtering ... 29
Tabel 20 Fungsi Stemming ... 30
Tabel 21 Hasil Preprocessing... 30
Tabel 22 Fungsi Labeling ... 30
Tabel 23 Seleksi teks ... 31
Tabel 24 Fungsi KFold Cross Validation ... 34
Tabel 25 Nilai KFold ... 34
Tabel 26 Fungsi TF-IDF ... 35
Tabel 27 Nilai TF-IDF ... 36
Tabel 28 Fungsi Naïve Bayes ... 37
Tabel 29 Fungsi Prediksi Accuracy ... 38
Tabel 30 Fungsi Precision Recall dan F1-Score ... 38
Tabel 31 Nilai setiap class ... 39
DAFTAR PUSTAKA
[1] T. E. Damayanti, “Pemanfaatan Twitter sebagai Media Information Sharing di Perpustakaan (Studi Kasus Tentang Pemanfaatan Media Sosial Twitter Sebagai Media Information Sharing di Perpustakaan Wilayah Kota Surabaya ),” J. Airlangga Univ., vol.
3, no. 2, 2014.
[2] S. Collins, “Asian Soft-Power : Globalization and Regionalism in the East Asia Olympic Games,” pp. 163–176, 2008.
[3] Y. T. Arifin, “Komparasi Fitur Seleksi Pada Algoritma Support Vector Machine Untuk Analisis Sentimen Review,” vol. 3, no. September, pp. 191–199, 2016.
[4] I. Rish, “An empirical study of the naive Bayes classifier,” IJCAI-2001 Work. Empir.
Methods AI (IBM Tech. Rep. RC22230), vol. 3, no. 22, pp. 41–46, 2001, [Online].
Available:
https://sites.google.com/site/irinarish/publications/RC22230.pdf?attredirects=0&d=1&
cm_mc_uid=80717800187114522513777&cm_mc_sid_50200000=1452251377.
[5] I. Zulfa and E. Winarko, “Sentimen Analisis Tweet Berbahasa Indonesia Dengan Deep Belief Network,” IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 11, no. 2, p. 187, 2017, doi: 10.22146/ijccs.24716.
[6] aisah rini Susanti, “Analisis klasifikasi sentimen twitter terhadap kinerja layanan provider telekomunikasi menggunakan varian naïve bayes aisah rini susanti,” 2016.
[7] V. S and J. R, “Text Mining: open Source Tokenization Tools – An Analysis,” Adv.
Comput. Intell. An Int. J., vol. 3, no. 1, pp. 37–47, 2016, doi: 10.5121/acii.2016.3104.
[8] S. Mujilahwati, “Pre-Processing Text Mining Pada Data Twitter,” Semin. Nas. Teknol.
Inf. dan Komun., vol. 2016, no. Sentika, pp. 2089–9815, 2016.
[9] N. L. Ratniasih, M. Sudarma, and N. Gunantara, “Penerapan Text Mining Dalam Spam Filtering Untuk Aplikasi Chat,” Maj. Ilm. Teknol. Elektro, vol. 16, no. 3, p. 13, 2017, doi: 10.24843/mite.2017.v16i03p03.
[10] J. Kogan, Text Mining: Applications and Theory. United Kingdom, 2010.
[11] A. T. Jaka, “Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text Mining,” Inform. UPGRIS, vol. 1, pp. 1–9, 2015.
[12] F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,” M.Sc. Thesis, Append. D, vol. pp, pp. 39–46, 2003.
[13] S. Robertson, “Understanding inverse document frequency: On theoretical arguments for IDF,” J. Doc., vol. 60, no. 5, pp. 503–520, 2004, doi: 10.1108/00220410410560582.
[14] A. Hidayat, “Impementasi Metode Term Frequency and Inverse Document Frequency Dan Marginal Relevance Untuk Monitoring Diskusi Online,” vol. 13, no. 2, pp. 151–
159, 2016.
[15] A. Agarwal, B. Xie, I. Vovsha, O. Rambow, and R. Passonneau, “Sentiment Analysis of Twitter Data,” Proc. Work. Lang. Soc. Media, no. June, pp. 30–38, 2011, doi:
10.1007/978-3-642-35176-1_32.
[16] S. Natalius, “Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen,” J. Sist. Inf. Sekol. Tinggi Elektro dan Inform. Inst. Teknol. Bandung, no. 3, pp. 1–5, 2011.
[17] A. Saleh, “Implementasi Metode Klasifikasi Naïve Bayes dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga,” Citec J., vol. 2, no. 3, pp. 207–217, 2015, doi:
doi.org/10.24076/citec.2015v2i3.49.
[18] D. S. Pamungkas, N. A. Setiyanto, and E. Dolphina, “Analisis Sentiment Pada Sosial Media Twitter Menggunakan Naive Bayes Classifier Terhadap Kata Kunci ‘Kurikulum 2013’’,’” J. Teknol. Inf., vol. 14, no. 4, pp. 299–314, 2015.
[19] A. Hamzah, “Sentiment Analysis Untuk Memanfaatkan Saran Kuesioner Dalam Evaluasi Pembelajaran Dengan Menggunakan Naive Bayes Classifier (NBC),” Snast, no. November, pp. 211–216, 2014.
[20] R. Setya Perdana, “Analisis Sentimen Tentang Opini Film pada Dokumen Twitter Berbahasa Indonesia Menggunakan Naive Bayes dengan Perb ....,” no. December, 2017.
[21] L. Eka and M. Much Aziz, “PENERAPAN ADABOOST UNTUK KLASIFIKASI SUPPORT VECTOR MACHINE GUNA MENINGKATKAN AKURASI PADA DIAGNOSA CHRONIC KIDNEY DISEASE,” 2017.
[22] S. Azeharie, “Analisis Penggunaan Twitter Sebagai Media Komunikasi Selebritis Di Jakarta,” J. Komun. Untar, vol. 6, no. 2, pp. 83–98, 2014.
LAMPIRAN
Lampiran 1. Dataset Twitter yang didapat dari hasil crawling.
Lampiran 1 Dataset Twitter
TA-010
FORM CEK PLAGIARISME LAPORAN TUGAS AKHIR
Nama Mahasiswa : ABDY YOGA SYANTARA
NIM : 201410370311255
Judul TA : ANALISIS SENTIMEN PADA MEDIA SOSIAL TWITTER
MENGGUNAKAN NAÏVE BAYES CLASSIFIER TERHADAP KATA KUNCI “#ASIANGAMES2018”
Hasil Cek Plagiarisme dengan Turnitin
Mengetahui,
Dosen Pembimbing
(Vinna Rahmayanti S N, S.Si, M.Si.)
*) Hasil cek plagiarism bisa diisikkan oleh salah satu pembimbing
UNIVERSITAS MUHAMMADIYAH MALANG
FAKULTAS TEKNIK
PROGRAM STUDI TEKNIK INFORMATIKA
Jl. Raya Tlogomas 246 Malang 65144 Telp. 0341 - 464318 Ext. 247, Fax. 0341 - 460782
No. Komponen Pengecekan Nilai Maksimal Plagiarisme (%)
Hasil Cek Plagiarisme (%) *
1. Bab 1 – Pendahuluan 10 % 10%
2. Bab 2 – Daftar Pustaka 25 % 24%
3. Bab 3 – Analisis dan Perancangan 25 % 19%
4. Bab 4 – Implementasi dan Pengujian 15 % 9%
5. Bab 5 – Kesimpulan dan Saran 5 % 3%
6. Makalah Tugas Akhir 20% 19%