ANALISIS SENTIMEN PADA MEDIA SOSIAL TWITTER MENGGUNAKAN NAÏVE BAYES CLASSIFIER TERHADAP KATA KUNCI #ASIANGAMES2018 TUGAS AKHIR

(1)

ANALISIS SENTIMEN PADA MEDIA SOSIAL TWITTER MENGGUNAKAN NAÏVE BAYES CLASSIFIER TERHADAP KATA

KUNCI “#ASIANGAMES2018”

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1 Prodi Informatika Universitas Muhammadiyah Malang

Disusun Oleh:

ABDY YOGA SYANTARA 201410370311255

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2021

(2)

LEMBAR PERSETUJUAN

Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naïve Bayes Classfier Terhadap Kata Kunci “#AsianGames2018”

Persyaratan Guna Meraih Gelar Sarjana Strata 1

Program Studi Informatika Universitas Muhammadiyah Malang

Abdy Yoga Syantara 201410370311255

Menyetujui,

Dosen I Dosen II

Evi Dwi Wahyuni, S.Kom., M.Kom.

NIP. 108.1703.0595

Vinna Rahmayanti S N, S.Si., M.Si.

NIP. 1803.0607.1990

(3)

LEMBAR PENGESAHAN

Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naïve Bayes Classfier Terhadap Kata Kunci “#AsianGames2018”

Persyaratan Guna Meraih Gelar Sarjana Strata 1

Program Studi Informatika Universitas Muhammadiyah Malang

Abdy Yoga Syantara 201410370311255

Menyetujui,

Penguji I Penguji II

Agus Eko Minarno, S.Kom, M.Kom NIDN. 108.1410.0540

Luqman Hakim, S.Kom, M.Kom NIDN. 0724028602

Mengetahui,

Ketua Program Studi Informatika

Gita Indah Marthasari, S.T., M.Kom.

NIP. 108.0611.0422

(4)

(5)

KATA PENGANTAR

Dengan memanjatkan puji dan syukur kehadirat Allah SWT atas limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul: Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naïve Bayes Classfier Terhadap Kata Kunci “#AsianGames2018”.

Tulisan ini disajikan pokok – pokok bahasan mengenai Sentiment Analysis dengan metode Naïve Bayes Classifier dalam penerapannya pada data Text Document yang didapat dari ekstraksi dataset twitter. Mulai dari cara mendapatkan dataset twitter, preprocessing data tersebut hingga dapat digunakan dalam implementasi. Selain itu juga dijelaskan mengenai implementasi serta pengujiannya dengan precision, recall, dan F-Measure.

Peneliti menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu, peneliti sangat mengharapkan saran yang membangun agar tulisan ini bermanfaat untuk perkembangan ilmu pengetahuan kedepan.

(6)

DAFTAR ISI

TUGAS AKHIR... 1

LEMBAR PERSETUJUAN ...i

LEMBAR PENGESAHAN ... ii

LEMBAR PERNYATAAN ... iii

ABSTRAK ...iv

ABSTRACT ... v

LEMBAR PERSEMBAHAN ...vi

KATA PENGANTAR ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... x

DAFTAR TABEL ...xi

1. BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 3

1.3 Tujuan Penelitian... 3

1.4 Batasan Masalah ... 3

2. BAB II TINJAUAN PUSTAKA ... 4

2.1 Opinion Mining ... 4

2.2 Text Mining ... 4

2.2.1 Case Folding ... 5

2.2.2 Tokenizing ... 5

2.2.3 Filtering ... 6

2.2.4 Stemming ... 7

2.2.5 Tagging ... 7

2.2.6 Tahap Analysing... 7

2.3 Preprocessing ... 9

2.4 Metode Naïve Bayes ... 9

2.5 Kajian Penelitian Terdahulu ... 11

2.6 Metode Pengujian ... 12

3. BAB III METODOLOGI PENELITIAN ... 14

3.1 Rancangan Penelitian ... 14

3.3.1 Identifikasi Masalah ... 14

3.3.2 Studi Literatur ... 15

3.3.3 Pengumpulan Data ... 16

3.3.4 Preprocessing Data ... 16

(7)

3.3.5 Implementasi ... 17

3.3.6 Pengujian dan Hasil ... 18

3.2 Analisa Kebutuhan Sistem ... 18

1. Kebutuhan perangkat keras (Hardware) ... 18

2. Kebutuhan perangkat lunak (Software) ... 18

3.3 Skema Implementasi dan Pengujian ... 19

3.3.1 Preprocessing ... 20

3.3.2 Labeling ... 21

3.3.3 TF-IDF ... 22

3.3.4 Naïve Bayes ... 23

3.3.5 Pengujian... 24

4. BAB IV IMPLEMENTASI DAN PEMBAHASAN ... 25

4.1 Implementasi ... 25

4.1.1 Implementasi Perangkat Keras ... 25

4.1.2 Implementasi Perangkat Lunak ... 25

4.1.3 Implementasi Sistem ... 26

4.2 Pengujian ... 37

5 BAB V KESIMPULAN DAN SARAN ... 41

5.1 Kesimpulan... 41

5.2 Saran ... 42

DAFTAR PUSTAKA ... 43

LAMPIRAN ... 46

Lampiran 1. Dataset Twitter yang didapat dari hasil crawling. ... 46

(8)

DAFTAR GAMBAR

Gambar 2.1 Tahapan Text Processing ... 5

Gambar 3.1 Metodologi Penelitian ... 14

Gambar 3.2 Skema Implementasi ... 19

Gambar 4.1 Dataset hasil crawling ... 27

Gambar 4.2 Emoticon Labeling ... 32

Gambar 4.3 Sentiment Labeling ... 32

Gambar 4.4 Negatif Labeling ... 33

Gambar 4.5 Slang Labeling ... 33

Gambar 4.6 Booster Labeling ... 33

Gambar 4.7 Hasil Akurasi dan nilai Sentiment ... 37

Gambar 4.8 Confusion Matrix ... 39

(9)

DAFTAR TABEL

Tabel 1 Case Folding ... 5

Tabel 2 Tokenize... 6

Tabel 3 Filtering ... 6

Tabel 4 Stemming ... 7

Tabel 5 Tagging ... 7

Tabel 6 Penelitian Terdahulu ... 11

Tabel 7 Perangkat keras ... 18

Tabel 8 Perangkat Lunak ... 18

Tabel 9 Penerapan Case Folding... 20

Tabel 10 Penerapan Stopword ... 20

Tabel 11 Penerapan Tokenize ... 21

Tabel 12 Penerapan Filtering ... 21

Tabel 13 Penerapan Stemming ... 21

Tabel 14 Implementasi Perangkat Keras ... 25

Tabel 15 Implementasi Perangkat Lunak ... 25

Tabel 16 Crawling data dengan Tweepy ... 26

Tabel 17 Fungsi Case Folding ... 28

Tabel 18 Fungsi Tokenize dan Stopword ... 28

Tabel 19 Fungsi Filtering ... 29

Tabel 20 Fungsi Stemming ... 30

Tabel 21 Hasil Preprocessing... 30

Tabel 22 Fungsi Labeling ... 30

Tabel 23 Seleksi teks ... 31

Tabel 24 Fungsi KFold Cross Validation ... 34

Tabel 25 Nilai KFold ... 34

Tabel 26 Fungsi TF-IDF ... 35

Tabel 27 Nilai TF-IDF ... 36

Tabel 28 Fungsi Naïve Bayes ... 37

Tabel 29 Fungsi Prediksi Accuracy ... 38

Tabel 30 Fungsi Precision Recall dan F1-Score ... 38

Tabel 31 Nilai setiap class ... 39

(10)

DAFTAR PUSTAKA

[1] T. E. Damayanti, “Pemanfaatan Twitter sebagai Media Information Sharing di Perpustakaan (Studi Kasus Tentang Pemanfaatan Media Sosial Twitter Sebagai Media Information Sharing di Perpustakaan Wilayah Kota Surabaya ),” J. Airlangga Univ., vol.

3, no. 2, 2014.

[2] S. Collins, “Asian Soft-Power : Globalization and Regionalism in the East Asia Olympic Games,” pp. 163–176, 2008.

[3] Y. T. Arifin, “Komparasi Fitur Seleksi Pada Algoritma Support Vector Machine Untuk Analisis Sentimen Review,” vol. 3, no. September, pp. 191–199, 2016.

[4] I. Rish, “An empirical study of the naive Bayes classifier,” IJCAI-2001 Work. Empir.

Methods AI (IBM Tech. Rep. RC22230), vol. 3, no. 22, pp. 41–46, 2001, [Online].

Available:

https://sites.google.com/site/irinarish/publications/RC22230.pdf?attredirects=0&d=1&

cm_mc_uid=80717800187114522513777&cm_mc_sid_50200000=1452251377.

[5] I. Zulfa and E. Winarko, “Sentimen Analisis Tweet Berbahasa Indonesia Dengan Deep Belief Network,” IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 11, no. 2, p. 187, 2017, doi: 10.22146/ijccs.24716.

[6] aisah rini Susanti, “Analisis klasifikasi sentimen twitter terhadap kinerja layanan provider telekomunikasi menggunakan varian naïve bayes aisah rini susanti,” 2016.

[7] V. S and J. R, “Text Mining: open Source Tokenization Tools – An Analysis,” Adv.

Comput. Intell. An Int. J., vol. 3, no. 1, pp. 37–47, 2016, doi: 10.5121/acii.2016.3104.

[8] S. Mujilahwati, “Pre-Processing Text Mining Pada Data Twitter,” Semin. Nas. Teknol.

Inf. dan Komun., vol. 2016, no. Sentika, pp. 2089–9815, 2016.

[9] N. L. Ratniasih, M. Sudarma, and N. Gunantara, “Penerapan Text Mining Dalam Spam Filtering Untuk Aplikasi Chat,” Maj. Ilm. Teknol. Elektro, vol. 16, no. 3, p. 13, 2017, doi: 10.24843/mite.2017.v16i03p03.

[10] J. Kogan, Text Mining: Applications and Theory. United Kingdom, 2010.

[11] A. T. Jaka, “Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text Mining,” Inform. UPGRIS, vol. 1, pp. 1–9, 2015.

[12] F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,” M.Sc. Thesis, Append. D, vol. pp, pp. 39–46, 2003.

(11)

[13] S. Robertson, “Understanding inverse document frequency: On theoretical arguments for IDF,” J. Doc., vol. 60, no. 5, pp. 503–520, 2004, doi: 10.1108/00220410410560582.

[14] A. Hidayat, “Impementasi Metode Term Frequency and Inverse Document Frequency Dan Marginal Relevance Untuk Monitoring Diskusi Online,” vol. 13, no. 2, pp. 151–

159, 2016.

[15] A. Agarwal, B. Xie, I. Vovsha, O. Rambow, and R. Passonneau, “Sentiment Analysis of Twitter Data,” Proc. Work. Lang. Soc. Media, no. June, pp. 30–38, 2011, doi:

10.1007/978-3-642-35176-1_32.

[16] S. Natalius, “Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen,” J. Sist. Inf. Sekol. Tinggi Elektro dan Inform. Inst. Teknol. Bandung, no. 3, pp. 1–5, 2011.

[17] A. Saleh, “Implementasi Metode Klasifikasi Naïve Bayes dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga,” Citec J., vol. 2, no. 3, pp. 207–217, 2015, doi:

doi.org/10.24076/citec.2015v2i3.49.

[18] D. S. Pamungkas, N. A. Setiyanto, and E. Dolphina, “Analisis Sentiment Pada Sosial Media Twitter Menggunakan Naive Bayes Classifier Terhadap Kata Kunci ‘Kurikulum 2013’’,’” J. Teknol. Inf., vol. 14, no. 4, pp. 299–314, 2015.

[19] A. Hamzah, “Sentiment Analysis Untuk Memanfaatkan Saran Kuesioner Dalam Evaluasi Pembelajaran Dengan Menggunakan Naive Bayes Classifier (NBC),” Snast, no. November, pp. 211–216, 2014.

[20] R. Setya Perdana, “Analisis Sentimen Tentang Opini Film pada Dokumen Twitter Berbahasa Indonesia Menggunakan Naive Bayes dengan Perb ....,” no. December, 2017.

[21] L. Eka and M. Much Aziz, “PENERAPAN ADABOOST UNTUK KLASIFIKASI SUPPORT VECTOR MACHINE GUNA MENINGKATKAN AKURASI PADA DIAGNOSA CHRONIC KIDNEY DISEASE,” 2017.

[22] S. Azeharie, “Analisis Penggunaan Twitter Sebagai Media Komunikasi Selebritis Di Jakarta,” J. Komun. Untar, vol. 6, no. 2, pp. 83–98, 2014.

(12)

LAMPIRAN

Lampiran 1. Dataset Twitter yang didapat dari hasil crawling.

Lampiran 1 Dataset Twitter

(13)

TA-010

FORM CEK PLAGIARISME LAPORAN TUGAS AKHIR

Nama Mahasiswa : ABDY YOGA SYANTARA

NIM : 201410370311255

Judul TA : ANALISIS SENTIMEN PADA MEDIA SOSIAL TWITTER

MENGGUNAKAN NAÏVE BAYES CLASSIFIER TERHADAP KATA KUNCI “#ASIANGAMES2018”

Hasil Cek Plagiarisme dengan Turnitin

Mengetahui,

Dosen Pembimbing

(Vinna Rahmayanti S N, S.Si, M.Si.)

*) Hasil cek plagiarism bisa diisikkan oleh salah satu pembimbing

UNIVERSITAS MUHAMMADIYAH MALANG

FAKULTAS TEKNIK

PROGRAM STUDI TEKNIK INFORMATIKA

Jl. Raya Tlogomas 246 Malang 65144 Telp. 0341 - 464318 Ext. 247, Fax. 0341 - 460782

No. Komponen Pengecekan Nilai Maksimal Plagiarisme (%)

Hasil Cek Plagiarisme (%) *

1. Bab 1 – Pendahuluan 10 % 10%

2. Bab 2 – Daftar Pustaka 25 % 24%

3. Bab 3 – Analisis dan Perancangan 25 % 19%

4. Bab 4 – Implementasi dan Pengujian 15 % 9%

5. Bab 5 – Kesimpulan dan Saran 5 % 3%

6. Makalah Tugas Akhir 20% 19%