A. Kajian Pustaka
6. Naive Bayes Classifier
Naive Bayes Classifier adalah salah satu algoritma yang populer digunakan untuk keperluan data mining karena kemudahan penggunaannya serta waktu pemrosesan yang cepat, mudah diimplementasikan dengan strukturnya yang cukup sederhana dan tingkat efektifitas yang tinggi.(Taheri, dkk, 2013)
Dengan bahasa yang lebih sederhana, Naive Bayes Classifier mengasumsikan bahwa keberadaan maupun ketidakberadaan sebuah fitur dalam sebuah kelas tidak memiliki keterkaitan dengan keberadaan maupun ketidakberadaan fitur lainnya. Sebagai contoh, sesuatu yang berwarna merah, bulat dan memiliki diameter sekitar 10 cm bisa dikategorikan sebagai buah apel. Walaupun fitur ini bergantung antara satu dengan yang lainnya, Naive Bayes Classifier akan tetap menganggap bahwa fitur-fitur
15
tersebut independen dan tidak memiliki pengaruh satu sama lainnya.(Rocha, 2006)
Berikut adalah algoritma dari metode Naïve Bayes Classifier:
Dalam proses membangun sistem pengklasifikasi menggunakan NB terdapat 2 tahapan yang dilakukan. Tahap pertama adalah proses pelatihan (training) dan tahap yang kedua adalah proses pengujian (testing).(Artanti, dkk, 2018)
1. Tahap Training (Pelatihan)
Langkah tahap training menggunakan NB adalah:
1) Menentukan probabilitas kategori dari data latih 2) Menghitung probabilitas kata (TFIDF) dari data latih 3) Menghitung probabilitas untuk setiap kelas data latih
𝑃(𝑤𝑘) = 𝑝𝑘 + 1 𝑛 + |𝑣𝑜𝑐𝑎𝑏|
Persamaan 1 Probabilitas Term
Dimana:
P(wk) : Probabilitas term
Pk+1 : Query + 1 agar hasil tidak nol
n : jumlah kata yang muncul di outcome dok |vocab| : total kata keseluruhan
2. Tahap Testing (Pengujian)
Langkah tahap testing menggunakan NB adalah:
1) Menemukan Vmap untuk setiap data uji 𝑉𝑚𝑎𝑝 = 𝑃(𝑤𝑘|𝑐). 𝑃(𝑐)
Persamaan 2 Vmap 2) Menentukan Vmap maksimum
3) Diketahui model klasifikasinya 4) Diperoleh kelas prediksi
16 B. Penelitian Yang Relevan
Text Mining dan Analisis Sentimen merupakan subjek/bidang penelitian yang sudah banyak peminatnya, hal ini karena semakin maraknya penggunaan media sosial seperti Facebook, Twitter, Instagram dan media sosial lainnya, sehingga sudah terkumpul data yang sangat besar untuk dijadikan penelitian. Salah satu pemanfaatan data ini adalah untuk mengetahui opini atau sentimen pengguna jejaring sosial terhadap suatu topik. Karena dari hasil analisa sentimen tersebut bisa didapatkan suatu pengetahuan yang baru yang dapat digunakan untuk membuat suatu keputusan.(Wardhani, 2017) Berikut contoh penelitian-penelitian yang relevan:
Tabel 2. 1 Penelitian yang Relevan
No Judul Peneliti Tahun Deskripsi
1 Sentiment analysis of tweets in Saudi dengan sentimen positif dan 1,537 tweets (33.75%) adalah
17 lebih besar daripada sentiment negatif sentimen positif. Selain
itu, hasil
pengklasifikasian
dengan menggunakan metode Naïve Bayes diperoleh model yang paling baik pada model bandara dengan akurasi sebesar 82%, presisi
18 dan 74,81% untuk kondisi penggabungan dengan nilai konstanta 0,5 untuk tekstual dan 0,5 untuk non-tekstual. Dari hasil
pengujian pengaruh pengali terbaik ketika α=0,4 dan β=0,6 sampai
2016 Hasil dari penelitian yang dilakukan mendapatkan enam kategori yang ditinjau dengan 55 keyword kata benda, terdapat 120 keyword
19
sentimen dengan 66 kata sentimen positif dan 54 kata sentimen negatif.
Hasil pengolahan
terhadap175 data latih disimpulkan bahwa hasil klasifikasi sentimen yang didapat adalah sentimen positif sebanyak 155 komentar dan sentimen negatif sebanyak 20
komentar. Kategori
sentimen positif terbesar adalah kategori kamar sebesar 73 komentar dan kategori dengan sentimen negatif terbesar adalah kategori kamar sebesar 17 komentar. Tingkat akurasi dalam penentuan kategori adalah sebesar 77.14% dan 75.42% dalam penentuan sentimen memiliki tingkat precision 99.12% dan recall 72.9%
20
Meskipun penelitian belum dilakukan dan belum memiliki output, dengan adanya penelitian yang relevan maka diprediksi output yang akan dihasilkan berupa sentiment positif dan negatif terkait upaya pemerintah dalam penanganan. Dimana hasil penelitian ini bisa menjadi evaluasi bagi pemerintah dalam penanganan kasus Covid-19 di Indonesia. Karena perlu dipahami bahwa kebijakan yang diambil pemerintah bukan sekedar pemikiran logika saja tetapi berdasarkan kenyataan yang dialami oleh masyarakat. Dengan adanya penelitian ini maka dapat menjawab opini-opini masyarakat terkait penanganan kasus ini, dimana pemerintah bisa memiliki bahan pertimbangan untuk mengambil kebijakan demi kepentingan masyarakat serta bangsa dan negara.
Perbedaannya dengan penelitian relevan yang terdapat pada table diatas yaitu objek penelitiannya, dalam penelitian ini objeknya adalah opini masyarakat dalam bentuk tweet-tweet yang membahas tentang upaya pemerintah dalam penanganan kasus Covid-19 sedangkan penelitian relevan lain memiliki objek penelitian yang berbeda. Ada juga penelitian relevan yang hampir sama namun cakupan wilayah dan kasus Covid-19 yang berbeda.
21 BAB III
METODOLOGI PENELITIAN Berikut adalah alur diagram metodologi penelitian:
Gambar 2 Flowchart Metodologi Penelitian
A. Teknik Pengumpulan Data
Tahap pertama yang dilakukan dalam analisis sentimen adalah pengumpulan data. Data di ambil dari media sosial Twitter. Twitter mempermudah para pengembang dengan menyediakan API (Application Programming Interface) dalam pengambilan data.
Setelah data berhasil dikumpulkan menjadi sebuah dataset, tahap selanjutnya adalah pelabelan. Pelabelan di sini ditujukan untuk membagi data ke dalam beberapa kelas sentimen yang akan digunakan dalam penelitian.
Jumlah kelas sentimen yang banyak digunakan adalah dua dan tiga kelas, yaitu negatif, netral dan positif. Tujuan dari proses pelabelan ini adalah membagi dataset menjadi 2 bagian, yaitu menjadi training data dan testing data.
Training data adalah data yang digunakan untuk melatih sistem agar mampu mengenali pola yang sedang dicari, sedangkan testing data adalah data yang digunakan untuk menguji hasil pelatihan yang sudah dilakukan. Untuk
22
melakukan pembagian, salah satu metode yang bisa digunakan adalah n-fold cross validation yang akan dijelaskan pada poin selanjutnya.
B. Preprocessing
Setelah dilakukan pelabelan data, tahap selanjutnya yang harus dilalui adalah preprocessing. Tahap ini adalah tahapan di mana data disiapkan agar menjadi data yang siap untuk dianalisis. Ada beberapa tahap dalam preprocessing ini, antara lain tokenization, cleansing dan filtering. Berikut ini adalah penjelasan secara rinci tentang tahap preprocessing.
- Tokenisasi adalah sebuah proses yang dilakukan untuk memotong atau memecah kalimat menjadi beberapa bagian atau kata. Hasil dari pemotongan ini disebut dengan token. Pada beberapa kasus, proses tokenisasi juga dilakukan dengan membuang tanda baca yang tidak diperlukan. Ada beberapa model tokenization yang bisa digunakan, yaitu unigram, bigram, trigram dan ngram. (Manning, dkk, 2009)
- Cleansing adalah suatu tahap di mana karakter maupun tanda baca yang tidak diperlukan dibuang dari teks. Contoh karakter yang dibuang adalah tanda seru, tanda tanya, koma dan titik.
- Filtering adalah tahap menghilangkan katakata yang muncul dalam jumlah besar, namun dianggap tidak memiliki makna (stopwords). Pada dasarnya, stop words list adalah sekumpulan katakata yang banyak digunakan dalam berbagai bahasa. Alasan penghapusan stop words dalam banyak program aplikasi yang berkaitan dengan text mining adalah karena penggunaannya
23
yang terlalu umum, sehingga pengguna dapat berfokus pada kata-kata lain yang jauh lebih penting.(Ganesan, 2015)
C. Pembobotan Kata
Pembobotan kata adalah suatu mekanisme untuk memberikan skor terhadap frekuensi kemunculan sebuah kata dalam dokumen teks. Salah satu metode populer untuk melakukan pembobotan kata adalah TF-IDF (Term Frequency-Inverse Document Frequency). Term Frequency–Inverse Document Frequency adalah sebuah metode pembobotan yang menggabungkan dua konsep, yaitu Term Frequency dan Document Frequency (Adji, dkk, 2015). Term Frequency adalah konsep pembobotan dengan mencari seberapa sering (frekuensi) munculnya sebuah term dalam satu dokumen(Huang & Wu, 2013). Dikarenakan setiap dokumen memiliki panjang yang berbeda-beda, bisa saja terjadi sebuah kata muncul lebih banyak di dokumen yang panjang dibandingkan dengan dokumen-dokumen yang pendek. Dengan demikian, term frequency sering dibagi dengan panjangnya dokumen (total kata yang ada di dokumen tersebut). Sedangkan Document Frequency adalah banyaknya jumlah dokumen di mana sebuah term itu muncul. Semakin kecil frekuensi kemunculannya, maka semakin kecil pula nilai bobotnya. Ketika proses perhitungan term frequency, semua kata di dalamnya dianggap sama pentingnya. Namun, terdapat kata yang sebenarnya kurang penting dan tidak perlu diperhitungkan seperti “di-”,
“ke-”, “dan” dan lain sebagainya. Oleh sebab itu, kata-kata yang kurang
24
penting tersebut perlu dikurangi bobotnya dan menambah bobot kata penting lainnya. Inilah ide dasar mengapa diperlukan stopword.
D. Metode Naïve Bayes Classifier
Proses selanjutnya yaitu klasifikasi dengan menggunakan metode Naïve Bayes. Dalam tahap ini dilakukan untuk membentuk model klasifikasi yang nantinya akan digunakan untuk mengklasifikasikan data uji X agar mendapat label Y
Secara umum proses yang dilakukan dalam klasifikasi naïve bayes adalah:
1. Mencari nilai peluang dari setiap kategori dokumen
2. Mencari nilai peluang kemunculan dari masing-masing kata pada masing-masing kategori dokumen
3. Menentukan kategori dokumen uji berdasarkan perhitungan dari proses pertama dan kedua.
E. Perhitungan Performa Sistem
Setelah data uji selesai diklasifikasikan, maka dilakukan perhitungan performa sistem yang terdiri dari akurasi, presisi, recall dan f-measure dengan confusion matrix.(Hakimi, 2018)
25
DAFTAR PUSTAKA
Adib Rifqi Setiawan. (2020). Scientific Literacy Worksheets for Distance Learning in the Topic of Coronavirus 2019 (COVID-19. 2019(February 2019), 1–13.
Alhajji, Mohammed, Abdullah , Mohammed, M. . (2020). Sentiment analysis of tweets in Saudi Arabia regarding governmental preventive measures to contain COVID-19. Preprints, (April), 16.
https://doi.org/10.20944/preprints202004.0031.v1
Artanti, D. P., Syukur, A., Prihandono, A., & Setiadi, D. R. I. M. (2018). Analisa Sentimen Untuk Penilaian Pelayanan Situs Belanja Online Menggunakan Algoritma Naïve Bayes. 8–9.
B, G. A., Adji, B. T. B., , S.T., M.T., M.Eng, P. ., & Adhistya Erna Permanasari., S.T., M.T., P. . (2015). ANALISIS SENTIMEN CALON PRESIDEN INDONESIA 2014 DENGAN LIMA CLASS ATTRIBUTE (Universitas Gadjah Mada). Diambil dari
http://etd.repository.ugm.ac.id/home/detail_pencarian/80122
Badan Nasional Penanggulangan Bencana. (2020). Situasi Virus Corona – Covid19. 2020.
Budiansyah, A. (2020). Apa Itu Virus Corona dan Cirinya Menurut Situs WHO.
CNBC Indonesia. Diambil dari
https://www.cnbcindonesia.com/tech/20200316135138-37-145175/apa-itu-virus-corona-dan-cirinya-menurut-situs-who
CNN. (2020a). Jokowi Umumkan Dua WNI Positif Corona di Indonesia.
26 Www.Cnnindonesia.Com. Diambil dari
https://www.cnnindonesia.com/nasional/20200302111534-20-479660/jokowi-umumkan-dua-wni-positif-corona-di-indonesia
CNN. (2020b). Status Pandemi WHO, Pemerintah Naikkan Kewaspadaan.
Darwis Dzikril Hakimi, F. (2018). Sistem Analisis Sentimen Publik Tentang Opini Pemilihan Kepala Daerah Jawa Timur 2018 Pada Dokumen Twitter Menggunakan Naive Bayes Classifier. Universitas Islam Negeri Sunan Ampel Surabaya.
Gamble, Terry, M. (2005). Communication Works.
Ganesan, K. (2015). A Brief Note on Stop Words for Text Mining and Retrieval.
Diambil dari http://www.text-analytics101.com/2014/10/allabout-stop-words-for-text-mining.html.
Hadna, M. S., Santosa, P. I., & Winarno, W. W. (2016). Studi Literatur Tentang Perbandingan Metode Untuk Proses Analisis Sentimen Di Twitter. Seminar Nasional Teknologi Informasi dan Komunikasi, 2016(Sentika), 57–64.
Diambil dari https://fti.uajy.ac.id/sentika/publikasi/makalah/2016/95.pdf Huang, X., & Wu, Q. (2013). Micro-blog commercial word extraction based on
improved TF-IDF algorithm. 2013 IEEE International Conference of IEEE Region 10 (TENCON 2013), 1–5.
https://doi.org/10.1109/TENCON.2013.6718884
Irene, W. (2014). Penerapan Algoritma C5.0 Dalam Pengklasifikaian Data Mahasiswa Universitas Negeri Gorontalo. Universitas Negeri Gorontalo.
Jordan, S. E., Hovet, S. E., Fung, I. C. H., Liang, H., Fu, K. W., & Tse, Z. T. H.
27
(2019). Using Twitter for public health surveillance from monitoring and prediction to public response. 4(1), 6.
Kementrian Komunikasi dan Informatika. (2020). Pengguna Internet di Indonesia 63 Juta Orang. Diambil dari
https://kominfo.go.id/index.php/content/detail/3415/Kominfo+%3A+Penggu na+Intern et+di+Indonesia+63+Juta+Orang/0/berita_satker
Manning, C. ., Raghavan, P., & Schutze, H. (2009). An Introduction to Information Retrieval.
Medford, R. J., Saleh, S. N., Sumarsono, A., Perl, T. M., & Lehmann, C. U.
(2020). An “Infodemic”: Leveraging High-Volume Twitter Data to Understand Public Sentiment for the COVID-19 Outbreak. medRxiv, 2020.04.03.20052936. https://doi.org/10.1101/2020.04.03.20052936
Pang, P., & Lee, L. (2008). Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval. Vol. 2(No. 1-2), 1–135.
Presiden, I., Indonesia, R., Ang, T., Pengadaan, S., Dan, B., Dalam, J., …
Indonesia, P. R. (2020). Instruksi presiden republik indonesia nomor 4 tahun 2020 tent ang. (022698), 22698–22701.
R, R. A. de. (2006). Naive Bayes Classifier Teaching Material. In Material (hal.
1–9). Diambil dari http://www.ic.unicamp.br/~rocha/teaching/201 1s2/mc906/aulas/naive-bayes-classifier.pdf
Ransi, N., & Nangi, J. (2017). Text mining. 3(2), 187–194.
Rossi, A., Lestari, T., Setya Perdana, R., & Fauzi, M. A. (2017). Analisis Sentimen Tentang Opini Pilkada DKI 2017 Pada Dokumen Twitter
28
Berbahasa Indonesia Menggunakan Näive Bayes dan Pembobotan Emoji.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 1(12), 1718–1724. Diambil dari http://j-ptiik.ub.ac.id
Rulli Nasrullah. (2017). Media Sosial : Perspektif Komunikasi, Budaya, dan Sosioteknologi. Bandung: Remaja Rosdakarya.
Taheri, Sona and Mammadov, M. (2013). Learning the naive Bayes classifier with optimization models. International Journal of Applied Mathematics and Computer Science, 23(4), 787–795.
Taufiq Rohman, S.Pd.I, M. P. (2019). Kasus Perkembangan Covid -19 Di Indonesia per 29 April 2020. In Psikologi Perkembangan.
https://doi.org/10.1017/CBO9781107415324.004
Twitter. MedcomID on Twitter_ _Pemprov DKI Diminta Lebih Transparan dalam Penyaluran Bansos https___t. , (2020).
W, B., Riski, I., Dwi, K., Nooraeni, R., Siahaan, T., & Dhea, Y. (2019). Analisis Text Mining dari Cuitan Twitter Mengenai Infrastruktur di Indonesia dengan Metode Klasifikasi Naïve Bayes. Eigen Mathematics Journal, 1(2), 92.
https://doi.org/10.29303/emj.v1i2.36
Wardhani, P. A. (2017). IMPLEMENTASI APLIKASI TEXT MINING TERHADAP PENDAPAT NETIZEN DI SOCIAL MEDIA
MENGGUNAKAN ALGORITMA NAIVE BAYES DENGAN
PARAMETER DINAMIS. Efikasi Diri dan Pemahaman Konsep IPA dengan Hasil Belajar Ilmu Pengetahuan Alam Siswa Sekolah Dasar Negeri Kota Bengkulu, 6, 4–24. https://doi.org/10.1017/CBO9781107415324.004
29