Fitria Septianingrum, Copyright ©2021, MIB, Page 1431
Analisis Sentimen Pada Isu Vaksin Covid-19 di Indonesia dengan Metode Naive Bayes Classifier
Fitria Septianingrum, Jajam Haerul Jaman, Ultach Enri*
Fakultas Ilmu Komputer, Teknik Informatika, Universitas Singaperbangsa Karawang, Karawang, Indonesia Email: 1[email protected], 2 [email protected], 3,* [email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Pandemi Covid-19 yang terjadi di Indonesia bahkan di dunia sampai saat ini belum juga usai. Berbagai macam upaya telah dilakukan oleh pemerintah Indonesia guna meminimalisir persebaran virus ini, seperti diberlakukannya lockdown, Pembatasan Sosial Berskala Besar (PSBB), adanya larangan mudik saat hari raya idul fitri, dan lain sebagainya. Salah satu kebijakan baru yang dikeluarkan pemerintah yakni program vaksinasi di mana program tersebut mulai diterapkan oleh pemerintah sejak awal tahun 2021 untuk masyarakat Indonesia yang bertujuan untuk meningkatkan antibodi agar terhindar dari paparan virus Covid-19 ini. Untuk mengetahui opini, komentar, ataupun feedback yang diberikan masyarakat terhadap kebijakan baru ini maka dapat dilakukan dengan analisis sentimen. Proses dari analisis sentimen ini meliputi pengumpulan data yaitu data tweet hasil crawling yang berasal dari media sosial Twitter. Data tersebut kemudian diseleksi untuk selanjutnya dilakukan tahap pre-processing agar data tersebut bersih dan siap untuk dilakukan klasifikasi. Selanjutnya dilakukan pembobotan sentimen untuk pelabelan data dengan menggunakan kamus lexicon dan negative words. Lalu setelah itu dilakukan pembobotan term atau kata dengan tf-idf dan dilanjutkan dengan proses seleksi fitur menggunakan Information Gain.
Selanjutnya, proses klasifikasi dilakukan dengan algoritma Naive Bayes Classifier untuk mengklasifikasikan data ke dalam 3 kelas yaitu sentimen positif, negatif, dan netral. Hasil dari penelitian ini yaitu menghasilkan tingkat akurasi model 78%, recall 80%, dan skor AUC sebesar 0.904.
Kata Kunci: Analisis Sentimen; Information Gain; Klasifikasi; Naive Bayes Classifier; Vaksin Covid-19
Abstract−The Covid-19 pandemic that has occurred in Indonesia and even in the world has not yet ended. Various efforts have been made by the Indonesian government to minimize the spread of this virus, such as the implementation of a lockdown, Large-Scale Social Restrictions (PSBB), a ban on going home during the Eid al-Fitr holiday, and so on. One of the new policies issued by the government is the vaccination program, where the government has started implementing the program since early 2021 for the people of Indonesia, which aims to increase antibodies to avoid exposure to the Covid-19 virus. To find out opinions, comments, or feedback given by the public on this new policy, sentiment analysis can be done. The process of this sentiment analysis includes data collection, namely the crawled tweet data originating from the Twitter social media. The data is then selected for further pre-processing stage so that the data is clean and ready for classification. Furthermore, sentiment weighting is carried out for data labeling using a lexicon dictionary and negative words. Then after that, the terms or words are weighted with tf-idf and followed by the feature selection process using Information Gain. Furthermore, the classification process is carried out using the Naive Bayes Classifier algorithm to classify the data into 3 classes, namely positive, negative, and neutral sentiments. The results of this study are to produce a model accuracy rate of 78%, recall 80%, and an AUC score of 0.904.
Keywords: Sentiment Analysis; Information Gain; Classification; Naive Bayes Classifier; Covid-19 Vaccine
1. PENDAHULUAN
Pada masa di mana terus berkembangnya teknologi internet seperti saat ini, maka sejalan pula dengan perkembangan jumlah data digital yang semakin besar. Agar menjadi suatu informasi yang bermanfaat, maka perlu dilakukan pengolahan pada data-data digital tersebut. Salah satu platform penghasil data internet terbanyak saat ini yaitu Media Sosial [1]. Karena melalui media sosial masyarakat dapat menjalin hubungan sosial antar pengguna secara jarak jauh, serta berbagi informasi, peristiwa, ataupun pengalaman yang dapat dibagikan pada media sosial mereka. Dengan terbangunnya hubungan sosial tersebut, maka menghasilkan suatu data yang bersifat real-time.
Sebagai wujud eksistensinya di dunia maya, saat ini orang-orang maupun organisasi telah menggunakan media sosial [2]. Hal tersebut dikarenakan media sosial saat ini telah dikenal bahkan digunakan oleh warga Indonesia dari berbagai kalangan sehingga persebaran informasi didalamnya pun dapat tersebar secara cepat dan dapat diketahui oleh seluruh pengguna media sosial. Bersumber pada hasil survei yang telah dilakukan Hootsuite, We Are Social (2020) didapati bahwa dari jumlah populasi penduduk di Indonesia yang mencapai angka 272,1 juta penduduk, antara lain sebanyak 175,4 juta penduduk telah menggunakan internet dan sebanyak 160 juta penduduk ialah pengguna media sosial aktif di Indonesia. Media sosial saat ini telah merebak dan dimanfaatkan oleh banyak orang dari seluruh penjuru dunia dan dapat dengan cepat menjadi satu dari banyaknya teknologi yang menentukan zaman saat ini [3]. Twitter adalah salah satu dari banyaknya platform media sosial yang telah banyak penggunanya di Indonesia. Menurut data pada Statista, Indonesia menempati urutan ketiga sebagai pengguna Twitter terbanyak di dunia setelah negara Amerika Serikat dan India yakni dengan jumlah penggunanya mencapai angka 24,34 juta (Statista, 2016).
Salah satu topik yang sedang ramai diperbincangkan oleh masyarakat saat ini yaitu mengenai pandemi Covid-19. Virus Covid-19 (Corona Virus Disease) merupakan hasil mutasi dari virus SARS-CoV yang ada pada tahun 2002 dan virus MERS-CoV pada 2012 [4]. Berdasarkan data yang terdapat pada website resmi Satgas Penanganan Pandemi COVID-19 di Indonesia, menunjukkan bahwa tercatat jumlah kasus terkonfirmasi positif di
Indonesia mencapai angka 1,22 juta kasus per 16 Februari 2020. Salah satu upaya pemerintah Indonesia untuk meminimalisir persebaran virus ini yaitu dengan mendistribusikan vaksin COVID-19 kepada masyarakat. Namun, kebijakan yang dikeluarkan oleh pemerintah terkait pendistribusian vaksin tersebut menimbulkan kontroversi dari masyarakat Indonesia. Karena kebijakan vaksinasi Covid-19 ini merupakan kebijakan baru yang akan diterapkan oleh pemerintah Indonesia, maka upaya pemerintah untuk meminimalisir pertumbuhan kasus positif Covid-19 ini masih menimbulkan pro dan kontra dari kalangan masyarakat itu sendiri.
Analisis sentimen atau penggalian opini merupakan sebuah studi komputasi opini, sentimen, evaluasi, sikap, suasana hati, dan emosi seseorang. Analisis sentimen merupakan salah satu area penelitian paling aktif dalam pemrosesan bahasa alami, penambangan data, pengambilan informasi, dan juga penambangan web [5].
Analisis sentimen yang juga dikenal sebagai penambangan opini, terutama menggunakan pemrosesan bahasa alami dan teknik ekstraksi informasi untuk melakukan penambangan dan analisis teks [6]. Kecenderungan teks tertentu dinilai berdasarkan konteks dan polaritas yang diperoleh dan dapat menjadi argumen, opini, atau keadaan sentimental teks yang potensial. Apabila semakin banyak data tekstual yang dikumpulkan dalam penelitian analisis sentimen, maka semakin mudah juga menemukan korelasi yang signifikan antara teks dan jenis sentimen.
Penelitian sebelumnya [7] melakukan penelitian mengenai analisis sentimen dengan objek penelitian yang digunakan yakni maskapai penerbangan dengan mengimplementasikan algoritma Naive Bayes Classifier dan seleksi fitur yang digunakan yakni Information Gain. Dari penelitian tersebut, dapat diketahui bahwa hasil dari pengujian metode Naïve Bayes Classifier dalam melakukan analisis sentimen dengan objek penelitian maskapai penerbangan memiliki nilai akurasi 81%. Sedangkan, setelah mengimplementasikan seleksi fitur Information Gain nilai akurasi dari algoritma NBC mengalami peningkatan menjadi 86.5%. Penelitian lainnya mengenai analisis sentimen dilakukan oleh [8] dengan objek penelitian yang digunakan yaitu mengenai komentar terhadap calon presiden di Indonesia. Dengan menggunakan algoritma NBC dan Information Gain, penelitian ini menghasilkan nilai akurasi algoritma sebelum menggunakan seleksi fitur sebesar 60% dan setelah penambahan seleksi fitur Information Gain akurasi model meningkat menjadi 83.67% dan terjadi peningkatan akurasi sebesar 23.67%.
Pada penelitian kali ini, metode klasifikasi digunakan untuk mengelompokkan kalimat sentimen ke dalam 3 kelas yakni kelas positif, negatif, dan netral terhadap isu vaksin Covid-19 di Indonesia. Menurut penelitian yang dilakukan oleh [9] menyebutkan bahwa Naive Bayes Classifier dikenal memiliki tingkat sensitivitas yang tinggi dalam proses pemilihan fitur, karena apabila fitur yang digunakan terlalu banyak bukan hanya menambah dari segi waktu komputasi tetapi juga mengurangi tingkat akurasi dari algoritma tersebut. Maka dari itu, untuk mengatasi kekurangan tersebut dan untuk meningkatkan kinerja algoritma klasifikasi, penelitian ini mengimplementasikan algoritma Naive Bayes Classifier yang dikombinasikan dengan seleksi fitur Information Gain.
2. METODOLOGI PENELITIAN
Penelitian ini mengimplementasikan metodologi KDD (Knowledge Discovery In Database) yang merupakan salah satu metodologi yang digunakan untuk mendapatkan suatu pengetahuan ataupun informasi dengan melakukan penambangan data dari basis data yang tersedia [10]. Tahap pertama pada metode ini yakni melakukan seleksi data, lalu pre-processing untuk membersihkan data, kemudian pembobotan sentimen dengan kamus lexicon, selanjutnya transformasi text dengan TF-IDF, dilanjutkan dengan seleksi fitur menggunakan information gain, kemudian ahapan klasifikasi dengan implementasi algoritma NBC, dan untuk evaluasi model dengan confussion matrix dan ROC. Adapun alur penelitian yang digunakan dapat dilihat pada Gambar 1 berikut.
Crawling Data
Select Data Text Selection
Text Pre-Processing
Case Folding
Tokenizing
Spelling Normalization
Filtering
Stemming
Weighting Sentiment Kamus Lexicon
Feature Selection Information Gain
Data Mining Algoritma Naive Bayes
Classifier Text Transformation Pembobotan TF-IDF
Evaluation Confussion Matrix
ROC
Gambar 1. Alur Penelitian
Fitria Septianingrum, Copyright ©2021, MIB, Page 1433 a. Text Selection
Langkah pertama yang dilakukan yaitu proses text selection dengan melakukan teknik crawling data guna mengumpulkan data terkait objek penelitian yaitu isu vaksin Covid-19 di Indonesia yang bersumber dari media sosial Twitter. Teknik crawling data ini dilakukan dengan menggunakan akses pada Twitter API dengan menggunakan kata kunci vaksin Covid-19. Setelah mendapatkan dataset dari proses tersebut, maka selanjutnya dilakukan proses select data yaitu data di seleksi sesuai dengan kebutuhan penelitian ini dan selanjutnya dilakukan proses pre-processing.
b. Text Pre-Processing
Setelah dilakukan select data, tahap selanjutnya yaitu text pre-processing, guna mempersiapkan teks yang akan diolah selanjutnya dengan cara merubah bentuk data yang belum atau tidak teratur menjadi suatu data yang teratur dan sesuai dengan kebutuhan penelitian. Tahapan proses pre-processing terdiri dari 6 tahap, diantaranya : 1. Case folding : Mengubah kata/term menjadi bentuk yang sama, seperti huruf kecil atau huruf besar. Pada
penelitian ini, semua kata diubah menjadi huruf kecil dengan menggunakan metode Python string lower.
2. Tokenizing : Pemotongan kalimat pada teks menjadi sebuah kata serta menentukan struktur dari setiap kata tersebut. Secara umum, setiap kata diidentifikasikan atau dipisahkan dengan kata lain oleh karakter spasi, karakter petik tunggal ('), titik (.), titik koma (;), dan titik dua (:).
3. Spelling Normalization : Memperbaiki dari kata-kata yang mengalami salah pengejaan maupun disingkat dalam bentuk tertentu.
4. Filtering : Menyaring kata-kata yang tidak diperlukan dalam sebuah dokumen guna proses klasifikasi, seperti kata konjungsi “yang”, “dan”, “dari”, dll.
5. Stemming : Mengidentifikasi akar ataupun kata dasar dari sebuah kata dari tiap dokumen guna menghapus berbagai suffix, mengurangi jumlah kata, dan menghemat waktu dan ruang memori.
c. Weighting Sentiment
Setelah melalui tahap pre-processing, maka selanjutnya dilakukan proses pelabelan data. Pelabelan data ini dilakukan secara otomatis oleh kamus lexicon dan negative words dengan cara menghitung skor suatu sentimen.
Dalam menentukan suatu kelas sentimen, dilakukan dengan cara menghitung skor jumlah sentimen positif dikurang dengan skor jumlah sentimen negatif pada tiap data tweet. Pada tahap pelabelan data ini kalimat sentimen dimasukkan ke dalam 3 kelas, yakni positif, negatif, dan netral. Kalimat sentimen akan tergolong ke dalam kelas positif apabila skor yang didapat > 0, sedangkan apabila skor sentimen < 0 maka tergolong ke dalam kelas negatif dan apabila skor sentimen = 0 tergolong ke dalam kelas netral.
d. Text Transformation
Setelah tahap pre-processing selesai dilakukan, dilanjutkan dengan tahap transformasi atau merubah teks menjadi suatu data yang memiliki tipe numerik sebagai representasi dari suatu dokumen. Pembobotan yang di implementasikan adalah TF-IDF (Term Frequency-Inverse Document Frequency) yang mana bekerja dengan cara menghitung bobot setiap kata dan dapat menyajikan skor frekuensi kata yang bersifat penting atau kata dengan tingkat frekuensi kemunculan yang tinggi pada dokumen. Frekuensi kata (term frequency) mengacu pada jumlah kemunculan kata tertentu dalam dokumen, sedangkan inverse document frequency mewakili ukuran kepentingan umum suatu kata [11].
e. Feature Selection
Selanjutnya yaitu tahap feature selection yang digunakan untuk menentukan fitur yang paling informatif dalam suatu dokumen teks. Pemilihan fitur juga dapat mengurangi dimensi ruang suatu dokumen teks dan menghapus fitur yang tidak relevan pada dokumen tersebut. Tujuannya juga yaitu untuk menghasilkan peningkatan nilai akurasi dari suatu algoritma klasifikasi. Seleksi fitur dengan Information Gain juga dapat mengurangi nilai bias terhadap fitur dengan cara mengambil jumlah dan ukuran cabang dalam perhitungan saat memilih suatu fitur. Hal ini berguna sebagai pertimbangan logaritmik untuk mengukur dampak dari jenis perhitungan ini dalam suatu dataset [12].
f. Data Mining
Tahap selanjutnya yakni data mining . Dalam tahap ini dilakukan pengubahan data mentah menjadi suatu informasi yang berguna. Metode klasifikasi diimplementasikan guna mengelompokkan kalimat sentimen ke dalam kelas positif, negatif, atau netral. Sedangkan algoritma yang digunakan merupakan algoritma yang memiliki acuan terhadap Teorema Bayes yaitu Naive Bayes Classifier. Naive Bayes Classifier didasarkan pada Teorema Bayes yang memberikan probabilitas kondisional pada setiap kelas berdasarkan matriks data. Namun hipotesis NBC mengasumsikan tidak ada ketergantungan antar variabel dari suatu sistem. Meskipun dengan asumsi yang tidak realistis tersebut, pengklasifikasi yang didasarkan pada NBC mampu memberikan hasil yang memuaskan pada masalah klasifikasi sebenarnya [13]. Proses penambangan data ini melibatkan eksplorasi dan juga analisis untuk mendapatkan suatu pola yang berguna dan informatif.
g. Evaluation
Tahap yang terakhir yaitu evaluation di mana pada tahap ini dilakukan evaluasi dari model yang sudah terbentuk guna menilai dan mengetahui apakah hipotesa yang ada tercapai. Untuk mengevaluasi performance dari algoritma yang digunakan yaitu dengan menggunakan Confusion Matrix dan ROC. Nilai AUC digunakan guna mengetahui nilai Area Under Curve dari suatu kurva ROC sebagai salah satu indikator untuk mengevaluasi performa suatu classifier. Sedangkan Confusion Matrix dapat merepresentasikan hasil prediksi dari suatu model yang telah terbentuk dan kondisi yang sebenarnya dari algoritma yang telah digunakan. Kolom pada confussion matrix mewakili hasil kelas prediksi, dan baris mewakili hasil kelas sebenarnya atau aktual. Hal tersebut menghitung semua kemungkinan kasus pada masalah klasifikasi [14]. Pengukuran performa model dapat dilihat dari 4 parameter berikut, yaitu diantaranya :
a. Accuracy : Untuk mengetahui tingkat kemiripan antara nilai prediksi dengan nilai aktual.
b. Precision : Untuk mengetahui seberapa tepat atau akurat model dari yang diprediksi positif. Precision juga merupakan ukuran yang baik untuk menentukan ketika nilai False Positive pada suatu model tinggi.
c. Recall : Untuk menghitung berapa banyak dari nilai Actual Positive yang berhasil diidentifikasi oleh model melalui pelabelan sebagai True Positive.
d. F-Measure : Perbandingan rata-rata nilai precision dan recall yang dibobotkan.
3. HASIL DAN PEMBAHASAN
3.1 Mengumpulkan Data Tweet
Proses crawling data berupa tweet dari media sosial Twitter ini menggunakan kata kunci “vaksin covid-19” dan bahasa yang digunakan yaitu bahasa Indonesia. Rentang waktu yang digunakan pada proses crawling data ini yaitu sejak Desember 2020 sampai dengan Maret 2021. Jumlah data awal hasil crawling data ini berjumlah 3.768 yang merupakan data gabungan dari 4 kali melakukan crawling. Proses crawling data ini menggunakan akses Twitter API.
Setelah selesai proses crawling data, maka proses selanjutnya yaitu melakukan seleksi dari data hasil crawling apakah sudah sesuai dengan kata kunci yang digunakan pada penelitian ini. Pada proses ini juga dilakukan penghapusan fitur yang kurang relevan. Setelah dilakukan proses seleksi, data awal yang berjumlah 3.768 berkurang menjadi 3.406 data. Fitur yang digunakan pun hanya fitur text saja untuk proses cleaning data pada pre-processing dan klasifikasi selanjutnya.
3.2 Hasil Text Pre-Processing
Tahap pre-processing ini merupakan tahap di mana data yang telah di seleksi dan akan di bersihkan dengan menghilangkan noise pada data tersebut, seperti penghapusan simbol, tanda baca, angka, dll. Tahap pre-processing merupakan tahap yang penting karena pada tahapan ini dataset akan dipersiapkan sebelum dilakukannya proses klasifikasi. Berikut merupakan hasil dari tiap tahapan pada pre-processing.
Tabel 1. Hasil Tahap Pre-Processing
Keterangan Hasil
Data Awal "Kuota utk vaksinasi lansia di RSUD Tanah Abang krg lebih 100 org per hari. Itu jg kami sesuaikan dgn ketersediaan vaksin." https://t.co/kJBMSh4qmj
Case Folding kuota utk vaksinasi lansia di rsud tanah abang krg lebih org per hari itu jg kami sesuaikan dgn ketersediaan vaksin
Tokenizing ‘kuota’, ‘utk’, ‘vaksinasi’, ‘lansia’, ‘di’, ‘rsud’, ‘tanah’, ‘abang’, ‘krg’, ‘lebih’,
‘org’, ‘per’, ‘hari’, ‘itu’, ‘jg’, ‘kami’, ‘sesuaikan’, ‘dgn’, ‘ketersediaan’, ‘vaksin’
Spelling Normalization
‘kuota’, ‘untuk’, ‘vaksinasi’, ‘lansia’, ‘di’, ‘rsud’, ‘tanah’, ‘abang’, ‘kurang’,
‘lebih’, ‘orang’, ‘per’, ‘hari’, ‘itu’, ‘juga’, ‘kami’, ‘sesuaikan’, ‘dengan’,
‘ketersediaan’, ‘vaksin’
Filtering ‘kuota’, ‘vaksinasi’, ‘lansia’, ‘rsud’, ‘tanah’, ‘abang’, ‘kurang’, ‘lebih’, ‘orang’,
‘hari’, ‘itu’, ‘kami’, ‘sesuaikan’, ‘ketersediaan’, ‘vaksin’
Stemming ‘kuota’, ‘vaksin’, ‘lansia’, ‘rsud’, ‘tanah’, ‘abang’, ‘kurang’, ‘lebih’, ‘orang’, ‘per’,
‘hari’, ‘itu’, ‘kami’, ‘sesuai’, ‘sedia’, ‘vaksin’
3.3 Pembobotan Sentimen
Pembobotan sentimen dilakukan dengan menggunakan kamus lexicon dan negative words yang kemudian dihitung polaritas sentimen tersebut dan dimasukkan ke dalam 3 kelas. Apabila skor sentimen tersebut nilainya > 0 maka sentimen tersebut masuk ke dalam kelas positif, apabila skor sentimen < 0 maka kalimat tersebut masuk ke dalam kelas negatif, dan apabila nilai sentimen adalah = 0, maka kalimat sentimen tersebut masuk ke dalam kelas netral [15]. Berikut hasil dari tahap pembobotan sentimen yang dapat dilihat pada Gambar 2 berikut.
Fitria Septianingrum, Copyright ©2021, MIB, Page 1435 Gambar 2. Hasil Pembobotan Sentimen
Hasil dari pembobotan sentimen dengan kamus lexicon dan negative words berhasil mengelompokkan sebanyak 1177 data ke dalam kelas positif, 664 data ke dalam kelas negatif, dan 1565 data ke dalam kelas netral.
3.4 Pembobotan Kata
Selanjutnya setelah dilakukan pembobotan sentimen dengan kamus lexicon dan negative words maka dilakukan pembobotan kata dengan mengimplementasikan TF-IDF (Term Frequency – Inverse Document Frequency).
Fungsi yang digunakan yakni TfidfVectorizer yang terdapat pada library sklearn. Bekerja dengan cara menghitung bobot setiap kata dan dapat menyajikan skor frekuensi kata dengan tingkat frekuensi kemunculan yang tinggi pada dokumen. Sebelumnya, dataset akan di bagi menjadi data train dan data test. Rasio perbandingan yang digunakan dalam split data ini yaitu 60:40 yang terdiri dari 2051 data training dan 1355 data testing. Berikut merupakan hasil dari proses pembobotan kata dengan TF-IDF yang diterapkan pada data train terdapat pada Gambar 3.
Gambar 3. Hasil Pembobotan Kata
Pada Gambar 3 memperlihatkan bahwa suatu kata/term yang terdapat pada korpus dan diurutkan berdasarkan abjad kemudian dihitung kemungkinan suatu kata tersebut muncul dalam suatu dokumen.
3.5 Seleksi Fitur
Seleksi fitur ini bertujuan untuk mereduksi fitur-fitur yang tidak saling berhubungan atau tidak relevan. Pada penelitian ini, metode seleksi fitur yang digunakan yaitu Information Gain. Dengan menggunakan nilai threshold 0.005, banyaknya fitur yang berhasil di seleksi yakni sebanyak 704 fitur. Jumlah fitur yang digunakan sebelum menggunakan information gain yaitu sebanyak 3370 fitur, sedangkan setelah diimplementasikan nya information gain jumlah fitur berkurang menjadi 2666 fitur. Berikut merupakan grafik perbandingan jumlah fitur sebelum dan setelah penggunaan Information Gain.
Gambar 4. Perbandingan Jumlah Fitur Penggunaan Seleksi Fitur 10000
20003000 4000
Sebelum Menggunakan
IG
Setelah Menggunakan
IG
Jumlah Fitur 3370 2666
Perbandingan Jumlah Fitur
3.6 Klasifikasi Model
Tahap ini merupakan tahap klasifikasi data yang dilakukan dengan mengimplementasikan salah satu model dari algoritma Naive Bayes. Algoritma yang sesuai dalam hal ini adalah Multinomial Naive Bayes yang merupakan salah satu algoritma yang paling populer untuk digunakan dalam klasifikasi teks [16]. Multinomial Naive Bayes dipilih untuk mengklasifikasikan data ini yaitu karena algoritma ini bekerja berdasarkan sekumpulan bukti atau evidence dan kelas dengan melakukan pelatihan terhadap sebagian data sampel, dapat ditentukan probabilitas kepastian dari sebuah bukti apabila diberikan kelas tertentu. Multinomial Naive Bayes juga menggunakan prior probability atau probabilitas sebelumnya dari sebuah kelas yang perhitungan nya dapat didasarkan dari sampel data tersebut.
3.7 Evaluasi Model
Tahap terakhir setelah klasifikasi yaitu evaluasi, di mana pada tahap ini dilakukan pengukuran performa terhadap model yang telah di implementasikan yakni dengan mengimplementasikan confussion matrix dan AUC Score.
Hasil confussion matrix terhadap model yang telah dibuat dapat dilihat pada Gambar 5 berikut.
Gambar 5. Confussion Matrix Model Multinomial NB
Berdasarkan hasil confussion matrix pada Gambar 5 tersebut, dapat diketahui bahwa nilai akurasi model Multinomial NB yakni 78%, precision 73%, recall 80%, dan f-measure 75%. Sedangkan pengujian model dengan menggunakan kurva ROC terdapat pada Gambar 6 berikut.
Gambar 6. Kurva ROC Model Multinomial NB
Berdasarkan kurva ROC yang terdapat pada Gambar 6 tersebut, dapat diketahui AUC Score pada model yaitu 0.904 yang didapat dari hasil rata-rata nilai AUC pada tiap kelas. Nilai AUC yang diperoleh ini tergolong model dengan Excellent Classification [17].
4. KESIMPULAN
Pada penelitian analisis sentimen kali ini yang menggunakan objek penelitian mengenai isu vaksin covid-19 di Indonesia menghasilkan akurasi model 78% dan juga nilai recall 80%. Nilai recall yang didapat tersebut dipengaruhi oleh banyaknya data uji yang memiliki kelas aktual positif dan terprediksi positif oleh model. Nilai AUC yang diperoleh oleh model juga tergolong dalam Excellent Classification dengan nilai 0.904. Hal ini menunjukkan bahwa analisis sentimen dengan menggunakan pendekatan lexicon dan metode Naive Bayes Classifier juga dengan mengkombinasikan seleksi fitur Information Gain baik digunakan untuk klasifikasi sentimen. Mengingat bahwa pelabelan data menjadi salah satu faktor yang mempengaruhi nilai akurasi model, maka saran bagi peneliti selanjutnya yang akan meneliti dalam konteks analisis sentimen dapat menerapkan pelabelan yang sesuai dengan bag of words, sehingga proses pelabelannya pun perlu menggunakan pendekatan yang sama.
Fitria Septianingrum, Copyright ©2021, MIB, Page 1437
UCAPAN TERIMAKASIH
Terima kasih disampaikan kepada Bapak Jajam Haerul Jaman, S.E, M.Kom dan Ibu Ultach Enri, M.Kom selaku dosen pembimbing saya selama melakukan penelitian ini yang telah memberikan saran, pendapat, dan juga motivasi nya selama dilakukannya penelitian.
REFERENCES
[1] A. K. Fauziyyah, “Analisis Sentimen Pandemi Covid19 Pada Streaming Twitter Dengan Text Mining Python,” J. Ilm.
SINUS, vol. 18, no. 2, p. 31, 2020, doi: 10.30646/sinus.v18i2.491.
[2] U. Sivarajah, Z. Irani, S. Gupta, and K. Mahroof, “Role of big data and social media analytics for business to business sustainability: A participatory web context,” Ind. Mark. Manag., vol. 86, no. April, pp. 163–179, 2020, doi:
10.1016/j.indmarman.2019.04.005.
[3] G. Appel, L. Grewal, R. Hadi, and A. T. Stephen, “The future of social media in marketing,” J. Acad. Mark. Sci., vol. 48, no. 1, pp. 79–95, 2020, doi: 10.1007/s11747-019-00695-1.
[4] S. Syamaidzar, “Review Vaksin Covid-19,” ResearchGate, no. July, pp. 0–14, 2020, [Online]. Available:
https://www.researchgate.net/publication/343126729_Review_Vaksin_Covid-19.
[5] B. Liu, “Many Facets of Sentiment Analysis,” in A Practical Guide to Sentiment Analysis, Socio Affective Computing, 2017, pp. 11–39.
[6] L. C. Chen, C. M. Lee, and M. Y. Chen, “Exploration of social media for sentiment analysis using deep learning,” Soft Comput., vol. 24, no. 11, pp. 8187–8197, 2020, doi: 10.1007/s00500-019-04402-8.
[7] A. B. P. Negara, H. Muhardi, and I. M. Putri, “Analisis Sentimen Maskapai Penerbangan Menggunakan Metode Naive Bayes dan Seleksi Fitur Information Gain,” J. Teknol. Inf. dan Ilmu Komput., vol. 7, no. 3, p. 599, 2020, doi:
10.25126/jtiik.2020711947.
[8] Syahriani, A. A. Yana, and T. Santoso, “Sentiment analysis of facebook comments on indonesian presidential candidates using the naïve bayes method,” J. Phys. Conf. Ser., vol. 1641, no. 1, 2020, doi: 10.1088/1742-6596/1641/1/012012.
[9] D. A. Muthia, “Sentiment Analysis on Closure of Illegal Movie Streaming Sites Using Naïve Bayes Algorithm,” J. Pilar Nusa Mandiri, vol. 16, no. 1, pp. 123–128, 2020, doi: 10.33480/pilar.v16i1.1306.
[10] T. D. Yustika, “FAKTOR-FAKTOR YANG MENYEBABKAN TERJADINYA PERCERAIAN MENGGUNAKAN ALGORITMA APRIORI,” 2020.
[11] H. Wu and N. Yuan, “An Improved TF-IDF algorithm based on word frequency distribution information and category distribution information,” ACM Int. Conf. Proceeding Ser., pp. 211–215, 2018, doi: 10.1145/3232116.3232152.
[12] A. Lestari, “Increasing Accuracy of C4 . 5 Algorithm Using Information Gain Ratio and Adaboost for Classification of Chronic Kidney Disease,” pp. 32–38, 2020.
[13] R. Marcos De Moraes, E. A. D. M. G. Soares, and L. D. S. MacHado, “A double weighted fuzzy gamma naive bayes classifier,” J. Intell. Fuzzy Syst., vol. 38, no. 1, pp. 577–588, 2020, doi: 10.3233/JIFS-179431.
[14] J. Xu, Y. Zhang, and D. Miao, “Three-way confusion matrix for classification: A measure driven view,” Inf. Sci. (Ny)., vol. 507, pp. 772–794, 2020, doi: 10.1016/j.ins.2019.06.064.
[15] H. C. Husada and A. S. Paramita, “Analisis Sentimen Pada Maskapai Penerbangan di Platform Twitter Menggunakan Algoritma Support Vector Machine (SVM),” Teknika, vol. 10, no. 1, pp. 18–26, 2021, doi: 10.34148/teknika.v10i1.311.
[16] J. R. Fernando, “Klasifikasi Spam pada Komentar Pemilu 2019 Indonesia di YouTube menggunakan Multinomial Naïve- bayes,” vol. 2, no. 1, pp. 24–25, 2019.
[17] Gorunescu, Data Mining:Concepts,Models and Techniques (Vol. 12). Berlin: Heidelberg: Springer Berlin Heidelberg., 2011.