Studi Komparasi Metode Analisis Sentimen Naïve Bayes, SVM, dan Logistic Regression Pada Piala Dunia 2022
Muhamad Zaki Anbari*, Bambang Sugiantoro
Fakultas Sains dan Teknologi, Magister Informatika, Universitas Islam Negeri Sunan Kalijaga, Yogyakarta, Indonesia Email: 1,*[email protected], 2[email protected]
Email Penulis Korespondensi:[email protected]
Abstrak−Piala dunia merupakan gelaran olahraga paling popular di dunia. Piala dunia tahun 2022 dilaksanakan untuk pertama kalinya di timur tengah, tepatnya di negara Qatar. Pelaksanaannya diwarnai oleh berbagai kontroversi mulai dari isu HAM, isu LGBT+, isu minuman beralkohol, dan lain sebagainya yang begitu ramai di media-media mainstream. Berbagai sentimen dan opini pun bermunculan di media sosial terkait pelaksanaan piala dunia tersebut, ada yang beropini positif ada pula yang negatif.
Analisis sentimen dilakukan untuk mengetahui opini utama yang berkembang di masyarakat berkaitan dengan piala dunia 2022, hasilnya kemudian dapat digunakan sebagai masukan dan bahan pertimbangan bagi para pemangku kebijakan. Penelitian ini menggunakan library snscrape yang berjalan pada bahasa pemrograman python untuk mengumpulkan tweets terkait piala dunia 2022 di platform media sosial twitter pada hari pertama pelaksanaan piala dunia. data yang dikumpulkan kemudian masuk ke tahap pre-processing, splitting, TF-IDF, sebelum kemudian siap digunakan untuk pemodelan. Metode yang dipakai pada penelitian ini adalah Bernouli Naïve Bayes, Support Vector Machine, dan Logistic Regression. Hasil evaluasi menunjukkan Metode Bernouli Naïve Bayes menghasilkan nilai parameter presisi adalah 71%, parameter recall 99%, dan akurasi 76%.
Sedangkan metode Support Vector Classifier menghasilkan nilai parameter presisi adalah 94%, parameter recall 93%, dan akurasi 92%. Adapun metode Logistic Regression menghasilkan nilai parameter presisi adalah 93%, parameter recall 93%, dan akurasi 92%.
Kata Kunci: WorldCup2022; Bernouli Naïve Bayes; Support Vector Classifier; Logistic Regression; Sentiment Analysis Abstract−The world cup is the most popular sporting event in the world. The 2022 World Cup will be held for the first time in the Middle East, in the country of Qatar to be precise. Its implementation was colored by various controversies ranging from human rights issues, LGBT+ issues, issues of alcoholic beverages, and so on which were so busy in the mainstream media.
Various sentiments and opinions have emerged on social media regarding the implementation of the world cup, some have positive opinions and some have negative ones. Sentiment analysis was carried out to find out the main opinions that are developing in society regarding the 2022 world cup, the results can then be used as input and consideration for policy makers.
This study uses the snscrape library running on the Python programming language to collect tweets related to the 2022 World Cup on the Twitter social media platform on the first day of the World Cup. The collected data then enters the pre-processing, splitting, TF-IDF stage, before it is ready to be used for modeling. The method used in this research is Bernouli Naïve Bayes, Support Vector Machine, and Logistic Regression. The evaluation results show that the Bernouli Naïve Bayes method produces a precision parameter value of 71%, a recall parameter of 99%, and an accuracy of 76%. While the Support Vector Classifier method produces precision parameter values of 94%, 93% recall parameters, and 92% accuracy. The Logistic Regression method produces a precision parameter value of 93%, a recall parameter of 93%, and an accuracy of 92%.
Keywords: WorldCup2022; Bernouli Naïve Bayes; Support Vector Classifier; Logistic Regression; Sentiment Analysis
1. PENDAHULUAN
Gelaran Piala Dunia merupakan event besar yang sangat menyedot perhatian dunia. Pada tahun 2010 Qatar terpilih menjadi tuan rumah untuk gelaran Piala Dunia FIFA Tahun 2022. Sejak saat itu Qatar mulai mempersiapkan berbagai infrastruktur untuk mendukung penyelenggaraan event tersebut. Namun dalam pelaksanaan persiapan infrastruktur tersebut banyak ditemui pelanggaran hak asasi manusia terhadap para pekerja migran yang terlibat dalam proyek infrastruktur untuk gelaran bergengsi tersebut. pelanggaran hak asasi manusia seperti pembatasan bergerak, kontrak yang kurang adil, diskriminasi, dan pembatasan hak untuk mengakses keadilan, masih kerap terjadi. Hal tersebut terjadi akibat minimnya pengaturan tanggung jawab pihak swasta, tidak adanya pengadilan HAM regional di Asia, dan kesulitan yang dihadapi para pekerja dalam mencari perlindungan di tingkat nasional [1].
Selain pelanggaran HAM, gelaran piala dunia Qatar juga diwarnai berbagai kontroversi. Kontroversi yang pertama adalah tuduhan korupsi saat pemungutan suara dalam penentuan tuan rumah piala dunia pada tahun 2010.
Kedua adalah masalah LGBT+ dan hak-hak perempuan. Homoseksualitas merupakan hal yang ilegal di Qatar mengingat Qatar merupakan negara muslim. Beberapa pemain sepak bola telah menyuarakan protes terutama individu dan wanita lesbian, gay, biseksual dan transgender (LGBT), yang menurut kelompok penggiat hak asasi manusia telah didiskriminasi oleh undang-undang Qatar. Ketiga adalah pelarangan minuman beralkohol Pelarangan ini berkaitan dengan status Qatar sebagai negara Islam yang melarang konsumsi minuman beralkohol [2].
Berbagai komentar bermunculan khususnya di jagat maya atau media sosial. Menurut data yang diperoleh dari We Are Social dan Hootsuite, Twitter memiliki 544 juta pengguna aktif pada Oktober 2022. Hal tersebut menyebabkan data atau informasi yang didapat dari twitter menjadi penting dan bermanfaat bagi masyarakat atau organisasi jika diolah. Salah satu pengolahan data adalah dengan analisis sentimen. Dengan analisis sentimen, polaritas dari sebuah opini atau isu dapat digunakan untuk memprediksi suasana publik [3]. Selain itu hasil dari
analisis sentiment dapat sangat berguna sebagai masukan atau bahan pertimbangan bagi para stakeholder dalam mengambil kebijakan.
Analisis Sentimen (SA), juga disebut penggalian opini adalah aktivitas mengekstraksi dan menganalisis opini, sentimen, sikap, persepsi orang terhadap entitas yang berbeda seperti event, topik, produk, dan layanan.
Sentimen analisis adalah salah satu penerapan dari teknologi NLP (Natural Language Processing) yang bertujuan untuk menggali sentimen dan opini dari teks, juga berperan dalam pengembangan Artificial Intelligence (AI).
Selain itu, analisis sentimen memiliki potensi besar bila diaplikasikan ke berbagai domain. Analisis sentimen dapat dianggap sebagai masalah klasifikasi teks karena prosesnya mencakup beberapa proses yang berakhir dengan mengelompokkan apakah suatu teks menunjukkan sentimen positif atau sentimen negatif. Analisis sentimen mungkin terlihat sebagai proses yang mudah, namun faktanya analisis sentimen perlu mempertimbangkan hal-hal seperti deteksi sarkasme dan subjektivitas dalam teks. Selain itu, teks yang diolah tidak selalu tersusun rapi seperti dalam buku. Hasil pengambilan data dari media sosial seperti sosmed biasnya mengandung banyak kesalahan ortografi, ungkapan idiomatis atau singkatan. [4]
Kini analisis sentimen telah dipakai tidak hanya di kalangan peneliti, tetapi juga perusahaan dan pemerintah. Meningkatnya pengguna internet telah membuat internet menjadi sumber informasi yang universal dan sangat penting. Miliaran orang mengungkapkan opini dan sentimen mereka di berbagai platform berupa forum, blog, wiki, media sosial, dan lainnya. Pendapat dan sentimen tersebut sangat relevan dengan kehidupan aktual saat ini. Melalui analisis sentimen dari data yang dihasilkan pengguna media sosial, pihak-pihak yang berkepentingan ini dapat memantau opini serta membantu pengambilan keputusan [5]
Penelitian sebelumnya tentang analisis sentimen pernah dilakukan terhadap vaksin AstraZeneca. Studi ini menggunakan metode Naïve Bayes dan SVM untuk menganalisis sentimen yang ada di media sosial Twitter. hasil penelitian ini menunjukkan bahwa Support Vector Machine memiliki akurasi, presisi, recall dan f1-score yang lebih besar yaitu 87.27%, 90.41%, 77,34% dan 83.37% dibandingkan Naïve Bayes yang memiliki akurasi, presisi, recall dan f1-score sebesar 76.81%, 72.40%, 70.70% dan 71.52% [3].
Penelitian tentang implementasi algoritma Naïve Bayes untuk klasifikasi teks pernah dilakukan pada tahun 2019. Penelitian ini mengklasifikasiskan tweet-tweet yang ada di platform media sosial Twitter yang mengandung ujaran kebencian yang bermuatan politis. Penelitian ini diawali dengan crawling data di twitter menggunakan scrapper, kemudian data hasil crawling di filter dan dilabeli, lalu data tersebut diolah menggunakan software WEKA. Hasil penelitian menunjukkan algoritma Naïve Bayes yang digunakan untuk klasifikasi ujaran kebencian yang bermuatan politis menghasilkan akurasi 93.22% [6].
Penelitian tentang sentimen analisis pernah dilakukan pada Tahun 2019 yang meneliti tentang pendekatan yang digunakan untuk melakukan sentimen analisis pada tweets berbahasa Azerbaijan. Penelitian ini menggunakan metode Logistic Regression, Naïve Bayes, dan Support Vector Machine dengan menggunakan teks vectorizer Bag of Words dan TF-IDF. Hasil penelitian ini menunjukkan bahwa Bag of Words memberikan hasil akurasi yang lebih tinggi di ketiga metode analisis sentimen dibandingkan dengan TF-IDF [7].
Penelitian lain tentang sentimen analisis pernah dilakukan pada Tahun 2019 yang meneliti tentang perbandingan metode-metode machine learning yang digunakan untuk analisis sentimen. Penelitian ini membandingkan Multinomial Naïve Bayes, Logistic Regression, dan Support Vector Machine dengan menggunakan model bigram dan n-gram. Hasil penelitian menunjukkan bahwa metode logistic regression menghasilkan nilai akurasi tertinggi yaitu 86% dengan menggunakan model bigram [8].
Aplikasi logistic regression untuk menganalisis sentimen peringkat layanan publik berbahasa arab pernah dilakukan pada tahun 2019. Penelitian dilakukan dengan mengambil data di negara Lebanon, dengan tujuan untuk mengklasifikasikan review berbahasa arab untuk layanan publik seperti restoran, hotel, dan lain sebagainya menggunakan logistic regression [9].
Penelitian yang dilakukan oleh [10] menguji tiga metode komputasi sentimen yaitu Azure Machine Learning, VADER, dan TextBlob untuk menganalisis keraguan vaksin COVID-19 di Amerika Serikat. Selain itu penelitian ini menggunakan lima algoritma pembelajaran yaitu Random Forest, Logistics Regression, Decision Tree, LinearSVC, dan Naïve Bayes yang dikombinasikan dengan metode vektorisasi teks Doc2Vec, CountVectorizer, dan TF-IDF. Hasil penelitian ini menunjukkan bahwa kombinasi TextBlob + TF-IDF + LinearSVC memiliki performa paling baik dalam mengklasifikasikan sentimen dengan nilai akurasi 0.96752, nilai presisi 0.96921, nilai recall 0.92807, dan nilai F1 score sebesar 0.94702.
Penelitian serupa juga dilakukan oleh [11] yang meneliti tentang sentimen publik mengenai kebijakan pemerintah Indonesia yang mewajibkan vaksin COVID-19 sebagai syarat untuk mudik hari raya Idul Fitri tahun 2022. Penelitian ini menggunakan delapan model klasifikasi yaitu Naïve Bayes, Support Vector Machine (SVM), Decision Tree, Logistic Regression, Random Forest, K-Nearest Neighbor, AdaBoost, dan XGBoost. Hasil penelitian ini menunjukkan bawah model klasifikasi terbaik adalah SVM yang memperoleh nilai akurasi dan F1 Score 88%.
Penelitian mengenai sentimen analisis yang dilakukan [12] bertujuan mengevaluasi model klasifikasi sentimen popular seperti support vector machines (SVMs), Naive Bayes (NB), logistic regression (LR) and random forest (RF). Fokus penelitian ini adalah mengetahui pengaruh variasi pipelines NLP terhadap kualitas prediksi sentimen. Hasil penelitian ini menunjukkan bahwa model klasifikasi SVM yang di kombinasikan dengan NLP lemmatize dan knowledge-based n-gram menghasilkan peningkatan akurasi menjadi 90.43%.
Pada penelitian ini penulis akan melakukan studi komparasi menggunakan 3 metode klasifikasi yaitu Bernouli Naïve Bayes, Support Vector Machine, dan Logistic Regression. Bernouli Naive Bayes merupakan salahsatu jenis dari Naïve Bayes Classifier yang umum diterapkan untuk klasifikasi biner dan multiclass. Metode ini menerapkan teknik supervised klasifikasi objek dengan menetapkan label kelas ke instance menggunakan probabilitas bersyarat. Probabilitas bersyarat adalah ukuran peluang suatu peristiwa yang terjadi berdasarkan peristiwa lain yang telah terjadi [13]. Support Vector Machine (SVM) merupakan salah satu metode dalam supervised learning yang biasanya digunakan untuk . Dalam pemodelan klasifikasi, Support Vector Machine memiliki konsep yang lebih matang dan lebih jelas secara matematis dibandingkan dengan teknik-teknik klasifikasi lainnya. Support Vector Machine juga dapat mengatasi masalah klasifikasi dan regresi linear maupun nonlinear [14]. Logistic Regression adalah jenis analisis statistik yang sering digunakan untuk pemodelan prediktif. Dalam pendekatan analitik ini, variabel dependennya terbatas atau kategoris, bisa berupa A atau B (regresi biner) atau berbagai opsi (regresi multinomial). Jenis analisis statistik digunakan untuk memahami hubungan antara variabel dependen dan variabel independen dengan memperkirakan probabilitas [15]. Komparasi ketiganya menjadi menarik untuk diteliti karena pada penelitian sebelumnya belum ada yang secara khusus meneliti Bernouli Naïve Bayes, sedangkan penerapan SVM dan LR pada penelitian ini digunakan sebagai pembanding saja. Selain itu kajian penelitian tentang metode-metode analisis sentimen tetap diperlukan khususnya mengenai konfigurasi model klasifikasinya.
2. METODOLOGI PENELITIAN
2.1 Tahapan Penelitian
Penelitian yang penulis lakukan terdiri dari beberapa tahap. Tahap-tahap tersebut adalah pengumpulan data, pre- processing data, analisis data, pembuatan model, dan terakhir evaluasi model. Diagram alir tahapan penelitian dapat dilihat pada Gambar 1.
Gambar 1. Diagram Alir Penelitian 2.2 Pengumpulan Data
Data yang digunakan pada penelitian ini merupakan data teks atau yang lebih dikenal dengan tweet dari media sosial Twitter. Pengumpulan data menggunakan teknik scrapping yang memanfaatkan library Snscrape yang
Identifikasi Masalah
Studi literatur
Pengumpulan Data
Pre-Processing
Menganalisis Data
Data Splitting
TF - IDF
Dataset Transforming
Klasifikasi dengan Naïve Bayes, Support Vector Machine, Logistic
Regression
Perbandingan Hasil Akurasi
menggunakan bahasa pemrograman Python. Tweet yang diambil merupakan tweet yang dikirim pada hari pertama pelaksanaan Piala Dunia Qatar Tahun 2022 yang mencantumkan tagar #WorldCup2022.
2.3 Pre-Processing Data
Pre-processing merupakan proses pengolahan data yang sebelumnya tidak terstruktur menjadi terstruktur dan siap digunakan untuk membuat model sentimen analisis. Adapun bagian-bagian dari pre-processing yang penulis lakukan adalah mengonversi semua huruf ke huruf kecil (lower casing), mengganti teks yang berupa link URL menjadi ‘URL’, mengganti emoji menjadi teks yang merepresentasikan makna emoji tersebut, mengganti nama- nama user menjadi teks ‘user’, menghapus karakter non alfabet, menghapus kata-kata yang kurang dari 2 kata, menghapus kata yang tidak berpengaruh pada makna (stopword), mengonversi kata-kata menjadi bentuk kata dasarnya atau dikenal dengan istilah lemmatizing [16].
2.4 Menganalisis Data
Pada tahap analisis data penulis menggunakan grafik bar untuk melihat persebaran tweet yang menunjukkan sentimen positif dan tweet yang menunjukkan sentimen negatif. Kemudian data di bagi menjadi train data dan test data, di mana 95% data digunakan untuk train data, sementara 5% sisanya untuk test data.
2.6 TF – IDF
TF-IDF adalah kependekan dari Term Frequency — Inverse Document Frequency. Sejatinya, TF-IDF adalah gabungan dari 2 proses yaitu Term Frequency (TF) dan Inverse Document Frequency (IDF). TF-IDF digunakan untuk mengubah data teks yang tidak dipahami komputer menjadi vector agar teks tersebut dapat dipahami komputer. Selain itu, TF-IDF tetap memperhatikan apakah sebuah kata bersifat informatif atau tidak.
TF-IDF bekerja dengan memberikan nilai yang cenderung kecil kepada kata yang frekuensinya tinggi, sedangkan untuk kata yang frekuensinya rendah akan memiliki nilai yang besar. Kata yang sering muncul disebut juga Stopwords, di mana kata tersebut tidak terlalu berpengaruh pada makna teks. [17]. TF-IDF dirumuskan sebagai berikut.
𝑡𝑓𝑡,𝑑= 𝑛𝑡,𝑑
𝐽𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑡𝑒𝑟𝑚𝑠 𝑑𝑖 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 (1)
𝑖𝑑𝑓𝑑= 𝑙𝑜𝑔 ( 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑑𝑒𝑛𝑔𝑎𝑛 𝑡𝑒𝑟𝑚 𝑡′ ′) (2)
tfidft,d= tft,d × idfd (3)
di mana tf adalah frekuensi kemunculan kata pada sebuah dokumen, dan idf merupakan invers dokumen frekuensi.
2.8 Klasifikasi dengan Bernouli Naïve Bayes
Naive Bayes Classifier merupakan metode untuk klasifikasi yang didasarkan pada teorema Bayes yang diterapkan dengan asumsi yang sangat tinggi (“naive”), yaitu kebebasan bersyarat antara setiap pasangan fitur yang diberi nilai variabel kelas yang ditunjukkan pada persamaaan (4) [18].
𝑃(𝑦|𝑥1, … , 𝑥𝑛) = 𝑃(𝑦) ∏𝑛𝑖=1𝑝(𝑥𝑖|𝑦)
𝑃(𝑥1,…,𝑥𝑛) (4)
Algoritma Bernoulli Naive Bayes menerapkan klasifikasi untuk data yang didistribusikan sesuai dengan distribusi Bernoulli multivariat. Bernoulli multivariat dimungkinkan terdapat beberapa fitur tetapi masing-masing dianggap sebagai variabel bernilai biner (Bernoulli, boolean). Bernouli Naïve Bayes dirumuskan pada persamaan (5)
𝑃(𝑥𝑖|𝑦) = 𝑃(𝑖|𝑦)𝑥𝑖+ (1 − 𝑃(𝑖|𝑦))(1 − 𝑥𝑖) (5)
2.9 Klasifikasi dengan Support Vector Machine
Support Vector Classifier adalah pengembangan dari maximal margin classiffer. Ide utama dari Support Vector Classifier adalah relaksasi kendala pada maximal margin classifier yang mengasumsikan bahwa data bersifat linearly separable dan dipisahkan secara sempurna [19]. Ide support vector classifier adalah memperbolehkan beberapa data diklasifikasikan dengan salah. Selanjutnya Support Vector Classifier dirumuskan sebagai berikut.
𝑦𝑖(𝑥𝑖 . 𝑤 + 𝑏) ≥ 1(1 − 𝜖𝑖) (6)
𝜖𝑖≥ 0; ∑ 𝜖𝑖 ≤ 𝐶 (7)
2.10 Klasifikasi dengan Logistic Regression
Linear Regression atau regresi linear merupakan jenis regresi yang paling sederhana karena hanya melibatkan satu variabel bebas atau variabel independen X. regresi linear bekerja dengan menyelaraskan garis lurus yang melewati data atau dikenal dengan istilah fit the line guna memperoleh model regresi dengan error seminimal
mungkin. Pada dasarnya konsep regresi linear ini berasal dari persamaan garis lurus. Secara sederhana dirumuskan sebagai berikut [20].
𝜃1= ∑𝑛𝑖=1(𝑥1− 𝑥̅)(𝑦1− 𝑦)̅̅̅
∑𝑛𝑖=1(𝑥1− 𝑥̅)2 (8)
𝜃0= 𝑦̅ − 𝜃1𝑥̅ (9)
3. HASIL DAN PEMBAHASAN
3.1 Pengumpulan Data
Data yang dikumpulkan berupa teks tweet yang dikumpulkan menggunakan teknik scrapping menggunakan library snscrape python. Snscrape dipilih karena mudah digunakan dibandingkan library lain yang membutuhkan API keys dari Twitter. Hasilnya data yang terkumpul sebanyak 10680 tweets yang disimpan dalam format csv.
3.2 Pre-Processing Data
Pre-processing data adalah proses untuk menyiapkan data agar sebelum dimasukkan ke dalam machine learning.
hasil pengumpulan data biasanya masih banyak noise dan sulit dimengerti, sehingga data perlu untuk dibersihkan dan diseragamkan. Tabel 1 menunjukkan contoh data hasil pre-processing.
Tabel 1. Data Hasil Pre-Processing
3.3 Analisa Data
Setelah melewati tahap pembersihan, data selanjutnya perlu dianalisis untuk menentukan proporsi pembagian antara data train dan data test. Penulis menggunakan diagram bar untuk memudahkan dalam analisis data. Dapat dilihat pada Gambar 2 distribusi antar sentimen positif dan negatif hampir sama.
Gambar 2. Diagram bar distribusi data 3.4 TF IDF
Setelah data telah melewati tahap pre-processing dan analisis data, tahap selanjutnya adalah ekstraksi fitur menggunakan TF-IDF. TF-IDF adalah metode pembobotan dari hubungan suatu kata dengan kata yang lain di dalam data. Dari tahap TF-IDF diperoleh term unik sebanyak 110.311 kata.
No Sentimen
1 Positif Amazing CanadaSoccerEN WorldCup2022 launch video. Shows how much the face of Canada and our men†™s national team have changed since our last World Cup entry in. Can†™t wait to see these boys in action! This is Canada: FIFA World Cup Opening 2 Positif Worth reading while watching WorldCup2022
3 Positif Golden Maknae shinning bright JeonJungkook Jungkook JK GoldenMaknae bunny Kookie Jungshook BTS WorldCup2022 FIFAKOOK BTS twt
4 Negatif If the BBC cares so much about human rights, homosexual rights, and women rights then why not say these before the opening ceremony Why are they saying these during the opening ceremony Why did the BBC censor the WorldCup2022 opening ceremony 5 Positif Amazing CanadaSoccerEN WorldCup2022 launch video. Shows
how much the face of Canada and our men national team have changed since our last World Cup entry in Can wait to see these boys in action! This is Canada FIFA World Cup Opening Video
3.5 Analisis Metode Klasfisikasi
Metode klasifikasi yang digunakan pada penelitian ini ada 3, yaitu Bernouli Naïve Bayes, Support Vector Machine, dan Logistic Rgeression. Rasio data training dan data testing yang digunakan pada penelitian ini adalah 95% data training dan 5% data testing. Kemudian metode di evaluasi menggunakan confusion matrix sehingga dapat diketahui nilai performa dari masing masing metode klasifikai. Adapun parameternya untuk mengukur performa tersebut adalah presisi, recall, dan akurasi [19].
3.5.1 Analisis Metode Bernaouli Naïve Bayes
Hasil pengujian metode bernaouli naïve bayes dapat dilihat pada Gambar 3.
Gambar 3. Confusion Matrix Metode Bernouli Naïve Bayes
Gambar 3 menunjukkan consfusion matrix berukuran 2 x 2 yang merepresentasikan setiap kelas klasifikasi positif dan negatif. Parameter True Neg (True Negative) merupakan data negatif yang diprediksi benar, pada pengujian ini mendapatkan nilai 17,37%. Parameter True Pos (True Positive) merupakan data positif yang diprediksi benar, pada pengujian ini mendapatkan nilai 58,54%. Parameter False Pos (False Positive) merupakan data negative namun diprediksi sebagai data positif, pada pengujian ini mendapatkan nilai 23,53%. Parameter False Neg (False Negative) merupakan data positif namun diprediksi sebagai data negative, pada pengujian ini mendapatkan nilai 0,56%. Adapun nilai parameter presisi adalah 71%, parameter recall 99%, dan akurasi 76%.
3.5.2 Analisis Metode Support Vector Machine
Hasil pengujian metode Support Vector Machine dapat dilihat pada Gambar 4.
Gambar 4. Confusion Matrix Metode Support Vector Machine
Gambar 4. menunjukkan confusion matrix berukuran 2 x 2 yang merepresentasikan setiap kelas klasifikasi positif dan negatif. Parameter True Neg (True Negative) merupakan data negatif yang diprediksi benar, pada pengujian ini mendapatkan nilai 37,25%. Parameter True Pos (True Positive) merupakan data positif yang diprediksi benar, pada pengujian ini mendapatkan nilai 54,90%. Parameter False Pos (False Positive) merupakan data negatif namun diprediksi sebagai data positif, pada pengujian ini mendapatkan nilai 3,64%. Parameter False Neg (False Negative) merupakan data positif namun diprediksi sebagai data negative, pada pengujian ini mendapatkan nilai 4,20%. Adapun nilai parameter presisi adalah 94%, parameter recall 93%, dan akurasi 92%.
3.5.3 Analisis Metode Logistic Regression
Hasil pengujian metode Losgistic Regression dapat dilihat pada Gambar 5.
Gambar 5. Confusion Matrix Metode Support Vector Classifier
Gambar 5 menunjukkan confusion matrix berukuran 2 x 2 yang merepresentasikan setiap kelas klasifikasi positif dan negatif. Parameter True Neg (True Negative) merupakan data negatif yang diprediksi benar, pada pengujian ini mendapatkan nilai 36,69%. Parameter True Pos (True Positive) merupakan data positif yang diprediksi benar, pada pengujian ini mendapatkan nilai 55,04%. Parameter False Pos (False Positive) merupakan data negatif namun diprediksi sebagai data positif, pada pengujian ini mendapatkan nilai 4,20%. Paramater False Neg (False Negative) merupakan data positif namun diprediksi sebagai data negative, pada pengujian ini mendapatkan nilai 4,06%. Adapun nilai parameter presisi adalah 93%, parameter recall 93%, dan akurasi 92%.
4 KESIMPULAN
Kesimpulan dari penelitian ini adalah bahwa metode Bernouli Naïve Bayes, Support Vector Machine, dan Linear Regression yang digunakan dalam penelitian ini memiliki tingkat akurasi yang berbeda-beda. Naive Bayes menggunakan fitur untuk membuat prediksi pada variabel target. Perbedaan utamanya adalah bahwa Naive Bayes mengasumsikan bahwa fitur tidak saling terhubung satu sama lain. Support vector classifier adalah memperbolehkan beberapa data diklasifikasikan dengan salah. Regresi linear bekerja dengan menyelaraskan garis lurus yang melewati data atau dikenal dengan istilah fit the line guna memperoleh model regresi dengan error seminimal mungkin. Metode Bernaouli Naïve Bayes menghasilkan nilai parameter presisi adalah 71%, parameter recall 99%, dan akurasi 76%. Sedangkan metode Support Vector Classifier menghasilkan nilai parameter presisi adalah 94%, parameter recall 93%, dan akurasi 92%. Adapun metode Logistic Regression menghasilkan nilai parameter presisi adalah 93%, parameter recall 93%, dan akurasi 92%.
REFERENCES
[1] M. C. Ewers, A. Diop, K. T. Le, and L. Bader, “Migrant Worker Well-Being and Its Determinants: The Case of Qatar,”
Soc. Indic. Res., vol. 152, no. 1, pp. 137–163, 2020, doi: 10.1007/s11205-020-02427-3.
[2] S. Sridhar, K. Ferris, and E. Osmond, “World Cup 2022: why is Qatar a controversial location for the tournament?,”
2022. https://www.reuters.com/lifestyle/sports/world-cup-2022-why-is-qatar-controversial-location-fifa-tournament- 2022-11-15/
[3] E. R. Indriyani, P. Paradise, and M. Wibowo, “Perbandingan Metode Naïve Bayes dan Support Vector Machine Untuk Analisis Sentimen Terhadap Vaksin Astrazeneca di Twitter,” J. Media Inform. Budidarma, vol. 6, no. 3, p. 1545, 2022, doi: 10.30865/mib.v6i3.4220.
[4] M. Birjali, M. Kasri, and A. Beni-Hssane, “A comprehensive survey on sentiment analysis: Approaches, challenges and trends,” Knowledge-Based Syst., vol. 226, p. 107134, 2021, doi: 10.1016/j.knosys.2021.107134.
[5] B. O’Connor, “The government’s response to people trafficking. Statement to the Australian Parliament,” pp. 1–8, 2010.
[6] R. Reza El Akbar, R. N. Shofa, M. I. Paripurna, and Supratman, “The Implementation of Naïve Bayes Algorithm for Classifying Tweets Containing Hate Speech with Political Motive,” ICSECC 2019 - Int. Conf. Sustain. Eng. Creat.
Comput. New Idea, New Innov. Proc., no. December 2018, pp. 144–148, 2019, doi: 10.1109/ICSECC.2019.8907208.
[7] H. Hasanli and S. Rustamov, “Sentiment Analysis of Azerbaijani twits Using Logistic Regression, Naive Bayes and SVM,” 13th IEEE Int. Conf. Appl. Inf. Commun. Technol. AICT 2019 - Proc., 2019, doi:
10.1109/AICT47866.2019.8981793.
[8] A. Poornima and K. S. Priya, “A Comparative Sentiment Analysis of Sentence Embedding Using Machine Learning Techniques,” 2020 6th Int. Conf. Adv. Comput. Commun. Syst. ICACCS 2020, pp. 493–496, 2020, doi:
10.1109/ICACCS48705.2020.9074312.
[9] M. Al Omari, M. Al-Hajj, N. Hammami, and A. Sabra, “Sentiment classifier: Logistic regression for Arabic services’
reviews in Lebanon,” 2019 Int. Conf. Comput. Inf. Sci. ICCIS 2019, no. 2012, pp. 1–5, 2019, doi:
10.1109/ICCISci.2019.8716394.
[10] M. Qorib, T. Oladunni, M. Denis, E. Ososanya, and P. Cotae, “Covid-19 vaccine hesitancy: Text mining, sentiment analysis and machine learning on COVID-19 vaccination Twitter dataset,” Expert Syst. Appl., vol. 212, no. January 2022, p. 118715, 2023, doi: 10.1016/j.eswa.2022.118715.
[11] A. Pratama, R. I. Alhaqq, and Y. Ruldeviyani, “Sentiment Analysis of the Covid-19 Booster Vaccination Program As a Requirement for Homecoming During Eid Fitr in Indonesia,” J. Theor. Appl. Inf. Technol., vol. 101, no. 1, pp. 248–261, 2023.
[12] M. Maree, M. Eleyat, S. Rabayah, and M. Belkhatir, “A hybrid composite features based sentence level sentiment analyzer,” IAES Int. J. Artif. Intell., vol. 12, no. 1, pp. 284–294, 2023, doi: 10.11591/ijai.v12.i1.pp284-294.
[13] H. Zhang, L. Jiang, and L. Yu, “Attribute and instance weighted naive Bayes,” Pattern Recognit., vol. 111, p. 107674, Mar. 2021, doi: 10.1016/J.PATCOG.2020.107674.
[14] K. Gulati, S. Saravana Kumar, R. Sarath Kumar Boddu, K. Sarvakar, D. Kumar Sharma, and M. Z. M. Nomani,
“Comparative analysis of machine learning-based classification models using sentiment classification of tweets related to COVID-19 pandemic,” Mater. Today Proc., vol. 51, pp. 38–41, Jan. 2022, doi: 10.1016/j.matpr.2021.04.364.
[15] S. Majumder, A. Aich, and S. Das, “Sentiment Analysis of People During Lockdown Period of COVID-19 Using SVM and Logistic Regression Analysis,” SSRN Electron. J., Mar. 2021, doi: 10.2139/SSRN.3801039.
[16] Kaggle.com, “FIFA World Cup 2022 Tweets,” 2022. https://www.kaggle.com/datasets/tirendazacademy/fifa-world-cup- 2022-tweets
[17] R. Ali et al., “Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents Text Mining: Use of TF- IDF to Examine the Relevance of Words to Documents Text Mining,” Artic. Int. J. Comput. Appl., vol. 181, no. 1, pp.
975–8887, 2018, doi: 10.5120/ijca2018917395.
[18] M. Saraswati and D. Riminarsih, “Analisis Sentimen Terhadap Pelayanan Krl Commuterline Berdasarkan Data Twitter Menggunakan Algortima Bernoulli Naive Bayes,” J. Ilm. Inform. Komput., vol. 25, no. 3, pp. 225–238, 2020, doi:
10.35760/ik.2020.v25i3.3256.
[19] H. Apriyani and K. Kurniati, “Perbandingan Metode Naïve Bayes Dan Support Vector Machine Dalam Klasifikasi Penyakit Diabetes Melitus,” J. Inf. Technol. Ampera, vol. 1, no. 3, pp. 133–143, 2020, doi:
10.51519/journalita.volume1.isssue3.year2020.page133-143.
[20] K. Gulati, S. Saravana Kumar, R. Sarath Kumar Boddu, K. Sarvakar, D. Kumar Sharma, and M. Z. M. Nomani,
“Comparative analysis of machine learning-based classification models using sentiment classification of tweets related to COVID-19 pandemic,” Mater. Today Proc., vol. 51, no. xxxx, pp. 38–41, 2021, doi: 10.1016/j.matpr.2021.04.364.