| Azzahra | JURNAL MEDIA INFORMATIKA BUDIDARMA

(1)

DOI: 10.30865/mib.v8i1.7186

Perbandingan Efektivitas Naïve Bayes dan SVM dalam Menganalisis Sentimen Kebencanaan di Youtube

Tarissa Aura Azzahra, Nurul Anisa Sri Winarsih^*, Galuh Wilujeng Saraswati, Filmada Ocky Saputra, Muhammad Syaifur Rohman, Danny Oka Ratmana, Ricardus Anggi Pramunendar, Guruh Fajar Shidik

Fakultas Ilmu Komputer, Teknik Informatika, Universitas Dian Nuswantoro, Semarang, Indonesia Email: ¹[email protected], ^2,*[email protected],³[email protected],

4[email protected],⁵[email protected],⁶[email protected],⁷[email protected],

8[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Kemajuan di bidang NLP telah membuka peluang besar dalam analisis sentimen, khususnya dalam konteks kebencanaan. Di era digital ini, Youtube telah menjadi sumber utama bagi masyarakat mendapatkan informasi terkait kejadian penting. Penelitian ini mengeksplorasi dan membandingkan dua teknik analisis sentimen yang dominan, yaitu Naive Bayes dan Support Vector Machine (SVM). Menggunakan data komentar Youtube terkait bencana alam untuk menguji efektivitas kedua algoritma tersebut dalam mengidentifikasi dan mengklasifikasi sentimen publik sebagai netral, positif, atau negatif. Proses melibatkan pengumpulan data komentar, pre-processing data, serta penerapan pembobotan Term-Frequency-Inverse Document Frequency (TF-IDF) untuk mempersiapkan data untuk analisis. Kemudian, performa kedua model dievaluasi berdasarkan metrik seperti akurasi, presisi, recall, dan skor F1. Hasil ini menunjukkan bahwa meskipun kedua algoritma memiliki kelebihan dan kekurangan masing-masing, SVM cenderung menunjukkan performa yang lebih baik dalam klasifikasi sentimen, terutama dalam hal akurasi dan presisi dengan hasil akurasi 92% dan presisi 89% dari prediksi negatif dan 94% dari prediksi positif.

Sedangkan untuk Naive Bayes sendiri hanya menghasilkan akurasi 79% dan presisi 91% dari prediksi negatif dan 73% dari prediksi positifPenelitian ini memberikan wawasan penting mengenai aplikasi algoritma pembelajaran mesin dalam analisis sentimen.

Kata Kunci: Analisis Sentimen; Naive Bayes; Support Vector Machine; Youtube; Kebencanaan

Abstract−Advancements in the field of Natural Language Processing (NLP) have opened significant opportunities in sentiment analysis, particularly in the context of disaster response. In today's digital era, YouTube has emerged as a primary source f or the public to acquire information regarding critical events. This study explores and compares two dominant sentiment analysis techniques, namely Naive Bayes and Support Vector Machine (SVM). It utilizes YouTube comment data related to natural disasters to test the effectiveness of these algorithms in identifying and classifying public sentiment as neutral, positive, or negative. The process involves collecting comment data, pre-processing the data, and applying Term-Frequency-Inverse Document Frequency (TF-IDF) weighting to prepare the data for analysis. Subsequently, the performance of both models is evaluated based on metrics such as accuracy, precision, recall, and F1 score. The results indicate that while both algorithms have their strengths and weaknesses, SVM tends to show better performance in sentiment classification, especially in terms of accuracy and precision, with an accuracy result of 92% and precision of 89% for negative predictions and 94% for positive predictions. On the other hand, Naive Bayes only achieved an accuracy of 79% and a precision of 91% for negative predictions and 73% for positive predictions. This study provides significant insights into the application of machine learning algorithms in sentiment analysis.

Keywords: Sentiment Analysis; Naive Bayes; Support Vector Machine; Youtube; Disaster

1. PENDAHULUAN

Kemajuan dalam bidang Pengolahan Bahasa Alami (NLP) telah membuka peluang besar dalam analisis sentimen, khususnya dalam konteks kebencanaan. Di era digital ini, platform media sosial seperti Youtube telah menjadi sumber utama bagi masyarakat untuk mendapatkan informasi terkait kejadian penting, termasuk bencana alam dan keadaan darurat. Komentar yang ditinggalkan oleh pengguna Youtube pada video-video terkait kebencanaan memberikan wawasan berharga mengenai persepsi dan reaksi publik terhadap kejadian tersebut [1].

Sentimen analisis adalah cabang dari pemrosesan bahasa alami (Natural Language Processing – NLP) dan data mining yang berfokus pada identifikasi dan klasifikasi opini atau emosi dalam teks [2]. Dengan menganalisis komentar di Youtube, dapat mengidentifikasi pandangan masyarakat yang beragam terhadapa respons bencana, tindakan pencegahan, dan upaya pemulihan [3]. Analisis sentimen sering digunakan pada Youtube, di mana sistem secara otomatis mengumpulkan data melalui komentar youtube. Sistem tersebut kemudian mengklasifikasikan komentar ini untuk menentukan apakah isi dari setiap komentar bersifat netral, positif, atau negatif [4]

Teknik analisis sentimen dikenal sebagai proses ekstraksi, evaluasi, dan pemahaman informasi dari teks yang tidak terstruktur untuk menentukan sentimen atau opini yang terkandung dalam kalimat tertentu[5]. Banyak studi sebelumnya telah mengeksplorasi tentang ini[6][7][8]. Dalam penerapannya menggunakan metode pembelajaran mesin, beberapa algoritma sering digunakan termasuk Naive Bayes, Support Vector Machine (SVM), K-Nearest Neighbors (K-NN), dan Random Forest. Biasanya, masalah yang dihadapi di dunia nyata tidak selalu dapat diselesaikan dengan pendekatan linear.

Algoritma Naive Bayes, yang didasarkan pada teorema probabilitas Bayes, telah dikenal karena efisiensinya dalam klasifikasi teks, terutama pada dataset yang besar. Sederhana namun efektif, Naive Bayes telah digunakan secara luas dalam berbagai aplikasi analisis sentimen, mulai dari analisis ulasan produk hingga

(2)

pemantauan media sosial [9] [10]. Di sisi lain, SVM dikenal dengan kemampuannya dalam menangani fitur berdimensi tinggi dan menemukan hyperplane optimal untuk klasifikasi, yang membuatnya menjadi pilihan yang benar dalam analisis sentimen [11]. Dalam menghadapi tantangan analisis sentimen, khususnya dalam konteks bencana alam di Youtube, kedua algoritma ini menawarkan pendekatan yang berbeda. Naive Bayes terkenal dengan kecepatan dan kesederhanaannya, sedangkan SVM dikenal dengan akurasi dan robustnessnya, terutama dalam klasifikasi teks [12].

Penelitian [13] menggunakan algoritma K-Means Clustering untuk menganalisis sentimen yang mengambil data dari Twitter. Pada penelitian ini menunjukkan bahwa nilai sentimen negatif adalah 15.09%, netral 51.75%, dan positif 33.15%, dengan Silhouette Coefficient dengan nilai 0.687974. Penelitian ini sendiri memiliki kekurangan potensial yaitu keterbatasan dalam bahasa yang kaya, seperti slang, ketergantungan pada jumlah data yang cukup besar untuk hasil yang akurat. Selain itu, metode pengukuran Silhouette Coefficient mungkin tidak selalu mencerminkan kualitas clustering secara efektif jika data terdistribusi secara tidak biasa atau memiliki banyak outlier.

Penelitian [14] menggunakan beberapa metode yaitu SVM, Naive Bayes, Logistic Regression, Decision Tree, dan beberapa metode lainnya. Namun, penelitian ini dengan metode SVM dan Naive Bayes mendapatkan accuracy masing-masing 88% dan 87% penelitian ini olehmemiliki kekurangan bahwa tidak ada pembahasan mendalam tentang bagaimana dataset dikumpulkan dan bagaimana proses anotasi dilakukan, yang bisa mempengaruhi validitas dan reliabilitas hasil. Selain itu juga, dalam penelitian ini tampaknya hanya menggunakan metode kuantitatif tanpa analisis kualitatif untuk memahami konteks atau nuansa dalam komentar, yang bisa memberikan wawasan lebih dalam tentang sentimen pengguna. Dalam evaluasi dan validasi hasil juga tidak dijelaskan secara rinci. Penelitian [15] menggunakan TextBlob untuk analisis sentimen komentar Youtube menghadapi beberapa kekurangan. Metode ini bergantung pada pembersihan dataset yang belum optimal, yang dapat mengurangi keakuratan hasil. Selain itu, penggunaan TextBlob bergantung pada kamu sentimen yang mungkin tidak mencakup istilah unik atau slang yang sering muncul dalam komentar Youtube.

Oleh karena itu, penelitian ini diharapkan dapat memberikan kontribusi signifikan pada pemahaman terkait efektivitas Naive Bayes dan SVM dalam analisis sentimen kebencanaan, khususnya dalam konteks komunkasi bencana yang semakin penting dalam era informasi digital ini. Hasil yang diperoleh diharapkan dapat memberikan panduan bagi para peneliti dalam memilih metode yang tepat untuk analisis sentimen, khususnya dalam memahami dan merespons sentimen publik yang tercermin melalui media sosial terkait dengan bencana [16].

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Gambar 1. Tahapan Penelitian

Pada Gambar 1 terdapat 6 tahapan yang dilakukan dalam penelitian ini, dimulai dari pengumpulan data dengan cara crawling melalui komentar Youtube, setelah data terkumpul, langkah selanjutnya yaitu pre-processing data dengan membersihkan data dengan menghilangkan karakter yang tidak relevan, langkah selanjutnya yaitu splitting data dengan membagi dua set yaitu train set dan test set, selanjutnya vector representation, dalam tahapan ini mengubah teks menjadi format numerik yang dapat diproses oleh algoritma machine learning dan seringkali menggunakan metode TF-IDF. Langkah selanjutnya yaitu data modelling yang terdiri dari 2 metode yaitu SVM dan Naive Bayes dua algoritma yang berbeda ini kemudian digunakan untuk melatih model berdasarkan data pelatihan. Tahapan yang terakhir yaitu evaluasi, setelah model dilatih, kinerjanya dievaluasi menggunakan data

(3)

DOI: 10.30865/mib.v8i1.7186

pengujian. Evaluasi ini bisa berupa mengukur akurasi, presisi, recall, dan metrik lainnya untuk menentukan seberapa baik model tersebut dalam mengklasifikasikan data.

2.2 Pengumpulan Data

Proses pengumpulan data adalah langkah awal dalam penelitian ini. Data yang digunakan adalah komentar Youtube dari video “[BREAKING NEWS] Jakarta Diguncang Gempa” yang terdapat pada link Youtube berikut ini https://www.youtube.com/watch?v=YklRKkayU6Y. Untuk mengumpulkan data ini, peneliti menggunakan Youtube Data API untuk mengakses dan menarik komentar dari video tersebut. Peneliti akan memastikan bahwa dataset mencakup beragam topik dan sentimen untuk mendapatkan representasi yang lebih luas dari opini pengguna.

2.3 Pre-Processing

Pre-Processing adalah langkah pertama dalam mempersiapkan dokumen agar dapat diakses dengan lebih mudah [17]. Dalam pre-processing data ini melibatkan beberapa langkah seperti : pembersihan teks dengan menghapus karakter tidak penting (simbol, angka, dan tautan), tokenisasi, penghapusan stopword, normalisasi teks, dan stemming dan lemmatisasi [18].

2.4 Splitting Data

Data yang telah diproses akan dibagi menjadi 2 set: set train dan set test. Biasanya, pembagian ini dilakukan pada rasio 80:20, di mana 80% data digunakan untuk set train dan 20% sisanya untuk set test. Pembagian ini memastikan bahwa model dapat diajarkan dan diuji pada data yang berbeda.

2.5 Vector Representation

Dalam langkah ini, teks yang telah diproses akan diubah menjadi format vektor menggunakan teknik seperti TF- IDF (Term Frequency-Inverse Document Frequency), adalah teknik yang digunakan dalam pemrosesan bahasa alami dan pencarian informasi untuk mengevaluasi pentingnya sebuah kata dalam dokumen yang merupakan bagian dari kumpulan dokumen atau corpus. Teknik ini berguna dalam banyak aplikasi, terutama dalam sistem pencarian dan analisis teks [19]. Metode Term Frequency (TF) menghitung proporsi sebuah kata dalam kalimat terhadap total jumlah kata dalam kalimat tersebut, sementara Inverse Document Frequency (IDF) menghitung seberapa sering sebuah kata muncul dalam seluruh dokumen dengan membandingkan jumlah total dokumen di mana kata tersebut muncul [20]. Berikut persamaan TF, IDF, dan TF-IDF.

tf_ab = ^freq^a^(d^b)

∑^k_i=1freqa(d_b) (1)

Persamaan (1) mengilustrasikan ukuran frekuensi sebuah kata atau term muncul dalam sebuah dokumen.

idf_a = log ^N

df_a (2)

Rumus IDF untuk menilai seberapa unik atau jarang sebuah kata muncul di seluruh dokumen dalam sebuah corpus. IDF memberi bobot lebih kepada kata-kata yang jarang muncul di seluruh dokumen, karena dianggap memiliki kemampuan lebih baik dalam membedakan antara dokumen atau topik.

(tfidf)_ab = tf_ab × idf_a (3)

TF-IDF digunakan untuk menimbang pentingnya sebuah kata dalam sebuah dokumen relatif terhadap kumpulan dokumen atau corpus. Teknik ini merupakan produk dari dua statistik, Term Frequency (TF) dan Inverse Document Frequency (IDF)

freq_a(d_b) : Jumlah kejadian term ke-a dalam dokumen ke-b

idf_a : Logaritma dari perbandingan antara total dokumen dengan jumlah dokumen yang memiliki term yang dimaksud

N : Total koleksi dokumen dalam database df_a : Total dokumen yang mencakup term-a

(tfidf)_ab : Nilai bobot term ke-a yang terkait dokumen ke-b

a : 1,2,3,...,k dengan k adalah banyaknya term yang terbentuk b : 1,2,3,...,n dimana n adalah banyak dokumen

2.6 Naive Bayes

Naive Bayes adalah sebuah algoritma klasifikasi dalam machine learning yang berdasarkan Teorema Bayes [9].

Algoritma ini dianggap ‘naive’(naif) karena mengasumsikan independensi antar fitur dalam data. Dengan kata lain, keberadaan suatu fitur dalam kelas tertentu tidak bergantung pada keberadaan fitur lainnya. Metode ini sangat efektif dan efisien untuk dataset besar dan sering digunakan dalam klasifikasi teks, seperti filtrasi spam dan analisis sentimen. Algoritma Naive Bayes bergantung pada data latih untuk menghitung probabilitas. Setelah probabilitas tersebut diperoleh, proses selanjutnya adalah melakukan klasifikasi. Ini dilakukan dengan menghitung probabilitas

(4)

atribut dari data uji untuk setiap kelas yang ada. Berdasarkan perhitungan ini, kelas yang memiliki nilai probabilitas tertinggi akan dipilih sebagai label untuk data uji tersebut.

P(V_j|a_i) = ^P(a_i|V_j)P(Vj)

P(a_i) (4)

Keterangan

P(V_j|a_i) : Probabilitas kategori-j ketika term-i muncul P(a_i|V_j) : Probabilitas term-i masuk ke dalam kategori-j P(V_j) : Probabilitas jumlah kejadian kategori ke-j P(a_i) : Probabilitas jumlah munculnya kata ke-i i : Penomoran kata dimulai dari 1 hingga ke-k j : Label kategori dimulai dari 1 hingga ke-n 2.7 Support Vector Machine (SVM)

Support Vector Machine (SVM) adalah model pembelajaran mesin yang digunakan untuk klasifikasi dan regresi [11]. Dalam SVM, data di plot sebagai titik dalam ruang yang menyebar di berbagai kategori. Tujuannya adalah untuk menemukan hyperplane, yaitu sebuah batas keputusan, yang paling efektif memisahkan kategori data yang berbeda. Hyperplane ini dipilih sedemikian rupa sehingga memiliki jarak maksimum dari titik-titik data terdekat dari kedua kategori, yang disebut sebagai support vector. Selain itu, SVM dapat menggunakan kernel trick untuk mengubah data menjadi bentuk yang lebih mudah dipisahkan, menjadikan sangat fleksibel dan kuat dalam mengatasi berbagai jenis data klasifikasi. Beberapa kernel tersebut memiliki rumus seperti.

Kernel poly : k(x, y) = (x. y)^p (5)

Kernel linier : k(x, y) = x. y (6)

Kernel sigmoid : k(x, y) = tanh⁡(σ(x. y) + c (7)

Kernel rbf : k(x, y) = exp⁡(^−x−y²

2σ² ) (8)

Keterangan c : konstanta exp : eksponen p : order polynomial 2.8 Evaluation

Setelah train set, model akan diuji menggunakan test set. Evaluasi model akan melibatkan penggunakan metrik seperti akurasi, presisi, recall, dan F1-Score [21]. Selain itu, analisis kesalahan akan dilakukan untuk memahami kasus-kasus dimana model gagal melakukan prediksi dengan benar. Hasil evaluasi ini akan digunakan untuk memperbaiki model lebih lanjut dan mendapatkan pemahaman yang lebih baik tentang kinerjanya.

Tabel 1. Tabel Confusion Matrix

Keterangan

Pred. Positive : Kasus-kasus yang diprediksi oleh model sebagai kelas positif.

Pred. Negative : Kasus-kasus yang diprediksi oleh model sebagai kelas negatif.

Actual Positive : Kasus-kasus yang sebenarnya adalah kelas positif.

Actual Negative : Kasus-kasus yang sebenarnya adalah kelas negatif.

True Positive (TP) : Jumlah kasus dimana model dengan benar memprediksi kelas positif.

True Negative (TN) : Jumlah kasus dimana model dengan benar memprediksi kelas negatif.

False Negative (FN) : Jumlah kasus dimana model salah memprediksi kelas positif sebagai kelas negatif.

False Positive (FP) : Jumlah kasus dimana model salah memprediksi kelas negatif sebagai kelas positif.

Dalam Tabel 1 yang menampilkan Matriks Konfusi, presentase kasus positif yang diklasifikasikan secara akurat sebagai positif disebut true positive (TP). Di sisi lain, kasus di mana kelas positif salah diklasifikasikan sebagai negatif disebut false positive (FP), dan kasus di mana kelas negatif salah diklasifikasikan sebagai positif adalah false negative (FN). Kasus di mana kelas negatif dikategorikan dengan benar sebagai negatif disebut true negative (TN). Data dari matriks konfusi ini, termasuk tingkat akurasi, recall, presisi, dan skor f1, diuraikan untuk memberikan pemahaman yang lebih mendalam tentang kinerja model klasifikasi.

𝐹1 − 𝑠𝑐𝑜𝑟𝑒 = ⁡2⁡.⁡⁡𝑟𝑒𝑐𝑎𝑙𝑙⁡.⁡⁡𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

𝑟𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (9)

Actual Positive Actual Negative Pred. Positive (TP) True Positive (FP) False Positive Pred. Negatvie False Negative (FN) True Negative (TN)

(5)

DOI: 10.30865/mib.v8i1.7186

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ⁡ (𝑇𝑃)𝑇𝑟𝑢𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑇𝑟𝑢𝑒⁡𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒(𝑇𝑁)

((𝑇𝑃)𝑇𝑟𝑢𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑇𝑟𝑢𝑒⁡𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒(𝑇𝑁)+(𝐹𝑃)𝐹𝑎𝑙𝑠𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒⁡𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒(𝐹𝑁)) (10) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ⁡ (𝑇𝑃)𝑇𝑟𝑢𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

(𝑇𝑃)𝑇𝑟𝑢𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+(𝐹𝑃)𝐹𝑎𝑙𝑠𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒⁡ (11)

𝑅𝑒𝑐𝑎𝑙𝑙 = ⁡ (𝑇𝑃)𝑇𝑟𝑢𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

(𝑇𝑃)𝑇𝑟𝑢𝑒⁡𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒⁡𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒(𝐹𝑁) (12)

3. HASIL DAN PEMBAHASAN

Penelitian ini bertujuan untuk menganalisis sentimen terkait dengan bencana gempa bumi di Jakarta dengan cara mengklasifikasikan perspekstif yang terungkap dalam komentar. Untuk meningkatkan kualitas penelitian analisis sentimen ini, metode Support Vector Machine dan Naiva Bayes digunakan sebagai teknik pendekatan utama.

3.1 Pengumpulan Data

Data penelitian yang digunakan adalah data komentar Youtube dari video “[BREAKING NEWS] Jakarta

Diguncang Gempa” yang terdapat pada link Youtube berikut ini

https://www.youtube.com/watch?v=YklRKkayU6Y. Untuk mengumpulkan data ini, peneliti menggunakan Youtube Data API untuk mengakses dan menarik komentar dari video tersebut dan diunduh sebagai file berbentuk csv. Total komentar yang dikumpulkan mencapai 2.440, yang memberikan keragaman yang baik dalam dataset.

Gambar 2. Alur Pengumpulan Data Tabel 2. Penjelasan Atribut dalam Dataset

no atribut tipe data deskripsi

1 date object Tahun, bulan, dan tanggal pada komentar di dataset ini 2 name object Nama pengguna pada komentar di dataset ini 3 content object Isi komentar pengguna pada kolom komentar di dataset ini 4 score int64 Jumlah reply pengguna pada kolom komentar di dataset ini

Pada Gambar 2 dan Tabel 2 memperlihatkan langkah melakukan pengumpulan data dan penjelasan atribut dalam dataset, sedangkan hasil dari proses crawling data dapat dilihat di Tabel 3.

Tabel 3. Hasil Crawling Data

date name content score

2023-08-31T02:31:17Z @Gina-uy8po Ya Allah semoga baik baik aja 😢 0 2023-06-04T03:15:28Z @perkutut9474 BERITA KURANG JELAS...BARU SAJA ADA

GEMPA KEKUATAN 6.7 JELASKAN ..HARI DAN TANGGAL BERAPA ..? OMONG MANTAP TAPI TIDAK JELAS ..ASAL ..MENGNGA MULUTMU ..WEK CEWEK .. !

0

3.2 Pre-Processing Data

Pre-processing data dilakukan untuk membersihkan dan mempersiapkan data untuk analisis lebih lanjut. Tahap pre-processing terdiri dari :

a. Teks dibersihkan dengan dua teknik yaitu cara cleansing data dan case folding. Pembersihan data melibatkan penghilangan elemen yang tidak relevan, seperti angka, symbol, dan tanda baca yang tidak penting untuk analisis sentimen. Sementara itu, case folding adalah proses mengubah semua huruf kapital dalam teks menjadi huruf kecil. Kedua langkah ini penting untuk mempersiapkan data agar lebih mudah dianalisis dalam konteks analisis sentimen. Sebagaimana terlihat dalam Tabel 4.

Tabel 4. Contoh Hasil Cleansing & Case Folding

text clean text

Ya Allah semoga baik baik aja 😢 ya allah semoga baik baik aja

(6)

text clean text BERITA KURANG JELAS...BARU SAJA ADA GEMPA

KEKUATAN 6.7 JELASKAN ..HARI DAN TANGGAL BERAPA ..? OMONG MANTAP TAPI TIDAK JELAS ..ASAL ..MENGNGA MULUTMU ..WEK CEWEK .. !

berita kurang jelas baru saja ada gempa kekuatan jelaskan hari dan tanggal berapa omong mantap tapi tidak jelas asal mengnga mulutmu wek cewek

b. Word tokenizing adalah proses membagi teks dari komentar Youtube menjadi token atau kata-kata individu.

Melalui proses ini, setiap kalimat dengan komentar dibagi menjadi kata-kata terpisah, memudahkan analisis lanjutan dari teks tersebut. Proses ini memecah teks menjadi unit-unit yang lebih kecil untuk analisis lebih detail.

c. Remove Stopword adalah proses mengeliminasi kata-kata yang sering muncul dan dianggap kurang penting dalam menentukan emosi atau sentimen. Ini termasuk kata-kata yang umumnya terdapat dalam daftar stopword dari Natural Language Toolkit (NLTK), yang sering dianggap tidak memiliki arti signifikan. Proses ini memungkinkan fokus pada kata-kata yang dianggap lebih penting dalam teks untuk analisis sentimen atau emosional.

d. Normalization, proses ini juga menggunakan proses stemming untuk mengurangi kata-kata ke bentuk dasarnya.

Dalam Python, ini sering dilakukan menggunakan paket stemmer dari Sastrawi, yang khusus dirancang untuk menangani teks dalam bahasa tertentu, seperti Bahasa Indonesia, menmgubah kata-kata ke bentuk dasar mereka. Normalisasi juga mengubah kata-kata tidak baku menjadi baku. Metode ini menggunakan data kamus yang diunduh dari sumber seperti halaman github “indonesian-NLP-resources”, untuk menemukan padanan kata-kata tidak baku dan mengubahnya menjadi versi yang lebih standar. Proses ini termasuk mengkonversi bahasa gaul atau slang menjadi bahasa yang lebih formal dan baku.

Tabel 5. Tabel Contoh Hasil Normalization

komentar normal komentar clean

Ya Allah semoga baik baik aja 😢 [“allah”, “semoga”, “baik”, “saja”]

BERITA KURANG JELAS...BARU SAJA ADA GEMPA KEKUATAN 6.7 JELASKAN ..HARI DAN TANGGAL BERAPA ..? OMONG MANTAP TAPI TIDAK JELAS ..ASAL ..MENGNGA MULUTMU ..WEK CEWEK .. !

['berita”, “gempa”, “kuat”, “tanggal”,

“omong”, “mantap”, “mengnga”, “mulut”,

“cewek”]

e. Data Labeling dalam penelitian ini, teknik lexicon digunakan untuk pelabelan sentimen. Sebuah kamus lexicon, yang memiliki bobot untuk setiap kata, dijadikan sebagai referensi utama. Sentimen dalam teks diklasifikasikan sebagai netral, positif, atau negatif berdasarkan skor polaritas dari kamus ini. Sentimen positif diindikasikan dengan skor polaritas di atas 0, sentimen negatif dengan skor di bawah 0, dan sikap netral ditandai dengan skor 0.

Tabel 6. Tabel Contoh Hasil Labeling

clean text polarity score polarity

[“allah”, “semoga”, “baik”, “saja”] 6 positif

['berita”, “gempa”, “kuat”, “tanggal”,

“omong”, “mantap”, “mengnga”, “mulut”,

“cewek”]

-5 negatif

Pada dataset yang sudah di pre-processing, 2 metode pelabelan digunakan, seperti yang tertera pada Tabel 6.

Metode ini melibatkan normalisasi data dengan menjumlahkan kata-kata yang ada dalam setiap komentar dan juga menjumlahkan bobot dari kata-kata tersebut. Metode ini membantu dalam menentukan klasifikasi sentimen bersadarkan total bobot kata dalam setiap komentar.

3.3 Vector Representation

Setelah melalui serangkaian tahap persiapan, dokumen teks diproses dengan metode pembobotan yang dikenal sebagai Term Frequency-Inverse Document Frequency (TF-IDF). Langkah ini melibatkan penentuan frekuensi kemunculan kata-kata dalam dokumen, yang kemudian diikuti dengan penghitungan kebalikan frekuensi dokumen, dan diakhiri dengan pembobotan kata-kata tersebut dengan mengalikan term frequency dengan inverse document frequency.

3.4 Naive Bayes

Pada penggunaan Naive Bayes ini mendapatkan hasil dengan test size 10% hingga 30%, model mencapai akurasi hingga 78.6%, recall 95.1%, dan precision 73.1%. Konsistensi hasil ini dipertahankan dengan variasi random state, menegaskan keandalan model. Matriks konfusi yang dihasilkan memberikan wawasan tentang jumlah True Positives dan True Negatives yang signifikan. Seperti pada Tabel 7 pengujian sistem dilakukan.

(7)

DOI: 10.30865/mib.v8i1.7186

Tabel 7. Hasil Metode Pengujian Sistem pada Naive Bayes

no test_size random_state confusion_matrix accuracy recall precision

0 0.1 0 [[53, 36], [5, 98]] 0.79 0.95 0.73

1 0.1 5 [[55, 25], [7, 105]] 0.83 0.94 0.81

2 0.1 10 [[60, 28], [7, 97]] 0.82 0.93 0.78

3 0.1 15 [[58, 36], [2, 96]] 0.80 0.98 0.73

4 0.1 20 [[59, 32[, [11, 90]] 0.78 0.89 0.74

5 0.1 25 [[48, 35], [7, 102]] 0.78 0.94 0.74

6 0.2 0 [[120, 57], [9, 198]] 0.83 0.96 0.78

7 0.2 5 [[111, 59], [17, 197]] 0.80 0.92 0.77

8 0.2 10 [[107, 58], [15, 204]] 0.81 0.93 0.78

9 0.2 15 [[108, 65], [17, 194]] 0.79 0.92 0.75

10 0.2 20 [[113, 70], [18, 183]] 0.77 0.91 0.72

11 0.2 25 [[110, 56], [18, 200]] 0.81 0.92 0.78

12 0.3 0 [[171, 102], [14, 289]] 0.80 0.95 0.74

13 0.3 5 [[154, 115], [18, 289]] 0.77 0.94 0.72

14 0.3 10 [[165, 81], [30, 300]] 0.81 0.91 0.79

15 0.3 15 [[155, 107], [25, 289]] 0.77 0.92 0.73

16 0.3 20 [[166, 102], [22, 286]] 0.78 0.93 0.74

17 0.3 25 [[162, 81], [26, 307]] 0.81 0.92 0.79

18 0.4 0 [[219, 141], [25, 383]] 0.78 0.94 0.73

19 0.4 5 [[203, 136], [34, 388]] 0.78 0.92 0.74

20 0.4 10 [[222, 114], [44, 388]] 0.79 0.90 0.77

21 0.4 15 [[212, 133], [32, 391]] 0.79 0.92 0.75

22 0.4 20 [[211, 144], [31, 382]] 0.77 0.92 0.73

23 0.4 25 [[224, 101], [56, 387]] 0.80 0.87 0.79

Gambar 3. Piechart Hasil Naive Bayes

Pada Gambar 4 hasil analisis menunjukkan mayoritas ulasan cenderung positif, dengan 69.79% dari ulasan yang berjumlah 134 ulasan positif. Di sisi lain, sebanyak 30.21% atau 58 ulasan dikenali sebagai berisi sentimen negatif. Hal ini menunjukkan bahwa terdapat suatu kecenderungan umum yang positif dalam respons terhadap konten cenderung lebih positif.

3.5 Suport Vectore Machine (SVM)

Dalam dataset yang sudah melalui pre-processing, peneliti menerapkan 2 metode yaitu Support Vector Machine (SVM) dan Naive Bayes. Pada penggunaan Support Vectore Machine ini mendapatkan hasil dengan test size 10%

hingga 30%, model mencapai akurasi hingga 87.5%, recall 92.23%, dan precision 85.85%. Konsistensi hasil ini dipertahankan dengan variasi random state, menegaskan keandalan model. Matriks konfusi yang dihasilkan memberikan wawasan tentang jumlah True Positives dan True Negatives yang signifikan. Seperti pada Tabel 8 pengujian sistem dilakukan.

Tabel 8. Hasil Metode Pengujian Sistem pada SVM

0 0.1 0 [[73, 16], [8, 95]] 0.88 0.92 0.86

1 0.1 5 [[72, 8], [8, 104]] 0.92 0.93 0.93

2 0.1 10 [[83, 5], [8, 96]] 0.93 0.92 0.95

3 0.1 15 [[75, 19], [7, 91]] 0.86 0.93 0.83

4 0.1 20 [[85, 6[, [10, 91]] 0.92 0.90 0.94

(8)

5 0.1 25 [[75, 8], [8, 10]] 0.92 0.93 0.93

6 0.2 0 [[152, 25], [10, 197]] 0.91 0.95 0.89

7 0.2 5 [[149, 21], [18, 196]] 0.90 0.92 0.90

8 0.2 10 [[149, 16], [21, 189]] 0.90 0.90 0.93

9 0.2 15 [[142, 31], [22, 189]] 0.86 0.90 0.86

10 0.2 20 [[164, 19], [22, 179]] 0.89 0.89 0.90

11 0.2 25 [[150, 16], [24, 194]] 0.90 0.89 0.92

12 0.3 0 [[233, 40], [18, 285]] 0.90 0.94 0.88

13 0.3 5 [[231, 38], [26, 281]] 0.89 0.92 0.88

14 0.3 10 [[226, 20], [33, 297]] 0.91 0.90 0.94

15 0.3 15 [[229, 33], [33, 281]] 0.89 0.89 0.89

16 0.3 20 [[236, 32], [27, 281]] 0.90 0.91 0.90

17 0.3 25 [[218, 25], [35, 298]] 0.90 0.89 0.92

18 0.4 0 [[303, 57], [28, 380]] 0.89 0.93 0.87

19 0.4 5 [[281, 58], [42, 387]] 0.87 0.90 0.87

20 0.4 10 [[305, 31], [47, 385]] 0.90 0.89 0.93

21 0.4 15 [[299, 56], [39, 374]] 0.88 0.89 0.89

22 0.4 20 [[299, 56], [39, 374]] 0.88 0.91 0.87

23 0.4 25 [[295, 30], [60, 383]] 0.88 0.86 0.93

Gambar 4. Piechart Hasil SVM

Pada Gambar 3 hasil analisis menunjukkan distribusi yang hampir seimbang antara ulasan positif dan negatif . secara spesifik, 49.48% dari ulasan yang berjumlah 95 ulasan, terindetifikasi memiliki sentimen negatif.

Sementara 50.52% dari total 97 ulasan yang dikategorikan sebagai positif. Pada hasil ini banyak menunjukan dengan sedikit lebih banyak ulasan yang cenderung positif, mengindikasikan bahwa secara keseluruhan, respons terhadap konten cenderung lebih positif.

3.6 Evaluation

Dalam rangka evaluasi performa model klasifikasi yang dikembangkan, confusion matrix telah digunakan untuk menggambarkan hasil prediksi model terhadap data uji. Confussion matrix yang dihasilkan ini menggunakan metode Support Vector Machine dan juga Naive Bayes. Dalam metode Naive Bayes menunjukkan bahwa model berhasil memprediksi 53 kasus negatif (True Negative) dan 98 kasus positif (True Positive) dengan akurat. Namun, terdapat 36 kasus yang salah diklasifikasikan sebagai positif (False Positive) dan 5 kasus yang salah diklasifikasikan sebagai negatif (False Negative). Model confussion matrix Naive Bayes ditunjukkan pada Gambar 5.

Gambar 5. Hasil Confussion Matrix Naive Bayes

(9)

DOI: 10.30865/mib.v8i1.7186

Dalam penelitian ini, evaluasi model klasifikasi dilakukan menggunakan confussion matrix, yang menghasilkan nilai True Positif (TP) = 98, False Positive (FP) = 36, False Negative (FN) = 5, dan True Negative (TN) = 53.

Accuracy = ^(98+53)

(98+36+5+53) = ¹⁵¹

192 = 0.78865 atau 78.65%

Gambar 6. Hasil Scoring Naive Bayes

Akurasi sebesar 78.65% menunjukkan efektivitas yang cukup baik. Dalam analisis lebih lanjut, precision dan recall dihitung untuk setiap kategori klasifikasi. Gambar 6, yang mengacu pada visualisasi dari hasil ini, menunjukkan konsistensi dalam presisi dan recall pada 82% dan 79% secara berturut-turut, yang mencerminkan kinerja model yang stabil saat diaplikasikan. Keseluruhan matrix menunjukkan bahwa meskipun ada keefektifan dalam klasifikasi sentimen positif, ada ruang yang signifikan untuk peningkatan, khususnya dalam mendeteksi sentimen negatif.

Sedangkan untuk metode Support Vector Machine menunjukkan bahwa model berhasil memprediksi 85 kasus negatif (True Negative) dan 91 kasus positif (True Positive) dengan akurat. Namun, terdapat 6 kasus yang salah diklasifikasikan sebagai positif (False Positive) dan 10 kasus yang salah diklasifikasikan sebagai negatif (False Negative). Dengan hasil akurasi 91.66%, kemudian precision memperoleh nilai 93.8%, recall 90.1%. Model confussion matrix SVM ditunjukkan pada Gambar 7.

Gambar 7. Hasil Confusion Matrix SVM

Dalam penelitian ini, evaluasi model klasifikasi dilakukan menggunakan confussion matrix, yang menghasilkan nilai True Positif (TP) = 91, False Positive (FP) = 6, False Negative (FN) = 10, dan True Negative (TN) = 85.

Accuracy = ^(91+85)

(91+6+10+85) = ¹⁷⁶

192 = 0.9166 atau 91.66%

Gambar 8. Hasil Scoring SVM

Akurasi sebesar 91.66% menunjukkan performa yang tinggi dalam pengaturan terbaik yang diuji. Dalam analisis lebih lanjut, precision dan recall dihitung untuk setiap kategori klasifikasi. Gambar 8, yang mengacu pada visualisasi dari hasil ini, mengungkapkan nilai precision yang tinggi, dengan 89% dari prediksi negatif dan 94%

dari prediksi positif yang ternyata akurat. Hal ini diimbangi oleh recall yang juga tinggi, yaitu 93% untuk kasus negatif dan 90% untuk kasus positif.

(10)

4. KESIMPULAN

Dari analisis yang dilakukan, dapat disimpulkan bahwa metode Support Vector Machine (SVM) menunjukkan performa yang lebih tinggi dibandingkan dengan Naive Bayes dalam konteks analisis sentimen yang dibahas.

Metode SVM mencapai akurasi yang sangat tinggi yaitu 91.66%, yang diindikasikan oleh nilai presisi yang kuat 89% untuk sentimen negatif dan 94% untuk sentimen positif serta recall yang tinggi 93% untuk negatif dan 90%

untuk positif. Ini menunjukkan bahwa SVM sangat efektif dalam mengidentifikasi kedua kategori sentimen dengan tepat.Sebaliknya, meskipun Naive Bayes berhasil mengklasifikasikan jumlah yang signifikan dari kasus positif dan negatif secara benar, model tersebut memiliki akurasi yang lebih rendah yaitu 78.65%. Terdapat jumlah kesalahan klasifikasi yang lebih tinggi untuk sentimen positif dan negatif yang diindikasikan oleh jumlah False Positives dan False Negatives. Meskipun demikian, metode Naive Bayes masih menunjukkan konsistensi yang cukup dengan presisi dan recall yang masing-masing sebesar 82% dan 79%.Secara keseluruhan, meskipun kedua model tersebut efektif dalam klasifikasi sentimen positif, SVM secara signifikan lebih unggul dalam mengidentifikasi sentimen negatif, yang merupakan area perbaikan untuk Naive Bayes. Ini menunjukkan bahwa untuk analisis yang membutuhkan keseimbangan antara deteksi sentimen positif dan negatif dengan tingkat kesalahan yang rendah, SVM adalah pilihan yang lebih baik. Kesimpulannya, kedua model tersebut memiliki keunggulan dalam klasifikasi sentimen, namun SVM menonjol sebagai model dengan kinerja yang lebih tinggi dalam studi ini.

UCAPAN TERIMAKASIH

Penulis mengucapkan terima kasih kepada pusat kajian IDSS (Intelligent Distributed and Surveillance System) dan seluruh dosen-dosen IDSS yang telah memberikan wawasan dan kesempatan untuk belajar dan pengembangan diri saya

REFERENCES

[1] W. Maharani, “Sentiment Analysis during Jakarta Flood for Emergency Responses and Situational Awareness in Disaster Management using BERT,” 2020 8th Int. Conf. Inf. Commun. Technol. ICoICT 2020, 2020, doi:

10.1109/ICoICT49345.2020.9166407.

[2] S. Z. Hassan, K. Ahmad, A. Al-Fuqaha, and N. Conci, “Sentiment analysis from images of natural disasters,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 11752 LNCS, no. October, pp. 104–113, 2019, doi: 10.1007/978-3-030-30645-8_10.

[3] S. S. L. Dang-xuan, “Social Media and Political Communication - A Social Media Analytics Social media and political communication : a social media analytics framework,” no. January, 2014, doi: 10.1007/s13278-012-0079-3.

[4] A. Tripathy, A. Agrawal, and S. K. Rath, “Classification of Sentiment Reviews using N-gram Machine Learning Approach Classification of sentiment reviews using n-gram machine learning approach,” Expert Syst. Appl., vol. 57, no.

March, pp. 117–126, 2016, doi: 10.1016/j.eswa.2016.03.028.

[5] Herianto, “Penerapan Text-Mining Untuk Mengidentifikasi,” vol. VIII, no. 2, pp. 36–44, 2019.

[6] B. Pranata and Susanti, “Support Vector Machine untuk Sentiment Analysis Bakal Calon Presiden Republik Indonesia 2024,” Indones. J. Comput. Sci., vol. 12, no. 3, pp. 1335–1349, 2023, doi: 10.33022/ijcs.v12i3.3231.

[7] P. Aditiya, U. Enri, and I. Maulana, “Analisis Sentimen Ulasan Pengguna Aplikasi Myim3 Pada Situs Google Play Menggunakan Support Vector Machine,” vol. 9, no. 4, pp. 1020–1028, 2022, doi: 10.30865/jurikom.v9i4.4673.

[8] C. Rahmawati and P. Sukmasetya, “Sentimen Analisis Opini Masyarakat Terhadap Kebijakan Kominfo atas Pemblokiran Situs non-PSE pada Media Sosial Twitter,” vol. 9, no. 5, pp. 1393–1400, 2022, doi: 10.30865/jurikom.v9i5.4950.

[9] R. Rachman and R. N. Handayani, “Klasifikasi Algoritma Naive Bayes Dalam Memprediksi Tingkat Kelancaran Pembayaran Sewa Teras UMKM,” J. Inform., vol. 8, no. 2, pp. 111–122, 2021, doi: 10.31294/ji.v8i2.10494.

[10] R. Johnson, “Effective Use of Word Order for Text Categorization with Convolutional Neural Networks,” pp. 103–112, 2015.

[11] I. F. Yuliati, S. Wulandary, and P. R. Sihombing, “Penerapan Metode Support Vector Machine (SVM) dan Backpropagation Neural Network (BPNN) dalam Pengklasifikasian Pasangan Usia Subur di Jawa Barat,” J. Stat. dan Apl., vol. 4, no. 1, pp. 23–34, 2020.

[12] R. Syahputra, G. J. Yanris, and D. Irmayani, “SVM and Naïve Bayes Algorithm Comparison for User Sentiment Analysis on Twitter,” vol. 7, no. 2, pp. 671–678, 2022.

[13] M. A. Z. Larasati, N. A. S. Winarsih, M. S. Rohman, and G. W. Saraswati, “Penerapan Metode K-Means Clustering Dalam Menganalisis Sentimen Masyarakat Terhadap K-Popers Pada Twitter,” Progresif J. Ilm. Komput., vol. 18, no. 2, p. 201, 2022, doi: 10.35889/progresif.v18i2.877.

[14] R. Singh and A. Tiwari, “Youtube Comments Sentiment Analysis,” Int. J. Sci. Res. Eng. Manag. (IJSREM, no. May, p.

5, 2021, [Online]. Available: https://www.researchgate.net/publication/351351202

[15] M. Z. Asghar, S. Ahmad, A. Marwat, and F. M. Kundi, “Sentiment Analysis on YouTube: A Brief Survey,” no.

September, 2015, [Online]. Available: http://arxiv.org/abs/1511.09142

[16] D. T. Nguyen et al., “Robust Classification of Crisis-Related Data on Social Networks Using Convolutional Neural Networks,” no. Icwsm, pp. 632–635, 2017.

[17] H. Henderi, “Preprocessing data untuk sistem peramalan tingkat kedisiplinan mahasiswa,” no. May, 2020, doi:

10.33050/icit.v3i2.70.

[18] J. Nasional, S. Informasi, E. Yudi, and R. Wicaksana, “Analisis Sentimen Twitter untuk Menilai Opini Terhadap

(11)

DOI: 10.30865/mib.v8i1.7186

Perusahaan Publik Menggunakan Algoritma Deep Neural Network,” vol. 02, pp. 108–118, 2021.

[19] J. Sayadi, L. Wikarsa, M. Comp, T. Suwanto, and S. Kom, “Search Engine Twitter Terhadap Isu Politik Menggunakan Metode TF-IDF dan Search Engine Twitter Terhadap Isu Politik Menggunakan Metode TF - IDF dan Vector Space Model,” no. August 2016, 2018.

[20] D. P. Fajrina, N. Amalita, and A. Salma, “Sentiment Analysis of TikTok Application on Twitter using The Naïve Bayes Classifier Algorithm,” vol. 1, pp. 392–398, 2023.

[21] M. R. Nurhusen, J. Indra, and K. A. Baihaqi, “Analisis Sentimen Pengguna Twitter Terhadap Kenaikan Harga Bahan Bakar Minyak ( BBM ) Menggunakan Metode Logistic Regression,” vol. 7, pp. 276–282, 2023, doi:

10.30865/mib.v7i1.5491.