• Tidak ada hasil yang ditemukan

View of Implementasi Algoritma Naïve Bayes Untuk Klasifikasi Sentimen Pengguna Twitter Terhadap KEMKOMINFO Di Indonesia

N/A
N/A
Protected

Academic year: 2024

Membagikan "View of Implementasi Algoritma Naïve Bayes Untuk Klasifikasi Sentimen Pengguna Twitter Terhadap KEMKOMINFO Di Indonesia"

Copied!
8
0
0

Teks penuh

(1)

24| Universtias Multi Data Palembang

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI SENTIMEN PENGGUNA TWITTER TERHADAP KEMKOMINFO DI INDONESIA

Deky Berniawan1*), Amri2, & Tinaliah3

123Program Studi Informatika, Fakultas Ilmu Komputer dan Rekayasa, Universitas Multi Data Palembang

1[email protected], 2[email protected], 3[email protected]

Kata kunci:

kemkominfo; naïve bayes;

smote.

Abstract: A hotly debated topic among Twitter social media users recently related to the Ministry of Communications and Information Technology is the Electronic Systems Management Program (PSE) and personal data leaks by hacker Bjorka. Based on this, we classified the public opinion of Twitter users about the problems that occurred from December 1 to December 6, 2022. In this study, we use the Naive Bayes algorithm with feature extraction as TF- IDF, and in the validation phase, we use the K-Fold Cross Validation method with the value k=10. From the test results, Twitter social media-user total of the 1000 tweet data, a total of 633 positive sentiments have positive sentiments towards KEMKOMINFO. An imbalanced amount of data affects the classification results. This can be seen from the test results that achieved 91%

accuracy, 100% accuracy, 100% recall, and 65% accuracy using the SMOTE upsampling method. 79% recognition without using the SMOTE upsampling method.

Abstrak: Akhir-akhir ini topik yang sedang hangat diperbincangkan oleh pengguna media sosial twitter mengenai Kementerian Komunikasi dan Informatika adalah program penyelenggara sistem elektronik (PSE), dan kebocoran data pribadi oleh hacker Bjorka. Berdasarkan hal tersebut maka dilakukan klasifikasi sentimen masyarakat pengguna twitter terhadap masalah yang muncul pada periode 01 – 06 Desember 2022. Penelitian ini menggunakan algoritma Naïve Bayes dengan ekstraksi fitur yang digunakan adalah TF-IDF dan tahap validasi menggunakan metode K-Fold Cross Validation dengan nilai k=10. Dari hasil pengujian dapat diambil kesimpulan bahwa pengguna media sosial Twitter memiliki sentimen positif terhadap KEMKOMINFO dengan total jumlah sentimen positif sebanyak 633 data dari total 1000 data tweet. Jumlah data yang tidak seimbang mempengaruhi hasil klasifikasi, hal ini dapat dilihat dari hasil pengujian didapatkan akurasi sebesar 91%, precision sebesar 100% dan recall sebesar 100% dengan menggunakan metode up-sampling SMOTE, dan akurasi sebesar 65%, precision sebesar 89%

dan recall sebesar 79% tanpa menggunakan metode up-sampling SMOTE.

Berniawan, D. dkk. (2023). Implementasi Algoritma Naïve Bayes Untuk Klasifikasi Sentimen Pengguna Twitter Terhadap KEMKOMINFO Di Indonesia. MDP Student Conference 2023

PENDAHULUAN

Twitter adalah layanan bagi teman, keluarga, dan kolega untuk berkomunikasi dan tetap berhubungan dengan bertukar pesan secara cepat dan sering. Pesan-pesan ini diposting ke profil pengguna, dikirim ke pengikut pengguna, dan dapat dicari di pencarian Twitter [1]. Menurut laporan We Are Social,

(2)

Universitas Multi Data Palembang | 25 jumlah pengguna Twitter di Indonesia telah mencapai 18,45 juta pada tahun 2022. Jumlah tersebut setara dengan 4,23

% pengguna Twitter di seluruh dunia yang berjumlah 436 juta. Jumlah pengguna Twitter di Indonesia pada tahun 2022 juga meningkat 31,3% dari tahun sebelumnya yang berjumlah 14,05 juta [2].

Akhir-akhir ini topik yang sedang hangat diperbincangkan oleh pengguna media sosial twitter mengenai Kementerian Komunikasi dan Informatika (KEMKOMINFO), yaitu program Penyelenggara Sistem Elektronik (PSE), dimana KEMKOMINFO memberikan sanksi tegas kepada aplikasi dan laman yang tidak mendaftar PSE, sampai sanksi pemblokiran aplikasi atau laman, serta kebocoran data pribadi oleh hacker Bjorka yang berhasil membuat pemerintah kalang-kabut sampai membentuk Satuan Tugas Perlindungan Data untuk meresponsnya.

Kementerian Komunikasi dan Informatika bertugas menangani urusan pemerintahan di bidang komunikasi dan informatika untuk membantu Presiden dalam mengelola pemerintahan negara. Kementerian Komunikasi dan Informatika dipimpin oleh Menteri Komunikasi dan Informatika (Menkominfo) yang dijabat oleh Johnny Gerald Plate sejak tanggal 23 Oktober 2019 [3].

Pada penelitian yang dilakukan [4] berjudul Penerapan Algoritma Sentiment Analysis Dan Naïve Bayes Terhadap Opini Pengunjung Di Tempat Wisata Pantai Pintu Kota, Kota Ambon. Penelitian ini bertujuan pendapat masyarakat tentang kepuasan pengunjung pada Ambon City Door Tour dengan menguji skor akurasi, precision dan recall menggunakan analisis sentimen dengan algoritma naive bayes. Hasil yang diperoleh dari penelitian ini menunjukkan nilai akurasi sebesar 90,65%, precision sebesar 97,22% dan recall sebesar 97,62%. Dari hasil tersebut, berdasarkan nilai yang diperoleh dari hasil analisis, objek wisata Ambon City Door Tour dinilai baik karena memiliki akurasi yang tinggi.

Pada penelitian yang dilakukan [5] berjudul Analisis Sentimen Opini Masyarakat Terhadap Vaksinasi Booster COVID-19 Dengan Perbandingan Metode Naïve Bayes, Decision Tree dan SVM.

Penelitian ini melakukan analisis sentimen publik terkait vaksin booster COVID-19 di Indonesia dengan menggunakan algoritma Naïve Bayes dan perbandingannya dengan model lain yaitu Decision Tree dan SVM. Hasil penelitian ini menunjukkan bahwa nilai AUC terbesar yaitu pada algoritma SVM (75.40%), namun untuk precision yang lebih tinggi jatuh kepada algoritma Naïve Bayes (83.81%). Dari hasil tersebut, terdapat confusion matrix yang menunjukkan bahwa uji coba algoritma Naïve Bayes yang dilakukan berjalan dengan baik.

Pada penelitian yang dilakukan [6] berjudul Comparison of SVM & Naïve Bayes Algorithm for Sentiment Analysis Toward West Java Governor Candidate Period 2018-2023 Based on Public Opinion on Twitter. Penelitian ini mengklasifikasikan sentimen ke pendapat yang ada sehingga dapat diprediksi sebelumnya pasangan calon gubernur yang mana Jawa Barat yang memiliki sentimen lebih positif dan dapat diprediksi akan terpilih sebagai gubernur periode 2018-2023 dan membandingkan dua teknik klasifikasi yaitu Support Vector Machine Algoritma (SVM) dan Naïve Bayes Classifier (NBC). Hasil pada penelitian ini menunjukkan bahwa Algoritma Naïve Bayes Classifier (NBC) memiliki tingkat akurasi yang lebih tinggi dari Support Vector Machine (SVM), yaitu hingga 94% untuk Deddy Mizwar-Dedi Mulyadi.

Berdasarkan penelitian yang dilakukan sebelumnya, Algoritma Naïve Bayes mampu untuk melakukan klasifikasi sentimen masyarakat terhadap sebuah masalah yang muncul dan menjadi bahan perbincangan di media sosial Twitter, sehingga pada penelitian ini akan digunakan algoritma Naïve Bayes serta diikuti dengan penggunaan metode pembobotan TF-IDF, lalu untuk tahap validasi akan digunakan metode K-Fold Cross Validation untuk menilai performa algoritma yang dipakai, serta menggunakan metode up-sampling SMOTE untuk mengatasi data yang imbalance.

METODE

Pada penelitian ini, tahapan yang dilakukan dalam mengimplementasikan algoritma naïve bayes untuk klasifikasi sentimen pengguna twitter terhadap KEMKOMINFO di Indonesia dapat dilihat pada Gambar 1.

(3)

26 | Universtias Multi Data Palembang

Gambar 1. Bagan Penelitian

Crawling Data Twitter

Pada tahap ini dilakukan crawling dataset dari twitter dengan mengambil data dari API Twitter yang dilakukan dengan bantuan Library Tweepy, menggunakan tools Google Colab, bahasa pemrograman Python.

Periode pengumpulan data dimulai pada periode 01 Desember 2022 – 06 Desember 2022 dengan kata kuncinya yaitu kominfo, kemenkominfo, kemkominfo, menkominfo, johnygplate sebanyak 1000 data.

Labeling

Setelah crawling dataset dari twitter, data tersebut akan dilakukan pelabelan secara manual dengan bantuan 2 orang pakar Bahasa Indonesia, yaitu Ibu Herni Puspa Dewi, S.Pd. dan Bapak Sutrisno, S.Pd. untuk membedakan sentimen positif, netral dan negatif. Data akan dilabeli oleh pakar untuk membedakan sentimen positif, netral, dan negatif. Untuk sentimen positif akan diberikan lambang “1”, sentimen netral diberikan lambang “0”, dan sentimen negatif diberikan lambang “-1”.

Preprocessing

Preprocessing adalah proses menyeleksi data yang akan diolah untuk menghasilkan data yang terstruktur dengan baik, langkah-langkah pre-processing yaitu case folding, normalizing, tokenizing, penghapusan stopword dan stemming.

Pembobotan TF-IDF (Term Frequency - Inverse Document Frequency)

TF-IDF adalah metode yang menggabungkan 2 cara penghitungan bobot kata dengan menghitung frekuensi term dan melakukan penghitungan invers dokumen yang mengandung kata tersebut (IDF). Karena perhitungan IDF juga dilakukan, metode TF-IDF membutuhkan referensi semua dokumen (corpus) [7].

Perhitungan TF-IDF dapat dihitung menggunakan persamaan 1 dan 2.

, , (1)

(2)

Setelah nilai IDF didapatkan, langkah selanjutnya adalah mencari nilai TF-IDF dengan mengalikan setiap Term frequency dengan hasil IDF pada suatu dokumen dapat dilihat pada persamaan 3.

TF-IDF , . (3)

(4)

Universitas Multi Data Palembang | 27 K-Fold Cross-Validation

K-fold cross-validation adalah teknik cross validation dengan membagi data menjadi k bagian yang sama. Training dan testing dilakukan sebanyak k kali. Pada pengujian pertama, subset S1 dianggap sebagai data testing dan subset lainnya digunakan sebagai data training. Pada pengujian ke-2, subset S2 dianggap sebagai data testing dan kemudian subset lainnya digunakan sebagai data training [7].

Algoritma Naïve Bayes

Algoritma Naïve Bayes merupakan algoritma yang digunakan untuk mencari nilai probabilitas tertinggi untuk mengklasifikasikan data eksperimen ke dalam kategori yang paling sesuai. Algoritma ini menggunakan metode probabilistik dan statistik yang pertama kali ditemukan oleh ilmuwan Inggris Thomas Bayes, algoritma ini memprediksi peluang masa depan berdasarkan pengalaman, oleh karena itu dinamakan Teorema Bayes [8]. Persamaan rumus Algoritma Naive Bayes dapat dilihat pada persamaan 4.

. (4)

Namun jika atribut ke-i bersifat kontinu, maka | diestimasi dengan fungsi densitas Gaussian yang biasanya menjadi pilihan untuk mempresentasikan probabilitas bersyarat. Probabilitas bersyarat dapat dilihat pada persamaan 5.

| √"#$%&'&()

)*) (5)

Klasifikasi yang dilakukan pada dataset yang tidak seimbang menyebabkan kinerja yang buruk pada kelas minoritas, penyeimbangan data dilakukan dengan teknik synthetic minoritas oversampling, atau disingkat SMOTE (Synthetic Minority Oversampling Technique) [9].

Confusion Matrix

Confusion matrix adalah metode yang umum digunakan untuk menghitung tingkat akurasi dalam data mining. Ada tiga parameter yang dihitung yaitu accuracy, precision dan recall [10].

Accuracy

Merupakan rasio prediksi benar (positif, negatif dan netral) dengan keseluruhan data, menggambarkan keberhasilan model dalam menemukan kembali sebuah informasi [11]. Perhitungan accuracy dapat dihitung menggunakan persamaan 6.

++,-+. /01010//0/ 2 100% (6)

Precision

Merupakan rasio prediksi benar positif dibandingkan dengan total hasil prediksi positif, menggambarkan akurasi antara data yang diminta dan hasil prediksi yang diberikan oleh model. Perhitungan precision dapat dihitung menggunakan persamaan 7.

-%+7879 /01/ 2 100% (7) Recall

Merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan data yang benar positif, menggambarkan seberapa akurat model dalam mengklasifikasikan dengan benar. Perhitungan recall dapat dihitung menggunakan persamaan 8.

:%+ /01/ 2 100% (8)

(5)

28 | Universtias Multi Data Palembang

HASILDANPEMBAHASAN

Tahapan ini membahas hasil dari analisis sentimen data Twitter dalam konteks kominfo di Indonesia menggunakan Algoritma Naïve Bayes, jumlah data yang dilabeling adalah 1000 data, dan dibagi menjadi tiga sentimen yaitu label positif sebanyak 633 data, label negatif sebanyak 272 data dan label netral sebanyak 95.

Preprocessing

Hasil dari preprocessing dari suatu tweet dapat dilihat pada Gambar 2.

Gambar 2. Hasil Preprocessing

Pembobotan TF-IDF

Pada penelitian ini proses pembobotan TF-IDF dilakukan dengan menggunakan modul Sklearn yang disediakan dalam bahasa pemrograman Python, dan hasil modul Sklearn diperoleh dari 1000 data tweet menghasilkan 2259 kata unik yang ditunjukkan pada Gambar 3.

Gambar 3. Hasil Pembobotan TF-IDF

(6)

Universitas Multi Data Palembang | 29 Pengujian

Tahap ini dilakukan dengan hasil pengujian tweet berlabel positif, negatif dan netral. Pengujian dilakukan dengan data label tanpa Up-sampling SMOTE dan lainnya menggunakan data label dengan Up- sampling SMOTE untuk mengatasi ketidakseimbangan data.

Tabel 1. Perbandingan Data Awal dan SMOTE

Sentimen Data Awal SMOTE

Positif 633 633

Negatif 272 633

Netral 95 633

Total Data 1000 1899

Pengujian dilakukan menggunakan K-Fold Cross-Validation dengan nilai k = 10. Hasil pengujian tanpa menggunakan SMOTE ditunjukan pada Tabel 2, dan hasil pengujian menggunakan SMOTE ditunjukan pada Tabel 3.

Tabel 2. Pengujian Tanpa Menggunakan SMOTE Fold Accuracy

(%)

Precision (%) Recall (%)

Negatif Netral Positif Negatif Netral Positif

1 56 35 10 79 59 12 60

2 59 31 29 83 48 40 65

3 63 46 62 70 37 57 79

4 65 47 36 83 58 62 68

5 61 37 8 89 52 17 68

6 53 47 0 70 43 0 61

7 61 57 15 73 47 33 72

8 49 28 24 71 35 33 58

9 52 35 42 67 52 33 57

10 55 40 35 78 65 43 53

Tabel 2 merupakan hasil pengujian dari skenario pertama. Dapat dilihat bahwa hasil klasifikasi yang dilakukan oleh Algoritma Naïve Bayes menghasilkan akurasi terbesar yaitu 65% pada fold ke-4. Selanjutnya, dapat dilihat bahwa untuk sentimen positif kemampuannya untuk membedakan data sentimen positif dengan yang lainnya sudah baik dengan nilai precision terbesar yaitu 89% pada fold ke-5. Kemudian, kemampuannya dalam mengenali data sentimen positif sudah baik dengan nilai recall terbesar yaitu 79%

pada fold ke-3. Dilain pihak, untuk akurasi terkecil yaitu 49% pada fold ke-8, dan untuk sentimen netral memiliki nilai precision terkecil yaitu 0% pada fold ke-6 dan nilai recall terkecil yaitu 0% pada fold ke-6.

Tabel 3. Pengujian Menggunakan SMOTE Fold Accuracy

(%)

Precision (%) Recall (%)

Negatif Netral Positif Negatif Netral Positif

1 85 72 92 97 98 100 57

2 91 85 91 98 95 100 75

3 88 81 95 94 95 100 71

4 88 85 86 98 95 100 70

5 86 71 95 98 96 100 64

6 88 82 90 100 99 100 64

(7)

30 | Universtias Multi Data Palembang

7 80 67 88 90 93 100 52

8 87 78 91 97 95 100 64

9 83 77 86 91 94 100 52

10 84 77 86 95 95 100 58

Tabel 3 merupakan hasil pengujian dari skenario kedua. Dapat dilihat bahwa hasil klasifikasi yang dilakukan oleh Algoritma Naïve Bayes menghasilkan akurasi terbesar yaitu 91% pada fold ke-2. Selanjutnya, dapat dilihat sentimen positif kemampuannya untuk membedakan data sentimen positif dengan yang lainnya sangat baik dengan nilai precision terbesar yaitu 100% pada fold ke-6. Kemudian, pada sentimen netral kemampuannya dalam mengenali data sentimen netral sangat baik dengan nilai recall sebesar 100% berturut- turut.

SIMPULAN

Berdasarkan penelitian yang telah dilakukan didapat dari media sosial twitter menunjukkan bahwa pengguna media sosial Twitter memiliki sentimen positif terhadap KEMKOMINFO dengan total jumlah sentimen positif sebanyak 633 data dari total 1000 data tweet. Data yang tidak seimbang jumlahnya yaitu 633 data berlabel positif, 272 data berlabel negatif, dan 95 data berlabel netral mempengaruhi hasil klasifikasi.

Dalam analisis sentimen yang dilakukan mengunakan algoritma Naïve Bayes dengan 3 sentimen yaitu positif, negatif dan netral, hasil performa terbesar yang didapatkan yaitu akurasi sebesar 91%, precision sebesar 100% dan recall sebesar 100% dengan metode up-sampling SMOTE dibandingkan tanpa menggunakan metode up-sampling SMOTE menghasilkan akurasi sebesar 65%, precision sebesar 89% dan recall sebesar 79%.

DAFTARPUSTAKA

[1] “Pertanyaan Umum Pengguna Baru,” Twitter, Inc., 2023. https://help.twitter.com/id/resources/new- user-faq (Diakses 15 Oktober 2022).

[2] M. A. Rizaty, “Pengguna Twitter di Indonesia Capai 18,45 Juta pada 2022,” 10 Agustus 2022.

https://dataindonesia.id/digital/detail/pengguna-twitter-di-indonesia-capai-1845-juta-pada-2022 (Diakses 25 Oktober 2022).

[3] “Kementerian Komunikasi dan Informatika,” Kementerian Komunikasi dan Informatika RI, 2023.

https://www.kominfo.go.id/profil (Diakses 15 Oktober 2022).

[4] J. C. Aponno, “Penerapan Algoritma Sentiment Analysis dan Naïve Bayes Terhadap Opini Pengunjung di Tempat Wisata Pantai Pintu Kota, Kota Ambon,” Jurnal Teknik Informatika dan Sistem Informasi, Vol. 9, No. 4, Hlm. 3180–3188, Des 2022, [Daring]. Tersedia pada:

http://jurnal.mdp.ac.id

[5] R. T. Aldisa dan P. Maulana, “Analisis Sentimen Opini Masyarakat Terhadap Vaksinasi Booster COVID-19 Dengan Perbandingan Metode Naive Bayes, Decision Tree dan SVM,” Technology and Science (BITS), Vol. 4, No. 1, Hlm. 106–109, 2022, doi: 10.47065/bits.v4i1.1581.

[6] D. A. Kristiyanti, A. H. Umam, M. Wahyudi, R. Amin, dan L. Marlinda, “Comparison of SVM Naïve Bayes Algorithm for Sentiment Analysis Toward West Java Governor Candidate Period 2018-2023 Based on Public Opinion on Twitter,” Dalam 2018 6th International Conference on Cyber and IT Service Management, CITSM 2018, Mar 2018. doi: 10.1109/CITSM.2018.8674352.

(8)

Universitas Multi Data Palembang | 31 [7] A. Sabrani, I. G. P. W. Wedashwara W, dan F. Bimantoro, “Metode Multinomial Naive Bayes untuk Klasifikasi Artikel Online Tentang Gempa di Indonesia,” JTIKA, Vol. 2, Hlm. 89–100, 2020, [Daring]. Tersedia pada: http://jtika.if.unram.ac.id/index.php/JTIKA/

[8] R. Novendri, A. S. Callista, D. N. Pratama, dan C. E. Puspita, “Sentiment Analysis of YouTube Movie Trailer Comments Using Naïve Bayes,” Bulletin of Computer Science and Electrical Engineering, Vol. 1, No. 1, Hlm. 26–32, Jun 2020, doi: 10.25008/bcsee.v1i1.5.

[9] C. Lestari, T. Ratih, D. Saputri, S. Charles, dan P. T. Siahaan, “Analisis Sentimen Pandangan Netizen Indonesia Terhadap Vaksin COVID-19 Menggunakan Multi-Layer Perceptron,” Jurnal Teknik Informatika dan Sistem Informasi, Vol. 9, No. 4, Hlm. 2795–2803, Des 2022, [Daring]. Tersedia pada:

http://jurnal.mdp.ac.id

[10] B. Gunawan, H. S. Pratiwi, dan E. E. Pratama, “Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes,” JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. 4, No.

2, Hlm. 17–29, 2018, [Daring]. Tersedia pada: www.femaledaily.com

[11] M. S. Anggreany, “Confusion Matrix,” 1 November 2020.

https://socs.binus.ac.id/2020/11/01/confusion-matrix/ (diakses 9 Januari 2023).

Referensi

Dokumen terkait

IMPLEMENTASI NAÏVE BAYES CLASSIFIER PADA SISTEM ANALISIS SENTIMEN TWITTER (Studi Kasus: BPJS). Universitas Pendidikan Indonesia | repository.upi.edu

Hasil evaluasi klasifikasi sentimen terhadap PSBB di Jakarta dengan menggunakan metode Naïve Bayes Classifier dengan 80% data latih dan 20% data uji serta dilakukan

Pada penelitian ini, dilakukan analisis sentimen masyarakat mengenai PSBB di Jakarta melalui media sosial Twitter dengan metode Naïve Bayes Classifier.. Data

Laporan Skripsi yang berjudul “Implementasi Algoritma Naïve Bayes Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi” diajukan kepada Program

Berdasarkan penelitian di atas yang sejenis penelitian ini mencoba melakukan analisa sentimen dengan menggunakan Algoritma Naïve Bayes untuk mengklasifikasikan data twitter mengenai

Tujuan penelitian ini dilakukan untuk mengklasifikasi sentimen dan mengetahui tingkat nilai akurasi terhadap Tranformasi dan Reformasi Sepak Bola Indonesia pada Twitter dengan

Penelitian ini bertujuan untuk melakukan analisis sentimen HateSpeech [25] pengguna layanan twitter dengan metode Naïve Bayes Classifier berdasarkan 3 proses utama yaitu crawling,

KESIMPULAN Berdasarkan hasil penerapan dan pengujian klasifikasi sentimen masyarakat di Twitter terhadap ancaman resesi ekonomi tahun 2023 memakai metode naïve bayes classifier dari