ANALISIS SVM (SUPPORT VECTOR MECHINE PADA TINGKAT KEPERCAYAAN MASYARAKAT TERHADAP
POLRI
Riza Marsuciati *1, Kusrini2, Emha Taufiq Luthfi3
1,2,3Program Studi Magister Teknik Informatika Universitas AMIKOM Yogyakarta, Yogyakarta,
Indonesia, (0274) 884201
e-mail: *1[email protected], 2[email protected],
Abstrak
Twitter merupakan media sosial yang paling sering digunakan oleh para pengguna internet untuk bertukar pendapat tentang berbagai topik, membahas berita atau isu yang sedang terjadi bahkan menceritakan kehidupan pribadi. Tanpa disadari, yang terjadi saat berkomunikasi menggunakan media sosial adalah komunikasi tidak langsung, sehingga pengguna lain yang melihat atau membaca hanya mengetahui dari tweet yang tertulis tanpa mengetahui ekspresi pengguna. Mengetahui pertanyaan atau pernyataan seseorang di media sosial mengenai POLRI perlu dilakukan proses preprocessing dan analisis terhadap tweet yang ditulis oleh pengguna twitter yang membahas hal tersebut. Penelitian ini bertujuan untuk menganalisis tingkat kepercayaan masyarakat terhadap POLRI menggunakan metode Multiclass Support Vector Machine (SVM) pada media sosial Twitter dengan
mengklasifikasikan tweet. Data yang digunakan dalam penelitian ini adalah 4200 tweet yang terbagi menjadi 80% data Training, dan 20% data Test, dari masing-masing 3 kelas yaitu positif, negative dan netral. Berdasarkan hasil penelitian dan pengujian metode SVM untuk mengklasifikasikan tingkat kepercayaan masyarakat terhadap POLRI dengan tweet berbahasa Indonesia menggunakan ekstraksi fitur TF-IDF, diperoleh kesimpulan bahwa penggunaan metode SVM memiliki nilai Akurasi sebesar 94,79, Presisi 95%, Presisi 95% Recall dan 95%
F1-Score yang artinya bagus. dalam penelitian Klasifikasi tingkat kepercayaan masyarakat terhadap POLRI menggunakan Tweet berbahasa Indonesia.
Kata kunci—SVM, Klasifikasi, Media Sosial, Twitter
Abstract
Twitter is a social media that is most often used by internet users to exchange opinions on various topics, discuss news or current issues and even share personal life. Without realizing it, what happens when communicating using social media is indirect communication, so that other users who see or read only know from written tweets without knowing the user's expression.
Knowing someone's question or statement on social media regarding POLRI requires pre- processing and analysis of tweets written by Twitter users discussing this matter. This study aims to analyze the level of public trust in POLRI using the Multiclass Support Vector Machine (SVM) method on Twitter social media by classifying tweets. The data used in this study are 4200 tweets which are divided into 80% training data, and 20% test data, from each of the 3 classes namely positive, negative and neutral. Based on the results of research and testing of the SVM method to classify the level of public trust in POLRI with Indonesian language tweets using TF-IDF feature extraction, it is concluded that the use of the SVM method has an accuracy value of 94.79, 95%
precision, 95% recall and 95% precision. F1-Score which means good. in the study of the classification of the level of public trust in POLRI using Indonesian-language Tweets.
Keywords— SVM, Classification, Social Media, Twitter
1. PENDAHULUAN
Pda era digitalisasi saat ini banyak masyarakat yang menggunakan sosial media untuk melakukan berbagai aktifitas seperti bisnis, komunikasi, tempat berbagi informasi secara real time dan masih banyak lagi. Tak sedikit dari pengguna sosial media yang mengungkapkan perasaan, pernyataan dalam sebuah komentar tentang perasaan dan pendapat apapun salah satunya komentar untuk beberapa instansi yang dituangkan dalam berbagai platform sosial media seperti Twitter dan lain-lain.
Pro dan kontra pada opini masyarakat terhadap sebuah instansi telah banyak ditemui di platform-platform media sosial salah satunya Twitter. Opini-opini masyarakat yang dikemukakan oleh masyarakan mengenai kasus-kasus yang melibatkan anggota polisi dan sistem kerja polisi pun sangat banyak ditemui. Dari opini-opini tersebut menimbulkan keresahan dimana rasa keamanan yang telah menjadi citra dari POLRI menjadi diragukan oleh masyarakat.
Sentimen analisis dapat dilakukan pada persepsi masyarakat di sosial media dengan menganalisis bagaimana masyarakat beropini terhadap beberapa topik (Nurdeni dkk, 2021). Hal ini juga bisa digunakan untuk mempelajari pandangan individu, perilaku, perasaan terhadap orang lain, diri sendiri, masalah yang berkembang serta kegiatan yang selama ini sudah dilakukan. Informasi ini menjadi hal yang menarik bagi para pengambil keputusan sebab mampu memastikan apa yang sedang dipikirkan oleh orang lain (Basari dkk, 2013). Oleh sebab itu dikembangkan suatu teknik klasifikasi untuk mengelompokkan suatu opini yang sedang berkembang, baik yang ada di sosial media maupun media masa yang lain.
Dengan mengamati opini-opini masyarakat pada sosial media Twitter tentang POLRI menuntun penulis untuk melakukan analisis sentimen yang dilontarkan masyarakat pada platform sosial media Twitter dan melakukan perbandingan metode SVM (Support Vector Mechine) dan metode Naïve Bayes serta improvement data pada metode SVM (Support Vector Mechine) dan Naïve Bayes.
Berdasarkan penelitian diatas, maka pada penelitian ini akan dilakukan perbandingan sentimen analisis dengan menggunakan metode SVM (Support Vector Mechine) dan Naïve Bayes dan serta improvement data pada metode SVM (Support Vector Mechine) dan Naïve Bayes. Sebagai bahan pembanding kedua metode tersebut untuk mengetahui hasil keakuratan data didapatkan dari penggunaan metode tersebut atau dari improvement data yang ditambahkan pada kedua metode tersebut dengan menggunakan dataset yang sama.
2. METODE PENELITIAN
Metode penelitian dimulai dari perumusan masalah, studi literatur dari berbagai sumber.
Sumber berasal dari berbagai jurnal, buku, dan internet. Pengumpulan data yang dilakukan dengan cara crawling data menggunakan google colaboratory dari rentang waktu juni 2022 – oktober 2022. Data tersebut nantinya akan dilakukan proses preprocessing kemudian dilakukan klasifikasi menggunakan metode SVM (Support Vector Mechine).
Penelitian ini dimulai dari melakukan pengumpulan data dari sosial media Twitter, dimana didapatkan 2400 data dengan 3 klasifikasi yaitu berupa komentar positif, komentar negative dan netral. Tahap kedua adalah melakukan penerapan teks pre-proccessing. Tahap ketiga adalah melakukan pembobotan menggunakan Term Frequency Inverse Document Frequenc (TF- IDF). . Keempat, pembagian data training dan data testing. Kelima, training data menggunakan model. Dan terakhir, uji coba data testing untuk mendapatkan akurasi, presisi, recall dan f1 score.
Gambar 1. Alur Penelitian 2.1 Rumusan masalah
Berdasarkan uraian latar belakang diatas, maka didapatkan fokus rumusan masalah sebagai berikut : a. Bagaimana ragam sentimen analisi kepercayaan masyarakat terhadap POLRI pada pengguna sosial media Twitter?
b. Berapa nilai performa (akurasi, presisi, recall dan f1-score) yang dihasilkan oleh model saat menggunakan metode yaitu SVM (Support Vector Mechine).
2.2 Study literatur
Study literatur merupakan langkah dimana dilakukan pencarian sumber – sumber yang berkaitan dengan rumusan masalah yang ditentukan.
2.3 Teks Pre-Processing
Tahap teks preprocessing merupakan tahapan yang paling penting dalam melakukan teks analisis terutama data teks yang berasal dari sosial media Twitter. Data yang berasal dari Twitter umumnya masih memiliki banyak noise seperti singkatan kata, simbol, hashtag, link url dan lain sebagainya. Noise tersebut harus dibersihkan terlebih dahulu untuk bisa mendapatkan data yang siap diolah. Beberapa teknik preprocessing yang digunakan antara lain:
1. Case Folding
Teknik ini bertujuan untuk mengubah huruf kapital menjadi huruf kecil. Penerapan case folding ditunjukkan pada table 1.
Tabel 1. Proses Case Folding
Sebelum case folding Setelah case folding - Dijalanan macet samping”an sama
#seragamcoklat SKSD bener, berasa mau pamer motornya kayaknya. Haha” kocak
- dijalanan macet samping”an sama
#seragamcoklat sksd bener, berasa mau pamer motornya kayaknya. haha” kocak
2. Cleaning
Pada penelitian ini, teknik cleaning yang digunakan adalah dengan menghapus simbol- simbol (punctuation) Contoh penerapan cleaning ditunjukkan pada Tabel 2.
Tabel 2. Proses Cleaning Data
Sebelum Cleaning Setelah Cleaning
- dijalanan macet samping”an sama
#seragamcoklat sksd bener, berasa mau pamer motornya kayaknya. haha” kocak
- dijalanan macet sampingan sama seragamcoklat sksd bener berasa mau pamer motornya kayaknya haha kocak
3. Stemming
Proses Stemming yang digunakan menggunakan Library Sastrawi dimana kata yang memiliki imbuhan diubah menjadi kata dasar. Contoh penerapan Stemming ditunjukkan pada tabel 3.
Tabel 3. Proses Stemming
Sebelum Stemming Setelah Stemming
- dijalanan macet sampingan sama seragamcoklat sksd bener berasa mau pamer motornya kayaknya haha kocak
- jalan macet samping sama seragamcoklat sksd bener berasa mau pamer motor kayak haha kocak
4. Stopword dan Tokenizing
Proses stopword digunakan untuk mem-filter kata yang dianggap kurang penting. Libray stopword yang digunakan dalam penelitian ini adalah library sastrawi. Pada tahap ini juga dilakukan tokenizing yaitu pemisahan kata untuk dapat dilakukan analisis teks. Penerapan stopword dan tokenizing dapat dilihat pada table 4.
Tabel 4. Proses Stopword
Sebelum Stopword dan Tokenizing Setelah Stopword dan Tokenizing jalan macet samping sama seragamcoklat
sksd bener berasa mau pamer motor kayak haha kocak
- jalan, macet, seragamcoklat, sksd, pamer, motor, kocak
2.4 Pembobotan Term Frequency Inverse Document Frequenc (TF-IDF)
TF-IDF banyak digunakan di bidang pencarian informasi dan penambangan teks untuk mengevaluasi hubungan setiap kata dalam kumpulan dokumen. Secara khusus, TF-IDF digunakan untuk mengekstrak kata kunci dari dokumen, menghitung derajat yang sama di antara dokumen, menentukan peringkat pencarian, dan sebagainya.
TF dalam TF-IDF berarti kemunculan kata-kata tertentu dalam dokumen. Kata kata dengan nilai TF tinggi memiliki arti penting dalam dokumen. Sedangkan, DF menyiratkan berapa kali kata tertentu muncul dalam kumpulan dokumen. Kata-kata dengan nilai DF tinggi tidak memiliki arti penting karena biasanya muncul di semua dokumen. Oleh karena itu, IDF yang merupakan kebalikan dari DF digunakan untuk mengukur pentingnya kata-kata dalam semua dokumen. Nilai IDF yang tinggi berarti kata-kata langka di semua dokumen, sehingga meningkatkan kepentingan [4]. Persamaan (1) merupakan persamaan yang diganakan dalam pembobotan TF-IDF.
𝑻𝑭 𝑰𝑫𝑭 = 𝑻𝑭 𝒙 𝑰𝑫𝑭 = 𝑻𝑭 𝒙 𝒍𝒐𝒈𝒆 ...(1) 2.5 SVM (Support Vector Mechine)
SVM adalah unit keluarga algoritma machine learning. SVM digunakan untuk menentukan batasan keputusan karena idenya didasarkan 9 pada bidang keputusan. SVM standar mengambil set input informasi serta membuat prediksi terjadi setiap input data, yang mana dari dua kelas terdiri dari input, membangun SVM linear biner non-probabilistik klasifikasi[5].
Tujuan dari SVM two-class adalah untuk membangun pengklasifikasi biner atau turunkan fungsi keputusan dari sampel yang tersedia yang memiliki kemungkinan kecil untuk kesalahan pengklasifikasian sampel selanjutnya. SVM yang diusulkan mengimplementasikan ide berikut:
memetakan vektor input x  Rd ke dalam ruang fitur berdimensi tinggi (x) pada Gambar 2 dan membangun sebuah hyperplane pemisah yang optimal, yang memaksimalkan margin, yang merupakan jarak antara hyperplane dan titik data terdekat dari setiap kelas di class ruang H pada Gambar 3[6][6][6][5][5][4][4][3][3] .
Gambar 2. Pemetaan Vektor Berdimensi Tinggi
Gambar 3. Pembuatan margin antara dua kumpulan data dengan dukungan vektor
3. HASIL DAN PEMBAHASAN 3.1 Hasil
Dataset penelitian merupakan data sekunder yang didapat dari [7]. Jumlah data yang akan digunakan 300 tweet dari masing-masing kelas berjumlah 3 yaitu positif, negatif dan netral.
Tabel 5. Data Sampel
No Data Kelas
1 Bila mau berjuang keras maka Tuhan selalu mengikuti jiwa para
pemberani !#SeragamCoklat 2015 ! Amin O☺ ðŞ̌¤ Positif 2 Dijalan macet samping”an sama #seragamcoklat SKSD bener, berasa
mau pamer motornya kayaknya. Hha” kocak https://t.co/0VBh2H8III
Negatif
3 Mungkin maksudnya “pramuka” #seragamCoklat http://t.co/YCUH6qE5gN
Netral
Tahap Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil, hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimeter.
Tahap Removing Punctuationtrain Melakukan proses membersihkan data sebelum di analisis. Proses tersebut dengan mengubah tulisan dari huruf kapital menjadi huruf kecil, menghilangkan simbol-simbol seperti #@:;”. dan lainnya. Sehingga pada kolom text_clean pada gambar dibawah ini, menunjukkan bahwa text sudah dilakukan proses Removing Punctuationtrain. Adapun Function yang digunakan dalam proses Removing Punctuationtrain sebagai berikut:
1. text = re.sub('\[.*?\]', '', str(txt))
2. text = re.sub('[%s]' % re.escape(string.punctuation), '', text) 3. text = re.sub('\w*\d\w*', '', text)
4. text = re.sub('[„‟“”...]', '', text) 5. text = re.sub('\n', '', text)
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahp ini dilakukan proses pengambilan berbagai bentukan kata kedalam suatu representasi yang sama.
Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Proses Stemming yang digunakan menggunakan Library Sastrawi dimana kata yang memiliki imbuhan diubah menjadi kata dasar. Proses tahapan stemming pada teks berbahasa Indonesia.
Tahap tokenizing atau parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya, sedangkan tahap filtering adalah tahap mengambil katakata penting dari hasil term. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag- of-word. Contoh stopwords adalah “yang”, “dan”, “di”,
”dari”, dan seterusnya.
Pembagian Data Training dan Data Uji.
Gambar 4. Pembagian Data Training dan Data Uji Encoding
Gambar 5. Encoding Sistem Pengujian
Pengujian yang digunakan yaitu dengan fitur tfidf yang bertujuan mengetahui seberapa besar nilai Accuracy. Implementasi Proses TF IDF seperti pada Gambar 10.
Gambar 6. TF-IDF
Gambar 7. TF-IDF. Dengan Sklearn
Confusion Matrix
Gambar 8. Confusion Matrix
Gambar 9. Tampilan Confusion Matrix 3.2 Pembahasan
Dari pengujian menggunakan table Confusion Matrix didapatkan akurasi Algoritma SVM mendapatkan nilai 94.79 % . ini menandakan tingkat akurasi yang tinggi dan algoritman SVM dapat bekerja dengan baik untuk melakukan klasifikasi tingkat kepercayaan masyarakat terhadap POLRI menggunakan dataset dari tweet. Seperti Tabel 6 dibawah ini:
Tabel 6. Data Sampel
TF-IDF HASIL (%)
Accuracy 95 (Pembulatan)
Precision 95
Recall 95
F1-Score 95
4. KESIMPULAN
Data yang digunakan 4200 tweet, dibagi menjadi 80% data Training, dan 20% data Uji, dari masing- masing kelas berjumlah 3 yaitu positif, negative dan netral. Berdasarkan hasil penelitian dan pengujian metode Support Vector Machine untuk mengklasifikasi tingkat kepercayaan masyarakat terhadap POLRI dengan tweet berbahasa Indonesia menggunakan ekstraksi fitur tf-idf didapat kesimpulan bahwa penggunaan metode Support Vector Machine tingkat nilai Accuracy sebesar 94,79, Precision 95%, Recall 95% dan F1- Score 95 % yang artinya baik dalam penelitian mengenai Klasifikasi tingkat kepercayaan masyarakat terhadap POLRI dengan menggunakan Tweet berbahasa Indonesia.
5. SARAN
Saran untuk penelitian selanjutnya untuk dapat menambah jumlah dataset agar data yang digunakan sebagai perbandingan, dan dapat menggunakan metode lain juga penggunaan improvement data pada kedua metode untuk membandingkan hasil terbaik.
DAFTAR PUSTAKA
[1] J. Gondohanindijo, E. Noersasongko, A. Z. Fanani, dan R. S. Basuki, “Comparison Method in Indonesian Emotion Speech Classification,” 2019 Int. Semin. Appl. Technol. Inf. Commun., hal. 230– 235, 2019.
[2] D. Ardiada, M. Sudarma, dan D. Giriantari, “Text Mining pada Sosial Media untuk Mendeteksi Emosi Pengguna Menggunakan Metode Support Vector Machine dan K-Nearest Neighbour,” vol. 18, no. 1, hal. 55–60, 2019.
[3] O. V. Putra, “Sundanese Twitter Dataset for Emotion Classification,” Int. Conf. Comput. Eng.
Netw. Intell. Multimed., no. Cenim 2020, hal. 391–395, 2020.
[4] S. W. Kim dan J. M. Gil, “Research paper classification systems based on TF ‐ IDF and LDA schemes,” Human-centric Comput. Inf. Sci., 2019.
[5] H. Kaur dan A. Sharma, “Improved Email Spam Classification Method Using Integrated Particle Swarm Optimization and Decision Tree,” Int. Conf. Next Gener. Comput. Technol., no.
October, hal. 516–521, 2016.
[6] C. Cortes dan V. Vapnik, “Support-Vector Networks,” Mach. Learn., vol. 20, no. 3, 1995.
[7] A. S. Rezeki, “Klasifikasi Emosi Pada Twitter Dengan Metode K-Nearest Neighbor (KNN),”
2021.
[8] Nurdeni, D. A., Budi, I., & Santoso, A. B. (2021). Sentiment Analysis on Covid19 Vaccines in Indonesia: From The Perspective of Sinovac and Pfizer.
https://doi.org/10.1109/eiconcit50028.2021.9431852, 122-127.
[9] Basari, A. S. H., Hussin, B., Ananta, I. G. P., & Zeniarja, J. (2013). Opinion mining of movie review using hybrid method of support vector machine and particle swarm optimization. Procedia Engineering. https://doi.org/10.1016/j.proeng.2013.02.059, 53.