Sentiment Analysis Model Based On Youtube Comment Using
Support Vector Machine
TESIS
Diajukan kepada Fakultas Teknologi Informasi
Untuk Memperoleh Gelar Master of Computer Science
Oleh:
Fiktor Imanuel Tanesab
NIM: 972015004
Program Studi Magister SistemInformasi
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
Salatiga
IMPLEMENTASI
SUPPORT VECTOR MACHINE (SVM)
UNTUK
SENTIMEN ANALISIS TERHADAP KINERJA
GUBERNUR AHOK
Fiktor Imanuel Tanesab1 Irwan Sembiring2, Hindriyanto Dwi Purnomo3
1,2,3
Fakultas Teknologi Informasi, Universitas Kristen Satya Wacana, Salatiga – Jawa Tengah, Indonesia.
1
viktortanesab@gmail.com, 2irwan@staff.uksw.edu, 3hindriyanto.purnomo@staff.uksw.edu
Abstract
Opinion mining atau komentar terhadap penilaian sikap, entitas individu, bergerak begitu bebas, hal seperti ini yang sering disebut sentimen. Di youtube semua orang bebas memberikan pendapat atau beropinin terkait
dengan opini – opini yang ada. Dengan adanya opinion yang mengalir begitu cepat maka, perlu adanya
penelitian terkait opininon mining untuk mengetahui sejauh mana kinerja Gubernur Ahok. Analisa sentiment
merupakan suatu cara untuk mengetahui pola atau karakter dari Ahok. Pada penelitian ini digunakan metode
Support Vector Machine untuk mengetahui kinerja gubernur berdasarkan class positive, neutral dan negatitive,
data yang digunakan pada penelitian ini adalah 1000 record data. Untuk melakukan riset atas opini masyarakat
yang mengandung sentiment positive, neutral, atau negative, maka terdapat beberapa preprocessing data yakni,
tokenisasi, cleansing dan filtering, dan untuk menentukan persentase class sentimen dengan metode Lexicon
Based. Dari penelitian ini didapatkan nilai akurasi sebagia berikut, accuracy 84%, precision 91%, recall 80%,
TP rate 91.1dan TN rate 44.8%.
Keywords : Youtube; Analysis sentiment; Support Vector Machine; Opinion mining; Lexicon based.
I. INTRODUCTION
Opinion mining merupakan analisis opini dari suatu pola atau mood terhadap orang atau topic tertentu, hal seperti ini yang sering disebut sentiment [2]. Demi menyatakan setiap pernyataan atau pendapat sentiment dari masyarakat, maka media paling dan mudah digunkan adalah internet. Tidak dipungkiri bahwa banyak ditemukan pernyataan komentar terhadap kinerja Ahok terjadi pada media sosial Yotube. Terkait
Proses mencari atau melacak bahasa alami untuk menemukan pola atau mood masyarakat terhadap produk, orang atau topik tertentu atau yang bisa disebut dengan Analisa sentimen. Analisa sentimen juga sering disebut dengan opini maning.[1] Analisis sentimen telah banyak menerima perhatian semenjak penelitian Pang, Turney, Goldberg dan Zhu. Teknik
analisis sentimen dapat mendukung banyak
keputusan dalam banyak skenario. Penelitian ini menggunakan tiga class attribute, yaitu positif, nertal dan negatif, karena di internet komentar yang muncul
dapat berupa komentar positif, netral dan negatif.[2] Dihasilkanya sebuah informasi dari data opini yang ada, maka dilakukan pengolahan data dengan analisis sentimen. Sentiment Analysis menjadi solusi atau metode yang tepat pada permasalahan yang
telah dipaparkan sebelumnya, yaitu dengan
memisahkan opini ke dalam kelas bersentimen positif, netral atau negatife, sehingga dilakukan pengambilan kesimpulan bahwa opinion mining apa yang lebih dominan pada penelitian ini. Terkait riset
ini, maka batasan waktu pengambilan data
komentarnya adalah dari tahun 2015 sampai 2016. Pada penelitian ini diusulkan sebuah model sentiment analysis dalam menentukan kinerja Ahok adalah metode Support Vector Machine (SVM). SVM memiliki beberapa kriteria yang ditentukan untuk melihat tingkat keakuratan penentuan kinerja gubernur Ahok.
II. PENELITIAN TERKAIT
mining" dalam dua hal, yakni 1). Analisis
dan teks
evaluative, dan 2). Pelacakan penilaian prediktif.[3] Analisis sentimen merupakan proses mengambil dan favorability bahasa alami.[3] Penelitian A survey of opinion mining and sentiment analysis oleh Bing Li dan Lei Zhang dari University of Illinois at Chicago menyatakan bahwa analisissentimen atau opinion mining adalah studi
perhitungan pendapat orang terhadap penilaian sikap, emosi, entitas, individu, isu, peristiwa, topik dan atribut tertentu.[4] Sentiment analysis bertujuan untuk proses pengambilan keputusan dengan mengekstraksikan opini teks yang mengandung opini positif, netral dan negatif dengan menghitung bobot opini yang terkandung,[4][5]. Dengan adanya
opinion mining (sentimen analisa) dapat
mengekstraksikan data secara tekstual dan mengolah data secra otomatis sehingga didapatkan sebuah
informasi opini atau peristiwa tertentu [4][5][6].
Support Vector Machine (SVM) adalah suatu metode yang sangat berkembang pesat saat ini dan banyak digunakan dalam studi penelitian yang terkait dengan analysis sentiment. Methodological study of opinion mining and sentiment analysis techniques.[7] Opinion extraction of public figure based on
sentiment analysis in twitter.[8] Recognizing
contextual polarity an exploration of features for phrase-level sentiment analysis.[9] The importance of neutral examples for learning sentiment.[10] Support vector machines yang didukung k-means clustering dalam klasifikasi dokumen.[11]
Berdasarkan penelitan terkait diatas, maka peneliti mengusulkan metode Support Vector Machine (SVM) untuk melihat kinerja gubernur Ahok. SVM digunakan dalam proses pengambilan data, analisis,
sampai dengan pengambilan kesimpulan
.
Data Komentar Analysis
Fig 1. Proses Analisis Sentimen
III. MODEL SVM UNTUK ANLISA
SENTIMEN
Pada tahap penelitian ini dilakukan pengambilan data dengan metode snipping data dan data yang diambil sebanyak 1000 record data, secara random yang sesui dengan kinerja Ahok. Batasan waktu pada pengambilan data adalah dari tahun 2015 samapai tahun 2016. Data yang diambil dan digolongkan atas tiga class yakni opinion positive, opinion neutral dan opini negative. Data tersebut diekstraksi dan dianalisa menggunakan metode SVM. Penggunaan data pada penelitian adalah data teks komentar yang berbahasa Indonesia dan diamabil dari media sosial Youtube.
Sebelumnya dilakukan proses pengelompokan dokumen, yakni mempersiapkan data teks yang sering disebut pre – processing. Terdapat beberapa tahap, yakni 1). Data Komentar; 2). Pre-Processing; 3) Tokenizing; 4) Determine Sentiment with Lexicon Based.[12]
Data Komentar Pre - Processing Tokenizing
Determine Sentiment
Fig 3. Mode dan tahap penyelesain SVM analisa
sentiment.
1) Data komentar: data komentar didapatkan
dengan metode snipping, pada media social youtube, dan data yang disnipping adalah teks komentar yang berbahasa Indonesia. Dataset yang digunakan sebanyak 1000 teks komentar dan terkait kinerja Ahok.
2) Pre-Processing: pada tahap pre-processing
terdapat tahap cleansing dan filtering. Proses pemilahan kalimat bertujuan mengurangi kalimat noise sehingga didapatkan kualitas data yang dibutuhkan.[14] Cleansing juga untuk menghapus
tautan dan simbol.[15] Proses pengambilan kata –
Adanya Pak Ahok, Jakrta jadi bersih
Fig 4. Stop-word removing
Untuk model cleansing, akan terlihat seperti tabel dibawah ini :
Table 1. Proses cleansing
Komentar Hasil cleansing
wiih...tegas ....dan
tersparan.... pak ahok
Pak Ahok Tegas dan Transparan
3) Tokenizing: merupakan proses pembersihan
dan pemotongan kata berdasarkan tipe kata yang tersusun untuk dihilangkan tanda baca, space, serta dihilangkan jika terdapat simbol atau apapun yang bukan huruf.[17][20]
Table 2. Proses Tokenizing.
Teks Komentar Hasil Tokenizing
adanya pak ahok
4) Determine Sentiment with Lexicon Based:
digunakannya lexicon based untuk menentukan sentimen suatu kalimat opini. Penentuan dilakukan dengan penjumlahan n skor polaritas kata opini p yang mengomentari fitur f. Skor polaritas suatu kata opini p akan bernilai 1 jika kata tersebut adalah kata opinion positive, dan bernilai -1 jika kata tersebut adalah kata opinion negative, dan didasarkan pada table lookup.[17] Kata yang mengandung positif, negatif dan netral di dalam sebuah kalimat, akan dihitung bobot nilai yang terkandung dalam kalimat tersebut yang dilakukan dengan menjumlahkan nilai kata opini. Jika jumlah nilai opini dalam kalimat tersebut = 1, maka nilai sentimen dari kalimat tersebut adalah positif, jika nilai opini dalam kalimat
tersebut = 0, maka nilai sentimen dari kalimat tersebut adalah netral, jika nilai opini dalam kalimat tersebut = -1, maka nilai sentimen dari kalimat tersebut adalah negatif.[17]
Table 3. Proses Lexicon Based
Sentiment Value
Positif 1
Netral 0
Negatif -1
Berdasarkan empat kriteria dasar SVM pada tabel 3, maka akan dilakukan evalusi perfoma akurasi, Precision dan Recall dari eksperimen yang telah dilakukan pengujian guna memprediksi data yang benar dan data yang salah.[19] Evalusai dilakukan dengan Confusion Matrix yaitu True Positive rate (TP rate) adalah class positive yang berhasil diklasifikasikan sebagai class positive, True Negative rate (TN rate) adalah class negative yang berhasil diklasifikasikan sebagai class negative, False Positive
rate (FP rate) adalah class negative yang
diklasifikasikan sebagai class positive dan neutral, False Negative rate (FN rate) adalah class positive yang diklasifikasikan sebagai class negative dan neutral. [17]
Table 4. Confusion Matrix
Nilai sebenarnya
sehingga dilakukan precision, recall dan accuracy. Seperti terlihat pada rumus dibawah ini.
percison = TP
Total positive sesungguhnya
TR rate = TN
Total negative sesungguhnya
(3) Persamaan (2) dilakuan perhitungan pembobotan akurasi untuk melihat hasil True Positive rate (TP rate) dan True Negative rate (TN rate) sehingga dapat diketahui hasil analisa kinerja Ahok. Pada
persamaan (3) bertujuan menghitung bobot
parsentase performa kinerja Ahok.
IV. HASIL DAN PEMBAHASAN
Pilihan dalam proses pengambilan data penelitian adalah data text komentar kinerja gubernur Ahok yang terdapat pada media sosial youtube. Proses pengambilan data teks komentar menggunakan metode snipping. Data diambil secara random berdasarkan vidio hasil postingan yang ada pada media sosial youtube. Pada proses snipping data dikelompokan menjadi tiga kelas yakni, positive class, neutral class dan class negative. Proses penyelesaian penelitian ini digunakan metode Support Vector Machine.
Proses klasifikasi pada penelitan ini terdapat beberapa tahap, yakni 1). Persiapan data. Data yang digunakan adalah file data teks. Setiap record data
didasarkan atas class masing – masing (negative,
netral dan positive). 2). Dilakukan pre-processing,
yaitu stop – word remove (cleansing) atau sering
disebut sebagai normalisasi, dengan tujuan
meghilangkan atau berubah setiap kalimat yang tidak baku menjadi kalimat baku. 3). Tokenizing merupakan proses pembersihan dan pemotongan kata berdasarkan tipe kata yang tersusun untuk
menghapus bagian yang tidak penting. 4). Proses lexicon based digunakan untuk menentukan sentimen suatu kalimat opini. Penentuan dilakukan dengan penjumlahan n skor polaritas kata opini p yang mengomentari fitur f. Skor polaritas suatu kata opini p akan bernilai 1 jika kata tersebut adalah kata opini positif, bernilai -1 jika kata tersebut adalah kata opini negatif dan bernilai 0 jika kata tersebut beropini netral.[17]
Sebagai contoh hasil keluaran dari proses snipping data teks komentar dari social media youtube yang sudah dilakukan dan telah disimpan dalam database. Seperti terlihat pada gambar 5 dibawah ini.
Fig 5. Hasil snipping komentar.
A. Implementasi Metode Support Vector Machine
Dataset pada penelitian ini dikumpulkan dari
media sosial youtube dengan metode snipping data
teks komentar. Data diambil berupa teks berbahasa Indonesia, yaitu komentar dengan kata kunci kinerja
gubernur Ahok. Data diambil secara random online
di yotubeu.
Dataset yang digunakan sebanyak 1000 teks komentar, data dibagi secara seimbang (balanced) setiap kelasnya, karena dengan data yang tidak seimbang (unbalanced), klasifikasi yang dibangun
memiliki kecenderungan untuk mengabaikan
minority class.[17] Data dibagi menjadi tiga class yakni, positive, neutral dan negative. Pemberian label dilakukan dengan metode lexicon based.
B. Analisa Lexicon Based
Hasil analisis sentimen kinerja Gubernur Ahok menggunakan metode lexicon based dengan tiga class atribut.
Table 5. Hasil Analisis Lexicon Based
Sentimen Kinerja Ahok
Positif 678 744
Netral 192 22
Negatif 105 234
Jumlah data cocok adalah 805
Jumlah data tidak cocok adalah 195
C. Analisa Confusion Matrix
Perhitungan nilai akurasi analisis terhadap hasil perhitungan yang telah dilakukan menggunakan metod SVM, maka perlu dilakukan evaluasi performa accuracy, precision dan recall dari eksperimen dengan metode confusion matrix. Evaluasi dilakukan menggunakan Confusion Matrix yaitu True Positive rate (TP rate), True Negative rate (TN rate), False Positive rate (FP rate) dan False Negative rate (FN rate) sebagai indikator. TP rate adalah persentase dari class positive yang berhasil diklasifikasi sebagai class positive, sedangkan TN rate adalah persentase dari class negative yang berhasil diklasifikasi sebagai class negative. FP rate adalah class negative yang diklasifikasi sebagai class positive. FN rate adalah class positive yang diklasifikasi sebagai class negative.[18]
Table 6. Hasil analisa Confusion Matrix
Nilai sebenarnya
Positive Negative
Prediksi Positive tp678 fp129
Negative fn 66 tn105
Pada persamaan confusion matrix (1) dilakukan perhitungan real persentase berdasarkan hasil yang telah didapat. Pada persamaan (2), dilakukan perhitungan pembobotan akurasi untuk melihat hasil dari true Positive Rate (TP rate) dan True Negative rate (TN rate).[18] Hasil analisanya adalah kinerja gubernur Ahok adalah sebagai berikut :
Tabel 7. Hasil klasifikasi sentiment kinerja Ahok Hasil Klasifikasi Sentiment
Pada tabel 7. memberikan informasi mengenai accuracy, recall, TP rate dan TN rate dari masing-masing data hasil uji coba berdasarkan 1000 data
komentar. Dari proses data pre-processing
menghasilkan sejumlah token yang kemudian
digunakan sebagai input proses klasifikasi
menggunakan metode SVM.
Fig 6. Performa sentimen kinerja Ahok
Pada Gambar 6. nilai accuracy, precision, recall, 44.8%, sedangkan TP rate 91.1%
Nilai akurasi adalah salah satu parameter penilaian dari metode yang telah digunakan, nilai akurasi didapat dari jumlah banyaknya data (1000 data) yang berhasil diklasifikasikan dengan benar sesuai kelas sentimen dari seluruh jumlah data yang diklasifikasi.
V. KESIMPULAN
Support Vector Machine (SVM) digunakan untuk melihat analisa sentiment kinerja gubernur Ahok. Terdapat empat proses yakni, Data Komentar, Pre-Processing, Tokenizing dan Determine Sentiment
with Lexicon Based.[12] Menghitung bobot
persentase pada penelitian ini digunakan juga Lexicon Based dan Confusion Matrix untuk mengetahui hasil pembobotan persentase analisa terhadap SVM.
Sentiment analisa dapat digunakan untuk
mengetahui seajuh mana kinerja gubernur Ahok berdasarkan hasil komentar netizen pada media sosial youtube. Hasil klasifikasi nilai pembobotan sesuai
84% 91%
80%
91.1%
44.8%
Accuracy Precision Recall TP Rate TN Rate
metode Support Vector Machin (SVM) menyatakan bahwa nilai dari True Positive rate adalah 91.1% berdasarkan data komentar yang diambil dari tahun 2015 sampai dengan 2016.
Demi pengembangan penelitan selanjutnya perlu dicoba record data yang jauh lebih banyak demi keakuratan penarikan kesempulan pada sebuah analisa opinion mining.
REFERENCES
1. G.Vinodhini ., RM.Chandrasekaran ., “Sentiment
Analysis and Opinion Mining: A Survey”,
International Journal of Advanced Research in
Computer Science and Softwa re Engineering, Issue Volume 2, 2012.
2. Anto Satriyo Nugroho., Arief Budi Witarto., Dwi
Handoko., “Support Vector Machine - Teori dan
Aplikasinya dalam Bioinformatika1”, 2003.
3. Bo Pang., Lillian Lee., “Opinion Mining and
Sentiment Analysis” Vol 2, 2008.
4. Bing Li,. Lei Zhang., “A survey of opinion
mining and sentiment analysis” University of
Illinois at Chicago, 2012.
5. Aamera Z.H.Khan,. Mohammad,. Atique,. V. M.
Thakare,. “Combining Lexicon-based and Learning-based Methods for Twitter Sentiment
Analysis” National Conference on Advanced
Technologies in Computing and Networking –
ATCON, 2015.
6. Imam Fahrur Rozi., Sholeh Hadi Pramono., Erfan
Achmad Dahlan., “Implementasi Opinion Mining (Analisis Sentimen) untuk Ekstraksi Data Opini
Publik pada Perguruan Tinggi” Jurnal EECCIS
Vol. 6, 2012.
7. M.Tech., “Methodological Study Of Opinion
Mining And Sentiment Analysis Techniques”,
International Journal on Soft Computing (IJSC) Vol. 5, No. 1, 2014.
8. Nur Hayatin., Mustika Mentari., Abidatul Izzah.,
“Opinion Extraction of Public Figure Based on
Sentiment Analysis in Twitter”, Journal of
Engineering, Vol. 1, No. 1, 2014.
9. Theresa Wilson., JanyceWiebe,. Paul Hoffmann,.
“Recognizing Contextual Polarity, Eksplorasi
Fitur Untuk Frase – Level AnalisisSentimen”,
Association for Computational Linguistics, Vol. 35, 2008.
10.Moshe Koppel., Jonathan Schler,. ”The Importance Of Neutral Examples For Learning
Sentiment”, Computational Intelligence, Vol. 22,
Number 2, 2006.
11.Ahmad Yusuf., Tirta Priambadha., “Support
Vector Machines Yang Didukung K-Means
Clustering Dalam Klasifikasi Dokumen”, Jurnal Ilmiah Teknologi Informasi (JUTI), Vol.11, No. 1, 2013.
12.Oman Somantri., Slamet Wiyono.,
Dairoh.,“Optimalisasi Support Vektor Machine
(Svm) Untuk Klasifikasi Tema Tugas Akhir
Berbasis K-Means” Telematika, Vol. 13, No. 02,
Pp. 59 – 68 ISSN 1829-667X, 2016.
13.Ni Wayan Sumartini Saraswati., “Text Mining Dengan Metode Naïve Bayes Classifier Dan Support Vector Machines Untuk Sentiment
Analysis”, Universitas Udayana Denpasar, Indonesia, 2011.
14.Falahah., Dyar Dwiki Adriadi
Nur.,”Pengembangan Aplikasi Sentiment Analysis
Menggunakan Metode Naïve Bayes (Studi Kasus
Sentiment Analysis dari media Twitter)”Seminar
Nasional Sistem Informasi Indonesia, 2015.
15.Nuvirta Monarizqa., Lukito Edi Nugroho., Bimo
Sunarfri Hantono., “Penerapan Analisis Sentimen
Pada Twitter Berbahasa Indonesia Sebagai
Pemberi Rating”, Artikel Reguler, Vol. 1, nomor
3, 2014.
16.Elly Susilowati.,Mira Kania Sabariah, ST., MT.,
Alfian Akbar Gozali, ST., MT., “Implementasi
Metode Support Vector Machine Untuk
Melakukan Klasifikasi Kemacetan Lalu Lintas
Pada Twitter”, ISSN : 2355-9365 e-Proceeding of Engineering : Vol.2, No.1 Page 1478, 2015. 17.Ghulam Asrofi Buntoro., “Analisis Sentimen
Calon Gubernur DKI Jakarta 2017 Di Twitter”,
Universitas Muhammadiyah Ponorogo, Article, 2017.
18.Luh Ria Atmarani.,I.A. Dwi Giriantari., Made
Sudarma., “Sistem Opinion Mining dengan
Metode Pos Tagging dan SVM Untuk Ekstraksi
Data Opini Publik pada Layanan JKBM”
Teknologi Elektro, Vol. 16, No1, 2017.
Menentukan Pemberian Kredit Bagi Nasabah
Koperasi” Jurnal Ilmiah Teknosains, Vol. 1 No. 1,
ISSN 2460-9986, 2015.
20.Lila Dini Utami., Romi Satria Wahono.,
“Integrasi Metode Information Gain Untuk
Seleksi Fitur dan Adaboost Untuk Mengurangi Bias Pada Analisis Sentimen Review Restoran
Menggunakan Algoritma Naïve Bayes”, ISSN
2356-3982 Journal of Intelligent Systems, Vol. 1, No. 2, 2015.
AUTHOR PROFILES:
Fiktor Imanuel Tanesab, was born in Kefamenanu, East Nusa Tenggara. Recently graduated as Bachelor of Computer Science from STIKOM Uyelindo Yelindo Kupang, Indonesia. Fiktor is currently finishing his post-graduate study in Information System master program in the Faculty of Technology and Information, Satya Wacana Christian University
Irwan Sembiring, Completed his undergraduate
program in UPN “Veteran” Yogyakarta, majoring
in Information Technology in 2001, pursued higher degree in School of Computer Science and Electronics Gadjah Mada University, Yogyakarta, Indonesia and received Master Computer in 2004. Doctor in Computer Sciences from Gadjah Mada University, Yogyakarta, Indonesia, Now he is a lecturer at faculty of information technology Satya Wacana Christian University, Salatiga Indonesia. His research interests include Network Security and Digital Forensic.
Hindriyantodwi Purnomo,is a senior lecturer at