Analisis Sentimen Hotel di Nusa Tenggara Barat Menggunakan Algoritma SVM Hotel Sentiment Analysis in West Nusa Tenggara Using the SVM Algorithm
Rahmad Arif Setiawan1, Adhien Kenya Anima Estetikha2, Erry Maricha Oki Nurharyanto3, Yoga Asmara4, Azis Wahyudi5
12345Program Studi MTI, Universitas Amikom Yogyakarta
Email: 1[email protected], 2[email protected],
3[email protected], 4[email protected], 5[email protected]
ABSTRAK
Nusa Tenggara Barat sudah menjadi salah satu opsi kedua wisatawan mancanegara maupun domestik selain pulau Bali. Puluhan Hotel muncul dengan berbagai fasilitas yang ada, seperti transportasi antar jemut, layanan makanan dan minuman, layanan loundry, deposit box, kulkas mini, dan layanan lainnya yang terkadang menjadi icon hotel tertentu. Munculnya situs booking seperti Agoda, Traveloka, Mr Aladin, Reddoors, OYO, dan lain-lain turut meramaikan pengunjung yang datang menginab di hotel pulau NTB. Semakin ramai nya wisatawan yang menggunakan hotel melalui situs booking tersebut membuat pasar semakin ramai dan calon konsumen semakin selektif dalam memilih hotel dengan menjadikan review hotel sebagai tolok ukur utama kualitas hotel. Saat ini wisatawan yang menulis komentar pada review hotel secara online melalui situs booking sudah semakin banyak. Membaca keseluruhan review untuk memilih sebuah hotel akan sangat menyita waktu, sedangkan jika membaca sebagian saja maka informasi yang akan didapat menjadi tidak valid. Untuk itu pada penelitian ini akan dilakukan analisis sentimen pada hotel yang berada di Nusa Tenggara Barat menggunakan metode SVM ( Support Vector Machine ) dengan mengkombinasikan Term Frequency–Inverse Document Frequency (TF–IDF) untuk mengetahui sentimen hotel yang ada di NTB. Penelitian ini menggunakan data yang ada pada situs traveloka, preprosesing yang dilakukan menggunakan kamus bahasa pada librari satrawi yang telah dilengkapi oleh penulis. Hasil penelitian ini menunjukkan jumlah sentimen positif sebesar 84,97% dan sentimen negatif sebesar 15.03%, dengan nilai akurasi 92,32%, presisi sebesar 93,34% dan nilai Recall sebesar 92,32%.
Kata kunci:Analisis Sentimen, SVM, Nusa Tenggara Barat
ABSTRACT
West Nusa Tenggara has become one of the second options for foreign and domestic tourists besides the island of Bali. Dozens of hotels appear with various existing facilities, such as shuttle transportation, food and beverage services, laundry services, deposit boxes, mini refrigerators, and other services that are often icons of certain hotels. The emergence of booking sites such as Agoda, Traveloka, Mr Aladin, Reddoors, OYO, and others also enliven visitors who come to stay at hotels on the island of NTB. The more tourists who use the hotel through the booking site, the more crowded the market and prospective consumers are selective in choosing hotels by making hotel reviews the main benchmark for hotel quality. More and more tourists are now writing comments on hotel reviews online through booking sites. Reading the whole review to choose a hotel will determine the time, whereas if you read only part of it, the information you will get is invalid. For this reason, in this study, sentiment analysis will be carried out at hotels in West Nusa Tenggara using the SVM (Support Vector Machine) method by combining Term Frequency–
Inverse Document Frequency (TF–IDF) to determine hotel sentiment in NTB. This study uses existing data on the traveloka site, preprocessing is carried out using a dictionary in the sastrawi library which has been improved by the author. The results of this study indicate the number of
positive sentiments is 84.97% and negative sentiments is 15.03%, with an accuracy value of 92.32%, precision of 93.34% and a recall value of 92.32%.
Keywords:Sentiment Analysis, SVM, Nusa Tenggara Barat
1. PENDAHULUAN
Akhir Oktober 2021 pariwisata resmi dibuka kembali setelah melalui proses yang melelahkan yaitu PPKM ( Pemberlakuan Pembatasan Kegiatan Masyarakat ) dimana masyarakat yang menggantungkan hidup pada destinasi wisata lelah mengais rejeki seadanya selama wisata ditutup. Hal ini menjadi angin segar bagi wisatawan domestik maupun internasional karena mereka bisa kembali melepas penat dan menikmati liburan. Tak hanya wisatawan, pengelola wisata, dan tour and travel pariwisata juga bahagia dengan keputusan pemerintah terhadap pembukaan tempat pariwisata.
Pertumbuhan jejaring sosial seperti facebook, instagram, tiktok, dan sosial media lainnya menjadikan pasar jasa penginapan semakin luas, marketing hotel mulai bergerilya di sosial media untuk menarik pengunjung hotel.
Semakin banyaknya iklan hotel menjadikan calon pengguna jasa penginapan semakin bingung dalam memilih hotel, sehingga rujukan mereka berubah dari sosial media ke situs pemesanan hotel online seperti contoh Traveloka karena pada situs itulah hotel terlihat jelas kualitasnya melalui rating dan ulasan pengujung.
Ulasan pada situs penyedia tiket hotel seperti Traveloka sangat mempengaruhi keputusan calon pengunjung baru, Penelitian yang dilakukan oleh Rimba dkk mengatakan bahwa perlu dilakukan klasifikasi pada ulasan dari pengunjung hotel sebelumnya guna mengetahui kepuasan pengunjung selama menginab di hotel tersebut (Chory dkk, 2019)Selain itu juga ada penelitian yang dilakukan oleh Khotimah dengan penelitian yang berjudul “Sentimen Detection Of Comment Titles in Booking.com Using Probabilistic Latent Semantic Analysis”
dimana pada penelitian ini dilakukan klasifikasi pada ulasan yang ada pada website booking.com menggunakan metode PLSA(Khotimah and Sarno, 2018).
Penelitian sebelumnya telah melakukan klasifikasi pada opini yang ditujukan pada hotel, tempat makan, dan mall di Kupang, Nusa Tenggara Timur (Faradhillah dkk,2016). opini yang digunakan pada klasifikasi didapat dari forsquare dengan rincian 408 opini bernilai
positif, dan 123 opini negatif serta 152 opini netral. Ekstraksi fitur dengan pembobotan kata menggunakan tf-idf, sedangkan metode yang digunakan adalah Naïve Bayes. Hasil dari penelitian ini adalah akurasi sebesar 66,22%.
Selanjutnya adalah penelitian perbandingan metode Naïve Bayes dan SVM yang dilakukan oleh Nuke, beliau mengolah data opini masyarakat Surayaba mengenai pembangunan kota Surabaya dimana feedback masyarakat sangat diharapkan guna meningkatkan kinerja pemerintah Kota Surabaya(Faradhillah dkk, 2016). Kemudian penelitian Hassan yang berjudul Comparing SVM dan Naïve Bayes Classifiers for Text Categorization with Wikitology as Knowledge Enrichment dimana penelitian ini membandingkan antara naïve bayes dengan SVM dengan hasil penelitian yang memperlihatkan bahwa naïve bayes lebih baik daripada SVM, dengan akurasi Bayes 28.78%
sedangkan SVM 6.36%(Hassan, Rafi and Shaikh, 2011).
Pada review atau ulasan sebuah layanan hotel diberbagai situs booking hotel secara online biasanya tidak menyediakan pilihan untuk menampilkan ulasan yang bersifat baik maupun yang buruk, hanya rating saja yang dapat dilihat oleh pengguna sistem sehingga calon pengunjung hotel hanya mendapatkan informasi bias saja. Dengan mengacu pada penelitian yang terdahulu, peneliti bermaksud untuk melakukan analisis sentimen terhadap ulasan atau review hotel yang ada papda Traveloka. Analisis yang akan digali disini adalah klasifikasi untuk mencari ulasan positif dan negatif. Pada ekstraksi fitur menggunakan beberapa model dengan kombinasi parameter tf, tf-idf serta stopward pada saat preprosesing.
2. TINJAUAN PUSTAKA 2.1. Data Mining
Data mining adalah kombinasi keilmuan bidang kecerdasan buatan, statistik, dan basis data oleh karena itu membutuhkan penyaringan data menggunakan material data yang besar atau dilakukan penyelidikan mengenai keberadaan data yang mempunyai nilai Daryl Pregibons(Witten et al, 2011).
2.2. Text Mining
Menurut Charjan dan Pund text mining merupakan keilmuan yang unik dimana dia berkutat pada dokumen text. Tantangan pada keilmuan ini adalah menemukan pengetahuan dengan akurasi tinggi pada dokumen teks guna mendapatkan informasi yang di inginkan (Aswini and Lavanya, 2014).
2.3. SMOTE Upsampling
Metode Synthetic Minority Over-sampling Technique (SMOTE) merupakan metode yang populer diterapkan untuk menangani masalah ketidakseimbangan kelas. Teknik ini mensintesis sampel baru dari kelas minoritas untuk menyeimbangkan kelas pada dataset dengan cara sampling ulang kelas minoritas (Khamsan and Maskat, 2019).
2.4. Analisis Sentimen
Adalah sebuah metode yang digunakan untuk memahami, dan mengolah data teks guna mendapatkan informasi negatif, positif, dan netral yang ada pada kumpulan teks. Analisis sentimen sendiri memiliki 4 level yaitu level kalimat sentimen netral, negatif, dan positif pada setiap baris, level dokumen yaitu menganalisa sentimen seluruh dokumen sebagai netral atau negatif atau positif, dan level aspek yaitu analisis sentimen dengan menerapkan pengelompokan pada level ini dimana seluruh atribut yang ada kesamaan dikumpulkan menjadi satu, kemudian yang terakhir yaitu level pengguna, adalah bagaimana kita memanfaatkan data dari analisis sentimen untuk berinteraksi dengan lingkungan sosial (Fauziyyah, 2020).
3. METODOLOGI PENELITIAN
Metode penelitian yang dilakukan adalah jenis metode penelitian eksperimen, dengan enam tahapan, yaitu :
Gambar 1. Diagram Alir Penelitian
1. Tahapan pengumpulan data
Langkah awal yang dilakukan adalah pengumpulan data dari ulasan atau review dari website traveloka menggunakan aplikasi web scrapper extension pada browser google chrome, dimana aplikasi ini secara otomatis dapat melakukan scrapping data dan mengambil data rating dan ulasan pada Traveloka yang kemudian disajikan dalam format *.csv.
2. Pelabelan data
Analisis sentimen ini menggunakan model supervised learning. Pada halaman komentar atau review Traveloka. Pada penelitian ini tidak menggunakan label netral dikarenakan ulasan yang dibutuhkan hanya positif, dan negatif.
3. Data preprosesing
Data pre-prosessing digunakan untuk menyiapkan data sehingga dataset siap untuk dimplementasikan algoritma untuk klasifikasi analisis sentimen
4. Pembobotan Kata
Data yang telah dilakukan proses preprosesing selanjutnya dilakukan pemrosesan algoritma menggunakan seleksi fitur yaitu TF- IDF atau Term Frequency Inverse Document Frequency dimana ini dilakukan untuk memberikan bobot term secara statistik. Setelah proses pembobotan selesai, dilakukan proses input algoritma SVM.
5. Pengujian Klasifikasi
Untuk mengetahui akurasi pada penelitian ini dilakukan pengujian menggunakan Confusion Matrix.
6. Evaluasi dan validasi
Setelah pengujian berhasil selanjutnya hasil pengujian akan menghasilkan matrik konfusi berupa nilai True Positive, True Negative, False Positive, serta False Negative
4. PEMBAHASAN A. Pengumpulan data
Tahap awal proses analisis sentimen adalah pengumpulan data. Dataset yang digunakan diambil dari situs Traveloka berupa ulasan hotel di Nusa Tenggara Barat (NTB) dari tahun 2012 – 2021. Dataset diambil dari 15 hotel yang dipilih berdasarkan ulasan terbanyak, jika terdapat data ulasan yang kosong akan dihapus dan akhirnya didapatkan 3.746 ulasan.
B. Pelabelan data
Setelah dataset terkumpul dilakukan proses pelabelan data menjadi kelas positif dan kelas negatif dengan menggunakan nilai rating sebagai tolak ukur. Jika nilai rating <= 6 diberikan label
negatif dan jika nilai rating > 7 positif, sedangkan pada rentan > 6 s.d <=7 dilakukan pelabelan secara manual. Berikut beberapa contoh hasil dari proses pelabelan yang dapat dilihat pada Tabel 1.
Tabel 1. Contoh pelabelan data
Rating Ulasan Label
8,5 Service oke, kamar bersih tapi terkadang dapat kamar yang AC-nya kurang dingin menurut saya tapi kalau komplain cepat di tanggapi.
positif
7 Agen online agar memastikan kembali ke hotel tujuan type kamar yang dipesan sesuai dengan pesanan. Sudah dua kali type kamar salah di berikan oleh hotel kepada saya. Terima kasih.
negati f
6,3 Agak kecewa dengan
kebersihannya. Awal check-in seperti tidak diganti spreinya dari tamu sebelumnya. Untung cepat waktu minta diganti.
Semoga bisa lebih
ditingkatkan kebersihannya.
negati f
5,1 Makan pagi nya tidak enak ..
menu dikit ,, nasi goreng aja kehabisan .. minta chili saus aja lama ... semua serba lambat
negati f
C. Pre-Processing Teks
Pada tahap preprosesing data dilakukan dengan tujuan menghilangkan data dari noise yang ada sehingga data dapat dianalisis. Text preprocessing memiliki peran yang penting untuk digunakan pada pemodelan analisis sentimen karena keadaan dari data tekstual sangat mempengaruhi hasil akurasi. Adapun proses yang dilakukan adalah transform case, tokenize, filter token (by length), stopwords removal dan stemming. Gambar 2 menunjukan urutan preprocessing teks
Gambar 2. Alur Preprocessing data
Adapun detail dari setiap proses adalah sebagai berikut :
a. Transform Case
Merupakan tahap perubahan teks pada dokumen diubah dalam bentuk huruf kecil (lowercase).
b. Tokenize
Dilakukan proses pemisahan untuk teks kalimat menjadi kata, frasa, simbol atau elemen bermakna lainnya. Proses tokenize hanya dilakukan pada teks, data lain berupa angka atau simbol akan dihapus.
c. Filter Tokens (by length)
Pada proses ini setiap token atau kata yang memiliki panjang kurang dari 4 atau lebih dari 20 huruf akan dihapus.
d. Filter stopword
Merupakanproses penghapusan kata-kata yang sering digunakan tetapi memiliki makna yang rendah atau tidak bermakna, contoh ada, di, kalau, juga, tapi, yang, dll. Karena pada RapidMiner belum mendukung filter berbahasa Indonesia maka perlu menggunakan kamus yang berisi kata-kata yang telah perlu dihapus, adapun kamus yang digunakan diambil dari projek sastrawi Indonesia.
e. Stem
Stemming merupakan proses pemetaan dan penguraian dari suatu kata kedalam bentuk dasarnya, contoh “Hotelnya” menjadi “Hotel”.
Proses stemming dilakukan dengan kamus bahasa yang dibuat sesuai penerapan pada library python yaitu sastrawi.
Contoh tahapan lengkap pada pre-processing teks dapat dilihat pada tabel 2.
Tabel 2. Contoh Text Pre-processing
Proses Teks
Teks awal Suasana hotel nyaman, banyak hiburan, pemandangan indah, mekanannya enak. Pegawainya juga ramah. SIP
Transform case
suasana hotel nyaman, banyak hiburan, pemandangan indah, mekanannya enak. pegawainya juga ramah. sip
Tokenize “suasana”, “hotel”, “nyaman”,
“banyak”, “hiburan”,
“pemandangan”, “indah”,
“makanannya”, “enak”,
“pegawainya”, “juga”, “ramah”,
“sip”
Filter token
“suasana”, “hotel”, “nyaman”,
“banyak”, “hiburan”,
“pemandangan”, “indah”,
“makanannya”, “enak”,
“pegawainya”, “juga”, “ramah”
Filter stopword
“suasana”, “hotel”, “nyaman”, “
“hiburan”, “pemandangan”,
“indah”, “makanannya”, “enak”,
“pegawainya”, “ramah”
Stemming suasana”, “hotel”, “nyaman”, “
“hibur”, “pandang”, “indah”,
“makanan”, “enak”, “pegawai”,
“ramah”
D. Pembobotan Kata
Pembobotan kata digunakan untuk memberikan skor pada frekuensi kemunculan kata dalam dokumen. Salah satu metode pembobotan yang umum digunakan adalah TF- IDF (Term-Frequency-Inverse Document Frequency). Saat menghitung bobot kata, semua kata-kata didalamnya dianggap penting.
Sehingga proses stopword dan stemming sangat diperlukan untuk menghindari kalimat tidak penting atau kata berimbuhan.
E. Klasifikasi
Setelah pre-processing data, langkah selanjutnya adalah proses klasifikasi analisis sentimen. Tahap ini digunakan untuk
memberikan pelatihan dan
mengimplementasikan beberapa algoritma data mining. Algoritma yang dujikan adalah SVM (Support Vector Machine), Naïve Bayes dan Decission Tree (C4.5) . Setiap algoritma diuji secara bergantian seperti yang ditunjukan pada gambar 3.
Gambar 3. Operasi Cross Validation Sebelum data diproses perlu pastikan bahwa dataset yang digunakan memiliki data yang seimbang antara kelas positif dan negatif.
dari hasil pelabelan data didapatkan pembagian seperti pada gambar 4.
Gambar 4. Proporsi pelabelan sentimen Karena pada dataset yang akan digunakan memiliki data yang tidak seimbang maka perlu dilakukan proses down sampling atau proses untuk mengurangi indeks sentimen yang lebih banyak juga dapat dengan menerapkan SMOTE upsampling agar jumlah sentimen menjadi seimbang. Dataset yang sudah seimbang kemudian dibagi menjadi 60% untuk data latih dan 40% sebagai data uji.
Seluruh rangkaian proses dari awal sampai awal sampai akhir dapat dilihat pada gambar 5.
Gambar 5. Proses Utama di RapidMiner F. Evaluasi
Pada tahap ini dilakukan evaluasi terhatap performa dari setiap model yang telah diujikan.
Evaluasi dilakukan menggunakan confusion matrix yang merepresentasikan prediksi dan kondisi aktual dari data yang dihasilkan dari algoritma. Beberapa hasil evaluasi yang didapat mencakup accuracy, recall dan precission.
Gambar 6. Confusion Matrix Positif
75%
Negatif 25%
Accuracy(A) merupakan jumlah prediksi yang diklasifikasikan benar, baik benar positif atau benar negatif nilai akurasi dihitung dengan menggunakan persamaan :
𝐴 = (𝑇𝑃 + 𝑇𝑁)
(𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁) 𝑥 100%
Precission(P) adalah seberapa relevan hasil pemrosesan untuk informasi yang ingin Anda cari. Untuk menghitung nilai precission dapat menggunakan persamaan :
𝑃 = 𝑇𝑃
(𝑇𝑃 + 𝐹𝑃) 𝑥 100%
Sedangkan Recall(R) merupakan berapa banyak data yang relevan dalam koleksi yang dihasilkan sistem. Persamaan recall sebagai berikut :
𝑅 = 𝑇𝑃
(𝑇𝑃 + 𝐹𝑁) 𝑥 100%
Dari hasil evaluasi tersebut akan digunakan untuk menentukan performa model yang terbaik untuk digunakan sebagai alat untuk mengklasifikasi sentimen ulasan hotel di Nusa Tenggara Barat (NTB).
Tabel 3. Hasil Pengujian
Metode Accuracy Precision Recall SVM 92,32% 93,34% 92,32%
Naïve Baiyes 91,56% 92,78% 91,56%
C.4 65,71% 79,66% 65,71%
Dari hasil algoritma SVM didapatkan pula bobot kata yang sering muncul pada ulasan positif pada gambar 7 dan ulasan negatif pada gambar 8
Gambar 7. Sampel bobot kata pada ulasan positif
Gambar 8. Sampel bobot kata pada ulasan negatif
4. KESIMPULAN
Pada penelitian ini dilakukan upaya untuk mengklasifikasikan analisis sentimen dari ulasan hotel di Nusa Tenggara Barat (NTB). Dari 3 algoritma yang diterapkan yaitu, Support Vector Machine (SVM), Naïve Baiyes dan Decission Tree(C4.5) hasilnya menunjukan bahwa algorima SVM memiliki nilai akurasi tertinggi sebesar 92,32%, presisi sebesar 93,34% dan nilai recal sebesar 92,32%. Maka algoritma SVM dapat digunakan sebagai model dalam pada penelitian analisis sentimen ini.
Dari hasil analisis sentimen rata-rata pengunjung hotel memberikan ulasan positif karena lokasi yang strategis, indah, kebersihan serta suasana yang nyaman. Sedangkan pada ulasan negatif rata-rata terdapat keluhan terkait beberapa fasilitas hotel yang rusak atau bermasalah. Secara umum hotel-hotel di Nusa Tenggara Barat memiliki repuasi baik.
5. UCAPAN TERIMA KASIH
Ucapan terimakasih tak lupa kami haturkan kepada rekan-rekan yang telah membantu jalannya penelitian kami yang sederhana ini.
Semoga dapat memberikan kontribusi kepada para pembaca.
DAFTAR PUSTAKA
Aswini, V. and Lavanya, S. K. (2014) ‘Pattern discovery for text mining’, pp. 412–416.
doi: 10.1109/iccpeic.2014.6915399.
Chory, R. N., Nasrun, M. and Setianingsih, C.
(2019) ‘Sentiment analysis on user satisfaction level of mobile data services using Support Vector Machine (SVM) algorithm’, Proceedings - 2018 IEEE International Conference on Internet of Things and Intelligence System, IOTAIS 2018, pp. 194–200. doi:
10.1109/IOTAIS.2018.8600884.
Faradhillah, N. Y. A., Kusumawardani, R. P. and Hafidz, I. (2016) ‘EKSPERIMEN
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 0.01 0.02 0.03 0.04 0.05 0.06
SISTEM KLASIFIKASI ANALISA SENTIMEN TWITTER PADA AKUN
RESMI PEMERINTAH KOTA
SURABAYA BERBASIS
PEMBELAJARAN MESIN’,
undefined.
Fauziyyah, A. K. (2020) ‘Analisis Sentimen Pandemi Covid19 Pada Streaming Twitter Dengan Text Mining Python’, Jurnal Ilmiah SINUS, 18(2), p. 31. doi:
10.30646/sinus.v18i2.491.
Hassan, S., Rafi, M. and Shaikh, M. S. (2011)
‘Comparing SVM and Naïve Bayes classifiers for text categorization with Wikitology as knowledge enrichment’, Proceedings of the 14th IEEE International Multitopic Conference 2011, INMIC 2011, (May 2014), pp. 31–
34. doi: 10.1109/INMIC.2011.6151495.
Khamsan, M. M. and Maskat, R. (2019)
‘Handling highly imbalanced output class label: A case study on Fantasy Premier League (FPL) virtual player price changes prediction using machine learning’, Malaysian Journal of Computing, 4(2), pp. 304–316.
Khotimah, D. A. K. and Sarno, R. (2018)
‘Sentiment detection of comment titles in booking.com using probabilistic latent semantic analysis’, 2018 6th International Conference on Information and Communication Technology, ICoICT 2018, pp. 514–519.
doi: 10.1109/ICOICT.2018.8528784.
Witten, I. H., Frank, E. and Hall, M. a (2011)
‘Data Mining: Practical Machine Learning Tools and Techniques (Google eBook)’, Complementary literature None, p. 664.