Analisis Sentimen Komentar Pengunjung Terhadap Tempat Wisata Danau Weekuri Menggunakan Metode Naive Bayes Classifier Dan K-
Nearest Neighbor
Gergorius Kopong Pati, Elfira Umar*
Sekolah Tinggi Manajemen Informatiak Komputer (STIMIKOM) Stella Maris, Sumba Barat Daya, Indonesia Email: 1[email protected], 2,*[email protected],
Email Penulis Korespondensi: [email protected]
Abstrak−Trip Advisor adalah situs wisata terbesar di dunia yang membantu wisatawan dalam merencanakan dan memesan perjalanan wisata. Salah satu tempat wisata yang direkomendasikan di situs web TripAdvisor adalah Gua Kristal yang belokasi di Kota Kupang. Kebiasan human dalam memposting tempat wisata yang dikunjungi sudah merupakaan hal biasa untuk mempresentasikan tanggapan human terhadap salah satu tempat wisata. Biasanya ada pihak-pihak tertentu yang ingin mengetahui sentimen dan tanggapan terhadap salah satu tempat wisata. Oleh karena itu, penelitian ini akan melakukan analisis sentimen terhadap salah satu tempat wisata yang ada di Kota Kupang adalah Gua Kristal. Analisis dilakukan dengan melakukan klasifikasi tentang sentimen masyarakat. Metode kalsifikasi yang digunakan dalam penelitian ini adalah Navie Bayes Classifier dan K-Nearest Neighbor. Dari kedua metode ini akan di lakukan perbandingan untuk mengetahui tingkat akurasinya.
Klasifikasi sentimen terdiri dari positif dan negatif. Tujuan dari penelitian ini adalah memberikan informasi tentang kualitas salah satu tempat wisata yang ada di Kota Kupang dengan menggunakan sentimen dari pengunjung dan mengetahui tingkat akurasi dari perbandingan kedua metode yang diuji. Hasil pengujian akan di uji pada tools Rapidminer memperlihatkan tingkat akurasi dari melakukan pengujian kedua metode.
Kata Kunci: Gua Kristal; KNN; Navie Bayes Classifier; Wisata
Abstract−Trip Advisor is the largest travel site in the world that helps tourists in planning and booking travel. One of the recommended attractions on the TripAdvisor website is the Crystal Cave, which is located in Kupang City. Human habit in posting tourist attractions visited is a common thing to present human responses to one of the tourist attractions. Usually there are certain parties who want to know the sentiments and responses to one of the tourist attractions. Therefore, this study will conduct a sentiment analysis of one of the tourist attractions in the city of Kupang is the Crystal Cave. The analysis was carried out by classifying people's sentiments. The calcification method used in this study is Navie Bayes Classifier and K-Nearest Neighbor. From these two methods a comparison will be done to find out the level of accuracy. Sentiment classification consists of positive and negative. The purpose of this study is to provide information about the quality of one of the tourist attractions in the city of Kupang by using sentiment from visitors and determine the level of accuracy of the comparison of the two methods tested. The test results will be tested on the Rapidminer tool showing the level of accuracy of testing both methods.
Keywords: Crystal Cave; KNN; Naive Bayes Classifier; Tourism
1. PENDAHULUAN
Sumba Barat Daya memiliki sektor pariwisata yang berpotensi untuk dikembangkan. Namun kurangnya promosi serta keterbukaan informasi terkait kualitas objek wisata di Sumba Barat Daya menjadikan perkembangan objek wisata belum maksimal. Saat ini keterbukaan informasi publik dapat terwujud berkat perkembangan ilmu pengetahuan dan teknologi. Salah satu contohnya adalah jasa peta daring yang mempunyai fitur untuk merencanakan sebuah rute serta mencari sebuah alamat atau yang dikenal dengan Trip Advisor[1]. Di pertengahan tahun 2016 Google menambahkan fitur yang memungkinkan penggunanya untuk memberikan rating serta menambahkan ulasan pada tempat yang dikunjunginya. Dari hasil pengamatan yang telah dilakukan, banyak pengunjung objek wisata Sumba Barat Daya sudah memberikan ulasannya di Trip Advisor. Trip Advisor adalah situs wisata terbesar di dunia yang membantu wisatawan dalam merencanakan dan memesan perjalanan wisata.
Situs web Trip Advisor merupakan komunitas wisata terbesar di dunia yang menjangkau 350 juta pengunjung setiap bulannya, serta menampilkan lebih dari 320 juta ulasan dan opini tentang 6,2 juta akomodasi, restoran, dan objek wisata. Situs ini beroperasi di 48 negara di seluruh dunia. Travelling atau berwisata merupakan kegiatan yang sangat digemari oleh seluruh masyarakat dunia dan tidak terlepas juga masyrakata indonesi. Banyaknya review mengenai tempat wisata yang telah dikunjungi, memudahkan pengunjung lain yang ingin berkunjung ke tempat tersebut mengetahui keadaan di tempat tersebut dan menjadikan masukan untuk pengunjung lain untuk memutuskan ke tempat tersebut atau tidak[2]. Hal ini menjadi informasi yang berharga untuk meningkatkan kualitas pariwisata Sumba Barat Daya. Dengan ulasan tersebut kita bisa melakukan analisa untuk menemukan sentimen apa yang diberikan oleh pengunjung.
Sentiment Analysis juga akrab dikenal sebagai opinion mining, merupakan sebuah area penelitian yang menganalisis opini publik, emosi, penilaian, sikap dan sentimen tentang suatu, objek seperti, produk, layanan, individu, peristiwa, masalah dan topik. Untuk melakukan sentiment analysis diperlukan sebuah metode, salah satuya Naïve Bayes dan K-nearest Neighbor[3], [4]. Dalam metode ini klasifikasi dilakukan dengan menghitung probabilitas. Naive Bayes memiliki keunggulan dalam efisiensi dan kesederhanaan pada pengklasifikasian teks terutama dalam penerapan pada aplikasi praktis secara langsung seperti membagi kategori berita atau menyaring spam[5]–[7]. Dengan Sentiment Analysis, kita akan mendapatkan feedback yang cepat dari wisatawan dengan
Di Twitter dengan Naive Bayes[12]. Tujuan penelitian ini adalah mengetahui hasil sentimen positif dan negatif terhadap data uji tweet dan berdasarkan hasil pengujian tersebut dapat disampaikan kepada pengguna Twitter secara luas untuk menggunakan Twitter secara tepat. Hasil sentimen analisis terhadap 500 data uji menunjukkan bahwa nilai sentimen negatif sangat tinggi yaitu 68.4%. Sedangkan hasil perbandingan akurasi kedua metode adalah metode Naïve Bayes sebesar 87.48% dan k-NN 85.40% dimana metode Naïve Bayes lebih akurasi dibanding metode kNN.
Analisis Sentimen dan Klasifikasi Kategori Terhadap Tokoh Publik Pada Twitter[13]. Metode klasifikasi yang digunakan dalam penelitian ini adalah Naive Bayes Classifier. Naive Bayes Classifier dikombinasikan dengan fitur untuk dapat mendeteksi negasi dan pembobotan menggunakan term frequency serta TF-IDF[14].
Hasil pengujian pada aplikasi yang dibangun dan pada tools RapidMiner memperlihatkan bahwa akurasi dengan term frequency memberikan hasil akurasi yang lebih baik daripada akurasi dengan fitur TF-IDF. Metode Support Vector Machine menghasilkan akurasi performansi yang lebih baik daripada metode Naive Bayes baik dalam klasifikasi sentimen maupun dalam klasifikasi kategori. Analisis Sentimen Terhadap Tempat Wisata Dari Komentar Pengunjung Dengan Menggunakan Metode Naïve Bayes Classifier Studi Kasus Jawa Barat. Tujuan dari penelitian ini adalah untuk memberikan informasi kepada Dinas Pariwisata dan Kebudayaan Provinsi Jawa Barat dalam memutuskan langkah apa yang harus diambil tanpa harus turun langsung dan melihat satu – persatu dengan memanfaatkan Trip Advisor sebgai sumber data dalam pembuatan aplikasi. Dari hasil penelitian yang telah dilakukan terlihat bahwa algoritma naïve bayes classifier dapat mengklasifikasikan suatu opini berupa komentar ke dalam dua kelas yaitu positif dan negatif dengan akurat.
Berdasarkan penelitian sebelumnya, sudah ada penelitian yang melakukan perbandingan antara Metode Naive Bayes dan K-Nearest Neighbor. tapi dalam konteks judul yang berbeda dengan penelitian yang saat ini.
Pada penelitian selanjutnya sudah ada yang melakukan penelitian terhadap tempat wisata dengan menggunakan metode Naive Bayes Classifier namun tidak melakukan perbandingan dengan metode lain sehingga akurasi data dalam penelitian sebelumnya hanya ditunjukan pada metode Naive Bayes Classifier. Tujuan dari penelitian ini adalah memberikan informasi tentang kualitas salah satu tempat wisata yang ada di Kota Kupang dengan menggunakan sentimen dari pengunjung dan untuk mengetahui tingkat akurasi dari perbandingan kedua metode yang diuji. Hasil pengujian akan di uji pada tools Rapidminer memperlihatkan tingkat akurasi dari melakukan pengujian kedua metode.
2. METODOLOGI PENELITIAN
2.1 Penentuan Tempat Wisata
Penelitian ini dimulai dengan menentukan tempat wisata, selanjutnya mengumpulkan data yang berkaitan dengan penelitian sehingga penelitian akan lebih terarah.
2.2 Pengumpulan Data
Pengumpulan data dilakukan berdasarkan komentar pengunjung. Data didapat dengan memanfaatkan web Trip Advisor dengan tools yang digunakan yaitu Rapidminer Studio 9.6.0. Selanjutnya data akan disimpan ke Microsoft Excel 2007. Data yang diambil untuk melakukan analisis sentimen sebanyak 100 data. Gambar 1 menunjukan proses pengumpulan data. Data Langkah - langkah pengumpumpulan data:
a. Menghubungkan jaringan internet (Wifi) b. Membuka Web Trip Advisor
c. Mencari tempat wisata yang sesuai dengan penelitian
d. Menampilkan data berupa komentar dari pengunjung tempat wisata
e. Langkah selanjutnya melakukan penyimpanan data berupa data text yaitu yang berisi komentar pengunjung dan data sentimen positif dan negatif.
Dibawah ini akan ditampilkan sumber data komentar pengunjung tempat wisata Gua Kristal pada web TripAdvisor.
Gambar 1. Data Komentar Pengunjung 2.3 Tahap Preprocessing
Preprocessing dilakukan untuk menghindari data yang kurang sempurna, gangguan pada data, dan data-data yang tidak konsisten (Hemalatha, dkk, 2012). Tahapan text preprocessing pada penelitian ini diantaranya :
2.3.1 Seleksi Komentar
Data yang telah dikumpulkan pada tahap pengumpulan data akan diseleksi ulang karena ada penggabungan sentimen negatif dan positif sehingga peneliti akan melakukan pemisahan sentimen.
2.3.2 Mengubah Emoticon
Proses mengubah emoticon yang terdapat pada komentar dengan kata yang mencerminkan emoticon. Daftar konversi emoticon seperti dibawah ini.
Tabel 1. Konversi Emoticon
Emoticon Konversi
) =)=) Senyum
:D:-D =D Tawa
Sedih
:-) :$ >:[ Kecewa
;-) ;) Kedip
:-P :P Ejek
:-/:/ Ragu
2.3.3 Menghapus Simbol
Tahapan ini dilakukan proses untuk membuang simbol dan tanda baca dalam komentar.
2.3.4 Normalisasi Kalimat
Normalisasi kalimat adalah proses untuk mengubah data yang tidak baku menjadi kalimat baku. Hal ini dilakukan karena banyak komnetar yang menggunakan kalimat tidak baku sehingga akan sulit dilakukan dalam pengujian data. Contoh kalimat tidak baku yang ditemukan “bangeetttt”, “engga”, “tdk”, “gak”, “tak”, “keren”.
2.3.5 Tokenizing
Tokenizing adalah Proses membagi teks yang dapat berupa kalimat atau paragraf untuk menjadi bagian-bagian tertentu. Proses ini merupakan proses akhir untuk diolah datanya menjadi suatu sentimen analisis yang setiap kalimat dibagi menjadi masing-masing token biasa dilakukan oleh peneliti. Berikut contoh penerapan dari tokenizing.
Gambar 2. Tokenizing pada Tolls RapidMiner
sebagai Teorema Bayes. Rumus Naïve Bayes[15], [16]:
P (Cj|Wi) = 𝒑(𝒄𝒋) 𝒙 𝒑(𝒘𝒊|𝒄𝒋) 𝑷(𝒘𝒊)
2.5 Algoritma K-Nearest Neighbor (K-NN)
K-NN adalah sebuah metode klasifikasi terhadap sekumpulan data berdasarkan data training yang sudah terklasifikasikan sebelumya. Rumus k-NN ditunjukkan pada persamaan dibawah ini[17], [18]:
𝑑𝑖= ∑ (𝑥2𝑖− 𝑥1𝑖)2
𝑝 𝑖=1
3. HASIL DAN PEMBAHASAN
3.1 Analisa
Danaua Weekuri terletak di Desa Kalenarogo, Kecamatan Kodi Utara, Kabupaten Sumba Barat Daya, Provinsi Nusa Tenggara Timur. Danau Weekuri yang berwarna hijau kebiru-biruan ini merupakan danau yang sangatlah unik jika dibandingkan dengan danau-danau pada umumnya di Indonesia karena kandungan airnya yang asin dan payau, danau ini adalah sebuah laguna yang terbentuk dari air lautan lepas yang berada di kisaran danau. Air tersebut masuk dari celah-celah bebatuan yang berada di gugusan karang sekitaran danau. Selain sifat air payau yang dibawa dari laut, uniknya lagi di danau ini terdapat beberapa titik sumber mata air yang membuat gradasi warna air di danau ini bervariatif, yaitu ada yang berwarna biru cerah, biru sedikit kehijau-hijauan bahkan ada yang rasanya hangat dan ada yang dingin. Tersembunyi di balik pepohonan rimbun dan semak belukar serta jauh dari keramaian kota, suasana di sekitar danau terasa masih sangat asri.
3.2 Sumber Data
Proses data pada penelitian ini membagi data-data yang telah dilakukan proses preprocessing menjadi dua bagian yaitu data latih dan data uji. Pembuatan data latih ini bertujuan sebagai pedoman dalam menentukan hasil data uji dan pada penelitian ini menggunakan 100 data latih yang diambil dari komentar pengunjung. Contoh data latih yang disimpan dalam excel bisa dilihat pada gambar dibawah ini:
Gambar 3. Danau Weekuri
Gambar 5. Contoh Data Latih 3.3 Perhitungan Akurasi Dengan RapidMiner
Penelitian ini menggunakan tools RapidMiner versi 9.6. perhitungan akurasinya akan proses dengan menggunakan metode Naive Bayes Classifier dan Support Vektor Machine. Untuk mengetahui tingkat akurasi dari kedua metode tersebut.
3.3.1 Proses Dokument dengan metode K-Nearest Neighbor
Pada proses ini diuji dengan data latih dari excel. Seperti yang terlihat pada gambar dibawah ini
Gambar 5. Proses Dokumen Data Latih 3.3.2 Perhitungan Akurasi dengan K-Nearest Neighbor pada RapidMiner
Proses Training dan Testing dengan K-NN pada RapidMiner ditampilkan pada gambar dibawah ini:
Gambar 6. Proses Training dan Testing dengan K-NN pada RapidMiner
Hasil perhitungan klasifikasi menggunakan metode Metode K-Nearest Neighbor (KNN) diperoleh sebesar 76.53% seperti yang terlihat pada gambar dibawah.
Gambar 7. Akurasi dengan Metode K-NN pada RapidMiner
Hasil perhitungan klasifikasi menggunakan metode Metode Naive Bayes Classifier diperoleh sebesar 73.47% seperti yang terlihat pada gambar dibawah.
Gambar 9. Akurasi dengan Metode Naive Bayes Classifier pada RapidMiner 3.3.4 Perbandingan Hasil Pengujian Metode K-NN dan Naive Bayes
Perbandingan akurasi yang diuji pada tools RapidMiner dengan menggunakan metode Naive Bayes Classifier dan K-Nearest Neighbor (KNN). Hasil pengujian akurasi menggunakan metode K-Nearest Neighbor dimana diperoleh tingkat akurasninya 76.53% sedangkan tingkat akurasi dengan metode Naive Bayes Classifier sebesar 73.47%.
oleh karena itu tingkat akurasi yang diperoleh dengan menggunakan metode K-NN lebih baik. Tabel 2 akan memperlihatkan perbandingan dari kedua metode yang diuji pada tools RapidMiner.
Tabel 3. Perbandingan Hasil Perhitungan Akurasi Metode
Naive Bayes Classifier
Tingkat Predikat True Positif True Negatif
Pred. Positif 49 12
Pred. Negatif 14 23
K-Nearest Neighbor
Pred. Positif 57 17
Pred Negatif 6 18
Akurasi pada tools RapidMiner
Naive Bayes Classifier 73.47%
K-Nearest Neighbor 76.53%
4. KESIMPULAN
Hasil pengujian akurasi menggunakan metode K-Nearest Neighbor dimana diperoleh tingkat akurasninya 76.53% sedangkan tingkat akurasi dengan metode Naive Bayes Classifier sebesar 73.47%. oleh karena itu tingkat akurasi yang diperoleh dengan menggunakan metode K-NN lebih baik. Dimana diperoleh selisih yang tidak terlalu tinggi. Penggunaan metode Naive Bayes Classifie dan K- Nearest Neighbor sama-sama memiliki hasil akurasi yang cukup baik untuk menganalisis sentimen komentar atau tweet dari masyarakat. Hasil tingkat akurasi juga menunjukan tempat wisata Gua Kristal Yang ada di Kota Kupang merupakan salah satu tempat wisata yang mempunyai nilai komentar positif dari pengunjung yang sangat baik. Jadi tempat wisata Gua Kristal salah satu tempat yang direkomendasikan untuk para pencinta Travelling.
REFERENCES
[1] M. Nurjanah and T. Arifin, “Penerapan Algoritma K-Means Untuk Analisis Data Ulasan Di Situs Tripadvisor,” J.
Responsif Ris. Sains dan Inform., vol. 3, no. 1, pp. 75–82, 2021, doi: 10.51977/jti.v3i1.395.
[2] S. Seimahuira, “Implementasi Datamining Dalam Menentukan Destinasi Unggulan Berdasarkan Online Reviews Tripadvisor Menggunakan Algoritma K-Means,” Technol. J. Ilm., vol. 12, no. 1, p. 53, 2021, doi:
10.31602/tji.v12i1.4229.
[3] H. Leidiyana, “Penerapan Algoritma K-Nearest Neighbor Untuk Penentuan Resiko Kredit Kepemilikan Kendaraan Bermotor,” J. Penelit. Ilmu Komputer, Syst. Embed. Log., vol. 1, no. 1, pp. 65–76, 2013.
[4] M. Ridwan, H. Suyono, and M. Sarosa, “Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier,” Eeccis, vol. 7, no. 1, pp. 59–64, 2013, doi: 10.1038/hdy.2009.180.
[5] F. Telaumbanua, J. M. Purba, and D. P. Utomo, “Analysis of Online Learning Understanding Patterns at Budi Darma University Using the C5. 0 Algorithm,” IJICS (International J. Informatics Comput. Sci., vol. 5, no. 2, 2021.
[6] U. R. Amanda and D. P. Utomo, “Penerapan Data Mining Algoritma Hash Based Pada Data Pemesanan Buah Impor Cv.
Green Uni Fruit,” KOMIK (Konferensi Nas. Teknol. Inf. dan Komputer), vol. 5, no. 1, 2021.
[7] D. P. Indini, S. R. Siburian, and D. P. Utomo, “Implementasi Algoritma DBSCAN untuk Clustering Seleksi Penentuan Mahasiswa yang Berhak Menerima Beasiswa Yayasan,” in Prosiding Seminar Nasional Sosial, Humaniora, dan Teknologi, 2022, pp. 325–331.
[8] R. Sari, “Analisis Sentimen Pada Review Objek Wisata Dunia Fantasi Menggunakan Algoritma K-Nearest Neighbor (K- Nn),” EVOLUSI J. Sains dan Manaj., vol. 8, no. 1, pp. 10–17, 2020, doi: 10.31294/evolusi.v8i1.7371.
[9] S. Ernawati and R. Wati, “Penerapan Algoritma K-Nearest Neighbors Pada Analisis Sentimen Review Agen Travel,” J.
Khatulistiwa Inform., vol. 6, no. 1, pp. 64–69, 2018.
[10] M. R. Irfan, “Analisis Sentimen Kurikulum 2013 pada Twitter menggunakan Ensemble Feature dan Metode K-Nearest Neighbor,” Universitas Brawijaya, 2018.
[11] I. Zulfa and E. Winarko, “Sentimen Analisis Tweet Berbahasa Indonesia Dengan Deep Belief Network,” IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 11, no. 2, p. 187, 2017, doi: 10.22146/ijccs.24716.
[12] A. M. Pudjajana and D. Manongga, “Sentimen Analisis Tweet Pornografi Kaum Homoseksual Indonesia Di Twitter Dengan Naive Bayes,” Simetris J. Tek. Mesin, Elektro dan Ilmu Komput., vol. 9, no. 1, pp. 313–318, 2018, doi:
10.24176/simet.v9i1.1922.
[13] A. Fathan Hidayatullah and A. Sn, “Analisis Sentimen Dan Klasifikasi Kategori Terhadap Tokoh Publik Pada Twitter,”
Semin. Nas. Inform., vol. 2017, no. semnasIF, pp. 115–122, 2017, [Online]. Available: http://www.situs.com.
[14] C. Amalia and Y. Sibaroni, “Analisis Sentimen Data Tweet Menggunakan Model Jaringan Saraf Tiruan Dengan Pembobotan Delta Tf-idf,” eProceedings …, vol. 7, no. 2, pp. 7810–7820, 2020, [Online]. Available:
https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/12799.
[15] H. D. Wijaya and S. Dwiasnati, “Implementasi Data Mining dengan Algoritma Naïve Bayes pada Penjualan Obat,” J.
Inform., vol. 7, no. 1, pp. 1–7, 2020, doi: 10.31311/ji.v7i1.6203.
[16] M. Syukri Mustafa, M. Rizky Ramadhan, and A. P. Thenata, “Implementasi Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier,” Citec J., vol. 4, no. 2, pp. 151–162, 2017.
[17] A. J. Nathan and A. Scobell, “Model Algoritma K-nearest Neighbor untuk memprediksi kelulusan mahasiswa,” Foreign Aff., vol. 91, no. 5, pp. 1–9, 2012.
[18] M. Rivki and A. M. Bachtiar, “Implementasi Algoritma K-Nearest Neighbor Dalam Pengklasifikasian Follower Twitter Yang Menggunakan Bahasa Indonesia,” J. Sist. Inf., vol. 13, no. 1, p. 31, 2017, doi: 10.21609/jsi.v13i1.500.