JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
Analisis Sentimen Ulasan Pengguna Aplikasi Myim3 Pada Situs Google Play Menggunakan Support Vector Machine
Piqih Aditiya, Ultach Enri*, Iqbal Maulana
Fakultas Ilmu Komputer, Program Studi Teknik Informatika, Universitas Singaperbangsa Karawang, Karawang, Indonesia Email: 1[email protected], 2,*[email protected], 3[email protected]
Email Penulis Korespondensi: [email protected] Submitted 10-08-2022; Accepted 22-08-2022; Published 30-08-2022
Abstrak
Perkembangan teknologi semakin pesat, hal ini mempermudah komunikasi informasi dan transaksi pembelanjaan, salah satu inovasi yang sedang di adopsi adalah layanan digital, seperti self service. Salah satu self service adalah myim3 yang merupakan produk dari PT indosat ooredoo hutchison sebagai perusahaan penyedia layanan jaringan internet, dengan semakin banyaknya pengguna dari aplikasi tersebut membuat banyaknya opini atau sentimen masyarakat yang dibagikan di kolom komentar atau ulasan, oleh karenanya hal ini perlu dilakukan analisis terhadap ulasan aplikasi MyIM3 untuk mengetahui opini masyarakat mengenai aplikasi tersebut. Data ulasan diperoleh dari situs web Google Play yang diambil menggunakan metode scraping dengan bantuan library pihak ke 3 di python.
Jumlah data yang diperoleh dalam penelitian ini sebanyak 3484 data. Pelabelan data dibantu oleh pakar untuk menentukan positif serta negatif. Pada tahap preprocessing data di bersihkan untuk mengurangi atribut yang kurang berpengaruh. Di tahap berikutnya melakukan proses transformation dengan TF-IDF. Proses klasifikasi klasifikasi dibagi menjadi beberapa skenario dengan algoritma yang digunakan adalah support vector machine dengan 2 kernel ya itu linear dan RBF. Hasil terbaik terdapat pada skenario (70:30) untuk kernel linear dengan akurasi 87% dan skenario (90:10) dengan akurasi 87% di kernel RBF. Proses klasifikasi menghasilkan kata yang paling sering muncul pada masing-masing kelas sentimen yang divisualisasikan dengan word cloud. Kata “bagus” merupakan kata yang paling dominan pada data ulasan positif, sedangkan kata “jaringan” yang paling dominan pada data ulasan negatif aplikasi MyIM3.
Kata Kunci: MyIM3; Text Mining; Support Vector Machine (SVM); Ulasan, Word Cloud Abstract
Technological developments are increasingly rapid, this makes it easier to communicate information and shopping transactions, one of the innovations that are being adopted is digital services, such as self-service. One of the self-services is myim3 which is a product of PT Indosat Ooredoo Hutchison as an internet network service provider company, with the increasing number of users of the application, many opinions or public sentiments are shared in the comments or reviews column, therefore it is necessary to analyze this MyIM3 application review to find out public opinion about the application. The review data is obtained from the Google Play website which is retrieved using the scraping method with the help of 3rd party libraries in python. The amount of data obtained in this study was 3484 data. Experts assist in data labeling to determine positive and negative. In the preprocessing stage, the data is cleaned to reduce the less influential attributes. In the next stage, perform the transformation process with TF-IDF. The classification process is divided into several scenarios with the algorithm used as a support vector machine with 2 kernels, linear and RBF. The best results are in the scenario (70:30) for the linear kernel with 87% accuracy and the scenario (90:10) with 87% accuracy in the RBF kernel. The classification process produces the most frequently occurring words in each sentiment class which is visualized with a word cloud. The word "good" is the most dominant in the positive review data, while the word "network" is the most dominant in the harmful review data of the MyIM3 application.
Keywords: MyIM3; Text Mining; Support Vector Machine (SVM); Review; Word Cloud
1. PENDAHULUAN
Perkembangan teknologi sekarang ini semakin canggih dalam memberikan kemudahan seperti halnya dalam telekomunikasi, informasi, dan transaksi pembelanjaan. Hal yang sedang ramai di adopsi di indonesia adalah layanan digital, salah satunya self service application, hal ini dipengaruhi oleh gaya hidup di era generasi milenial yang ingin semuanya menjadi praktis, serba cepat dan tidak merepotkan[1]. Dibuktikan dengan semakin banyaknya pengguna internet , menurut Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) pengguna internet mengalami kenaikan setiap tahunnya seperti pada survei terbaru mereka di tahun 2019-2020 jumlah pengguna internet terdapat sebanyak 197,71 juta orang dengan kenaikan 8,9% dari tahun sebelumnya di 2018 yang berjumlah 171,17 juta orang[2]. Salah satu operator seluler besar di indonesia adalah Indosat Ooredoo Hutchison yang di tahun 2021 mempunyai 60,3 juta pengguna baik prabayar maupun pascabayar yang aktif, jumlah tersebut bertambah 5,3% dari tahun sebelumnya [3], sebagai perusahaan penyedia layanan jaringan telekomunikasi mereka meluncurkan aplikasi self service untuk mempermudah pelayanan nya yaitu MyIM3, menyediakan fitur untuk memenuhi kebutuhan pengguna seperti kontrol data untuk menghemat penggunaan data dan layanan gratis lainnya [4] Aplikasi ini telah diunduh lebih dari 100 juta pengguna dan lebih dari 5 juta ulasan di google play store. Google play store adalah sebuah layanan konten digital, dimana pengguna smartphone dengan sistem operasi android dapat mengunduh aplikasi maupun produk online lainnya yang disediakan seperti e-book film, game, dan lain sebagainya secara gratis maupun berbayar [5]. Di google play store ada sebuah fitur yaitu rating dan ulasan (review), fitur itu bisa akan mempengaruhi calon pengguna dikarenakan kecenderungan pengguna sebelum mengunduhnya akan melihat kolom ulasan atau review ini sebagai tolak ukur bagus atau tidaknya suatu produk, serta opini opini yang di tuangkan di dalamnya. ulasan ini biasanya terbagi menjadi ulasan positif dan ulasan negatif tetapi ulasan dari sosial media mempengaruhi keputusan seseorang untuk membeli atau menggunakan produk tersebut [6]
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom ditambah dengan kecenderungan pengguna ingin mengetahui pendapat serta pengalaman pengguna lain yang terkait aplikasi tersebut [7] oleh sebab itu diperlukan metode untuk menyortir serta menganalisis ulasan dengan cepat dan akurat serta mengkategorikan antara ulasan positif dengan negatif.
Sentimen analisis menurut (Feldman & Sanger, 2007) bisa disebut juga dengan Opinion mining adalah salah satu cabang studi yang berfokus pada analisis pendapat atau opini seseorang, perilaku, dan emosi yang diekspresikan secara tekstual [8] sedangkan menurut (Manik & Ernawati, 2021) analisis sentimen merupakan proses menganalisis, identifikasi dan pengelompokan tanggapan atau opini pada teks, dengan maksud membedakan apakah itu opini positif dan negatif [9]
Pada penelitian ini menggunakan salah satu algoritma yang populer untuk mengklasifikasikan text yaitu Support vector machine, pemilihan algoritma tersebut karena memiliki memiliki akurasi tertinggi dalam hal pengklasifikasian data teks[10]-[11] algoritma SVM mempunyai beberapa kernel diantaranya Linear, Rbf (Radial Basis Function), Polynomial, dan multiquadric. Pemilihan kernel ini penting adanya karena akan mempengaruhi hasil dari outputnya, hal ini dimaksudkan agar feature space bisa ditentukan untuk mencari clasifiernya [12]. Pada penelitian terdahulu yang dilakukan oleh Hilda Kusumahadi dkk, 2019 yang berjudul “Klasifikasi keluhan pelanggan berbasis twitter menggunakan metode Support Vector Machine (SVM)(Studi kasus: Pos Indonesia)” membandingkan fungsi kernel di algoritma svm kernel yang digunakan adalah Linera, Rbf, Polynomial menghasilkan kesimpulan kernel Linear mendapatkan nilai akurasi lebih kecil dibanding Rbf yaitu sebesar 81,26% sedangkan Rbf sendiri menghasilkan 81,44% dan Polynomial sebesar 67,12%. Tetapi di hasil presisi, recall, f1-score linear lebih unggul dengan hasil masing masing 90%, 89%,dan 89% di banding kernel rbf. Sedangkan pada penelitian yang dilakukan oleh Oryza Habibie Rahman dkk, 2021 dengan judul
“Klasifikasi Ujaran Kebencian pada Media Sosial Twitter Menggunakan Support Vector Machine” dalam penelitiannya membandingan antara fungsi kernel yang ada di algoritma svm yang menghasilkan kesimpulan terdapat dua kernel dengan nilai tertinggi yaitu rbf dan linear, hasil akurasi di kernel rbf 93% sedangkan precision 84%, recall 86%, dan f- measure 83%, sementara itu linear mendapatkan akurasi 92%, dengan presisi 85%, recall 88% dan f-measure 85%.
Berdasarkan latar belakang yang telah diuraikan diatas peningkatan jumlah pemakaian internet, peneliti merasa perlu untuk menganalisa lebih lanjut terhadap review atau ulasan pengguna di salah satu aplikasi self service yang dimiliki oleh perusahaan penyedia layanan jasa telekomunikasi untuk mengetahui bagaimana opini atau pendapat dari penggunanya terhadap layanan dari aplikasi tersebut, dengan cara menganalisis sentimen tersebut dengan proses text mining menggunakan algoritma svm, sedangkan di algoritma svm sendiri pengaruh dari pemilihan fungsi kernel memiliki pengaruh yang cukup besar dalam menentukan ruang feature space yang berimbas pada hasil akhir nantinya, peneliti telah mengumpulkan beberapa referensi penelitian terdahulu terdapat 2 kernel yang akan di komparisi terhadap hasil yang dikeluarkan yaitu kernel linear and rbf.
2. METODOLOGI PENELITIAN
Metode penelitian yang digunakan dalam penelitian ini adalah Knowledge Discovery from Data dengan tahapan didalamnya yakni Data Selection, Preprocessing, Transformation, Data Mining, Evaluation. Pada tahapan Preprocessing prosesnya menggunakan proses Text Mining untuk membersihkan datanya. Agar dapat lebih mudah keterangan dari alur penelitian terdapat pada gambar 1.
Gambar 1. Alur Penelitian 2.1 Data Collection
Data dari ulasan pengguna diperlukan untuk menunjang penelitian kali ini, pengumpulan Data diambil menggunakan teknik web scraping dengan menggunakan bahasa pemrograman phyton. Ulsan atau komentar (review) pengguna aplikasi
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
MyIM3 di Google Play Store merupakan data yang akan di scraping. Pengumpulan data diperlukan dalam proses analisis data yang disesuaikan dengan kebutuhan penelitian, pengambilan data fokus pada kategori relevan dengan estimasi waktu pengumpulan data adalah 3 bulan, dimulai dari bulan februari 2022 hingga april 2022. Kemudian data ulasan yang terkumpul akan dilakukan pelabelan yang dibantu oleh pakar bahasa yang dibagi kedalam dua dengan 2 klasifikasi yaitu positif dan negatif.
2.2 Preprocessing
Proses preprocessing data dilakukan karena banyak data yang masih menggunakan bahasa yang tidak sesuai ejaan ataupun ada beberapa atribut data yang tidak diperlukan dalam proses penelitian ini kedepannya. Di tahapan ini menggunakan tahapan text mining, sedangkan Text mining adalah proses analisis teks pencarian sebuah informasi yang dianggap penting untuk sebuah hasil spesifik. Dengan prinsip dan cara data mining dilakukan agar mengetahui pola yang ada di suatu teks [13]. Proses text mining mencakup beberapa sub-task, seperti information retrieval, categorization, POS tagging, Clustering, dan lainnya, dengan kategori framework “Knowledge Discovery in Databases” (KDD)[14]. Tetapi yang akan digunakan pada penelitian dapat dilihat pada gambar 2
Gambar 2. Proses Text mining di tahap preprocessing
2.2.1 Cleaning
proses pembersihan suatu kalimat dari kata yang tidak digunakan serta tidak berpengaruh pada hasil nantinya. Seperti symbol, link dan emoji.
2.2.2 Case Folding
proses perubahan huruf yang tadinya kapital (Uppercase) menjadi huruf kecil (LowerCase), huruf yang di udah mulai dari “a” sampai dengan “z” selain itu akan dihilangkan atau tidak diproses, contohnya “Akhir ini jaringan sering bermasalah LEMOT dan sangat LAMBAT” maka akan diubah menjadi “akhir ini jaringan sering bermasalah lemot dan sangat lambat”.
2.2.3 Tokenizing
proses memisahkan suatu kalimat menjadi lebih sederhana / kecil atau menjadi beberapa kata dari kalimat panjang, hasil dari prosesnya disebut token, contohnya “akhir ini jaringan sering bermasalah. lemot dan sangat lambat” menjadi “akhir”,
“ini”, “jaringan”, “sering”, “bermasalah”, “lemot”, “dan”, “sangat”, “lambat”.
2.2.4 Normalization
proses memperbaiki kata yang semula tidak baku menjadi kata baku, fungsi proses ini adalah menyeragamkan kata kata yang ditemukan menjadi kata baku yang sesuai, contohnya “paket data tak kunjung masuk” menjadi “paket data tidak kunjung masuk”.
2.2.5 Filtering
proses penyaringan atau pengambilan inti kata dari tahap tokenizing untuk membuang kata-kata yang dianggap tidak mempunyai makna dikenal sebagai stopword. Stopword dalam kalimat mengandung istilah-istilah yang sering keluar &
dipercaya nir krusial contohnya waktu, penghubung & lain sebagainya. Hal tersebut diperlukan upaya untuk menghapusnya. Proses menghapus ini memerlukan sebuah kumpulan istilah yang nantinya dijadikan sebagai referensi untuk upaya penghapusan tersebut [15].
2.2.6 Stemming
Proses pencarian suatu kata dasar atau menghilangkan imbuhan atau kata jamak menjadi kata dasar dalam suatu dokumen.
Contohnya minuman, diminum, meminumkan, terminum, dimana kata dasarnya ialah kata “minum”.
2.3 Transformation
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom Data yang telah di proses pada tahap sebelumnya masihlah bersifat tekstual sedangkan pada penelitian ini diperlukan data yang bersifat numerik untuk memudahkan perhitungan pada tahap berikutnya yaitu data mining, oleh karena itu perubahan data harus dilakukan, hal ini bisa dilakukan dengan beberapa metode, metode yang dipakai pada penelitian ini adalah TF-IDF (Term Frequency – Inverse Document Frequency). TF-IDF adalah cara yang dipakai mencari sebanyak mana hubungan dari kata (term) ke dokumen yang akan diberikan bobot. Dengan menyatukan kedua konsep frekuensi adanya hubungan antar kata dan inverse frekuensi yang ada di dalam dokumen tersebut [16]. TF merupakan rasio dari jumlah suatu kata pada kalimat dan dibandingkan dengan panjang dari kalimat tersebut, sementara IDF dari setiap kata adalah rasio berdasarkan total dokumen dengan jumlah dari dokumen tertentu yang terdapat teks tersebut [17]
persamaannya dituliskan pada persamaan 1
𝑡𝑓 − 𝑖𝑑𝑓 = 𝑡𝑓 × 𝑙𝑜𝑔 𝑙𝑜𝑔 𝑑𝑓𝑁 (1)
Keterangan
tf : Term Frequency
idf : Inverse Document Frequency N : Jumlah total dokumen dalam corpus N
df : Jumlah dokumen yang mengandung term sebuah kata 2.4. Data Mining
proses klasifikasi menggunakan algoritma Support Vector Machine dengan beberapa skenario yaitu 90% data training dan 10% data testing, 80% data training dan 20% data testing, 70% data training an 30% data testing, dan 60% data training dan 40% data testing [18]. Dengan menggunakan 2 kernel yaitu Linear dan Rbf (Radial Basis Function).Persamaan kernel Linear ada di persamaan 2 sedangkan persamaan kernel Rbf di persamaan 3
𝐾( 𝑥⃗⃗⃗ , 𝑥𝑖 ⃗⃗⃗ ) = ∅(𝑥𝑗 ⃗⃗⃗ ). ∅(𝑥𝑖 ⃗⃗⃗ )𝑗 (2)
𝐾( 𝑥⃗⃗⃗ , 𝑥𝑖 ⃗⃗⃗ ) = 𝑒𝑥𝑝 (− 𝑗 ‖ 𝑥⃗⃗⃗⃗⃗ . 𝑥𝑖 ⃗⃗⃗⃗⃗ ‖𝑗 2
2𝜎2 ) (3)
Keterangan:
𝑥 = vektor masukan yang diperluas 𝛼 = alpha
𝛽 = beta 𝜎 = sigmoid 2.2 Evaluation
Tahap terakhir melakukan evaluasi pada hasil yang didapat sebelumnya diproses klasifikasi yang menggunakan algoritma Support Vector Machine dengan menggunakan metode Confusion Matrix. Confusion matrix merupakan salah-satu alat bantu untuk analitik prediktif yang dapat menampilkan dan membandingkan nilai aktual atau nilai sebenarnya dengan nilai hasil prediksi model yang dapat digunakan untuk menghasilkan matrik evaluasi[19]. Berikut tabel Confusion matrix
Tabel 1. Confusion matrix
Actual Positif Actual Negatif
Predicted Positif TP FP
Predicted Negatif FN TN
Berdasarkan tabel confusion matrix diatas, true positive (TP) adalah persentase dari kelas positif yang berhasil diklasifikasi sebagai kelas positif, false positive (FP) adalah kelas negatif yang diklasifikasi sebagai kelas positif, false negative (FN) adalah kelas positif yang diklasifikasi sebagai kelas negatif, True negative (TN) adalah persentase dari kelas negatif yang berhasil diklasifikasi sebagai kelas negatif. Hasil dari confusion matrix seperti accuracy, precision, recall dan f1-score (f-measure) berikut persamaannya [19].
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁)𝑇𝑃+𝑇𝑁 (4)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃
𝑇𝑃+𝐹𝑃 (5)
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃
𝑇𝑃+𝐹𝑁 (6)
2.2 Word Cloud
Word cloud merupakan salah satu dari sekian metode text mining untuk menunjukan kata yang banyak terdapat pada dokumen tersebut. Sedangkan besarnya font berpengaruh kepada sering kali kata tersebut ada di data yang digunakan [9].
3. HASIL DAN PEMBAHASAN
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
Hasil penelitian yang telah dilakukan adalah menganalisis sentimen dengan cara mengklasifikasikan ulasan pengguna aplikasi self service myIM3 di situs google play store. Menggunakan algoritma Support Vector Machine (SVM) dengan 2 kernel yaitu Kernel Linear dan Kernel RBF. Untuk mengetahui kernel mana yang terbaik dari keduanya, di penelitian ini membandingkan empat nilai yang dihasilkan dari pemrosesan pada text mining diantaranya adalah nilai accuracy, recall, precision, dan f1-score.
3.1 Data Collection
Pengumpulan data dilakukan di website google play store dengan menggunakan teknik web scraping, dengan menggunakan bantuan library eksternal di python, data yang digunakan adalah data berbentuk teks, yaitu data ulasan pengguna aplikasi self service myIM3 selama bulan februari sampai april data yang didapatkan berjumlah 3721.
Selanjutnya data dipilih dengan beberapa kriteria yang ditentukan, yaitu data ulasan berbahasa Indonesia, tidak mengandung unsur SARA, tidak memuat kata-kata kasar, dan merupakan kalimat yang benar-benar berisi ulasan suatu aplikasi, baik ulasan yang bersifat positif maupun ulasan negatif. Setelah didapatkan data yang sesuai selanjutnya dilakukan pelabelan data dengan cara membaginya berdasarkan rating, untuk rating 5-4 di labelkan positif, sedangkan 1- 2 dilabelkan negatif, dan untuk rating 3 di labelkan oleh pakar yaitu seorang guru bahasa indonesia. Data yang akan di proses berjumlah 3.484 dataset yang berisikan 652 data ulasan positif dan 2.832 data ulasan negatif, ditunjukkan pada tabel perbandingan data.
Tabel 2. Perbandingan Data
Positif 652
Negatif 2832
3.2 Preprocessing
Data hasil scraping tidak bisa langsung diolah, karena mengandung banyak noise(gangguan), karenanya diperlukan tahap preprocessing sebagai bagian membersihkan data atau mengurangi atribut yang tidak berpengaruh di tahap berikutnya untuk mengurangi gangguan atau noise. Tahapan preprocessing akan ditampilkan pada tabel 3.
Tabel 3. Tahap Preprocessing
Tahapan Sebelum Sesudah
Cleaning Untuk Indosat,tolong ya khususnya di kota,Ogan Komering ulu timur,sumatera selatan..di mohon di perbaiki ya,masalahnya untu akses jaringannya susahnya lebih dari susah banget,hampir di daerah kami semua pengguna mengeluh indosat..jadi tolong ya di perkuat lagi..terimakasih
Untuk Indosattolong ya khususnya di kota Ogan Komering ulu timur sumatera selatan mohon diperbaiki ya masalahnya untuk akses jaringannya susahnya lebih dari susah bangethampir di daerah kami semua pengguna mengeluh indosat jadi tolong ya diperkuat lagi terimakasih
Case Folding
Untuk Indosat tolong ya khususnya di kota Ogan Komering ulu timur sumatera selatan mohon diperbaiki ya masalahnya untuk akses jaringannya susahnya lebih dari susah bangethampir di daerah kami semua pengguna mengeluh indosatjadi tolong ya diperkuat lagi terimakasih
untuk indosat tolong ya khususnya di kota ogan komering ulu timur sumatera selatan di mohon diperbaiki ya masalahnya untuk akses jaringannya susahnya lebih dari susah banget hampir di daerah kami semua pengguna mengeluh indosat jadi tolong ya diperkuat lagi terimakasih
Tokenizing untuk indosat tolong ya khususnya di kota ogan komering ulu timur sumatera selatan di mohon diperbaiki ya masalahnya untuk akses jaringannya susahnya lebih dari susah banget hampir di daerah kami semua pengguna mengeluh indosat jadi tolong ya diperkuat lagi terimakasih
[“untuk” “indosat” “tolong” “ya” “khususnya”
“di” “kota” “ogan” “komering” “ulu” “timur”
“sumatera” “selatan” “di” “mohon” “di”
“perbaiki” “ya” “masalahnya” “untuk” “akses”
“jaringannya” “susahnya” “lebih” “dari”
“susah” “banget” “hampir” “di” “daerah” “kami”
“semua” “pengguna” “mengeluh” “indosat”
“jadi” “tolong” “ya” “di” “perkuat” “lagi”
“terimakasih”]
Filtering [“untuk” “indosat” “tolong” “ya” “khususnya” “di”
“kota” “ogan” “komering” “ulu” “timur” “sumatera”
“selatan” “di” “mohon” “di” “perbaiki” “ya”
“masalahnya” “untu” “akses” “jaringannya”
“susahnya” “lebih” “dari” “susah” “banget”
“hampir” “di” “daerah” “kami” “semua”
“pengguna” “mengeluh” “indosat” “jadi” “tolong”
“ya” “di” “perkuat” “lagi” “terimakasih”]
indosat,tolong,kota,ogan,komering,ulu,timur,su matera,selatan,mohon,perbaiki,masalahnya,akse s,jaringannya,susahnya,susah,banget,hampir,dae rah,pengguna,mengeluh,indosat,jadi,tolong,perk uat,lagi,terimakasih
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom Stemming indosat,tolong,kota,ogan,komering,ulu,timur,sumat
era,selatan,mohon,perbaiki,masalahnya,akses,jaring annya,susahnya,susah,banget,hampir,daerah,penggu na,mengeluh,indosat,jadi,tolong,perkuat,lagi,terima kasih
mohon baik akses jaring susah susah daerah guna keluh tolong kuat
3.3 Transformation
Pada tahap ini data yang bersifat tekstual akan diubah menjadi data numerik dengan metode TF-IDF, dimana sebelum mencari nilai dari TF-IDF sendiri kita memerlukan berapa banyak jumlah suatu kata pada data ulasan tadi, pada tabel 4 dapat dilihat beberapa kata beserta jumlahnya
Tabel 4. Jumlah Kata Pada Ulasan Kata Jumlah Kata
Kesini 104
Im3 686
Jaring 1414
Buruk 247
Lag 143
Paket 1299
beli 885
Setelahnya nilai TF bisa dihitung dengan cara hasil bagi antara periode munculnya sebuah kata dengan total dari jumlah kata yang ada di dokumen tersebut, nilai TF ini berfungsi untuk menentukan berapa seringnya suatu kata muncul dalam sebuah dokumen. Nilai TF sudah diketahui langkah berikutnya adalah mencari IDF, yang mempunyai fungsi agar jika suatu kata banyak tersebar di sebuha dokumen maka nilainya akan berkurang. Terakhir ketika sudah mengetahui nilai dari TF dan juga IDFnya, barulah kemudian TF-IDF dapat dilakukan dengan cara mengalikan TF dan IDF. Hasil nilai proses TF-IDF dapat lebih mudah dilihat pada tabel 5
Tabel 5. Proses TF-IDF
Kata TF IDF TF-IDF
Kesini 0.058823 3.521207 0.207129
Im3 0.058823 1.898268 0.111662
Jaring 0.117647 2.097681 0.246683
Buruk 0.058823 2.704897 0.159111
Lag 0.058823 3.419737 0.201161
Paket 0.117647 1.220565 0.143595
beli 0.058823 1.447852 0.085167
3.4 Data Mining
Pemodelan menggunakan algoritma Support Vector Machine (SVM) dilakukan di tahap ini, dengan kernel yang akan digunakan adalah Linear dan Rbf. Sebelum proses pemodelan dilakukan pembagian data antara data testing dan data training menjadi 4 skenario hal ini dimaksudkan untuk mendapatkan nilai performa yang lebih baik pada pemodelan di penelitian, untuk pembagian skenario dapat dilihat pada tabel 6.
Tabel 6. Pembagian Skenario
Skenario Data Training Data Testing
A 90% 10%
B 80% 20%
C 70% 30%
D 60% 40%
3.4.1 Skenario A
Setelah dilakukan pengujian ulasan dengan menggunakan kernel linear mendapatkan akurasi sebesar 86,3% sedangkan di kernel Rbf mendapatkan akurasi sebesar 87,0%. Hal ini dikarenakan didapatkan data yang berhasil diklasifikasi dengan benar dari data testing yang digunakan pada nilai TP dan TN di confusion matrix, Hasil dari confusion matrix dapat dilihat pada tabel 7
Tabel 7. Confusion Matrix Skenario A
Linear Rbf
275 10 277 8
38 26 38 26
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
3.4.2 Skenario B
Setelah dilakukan pengujian ulasan dengan menggunakan kernel linear mendapatkan akurasi sebesar 86,3% sedangkan di kernel Rbf mendapatkan akurasi sebesar 86%. Hal ini dikarenakan didapatkan data yang berhasil diklasifikasi dengan benar dari data testing yang digunakan pada nilai TP dan TN di confusion matrix, Hasil dari confusion matrix dapat dilihat pada tabel 8
Tabel 8. Confusion Matrix Skenario B
Linear Rbf
556 14 554 16
81 46 81 46
3.4.3 Skenario C
Setelah dilakukan pengujian ulasan dengan menggunakan kernel linear mendapatkan akurasi sebesar 86,3% sedangkan di kernel Rbf mendapatkan akurasi sebesar 86%. Hal ini dikarenakan didapatkan data yang berhasil diklasifikasi dengan benar dari data testing yang digunakan pada nilai TP dan TN di confusion matrix, Hasil dari confusion matrix dapat dilihat pada tabel 9
Tabel 9. Confusion Matrix Skenario C
Linear Rbf
834 21 834 21
119 72 122 69
3.4.4 Skenario D
Setelah dilakukan engujian ulasan dengan menggunakan kernel linear mendapatkan akurasi sebesar 86,3% sedangkan di kernel Rbf mendapatkan akurasi sebesar 86%. Hal ini dikarenakan didapatkan data yang berhasil diklasifikasi dengan benar dari data testing yang digunakan pada nilai TP dan TN di confusion matrix, Hasil dari confusion matrix dapat dilihat pada tabel 10
Tabel 10. Confusion Matrix Skenario D
Linear Rbf
1112 25 1127 10
167 90 202 55
3.5 Evaluation
Keseluruhan pengujian model yang dilakukan menggunakan algoritma SVM pada tahap ini akan di bandingkan dengan maksud mencari model terbaik dalam proses klasifikasi, hasil yang didapatkan adalah kernel linear mendapatkan akurasi terbesar pada skenario C (70:30) sebesar 87% dan kernel RBF pada skenario A (90:10) sebesar 87%. Sedangkan hasil akurasi terendah didapat kernel RBF pada skenario B (80:20) sebesar 86,0%. Hasil evaluasi tidak hanya menghasilkan akurasi tetapi ada beberapa nilai lagi seperti precision, recall dan f1-score untuk bahan pertimbangan evaluasi model.
Precision terbesar di kernel linear ada di skenario C (70: 30) dan 4 (90:10) dengan nilai 88%, di kernel RBF terdapat di skenario A (90:10) dengan nilai 88%, sedangkan Precision terkecil dengan kernel linear terdapat di skenario C, B, A dengan nilai 77% di RBF ada di skenario B dengan nilai 74%. Nilai recall di kernel linear terbesar ada di skenario D,C,B dengan nilai 98% sedangkan di RBF skenario D sebesar 98%, sedangkan untuk nilai terkecil kernel linear dan RBF masing-masing berada di skenario D sebesar 35% dan 21%. F1-score di semua skenario kernel linear mendapatkan 92%
sedangkan di kernel RBF kecuali skenario ke D mendapatkan nilai yang sama dengan kernel linear, sama seperti recall nilai terendah ada di skenario D untuk f1-score dengan nilai masing masing linear 48% dan RBF 34% hasil dari keseluruhan perbandingan dapat dilihat pada tabel 11
Tabel 11. Perbandingan Evaluasi Model
Skenario
Accuracy (%) Precision (%) Recall (%) F1-score (%)
L R L R L R L R
1 0 1 0 1 0 1 0 1 0 1 0
A 86,3 87 77 88 76 88 41 96 41 97 52 92 53 92
B 86,3 86,0 77 87 74 87 36 98 36 97 49 92 49 92
C 87 86,3 77 88 77 87 38 98 36 98 51 92 49 92
D 86,2 85 78 87 85 85 35 98 21 99 48 92 34 91
Keterangan:
L : Kernel Linear R : Kernel Rbf 1 : Positif
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom 0 : Negatif
Hasil analisis sentimen ulasan pengguna aplikasi self service MyIM3 dapat divisualisasikan dengan menggunakan word cloud untuk mengetahui gambaran atau informasi umum mengenai data ulasan pengguna aplikasi self service MyIM3 pada situs Google Play. Terdapat beberapa kata untuk masing masing ulasan baik itu positif dan negatif, kata
“bagus”, “kuota”,” sinyal”, “paket”, dan “jaringan” menjadi kata yang paling sering muncul yang digunakan untuk ulasan positif sedangkan, kata “jaringan”, “sinyal”, “paket”, “kuota”, dan “pulsa” menjadi kata yang paling sering muncul yang digunakan untuk ulasan negatif pada aplikasi self service MyIM3 pada penelitian ini. Di word cloud semakin besar ukuran kata dalam word cloud maka semakin tinggi pula frekuensi kata tersebut. Artinya kata tersebut sering digunakan sebagai ulasan aplikasi MyIM3.Untuk lebih jelas nya bisa dilihat pada gambar 3 dan gambar 4
Gambar 3. Ulasan Positif
Gambar 4. Ulasan Negatif
4. KESIMPULAN
Penerapan algoritma Support Vector Machine menggunakan kernel linear dan RBF untuk melakukan analisis sentimen ulasan yang dikerjakan dengan beberapa proses diantaranya data collection dengan menggunakan metode web scraping, preprocessing dengan proses text mining yang didalamnya mencakup data cleaning, case folding, tokenizing, filtering, stemming dengan bantuan library sastrawi, setelahnya melakukan transformation dengan pembobotan kata (TF-IDF), lalu dilakukan pemodelan menggunakan 4 skenario pengujian secara acak dengan tujuan mencari model terbaik untuk kedua kernel yang dipakai yaitu linear dan RBF di algoritma SVM berhasil dilakukan. Gambaran atau informasi umum mengenai data ulasan pengguna aplikasi self service MyIM3 diperoleh dari visualisasi dengan menggunakan word cloud.
kata “bagus”, “kuota”,” sinyal”, “paket”, dan “jaringan” menjadi kata yang paling sering muncul yang digunakan untuk ulasan positif aplikasi MyIM3 pada penelitian ini. Sedangkan untuk ulasan negatif kata yang paling sering muncul adalah kata “jaringan”, “sinyal”, “paket”, “kuota”, dan “pulsa”. Dalam hal ini, kata “kuota” merupakan kata yang paling dominan pada data ulasan positif yang mengandung persepsi baik mengenai aplikasi self service MyIM3, sedangkan kata “sinyal”
yang paling dominan pada ulasan negatif mengandung persepsi negatif mengenai aplikasi self service MyIM3.
Perbandingan kernel pada algoritma SVM mendapatkan hasil kernel linear dengan hasil prediksi yang bagus pada skenario C (70:30) memiliki akurasi 87% karena model sanggup dalam mengklasifikasikan ulasan positif dan bukan ulasan positif.
Selain itu, kernel RBF memiliki hasil yang bagus juga di skenario A (90:10) dengan akurasi sebesar 87%. Nilai akurasi terendah terdapat pada skenario B (80:20) dengan nilai 86,0% pada kernel RBF di karenakan model yang didapat juga kurang baik dalam mengklasifikasikan ulasan positif maupun ulasan negatif. Sedangkan untuk masing masing nilai Precision, Recall, F1-Score Nya. Precision di kernel Linear paling besar berada di skenario C (70:30) dan skenario A (90:10) dengan nilai 88% sedangkan di kernel RBF dengan nilai yang sama 88% di skenario A (90:10), Recall di kernel Linear nilai tertinggi adalah 98% di skenario ke D (60:40) dan C (70:30) sedangkan kernel RBF mendapat nilai tinggi di
JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4673
Hal 1020−1028 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom
skenario D (60:40) dengan nilai 99%. F1-Score di kernel liner mendapat 92% di semua skenario sedangkan di kernel RBF mendapat 92% di semua skenario kecuali skenario
REFERENCES
[1] I. Umiyati, T. E. Putri, dan N. Maya, “Social Influence, Usability And Security On The Intensity Of DANA e-Wallet Use,” JASS (Journal Account. …, vol. 03, hal. 113–130, 2021.
[2] Asosiasi Penyelenggara Jasa Internet Indonesia, “Laporan Survei Internet APJII 2019 – 2020,” Jakarta, 2020.
[3] V. B. Kusnandar, “Telkomsel Jadi Operator Seluler dengan Pelanggan Terbanyak di Indonesia,” 2021. [Daring]. Tersedia pada:
https://databoks.katadata.co.id/datapublish/2021/09/22/telkomsel-jadi-operator-seluler-dengan-pelanggan-terbanyak-di- indonesia. [Diakses: 07-Apr-2022].
[4] Indosat dan Ooredoo, “Fitur MyIM3,” 2022. [Daring]. Tersedia pada: https://indosatooredoo.com/portal/id/indexpersonal.
[Diakses: 07-Apr-2022].
[5] Google, “Persyaratan Layanan Google Play,” 2020. [Daring]. Tersedia pada: https://play.google.com/intl/id_id/about/play- terms/. [Diakses: 07-Apr-2022].
[6] S. Hilda Kusumahadi, H. Junaedi, dan J. Santoso, “Klasifikasi Helpdesk Menggunakan Metode Support Vector Machine,” J.
Inform. J. Pengemb. IT, vol. 4, no. 1, hal. 54–60, 2019, doi: 10.30591/jpit.v4i1.1125.
[7] B. Liu, “Sentiment analysis and opinion mining,” Synth. Lect. Hum. Lang. Technol., vol. 5, no. 1, hal. 1–167, 2012.
[8] R. Feldman dan J. Sanger, The text mining handbook: advanced approaches in analyzing unstructured data, 3 ed. United States of America: Cambridge university press, 2007.
[9] G. Manik, I. Ernawati, dan I. Nurlaili, “Analisis Sentimen Pada Review Pengguna E-Commerce Bidang Pangan Menggunakan Metode Support Vector Machine ( Studi Kasus : Review Sayurbox dan Tanihub pada Google Play ),” Semin. Nas. Mhs. Ilmu Komput. dan Apl., no. September, hal. 64–74, 2021.
[10] X. Wu et al., “Top 10 algorithms in data mining,” Knowl. Inf. Syst., vol. 14, no. 1, hal. 1–37, 2008, doi: 10.1007/s10115-007- 0114-2.
[11] F. Sodik dan I. Kharisudin, “Analisis Sentimen dengan SVM , NAIVE BAYES dan KNN untuk Studi Tanggapan Masyarakat Indonesia Terhadap Pandemi Covid-19 pada Media Sosial Twitter,” Prisma, vol. 4, hal. 628–634, 2021.
[12] L. B. Ilmawan dan M. A. Mude, “Perbandingan Metode Klasifikasi Support Vector Machine dan Naïve Bayes untuk Analisis Sentimen pada Ulasan Tekstual di Google Play Store,” Ilk. J. Ilm., vol. 12, no. 2, hal. 154–161, 2020, doi:
10.33096/ilkom.v12i2.597.154-161.
[13] M. Tri Anjasmoros dan dan Fitri Marisa, “Analisis Sentimen Aplikasi Go-Jek Menggunakan Metode Svm Dan Nbc (Studi Kasus: Komentar Pada Play Store),” Conf. Innov. Appl. Sci. Technol. (CIASTECH 2020), no. Ciastech, hal. 489–498, 2020.
[14] I. Adiwijaya, “Text Mining dan Knowledge Discovery,” Kolok. bersama komunitas datamining Indones. soft-computing Indones., vol. 1, hal. 1–9, 2006.
[15] A. Erfina, E. S. Basryah, A. Saepulrohman, dan D. Lestari, “Analisis Sentimen Aplikasi Pembelajaran Online Di Play Store Pada Masa Pandemi Covid-19 Menggunakan Algoritma Support Vector Machine (Svm),” Semin. Nas. Inform., vol. 1, no. 1, hal. 145–
152, 2020.
[16] N. Fikria, “Analisis Klasifikasi Sentimen Review Aplikasi E-Ticketing Menggunakan Metode Support Vector Machine Dan Asosiasi,” Univ. Islam Indones., vol. 1, no. 2018-05–15, hal. 101, 2018.
[17] A. Kulkarni dan A. Shivananda, Natural Language Processing Recipes. 2019.
[18] A. Silvia, F. T. Muhammad, dan F. A. Mochammad, “Klasifikasi Penyakit Skizofrenia dan Episode Depresi pada Gangguan Kejiwaan dengan Menggunakan Metode Support Vector Machine (SVM),” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 11, hal. 5611–5618, 2018.
[19] R. N. Devita, H. W. Herwanto, dan A. P. Wibawa, “Perbandingan Kinerja Metode Naive Bayes dan K-Nearest Neighbor untuk Klasifikasi Artikel Berbahasa indonesia,” J. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 4, hal. 427, 2018, doi:
10.25126/jtiik.201854773.