View of PENGKLASIFIKASIAN SENTIMEN ULASAN APLIKASI WHATSAPP PADA GOOGLE PLAY STORE MENGGUNAKAN SUPPORT VECTOR MACHINE

(1)

1

PENGKLASIFIKASIAN SENTIMEN ULASAN APLIKASI WHATSAPP PADA GOOGLE PLAY STORE MENGGUNAKAN SUPPORT VECTOR MACHINE

Indah Aida Sapitri¹⁾, Yusra²⁾,Muhammad Fikry³⁾

1,2,3 Fakultas Sains dan Teknologi, Universitas Islam Negeri Sultan Syarif Kasim Riau, Pekanbaru email: [email protected], [email protected], [email protected]

Abstract

The Google Play Store is a platform commonly used to download applications, one of which is WhatsApp. The Google Play Store also provides a feature so that users can provide reviews in the form of comments containing both positive and negative points of view. The method used in this study is the Support Vector Machine method. The purpose of this study is to apply the SVM method in classifying sentiments and knowing the accuracy test of the method. This study uses 1000 reviews collected from the scrapping process and uses two comparisons, namely 90:10 and 80:20. A comparison of 90:10 produces an accuracy of 82%, while a comparison of 80:20 produces an accuracy of 81%, a comparison of 90:10 produces a precision value of 58%, 35% recall, f1-score 44% for the negative class and a precision value of 85 %, 94% recall, 89% f1-score for the positive class, while the 80:20 ratio produces 62% precision, 34% recall, 44% f1-score for the negative class and 84% precision value, 94% recall, f1- score 89% for the positive class. The best parameter pairs are at C=1.0 and γ = 1.0 with an accuracy of 68% at a ratio of 90:10, while at a comparison of 80:20 the best parameter pairs are at C=0.9 and γ=0.7 with an accuracy of 67%.

Keywords: Support Vector Machine, Classification, Sentiment Analysis, Play Store, WhatsApp Application.

1. PENDAHULUAN

Saat ini perkembangan teknologi dalam kategori komunikasi dan pesan begitu ketat, salah satunya adalah aplikasi WhatsApp.

Terdapat data pada tahun 2021 yaitu mengenai Appannie.com “State of Mobile 2022” [1].

WhatsApp berada pada rangking pertama untuk jenis aplikasi dalam kategori komunikasi dan terdapat banyak sekali rating dan review diaplikasi tersebut pada Google Play Store.

Namun hal ini tidak bisa menjadi sebagai patokan kepuasan pengguna karena masih terdapat perbandingan antara ulasan positif maupun negatif pada aplikasi tersebut [2].

Play Store adalah layanan yang disediakan oleh Google yang menyediakan berbagai konten digital, diantaranya yaitu aplikasi, permainan, dan lain sebagainya. Google Play Store dapat diakses melalui Android, situs web dan Google TV. Berdasarkan Data Mobile Operating System Market Share in Indonesia, terdapat 89,77%

pengguna Android dan 10,12% pengguna ios yang berarti pengguna Market Place Play Store

lebih banyak dibanding dengan App Store [3], pada Google Play Store terdapat kolom penilaian dan ulasan para pengguna untuk aplikasi yang telah tersedia.

Pada data mengenai Mobile App Daily dituliskan bahwa terdapat 90% pengguna melihat ulasan dan rating sebelum mengunduh aplikasi [4], dengan adanya hal tersebut, maka dapat memberikan dampak yang mempengaruhi sebuah aplikasi baik itu ulasan ataupun rating dari para pengguna, karena hal itu dapat digambarkan sebagai peningkatan jumlah pengguna dan menjadi sebagai salah satu faktor aplikasi tersebut banyak digunakan atau tidak.

Oleh karena itu, dibutuhkan suatu analisis sentimen klasifikasi terhadap ulasan atau opini yang diberikan oleh para pengguna aplikasi untuk menghasilkan kesimpulan dari data yang akan dianalisis.

Proses klasifikasi tersebut dilakukan dengan menggunakan metode Support Vector Machine, karena metode tersebut merupakan metode yang dapat mengkategorikan atau

(2)

2

melihat sebab akibat antara variabel satu dengan variabel yang lain, metode SVM juga memiliki dimensi yang relatif tinggi dengan menggunakan fungsi kernel [5], dan metode SVM juga merupakan metode yang memiliki hasil lebih baik dalam kategori klasifikasi [6].

Terdapat beberapa penelitian yang membandingkan algoritma Support Vector Machine dan Naïve Bayes, algoritma Support Vector Machine memperoleh nilai akurasi yang lebih tinggi sebesar 81,22% sedangkan Naïve Bayes sebesar 74,37% [7]. Penelitian selanjutnya yang membandingkan algoritma Support Vector Machine dan K-Nearest Neighbor, algoritma Support Vector Machine juga memperoleh nilai akurasi lebih tinggi sebesar 87,98% sedangkan K-Nearest Neighbor memperoleh nilai akurasi sebesar 82,14% [8], dari beberapa penelitian di atas dapat disimpulkan bahwa algoritma SVM memiliki nilai akurasi tertinggi dibanding dengan algoritma lainnya.

Dari permasalahan dan penjelasan di atas, maka dapat disimpulkan bahwa penelitian ini bertujuan untuk menganalisis dan mengetahui apakah metode SVM dapat digunakan pada kasus mengenai pengklasifikasian sentimen ulasan aplikasi WhatsApp pada Google Play Store serta mengetahui tingkat akurasi dari metode yang digunakan. sehingga nantinya akan bermanfaat sebagai acuan dalam menjaga kualitas pelayanan aplikasi dalam memperbaiki kekurangan untuk tercapainya kepuasan pengguna aplikasi tersebut.

2. METODE PENELITIAN

Gambar 1 merupakan tahapan dalam penelitian ini, dimulai dengan pengumpulan data menggunakan teknik scrapping pada Google Play Store kemudian melakukan pelabelan pada data yang didapat dari hasil scrapping.

Pada tahap preprocessing terdapat beberapa proses yang mempunyai fungsi masing-masing. Pada proses selanjutnya yaitu melakukan pembagian data, yaitu berupa data latih dan uji. Kemudian pembobotan TF-IDF dan dilakukan percobaan dengan seleksi fitur thresholding, tahap selanjutnya yaitu klasifikasi menggunakan metode SVM dan kemudian

dilakukan pengujian model dengan confusion matrix dan k-fold cross validation.

Gambar 1. Tahapan Penelitian

Gambar 2. Hasil Proses Scrapping 1. Pengumpulan Data

Pengumpulan data pada penelitian ini didasarkan pada data aplikasi WhatsApp pada Google Play Store yang diambil dari review pengguna aplikasi tersebut. Data yang digunakan yaitu sebanyak 1000 data ulasan WhatsApp dengan menggunakan teknik web scrapping yaitu teknik untuk mengekstrak data dengan jumlah banyak maupun besar dari sebuah web, kemudian disimpan dalam bentuk file dalam format (excel) [7].

(3)

3

2. Pelabelan

Pelabelan dilakukan dengan menandai ulasan bersifat komentar positif atau negatif yang dilakukan secara manual oleh validator dosen bahasa Indonesia.

3. Preprocessing

Merupakan tahapan awal yang dilakukan dalam memproses teks [6], dimana terdapat beberapa proses di dalamnya yaitu:

a. Cleaning merupakan tahap atau proses pembersihan data yaitu menghilangkan simbol-simbol seperti titik (.), koma (,), titik dua (:), tanda tanya (?), persen (%), hastag (#), dan lain sebagainya [9].

b. Case folding merupakan proses perubahan yaitu dengan mengganti semua huruf besar menjadi huruf kecil pada data [10].

c. Tokenization merupakan proses pemisah sebuah kalimat menjadi perkata pada sebuah data [11].

d. Normalization merupakan proses mengubah kata yang tidak baku menjadi baku sesuai dengan KBBI [12].

e. Negation handling merupakan proses mengubah kata negasi menjadi kata yang sebenarnya.

f. Stopword removal merupakan kata yang tidak dianggap berpengaruh dalam kalimat [13]. Kata tersebut dianggap sebagai noise dan harus dihilangkan [14].

g. Stemming adalah proses yang menghapus kata awal dan akhir untuk menghasilkan kata dasar [15].

4. Data Latih dan Data Uji

Data latih (training) yaitu data yang diolah dan hasilnya sebagai prediksi untuk data uji (testing) [16]. Penelitian ini menggunakan perbandingan 90:10 dan 80:20.

Tabel 1. Pembagian Data Perbandingan Data Latih Data Uji

90:10 900 100

80:20 800 200

5. Fitur TF-IDF

Berfungsi untuk menghitung nilai pada setiap kata pada TF (Term frequency) dan I-DF (Inverse Document frequency) [17].

6. Seleksi Fitur Thresholding

Seleksi fitur merupakan tahapan yang digunakan untuk mengurangi dimensi data atau kata [18].

7. Support Vector Machine

Support Vector Machine merupakan metode umum dalam proses klasifikasi [19].

SVM memiliki beberapa kernel seperti kernel linear, polynomial, sigmoid dan RBF. Penelitian ini menggunakan kernel Radial Basis Function (RBF) dengan pasangan Cost (C) dan Gamma (γ) [20].

8. Confussion Matrix

Menghasilkan suatu nilai yang bertujuan untuk melihat performa algoritma SVM berupa accuracy, precision, recall, dan f1-score [13].

9. K-fold Cross Validation

K-fold cross validation merupakan metode yang bertujuan untuk memeriksa keakuratan model yang dibangun pada data yang diberikan [21].

3. HASIL DAN PEMBAHASAN 1. Pengumpulan Data

Pada penelitian ini data diperoleh dari ulasan pengguna WhatsApp di Play Store dengan menggunakan teknik web scrapping.

Data yang diambil yaitu sebanyak 1.000 data ulasan.

Gambar 3. Barchart Sentimen

(4)

4

2. Preprocessing

Hasil dari 7 proses yang telah dilakukan pada tahap ini, yaitu:

Tabel 2. Hasil Tahap Preprocessing

Tahap Hasil

Data ulasan WhatsApp

Setelah di update notifikasi wa tidak muncul di atas layar tapi tau" ada pesan wa masuk tolong developer perbaiki lagi

Cleaning Setelah di update notifikasi wa tidak muncul di atas layar tapi tau ada pesan wa masuk tolong developer perbaiki lagi

Case Folding setelah di update notifikasi wa tidak muncul di atas layar tapi tau ada pesan wa masuk tolong developer perbaiki lagi

Tokenization ['setelah', 'di', 'update', 'notifikasi', 'wa', 'tidak', 'muncul', 'di', 'atas', 'layar', 'tapi', 'tau', 'ada', 'pesan', 'wa', 'masuk', 'tolong', 'developer', 'perbaiki', 'lagi']

Normalization ['setelah', 'di', 'memperbarui', 'notifikasi', 'whatsapp', 'tidak', 'muncul', 'di', 'atas', 'layar', 'tapi', 'tahu ', 'ada', 'pesan', 'whatsapp', 'masuk', 'tolong', 'developer', 'perbaiki', 'lagi']

Negation Handling

['setelah', 'di', 'memperbarui', 'notifikasi', 'whatsapp', 'hilang', 'di', 'atas', 'layar', 'tapi', 'tahu ', 'ada', 'pesan', 'whatsapp', 'masuk', 'tolong', 'developer', 'perbaiki', 'lagi']

Stopword Removal

['memperbarui', 'notifikasi', 'whatsapp', 'hilang', 'layar', 'tahu ', 'pesan', 'whatsapp', 'masuk', 'tolong', 'developer', 'perbaiki']

Stemming baru notifikasi whatsapp hilang layar tahu pesan whatsapp masuk tolong developer baik

3. Fitur TF-IDF

Setelah melakukan pembagian data menjadi dua bagian, kemudian dilakukanlah pembobotan kata menggunakan TF-IDF.

Gambar 4. Hasil TF-IDF Data Training

Gambar 5. Hasil TF-IDF Data Testing 4. Seleksi Fitur Thresholding

Langkah yang dilakukan untuk mengurangi dimensi data atau kata untuk mendapatkan nilai terbaik. Penelitian ini mendapatkan hasil untuk perbandingan 90:10 yaitu tersisa sebanyak 169 fitur, sedangkan pada perbandingan 80:20 tersisa sebanyak 153 fitur.

Gambar 6. Fitur yang tersisa pada perbandingan 90:10

5. Confussion Matrix

Hasil pengujian menggunakan confussion matrix untuk perbandingan 90:10.

Gambar 7. Hasil Confussion Matrix

(5)

5

Pada perbandingan 90:10 didapatkan accuracy sebesar 82%, untuk nilai precision sebesar 58%, recall 35%, f1-score 44% untuk kelas negatif, sedangkan nilai precision sebesar 85%, recall 94%, f1-score 89% untuk kelas positif.

Pada percobaan perbandingan 80:20 didapatkan accuracy sebesar 81%, untuk nilai precision sebesar 62%, recall 34%, f1-score 44% untuk kelas negatif, sedangkan nilai precision sebesar 84%, recall 94%, f1-score 89% untuk kelas positif.

A. Ekstraksi Fitur DF

Tabel 3. Distribusi Nilai DF

No Nilai DF Jumlah Kata

1 1-5 1312

2 6-10 155

3 11-15 51

4 16-20 46

5 21-25 24

6 26-30 14

7 31-35 10

8 36-40 8

9 41-45 11

10 46-50 10

11 51-55 4

12 56-60 5

13 61-65 4

14 66-70 3

15 >70 53

Nilai di atas dipilih berdasarkan jumlah kata pada grafik yang dapat dilihat pada Gambar di bawah

Gambar 8. Nilai DF untuk Fitur Terpilih

Gambar di atas menunjukkan jumlah kata yang dianggap mulai konstan berada pada titik antara 16-20.

6. K-fold Cross Validation

Pada tahapan SVM training dilakukan k-fold cross validation dengan data latih dan pasangan parameter C (cost) dan γ (gamma).

Tabel 4. K-Fold Cross Validation C /

γ

0,1 0,2 0,3 0,4 0,5

0,1 0,6544 0,6544 0,6544 0,6544 0,6544 0,2 0,6544 0,6544 0,6544 0,6544 0,6544 0,3 0,6544 0,6544 0,6544 0,6544 0,6544 0,4 0,6544 0,6544 0,6544 0,6544 0,6544 0,5 0,6544 0,6544 0,6544 0,6544 0,6544 0,6 0,6544 0,6544 0,6544 0,6544 0,6555 0,7 0,6544 0,6544 0,6544 0,6544 0,6588 0,8 0,6544 0,6544 0,6544 0,6544 0,6566 0,9 0,6544 0,6544 0,6544 0,6544 0,6600 1,0 0,6544 0,6544 0,6544 0,6544 0,6611 Berdasarkan table di atas, parameter terbaik berada pada pasangan parameter C=1,0 dan γ=1,0 dengan akurasi sebesar 68%, dan merupakan model dengan hasil akurasi tertinggi.

4. KESIMPULAN

Berdasarkan hasil penelitian dapat disimpulkan bahwa proses pengklasifikasian ulasan aplikasi WhatsApp pada Google Play Store berhasil dilakukan dengan metode SVM dengan menggunakan perbandingan 90:10 dan 80:20 dengan memperoleh akurasi sebesar 82%

dan 81%. Pada perbandingan 90:10 pasangan parameter terbaik berada pada pasangan parameter C=1,0 dan γ=1,0 dengan rata-rata akurasi sebesar 68%, sedangkan pada perbandingan 80:20 yang menjadi pasangan parameter terbaik berada pada pasangan parameter C=0,9 dan γ=0,7 dengan rata-rata akurasi sebesar 67%.

5. REFERENSI

[1] Appannie.com, “State of Mobile 2022,”

appannie.com, 2022. .

[2] A. Muhammadin and I. A. Sobari,

“Analisis Sentimen pada Ulasan Aplikasi Kredivo dengan Algoritma SVM dan

(6)

6

NBC,” Reputasi J. Rekayasa Perangkat Lunak, vol. 2, no. 2, pp. 85–91, 2021, doi: 10.31294/reputasi.v2i2.785.

[3] GlobalStats Statcounter, “Mobile Operating System Market Share Indonesia November 2020 - November 2021,” Gs.Statcounter.Com, 2021.

https://gs.statcounter.com/os-market- share/mobile/indonesia (accessed Nov.

23, 2022).

[4] Arpit, “Top 5 Reasons Showing the Importance of Ratings and Reviews for Your Mobile App,” Mobileappdaily.com, 2021. .

[5] A. Saepulrohman, S. Saepudin, and D.

Gustian, “Analisis Sentimen Kepuasan Pengguna Aplikasi WhatsApp Menggunakan Algoritma Naïve Bayes dan Support Vector Machine,” is Best Account. Inf. Syst. Inf. Technol. Bus.

Enterp. this is link OJS usf@, vol. 6, no.

2, pp. 91–105, 2021, doi:

10.34010/aisthebest.v6i2.4919.

[6] F. Bei and S. Sudin, “Analisis Sentimen Aplikasi Tiket Online di Play Store Menggunakan Metode Support Vector Machine (SVM),” Sismatik, vol. 01, no.

01, pp. 91–97, 2021.

[7] N. Herlinawati, Y. Yuliani, S. Faizah, W.

Gata, and S. Samudi, “Analisis Sentimen Zoom Cloud Meetings di Play Store Menggunakan Naïve Bayes dan Support Vector Machine,” CESS (Journal Comput. Eng. Syst. Sci., vol. 5, no. 2, p.

293, 2020, doi:

10.24114/cess.v5i2.18186.

[8] M. N. Muttaqin and I. Kharisudin,

“Analisis Sentimen pada Ulasan Aplikasi Gojek Menggunakan Metode Support Vector Machine dan K Nearest Neighbor,” UNNES J. Math., vol. 10, no.

2, pp. 22–27, 2021, [Online]. Available:

http://journal.unnes.ac.id/sju/index.php/uj m.

[9] V. Kevin, S. Que, A. Iriani, and H. D.

Purnomo, “Analisis Sentimen Transportasi Online Menggunakan Support Vector Machine Berbasis Particle Swarm Optimization,” vol. 9, no.

2, pp. 162–170, 2020.

[10] F. N. Annur, Ahsinil Amal, Murtopo

Alim Aang, “Analisis Sentimen Aplikasi E-Learning selama Pandemi Covid-19 dengan Menggunakan Metode Support Vector Machine,” Pros. …, pp. 9–17, 2021.

[11] H. Tuhuteru and A. Iriani, “Analisis Sentimen Perusahaan Listrik Negara Cabang Ambon Menggunakan Metode Support Vector Machine dan Naive Bayes Classifier,” J. Inform. J. Pengemb.

IT, vol. 3, no. 3, pp. 394–401, 2018, doi:

10.30591/jpit.v3i3.977.

[12] O. I. Gifari, M. Adha, and F. Freddy, Fernandito, “Analisis Sentimen Review Film Menggunakan TF-IDF dan Support Vector Machine,” J. Inf. Technol., vol. 2, no. 1, pp. 36–40, 2022, doi:

10.46229/jifotech.v2i1.330.

[13] M. Diki Hendriyanto, A. A. Ridha, and U. Enri, “Analisis Sentimen Ulasan Aplikasi Mola pada Google Play Store Menggunakan Algoritma Support Vector Machine,” J. Inf. Technol. Comput. Sci., vol. 5, no. 1, pp. 1–7, 2022.

[14] L. B. Ilmawan and M. A. Mude,

“Perbandingan Metode Klasifikasi Support Vector Machine dan Naïve Bayes untuk Analisis Sentimen pada Ulasan Tekstual di Google Play Store,”

Ilk. J. Ilm., vol. 12, no. 2, pp. 154–161,

2020, doi:

10.33096/ilkom.v12i2.597.154-161.

[15] M. Riky Sudrajat, P. D. Atika, and . H.,

“Implementasi Support Vector Machine (SVM) dan Naïve Bayes untuk Analisis Sentimen Aplikasi KAI Access,” J. ICT Inf. Commun. Technol., vol. 20, no. 2, pp.

254–259, 2021, doi: 10.36054/jict- ikmi.v20i2.403.

[16] R. Wahyudi and G. Kusumawardana,

“Analisis Sentimen pada Aplikasi Grab di Google Play Store Menggunakan Support Vector Machine,” J. Inform., vol. 8, no. 2, pp. 200–207, 2021, doi:

10.31294/ji.v8i2.9681.

[17] A. N. Ulfah and M. K. Anam, “Analisis Sentimen Hate Speech pada Portal Berita Online Menggunakan Support Vector Machine (SVM),” JATISI (Jurnal Tek.

Inform. dan Sist. Informasi), vol. 7, no. 1,

pp. 1–10, 2020, doi:

(7)

7

10.35957/jatisi.v7i1.196.

[18] S. Fide, Sola, Suparti, “Analisis Sentimen Ulasan Aplikasi Tiktok di Google Play Menggunakan Metode Support Vector Machine (SVM) dan Asosiasi,” vol. 10, pp. 346–358, 2021.

[19] D. Pratiwi, Riszki Wijayatun, Sharfina Febbi H, “Analisis Sentimen pada Review Skincare Female Daily Menggunakan Metode Support Vector Machine (SVM),” J. Informatics, Inf.

Syst. Softw. Eng. Appl., vol. 1, no. 1, pp.

40–46, 2021, doi:

10.20895/inista.v4i1.387.

[20] Y. Yusra and M. Fikry, “Klasifikasi

Tweet E-Commerce dengan

Menggunakan Metode Support Vector Machine,” J. CoreIT J. Has. Penelit.

Ilmu Komput. dan Teknol. Inf., vol. 4, no.

2, p. 50, 2018, doi:

10.24014/coreit.v4i2.5205.

[21] I. G. A. M. S. Ida Ayu Made Supartini, I Komang Gde Sukarsa, “Analisis Diskriminan pada Klasifikasi Desa di Kabupaten tebanan menggunakan Metode K-fold Cross Validation.” Bali, pp. 106–115, [Online]. Available:

https://www.researchgate.net/publication/

318856648.