Klasifikasi Data Review IMDb Berdasarkan Analisis Sentimen Menggunakan Algoritma Support Vector Machine

(1)

Klasifikasi Data Review IMDb Berdasarkan Analisis Sentimen Menggunakan Algoritma Support Vector Machine

Gita Cahyani, Wiwi Widayani, Sharazita Dyah Anggita^*, Yoga Pristyanto, Ikmah, Acihmah Sidauruk Fakultas Ilmu Komputer, Universitas AMIKOM Yogyakarta , Yogyakarta, Indonesia

Email: ¹[email protected], ²[email protected],^3,*[email protected],

4[email protected], ⁵[email protected] , ⁶[email protected] Email Penulis Korespondensi: [email protected]

Abstrak−Kemajuan dari teknologi Web 2.0 mendorong penciptaan konten website pribadi yang melibatkan sentimen seperti blog, tweets, web forum dan berbagai jenis media sosial. Internet Movie Database (IMDb) adalah situs web yang menyediakan informasi mengenai film dari seluruh dunia, termasuk orang-orang yang terlibat di dalamnya , nominasi yang pernah didapat, dan review dari para pengunjung. Banyaknya film maupun review pada IMDb menyebabkan user atau visitor harus memeriksa review satu per satu untuk mengetahui film rating tersebut. User atau visitor harus bisa menyimpulkan review film yang akan dipilih apakah mempunyai arah sentimen yang positif atau negatif dari user sebelumnya. Hal ini tentunya membutuhkan membutuhkan waktu bagi user yang belum berpengalaman menggunakan IMDb. Analisis sentimen dapat dijadikan sebuah solusi untuk dapat melabelkan review positif dan negatif. Salah satu algoritma yang dapat digunakan dalam analisis sentimen adalah algoritma Support Vector Machine (SVM). Tujuan dari penelitian ini dilakukan untuk menguji tingkat akurasi algoritma SVM dalam klasifikasi sentiment review film pada IMDb. Hasil pengujian yang dilakukan menggunakan algoritma Support Vector Machine menghasilkan nilai akurasi sebesar 86.5%. Algoritma SVM juga mampu menghasilkan nilai presisi sebesar 90.67% dan nilai recall sebesar 91.62%.

Kata Kunci: Analisis Sentimen; Support Vector Machine; Internet Movie Database (IMDb)

Abstract−Advances in Web 2.0 technology encourage the creation of personal website content involving sentiments such as blogs, tweets, web forums, and various types of social media. The Internet Movie Database (IMDb) is a website that provides information about films from around the world, including the people involved, nominations received, and reviews from visitors.

The number of movies and reviews on IMDb causes users or visitors to check the reviews to find out the film rating, so it takes time for users who have no experience using IMDb. Sentiment analysis can be a solution to label positive and negative reviews.

One of the algorithms used in sentiment analysis is the Support Vector Machine (SVM) algorithm. This study aimed to test the accuracy of the SVM algorithm in the classification of sentiment review films on IMDb. The tests carried out using the Support Vector Machine algorithm resulted in an accuracy value of 86.5%. The SVM algorithm can also produce a precision value of 90.67% and a recall value of 91.62%.

Keywords: Sentiment Analysis; Support Vector Machine; Internet Movie Database (IMDb)

1. PENDAHULUAN

Internet merupakan jaringan komputer berskala internasional yang dapat membuat masing-masing komputer saling berkomunikasi dari berbagai tempat, negara, benua sehingga dapat berkomunikasi dengan protocol tertentu, saling mengirimkan dan mendapat informasi. Internet secara tidak langsung merubah paradigma dalam mendapatkan informasi dan komunikasi, yang tidak lagi dibatasi oleh dimensi ruang dan waktu. Melalui internet semua orang bisa mendapatkan informasi dan berkomunikasi sesuai pribadi masing-masing [1]. Perkembangan internet dewasa ini sangat pesat dengan ditandai meningkatnya pengguna internet dunia. Kemajuan dari teknologi Web 2.0 mendorong penciptaan konten web pribadi yang melibatkan sentimen seperti blog, tweets, web forum dan berbagai jenis media sosial. Tujuan dari opinion mining dan sentiment analysis adalah untuk membantu orang menemukan informasi yang berharga dari sejumlah data yang tidak terstruktur [2], mendeteksi popularitas di dalam teks berupa ulasan negatif atau positif maupun netral melalui proses text mining [3]. Pengguna situs-situs website yang menyajikan informasi tentang film dan bagaimana review dan rating film semakin lama semakin bertambah dengan adanya banyak komentar-komentar yang yang ditinggalkan oleh para pengunjung website tersebut. banyaknya review menjadi kualitas dari film sulit untuk diketahui, untuk itu diperlukan adanya teknik pengklasifikasian review film sehingga dapat diukur kualitas baik dan buruknya suatu film berdasarkan review yang ditinggalkan pada pengguna website [4].

Internet Movie Database (IMDb) adalah situs web yang menyediakan informasi mengenai film dari seluruh dunia, termasuk orang-orang yang terlibat di dalamnya mulai dari aktor/aktris, sutradara, penulis, penata rias, soundtrack, nominasi yang pernah didapat, dan review dari para pengunjung. Ini mempengaruhi bagaimana cara pengguna mendapatkan informasi, dimana informasi dan hiburan dengan mudahnya kita akses lewat media digital.

Selain itu, pengguna juga dapat berinteraksi satu sama lain antar sesama pengunjung dan memberikan tanggapan mengenai suatu film. Pengguna IMDb di Indonesia mencapai 1.3% dari seluruh dunia yaitu sekitar 1.3% dari 57 juta visitors. Hal ini membuat Indonesia berada diperingkat 12 menurut statistik dari hypestat [5]. Mayoritas pengguna IMDb merupakan bukan pengguna unique. Dalam arti kata pengguna tidak menjadi member dan hanya mengunjungi situs dan mencari beberapa informasi tentang film. Perbandingannya sekitar 1 dari 5 mahasiswa di Bandung menjadikan IMDb acuan sebelum menonton film bioskop ataupun streaming [6]. Rating adalah bagian dari ulasan yang menggunakan simbol bintang dalam penilaian sebagai preferensi suatu produk dari pengalaman

(2)

Gita Cahyani, Copyright © 2022, MIB, Page 1419 secara psikologis dan emosional saat berinteraksi. IMDb merupakan sebuah portal media informasi sudah lebih dari cukup untuk membantu responden dalam memiliki informasi berkaitan dengan film tanpa harus mengecek portal sejenis. hasil penelitian menunjukkan bahwa rating IMDb berpengaruh signifikan terhadap keputusan untuk menonton sebuah film, disamping itu pengguna juga dapat membaca ulasan-ulasan yang menyertai ranting tersebut [7]. Dengan banyaknya film maupun review pada IMDb menyebabkan user atau visitor harus memeriksa review satu per satu untuk mengetahui film rating tersebut. Hal ini tentunya membutuhkan membutuhkan waktu bagi user yang belum berpengalaman menggunakan IMDb. Sentiment Analysis dapat menjadi salah satu solusi untuk mengatasi permasalahan tersebut. Pada review film IMDb, sentiment analysis digunakan untuk mengklasifikasikan film apakah berkategori positif atau negatif [8]. Tujuan sentiment analysis ialah untuk membantu user secara cepat dan efisien dalam menentukan film yang akan ditonton berdasarkan sentiment hasil review. Dalam proses sentiment analysis dapat digunakan metode text classification.

Beberapa penelitian telah dilakukan terkait penerapan text classification untuk mengetahui hasil sentiment analysis suatu topik. Penelitian yang dilakukan oleh Wanda dkk menggunakan algoritma Support Vector Machine dalam melakukan analisis sentimen cyberbullying pada kolom komentar Instagram. Hasil klasifikasi berupa kelas positif dan negatif yang dibedakan menjadi sentimen positif cyberbullying dan sentimen negatif cyberbullying.

Berdasarkan hasil pengujian yang dilakukan didapatkan tingkat akurasi terbaik sebesar 90%, precision sebesar 94,44%, recall sebesar 85%, dan f-measure sebesar 89,47% dengan komposisi data latih 50% dan data uji 50%

[9]. Penelitian terkait analisis sentimen juga dilakukan oleh [10] menggunakan algoritma Naïve Bayes untuk proses analisis sentimen. Analisis bertujuan dengan mengklasifikasi data twitter yang berisi komentar negatif maupun positif. Hasil pengujian menggunakan Naïve Bayes hanya mampu menghasilkan akurasi sebesar 55.80%.

Pada penelitian lain yang dilakukan oleh [11] menggunakan algoritma k-Nearest Neighbor (kNN). Dataset yang digunakan ialah komentar pada jasa ekspedisi barang di facebook. Hasil pengujian menggunakan kNN menghasilkan nilai akurasi yaitu 79,21%. Selain itu penelitian yang dilakukan oleh Fadhilah dkk [12]

menggunakan algoritma SVM dalam melakukan proses analisis sentimen terhadap kualitas layanan internet provider berdasarkan data twitter. Hasilnya algoritma SVM mampu menghasilkan nilai akurasi sebesar 90% untuk kernel Linear dan 88% untuk kernel RBF. Berdasarkan penelitian yang dilakukan tersebut algoritma SVM mampu menghasilkan akurasi yang baik dibandingkan algoritma lainnya. Oleh karena itu pada penelitian ini digunakan algoritma SVM untuk melakukan klasifikasi review film pada IMDb. Hal ini dilakukan untuk menguji apakah algoritma SVM dapat menghasilkan kinerja yang baik khususnya dalam klasifikasi sentiment review film pada IMDb. Hasil dari penelitian ini dapat diterapkan untuk menyelesaikan masalah user dalam menyimpulkan sebuah review film apakah mengarah ke sentimen positif atau negatif. Selain itu penelitian ini juga dapat menjadi referensi bagi penelitian selanjutnya terkait analisis sentimen review film. Penelitian [13] melakukan analisis sentimen terhadap data sampel ulasan produk penyedia internet Indihome di Google Play site pada rentang waktu november 2020 hingga 15 desember 2020 sebanyak 2.539 data. Proses klasifikasi menggunakan 2 algoritma yaitu Support Vector Machine (SVM) dan Naive Bayes Classifier(NBC). Penelitian dilakukan dengan membagi data training dan testing dengan perbandingan persentase 70:30,80:20 dan 90:10. Rata-rata akurasi yang dihasilkan dengan perbandingan 70:30, SVM mencapai 87.34% sedangkan NBC 84.21%. Perbandingan 80:20, SVM memiliki rata- rata akurasi 89.11% dan NBC 84.65. dan pada perbandingan 90:10 rata-rata akurasi yang dihasilkan SVM mencapai 86.54% sedangkan NBC 84,69%. dari penelitian tersebut disimpulkan bahwa SVM memiliki performa yang lebih baik dalam mengklasifikasikan data ulasan myIndiHome. di tahun sebelumnya penelitian dengan menerapkan dan membandingkan hasil algoritma algoritma SVM dan NBC pernah dilakukan oleh Ardianto dkk [14]. Penelitian dilakukan untuk mengukur sentimen pada media sosial twitter terhadap pendidikan e-sports. hasil penelitian menunjukkan algoritma NBC dengan SMOTE mendapatkan nilai akurasi 70.32% dan nilai AUC 0.954, sedangkan SVM dengan SMOTE mendapatkan akurasi 66.92% dan nilai AUC 0.832. Berbanding terbalik dengan hasil penelitian[13], pada penelitian[14] akurasi yang dihasilkan algoritma NPC lebih tinggi dibandingkan dengan SVM dengan perbedaan 3.4%. Penelitian yang dilakukan [18] dengan membandingkan 2 metode yaitu Support Vector Machine (SVM) dan Naïve Bayes Classifier (NBC), selain melakukan analisis sentimen penelitian ini juga melihat pro kontra yang terjadi pada pilkada Medan menggunakan Social Network Analysis melalui portal drone emprit akademi. Data pada penelitian ini diambil dari proses pembentukan hastag yaitu #pilkdamedan pada drone emprit akademi. Data yang diperoleh yaitu 10271, diambil dari 1 januari 2020 sampai 31 desember. Hasil Naive Bayes Classifier mendapatkan hasil akurasi lebih tinggi dari Support Vector Machine sebesar 81,72% milik NBC dengan proporsi data 90:10 dan pada SNA akun @YanHarahap mendapatkan nodes tertinggi yakni 911 nodes, serta dari 10326 tweet terdapat 11% yang dicurigai BOT oleh sistem DroneEmprit Academic.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Metode klasifikasi yang dilakukan untuk analisis sentimen ini memiliki alur yang tergambar pada Gambar 1.

Proses preprocessing dilakukan untuk memvalidasi dataset yang meliputi proses tokenizing, filtering, stopword removal dan stemming. Pembobotan variabel pada dataset dilakukan dengan algoritma information gain yang dilanjutkan dengan proses klasifikasi review film menggunakan algoritma support vector machine.

(3)

Gambar 1. Tahapan Penelitian 2.2 Dataset

Data yang digunakan pada penelitian ini adalah data review IMDb. Dataset sebanyak 2000 data. Dari 2000 data tersebut 80% digunakan sebagai data latih dan 20% digunakan sebagai data uji. Data review IMDb di dapat dari github. Adapun contoh potongan data review IMDb yang disimpan Excel dengan format .csv ditunjukkan pada gambar 2.

Gambar 2. Sampel Dataset 2.3 Preprocessing

Tahap pertama yang dilakukan ialah preprocessing, tahap ini memiliki tujuan untuk membersihkan data dari noise dan mempersiapkan data untuk dilakukan pembobotan. Sehingga data yang sudah bersih diharapkan dapat memberikan hasil yang lebih akurat. Tahapan preprocessing antara lain meliputi proses memisahkan string tiap kata (tokenizing), penghapusan kata yang terdiri dari dua karakter atau kurang (filtering), menghilangkan kata yang tidak memiliki pengaruh dalam klasifikasi (stopword removal), dan merubah bentuk kata menjadi kata dasar (stemming) [13]. Setelah selesai melalui tahapan pre-processing maka data disimpan kemudian siap untuk diolah ke tahap selanjutnya.

2.4 Terms Weighting Information Gain

Tahapan Terms Weighting atau pembobotan dilakukan dengan memberikan nilai pada suatu kata untuk menunjukkan seberapa penting suatu kata dalam suatu dokumen. Pada penelitian ini metode pembobotan yang digunakan adalah Information Gain. Berikut merupakan alur Information Gain ditunjukkan pada Gambar 3 [14].

(4)

Gambar 3. Alur Information Gain [14]

Berikut ini persamaan untuk menghitung nilai Entropy dan Information Gain:

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑^𝑛_𝑖=1 − 𝑝𝑖 ∗ 𝑙𝑜𝑔₂𝑝𝑖 (1) dimana,

S : Himpunan kasus n : Jumlah partisi S

pi : Proporsi dari Si terhadap S 𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑^𝑛_𝑖=1 ^|𝑆𝑖|

|𝑆|∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) (2) dimana,

S : Himpunan kasus A : Atribut

n : Jumlah partisi atribut A

|Si| : Jumlah kasus pada partisi ke-i

|S| : Jumlah kasus dalam S 2.5 Klasifikasi

Merupakan suatu proses pemberian nilai objek data ke salah satu kelas tertentu dari beberapa kelas yang sudah didefinisikan menggunakan algoritma Support Vector Machine yang ditujukan untuk membuat model klasifikasi.

SVM merupakan algorimta yang dapat menemukan hyperplane terbaik yang membagi dua bagian class pada input space , dijelaskan pada Gambar 4.

Gambar 4. Algoritma SVM [15]

2.6 Evaluasi

Proses evaluasi model perlu dilakukan untuk mengukur kinerja dari model klasifikasi yang sudah dibuat dan untuk mengetahui tingkat akurasinya. Metode evaluasi yang digunakan adalah confusion matrix. Berikut tabel 1 merupakan tabel confusion matrix [16].

Tabel 1. Confusion Matrix [16]

Aktual Prediksi

True False

True TP FN

(5)

True False

False FP TN

Perhitungan dari confusion matrix dinyatakan dalam Persamaan (3) sampai dengan Persamaan (5).

Parameter TP (True Positive) menunjukkan jumlah prediksi positif dari aktual kelas positif. FP (False Positive) menyatakan jumlah prediksi positif dari kelas aktual negatif. TN (True Negative) menyatakan jumlah prediksi negatif dari kelas aktual negatif. FN (False Negative) menunjukkan jumlah prediksi negatif dari kelas aktual positif [17].

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝐴) = ^{(𝑇𝑃+𝑇𝑁)}

(𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁) (3) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝑃) = ^(𝑇𝑃)

(𝑇𝑃+𝐹𝑃) (4) 𝑅𝑒𝑐𝑎𝑙𝑙 (𝑅) = ^(𝑇𝑃)

(𝑇𝑃+𝐹𝑁) (5)

3. HASIL DAN PEMBAHASAN

3.1 Hasil Preprocessing Dataset 3.1.1 Tokenizing dan Filtering

Tahap tokenizing adalah proses untuk memecah kalimat menjadi beberapa bagian atau kata. Pada kasus tertentu, proses ini dilakukan dengan membuang tanda baca yang dianggap tidak penting. Hasil dari proses tokenizing ini disebut dengan token. Tahap filtering merupakan proses menyaring untuk membuang kata tertentu yang tidak akan dipakai pada proses berikutnya, seperti simbol, angka, dan tanda pemisah lain yang biasa disebut delimiter. Hasil proses tokenizing dan filtering pada penelitian ini ditunjukkan pada Gambar 5.

Gambar 5. Hasil Proses Tokenizing dan Filtering 3.1.2 Stopword Removal

Tahap stopword removal adalah proses menghilangkan kata-kata yang sering muncul namun tidak memiliki pengaruh dalam klasifikasi. Stopwords yang sangat sering muncul biasanya kata umum seperti ‘and’, ‘are’, atau

‘this’. Kata ini tidak berguna dalam klasifikasi, sehingga harus dihapus. Proses ini juga mengurangi jumlah data teks dan meningkatkan kinerja sistem. Hasil proses stopword removal pada penelitian ini ditunjukkan pada Gambar 6.

Gambar 6. Hasil Proses Stopword Removal

(6)

Tahap stemming adalah proses perubahan bentuk kata menjadi kata dasar. Metode pengubahan bentuk menjadi kata dasar ini menyesuaikan struktur bahasa yang digunakan. Apabila terdapat kata yang sama teridentifikasi lebih dari satu dengan bentuk berbeda maka kata tersebut diidentifikasi sebagai satu kata. Misalnya, kata-kata seperti

“presentation”, “presented”, “presenting” semua dapat direduksi menjadi kata dasar “present”. Hasil proses stemming pada penelitian ini ditunjukkan pada gambar 7.

Gambar 7. Hasil Proses Stemming

3.2 Terms Weighting Information Gain

Setelah dilakukan tahap preprocessing, tahap selanjutnya adalah melakukan pembobotan kata menggunakan Information Gain. Pembobotan ini bertujuan untuk memberikan nilai kepada sebuah term dimana nilai dari term tersebut akan dijadikan sebagai input pada proses klasifikasi. Berikut ini tabel 2 merupakan proses perhitungan pembobotan menggunakan information gain.

Tabel 2. Proses Pembobotan Information Gain

Dokumen Fitur

Sentimen

Absolut Movie Best

D1 Ya Ya Tidak P

D2 Ya Ya Tidak P

D3 Ya Ya Tidak N

D4 Tidak Ya Ya P

D5 Tidak Tidak Ya N

D6 Tidak Tidak Ya N

D7 Tidak Tidak Tidak P

D8 Ya Tidak Tidak N

D9 Ya Ya Ya P

D10 Ya Ya Tidak p

Fitur yang terdapat pada tabel 2 merupakan potongan kata dari dokumen yang akan dihitung bobotnya.

Pada kasus perhitungan bobot information gain menggunakan contoh kata ‘absolut’ dengan menghitung entropy pada dataset sebagai berikut.

Entropy (Set) = - [ (⁶

10)𝑙𝑜𝑔₂(⁶

10)−(⁴

10)𝑙𝑜𝑔₂(⁴

10) ] Entropy (Set) = [0,4421793565 + 0.52877123795]

Entropy (Set) = 0,971

(7)

Gita Cahyani, Copyright © 2022, MIB, Page 1424 Selanjutnya mengambil contoh pada kata ‘absolut’ yang memiliki value Ya atau Tidak. Hitung nilai Entropy (Sabsolut) sehingga menghasilkan perhitungan sebagai berikut. Hasil perhitungan entropy absolut dengan sentimen positif.

Entropy (Positif) = - [ (⁴

6)𝑙𝑜𝑔₂(⁴

6)−(²

6)𝑙𝑜𝑔₂(²

6) ] Entropy (Positif) = [0.38997500048+ 0.52832083357]

Entropy (Positif) = 0,9183

Berikut adalah perhitungan entropy absolut dengan sentimen negatif.

Entropy (Negatif) = - [ (²

4)𝑙𝑜𝑔₂(²

4)−(²

4)𝑙𝑜𝑔₂(²

4) ] Entropy (Negatif) = [0.5+ 0.5]

Entropy (Negatif) = 1

Berikut adalah total entropy absolut, dengan menjumlahkan hasil entropy absolut positif dan hasil entropy absolut negatif.

Entropy (Sabsolut) = (⁶

10)𝑥 0,9183 +(⁴

10)𝑥 1 = 0,95098

Langkah terakhir yaitu mencari nilai information gain. Berikut hasil perhitungannya Gain(Sabsolut) = Entropy (Set) + Entropy (Sabsolut)

Gain(Sabsolut) = 0,971 - 0,95098 Gain(Sabsolut) = 0.02002

Dengan bobot information gain tersebut setiap kata akan dirangking dan hasilnya akan didapatkan fitur yang terbaik. Tahapan selanjutnya adalah melakukan proses klasifikasi dan pengujian.

3.3 Klasifikasi dan Evaluasi

Dalam proses klasifikasi Support Vector Machine dibutuhkan bobot setiap kata yang ada pada data training. Nilai bobot setiap term ini didapat dari proses pembobotan information gain yang akan digunakan dalam pembuatan model dari algoritma Support Vector Machine. Gambar 8 adalah source code dari proses klasifikasi Support Vector Machine.

Gambar 8. Source Code SVM

Data yang digunakan untuk melakukan pengujian algoritma yaitu sebanyak 2000 data review IMDb, dengan membagi sebanyak 80% untuk data latih dan 20% untuk data uji. Hasil akurasi dipengaruhi dari banyaknya dataset, dan banyaknya persamaan kosa kata didalam dataset yang digunakan. Semakin banyak kosa kata yang sama antara dokumen satu dengan dokumen lainnya, maka ketika sistem melakukan klasifikasi, tingkat kesalahan akan lebih rendah dan nilai akurasi akan semakin tinggi. Berikut table 3 merupakan hasil confusion matrix hasil dari proses klasifikasi menggunakan algoritma SVM.

Tabel 3 Hasil Confusion Matrix

True False

True 175 26

False 28 171

Sehingga dapat dihitung nilai akurasi, presisi dan recall dengan persamaan dan tabel 4 berikut.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝐴) = ( 175+171 )

( 175+26+26+171 ) 𝑥 100 % 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝑃) = ^{(175 )}

(175+28 ) 𝑥 100 % 𝑅𝑒𝑐𝑎𝑙𝑙 (𝑅) = ^{( 175 )}

( 175+26 ) 𝑥 100 %

Tabel 4. Hasil

Evaluasi SVM

Akurasi 86.5%

(8)

Evaluasi SVM

Presisi 90.67%

Recall 91.62%

4. KESIMPULAN

Berdasarkan penelitian yang telah dilakukan, dapat diambil beberapa kesimpulan antara lain sebagai berikut. Hasil eksperimen yang dilakukan menggunakan algoritma Support Vector Machine menghasilkan nilai akurasi sebesar 86.5%. Selain itu algoritma SVM mampu menghasilkan nilai presisi sebesar 90.67% dan nilai recall sebesar 91.62%. Hal ini dapat disimpulkan bahwa algoritma SVM memiliki kinerja yang baik dalam klasifikasi review film pada IMDb. Sehingga dapat digunakan untuk proses review film IMDb. Namun dalam penelitian ini masih memiliki keterbatasan yaitu hanya review film Bahasa Inggris. Oleh karena itu pada penelitian selanjutnya disarankan menambah koleksi kamus berbahasa Indonesia agar bisa melakukan review film dalam Bahasa Indonesia.

REFERENCES

[1] M. R. A. Nasution and M. Hayaty, “Perbandingan Akurasi dan Waktu Proses Algoritma K-NN dan SVM dalam Analisis Sentimen Twitter,” J. Inform., vol. 6, no. 2, pp. 226–235, 2019, doi: 10.31311/ji.v6i2.5129.

[2] B. Saberi and S. Saad, “Sentiment analysis or opinion mining: A review,” Int. J. Adv. Sci. Eng. Inf. Technol., vol. 7, no. 5, pp. 1660–1666, 2017, doi: 10.18517/ijaseit.7.5.2137.

[3] S. Gupta, “Sentiment Analysis: Concept, Analysis and Applications,” Toward Data Science, 2018.

https://towardsdatascience.com/sentiment-analysis-concept-analysis-and-applications-6c94d6f58c17.

[4] C. A. Putri, Adiwijaya and S. Al Faraby, “Analisis Sentimen Review Film Berbahasa Inggris Dengan Pendekatan Bidirectional Encoder Representations from Transformers”,Jurnal Teknik Informatika dan Sistem Informasi ISSN 2407-4322, Vol. 6, No. 2, Maret 2020, Hal. 181-193

[5] R. I. Pristiyanti, M. A. Fauzi, and L. Muflikhah, “Sentiment Analysis Peringkasan Review Film Menggunakan Metode Information Gain dan K-Nearest Neighbor,” J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no.

3, pp. 1179–1186, 2018, [Online]. Available: http://j-ptiik.ub.ac.id/index.php/j-ptiik/article/view/1140.

[6] S. Budi, “Text Mining Untuk Analisis Sentimen Review Film,” Techno.COM, vol. 16, no. 1, pp. 1–8, 2017.

[7] A. S. Pangestu and H. M. Jumhur,”Pengaruh Rating Imdb Terhadap Keputusan Menonton Film Game Of Thrones Di Kota Bandung Tahun 2018”, e-Proceeding of Management : Vol.5, No.3 Desember 2018, Page 3253, 2018

[8] Y. Nurdiansyah, S. Bukhori, and R. Hidayat, “Sentiment analysis system for movie review in Bahasa Indonesia using naive bayes classifier method,” J. Phys. Conf. Ser., vol. 1008, no. 1, 2018, doi: 10.1088/1742-6596/1008/1/012011.

[9] W. A. Luqyana, I. Cholissodin, and R. S. Perdana, “Analisis Sentimen Cyberbullying Pada Komentar Instagram dengan Metode Klasifikasi Support Vector Machine,” J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no. 11, pp. 4704–4713, 2018.

[10] A. Pandhu and W. Diki, “Analisa sentimen dan Klasifikasi Komentar Positif Pada Twitter dengan Naïve Bayes Classification,” BRITech (Jurnal Imiah Komputer, Sains dan Teknol. Terap., vol. 1, no. 2, pp. 32–40, 2020.

[11] A. Salam, J. Zeniarja, and R. S. U. Khasanah, “Analisis Sentimen Data Komentar Sosial Media Facebook Dengan K- Nearest Neighbor (Studi Kasus Pada Akun Jasa Ekspedisi Barang J&T Ekpress Indonesia),” Pros. SINTAK, pp. 480–

486, 2018.

[12] F. D. Ananda and Y. Pristyanto, “Analisis Sentimen Pengguna Twitter Terhadap Layanan Internet Provider Menggunakan Algoritma Support Vector Machine Sentiment Analysis of Twitter Users on Internet Service Providers Using Support Vector Machine Algorithm,” Matrik J. Manajemen, Tek. Inform. dan Rekayasa, vol. 20, no. 2, pp. 407–

416, 2021, doi: 10.30812/matrik.v20i2.1130.

[13] S. Nur Hakim, A. J. Putra, and A. U. Khasanah“Sentiment analysis on myindihome user reviews using support vector machine and naïve bayes classifier method”, International Journal of Industrial Optimization, Vol. 2, No. 2, pp. 151- 164,2021.

[14] R. Ardianto, T. Rivanie, Y. Alkhalifi, F. S. Nugraha and W. Gata, “Sentiment Analysis On E-Sports For Education Curriculum Using Naive Bayes And Support Vector Machine”,Jurnal Ilmu Komputer dan Informasi (Journal of Computer Science and Information) 13/2 (2020), 109-122. DOI: http://dx:doi:org/10:21609/jiki:v13i2.885

[15] F. Rahutomo, P. Y. Saputra, and M. A. Fidyawan, “Implementasi Twitter Sentiment Analysis Untuk Review Film Menggunakan Algoritma Support Vector Machine,” J. Inform. Polinema, vol. 4, no. 2, p. 93, 2018, doi:

10.33795/jip.v4i2.152.

[16] B. Max, Principles of Data Mining. London: Springer, 2007.

[17] R. Feldman and J. Sanger, The Text Mining Handbook. 2007.

[18] Anam M. Khairul dkk. “Analisis Pilkada Medan pada Sosial Media Menggunakan Analisis Sentimen dan Social Network Analyisis”. Indonesian Journal of Computer Science. Padang, vol. 6, no. 1, p. 62, 2020.