BERBASIS INFORMATION GAIN
TESIS
REZA MAULANA 14001910
PROGRAM PASCASARJANA ILMU KOMPUTER
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER NUSA MANDIRI
JAKARTA 2018
PENINGKATAN AKURASI ANALISIS SENTIMEN REVIEW FILM MENGGUNAKAN SUPPORT VECTOR MACHINE
BERBASIS INFORMATION GAIN
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer (M.Kom)
REZA MAULANA 14001910
PROGRAM PASCASARJANA ILMU KOMPUTER
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER NUSA MANDIRI
JAKARTA 2018
SURAT PERNYATAAN ORISINALITAS
Yang bertanda tangan di bawah ini:
Nama : Reza Maulana
NIM : 14001910
Program Studi : Ilmu Komputer
Jenjang : Program Magister (S2)
Dengan ini menyatakan bahwa tesis yang saya buat dengan judul: “Peningkatan Akurasi Analisis Sentimen Review Film Menggunakan Support Vector Machine Berbasis Information Gain” adalah hasil karya sendiri. Dan semua sumber baik yang kutip maupun yang dirujuk telah saya nyatakan dengan benar dan tesis belum pernah diterbitkan atau dipublikasikan dimanapun dan dalam bentuk apapun.
Demikianlah surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila dikemudian hari ternyata saya memberikan keterangan palsu, dan atau ada pihak lain yang mengklaim bahwa tesis yang telah saya buat adalah hasil karya milik seseorang atau badan tertentu, saya bersedia diproses baik secara pidana maupun perdata dan kelulusan saya dari Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri dicabut/
dibatalkan.
Jakarta, 11 Januari 2018 Yang menyatakan,
Reza Maulana
PERSETUJUAN DAN PENGESAHAN TESIS
Tesis ini diajukan oleh :
Nama : Reza Maulana
NIM : 14001910
Program Studi : Ilmu Komputer
Jenjang : Program Magister (S2)
Judul Tesis : “Peningkatan Akurasi Analisis Sentimen Review Film Menggunakan Support Vector Machine Berbasis Information Gain”
Telah dipertahankan pada periode 2017-2 dihadapan penguji dan diterima sebagai bagian persyaratan yang diperlukan untuk memperoleh Magister Ilmu Komputer (M.Kom) pada Program Magister (S2) Program Studi Ilmu Komputer di Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri Jakarta.
Jakarta, 10 Februari 2018
PEMBIMBING TESIS
Dosen Pembimbing : Dr. Agus Subekti, MT ………..
D E W A N P E N G U J I
Penguji 1 : Dr. Didi Rosiyadi, M.Kom ………..
Penguji II :
Dr. Hilman Ferdinandus Pardede, ST,
M.Eng ………..
Penguji III / Dosen
Pembimbing : Dr. Agus Subekti, MT
………..
KATA PENGANTAR
Alhamdulillah, puji serta syukur atas kehadirat Allah SWT yang telah senantiasa memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tesis dengan judul “Peningkatan Akurasi Analisis Sentimen Review Film Menggunakan Support Vector Machine Berbasis Information Gain”. Adapun tujuan dari penulisan tesis ini adalah untuk memenuhi salah satu syarat kelulusan pada Program Pasca Sarjana STMIK Nusa Mandiri. Tesis ini diambil berdasarkan hasil penelitian atau riset mengenai analisa sentimen pada review film menggunakan metode Support Vector Machine, data yang digunakan adalah data publik, penulis juga mencari dan menganalisis berbagai macam sumber referensi, baik dalam bentuk jurnal ilmiah, buku-buku literatur, internet dan lain-lain yang terkait dengan pembahasan pada tesis ini. Penulis menyadari, tesis ini tidak akan selesai tanpa bimbingan dan dukungan dari berbagai pihak. Maka dari itu, pada kesempatan ini ijinkanlah penulis mengucapkan terima kasih yang sebesar- besarnya kepada:
1. Allah SWT yang selalu mencurahkan nikmat dan rahmat-Nya sehingga dapat menyelesaikan tesis ini.
2. Dr. Agus Subekti, MT yang telah menyediakan waktu, pikiran dan tenaga dalam membimbing serta senantiasa memberikan semangat dan motivasi sehingga penulis dapat menyelesaikan tesis ini.
3. Orang tua dan keluarga tercinta yang telah memberikan dukungan, doa dan kasih sayang sepenuhnya serta menjadi motivasi terbesar bagi penulis untuk dapat meyelesaikan tesis ini.
4. Istri tercinta Anggun Hardini Rininta yang selalu setia memberikan dukungan, doa dan kasih sayang sepenuhnya serta menjadi motivasi terbesar bagi penulis untuk dapat meyelesaikan tesis ini.
5. Putra kebanggaan Alfarizqi Khairan Shaquille yang menjadi motivasi dan semangat terbesar bagi penulis untuk dapat meyelesaikan tesis ini.
6. Seluruh staf pengajar Program Pasca Sarjana Magister Ilmu Komputer STMIK Nusa Mandiri yang telah memberikan pelajaran bagi penulis selama menempuh studi.
7. Seluruh staf dan karyawan Program Pasca Sarjana Magister Ilmu Komputer STMIK Nusa Mandiri yang telah melayani dengan baik selama studi.
8. Seluruh staf dan karyawan Bina Sarana Informatika pada umumnya dan rekan- rekan AMIK BSI Pontianak yang senantiasa memberikan dukungan dan semangat kepada penulis dalam menyelesaikan tesis ini.
Serta semua pihak yang terlalu banyak untuk disebutkan satu per satu sehingga terwujudnya penulisan tesis ini. Penulis menyadari bahwa penulisan tesis ini masih jauh dari sempurna, oleh karena itu dibutuhkan saran dan kritik yang membangun demi kesempurnaan karya ilmiah mendatang.
Akhir kata, semoga tesis ini dapat bermanfaat bagi penulis khususnya dan bagi pembaca pada umumnya.
Jakarta, 11 Januari 2018
Reza Maulana
Penulis
SURAT PENYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya:
Nama : Reza Maulana
NIM : 14001910
Program Studi : Ilmu Komputer
Jenjang : Program Magister (S2) Jenis Karya : Tesis
Demi perkembangan ilmu pengetahuan, dengan ini menyetujui untuk memberikan ijin kepada pihak Program Pasca Sarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri) Hak Bebas Royalti Non-Ekslusif (Non-Exclusive Royalti-Free Right) atas karya ilmiah kami yang berjudul: “Peningkatan Akurasi Analisis Sentimen Review Film Menggunakan Support Vector Machine Berbasis Information Gain”, beserta perangkat yang diperlukan (apabila ada). Dengan Hak Bebas Royalti Non- Eksklusif ini pihak STMIK Nusa Mandiri berhak menyimpan, mengalih media atau bentuk-kan, mengelolakannya dalam pangkalan data (database), mendistribusikannya dan menampilkan atau mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari kami selama tetap mencantumkan nama kami sebagai penulis atau pencipta karya ilmiah tersebut. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak STMIK Nusa Mandiri, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian pernyataan ini saya buat dengan sebenarnya.
Jakarta, 11 Januari 2018 Yang menyatakan
Reza Maulana
ABSTRAK
Nama : Reza Maulana
NIM : 14001910
Program Studi : Ilmu Komputer
Jenjang : Program Magister (S2)
Judul : “Peningkatan Akurasi Analisis Sentimen Review Film Menggunakan Algoritma Support Vector Machine Berbasis Information Gain”
Kualitas suatu film dapat diketahui dari pendapat atau review para penonton sebelumnya. Pengklasifikasian resensi ini dikelompokan menjadi opini positif dan opini negatif. Salah satu algoritma data mining yang banyak digunakan dalam penelitian yaitu Support Vector Machine karena berfungsi dengan baik sebagai metode pengklasifikasi teks namun memiliki kekurangan yang sangat sensitif dalam pemilihan fitur. Metode Information Gain sebagai seleksi fitur dapat memecahkan masalah dengan lebih cepat dan tingkat konvergensi yang lebih stabil.
Setelah dilakukan pengujian pada dua dataset review film yaitu dataset Cornell dan Stanford. Hasil yang didapat pada dataset Cornell adalah algoritma Support Vector Machine menghasilkan akurasi sebesar 83,05%, sedangkan untuk algoritma Support Vector Machine berbasis Information Gain nilai akurasinya sebesar 85.65%. Peningkatan akurasi mencapai 2,6%. Kemudian, hasil yang didapat pada dataset Stanford adalah algoritma Support Vector Machine menghasilkan nilai sebesar 86.46%, sedangkan untuk algoritma Support Vector Machine berbasis Information Gain nilai akurasinya sebesar 86.62%. Peningkatan akurasi mencapai 0,166%. Support Vector Machine berbasis Information Gain pada masalah analisis sentimen review film terbukti memberikan nilai yang lebih akurat.
Kata Kunci: Analisa Sentimen, Review, Support Vector Machine, Klasifikasi Teks
ABSTRACT
Name : Reza Maulana
NIM : 14001910
Study of Program : Ilmu Komputer
Levels : Program Magister (S2)
Title : “Improved Accuracy of Sentiment Analysis Movie Review Using Support Vector Machine Algorithm Based on Information Gain”
The quality of a film can be known from the opinions or reviews of previous audiences. This classification of reviews is grouped into positive opinions and negative opinions. One of the data mining algorithms that are widely used in research is the Support Vector Machine because it works well as a method of classifying text but has a very sensitive deficiency in the selection of features. The Information Gain method as feature selection can solve problems faster and more stable convergence levels. After testing on two movie review datasets are Cornell and Stanford datasets. The results obtained on the Cornell dataset is the Support Vector Machine algorithm to produce an accuracy of 83.05%, while for the Support Vector Machine based on Information Gain, the accuracy value is 85.65%.
Increased accuracy reached 2.6%. Then, the results obtained on the Stanford dataset is the Support Vector Machine algorithm yields a value of 86.46%, while for the Support Vector Machine based on Information Gain, the accuracy value is 86.62%. Increased accuracy reached 0.166%. Support Vector Machine based Information Gain on the problem of movie review sentiment analysis proved to provide more accurate value.
Keywords: Sentiment analysis, Review, Support Vector Machine, Text Classification
DAFTAR ISI
Halaman
HALAMAN SAMPUL ... i
HALAMAN JUDUL ... ii
SURAT PERNYATAAN ORISINALITAS ... iii
PERSETUJUAN DAN PENGESAHAN TESIS ... iv
KATA PENGANTAR ... v
SURAT PENYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS... vii
ABSTRAK ... viii
ABSTRACT ... ix
DAFTAR ISI ... x
DAFTAR TABEL... xii
DAFTAR GAMBAR ... xiii
DAFTAR LAMPIRAN ... xiv
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang Masalah ... 1
1.2 Identifikasi Masalah (Research Problem) ... 3
1.3 Rumusan Masalah (Research Question) ... 3
1.4 Tujuan Penelitian (Research Objective) ... 3
1.5 Manfaat Penelitian ... 3
1.6 Korelasi RP-RQ-RO ... 4
1.7 Kontribusi Penelitian ... 4
1.8 Sistematika Penulisan ... 4
BAB II LANDASAN TEORI ... 6
2.1 Tinjauan Studi ... 6
2.1.1 Rangkuman Penelitian Terkait ... 8
2.2 Tinjauan Pustaka ... 9
2.2.1 Text mining ... 9
2.2.2 Analisa Sentimen (Sentiment Analysis) ... 10
2.2.3 Seleksi Fitur (Feature Selection) ... 11
2.2.4 Information Gain ... 12
2.2.5 Algortima Support Vector Machine ... 14
2.2.6 Validasi dan Evaluasi ... 15
2.3 Kerangka Pemikiran Penerapan Information Gain sebagai Seleksi Fitur pada Support Vector Machine ... 17
BAB III METODE PENELITIAN ... 19
3.1 Perancangan Penelitian ... 19
3.2 Pengumpulan Data... 20
3.3 Pengolahan Awal Data ... 21
3.4 Metode yang Diusulkan ... 22
3.5 Eksperimen dan Pengujian Model ... 23
3.6 Evaluasi dan Validasi Hasil ... 23
BAB IV PEMBAHASAN DAN HASIL... 24
4.1 Pembahasan ... 24
4.1.1 Preprocessing ... 24
4.1.2 Perbandingan Fungsi Kernel ... 26
4.1.3 Perbandingan Parameter... 26
4.2 Hasil ... 27
4.2.1 Klasifikasi pada Dataset Cornell ... 28
4.2.2 Klasifikasi pada Dataset Stanford ... 38
4.2.3 Perbandingan Evaluasi dan Validasi Hasil ... 47
BAB V PENUTUP ... 50
5.1 Kesimpulan ... 50
5.2 Saran ... 51
DAFTAR PUSTAKA ... 52
KARTU BIMBINGAN TESIS ... 55
DAFTAR RIWAYAT HIDUP ... 56
LAMPIRAN ... 57
DAFTAR TABEL
Halaman
Tabel I.1 Korelasi antara RP, RQ, dan RO ... 4
Tabel II.1 Rangkuman Penelitian Terkait ... 8
Tabel II.2 Confusion Matrix ... 15
Tabel III.1 Spesifikasi Komputer yang Digunakan... 23
Tabel IV.1 Perbandingan teks sebelum dan sesudah dilakukan proses tokenization ... 24
Tabel IV.2 Perbandingan teks sebelum dan sesudah dilakukan proses stopwords removal ... 25
Tabel IV.3 Perbandingan teks sebelum dan sesudah dilakukan proses stemming 25 Tabel IV.4 Model Confusion Matrix untuk Metode Support Vector Machine pada dataset Cornell ... 29
Tabel IV.5 Model Confusion Matrix untuk Metode Naïve Bayes pada dataset Cornell ... 31
Tabel IV.6 Model Confusion Matrix untuk Metode K-Nearest Neighbour pada dataset Cornell ... 34
Tabel IV.7 Model Confusion Matrix untuk Metode Support Vector Machine berbasis Information Gain pada dataset Cornell ... 36
Tabel IV.8 Model Confusion Matrix untuk Metode Support Vector Machine pada dataset Stanford ... 39
Tabel IV.9 Model Confusion Matrix untuk Metode Naïve Bayes pada dataset Standford ... 41
Tabel IV.10 Model Confusion Matrix untuk Metode K-Nearest Neighbour pada dataset Stanford ... 43
Tabel IV.11 Model Confusion Matrix untuk Metode Support Vector Machine berbasis Information Gain pada dataset Stanford ... 46
Tabel IV.12 Perbandingan Evaluasi dan Validasi Hasil ... 48
DAFTAR GAMBAR
Halaman Gambar II.1 Kerangka Pemikiran Penerapan Information Gain sebagai Seleksi
Fitur pada Support Vector Machine ... 18
Gambar III.1 Model yang Diusulkan ... 22
Gambar IV.1 Kurva ROC Support Vector Machine pada dataset Cornell ... 30
Gambar IV.2 Kurva ROC Naïve Bayes pada dataset Cornell ... 33
Gambar IV.3 Kurva ROC K-Nearest Neighbour pada dataset Cornell ... 35
Gambar IV.4 Kurva ROC Support Vector Machine berbasis Information Gain pada dataset Cornell ... 37
Gambar IV.5 Kurva ROC Support Vector Machine pada dataset Stanford ... 40
Gambar IV.6 Kurva ROC Naïve Bayes pada dataset Stanford ... 42
Gambar IV.7 Kurva ROC K-Nearest Neighbour pada dataset Stanford ... 45
Gambar IV.8 Kurva ROC Support Vector Machine berbasis Information Gain pada dataset Stanford ... 47
Gambar IV.9 Grafik Perbandingan Accuracy ... 48
Gambar IV.10 Grafik Perbandingan Kurva ROC ... 49
DAFTAR LAMPIRAN
Halaman Lampiran 1. Tabel dataset Cornell review positif ... 57 Lampiran 2. Tabel dataset Cornell review negatif ... 61 Lampiran 3. Tabel vector dokumen boolean dengan label class hasil klasifikasi dataset Cornell ... 66 Lampiran 4. Tabel dataset Stanford review positif ... 70 Lampiran 5. Tabel dataset Stanford review negatif ... 79 Lampiran 6. Tabel vector dokumen boolean dengan label class hasil klasifikasi dataset Stanford ... 89
BAB I PENDAHULUAN
1.1 Latar Belakang Masalah
Bahasa merupakan alat yang ampuh untuk berkomunikasi dan menyampaikan informasi. Bahasa juga sebagai sarana untuk mengekspresikan emosi dan sentimen. Analisis sentimen adalah sebuah proses yang bertujuan untuk memenentukan isi dari dataset yang berbentuk teks (dokumen, kalimat, paragraf, dll) bersifat positif, negatif atau netral (Kontopoulos, Berberidis, Dergiades, &
Bassiliades, 2013). Analisis sentimen kini telah menjadi lebih populer pada bidang opinion mining (penambangan opini) pengguna terhadap produk, ulasan politik, ulasan film dll. Produser, produsen, pembuat film, dan politisi dapat mengetahui pandangan dan pemikiran konsumen, penonton dengan menganalisis ulasan mereka melalui banyak situs online seperti Facebook, Twitter, IMDb dll (Ahmed et al., 2017).
Banyak situs yang menyediakan review tentang suatu produk yang dapat mencerminkan pendapat pengguna. Salah satu contohnya adalah situs Internet Movie Database (IMDb). IMDb adalah situs yang berhubungan dengan film dan produksi film. Informasi yang diberikan IMDb sangat lengkap, seperti siapa saja aktor/aktris yang main di film tersebut, sinopsis singkat dari film, tautan untuk trailer film, tanggal rilis untuk beberapa negara dan review dari pengguna-pengguna yang lain. Ketika seseorang ingin membeli atau menonton suatu film, komentar- komentar orang lain dan peringkat film biasanya mempengaruhi perilaku pembelian mereka.
Terdapat beberapa algortima klasifikasi yang biasa digunakan untuk analisis sentimen review diantaranya Naïve Bayes, Support Vector Machine (SVM) dan K- Nearest Neighbour (KNN) (Dehkharghani, Mercan, Javeed, & Saygin, 2014).
Beberapa penelitian yang sudah dilakukan dalam klasifikasi sentimen terhadap review secara online diantaranya, Komparasi machine learning untuk klasifikasi analisis sentimen movie review (Ahmed et al., 2017). Analisa sentimen pada opini review film menggunakan algoritma Support Vector Machine dan Particle Swarm
Optimization (Basari et al., 2013). Klasifikasi sentimen pada review online tempat tujuan perjalanan menggunakan algoritma Naïve Bayes, Support Vector Machine dan Character Based N-gram Model (Ye, Zhang, & Law, 2009). Analisa sentimen pada review film dan beberapa produk Amazon.com menggunakan algortima Support Vector Machine dan Neural Network (Moraes, Valiati, & Neto, 2013).
Klasifikasi sentimen review restoran di internet menggunakan bahasa Canton menggunakan algoritma Naïve Bayes dan Support Vector Machine (Zhang, Ye, Zhang, & Li, 2011).
Dari beberapa algortima tersebut yang paling sering digunakan untuk klasifikasi data adalah algortima Support Vector Machine (SVM). SVM merupakan metode supervised learning yang menganalisa data dan mengenali pola-pola yang digunakan untuk klasifikasi (Basari et al., 2013). SVM adalah kasus khusus dari algoritma yang disebut sebagai regularized metode klasifikasi linear dan metode yang kuat untuk meminimalisasi resiko (Weiss, Indurkhya & Zhang, 2010). SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperlane terpisah yang memaksimalkan margin antara dua kelas yang berbeda (Chou, Cheng, Wu, &
Pham, 2014). Namun, SVM memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai (Basari et al., 2013). Pemilihan fitur di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi (Zhao, Fu, Ji, Tang, & Zhou, 2011).
Seleksi fitur merupakan langkah penting dalam klasifikasi teks dan mempengaruhi secara langsung terhadap performa klasisfikasi. Dalam rangka untuk meningkatkan efek seleksi fitur, banyak penelitian mencoba untuk menambahkan algoritma optimasi dalam metode seleksi fitur. Hasil komparasi algoritma feature selection (seleksi fitur) yang dilakukan Chandani (Chandani &
Wahono, 2015) antara Information Gain, Chi Square, Forward Selection, Backward Elimination, didapatkan Information Gain sebagai algoritma seleksi fitur terbaik.
Dengan demikian pada penelitian ini penulis menggunakan pengklasifikasi Support Vector Machine dengan Information Gain sebagai seleksi fitur yang akan diterapkan untuk analisis sentimen pada review film.
1.2 Identifikasi Masalah (Research Problem)
Support Vector Machine memiliki kelebihan yaitu mampu mengidentifikasi hyperlane terpisah yang memaksimalkan margin antara dua kelas yang berbeda.
Namun, SVM memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai. Pemilihan fitur di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi. Akhirnya, setelah dilakukan studi literatur ditemukan bahwa Information Gain sebagai seleksi fitur dapat meningkatkan akurasi klasifikasi analisis sentimen.
1.3 Rumusan Masalah (Research Question)
Berdasarkan identifikasi permasalahan diatas, maka dalam penelitian ini dapat disusun rumusan masalah yaitu bagaimana peningkatan akurasi analisis review film menggunakan algortima Support Vector Machine berbasis Information Gain untuk seleksi fitur?
1.4 Tujuan Penelitian (Research Objective)
Tujuan dari penelitian ini adalah untuk meningkatan akurasi analisis review film menggunakan algortima Support Vector Machine berbasis Information Gain untuk seleksi fitur yang nantinya digunakan pengguna untuk mengambil keputusan dalam menentukan kualitas film.
1.5 Manfaat Penelitian
Adapun manfaat dari penelitian ini adalah:
1. Manfaat penelitian ini diharapkan dapat mempermudah para pengguna dalam mengambil keputusan dalam menentukan kualitas film.
2. Memberikan sumbangan bagi pengembangan teori yang berkaitan dengan analisis sentimen review menggunakan pengklasifikasi Support Vector Machine dengan pemilihan fitur menggunakan Information Gain untuk meningkatkan akurasi.
1.6 Korelasi RP-RQ-RO
Berdasarkan masalah diatas maka penyajian dapat disajikan dengan RP (Research Problem), RQ (Research Question), dan RO (Research Objective).
Adapun korelasi antara RP, RQ, dan RO dapat dilihat pada tabel berikut:
Tabel I.1 Korelasi antara RP, RQ, dan RO
Reseacrh Problem (RP) Research Question (RQ) Research Objective (RO)
Support Vector Machine memiliki kelebihan yaitu mampu mengidentifikasi hyperlane terpisah yang memaksimalkan margin antara dua kelas yang berbeda. Namun, SVM memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai.
Bagaimana peningkatan akurasi analisis review film menggunakan algortima Support Vector Machine berbasis Information Gain untuk seleksi fitur?
Meningkatan akurasi analisis review film menggunakan algortima Support Vector Machine berbasis Information Gain untuk seleksi fitur
1.7 Kontribusi Penelitian
Kontribusi dari penelitian ini adalah menerapkan Information Gain sebagai seleksi fitur untuk meningkatkan akurasi algortima Support Vector Machine dalam analisis sentimen review film.
1.8 Sistematika Penulisan
Sistematika penulisan tesis yang dibuat, sebagai berikut:
Bab I: Pendahuluan
Bab ini membahas tentang latar belakang penulisan, masalah penelitian, tujuan dan manfaat penelitian, ruang lingkup penelitian serta sistematika penulisan.
Bab II: Landasan Teori
Bab ini berisi teori yang melandasi penelitian yaitu metode Support Vector Machine dan peneliti menyajikan beberapa studi kasus dan contoh penggunaan algoritma.
Bab III: Metode Penelitian
Bab ini berisi metode penelitian yang digunakan, terdiri dari teknik pengumpulan data, proses pengolahan data awal, eksperimen dan pengujian metode Support Vector Machine dan metode pemilihan fitur yaitu Information Gain untuk meningkatkan akurasi dalam mengklasifikasikan komentar pada review film.
Bab IV: Pembahasan dan Hasil
Bab ini berisi pembahasan dan hasil eksperimen yang dilakukan, baik sebelum diterapkannya model dan sesudah diterapkan model.
Bab V: Penutup
Bab ini berisi kesimpulan dan saran dari penelitian yang telah dilakukan.
BAB II
LANDASAN TEORI
2.1 Tinjauan Studi
Beberapa penelitian terdahulu yang dijadikan rujukan terkait dengan topik penelitian, dijabarkan sebagai berikut:
Penelitian yang dilakukan oleh (Ahmed et al., 2017) mengenai komparasi algortima untuk klasifikasi teks menggunakan metode Support Vector Machine, Naïve Bayes, dan MLP. Dataset yang digunakan sebanyak 22000 dokumen review film yang dikumpulkan dari aclimdb. Untuk data training terbagi menjadi 11000 dokumen positif dan 11000 dokumen negatif. Kemudian ada 3001 data untuk tes, terbagi menjadi 1500 dokumen positif dan 1501 dokumen negatif. Preprocessing dilakukan pada kedua dataset dengan menghapus tanda baca, angka, karakter non- alfabet dan stopwords. Dari hasil eksperimen menunjukkan bahwa pengklasifikasi Support Vector Machine memiliki nilai akurasi tertinggi dibandingkan dengan metode lainnya.
Penelitian yang dilakukan oleh (Basari et al., 2013), penelitian ini mencoba menggunakan pesan twitter untuk mengulas film dengan menggunakan analisis opinion mining atau sentimen. Opinion mining mengacu pada penerapan pengolahan bahasa alami, linguistik komputasi, dan Text mining untuk mengidentifikasi atau mengklasifikasikan apakah film itu baik atau tidak berdasarkan opini pesan. Penelitian ini membahas klasifikasi biner yang dikelompokkan menjadi dua kelas. Kelas itu positif dan negatif. Kelas positif menunjukkan opini pesan yang baik. Jika tidak, kelas negatif menunjukkan opini pesan buruk tentang film tertentu. Pembenaran ini didasarkan pada tingkat akurasi SVM dengan proses validasi menggunakan 10-Fold cross validation dan Confusion Matrix. Hybrid Partical Swarm Optimization (PSO) digunakan untuk memperbaiki pemilihan parameter terbaik untuk mengatasi masalah optimasi ganda. Hasilnya menunjukkan peningkatan tingkat akurasi dari 71,87% menjadi 77%.
Penelitian yang dilakukan oleh (Chou, Cheng, Wu, & Pham, 2014), Penelitian ini mengusulkan model kecerdasan buatan hybrid yang optimal untuk mengintegrasikan algoritma fast messy genetic algorithm (fmGA) dengan Support Vector Machine (SVM). SVM berbasis fmGA (GASVM) digunakan untuk prediksi awal kecenderungan sengketa pada tahap awal proyek kemitraan publik-swasta.
Terutama, SVM menyediakan pembelajaran dan pemasangan kurva sementara fmGA mengoptimalkan parameter SVM. Ukuran dalam hal akurasi, presisi, sensitivitas, spesifisitas, dan luas di bawah kurva dan indeks sintesis digunakan untuk evaluasi kinerja model klasifikasi kecerdasan hibrida yang diusulkan.
Perbandingan eksperimental menunjukkan bahwa GASVM mencapai akurasi prediksi cross-fold yang lebih baik dibandingkan model baseline lainnya (yaitu CART, CHAID, QUEST, dan C5.0) dan karya sebelumnya.
Penelitian yang dilakukan oleh (Ye, Zhang, & Law, 2009). Dalam penelitian ini, teknik klasifikasi sentimen dimasukkan ke dalam domain penambangan review dari blog perjalanan. Secara khusus, kami membandingkan tiga algoritma supervised machine learning yaitu Naïve Bayes, SVM dan model N-gram berbasis karakter untuk klasifikasi sentimen ulasan di blog perjalanan untuk tujuh tujuan wisata populer di AS dan Eropa. Temuan empiris menunjukkan bahwa pendekatan SVM dan N-gram mengungguli pendekatan Naïve Bayes.
Penelitian yang dilakukan oleh (Ghiassi, Skinner & Zimbra, 2013). Dalam penelitian ini, diperkenalkan sebuah pendekatan terhadap pengurangan fitur yang diawasi dengan menggunakan n-gram dan analisis statistik untuk mengembangkan leksikon khusus Twitter untuk analisis sentimen. Penelitian ini menunjukkan bahwa rangkaian leksikon yang dikurangi secara signifikan lebih kecil (hanya 187 fitur), mengurangi kompleksitas pemodelan, mempertahankan tingkat liputan yang tinggi atas korpus Twitter, dan menghasilkan akurasi klasifikasi sentimen yang meningkat. Untuk menunjukkan keefektifan leksikon spesifik Twitter yang dirancang dibandingkan dengan leksikon sentimen tradisional, dikembangkan model klasifikasi sentimen yang sebanding dengan SVM. Penelitian ini menunjukkan bahwa leksikon khusus Twitter secara signifikan lebih efektif dalam hal pengukuran recall dan akurasi klasifikasi. Kemudian dikembangkan model klasifikasi sentimen dengan menggunakan leksikon khusus Twitter dan pendekatan
machine learning DAN2, yang telah menunjukkan keberhasilan dalam masalah klasifikasi teks lainnya. Penelitian ini menunjukkan bahwa DAN2 menghasilkan hasil klasifikasi sentimen yang lebih akurat daripada SVM saat menggunakan leksikon Twitter yang sama.
2.1.1 Rangkuman Penelitian Terkait
Dari penelitian terkait dapat dilihat bahwa Support Vector Machine merupakan pengklasifikasi yang memiliki nilai akurasi tertinggi dibandingkan dengan pengklasifikasi lainnya. Kelima penelitian terkait dirangkum pada tabel II.1 berikut ini:
Tabel II.1 Rangkuman Penelitian Terkait
Judul Preprocessing Feature
Selection
Classifier Accuracy
Challenges, Comparative Analysis and a Proposed
Methodology to Predict Sentiment from Movie Reviews Using Machine Learning (Ahmed et al., 2017)
1. Tokenization 2. Stopword
Removal 3. Stemming
- Support
Vector Machine
(SVM)
94.80%
Opinion Mining of Movie Review using Hybrid Method of Support Vector Machine and Particle Swarm Optimization (Basari et al., 2013)
1. Case
Normalizatio n
2. Tokenization 3. Stemming 4. Generate N-
Gram
Particle Swarm Optimization
(PSO)
Support Vector Machine
(SVM)
76.20%
Optimizing parameters of Support Vector Machine using fast messy genetic algorithm for
1. Initialize competitive template 2. Probabilistic
all
initialization
Treeshold selection Building blocks filter Genetic Algoritm
Support Vector Machine
(SVM)
89.30%
dispute classification (Chou, Cheng, Wu, & Pham, 2014)
Sentiment classification of online reviews to travel
destinations by supervised machine learning approaches (Ye, Zhang, &
Law, 2009)
Converted all characters to lowercase
N-Grams Support Vector Machine
(SVM)
73.97%
Twitter brand sentiment
analysis: A hybrid system using n- gram analysis and dynamic artificial neural network
(Ghiassi, Skinner
& Zimbra, 2013)
1. Removing Stopwords 2. Stemming 3. Tranforming
the data into the vector space 4. Term
Weighting
N-Grams Support Vector Machine
(SVM)
88.30%
Model yang diusulkan
1. Tokenization 2. Stopword
Removal 3. Stemming
Information Gain
Support Vector Machine
(SVM)
?
2.2 Tinjauan Pustaka
Pada penulisan tesis ini penulis menggunakan referensi dari buku dan jurnal yang menjelaskan tentang tema terkait pada tesis, pengklasifikasi Support Vector Machine dan metode pemilihan fitur.
2.2.1 Text mining
Text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif, dimana pengguna berinteraksi dengan koleksi dokumen dari waktu ke waktu dengan menggunakan seperangkat alat analisis (Feldman & Sanger, 2007).
Text mining mencakup kategori teks, deteksi topik, pencarian dan pengambilan, clustering dokumen dan lain-lain, setiap teknik ini dapat digunakan dalam mencari beberapa informasi dari dokumen. Text mining juga telah diterapkan pada banyak
aplikasi di web untuk mengembangkan sistem (Pinheiro, Cavalcanti, Correa, & Ing, 2012).
2.2.2 Analisa Sentimen (Sentiment Analysis)
Menurut Guerrero (Serrano-guerrero, Olivas, Romero, & Herrera-viedma, 2015) Analisis sentimen juga disebut opinion mining, saat ini salah satu bidang penelitian yang paling banyak dipelajari. Hal ini bertujuan untuk menganalisis sentimen orang, pendapat, sikap, emosi dan lain-lain terhadap unsur-unsur seperti topik, produk, individu, organisasi dan jasa. Sedangkan menurut Liu (Liu, 2012) Analisis sentimen atau opinion mining adalah studi komputasional dari opini-opini orang, appraisal dan emosi melalui entitas, event, dan atribut yang dimiliki.
Analisis sentimen digunakan sebagai klasifikasi seperti mengklasifikasikan orientasi teks menjadi baik positif maupun negatif (Haddi, Liu, & Shi, 2013). Tugas dasar dalam analisis sentimen adalah mengelompokkan polaritas dari teks yang ada dalam dokumen, kalimat atau fitur, apakah pendapat yang dikemukakan dalam dokumen, kalimat atau fitur bersifat positif, negatif atau netral (Dehaff, 2010).
Menurut Moraes (Moraes et al., 2013) langkah-langkah yang umumnya ditemukan pada klasifikasi teks analisa sentimen adalah:
1. Definisikan domain dataset
Pengumpulan dataset yang melingkupi suatu domain, misalnya dataset review film, dataset review produk, dan lain sebagainya.
2. Pre-processing
Tahap pemrosesan awal yang umumnya dilakukan dengan proses Tokenization, Stopwords removal, dan Stemming.
3. Transformation
Proses representasi angka yang dihitung dari data tekstual. Binary representation yang umumnya digunakan dan hanya menghitung kehadiran atau ketidakhadiran sebuah kata di dalam dokumen. Berapa kali sebuah kata muncul di dalam suatu dokumen juga digunakan sebagai skema pembobotan dari data tekstual. Proses yang umumnya digunakan yaitu TF-IDF, Binary transformation, dan Frequency transformation.
4. Feature Selection
Pemilihan fitur (feature selection) bisa membuat pengklasifikasi lebih efisien/efektif dengan mengurangi jumlah data untuk dianalisa dengan mengidentifikasi fitur yang relevan yang selanjutnya akan diproses. Metode pemilihan fitur yang biasanya digunakan adalah Expert, Knowledge, Minimum Frequency, Information Gain, Chi-Square, dan lain sebagainya.
5. Classification
Proses klasifikasi umumnya menggunakan pengklasifikasi seperti Naïve Bayes, Support Vector Machine, dan lain sebagainya.
6. Interpretation/Evaluation
Tahap evaluasi biasanya menghitung akurasi, recall, precision, dan F-1.
2.2.3 Seleksi Fitur (Feature Selection)
Seleksi Fitur adalah proses komputasi yang digunakan untuk memilih satu set fitur yang mengoptimalkan langkah evaluasi yang mewakili kualitas fitur (Salappa, Doumpos, & Zopounidis, 2007). Menurut Wang (Wang, at al,. 2011) seleksi fitur adalah bagian terpenting dari kemampuan untuk mengoptimalkan klasifikasi dengan cara mengurangi ukuran fitur tetapi tidak melebihi jumlah data training. Selain itu dengan menggunakan seleksi fitur bisa memperbaiki jika ada data yang noisy atau data yang berulang.
Disisi lain, seleksi fitur adalah proses yang mahal dan juga bertentangan dengan asumsi awal yaitu semua informasi atau fitur diperlukan dalam rangka mencapai akurasi maksimal. Masalah dalam seleksi adalah pengurangan dimensi, dimana awalanya semua atribut diperlukan untuk memperoleh akurasi yang maksimal. Ada empat alasan utama untuk melakukan pengukuran dimensi menurut (Maimon & Rokach, 2010), yaitu:
1. Penurunan biaya modal pembelajaran 2. Meningkatkan kinerja model pembelajaran 3. Mengurangi dimensi yang tidak relevan 4. Mengurangi dimensi yang berlebihan
Metode seleksi fitur dapat diklasifikasikan ke dalam tiga kategori utama (Vercellis, 2009):
1. Metode filter
Metode Filter adalah memilih atribut yang relevan sebelum pindah ke tahap pembelajaran berikutnya, atribut yang dianggap paling penting yang dipilih untuk pembelajar, sedangkan sisanya dikecualikan.
2. Metode wrapper
Metode wrapper menilai sekelompok variabel dengan menggunakan klasifikasi yang sama atau algoritma regresi digunakan untuk memprediksi nilai dari variabel target.
3. Metode embedded
Untuk metode embedded, proses seleksi atribut terletak di dalam algoritma pembelajaran, sehingga pemilihan set optimal atribut secara langsung dibuat selama fase generasi model.
2.2.4 Information Gain
Information Gain merupakan salah satu metode seleksi fitur yang banyak dipakai oleh peneliti untuk menentukan batas dari kepentingan sebuah atribut (Deng & Runger, 2012), (Azhagusundari & Thanamani, 2013), (Novakovic, 2010).
Nilai Information Gain diperoleh dari nilai entropy sebelum pemisahan dikurangi dengan nilai entropy setelah pemisahan. Pengukuran nilai ini hanya digunakan sebagai tahap awal untuk penentuan atribut yang nantinya akan digunakan atau dibuang. Atribut yang memenuhi kriteria pembobotan yang nantinya akan digunakan dalam proses klasifikasi sebuah algoritma.
Pemilihan fitur dengan Information Gain dilakukan dalam 3 tahapan, yaitu:
1. Menghitung nilai Information Gain untuk setiap atribut dalam dataset original.
2. Tentukan batas (treshold) yang diinginkan. Hal ini akan memungkinkan atribut yang berbobot sama dengan batas atau lebih besar akan dipertahankan serta membuang atribut yang berada dibawah batas.
3. Dataset diperbaiki dengan pengurangan atribut.
Pengukuran atribut ini pertama kali dipelopori oleh Claude Shannon didalam teori informasi (Gallager & Fellow, 2001) serta dituliskan sebagai berikut:
𝑖𝑛𝑓𝑜 (𝐷) = − ∑𝑚𝑖=1𝑝𝑖 𝑙𝑜𝑔2(𝑝𝑖) (2.1)
Keterangan:
D : Himpunan kasus
M : Jumlah partisi D
pi : Proporsi dari Di terhadap D
Sedangkan pi merupakan probabilitas sebuah tupel pada D yang masuk kedalam kelas Ci dan diestimasi dengan |Ci,D| / |D|. Fungsi log dalam hal ini digunakan log berbasis 2 karena informasi dikodekan berbasis bit.
Perhitungan nilai entropy setelah pemisahan dapat dilakukan dengan menggunakan rumus berikut:
𝑖𝑛𝑓𝑜𝐴 (𝐷) = − ∑ |𝐷𝑗|
|𝐷| x 𝐼(𝐷𝑗)
𝑣 𝑗=1
(2.2) Keterangan:
D : Himpunan kasus
A : Atribut
v : Jumlah partisi atribut A
|Dj| : Jumlah kasus pada partisi ke j
|D| : Jumlah kasus dalam D I (Dj) : Total entropy dalam partisi
Sedangkan untuk mencari Information Gain atribut A dapat digunakan rumus berikut:
𝑖𝑛𝑓𝑜𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ |𝑆𝑣|
𝑣 𝜖 𝑉𝑎𝑙𝑢𝑒 (𝐴) 𝑆 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑣) (2.3) 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = − ∑|𝑆𝑖|
𝑆 log𝑆𝑖
𝑆 (2.4)
Dimana S adalah jumlah seluruh fitur, A adalah kategori, Svadalah jumlah sampel untuk nilai v, v adalah nilai yang mungkin untuk kategori A, Siadalah fitur ke i dan Value(A) adalah himpunan nilai-nilai yang mungkin untuk kategori A.
Fitur yang dipilih adalah fitur dengan nilai Information Gain yang tidak sama dengan nol dan lebih besar dari suatu nilai threshold tertentu. Ide dibalik Information Gain untuk memilih fitur adalah menyatakan fitur dengan informasi yang paling signifikan terhadap kategori.
2.2.5 Algortima Support Vector Machine
Support Vector Machines (SVM) pertama kali diperkenalkan oleh Boser, Guyon, Vepnik, yang dipresentasikan untuk pertama kalinya pada tahun 1992 di Annual Workshop on Computational Learning Theory. SVM menurut (Huang, Yang, King & Liu, 2008) adalah seperangkat metode yang terkait untuk suatu metode pembelajaran, untuk kedua masalah klasifikasi dan regresi. Dengan berorientasi pada tugas, kuat, sifat komputasi yang mudah dikerjakan, SVM telah mencapai sukses besar dan dianggap sebagai state of the art classifier saat ini.
SVM merupakan metode supervised learning yang menganalisa data dan mengenali pola-pola yang digunakan untuk klasifikasi (Basari et al., 2013). SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperlane terpisah yang memaksimalkan margin antara dua kelas yang berbeda (Chou, Cheng, Wu, &
Pham, 2014). Namun, SVM memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai (Basari et al., 2013). Pemilihan fitur di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi (Zhao, Fu, Ji, Tang, & Zhou, 2011).
Prinsipnya SVM bekerja secara linear, dan dikembangkan untuk dapat diterapkan pada masalah non-linear. Dengan menggunakan metode kernel trick yang mencari hyperplane dengan cara mentransformasi dataset ke ruang vektor yang berdimensi lebih tinggi (feature space), kemudian proses klasifikasi dilakukan pada feature space tersebut. Penentuan fungsi kernel yang digunakan akan sangat berpengaruh terhadap hasil prediksi.
Berikut adalah beberapa fungsi kernel yang umum digunakan menurut (Hsu et al., 2010), yaitu:
1. Kernel Linear
𝐾 (𝑥𝑖, 𝑥) = 𝑥𝑖𝑇𝑥 (2.5)
2. Polynomial
𝐾 (𝑥𝑖, 𝑥) = (𝑦. 𝑥𝑖𝑇𝑥 + 𝑟)𝑝, 𝑦 > 0 (2.6) 3. Radial Basic Function
𝐾(𝑥𝑖, 𝑥) = 𝑒𝑥𝑝(−𝑦 |𝑥𝑖− 𝑥 |2 ), 𝑦 > 0 (2.7) 4. Sigmoid Kernel
𝐾(𝑥𝑖, 𝑥) = 𝑡𝑎𝑛ℎ (𝑦 𝑥𝑖𝑇+ 𝑟) (2.8)
Pada penelitian ini akan dilakukan eksperimen pemilihan kernel serta pemilihan parameter dengan nilai C dan epsilon yang menghasilkan nilai akurasi tertinggi.
2.2.6 Validasi dan Evaluasi
Menurut Gorunescu (Gorunescu, 2011) validasi adalah proses mengevaluasi akurasi dari suatu model. Untuk melakukan evaluasi terhadap model klasifikasi berdasarkan perhitungan objek testing mana yang diprediksi benar dan tidak benar. Perhitungan ini ditabulasikan kedalam tabel yang disebut Confusion Matrix (Gorunescu, 2011).
Tabel II.2 Confusion Matrix
Sumber : (Gorunescu, 2011)
Keterangan:
True Positive (TP) : Proporsi positif dalam data set yang diklasifikasikan positif
True Negative (TN) : Proporsi negatif dalam data set yang diklasifikasikan negatif
False Positive (FP) : Proporsi negatif dalam data set yang diklasifikasikan positif
False Negative (FN) : Proporsi negatif dalam data set yang diklasifikasikan negatif
Berikut adalah persamaan model Confusion Matrix:
1. Nilai Accuracy adalah proporsi jumlah prediksi yang benar. Dapat dihitung dengan menggunakan persamaan:
Accuracy = TP + TN (2.9)
TP + TN + FP + FN
2. Sensitivity digunakan untuk membandingkan proporsi TP terhadap tupel yang positif, yang dihitung dengan menggunakan persamaan:
Sensitivity = TP (2.10)
TP + FN
3. Specificity digunakan untuk membandingkan proporsi TN terhadap tupel yang negatif, yang dihitung dengan menggunakan persamaan:
Specificity = TN (2.11)
TN + FP
4. PPV (Positive Predictive Value) adalah proporsi kasus dengan hasil diagnosa positif, yang dihitung dengan menggunakan persamaan:
PPV = TP (2.12)
TP + FP
5. NPV (Negative Predictive Value) adalah proporsi kasus dengan hasil diagnosa negatif, yang dihitung dengan menggunakan persamaan:
NPV= TN (2.13)
TN + FN
K-Fold Cross validation adalah metode statistik untuk mengevaluasi dan membandingkan belajar algoritma dengan membagi data menjadi dua segmen, satu segmen digunakan untuk belajar atau melatih data dan yang lain digunakan untuk memvalidasi model (Witten et al., 2011). Dalam cross validation set pelatihan dan
validasi harus crossover berturut-turut sehingga setiap data memiliki kesempatan tervalidasi.
Kurva ROC (Receiver Operating Characteristic) digunakan untuk mengevaluasi akurasi classifier dan untuk membandingkan klasifikasi yang berbeda model (Vercellis, 2009). Kurva ROC digunakan untuk mengukur AUC (Area Under Curve). Kurva ROC membagi hasil positif dalam sumbu y dan hasil negatif dalam sumbu x (Witten et al., 2011). Sehingga semakin besar area yang berada dibawah kurva, semakin baik pula hasil prediksi.
Panduan untuk mengklasifikasikan keakuratan analisis menggunakan AUC, disajikan dibawah ini (Gorunescu, 2011):
1. 0.90-1.00 = excellent classification;
2. 0.80-0.90 = good classification;
3. 0.70-0.80 = fair classification;
4. 0.60-0.70 = poor classification;
5. 0.50-0.60 = failure.
2.3 Kerangka Pemikiran Penerapan Information Gain sebagai Seleksi Fitur pada Support Vector Machine
Dalam menyelesaikan penelitian, penulis membuat sebuah kerangka pemikiran yang berguna sebagai acuan penelitian sehingga penelitian ini dapat dilakukan secara konsisten. Permasalahan dari penelitian ini adalah Support Vector Machine sebagai pengklasifikasi teks pada review film masih memiliki kekurangan yaitu terhadap masalah pemilihan parameter atau fitur yang sesuai, sehingga dapat menyebabkan akurasi klasifikasi menjadi rendah. Dataset yang digunakan pada penelitian ini berupa dua buah dataset review film yang diperoleh dari situs http://www.cs.cornell.edu/people/pabo/movie-review-data/ terdiri dari 1.000 data review positif dan 1.000 data review negatif. Serta dataset Dengan jumlah data yang lebih besar dari situs http://ai.stanford.edu/~amaas/data/sentiment/ terdiri dari 12.500 data review positif dan 12.500 data review negatif. Preprocessing yang dilakukan adalah dengan tokenization, stopwords removal, dan stemming. Metode pemilihan fitur yang digunakan adalah Information Gain. Pengujian 10 fold cross
validation akan dilakukan, akurasi algoritma akan diukur menggunakan Confusion Matrix dan hasil olahan dalam bentuk kurva ROC dan Accuracy. Weka 3.8 digunakan dalam mengukur akurasi data eksperimen. Kerangka pemikiran dalam penelitian ini digambarkan pada gambar II.1.
Threshold
Observed Variables
INDICATOR PROPOSED METHOD OBJECTIVES MEASUREMENT
Confusion Matrix
ROC Curve
Observed Variables Model
Accuracy
Classification Algorithm
Support Vector Machine
Information Gain
Feature Selection Dataset Review Film
Preprocessing
Kernel Type
Tokenize
Stopwords removal Steamming
epsilon C
Gambar II.1 Kerangka Pemikiran Penerapan Information Gain sebagai Seleksi Fitur pada Support Vector Machine
BAB III
METODE PENELITIAN
3.1 Perancangan Penelitian
Penelitian merupakan sebuah kegiatan yang mempunyai tujuan untuk membuat suatu kontribusi orisinal terhadap ilmu pengetahuan (Dawson, 2009).
Menurut (Dawson, 2009), terdapat empat metode penelitian yang sangat umum digunakan, diantaranya: action research, experiment, case study dan survey. Pada penelitian ini penulis menggunakan penelitian eksperimen, yaitu penelitian yang melibatkan penyelidikan perlakuan pada parameter atau variabel tergantung dari penelitinya dan menggunakan tes yang dikendalikan oleh peneliti itu sendiri, dengan tahapan metode penelitian sebagai berikut:
1. Pengumpulan Dataset (Data Gathering)
Pada bagian ini dijelaskan tentang bagaimana dan darimana data diperoleh, yaitu dengan mencari data yang tersedia kemudian data penelitian dikumpulkan dan diseleksi dari data yang tidak sesuai.
2. Pengolahan Awal Data (Data Preprocessing)
Pengolahan awal data melalui tiga proses yaitu Tokenization, Stopwords Removal, dan Stemming.
3. Metode yang Diusulkan (Proposed Method)
Model dipilih berdasarkan kesesuaian data dengan metode pengklasifikasi teks yang paling baik yang sudah digunakan oleh beberapa peneliti sebelumnya.
Model yang digunakan adalah algoritma Support Vector Machine. Untuk meningkatkan akurasi dari algoritma Support Vector Machine, maka dilakukan penambahan dengan menggabungkan metode pemilihan fitur (Feature Selection) yaitu Information Gain.
4. Pengujian Metode dan Eksperimen (Method Test and Experiment)
Untuk eksperimen data penelitian, penulis menggunakan Weka 3.8 untuk mengolah data dan sebagai alat bantu dalam mengukur akurasi data eksperimen.
5. Evaluasi dan Validasi Hasil (Result Evaluation and Validation)
Evaluasi dilakukan untuk mengetahui akurasi dari model algoritma Naïve Bayes. Validasi digunakan untuk melihat perbandingan hasil akurasi dari model yang digunakan dengan hasil yang telah ada sebelumnya. Teknik validasi yang digunakan adalah cross validation dan hasil olahan data dalam bentuk kurva ROC.
3.2 Pengumpulan Data
Penulis menggunakan Data Movie Review Polarity Dataset V2.0 (Pang &
Lee, 2004) yang diperoleh dari data review film yang digunakan oleh Pang and Lee.
Data ini dapat diambil di situs http://www.cs.cornell.edu/people/pabo/movie- review-data/. Data ini diambil dari situs IMDb. Data yang digunakan dalam penelitian terdiri dari 2.000 review film, berisi 1.000 review positif dan 1.000 review negatif. Serta dataset dengan jumlah data yang lebih besar dari situs http://ai.stanford.edu/~amaas/data/sentiment/ terdiri dari 12.500 data review positif dan 12.500 data review negatif. Data review yang akan diolah masih dalam bentuk sekumpulan teks yang terpisah dalam bentuk dokumen. Data review positif dikumpulkan dalam satu folder yang disimpan dengan nama positif dan data review negatif dikumpulkan dalam satu folder yang disimpan dengan nama negatif.
Masing-masing dokumen disimpan pada media berbasis teks yaitu notepad dengan ektensi .txt.
Contoh review film:
1. Contoh Positif
Very cool! Now here's a movie that gives you exactly what you're looking for, if what you're looking for is kickass action, a palpable good cop/bad cop story line, some hardcore stunts and jet li slam-dunking everyone in sight! The film also moves fast (a mere 95 minutes), develops a certain "cute" chemistry
between fonda and li, has nice surroundings (paris, baby!) and gives us one of the best bad guys that i've seen all year.
2. Contoh Negatif
This is a pretty bad movie. let's see, where should i start? okay, first of all, the story is just plain boring. It's not original, is entirely predictable and lacks energy. okay, what's next ?
3.3 Pengolahan Awal Data
Pengolahan awal data merupakan tindak lanjut dari pengumpulan data.
Penulis mengunakan data terdiri dari 2.000 review film, berisi 1.000 review positif dan 1.000 review negatif sebagai data training pada dataset Cornell. Kemudian, pada dataset Stanford terdiri dari 25.000 review film, berisi 12.500 review positif dan 12.500 review negatif. Dataset ini dalam tahap persiapan data (preprocessing) harus melalui 3 proses, yaitu:
1. Tokenization
Tokenization adalah mengumpulkan semua kata dan menghilangkan tanda baca maupun simbol yang bukan huruf, seperti “ , . / : ; ) dan lain-lain.
2. Stopwords Removal
Stopwords dapat diartikan sebagai menghilangkan kata-kata umum yang tidak memiliki makna atau informasi yang dibutuhkan, seperti: the, of, with, for dan lain-lain.
3. Stemming
Stemming merupakan salah satu proses dari mengubah token yang berimbuhan menjadi kata dasar, dengan menghilangkan semua imbuhan yang ada pada token tersebut. Pentingnya stemming dalam proses pembuatan sistem adalah untuk menghilangkan imbuhan pada awalan dan akhiran.
Sedangkan untuk tahap transformation dengan melakukan pembobotan TF- IDF pada masing-masing kata. Di mana prosesnya menghitung kehadiran atau ketidakhadiran sebuah kata di dalam dokumen. Berapa kali sebuah kata muncul di
dalam suatu dokumen juga digunakan sebagai skema pembobotan dari data tekstual.
3.4 Metode yang Diusulkan
Metode yang penulis usulkan adalah penggunaan metode pemilihan fitur yaitu Information Gain (IG) yang digunakan untuk meningkatkan akurasi pada pengklasifikasi Support Vector Machine (SVM). Penulis menggunakan algoritma SVM karena algoritma SVM sangat populer dan berfungsi dengan baik sebagai metode pengklasifikasi teks. Untuk melihat model yang diusulkan secara detail dapat dilihat pada gambar III.1 berikut ini:
Dataset
Preprocessing
Tokenization
Information Gain Feature Selection:
Testing Data
Model Evaluation Confusion Matrix (Accuracy)
ROC Curve (AUC) Training Data
10 Fold Cross Validation
Support Vector Machine Learning Method
Stopword Removal Stemming
Menghitung entropy
Mencari fitur dengan Information Gain tertinggi
Sumber : Peneliti
Model yang diusulkan diatas menjabarkan bahwa data harus melalui tahap pre-processing terlebih dahulu agar diperoleh kata-kata yang relevan yang nantinya akan diklasifikasi. Pada tahap evaluasi menggunakan 10 Fold Cross Validation dan akurasi diukur menggunakan Confusion Matrix. Hasil yang dibandingkan adalah akurasi SVM sebelum menggunakan pemilihan fitur dengan SVM yang telah menggunakan pemilihan fitur yaitu Information Gain (IG).
3.5 Eksperimen dan Pengujian Model
Penulis melakukan proses eksperimen menggunakan Weka 3.8. Data training yang digunakan adalah Data Movie Review Polarity Dataset V2.0 diambil di situs http://www.cs.cornell.edu/people/pabo/movie-review-data/. Serta dataset
Dengan jumlah data yang lebih besar dari situs
http://ai.stanford.edu/~amaas/data/sentiment/ dimana kedua dataset telah dikelompokkan menjadi 2 bagian yaitu review positif dan review negatif.
Spesifikasi komputer yang digunakan oleh penulis dapat dilihat pada tabel III.1 berikut ini:
Tabel III.1 Spesifikasi Komputer yang Digunakan
Processor AMD E-450 APU with Radeon™ HD Graphics 1.65 GHz
Memory 6 GB
Hardisk 320 GB
Sistem Operasi Microsoft Windows 10
Aplikasi Weka 3.8
Sumber: Peneliti
3.6 Evaluasi dan Validasi Hasil
Pada penelitian ini validasi dilakukan dengan menggunakan 10 fold cross validation. Akurasi diukur dengan Confusion Matrix yaitu membandingkan akurasi Support Vector Machine sebelum menggunakan pemilihan fitur dengan Support Vector Machine berbasis Information Gain sebagai pemilihan fitur. Kemudian, kurva ROC digunakan untuk mengukur nilai AUC.
BAB IV
PEMBAHASAN DAN HASIL
4.1 Pembahasan
Pada bab ini berisi pembahasan tahapan pengumpulan data dan pengolahan awal data serta hasil eksperimen yang dilakukan oleh peneliti, baik sebelum diterapkannya model dan sesudah diterapkan model.
4.1.1 Preprocessing
Preprocessing atau persiapan data melalui tiga tahapan proses, yaitu:
1. Tokenization
Yaitu mengumpulkan semua kata dan menghilangkan tanda baca maupun simbol yang bukan huruf, seperti “ , . / : ; ) dan lain-lain. Contoh hasil pengolahan tokenization dapat dilihat pada tabel IV.1, sebagai berikut:
Tabel IV.1 Perbandingan teks sebelum dan sesudah dilakukan proses tokenization
Teks sebelum dilakukan proses tokenization
Teks setelah dilakukan proses tokenization
Very cool! Now here's a movie that gives you exactly what you're looking for, if what you're looking for is kickass action, a palpable good cop/bad cop story line, some hardcore stunts and jet li slam- dunking everyone in sight! The film also moves fast (a mere 95 minutes), develops a certain
"cute" chemistry between fonda and li, has nice surroundings (paris, baby!) and gives us one of the best bad guys that i've seen all year.
Very cool Now here s a movie that gives you exactly what you re looking for if what you re looking for is kickass action a palpable good cop bad cop story line some hardcore stunts and jet li slam dunking everyone in sight The film also moves fast a mere 95 minutes develops a certain cute chemistry between fonda and li has nice surroundings paris baby and gives us one of the best bad guys that I ve seen all year
2. Stopwords Removal
Stopwords dapat diartikan sebagai menghilangkan kata-kata umum yang tidak memiliki makna atau informasi yang dibutuhkan, seperti the, of, with, for dan
lain-lain. Contoh hasil pengolahan Stopwords dapat dilihat pada tabel IV.2, sebagai berikut:
Tabel IV.2 Perbandingan teks sebelum dan sesudah dilakukan proses stopwords removal
Teks sebelum dilakukan proses stopwords removal
Teks setelah dilakukan proses stopwords removal Very cool! Now here's a movie
that gives you exactly what you're looking for, if what you're looking for is kickass action, a palpable good cop/bad cop story line, some hardcore stunts and jet li slam- dunking everyone in sight! The film also moves fast (a mere 95 minutes), develops a certain
"cute" chemistry between fonda and li, has nice surroundings (paris, baby!) and gives us one of the best bad guys that i've seen all year.
cool movie gives you exactly you looking you looking kickass action palpable good cop bad cop story line hardcore stunts jet li slam dunking everyone sight film moves fast mere 95 minutes develops certain cute chemistry fonda li nice surroundings paris baby gives one best bad guys I seen all year
3. Stemming
Stemming merupakan salah satu proses dari mengubah token yang berimbuhan menjadi kata dasar, dengan menghilangkan semua imbuhan yang ada pada token tersebut. Pentingnya stemming dalam proses pembuatan sistem adalah untuk menghilangkan imbuhan pada awalan dan akhiran. Contoh hasil pengolahan Stopwords dapat dilihat pada tabel IV.3.
Tabel IV.3 Perbandingan teks sebelum dan sesudah dilakukan proses stemming
Teks sebelum dilakukan proses stemming
Teks setelah dilakukan proses stemming
Very cool! Now here's a movie that gives you exactly what you're looking for, if what you're looking for is kickass action, a palpable good cop/bad cop story line, some hardcore stunts and jet li slam- dunking everyone in sight! The film also moves fast (a mere 95 minutes), develops a certain
"cute" chemistry between fonda
cool movi giv you exact you look you look kickass action palpabl good cop bad cop story lin hardcor stunt jet li slam dunk everyone sight film move fast mere 95 minut develop certain cut chemistry fonda li nic surround paris baby give one best bad guy I see all year
and li, has nice surroundings (paris, baby!) and gives us one of the best bad guys that i've seen all year.
4.1.2 Perbandingan Fungsi Kernel
Pada penelitian ini penulis membandingkan beberapa fungsi kernel pada algoritma Support Vector Machine, untuk mengetahui kernel terbaik yang dapat diterapkan dalam analisis sentimen review film. Kernel yang penulis bandingkan antara lain: Kernel Linear, Polynomial, Radial Basis Function (RBF), dan Sigmoid.
Berikut ini adalah hasil perbandingan nilai accuracy dan kurva ROC, pada masing- masing kernel.
Tabel IV.4. Hasil Perbandingan Kernel
Kernel Accuracy AUC
Linear 78.45% 0.785
Polynomial 81.05% 0.811
RBF 83.05% 0.831
Sigmoid 74.40% 0.744
Sumber: Peneliti
Berdasarkan eksperimen yang telah dilakukan. Penentuan kernel didapatkan hasil terbaik yang diperoleh yaitu nilai akurasi tertinggi mencapai 83.05% dan nilai AUC sebesar 0.831 dengan menggunakan RBF Kernel. Oleh karena itu, dalam penelitian ini digunakan RBF Kernel dalam klasifikasi algortima Support Vector Machine.
4.1.3 Perbandingan Parameter
Pada penelitian ini penulis melakukan eksperimen dengan memasukkan nilai C dan epsilon pada parameter Support Vector Machine, untuk mengetahui nilai C dan epsilon terbaik yang dapat diterapkan dalam analisis sentimen review film.
Berikut ini adalah hasil perbandingan nilai accuracy dan kurva ROC, pada masing- masing nilai C dan epsilon.
Tabel IV.5. Hasil Perbandingan Parameter
Parameter SVM
C Epsilon Accuracy AUC
0.0 0.0 50% 0.500
0.0 0.5 50% 0.500
0.5 0.0 81.35% 0.814
0.5 0.5 81.50% 0.815
1.0 0.0 83.05% 0.831
1.0 0.5 82.55% 0.826
Sumber: Peneliti
Berdasarkan eksperimen yang telah dilakukan, penentuan parameter untuk C dan epsilon dapat mempengaruhi nilai akurasi. Hasil terbaik yang diperoleh yaitu nilai akurasi tertinggi mencapai 83.05% dan nilai AUC sebesar 0.831 dengan penentuan nilai C = 1.0 dan epsilon = 0.0. Oleh karena itu, dalam penelitian ini digunakan nilai C = 1.0 dan epsilon = 0.0 dalam klasifikasi algortima Support Vector Machine.
4.2 Hasil
Proses klasifikasi adalah proses untuk menentukan kalimat tersebut sebagai class positif atau negatif berdasarkan nilai perhitungan probabilitas. Jika hasil probabilitas kalimat tersebut untuk class positif lebih besar dari class negatif maka kalimat tersebut masuk kedalam class positif dan sebaliknya jika nilai probabilitas class positif lebih kecil dari class negatif maka kalimat tersebut masuk kedalam class negatif.
Sebagai contoh penulis menampilkan 10 dokumen dari 2000 data training pada dataset Cornell dan tiga kata yang berhubungan dengan sentimen positif serta tiga kata yang berhubungan dengan sentimen negatif, yaitu excellent, good, perfect, bad, worst dan poor. Jika kata tersebut muncul dalam dokumen maka akan diberi nilai 1 dan jika tidak muncul maka pada dokumen akan diberi nilai 0.
Tabel IV.6 Tabel vector dokumen boolean dengan label class hasil klasifikasi
No. Class Excellent Good Perfect Bad Worst Poor
1 Pos 1 0 1 1 0 0
2 Neg 0 0 0 1 0 0
3 Neg 0 1 0 1 0 1
4 Pos 0 0 1 0 0 0
5 Neg 0 0 0 0 1 1
6 Pos 0 1 1 0 0 0
7 Neg 0 0 0 0 1 1
8 Neg 0 0 0 1 1 0
9 Neg 0 1 0 1 1 0
10 Neg 0 1 0 1 0 1
Selengkapnya ada di lampiran 3
Dalam penelitian ini, penulis membandingkan beberapa algoritma klasifikasi untuk dibandingkan pada kedua dataset yaitu, Support Vector Machine, Naïve Bayes, K-Nearest Neighbour serta Support Vector Machine berbasis Information Gain (IG) sebagai pemilihan fitur.
4.2.1 Klasifikasi pada Dataset Cornell
Berikut adalah hasil klasifikasi algoritma Support Vector Machine, Naïve Bayes, K-Nearest Neighbour serta Support Vector Machine berbasis Information Gain (IG) pada dataset Cornell.
1. Algortima Support Vector Machine
Data training yang digunakan terdiri dari 1.000 data review positif dan 1.000 data review negatif. Untuk pengujian 10 fold cross validation data review positif, 829 diklasifikasikan review positif sesuai dengan prediksi yang dilakukan dengan metode Support Vector Machine dan 171 data diprediksi review negatif tetapi ternyata hasil prediksinya review positif. Untuk data review negatif, 832 diklasifikasikan kedalam review negatif sesuai dengan prediksi yang dilakukan