IMPLEMENTASI K-NEAREST NEIGHBOR DENGAN ENSEMBLE FEATURE DAN WORD NORMALIZATION UNTUK KLASIFIKASI
SENTIMEN ULASAN E-COMMERCE
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1 Informatika Universitas Muhammadiyah Malang
NURNAZIAH 201510370311139
DATA SCIENCE
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG 2020
viii
KATA PENGANTAR
Assalamu’alaikum Warahmatullahi Wabarakaatuh.
Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas limpahan rahmat dan hidayah-NYA sehingga peneliti dapat menyelesaikan tugas akhir yang berjudul:
”IMPLEMENTASI K-NEAREST NEIGHBOR DENGAN ENSMEBLE FEATURE DAN WORD NORMALIZATION UNTUK KLASIFIKASI
SENTIMEN ULASAN E-COMMERCE ”
Skripsi ini diajukan untuk memenuhi salah satu syarat dalam memperoleh gelar sarjana pada program Sarjana Fakultas Teknik Universitas Muhammadiyah Malang. Skripsi ini merupakan salah satu syarat studi yang harus ditempuh oleh seluruh mahasiswa Universitas Muhammadiyah Malang, guna menyelesaikan akhir studi pada jenjang program Strata 1.
Peneliti menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu peneliti mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan.
Malang,
Yang Membuat Pernyataan
ix DAFTAR ISI
LEMBAR PERSETUJUAN... ii
LEMBAR PENGESAHAN ... iii
LEMBAR PERNYATAAN ... iv
ABSTRAK ... v
ABSTRACT ... vi
LEMBAR PERSEMBAHAN ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... ix
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xiii
DAFTAR LAMPIRAN ... xv BAB I PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 3 1.3 Tujuan Penelitian ... 4 1.4 batasan Masalah ... 4
BAB II TINJAUAN PUSTAKA ... 5
2.1 Tinjauan Pustaka ... 5 2.2 Landasan Teori ... 7 2.2.1 E-Commerce ... 7 2.2.2 Analisa Sentimen ... 9 2.2.3 Ekstraksi Fitur ... 10 2.2.4 Preprocessing ... 12
2.2.5 Pembobotan Kata (bag of words) ... 13
x
2.2.7 Euclidean Distance ... 15
2.2.1 Pengujian ... 15
BAB III METODE PENELITIAN... 17
3.1 Analisa data ... 17
3.2 Kebutuhan Software dan Hardware ... 17
3.3 Metode Pengumpulan dan Pemrosesan Data ... 18
3.4 Analisa dan Perancangan ... 22
3.5 Pengujian ... 30
BAB IV HASIL DAN PEMBAHASAN ... 34
4.1 Crawling Data ... 34
4.2 Data sets ... 35
4.3 Feature extraction ... 36
4.4 Pre-processing ... 38
4.5 Pembobotan fitur bag of words (BoW) ... 41
4.6 Klasifikasi k-Nearest Neighbor (kNN) ... 42
4.7 Pengujian ... 43 BAB V KESIMPULAN ... 57 5.1 Kesimpulan ... 57 5.2 Saran ... 57 DAFTAR PUSTAKA ... 58 LAMPIRAN ... 59
xi
DAFTAR GAMBAR
Gambar 2.1 Urutan pengunjung e-commerce terbanyak tahun 2018 ... 8
Gambar 2.2 Proses fitur gabungan (ensemble feature) ... 10
Gambar 3.1 Contoh user review Tokopedia ... 17
Gambar 3.2 Workflow proses analisa dan perancangan ... 22
Gambar 3.3 Workflow ekstraksi fitur ... 23
Gambar 3.4 Workflow pre-processing ... 23
Gambar 3.5 Workflow k-Nearest Neighbor ... 28
Gambar 4.1 Selenium ChromeDrivers ... 34
Gambar 4.2 Program crawling data Ulasan google play store ... 35
Gambar 4.3 Syntax pembagian data train dan data test ... 36
Gambar 4.4 Program pengambilan nilai fiitur berdasarkan kategori pos ... 36
Gambar 4.5 Pengambilan nilai fitur secara keseluruhan (F1-F19) ... 37
Gambar 4.6 Normalisasi firtur ... 38
Gambar 4.7 Syntax pre-processing data ... 39
Gambar 4.8 syntax case folding ... 49
Gambar 4.9 Stopword removal ... 40
Gambar 4.10 Filtering ... 40
Gambar 4.11 stemming ... 40
Gambar 4.12 Tokenizing ... 40
Gambar 4.13 Syntax Normalisasi Kata ... 41
Gambar 4.14 Syntax mendapatkan list term pada data ... 41
Gambar 4.15 Syntax pembobotan Tf-Idf ... 42
Gambar 4.16 Syntax euclidean distance ... 42
xii
xiii
DAFTAR TABEL
Tabel 2.3 Feature extraction ... 11
Tabel 3.1 Contoh beberapa data set yang telah di crawling ... 18
Tabel 3.2 Contoh domain dan out of domain data ... 20
Tabel 3.3 Data train ... 20
Tabel 3.4 Data Test ... 22
Tabel 3.5 Proses case folding ... 24
Tabel 3.6 Proses filtering ... 24
Tabel 3.7 Proses tokenization ... 25
Tabel 3.8 Proses stopword removal ... 26
Tabel 3.9 Proses stemming ... 25
Tabel 3.10 Proses normalisasi kata ... 26
Tabel 3. 11 Hasil perhitungan euclidean distance ... 27
Tabel 3.12 Euclidean distance dan kelas kategori ... 29
Tabel 3.13 Euclidean distance setelah diutrutkan ... 29
Tabel 3.14 Tabel hasil klasifikasi berdasarkan prediksi dan sistem ... 30
Tabel 3.15 Confusion Matrix ... 32
Tabel 3.16 Pengambilan nilai fitur semantik kata ... 60
Tabel 3.17 Normalisasi pengambilan nilai fitur semantik kata (max-min) ... 61
Tabel 3.18 Hasil Pembobotan Term frequency ... 62
Tabel 3.19 Hasil Pembobotan inverse document frequency ( ) ... 69
Tabel 3.20 Hasil pembobotan term frequency-inverse document frequency (TF-IDFtd) ... 76
Tabel 4.1 Pengujian metode k-Nearest Neighbor (kNN) dan hasil nilai k pada fitur semantik kata (ensemble feature) ... 44
xiv
Tabel 4.2 Pengujian metode k-Nearest Neighbor (kNN) dan hasil nilai k pada fitur statistik kata(bag of word) ... 47 Tabel 4.3 Pengujian metode k-Nearest Neighbor (kNN) dan hasil nilai k pada fitur gabungan semantik kata dan statistik kata (ensemble feature) ... 51 Tabel. 4.4 Akurasi dan penggunaan nilai k terbaik pada tiap fitur ... 55 Tabel. 4.5 Hasil pengujian Normalisasi Kata pada ensemble feature (semantik kata dan statistik kata) ... 55
xv
DAFTAR LAMPIRAN
Lampiran 1 Surat Kerja Sama Penelitian Tugas Akhir ... 60 Lampiran 2 Pembobotan Fitur ... 61
57
DAFTAR PUSTAKA
[1] D. M. E. D. M. Hussein, “A survey on sentiment analysis challenges,” J. King Saud Univ. - Eng. Sci., vol. 30, no. 4, pp. 330–338, 2018.
[2] Prananda Perdana, Rizal Setya Perdana, M. A. Fauzi“Analisis Sentimen Tentang Opini Film Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Naive Bayes Dengan Perbaikan Kata Tidak Baku,” J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 1, no. 12, pp. 3006-3014, 2017.
[4] M. Rizzo Irfan, M. A. Fauzi, and Tibyani, “Analisis Sentimen Kurikulum 2013 pada Twitter menggunakan Ensemble Feature dan Metode K-Nearest Neighbor,” J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no. 9, pp. 3006-3014, 2018.
[5] F. Rozy, S. Rangkuti, M. A. Fauzi, Y. A. Sari, E. Dewi, and L. Sari, “Analisis Sentimen Opini Film Menggunakan Metode Naïve Bayes dengan Ensemble Feature dan Seleksi Fitur Pearson Correlation Coefficient,” J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no. 12, pp. 6354–6361, 2018.
[6] R. Manikandan and D. R. Sivakumar, “Machine learning algorithms for text-documents classification: A review,” Int. J. Acad. Res. Dev., vol. 3, no. 2, pp. 384–389, 2018.
[7] U. A. Siddiqua, T. Ahsan, and A. N. Chy, “Combining a Rule-based Classifier with Ensemble of Feature Sets and Machine Learning Techniques for Sentiment Analysis on Microblog,” pp. 16–21, 2016.
[8] F. Teknik and M. Ipa, “Analisis Transaksi E-Commerce,” vol. 7, no. 3, pp. 239–245, 2015.
[9] Wahyunita S, 2018. Analisa Sentimen Tweet Berbahasa Indonesia dengan Menggunakan Metode Pembobotan Hybrid TF-IDF padaTopik Transportasi Online. Malang
58
[10] C. R. Fink, D. S. Chou, J. J. Kopecky, and A. J. Llorens, “Coarse- and fine-grained sentiment analysis of social media text,” Johns Hopkins APL Tech. Dig. (Applied Phys. Lab., vol. 30, no. 1, pp. 22–30, 2011.
[11] S. K. Lidya, O. S. Sitompul, and S. Efendi, “Sentiment Analysis Pada Teks Bahasa Indonesia Menggunakan Support Vector Machine ( Svm ),” Semin. Nas. Teknol. dan Komun. 2015, vol. 2015, no. Sentika, pp. 1–8, 2015. [12] J. Riany, M. Fajar, and M. P. Lukman, “Penerapan Deep Sentiment
Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor,” Sisfo, vol. 06, no. 01, pp. 147–156, 2016.
[13] B. K. Hananto, A. Pinandito, and A. P. Kharisma, “Penerapan Maximum TF-IDF Normalization Terhadap Metode KNN Untuk Klasifikasi Dataset Multiclass Panichella Pada Review Aplikasi Mobile,” vol. 2, no. 12, pp. 6812–6823,2018.