commit to user
i
SISTEM KLASIFIKASI
FEEDBACK
PELANGGAN DAN
REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM
UNS DENGAN ALGORITMA NAÏVE BAYES
CLASSIFIER
DAN
COSINE SIMILARITY
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika
Disusun Oleh:
AISHA ALFIANI MAHARDHIKA
NIM. M0510004
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET
commit to user
ii SKRIPSI
SISTEM KLASIFIKASI
FEEDBACK
PELANGGAN DAN
REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM
UNS DENGAN ALGORITMA NAÏVE BAYES
CLASSIFIER
DAN
COSINE SIMILARITY
Disusun Oleh :
AISHA ALFIANI MAHARDHIKA M0510004
Skripsi ini telah disetujui untuk dipertahankan di hadapan dewan penguji, pada tanggal 2 Desember 2014.
Pembimbing I
Ristu Saptono, S.Si., M.T. NIP. 19790210 200212 1 001
Pembimbing II
commit to user
iii SKRIPSI
SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN
REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS
DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE
SIMILARITY
Disusun Oleh :
AISHA ALFIANI MAHARDHIKA M0510004
Telah dipertahankan di hadapan Dewan Penguji pada tanggal 2 Desember 2014
Susunan Dewan Penguji
1. Ristu Saptono, S.Si., M.T. (Ketua) ( )
NIP. 19790210 200212 1 001
2. Rini Anggrainingsih, S.T., M.T. (Sekretaris) ( ) NIP. 19780909 200812 2 002
3. Drs. Wiranto, M.Kom., M.Cs. (Anggota) ( )
NIP. 19661230 199302 1 001
4. Abdul Aziz, S.Kom., M.Cs. (Anggota) ( )
NIP. 19810413 200501 1 001
Disahkan Oleh Dekan Fakultas MIPA UNS
Prof. Ir. Ari Handono Ramelan, M.Sc. (Hons), Ph.D NIP. 19610223 198601 1 001
Ketua Jurusan Informatika
commit to user
iv MOTTO
“Learn from yesterday, live from today, and hope for tomorrow”—Albert Einstein
commit to user
v
PERSEMBAHAN
Tulisan ini penulis persembahkan kepada : Ibu Eny Dwi Suryani dan Bapak Muhammad Indrayanto atas segala doa,
commit to user
vi
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Allah SWT karena dengan ridho dan rahmatnya, penulis dapat menyelesaikan skripsi dengan judul ―Sistem Klasifikasi Feedback Pelanggan dan Rekomendasi Solusi Atas Keluhan Di UPT Puskom UNS Dengan Algoritma Naïve Bayes Classifier dan Cosine Similarity‖.
Penulis menyadari banyak hambatan dan keterbatasan yang ditemui dalam penyusunan laporan ini. Oleh karena itu, penulis mengucapkan terima kasih kepada berbagai pihak yang telah memberi bimbingan, dukungan, saran dan doa serta semangat tanpa batas selama penyusunan laporan. Penulis ucapkan terima kasih kepada :
1. kedua orang tua tercinta serta adik tersayang yang selalu memberikan kasih sayang, doa, dukungan dan semangat kepada penulis,
2. bapak Ristu Saptono, S.Si., M.T. selaku dosen pembimbing I yang telah memberikan waktu, ilmu, bimbingan, serta masukan yang berharga kepada penulis,
3. ibu Rini Anggrainingsih, S.T., M.T. selaku dosen pembimbing II yang telah memberikan waktu, masukan serta saran kepada penulis,
4. ibu Sari Widya Sihwi, S.Kom., MTI selaku pembimbing akademik yang telah memberikan bimbingan dan motivasi kepada penulis selama menempuh pendidikan di Jurusan Informatika,
5. geng berandalan manis, terima kasih atas seluruh semangat, motivasi dan doa, serta keikhlasannya menjadi tempat penulis berbagi,
6. teman-teman Informatika atas bantuan dan semangatnya, 7. pihak-pihak lain yang telah membantu penyusunan skripsi ini.
Semoga skripsi ini dapat bermanfaat bagi seluruh pihak.
commit to user
vii
SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN
REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS
DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE
SIMILARITY
AISHA ALFIANI MAHARDHIKA
Jurusan Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret
ABSTRAK
Saat ini, konsumen dapat menyampaikan keluhan terhadap UPT Puskom UNS
melalui mentions terhadap akun Twitter. Mentions yang diberikan oleh konsumen
kemudian diklasifikasikan apakah mentions tersebut termasuk keluhan, berita atau
spam. Klasifikasi mentions dilakukan menggunakan algoritma Naïve Bayes
Classifier berdasarkan supervised learning. Peningkatan akurasi untuk algoritma
Naïve Bayes Classifier dilakukan dengan menggunakan teknik Laplacian
Smoothing. Algoritma Cosine Similarity digunakan untuk mengelompokkan
mentions keluhan yang memiliki term yang sama. Dari kelompok mentions
tersebut, administrator akan memberikan solusi yang relevan terhadap keluhan.
Hasil penelitian menunjukkan bahwa proses klasifikasi dengan algoritma Naïve
Bayes Classifier untuk proses pelatihan memiliki tingkat akurasi terendah 86.67%
dengan data pelatihan sebanyak 30 mentions dan tingkat akurasi tertinggi 100%
dengan data pelatihan sebanyak 20 mentions. Proses pengujian dilakukan secara
bertahap dengan tingkat akurasi terendah adalah 60% yang dicapai pada pengujian
pertama dan kedua, sedangkan tingkat akurasi tertinggi dicapai pada pengujian
kelima dan keenam yakni 90%. Mentions keluhan tidak dapat terkelompokkan
dengan algoritma Cosine Similarity karena jumlah data yang sangat terbatas yakni
29 data dan tidak ada mentions yang memiliki term sama. Namun setelah
dilakukan self-test, mentions keluhan yang memiliki term sama dapat
terkelompokkan dengan baik.
Kata kunci: klasifikasi, Naïve Bayes Classifier, Cosine Similarity, rekomendasi
commit to user
viii
CUSTOMER FEEDBACK CLASSIFICATION AND SOLUTION RECOMMENDATIONS OF COMPLAINTS AT UPT PUSKOM UNS
USING NAIVE BAYES CLASSIFIER AND COSINE SIMILARITY
AISHA ALFIANI MAHARDHIKA
Department of Informatic, Mathematic and Science Faculty, Sebelas Maret University
ABSTRACT
Nowadays, consumers can submit a complaint to UPT Puskom UNS through mentions to Twitter account. Mentions given by consumers will be classified whether its complaints, news or spam. Mentions classification are performed by using Naive Bayes classifier based on supervised learning. Improved accuracy for Naive Bayes classifier algorithm is done by using Laplacian Smoothing technique. Cosine Similarity is used to classify complaints mentions that have similar term. Administrator will provide solutions that are relevant to the complaint based on the group mentions.
Result showed that classification with Naive Bayes classifier algorithm has 86.67% as lowest accuracy rate with 30 mentions as the training data, while the highest level of accuracy achieved is 100% with 20 mentions as the training data. Highest level of accuracy on testing process was achieved on the fifth and sixth testing process is 90%, while the lowest accuracy rate is 60% reached in the first and second testing process.
Complaint mentions can't be grouped by Cosine Similarity algorithm due to the very limited amount of data, 29 data, and there's no mentions that has similar term. However, after the self-test, complaints mentions that has similar term can be grouped well.
Keywords: classification, Naïve Bayes Classifier, Cosine Similarity,
commit to user
ix DAFTAR ISI
Halaman
HALAMAN JUDUL ... i
HALAMAN PERSETUJUAN ... ii
HALAMAN PENGESAHAN ... iii
HALAMAN MOTTO ... iv
DAFTAR LAMPIRAN ... xiii
BAB I PENDAHULUAN ... 1
1.6. Sistematika Penulisan ... 4
BAB II TINJAUAN PUSTAKA ... 5
2.1.5. Laplacian Smoothing ... 9
2.1.6. Vector Space Model ... 9
2.1.7. Pembobotan TF x IDF ... 10
2.1.8. Cosine Similarity ... 11
commit to user
x
2.2. Penelitian Terkait ... 12
2.3. Kerangka Pemikiran ... 14
BAB III METODOLOGI ... 16
3.1. Studi Literatur ... 17
3.2. Pengumpulan Data ... 17
3.3. Text Mining ... 17
3.4. Klasifikasi dengan Naïve Bayes Classifier ... 18
3.5. Pembaharuan Library ... 18
3.6. Pengelompokan Mentions Keluhan dengan Cosine Similarity ... 19
3.7. Penentuan Solusi Terhadap Kelompok Mentions Keluhan ... 19
3.8. Analisis Hasil ... 19
BAB IV PEMBAHASAN ... 21
4.1. Proses Text Mining ... 21
4.2. Klasifikasi Dengan Naïve Bayes Classifier... 22
4.3. Pembaharuan Library ... 26
4.4. Proses Pengelompokan Mentions Keluhan... 29
4.5. Pemberian Rekomendasi Solusi ... 31
4.6. Analisis Hasil ... 31
BAB V PENUTUP ... 33
5.1. Kesimpulan ... 33
5.2. Saran ... 33
commit to user
xi
DAFTAR TABEL
Halaman
Tabel 2.1 Confusion Matrix untuk L = 2 ... 11
Tabel 2.2 Matriks penelitian ... 15
Tabel 4.1 Sampel mentions ... 21
Tabel 4.2 Sampel mentions yang diolah dengan text preprocessing ... 22
Tabel 4.3 Nilai prior untuk setiap klasifikasi ... 22
Tabel 4.4 Nilai likelihood untuk setiap term dalam data sampel mentions ... 24
Tabel 4.5 Nilai posterior untuk data sampel mentions ... 25
Tabel 4.6 Klasifikasi untuk data sampel mentions ... 26
Tabel 4.7 Perubahan klasifikasi untuk data sampel mentions ... 26
Tabel 4.8 Contoh perbandingan term dari mentions dan term dari stop word ... 27
Tabel 4.9 Transposisi term YANG dan YANG ... 27
Tabel 4.10 Transposisi term BERAPA dan BERAPA ... 28
Tabel 4.11 Hasil proses self-test dengan algoritma Cosine Similarity ... 30
commit to user
xii
DAFTAR GAMBAR
Halaman
Gambar 2.1 Vector Space Model ... 10
Gambar 2.2 Extended confusion matrix 3x3 ... 12
Gambar 3.1 Metodologi penelitian ... 16
Gambar 3.2 Aplikasi extended confusion matrix dalam penelitian ... 20
Gambar 4.1 Halaman untuk mengubah klasifikasi mentions ... 29
commit to user
xiii
DAFTAR LAMPIRAN
Halaman Lampiran A : Klasifikasi Mentions Secara Manual... 37 Lampiran B : Klasifikasi Mentions Dengan Naïve Bayes Classifier ... 44 Lampiran C : Proses Pengujian Hasil Klasifikasi ... 73 Lampiran D : Data Self-Test Untuk Pengelompokan Mentions Dengan Cosine