KOMPARASI ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR DAN SUPPORT VECTOR MACHINE PADA LAYANAN KOMPLAIN MAHASISWA TESIS

(1)

NEIGHBOR DAN SUPPORT VECTOR MACHINE PADA LAYANAN KOMPLAIN E-MAIL MAHASISWA

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer (M.Kom)

HERMANTO 14002170

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI JAKARTA

2019

(2)

NEIGHBOR DAN SUPPORT VECTOR MACHINE PADA LAYANAN KOMPLAIN E-MAIL MAHASISWA

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer (M.Kom)

HERMANTO 14002170

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI JAKARTA

2019

(3)

iii

Program Studi Ilmu Komputer (S2) Stmik Nusa Mandiri SURAT PERNYATAAN ORISINALITAS

Yang bertanda tangan di bawah ini :

Nama : Hermanto

NIM : 14002170

Program Studi : Magister Ilmu Komputer Jenjang : Strata Dua (S2)

Konsentrasi : Data Mining

Dengan ini menyatakan bahwa tesis yang telah saya buat dengan judul:

“Komparasi Algoritma Klasifikasi K-Nearest Neighbor Dan Support Vector Machine Pada Layanan Komplain E-Mail Mahasiswa” adalah hasil karya sendiri, dan semua sumber baik yang kutip maupun yang dirujuk telah saya nyatakan dengan benar dan tesis belum pernah diterbitkan atau dipublikasikan dimanapun dan dalam bentuk apapun.

Demikianlah surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila dikemudian hari ternyata saya memberikan keterangan palsu dan atau ada pihak lain yang mengklaim bahwa tesis yang telah saya buat adalah hasil karya milik seseorang atau badan tertentu, saya bersedia diproses baik secara pidana maupun perdata dan kelulusan saya dari Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri dicabut/dibatalkan.

Jakarta, 02 Januari 2020 Yang menyatakan,

Hermanto

(4)

(5)

(6)

vi

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri KATA PENGANTAR

Puji syukur alhamdulillah, penulis panjatkan kehadirat Allah SWT yang telah melimpahkan rahmat dan karunia-Nya, sehingga pada akhirnya penulis dapat menyelesaikan tesis ini tepat pada waktunya. Dimana tesis ini penulis sajikan dalam bentuk buku yang sederhana. Adapun judul tesis, yang penulis ambil sebagai berikut “Komparasi Algoritma Klasifikasi K-Nearest Neighbor Dan Support Vector Machine Pada Layanan Komplain E-Mail Mahasiswa”.

Tujuan penulisan tesis ini dibuat sebagai salah satu untuk mendapatkan gelar Magister Ilmu Komputer (M.Kom) pada Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (PPs MIK STMIK Nusa Mandiri).

Tesis ini diambil berdasarkan hasil penelitian atau riset mengenai text mining yang penulis lakukan pada data komplain email mahasiswa (students.bsi.ac.id) pada periode-2019. Penulis juga lakukan mencari dan menganalisa berbagai macam sumber referensi, baik dalam bentuk jurnal ilmiah, buku-buku literatur, internet, dll yang terkait dengan pembahasan pada tesis ini.

Penulis menyadari bahwa tanpa bimbingan dan dukungan dari semua pihak dalam pembuatan tesis ini, maka penulis tidak dapat menyelesaikan tesis ini tepat pada waktunya. Untuk itu ijinkanlah penulis pada kesempatan ini untuk mengucapkan ucapan terima kasih yang sebesar-besarnya kepada :

1. Bapak Dr. Lindung Parningotan Manik, M.T.I selaku pembimbing tesis yang telah menyediakan waktu, pikiran dan tenaga dalam membimbing penulis dalam menyelesaikan tesis ini.

2. Bapak Gunung Ali dan Alm. Ibu Sarimah selaku orang tua tercinta, Anita selaku kakak yang telah memberikan dukungan material dan moral kepada penulis.

(7)

vii

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 3. Seluruh staf Biro Teknologi Informasi (BTI) BSI GROUP yang telah

memberikan dukungan material dan moral kepada penulis.

4. Seluruh staf pengajar (dosen) PPs MIK STMIK Nusa Mandiri yang telah memberikan pelajaran yang berarti bagi penulis selama menempuh studi.

5. Teman-teman Mahasiswa Pascasarjana STMIK Nusa Mandiri Angkatan 2018 yang selalu membantu penulis selama menempuh studi.

Serta semua pihak yang terlalu banyak untuk penulis sebutkan satu persatu sehingga terwujudnya penulisan tesis ini. Penulis menyadari bahwa penulisan tesis ini masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran yang bersifat membangun demi kesempurnaan penulisan karya ilmiah yang penulis hasilkan untuk yang akan datang.

Akhir kata semoga tesis ini dapat bermanfaat bagi penulis khususnya dan bagi para pembaca yang berminat pada umumnya.

Jakarta, 02 Januari 2020

Hermanto Penulis

(8)

viii

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri SURAT PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya :

Nama : Hermanto

NIM : 14002170

Konsentrasi : Data Mining Jenis Karya : Tesis

Demi pengembangan ilmu pengetahuan, dengan ini menyetujui untuk memberikan ijin kepada pihak Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri) Hak Bebas Royalti Non-Eksklusif (Non-exclusive Royalti-Free Right) atas karya ilmiah saya yang berjudul : “Komparasi Algoritma Klasifikasi K-Nearest Neighbor Dan Support Vector Machine Pada Layanan Komplain E- Mail Mahasiswa” beserta perangkat yang diperlukan (apabila ada).

Dengan Hak Bebas Royalti Non-Eksklusif ini pihak STMIK Nusa Mandiri berhak menyimpan, mengalih-media atau bentuk-kan, mengelolanya dalam pangkalan data (database), mendistribusikannya dan menampilkan atau mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta karya ilmiah tersebut.

Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak STMIK Nusa Mandiri, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini.

Demikian pernyataan ini saya buat dengan sebenarnya.

Jakarta, 02 Januari 2020 Yang menyatakan,

Hermanto

(9)

ix

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri ABSTRAK

Nama : Hermanto

NIM : 14002170

Konsentrasi : Data Mining

Judul : “Komparasi Algoritma Klasifikasi K-Nearest Neighbor Dan Support Vector Machine Pada Layanan Komplain E- Mail Mahasiswa”

Pelayanan dalam dunia pendidikan merupakan unsur penting untuk terciptanya suasana akademik yang kondusif untuk terlaksananya proses belajar mengajar yang sukses. Proses pelayanan terhadap mahasiswa ada kecenderungan dilaksanakan tidak sesuai dengan standar pelayanan minimal yang harus diberikan kepada mahasiswa sehingga mahasiswa cenderung mengeluh terhadap layanan yang diberikan. Penyampaian kritikan, keluhan, masukan, atau saran terhadap ketidakpuasan dan permasalahan yang ada di lingkungan universitas masih sangat terbatas. Keluhan dapat bersifat membangun apabila disampaikan kepada pihak dan tempat yang tepat. Dalam penelitian ini pengolahan data komplain email dari mahasiswa yang dilakukan pada sisfo akademik mahasiswa (students.bsi.ac.id).

Data komplain mahasiswa yang akan diolah merupakan data berupa file komplain format *.xls, sebelum suatu data teks dianalisis menggunakan metode dalam text mining perlu dilakukan pre processing text diantaranya adalah tokenizing, case folding, stopwords, dan stemming. Setelah dilakukan pre processing maka selanjutnya dilakukan metode klasifikasi dalam mengelompokkan dalam masing- masing kategori komplain dan membagi statusnya menjadi dua bagian yaitu complaint dan not complaint agar status menjadi kondisi normal dalam penelitian text mining. Semua data komplain tersebut dikelompokan menjadi satu disimpan dalam bentuk ekstensi .xls. Dari hasil pengujian secara umum menunjukkan akurasi dengan nilai akurasi tertinggi pada algoritma support vector machine mencapai 78.42% dan nilai AUC = 0.861, sedangkan tingkat akurasi terendah pada algoritma k-nearest neighbor yaitu 75.97% dan nilai AUC = 0.831. Untuk itu, penerapan support vector machine dapat memberikan solusi terhadap permasalahan pada layanan komplain email mahasiswa.

Kata kunci:

Data Mining, Text Mining, Machine Learning, Layanan Komplain E-Mail, Support Vector Machine, K-Nearest Neighbor.

(10)

x

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri ABSTRACT

Name : Hermanto

NIM : 14002170

Study of Program : Magister Ilmu Komputer Level : Strata Dua (S2)

Concentration : Data Mining

Title : “Komparasi Algoritma Klasifikasi K-Nearest Neighbor Dan Support Vector Machine Pada Layanan Komplain E- Mail Mahasiswa”

Service in the world of education is an important element for the creation of an academic atmosphere that is conducive to the implementation of a successful teaching and learning process. The service process for students tends to be implemented not according to the minimum service standards that must be provided to students so students tend to complain about the services provided.

Expressing criticism, complaints, input, or suggestions for dissatisfaction and problems that exist in the university environment is still very limited. Complaints can be constructive if submitted to the right party and place. In this study the data processing of email complaints from students conducted at the academic student body (students.bsi.ac.id). Student complaint data that will be processed is data in the form of * .xls complaint file before a text data is analyzed using the method in text mining, the pre-processing text needs to be done including tokenizing, case folding, stopwords, and stemming. After pre-processing, the classification method is then performed in classifying each complaint category and dividing the status into two parts, namely complaint and not complaint so that the status becomes a normal condition in text mining research. All complaint data are grouped and stored as a .xls extension. From the test results generally showed the accuracy with the highest accuracy value in the support vector machine algorithm reached 78.42% and the AUC value = 0.861, while the lowest accuracy level in the k- nearest neighbor algorithm was 75.97% and the AUC value = 0.831. Therefore, the application of support vector machines can provide solutions to problems in student email complaints.

Keywords:

Data Mining, Text Mining, Machine Learning, EMail Complaint Services, Support Vector Machines, K-Nearest Neighbor.

(11)

xi

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Halaman

HALAMAN SAMPUL ... i

HALAMAN JUDUL ... ii

HALAMAN PERNYATAAN ORISINALITAS ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN LEMBAR KONSULTASI BIMBINGAN ... v

KATA PENGANTAR ... vi

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... viii

ABSTRAK ... ix

ABSTRACT ... x

DAFTAR ISI ... xi

DAFTAR TABEL ... xiii

DAFTAR GAMBAR ... xiv

DAFTAR LAMPIRAN ... xv

BAB 1. PENDAHULUAN ... 1

1.1. Latar Belakang ... 1

1.2. Identifikasi Masalah ... 4

1.3. Batasan Masalah ... 4

1.4. Rumusan Masalah ... 4

1.5. Tujuan Penelitian ... 5

1.6. Ruang Lingkup Penelitian... 5

1.7. Hipotesis ... 5

1.8. Sistematika Penulisan ... 6

BAB 2. LANDASAN TEORI/KERANGKA PEMIKIRAN ... 7

2.1. Tinjauan Pustaka ... 7

2.1.1. Layanan Akademik ... 7

2.1.2. Keluhan (Complaint) ... 7

2.1.3. Data Mining ... 10

2.1.4. Pondasi Pokok Dalam Data Mining ... 11

2.1.5. Model Proses Data Mining ... 12

2.1.6. Text mining ... 13

2.1.7. Text Preprocessing ... 14

2.1.8. Gata Framework ... 18

2.1.9. Teknik Klasifikasi ... 19

2.1.10. Pengujian K-Fold Cross Validation ... 23

2.1.11. Evaluasi dan Model Validasi ... 24

2.1.12. RapidMiner ... 26

2.2. Tinjauan Studi ... 28

2.2.1. Penelitian Terkait ... 28

2.2.2. Kerangka Konsep Penelitian ... 34

(12)

xii

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

3.1. Perancangan Penelitian ... 36

3.2. Metode Pengumpulan Data ... 37

3.3. Pengolahan Data Awal (Preprocess) ... 38

3.4. Metode Yang Diusulkan ... 40

3.5. Eksperimen ... 40

3.7 Evaluasi dan Validasi Hasil ... 41

BAB 4. HASIL PENELITIAN DAN PEMBAHASAN ... 42

4.1. Implementasi Metodologi ... 42

4.2.1. Business Understanding ... 42

4.2.2. Data Understanding ... 42

4.2. Data Preparation ... 43

4.2.1.@Anotation Removal ... 43

4.2.2. Tokenization (Regexp) ... 44

4.2.3. Transformation Not Negative ... 44

4.2.3. Indonesian Stemming ... 45

4.2.4. Indonesian Stopword Removal ... 45

4.2.5. Remove Duplicates ... 46

4.2.6. Nominal to Text ... 46

4.2.7. Transform Case ... 47

4.2.8. Filter Token (by Length) ... 47

4.2.9. Filter Stopword (Dictionary) ... 47

4.2.4. Tahapan Pemodela ... 48

4.3.1. Pengujian Model dengan Algoritma SVM ... 48

4.2.4. Pengujian Model dengan Algoritma K-Nearest Neighbor ... 50

4.4. Model Evaluasi ... 51

4.4.1. Nilai Accuracy dari Algoritma SVM ... 51

4.4.2. Nilai Accuracy dari Algoritma K-Nearest Neighbor ... 52

4.4.3. Nilai AUC dari Algoritma SVM ... 54

4.4.4. Nilai AUC dari Algoritma K-Nearest Neighbor ... 54

4.5. Perbandingan Accuracy ... 56

4.6. Analisa Hasil Perbandingan ... 57

4.6. Deployment ... 57

BAB 5. PENUTUP... 67

5.1. Kesimpulan ... 67

5.2. Saran ... 67

DAFTAR REFERENSI ... 68

DAFTAR RIWAYAT HIDUP ... 65 LAMPIRAN-LAMPIRAN

(13)

xiii

Tabel 2.1. Tabel Confusion Matrix ... 21

Tabel 2.2. Tabel Nilai AUC ... 21

Tabel 2.3. Tabel Penelitian Sebelumnya ... 28

Tabel 3.1 Contoh Komplain E-Mail Ya komplain ... 34

Tabel 3.2 Contoh Komplain E-Mail Tidak komplain ... 34

Tabel 3.3 Tabel Model yang diusulkan ... 36

Tabel 3.4 Spesifikasi Sistem Komputer Minimum yang Digunakan ... 37

Tabel 4.1 Perbandingan Teks Sebelum dan Sesudah Dilakukan proses @Anotation Removal ... 43

Tabel 4.2. Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses Tokenizing ... 44

Tabel 4.3. Perbandingan text sebelum dan sesudah dilakukan proses Transformation Not Negative ... 44

Tabel 4.4. Perbandingan text sebelum dan sesudah dilakukan proses Indonesia Stemming ... 45

Tabel 4.5. Perbandingan text sebelum dan sesudah dilakukan proses Indonesian Stopword Removal ... 45

Tabel 4.6. Nilai Accuracy Algoritma SVM ... 51

Tabel 4.7. Nilai Accuracy Algoritma K-Nearest Neighbor ... 52

Tabel 4.8. Perbandingan Performance Algoritma ... 56

(14)

xiv

Gambar 2.1. Model Proses Data Mining ... 11

Gambar 2.2. Tahapan Proses Text Mining (Text Preprocessing) ... 14

Gambar 2.3. Proses Case Folding ... 15

Gambar 2.4. Proses Tokenizing ... 15

Gambar 2.5. Proses Filtering ... 16

Gambar 2.6. Proses Stemming ... 18

Gambar 2.7. Gata Framework ... 18

Gambar 2.8. SVM berusaha menemukan hyperplan terbaik yang memisahkan kedua class -1 dan +1 ... 20

Gambar 2.9. Kerangka Pemikiran ... 34

Gambar 3.1. Model Algoritma yang diusulkan ... 40

Gambar 4.1. Desain Model Preprocessing Data Local menggunakan operator Remove Duplicates dan Nominal to Text ... 46

Gambar 4.2. Parameters dari Filter Tokens (by Length) ... 47

Gambar 4.3. Desain dari Penggunaan operator untuk Data Preparation ... 48

Gambar 4.4. Desain Model Algoritma SVM ... 48

Gambar 4.5. Desain Proses 10-Fold Cross Validation untuk SVM ... 49

Gambar 4.6. Desain Model Algoritma KNN ... 50

Gambar 4.7. Proses 10-Fold Cross Validation KNN ... 50

Gambar 4.8. Nilai AUC dalam Algoritma SVM ... 54

Gambar 4.9. Nilai AUC dalam Algoritma K-Nearest Neighbor ... 55

Gambar 4.10. Diagram Komparasi Nilai Accuracy Algoritma Klasifikasi ... 56

Gambar 4.11. Diagram Komparasi Nilai AUC Algoritma Klasifikasi ... 57

Gambar 4.12. Tampilan Login Administrator sisfo akademik mahasiswa ... 58

Gambar 4.13. Tampilan Dashboard Administrator sisfo akademik mahasiswa ... 59

Gambar 4.14. Tampilan Menu Data Komplain E-Mail ... 60

Gambar 4.15. Tampilan Untuk Proses Program ... 61

Gambar 4.16. Tampilan Hasil Text Mining (artikel asli) ... 61

Gambar 4.17. Tampilan Hasil Text Mining (tokenize) ... 62

Gambar 4.18. Tampilan Hasil Text Mining (Filter Token by Length) ... 63

Gambar 4.19. Tampilan Hasil Text Mining (Stopwords removal) ... 64

Gambar 4.20. Tampilan Hasil Text Mining (Transform Cases)... 64

Gambar 4.21. Tampilan Kesimpulan Hasil Komplain ... 65

(15)

xv

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Halaman Lampiran1. Data Ya komplain E-Mail ... 73 Lampiran 2. Data Bukan Komplain E-Mail ... 79

(16)

1

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

PENDAHULUAN

1.1. Latar Belakang Penulisan

Pelayanan dalam dunia pendidikan merupakan unsur penting untuk terciptanya suasana akademik yang kondusif untuk terlaksananya proses belajar mengajar yang sukses. Pada institusi pendidikan pelayanan prima kepada mahasiswa merupakan salah satu faktor yang perlu diperhatikan dengan baik untuk menjaga kelancaran studi mahasiswa. Proses pelayanan terhadap mahasiswa ada kecenderungan dilaksanakan tidak sesuai dengan standar pelayanan minimal yang harus diberikan kepada mahasiswa sehingga mahasiswa cenderung mengeluh terhadap layanan yang diberikan.

Pelayanan yang diberikan kepada pelanggan akan menjadi efektif apabila sesuai dengan keinginan dan harapan pelanggan. Untuk itu Perusahaan harus dapat menyesuaikan diri dengan kebutuhan pelanggan agar keluhan dari pelanggan yang berujung pada konflik yang berkepanjangan. Terjadinya kesenjangan emosi antara Perusahaan dengan pelanggan disebabkan oleh ketidak mampuan Perusahaan dalam menciptakan iklim yang kondusif dengan pelanggan (Irfiani, 2014). Dalam menyelenggarakan layanan, baik kepada pelanggan internal maupun eksternal, pihak penyedia dan pemberi layanan harus selalu berupaya untuk mengacu kepada tujuan utama pelayanan, yaitu kepuasan konsumen (cunsumer satisfaction) atau kepuasan pelanggan (customer satisfaction) (Siska, 2019). Kualitas pelayanan dalam bidang pendidikan bukanlah hal yang dapat diperoleh dengan mudah dan tanpa usaha. Suatu jasa disebut berkualitas jika jasa tersebut mampu memenuhi kebutuhan dan memberikan kepuasan (Indriyani & Mardiana, 2016). Selain itu pelayanan adalah proses pemenuhan kebutuhan melalui aktivitas orang lain yang langsung diterima. Pelayanan juga dapat dikatakan tindakan yang dilakukan oleh orang lain agar masing-masing memperoleh keuntungan yang diharapkan dan mendapat kepuasan (Rangkuti, 2017).

(17)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Penyampaian Kritikan, keluhan, masukan, atau saran terhadap ketidakpuasan dan permasalahan yang ada di lingkungan universitas masih sangat terbatas.

Bahkan, tidak sedikit mahasiswa yang masih bingung harus ke mana untuk mengadukan keluhannya. Hal ini menyebabkan permasalahan yang ada hanya akan menjadi buah bibir di lingkungan universitas dan tak kunjung diproses. Sebagai contoh, kekurangan pembayaran kuliah dan hasil nilai ujian tidak sesuai dengan pengerjaanya. Kebanyakan mahasiswa, masih bingung harus melaporkan permasalahan ini ke mana. Selain itu, permasalahan lain muncul bila keluhan yang telah diutarakan baik lisan maupun tertulis tidak sampai kepada pengelola layanan universitas.

Keluhan yang diberikan oleh pelanggan dalam pemakaian produk atau jasa merupakan suatu umpan balik dari kualitas produk atau jasa yang digunakan oleh pelanggan. Semakin banyak keluhan yang diberikan oleh pelanggan membutuhkan adanya perhatian ekstra bagi setiap perusahaan yang menerima keluhan untuk memperbaiki dalam pembuatan produk atau jasa. Untuk itu setiap perusahaan harus mampu memberikan kepuasan kepada para pelanggannya dengan cara menyediakan produk yang mutunya lebih baik dan harga yang relatif terjangkau (Indriyani & Mardiana, 2016)

Jumlah keluhan yang tercatat yang berjumlah begitu besar tersebut dapat didefinisikan sebagai Big Data. Big Data merupakan data yang mempunyai jumlah dan variasi besar, serta bergerak cepat, sehingga melampaui kapasitas pengolahan database konvensional (Dumbill, 2014). Dalam mengolah Big Data, Data Mining merupakan metode yang dapat mengotomatisasi proses pengolahan data untuk mengekstraksi pengetahuan dari informasi yang tidak bisa diamati hanya dengan melihat data karena terlalu rumit atau multidimensi. Pada kasus data keluhan mahasiswa yang merupakan data teks, jenis metode Data Mining yang dapat digunakan adalah Text Mining. Text Mining memegang peran penting dalam analisis Big Data yang bersifat tidak terstruktur seperti data teks dan dalam jumlah yang sangat besar (Xiang et al., 2015) .

Text mining sebenarnya merupakan bagian dari data mining dimana proses yang dilakukan utamanya adalah melakukan ekstraksi pengetahuan dan informasi

(18)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri dari pola-pola yang terdapat dalam sekumpulan dokumen teks menggunakan alat analisis tertentu (Monarizqa et al., 2014)

Pada umumnya keluhan tercipta sebagai akibat dari kejadian yang tidak diinginkan atau hal yang terjadi tidak sesuai harapan. Keluhan dapat bersifat membangun apabila disampaikan kepada pihak dan tempat yang tepat. Namun dapat menjadi isu negatif dan penebar kebencian apabila tidak disampaikan dengan tepat dan dikonsumsi oleh mahasiswa yang tidak memiliki dasar pengetahuan akan hal terkait.

Terdapat beberapa penelitian sebelumnya terkait komplain layanan yang dilakukan oleh beberapa peneliti seperti, Analisa Sentiment Untuk Opini Alumni Pada Perguruan Tinggi (Dharmendra et al., 2019). Klasifikasi Topik Keluhan Pelanggan Berdasarkan Tweet dengan Menggunakan Penggabungan Feature Hasil Ekstraksi pada Metode Support Vector Machine (Pratama & Trilaksono, 2015).

Klasifikasi Keluhan Menggunakan Metode Support Vector Machine (SVM) (Studi Kasus : Akun Facebook Group iRaise Helpdesk)(Basari et al., 2013). Penerapan principal component analysis dan genetic algorithm pada analisis sentimen review pengiriman barang menggunakan algoritma support vector machine (Rachmi &

Hilda, 2017).Semua model algoritma dari penelitian diatas digunakan untuk menganalisa sentiment dari text.

Pada kesempatan ini penelitian yang akan dilakukan adalah pengolahan data komplain email dari mahasiswa yang dilakukan pada sisfo akademik mahasiswa dan melakukan preprocessing lalu menghitung akurasinya dengan beberapa metode klasifikasi data mining, diantaranya yaitu algoritma K-Nearest Neighbor dan Support Vector Machine (SVM), kedua metode tersebut digunakan dalam klasifikasi komplain mahasiswa dengan tujuan agar algoritma terpilih merupakan algoritma yang paling akurat sehingga dapat melakukam komplain mahasiswa.

(19)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 1.2. Identifikasi Masalah

Berdasarkan latar belakang permasalahan di atas maka identifikasi masalah pada penelitian ini menggunakan metode K-Nearest Neighbor dan Support Vector Machine, mampu dalam menyelesaikan masalah klasifikasi khususnya pada dataset text yaitu dataset komplain mahasiswa.

Berdasarkan latar belakang yang telah diuraikan diatas, maka dapat diidentifikasi beberapa permasalahan pokok diantaranya:

1. Komplain mahasiswa pada layanan email akademik sangat beragam sehingga harus indentifikasi complaint atau not complaint.

2. Metode klasifikasi K-Nearest Neighbor dan Support Vector Machine yang bisa digunakan untuk mengklasifikasi dataset dari teks untuk melihat hasil akurasi keluhan mahasiswa manakah metode algoritma yang paling akurat.

1.3. Batasan Masalah

Batasan masalah yang akan dibahas dalam penelitian ini adalah data yang diambil dari database sisfo akademik mahasiswa (students.bsi.ac.id). Data tersebut selanjutnya akan diklasifikasi menggunakan algoritma klasifikasi yaitu K-Nearest Neighbor dan Support Vector Machine kemudian melakukan evaluasi untuk mengukur tingkat keakuratan dengan penerapan evaluasi Confusion Matrix(Accurasy) dan ROC dalam klasifikasi komplain mahasiswa.

1.4. Rumusan Masalah

Berdasarkan permasalahan diatas maka rumusan masalah dalam penelitian ini adalah belum diketahuinya metode klasifikasi teks mining yang paling akurat dalam klasifikasi komplain mahasiswa pada layanan email akademik.

Pertanyaan penelitian :

Seberapa besar akurasi metode klasifikasi data mining algoritma K-Nearest Neighbor dan support vector machine SVM dalam klasifikasi komplain mahasiswa pada layanan email akademik?

(20)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 1.5. Tujuan Penelitian

Tujuan penelitian dalam penulisan tesis ini, diantaranya:

1. Mengetahui tingkat accuracy, recall dan precision dari opinion mining yang dihasilkan oleh teknik text mining algoritma klasifikasi algoritma K-Nearest Neighbor dan Support Vector Machine SVM dalam menentukan sebuah komplain mahasiswa pada layanan email akademik yaitu complaint atau not complaint.

2. Hasil penelitian ini dapat dijadikan sebagai bahan referensi untuk penelitian yang sama atau untuk pengembangan penelitian berikutnya dengan metode atau algoritma yang berbeda.

1.6. Ruang Lingkup Penelitian

Ruang lingkup dalam penelitian ini dilakukan agar dalam penelitian ini dapat lebih terarah, adapun ruang lingkup penelitian dalam penelitian ini pada pengujian menggunakan metode Algoritma klasifikasi K-Nearest Neighbor dan Support Vector Machine dalam menentukan sebuah komplain mahasiswa pada layanan komplain email akademik. Aplikasi yang digunakan rapidminer versi 9.1 selanjutnya melakukan evaluasi untuk mengukur tingkat keakuratan dengan penerapan Evaluasi Confusion Matrix (Accuracy) dan ROC Curve.

(21)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 1.7. Sistematika Penulisan

Sistematika penulisan tesis ini terdiri dari lima bab. Setiap bab terdiri dari beberapa sub bab yaitu:

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang penulisan, identifikasi masalah, Batasan masalah dan rumusan masalah, tujuan penelitian, ruang lingkup penelitian, dan sistematika penulisan dari penelitian yang akan disusun.

BAB II LANDASAN TEORI

Bab ini berisi tentang landasan teori yang digunakan sdalam melakukan penelitian.

BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang metode penelitian yang membahas tentang jenis peneltian, metode pengumpulan data, intrumen penelitian, pengujian data dan metode analisis.

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

Bab ini berisi tentag hasil dan pembahasan yang menguraikan tentang implementasi sistem pengukuran serta implikasi penelitian.

BAB V PENUTUP

Bab ini berisi kesimpulan dari hasil penelitian dan saran-saran yang dibutuhkan untuk pengembangan sistem lebih lanjut.

(22)

7

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri LANDASAN KERANGKA PEMIKIRAN

2.1. Tinjauan Pustaka

Pada tinjauan pustaka terdapat beberapa teori yang digunaka dalam menentukan dasar-dasar dari sebuah masalah serta penyelesaiannya. Dengan demikian peneliti dapat melakukan sebuah penelitian yang didasari bukti-bukti penelitian yang kuat.

2.1.1. Layanan Akademik

Pengertian layanan akademik menurut Rosita adalah upaya sistematis pendidikan untuk memfasilitasi peserta didik menguasai isi kurikulum melalui proses pembelajaran sehingga mereka mampu mencapai kompetensi standar yang diterapkan Mengingat pentingnya mutu dalam institusi pendidikan, maka dikaji dalam pengertian mutu layanan akademik, dimana menurut Pakpahan kualitas pelayanan akademik merupakan perbandingan antara pelayanan akademik yang dirasakan pelanggan atau stakeholders dengan kualitas pelayanan akademik yang diharapkan pelanggan atau stakeholders (Martasubrata & Suwatno, 2016)

Pelayanan yang diberikan kepada pelanggan akan menjadi efektif apabila sesuai dengan keinginan dan harapan pelanggan. Untuk itu Perusahaan harus dapat menyesuaikan diri dengan kebutuhan pelanggan agar keluhan dari pelanggan yang berujung pada konflik yang berkepanjangan.

2.1.2. Keluhan (Complaint)

Keluhan secara definisi diartikan sebagai satu pernyataan atau ungkapan rasa kurang puas terhadap satu produk atau layanan jasa, baik secara lisan maupun tertulis, dari penyampai keluhan baik internal maupun eksternal. Atau sebuah ungkapan ketidakpuasan antara harapan dengan fakta terhadap apa yang diterima dalam bentuk produk maupun layanan jasa (Saptono et al., 2016)

Keluhan yang diberikan oleh pelanggan dalam pemakaian produk atau jasa merupakan suatu umpan balik dari kualitas produk atau jasa yang digunakan oleh

(23)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri pelanggan. Semakin banyak keluhan yang diberikan oleh pelanggan membutuhkan adanya perhatian ekstra bagi setiap perusahaan yang menerima keluhan untuk memperbaiki dalam pembuatan produk atau jasa. Untuk itu setiap perusahaan harus mampu memberikan kepuasan kepada para pelanggannya dengan cara menyediakan produk yang mutunya lebih baik dan harga yang relatif terjangkau (Indriyani & Mardiana, 2016)

Customer complaint adalah indikator terbaik untuk menentukan apakah bisnis berorientasi layanan beroperasi dengan baik. Jika sebuah perusahaan tidak menangani keluhan pelanggannya dengan baik dan segera, pelanggan negatif lebih lanjut tanggapan akan menyebabkan kerusakan besar pada bisnis (Trappey, et. al, 2010).

Ada lima jenis pelanggan dan keluhan mereka yang bisa diindentifikasi, setiap jenis keluhan pelanggan dapat dimotivasi oleh keyakinan yang berbeda, sikap, dan kebutuhan. Pertimbangkan definisi berikut jenis-jenis pengeluh, bagaimana orang bisa menanggapi mereka, dan bahaya tidak menangani keluhan secara efektif (Wysocki, et. al, 2015).(Wysocki et al., 2015).

1. The Meek Customer, Umumnya tidak akan mengeluh.

Response : Secara aktif meminta komentar dan keluhan, dan bertindak dengan tepat untuk menyelesaikan keluhan.

Danger :Pelanggan dapat dengan tenang pergi, tidak pernah kembali lagi.

2. The Aggressive Customer.

Berseberangan dengan The meek customer, customer ini cepat mengeluh, sering keras dan panjang lebar.

Response : Dengarkan dengan hormat dan aktif, setujui bahwa ada suatu masalah, dan menunjukkan apa yang akan dilakukan untuk menyelesaikannya dan kapan.

Danger : Menjadi agresif sebagai balasannya. Pelanggan agresif tidak merespon dengan baik alasannya atau alasannya mengapa produk atau layanan tidak memuaskan.

3. The High-Roller Customer

Response : Mengharapkan yang terbaik dan bersedia membayarnya. Mungkin mengeluh dengan cara yang wajar, kecuali kalau berbeda dari pelanggan

(24)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri agresif. Tertarik dengan hasil dan bagaimana anda mengatasi masalah layanan pelanggan.

Danger : Seperti Pelanggan Agresif, Roller tinggi pelanggan tidak tertarik dengan alasan.

4. The Rip Off Customer

Tujuannya bukan untuk memuaskan keluhan tetapi untuk menang dengan mendapatkan sesuatu yang tidak berhak diterima oleh pelanggan. Respons yang terus-menerus dan "tidak cukup baik" terhadap upaya untuk memuaskan pelanggan ini adalah indikator pasti dari seni yang melakukan rip-off.

Response : Tetaplah tanpa tujuan. Gunakan data kuantitatif yang akurat untuk mem-backup tanggapan Anda. Pastikan pengaturannya sesuai dengan apa yang biasanya dilakukan organisasi dalam situasi itu. Pertimbangkan untuk bertanya “Apa yang dapat saya lakukan untuk memperbaiki keadaan?”

Setelah jawaban pertama “tidak cukup baik”.

5. The Chronic Complainer Customer

Tidak pernah puas selalu ada yang salah. Misi pelanggan ini adalah untuk mengeluh. Namun, mereka adalah pelanggan anda, dan sama frustrasinya dengan pelanggan ini, mereka tidak dapat diberhentikan.

Response : Kesabaran luar biasa diperlukan. Seseorang harus mendengarkan masing-masing dan tidak pernah mengungkapkan rasa frustrasi. Telinga yang simpatik, permintaan maaf yang tulus, dan upaya jujur untuk memperbaiki situasi mungkin merupakan respons yang paling produktif. Tidak seperti pelanggan yang merugi, sebagian besar The Chronic Complainer Customer akan menerima dan menghargai upaya Anda untuk memperbaikinya.

Pelanggan ini menginginkan permintaan maaf dan menghargai ketika anda mendengarkan. Para Chronic Complainer sering kali mengulang pelanggan (terlepas dari keluhan mereka yang terus-menerus) dan akan memberi tahu orang lain tentang tanggapan positif anda terhadap keluhan mereka

Pada umumnya keluhan tercipta sebagai akibat dari kejadian yang tidak diinginkan atau hal yang terjadi tidak sesuai harapan. Keluhan dapat bersifat membangun apabila disampaikan kepada pihak dan tempat yang tepat. Namun

(25)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri dapat menjadi isu negatif dan penebar kebencian apabila tidak disampaikan dengan tepat dan dikonsumsi oleh mahasiswa yang tidak memiliki dasar pengetahuan akan hal terkait.

2.1.3. Data Mining

Data mining diartikan sebagai suatu proses otomatis data-data yang sangat besar dan bertujuan untuk mendapatkan hubungan atau pola yang memberikan manfaat. Data mining juga merupakan suatu proses pendukung pengambil keputusan dimana mencari pola informasi dalam data. Pencarian ini dapat di lakukan oleh pengguna. Pencarian ini disebut discovery yang merupakan proses pencarian dalam basis data dalam menemukan pola yang tersembunyi tanpa ide yang di dapatkan sebelumnya atau hipotesa tentang pola yang ada. Dengan kata lain aplikasi mengambil inisiatif untuk menemukan pola dalam data tanpa pengguna berpikir mengenai pertanyaan yang relevan terlebih dahulu (Kusumo et al., 2016)

Data mining adalah studi pengumpulan, pembersihan, pengolahan, analisis, dan perolehan wawasan yang berguna dari data. Di era modern, hampir semua sistem otomatis menghasilkan beberapa bentuk data untuk tujuan diagnostik atau analisis. Hal ini mengakibatkan banjir data, yang telah mencapai urutan petabyte atau exabyte (Aggarwal, 2015).

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data.

Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat pada basis data. Data mining terutama digunakan untuk mencari pengetahuan yang terdapat dalam basis data yang besar sehingga sering disebut Knowledge Discovery Databases (KDD) (Vulandari, 2017)DM merupakan sebuah proses pencarian pola-pola yang menarik dan pengetahuan dari data dalam jumlah yang besar (Han, Jiawei, Micheline Kamber, 2012)

(26)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2.1.4. Pondasi Pokok Dalam Data Mining

Data Mining memiliki empat pondasi pokok (Han, Jiawei, Micheline Kamber, 2012), yaitu:

1. Classification (Klasifikasi)

Clasification adalah bentuk analisa data yang berusaha mengekstrak model yang menjelaskan kelas-kelas yang penting yang terkandung di dalam data.

2. Clustering (Klastering)

Clustering adalah pengelompokkan sekelompok objek data ke dalam beberapa kelompok atau kluster sehingga objek-objek yang berada dalam sebuah kluster memiliki kemiripan yang tinggi namun objek-objek tersebut memiliki ketidakmiripan dengan objek-objek dikluster yang berbeda.

3. Association (Asosiasi)

Association adalah sebuah proses untuk mencari relasi-relasi antar objek data yang terjadi secara berulang-ulang dalam sebuah dataset.

4. Outlier Detection

Deteksi pencicilan adalah sebuah proses untuk menemukan objek data dengan ciri-ciri sangat berbeda dengan ciri-ciri yang seharusnya dimiliki oleh objek data tersebut.

2.1.5. Model Proses Data Mining

Data mining merupakan sebuah proses, sehingga dalam melakukan prosesnya harus sesuai prosedur dalam data mining, proses data mining paling populer yaitu proses Cross-Industry Standard Process for Data Mining (CRISP-DM), berikut tahapan-tahapan dari proses CRISP-DM (Putler, Daniel S, 2015)

1. Business Understanding

Fase awal dalam proses CRISP-DM ini berfokus pada pemahaman tujuan dan kebutuhan proyek dari perspektif bisnis, kemudian mengubah pengetahuan ini ke dalam definisi masalah dan desain rencana awal data mining untuk mencapai tujuan proyek.

2. Data Understanding

Tahap pemahaman data dimulai dengan mengumpulkan data awal seperti

(27)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri mengenal data, mengidentifikasi permasalahan kualitas data, atau untuk mendeteksi subset data yang menarik.

3. Data Preparation

Pada tahap persiapan data merupakan sebuah fase akhir dalam mempersiapkan dataset untuk di gunakan dalam pembangunan model yang di bangun dari dari data mentah yang tersedia untuk di gunakan.

4. Modeling

Dalam tahap pemodelan, sebenarnya merupakan sebuah tahap model di bangun dan di nilai. Tugas umum yang terkait dengan tahap ini adalah:

pemilihan teknik pemodelan, menghasilkan desain uji, membangun model dan menilai model.

5. Evaluation

Pada tahap ini sebuah model yang telah di buat yang tampak memiliki kualitas tinggi dari perspektif analisis data telah dihasilkan. Sebelum dilanjutkan ke tahap penerapan. Tugas utama dalam tahap ini adalah evaluasi hasil dari model, review proses, dan menentukan tahap-tahap selanjutnya.

6. Deployment (using models in everyday business)

Pada tahap deployment ini adalah menerapkan model yang dikembangkan ke dalam proses bisnis yang relevan dalam sebuah organisasi.

Sumber : Putler dan Krider, 2015

Gambar 2.1. Model Proses Data Mining

(28)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2.1.6. Text mining

Text mining juga dikenal sebagai data mining teks atau penemuan pengetahuan dari database tekstual. Sesuai dengan buku The Text Mining Handbook (2007), text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data mining. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan dalam text mining adalah sekumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur.

Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks dan pengelompokkan teks (Nurhuda et al., 2014)

Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian/pengelompokkan dan menganalisa unstructured data dalam jumlah besar, dalam hal ini data yang akan digunakan adalah data yang diambil dari kolom komentar media berita online. Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data Mining, Information Retrieval, Statistik dan Matematik, Machine Learning, Linguistic, Natural Language Processing dan Visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistik serta indexing dan analisis sentimen (Nurhuda et al., 2014)

2.1.7. Text Preprocessing

Dalam melakukan text mining, teks dokumen yang digunakan harus dipersiapkan terlebih dahulu, setelah itu baru dapat digunakan untuk proses utama.

Berdasarkan ketidak teraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal. Salah satu implementasi dari text mining adalah tahap Text Preprocessing (Informatikalogi, 2016a). Text preprocessing diperlukan untuk mengkonversi format tidak terstruktur menjadi representasi yang terstruktur dan multidimensi (Aggarwal, 2018)

(29)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Tahap Text Preprocessing adalah tahapan dimana aplikasi melakukan seleksi data yang akan diproses pada setiap dokumen. Secara umum proses yang dilakukan dalam tahapan preprocessing ini meliputi (Informatikalogi, 2016b):

Sumber: (Informatikalogi, 2016b)

Gambar 2.2. Tahapan Proses Text Mining (Text Preprocessing)

1. Case Folding

Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran Case Folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin mendapatkan informasi

“KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau

“komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”.

Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Contoh dari tahap ini seperti yang ada dalam Gambar 2.3

Gambar 2.3. Proses Case Folding

(30)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2. Tokenizing

Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini dapat dilihat pada Gambar 2.4.

dibawah ini.

Gambar 2.4. Proses Tokenizing

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan. Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata.

Namun untuk karakter petik tunggal (‘), titik (.), semiko lon (;), titik dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata. Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

Gambar di atas merupakan gambaran dan hasil proses tokenizing. Pada gambar tersebut diperlihatkan serangkaian kalimat utuh, yang dipisahkan oleh spasi setiap katanya, setelah melalui proses tokenizing maka kalimat tersebut menjadi sekumpulan array yang setiap selnya berisi kata-kata yang ada pada kalimat tersebut. Pada proses tokenizing biasanya juga ditambahkan informasi jumlah kemunculan setiap kata pada kalimat tersebut.

3. Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token.

Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of- words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan

(Teks Input)

(31)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri seterusnya. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”. Contoh dari tahap ini seperti yang ada dalam Gambar 2.5.

Gambar 2.5. Proses Filtering

Pada proses ini kata-kata yang dianggap tidak mempunyai makna seperti kata sambung akan dihilangkan. Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword).

Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan, selain itu juga dapat mengurangi level noise.

Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pada proses ini biasanya digunakan daftar stopword yang tersimpan dalam suatu tabel basis data, yang nantinya digunakan sebagai acuan penghilangan kata.

Daftar stopword berbeda untuk setiap bahasanya. Pembangunan daftar stopword (disebut stoplist) yang kurang hati-hati dapat memperburuk kinerja sistem Information Retrieval (IR). Belum ada suatu kesimpulan pasti bahwa penggunaan stopping akan selalu meningkatkan nilai retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung bervariasi.

4. Stemming

Proses stemming adalah proses untuk mencari root dari kata hasil dari proses filtering. Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Pembuatan

(Hasil Token)

(32)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu Sistem Informasi Temu Kembali atau Information Retrieval System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.

Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

Gambar 2.6. Proses Stemming

Gambar di atas adalah contoh stemming dalam Bahasa Indonesia. Pada gambar tersebut diperlihatkan kata asal membela diubah menjadi kata dasar yaitu bela. Kemudian kata menguatnya dikembalikan kebentuk dasar menjadi kuat.

(Hasil filtering) (Hasil Stemming)

(33)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2.1.8. Gata Framework

Gata Framework adalah sebuah tools text processing online yang diciptakan oleh Dr. Windu Gata, M.Kom untuk mengubah data teks yang tidak terstruktur menjadi data teks terstruktur sehingga data siap digunakan pada teknik pemodelan yang sudah ditentukan. Tools tersebut dapat diakses dengan alamat http://www.gataframework.com

Gambar 2.7. Gata Framework

2.1.9 Teknik Klasifikasi

Teknik klasifikasi adalah sebuah model dalam data mining dimana classifier dikontruksi untuk memprediksi categorical label seperti “aman” atau “beresiko”

untuk data aplikasi peminjaman uang, “ ya” atau “tidak” untuk data marketing atau

“treatment A”, “treatment B”, “treatment C” untuk data medis. Kategori tersebut dapat direpresentasikan dengan nilai yang sesuai dengan kebutuhannya (Vulandari, 2017). Klasifikasi merupakan tugas yang sama dengan data mining, dimana tujuan utama dari klasifikasi adalah prediksi label kelas.

Tiap teknik klasifikasi menggunakan suatu algoritma pembelajaran untuk mendapatkan suatu model yang paling memenuhi hubungan antara himpunan atribut dan label kelas dalam data masukan. Biasanya masukan dari model klasifikasi merupakan sekumpulan record (training set). Tiap record meliputi

(34)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri himpunan attributes yang salah satu atributnya merupakan class. Model untuk atribut kelas merupakan suatu fungsi dari nilai-nilai atribut lainnya. Suatu test set digunakan untuk menentukan keakuratan model tersebut. Biasanya dataset yang diberikan dibagi menjadi training dan test sets, dimana training set digunakan untuk membangun model dan test set digunakan untuk memvalidasi (Herawati, Fajar, 2013). Berikut ini algoritma klasifikasi yang akan digunakan dalam penelitian ini antara lain:

1. Support Vector Machine (SVM)

Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari teori-teori komputasi yang telah ada puluhan tahun sebelumnya, seperti margin hyperplane (Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964, dsb.), kernel diperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan konsep-konsep pendukung yang lain, akan tetapi hingga tahun 1992, belum pernah ada upaya merangkaikan komponen-komponen tersebut (Suyanto, 2017)

Berbeda dengan strategi neural network yang berusaha mencari hyperplane pemisah antar class, SVM berusaha menemukan hyperplane yang terbaik pada input space. Prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problem non-linear. Dengan memasukkan konsep trik kernel pada ruang kerja berdimensi tinggi. Perkembangan ini memberikan rangsangan minat penelitian dibidang pattern recognition untuk investigasi potensi kemampuan SVM secara teoritis maupun dari segi aplikasi.

Dewasa ini SVM telah berhasil diaplikasikan dalam problema dunia nyata (real- world problems), dan secara umum memberikan solusi yang lebih baik dibandingkan metode konvensional seperti misalnya artificial neural network (Nugroho et al., 2003).

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane-hyperplan terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar 2.8-a memperlihatkan beberapa pattern yang merupakan

(35)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri anggota dari dua buah class: +1 dan –1. Pattern yang tergabung pada class –1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning (lingkaran). Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut (Nugroho et al., 2003)

Sumber: (Nugroho et al., 2003)

Gambar 2.8. SVM berusaha menemukan hyperplan terbaik yang memisahkan kedua class -1 dan +1

Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada gambar 2.8-a. Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan pattern terdekat dari masing-masing class. Pattern yang paling dekat ini disebut sebagai support vector. Garis solid pada gambar 2.8-b menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkaran hitam adalah support vector. Usaha untuk mencari lokasi hyperplane ini merupakan inti dari proses pembelajaran pada SVM (Nugroho et al., 2003)

Berikut ini merupakan kekuatan dari Support Vector Machine (SVM) antara lain (Suyanto, 2017)

1) Mempunyai kemampuan generalisasi yang tinggi.

2) Mampu menghasilkan model klasifikasi yang baik meskipun dilatih dengan himpunan data yang relatif sedikit hanya dengan pengaturan parameter yang sederhana. SVM memiliki konsep dan formulasi yang jelas dengan sedikit

(36)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri parameter yang harus diatur.

3) Relatif mudah diimplementasikan karena penentuan SVM dapat dirumuskan dalam masalah QP (Quadratic Programming).

Sementara itu, kelemahan yang terdapat dalam Support Vector Machine (SVM) sebagai berikut:

1) Sulit diaplikasikan untuk himpunan data dengan jumlah sampel dan dimensi yang sangat besar.

2) Umumnya hanya diformulasikan untuk meyelesaikan masalah klasifikasi dua kelas. Walupun dapat dikembangkan untuk menyelesaikan masalah klasifikasi multi kelas, namun masing-masing strategi multi kelas SVM juga memiliki kelemahan.

2. K-Nearest Neighbor (K-NN)

Algoritma k-NN bekerja dengan belajar berdasarkan analogi, yakni dengan membandingkan test tuple dengan training tuple yang serupa dengannya. Seluruh training tuple disimpan dalam sebuah ruang n-dimensi pola. Saat diberikan tupel yang tidak diketahui, k-NN akan mencari sejumlah (k) training tuple yang terdekat dengan tuple yang tidak diketahui tersebut (Han, Jiawei, Micheline Kamber, 2012).

Rumus k-NN secara umum sebagai berikut (Lestari, 2014)

Algoritma k-nearest neighbor merupakan metode klasifikasi yang mengelompokkan data baru berdasarkan jarak data baru itu kebeberapa data atau tetangga (neighbor) terdekat. Teknik k-NN dengan melakukan langkah-langkah yaitu, mulai input : data training, label, data training, dan data testing. k-Nearest Neighbor (k-NN) merupakan metode klasifikasi, dimana objek baru diberi label berdasarkan objek yang terdekat (Gorunescu, 2011).

(37)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri Keterangan:

x₁= Sampel Data

x₂= Data Uji / Testing i = Variabel Data

d = Jarak

p = Dimensi Data

2.1.10 Pengujian K-Fold Cross Validation

Validation merupakan proses untuk mengevaluasi keakurasian prediksi dari model data mining. K-Fold Cross Validation merupakan sebuah teknik validasi dengan cara membagi data secara acak kedalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi (Han, Jiawei, Micheline Kamber, 2012).

Dengan menggunakan K-Fold Cross Validation akan dilakukan percobaan sebanyak k. Tiap percobaan akan menggunakan satu data testing dan k-1 bagian akan menjadi data training, kemudian data testing itu akan ditukar dengan satu buah data training sehingga untuk tiap percobaan akan didapatkan data testing yang berbeda-beda. Data training adalah data yang akan dipakai dalam melakukan pembelajaran sedangkan data testing adalah data yang belum pernah dipakai sebagai pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau keakurasian hasil pembelajaran (Witten, H. I., Frank, E., & Hall, 2011)

K-Fold cross validation merupakan bentuk dasar lintas validasi dimana kasus k-fold cross validation akan melibatkan putaran berulang sebanyak K validation.

Misalnya pada kasus 10 fold cross validation maka data akan dibagi menjadi 10 set bagian, kemudian akan dilakukan 10 kali putaran (iterasi) untuk pengujian dan validasi (Saumi Ramdhani, 2016).

(38)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2.1.11 Evaluasi dan Model Validasi

Evaluasi pada algoritma Decision Tree dan naive bayes menggunakan model confusion matrix dan kurva ROC (Receiver Operating Characteristic).

1. Confusion Matrix

Confusion Matrix adalah alat yang sangat berguna untuk menganalisa seberapa baik pengklasifikasi bias mengenali tuple dari class yang berbeda (Utami, 2017). Evaluasi dengan menggunakan fungsi confusion matrix akan menghasilkan nilai accuracy, precision dan recall.

Kurva ROC akan digunakan untuk mengukur Area Under Curve (AUC).

Kurva ROC membagi hasil positif dalam sumbu y dan hasil negative dalam sumbu x sehingga semakin besar area yang berada dibawah kurva, semakin baik pula hasil prediksi.

Tabel 2.1. Model Confusion Matrix

Keterangan :

True Positive (TP) : proporsi positif dalam dataset yang diklasifikasikan positif

True Negative (TN) : proporsi negative dalam dataset yang diklasifikasikan negative

False Positive (FP) : proporsi negatif dalam dataset yang diklasifikasikan positif

False Negative (FN) : proporsi negative dalam dataset yang dikalsifikasikan negatif

3

Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai yang telah dimasukkan tersebut untuk dihitung jumlah sensitivity (recall), spesificity, precision dan accuracy. Sensitivity digunakan untuk membandingkan jumlah TP terhadap jumlah record yang positif sedangkan specificity adalah perbandingan jumlah TN terhadap jumlah record yang

Classification Predited Class

Observed Class

Class = Yes Class = No

Class = Yes A (true positive–TP) B (false negative–FN) Class = No C (false positive–FP) D (true negative–TN)

(39)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri negatif. Untuk menghitung digunakan persamaan dibawah ini (Irfansyah, 2016).

a.

TP+TN

∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙(8)

Accuracy =

TP+TN +FP +FN b.

Sensitivity= tp ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙(9) tp+ fn

c.

Specitivity = tn ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙(10) tn+ fp

d.

PPN= tp

∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ (9) tp+ fp

e.

NPV = tn ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ (12) tn +fn

Keterangan:

TP = True Positif TN = True Negatif

FP = False Positif FN = False Negatif

Sensitivity juga dapat dikatakan true positive rate (TP rate) atau recall.

Sebuah sensitivity 100% berarti bahwa pengklasifikasian mengakui sebuah kasus yang diamati positif.

2. Kurva ROC

Fungsi kurva ROC adalah untuk menunjukan akurasi dan membandingkan klasifikasi secara visual. ROC mengekspresikan confusion matrix, ROC adalah grafik dua dimensi dengan false positive sebagai garis horizontal dan true positive sebagai garis vertical (N. Nuraeni, 2017).

3.

ROC (Receive Operating Characteristic) merupakan cara yang digunakan untuk menggambarkan akurasi diskriminasi dari suatu pengujian diagnosis untuk menentukan apakah seseorang menderita suatu penyakit tertentu atau

(40)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri tidak. Kurva ROC adalah plot dari sensitifity terhadap 1-specificity untuk beberapa nilai threshold yang digunakan untuk menerangkan ketepatan uji dalam berbagai tingkatan titik potong dalam membaca specificity yang sesuai dengan sensitivity yang ada (Nugroho & Emiliyawati, 2017).

Sumber : Nuraeni, 2017

Gambar 2.9 Model Grafik ROC

Hasil perhitungan dapat divisualisasikan dengan kurva ROC (Receiver Operating Characteristic) atau AUC (Area Under Curve). Berikut tingkat nilai diagnosa dari ROC, yaitu : (Gorunescu, 2011).

a. Akurasi bernilai 0.90 – 1.00 = Excellent classification b. Akurasi bernilai 0.80 – 0.90 = Good classification c. Akurasi bernilai 0.70 – 0.80 = Fair classification d. Akurasi bernilai 0.60 – 0.70 = Poor classification e. Akurasi bernilai 0.50 – 0.60 = Failure’

2.1.12 RapidMiner

RapidMiner merupakan perangkat lunak yang bersifat terbuka (open source).

RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriftif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan menggunakan bahasa java sehingga dapat

(41)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri bekerja di semua sistem operasi (Aprilia et al., 2013)

RapidMiner sebelumnya bernama YALE (Yet Another Learning Environmet), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund, RapidMiner didistribusikan di bawah licensi AGPL (GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi yang dikembangkan menggunakan RapidMiner di lebih dari 40 negara. RapidMiner sebagai software open source untuk data mining tidak perlu diragukan lagi karena software ini terkemuka di dunia. RapidMiner menempati peringkat pertama sebagai Software data minig pada polling oleh Kdnuggets, sebuah portal data mining pada 2010-2011.

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML (Extensible Markup Language) yang mendefinisikan proses analitis keinginan pengguna untuk diterapkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalakan analisis secara otomatis.

RapidMiner memiliki beberapa sifat dalam pengolahan data antara lain sebagai berikut:

1. Ditulis dengan bahsa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

3. Representasi XML internal untuk memastikan format standar pertukaran data.

4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penangan data.

6. Memiliki GUI, command line mode, dan Jawa API yang dapat dipanggil dari program lain.

7. Ada banyak fitur yang ada dalam RapidMiner beikut beberapa fitur dari RapidMiner, antara lain:

(42)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 1) Banyaknya algoritma data mining, seperti decision tree dan self-

organization map.

2) Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart dan 3D Scatter plots

3) Banyaknya variasi plugin, seperti text plugin utuk melakukan analisis text.

4) Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation loading), data preprocessing, visualisasi, modelling dan evaluasi.

5) Proses data mining tersusun atar operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI.

2.2

Tinjauan Studi

Studi literatur mengenai pembahasan text mining menggunakan algoritma Support Vector Machine dan K-Nearest Neighbor telah banyak dilakukan pada penelitian sebelumnya.

2.2.1 Penelitian Terkait

Penelitian terdahulu sangatlah penting sebagai kajian untuk mengetahui keterkaitan antara penelitian terdahulu dengan penelitian yang akan di lakukan, untuk menghindari terjadinya tindakan duplikasi. Tujuan dari tinjauan studi ini adalah untuk menunjukkan bahwa penelitian ini sangat bermanfaat dan mempunyai arti penting sehingga dapat diketahui kotribusi penelitian terhadap ilmu pengetahuan. Berikut beberapa ulasan tentang penelitian-penelitian terdahulu yang pernah dilakukan sebelumnya berkenaan dengan data dan metode yang digunakan.

Beberapa jurnal dan penelitian yang jadikan sebagai acuan adalah sebagai berikut.

1. Penelitian pertama dilakukan oleh Fatmawati, Muhammad Affandes yang membahas tentang Klasifikasi Keluhan Menggunakan Metode Support Vector Machine (SVM) (Studi Kasus : Akun Facebook Group iRaise Helpdesk), Facebook Group iRaise Helpdesk merupakan salah satu layanan media sosial yang digunakan pihak PTIPD UIN Suska Riau sebagai layanan pelanggan (customer services) sistem akademik. Mengingat sistem akademik baru