i
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN JUDUL
SKRIPSI
Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu Program Studi Informatika
Disusun oleh:
NUR SHOBRIANA TRIHABSARI M0511042
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET
ii SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN PENGAJUAN
Disusun oleh: Nur Shobriana Trihabsari
M0511042
Ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Strata Satu Program Studi Informatika
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET
iii SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN PERSETUJUAN
Disusun oleh: Nur Shobriana Trihabsari
M0511042
Skripsi ini telah disetujui untuk dipertahankan dihadapan dewan penguji, pada tanggal: 4 Oktober 2016
Pembimbing I,
Ristu Saptono S.Si, M.T NIP. 19790210 200212 1001
Pembimbing 2,
iv SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN PENGESAHAN Disusun oleh:
Nur Shobriana Trihabsari M0511042
Telah dipertahankan dihadapan Dewan Penguji, pada tanggal: 4 Oktober 2016
Susunan Dewan Penguji
1. Ristu Saptono, S.Si., M.T. ( )
NIP. 19790210 200212 1001
2. Meiyanto Eko Sulistyo, S. T., M.Eng. ( ) NIP. 19770513 200912 1004
3. Afrizal Doewes, S.Kom., M.Sc. ( )
NIP. 19850831 201212 1004
4. Dr. Wiranto, M.Kom., M.Cs ( )
NIP. 19661230 199302 1001
Disahkan oleh
Kepala Program Studi Informatika
v
PERSEMBAHAN
vi MOTTO
“There are no secret to success. It is the result of preparation, hard work, and learning from failure.”
vii
KATA PENGANTAR
Puji syukur kehadirat Allah SWT yang telah melimpahkan rahmatnya sehingga penulis dapat menyelesaikan Skripsi dengan judul “Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN”. Laporan Skripsi ini disusun untuk memenuhi salah satu syarat dalam memperoleh gelar Sarjana Komputer pada Program Studi Informatika Universitas Sebelas Maret.
Dalam melakukan penelitian dan penyusunan laporan Skripsi ini penulis telah mendapatkan banyak dukungan dan bantuan dari berbagai pihak. Penulis mengucapkan terimakasih yang tak terhingga kepada:
1. Bapak dan Ibu serta keluarga yang selalu memberikan dukungan dan semangat untuk menyelesaikan tugas akhir.
2. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D. selaku Dekan Fakultas MIPA Universitas Sebelas Maret.
3. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program Studi Informatika Universitas Sebelas Maret.
4. Bapak Abdul Aziz S.Kom., M.Cs. dosen Pembimbing Akademik yang telah memberikan bimbingan selama Penulis menempuh studi di Program Studi Informatika.
5. Bapak Ristu Saptono, S.Si., M.T. dan Bapak Meiyanto Eko Sulistyo S.T., M.Eng. selaku dosen pembimbing yang telah dengan penuh kesabaran dan ketulusan memberikan ilmu dan bimbingan terbaik kepada Penulis.
6. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang telah memberikan bekal ilmu kepada Penulis.
viii
Penulis menyadari sepenuhnya bahwa laporan Skripsi ini masih jauh dari sempurna. Walaupun demikian, semoga tulisan ini dapat memberikan manfaat dan memberikan wawasan tambahan bagi para pembaca dan khususnya bagi penulis.
Surakarta, 2016
ix
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN
NUR SHOBRIANA TRIHABSARI
Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret
ABSTRAK
Teks merupakan salah satu jenis penyajian informasi yang terbentuk dari
susunan kata-kata dengan bahasa tertentu. Informasi yang tersimpan dalam suatu
teks diantaranya tema yang dibahas, isu yang diangkat, bahasa yang digunakan
dan sebagainya. Seseorang dapat mengetahui tema yang sedang dibahas oleh suatu
teks karena melihat adanya karakteristik dari teks tersebut. Karakteristik dari
sebuah teks dapat dilihat dari kata -kata penyusunnya. Dengan memanfaatkan
karakteristiknya, sebuah teks dapat diklasifikasikan berdasarkan jenis informasi
yang tersimpan. Terdapat berbagai algoritma klasifikasi. Salah satu algoritma
klasifikasi teks yang sering digunakan adalah Naive Bayes Classifier (NBC). NBC
dalam penelitian ini digunakan untuk mengklasifikasikan teks berupa soal-soal
ujian SBMPTN berdasarkan tema bidang studinya. Salah satu metode seleksi fitur
DF-Threshold diterapkan untuk mendukung proses klasifikasi. Model increment
dari klasifikasi diperlukan, mengingat jumlah teks soal ujian yang terus
berkembang dan bertambah. Model increment dari NBC yaitu Naive Bayes
Updateable memiliki kemampuan untuk belajar dari data-data yang baru dikenal
oleh sistem bahkan setelah classifier dijalankan dengan data yang ada sebelumnya.
Penelitian ini dilakukan untuk mengetahui bagaimana kinerja Naive Bayes
Updateable dalam mengklasifikasikan soal-soal ujian SBMPTN berdasarkan tema
bidang studi. Evaluasi klasifikasi dengan algoritma Naive Bayes Updateable
menghasilkan akurasi 90,91%.
x
TEXT CLASSIFICATION USING NAIVE BAYES UPDATEABLE ALGORITHM IN SBMPTN TEST QUESTIONS
NUR SHOBRIANA TRIHABSARI
Department of Informatics, Faculty of Mathematics and Natural Science, Sebelas Maret University
ABSTRACT
Text is one way to present the information that is formed by words of the
particular language. Information which stored in a text such as the themes
discussed, the issues raised, the language used and so on. We can discover which
theme is being discussed by a text because we saw the characteristics of the text.
Characteristics of a text can be seen from the diction it used. By utilizing its
characteristics, a text can be classified based on the type of stored information.
There are various classification algorithms. One algorithm frequently used in text
classification is Naive Bayes Classifier (NBC). NBC in this study is used to classify
text form SBMPTN exam questions based on the theme of the field of study. One
method of feature selection DF-Threshold applied to support the classification
process. Incremental model of this classification is required, considering the
amount of exam questions that continuosly growing. Naive Bayes Updateable is an
incremental model from NBC. It has the ability to learn from new data introduces
with the system even after the classifier has been produced with the existing data.
This study was conducted to determine about Naive Ba yes Updateable
classification performance for the SBMPTN exam questions based on its theme of
the field of study. This algorithm produced 90,91% accuracy
xi DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PENGAJUAN ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
PERSEMBAHAN ... v
MOTTO ... vi
KATA PENGANTAR ... vii
ABSTRAK ... ix
ABSTRACT ... x
DAFTAR ISI ... xi
DAFTAR TABEL ... xiii
DAFTAR GAMBAR ... xv
DAFTAR LAMPIRAN ... xvi
1. BAB I PENDAHULUAN ... 1
Latar Belakang ... 1
Rumusan Masalah ... 3
Batasan Masalah ... 3
Tujuan Penelitian... 4
Manfaat Penelitian... 4
Sistematika Penulisan ... 4
2. BAB II TINJAUAN PUSTAKA ... 6
Dasar Teori ... 6
Stemming ... 6
Tokenizing ... 11
StopwordRemoval ... 12
Document Frequency Thresholding ... 12
xii
Naive Bayes Updateable ... 16
Penelitian Terkait ... 16
Rencana Penelitian ... 18
3. BAB III METODOLOGI PENELITIAN ... 20
Pengumpulan Data ... 20
Text Preprocessing ... 21
Training Data ... 21
Feature Selection... 21
Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ... 24
Evaluasi ... 25
4. BAB IV HASIL DAN PEMBAHASAN ... 28
Pengumpulan Data ... 28
Text Preprocessing ... 28
Training Data ... 29
Feature Selection... 31
Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ... 33
Evaluasi ... 34
5. BAB V PENUTUP ... 51
Kesimpulan... 51
Saran ... 51
xiii
DAFTAR TABEL
Tabel 2.1 Kombinasi awalan dan akhiran yang tidak diijinkan ... 7
Tabel 2.2 Cara menentukan tipe awalan kata yang diawali dengan “te-“ ... 8
Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ... 8
Tabel 2.4 Daftar Stopwords dalam Bahasa Indonesia ... 12
Tabel 2.5 Keterkaitan penelitian dengan penelitian sebelumnya ... 18
Tabel 3.1 Contoh Term Frequency dan Document Frequency ... 22
Tabel 3.2 Confusion matrix hasil klasifikasi ... 25
Tabel 4.1 Pengaruh pemilihan angka threshold terhadap akurasi... 33
Tabel 4.2 Precision, recall, dan f-measure dari proses memorizing I ... 34
Tabel 4.3 Confussion matrix dari proses testing I ... 36
Tabel 4.4 Precision, recall, dan f-measure dari proses testing I ... 36
Tabel 4.5 Precision, recall, dan f-measure dari proses memorizing II ... 37
Tabel 4.6 Confussion matrix dari proses testing II ... 38
Tabel 4.7 Precision, recall, dan f-measure dari proses testing II ... 39
Tabel 4.8 Hasil evaluasi klasifikasi ... 39
Tabel 4.9 Fitur data testing yang gagal diklasifikasikan dengan benar pada proses testing I ... 40
Tabel 4.10 Daftar keyword dari kelas Reaksi Redoks dan Elektrokimia dan kelas Metabolisme ... 42
Tabel 4.11 Mean dan varian fitur dari kelas Reaksi Redoks dan Elektrokimia dan kelas Metabolisme ... 43
Tabel 4.12 Daftar keyword dari kelas Sosialisasi sebagai Proses dalam Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang dan Sikap Antisosial ... 44
xiv
Tabel 4.14 Daftar keyword dari kelas Proses Interaksi Sosial sebagai Dasar Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas Perubahan Sosial di Masyarakat ... 46 Tabel 4.15 Mean dan varian fitur dari kelas Proses Interaksi Sosial sebagai Dasar
Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas Perubahan Sosial di Masyarakat ... 47 Tabel 4.16 Daftar fitur soal ujian yang gagal diklasifikasikan dengan benar pada
proses testing II ... 48 Tabel 4.17 Daftar keyword dari kelas Jaringan Tumbuhan dan kelas Pertumbuhan
dan Perkembangan – Teori ... 48 Tabel 4.18 Mean dan varian fitur dari kelas Jaringan Tumbuhan dan kelas
Pertumbuhan dan Perkembangan – Teori ... 49 Tabel 4.19 Perbandingan fitur soal ujian data testing I dan II kelas Reaksi Redoks
xv
DAFTAR GAMBAR
Gambar 2.1 Proses Tokenisasi ... 11
Gambar 3.1 Diagram alir metodologi penelitian... 20
Gambar 4.1 Contoh tahapan text preprocesiing ... 29
Gambar 4.2 Contoh perhitungan nilai mean dan varian ... 30
xvi
DAFTAR LAMPIRAN