• Tidak ada hasil yang ditemukan

Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN."

Copied!
16
0
0

Teks penuh

(1)

i

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN JUDUL

SKRIPSI

Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu Program Studi Informatika

Disusun oleh:

NUR SHOBRIANA TRIHABSARI M0511042

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET

(2)

ii SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PENGAJUAN

Disusun oleh: Nur Shobriana Trihabsari

M0511042

Ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Strata Satu Program Studi Informatika

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET

(3)

iii SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PERSETUJUAN

Disusun oleh: Nur Shobriana Trihabsari

M0511042

Skripsi ini telah disetujui untuk dipertahankan dihadapan dewan penguji, pada tanggal: 4 Oktober 2016

Pembimbing I,

Ristu Saptono S.Si, M.T NIP. 19790210 200212 1001

Pembimbing 2,

(4)

iv SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PENGESAHAN Disusun oleh:

Nur Shobriana Trihabsari M0511042

Telah dipertahankan dihadapan Dewan Penguji, pada tanggal: 4 Oktober 2016

Susunan Dewan Penguji

1. Ristu Saptono, S.Si., M.T. ( )

NIP. 19790210 200212 1001

2. Meiyanto Eko Sulistyo, S. T., M.Eng. ( ) NIP. 19770513 200912 1004

3. Afrizal Doewes, S.Kom., M.Sc. ( )

NIP. 19850831 201212 1004

4. Dr. Wiranto, M.Kom., M.Cs ( )

NIP. 19661230 199302 1001

Disahkan oleh

Kepala Program Studi Informatika

(5)

v

PERSEMBAHAN

(6)

vi MOTTO

“There are no secret to success. It is the result of preparation, hard work, and learning from failure.

(7)

vii

KATA PENGANTAR

Puji syukur kehadirat Allah SWT yang telah melimpahkan rahmatnya sehingga penulis dapat menyelesaikan Skripsi dengan judul “Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN”. Laporan Skripsi ini disusun untuk memenuhi salah satu syarat dalam memperoleh gelar Sarjana Komputer pada Program Studi Informatika Universitas Sebelas Maret.

Dalam melakukan penelitian dan penyusunan laporan Skripsi ini penulis telah mendapatkan banyak dukungan dan bantuan dari berbagai pihak. Penulis mengucapkan terimakasih yang tak terhingga kepada:

1. Bapak dan Ibu serta keluarga yang selalu memberikan dukungan dan semangat untuk menyelesaikan tugas akhir.

2. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D. selaku Dekan Fakultas MIPA Universitas Sebelas Maret.

3. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program Studi Informatika Universitas Sebelas Maret.

4. Bapak Abdul Aziz S.Kom., M.Cs. dosen Pembimbing Akademik yang telah memberikan bimbingan selama Penulis menempuh studi di Program Studi Informatika.

5. Bapak Ristu Saptono, S.Si., M.T. dan Bapak Meiyanto Eko Sulistyo S.T., M.Eng. selaku dosen pembimbing yang telah dengan penuh kesabaran dan ketulusan memberikan ilmu dan bimbingan terbaik kepada Penulis.

6. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang telah memberikan bekal ilmu kepada Penulis.

(8)

viii

Penulis menyadari sepenuhnya bahwa laporan Skripsi ini masih jauh dari sempurna. Walaupun demikian, semoga tulisan ini dapat memberikan manfaat dan memberikan wawasan tambahan bagi para pembaca dan khususnya bagi penulis.

Surakarta, 2016

(9)

ix

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN

NUR SHOBRIANA TRIHABSARI

Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret

ABSTRAK

Teks merupakan salah satu jenis penyajian informasi yang terbentuk dari

susunan kata-kata dengan bahasa tertentu. Informasi yang tersimpan dalam suatu

teks diantaranya tema yang dibahas, isu yang diangkat, bahasa yang digunakan

dan sebagainya. Seseorang dapat mengetahui tema yang sedang dibahas oleh suatu

teks karena melihat adanya karakteristik dari teks tersebut. Karakteristik dari

sebuah teks dapat dilihat dari kata -kata penyusunnya. Dengan memanfaatkan

karakteristiknya, sebuah teks dapat diklasifikasikan berdasarkan jenis informasi

yang tersimpan. Terdapat berbagai algoritma klasifikasi. Salah satu algoritma

klasifikasi teks yang sering digunakan adalah Naive Bayes Classifier (NBC). NBC

dalam penelitian ini digunakan untuk mengklasifikasikan teks berupa soal-soal

ujian SBMPTN berdasarkan tema bidang studinya. Salah satu metode seleksi fitur

DF-Threshold diterapkan untuk mendukung proses klasifikasi. Model increment

dari klasifikasi diperlukan, mengingat jumlah teks soal ujian yang terus

berkembang dan bertambah. Model increment dari NBC yaitu Naive Bayes

Updateable memiliki kemampuan untuk belajar dari data-data yang baru dikenal

oleh sistem bahkan setelah classifier dijalankan dengan data yang ada sebelumnya.

Penelitian ini dilakukan untuk mengetahui bagaimana kinerja Naive Bayes

Updateable dalam mengklasifikasikan soal-soal ujian SBMPTN berdasarkan tema

bidang studi. Evaluasi klasifikasi dengan algoritma Naive Bayes Updateable

menghasilkan akurasi 90,91%.

(10)

x

TEXT CLASSIFICATION USING NAIVE BAYES UPDATEABLE ALGORITHM IN SBMPTN TEST QUESTIONS

NUR SHOBRIANA TRIHABSARI

Department of Informatics, Faculty of Mathematics and Natural Science, Sebelas Maret University

ABSTRACT

Text is one way to present the information that is formed by words of the

particular language. Information which stored in a text such as the themes

discussed, the issues raised, the language used and so on. We can discover which

theme is being discussed by a text because we saw the characteristics of the text.

Characteristics of a text can be seen from the diction it used. By utilizing its

characteristics, a text can be classified based on the type of stored information.

There are various classification algorithms. One algorithm frequently used in text

classification is Naive Bayes Classifier (NBC). NBC in this study is used to classify

text form SBMPTN exam questions based on the theme of the field of study. One

method of feature selection DF-Threshold applied to support the classification

process. Incremental model of this classification is required, considering the

amount of exam questions that continuosly growing. Naive Bayes Updateable is an

incremental model from NBC. It has the ability to learn from new data introduces

with the system even after the classifier has been produced with the existing data.

This study was conducted to determine about Naive Ba yes Updateable

classification performance for the SBMPTN exam questions based on its theme of

the field of study. This algorithm produced 90,91% accuracy

(11)

xi DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN PENGAJUAN ... ii

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

PERSEMBAHAN ... v

MOTTO ... vi

KATA PENGANTAR ... vii

ABSTRAK ... ix

ABSTRACT ... x

DAFTAR ISI ... xi

DAFTAR TABEL ... xiii

DAFTAR GAMBAR ... xv

DAFTAR LAMPIRAN ... xvi

1. BAB I PENDAHULUAN ... 1

Latar Belakang ... 1

Rumusan Masalah ... 3

Batasan Masalah ... 3

Tujuan Penelitian... 4

Manfaat Penelitian... 4

Sistematika Penulisan ... 4

2. BAB II TINJAUAN PUSTAKA ... 6

Dasar Teori ... 6

Stemming ... 6

Tokenizing ... 11

StopwordRemoval ... 12

Document Frequency Thresholding ... 12

(12)

xii

Naive Bayes Updateable ... 16

Penelitian Terkait ... 16

Rencana Penelitian ... 18

3. BAB III METODOLOGI PENELITIAN ... 20

Pengumpulan Data ... 20

Text Preprocessing ... 21

Training Data ... 21

Feature Selection... 21

Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ... 24

Evaluasi ... 25

4. BAB IV HASIL DAN PEMBAHASAN ... 28

Pengumpulan Data ... 28

Text Preprocessing ... 28

Training Data ... 29

Feature Selection... 31

Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ... 33

Evaluasi ... 34

5. BAB V PENUTUP ... 51

Kesimpulan... 51

Saran ... 51

(13)

xiii

DAFTAR TABEL

Tabel 2.1 Kombinasi awalan dan akhiran yang tidak diijinkan ... 7

Tabel 2.2 Cara menentukan tipe awalan kata yang diawali dengan “te-“ ... 8

Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ... 8

Tabel 2.4 Daftar Stopwords dalam Bahasa Indonesia ... 12

Tabel 2.5 Keterkaitan penelitian dengan penelitian sebelumnya ... 18

Tabel 3.1 Contoh Term Frequency dan Document Frequency ... 22

Tabel 3.2 Confusion matrix hasil klasifikasi ... 25

Tabel 4.1 Pengaruh pemilihan angka threshold terhadap akurasi... 33

Tabel 4.2 Precision, recall, dan f-measure dari proses memorizing I ... 34

Tabel 4.3 Confussion matrix dari proses testing I ... 36

Tabel 4.4 Precision, recall, dan f-measure dari proses testing I ... 36

Tabel 4.5 Precision, recall, dan f-measure dari proses memorizing II ... 37

Tabel 4.6 Confussion matrix dari proses testing II ... 38

Tabel 4.7 Precision, recall, dan f-measure dari proses testing II ... 39

Tabel 4.8 Hasil evaluasi klasifikasi ... 39

Tabel 4.9 Fitur data testing yang gagal diklasifikasikan dengan benar pada proses testing I ... 40

Tabel 4.10 Daftar keyword dari kelas Reaksi Redoks dan Elektrokimia dan kelas Metabolisme ... 42

Tabel 4.11 Mean dan varian fitur dari kelas Reaksi Redoks dan Elektrokimia dan kelas Metabolisme ... 43

Tabel 4.12 Daftar keyword dari kelas Sosialisasi sebagai Proses dalam Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang dan Sikap Antisosial ... 44

(14)

xiv

Tabel 4.14 Daftar keyword dari kelas Proses Interaksi Sosial sebagai Dasar Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas Perubahan Sosial di Masyarakat ... 46 Tabel 4.15 Mean dan varian fitur dari kelas Proses Interaksi Sosial sebagai Dasar

Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas Perubahan Sosial di Masyarakat ... 47 Tabel 4.16 Daftar fitur soal ujian yang gagal diklasifikasikan dengan benar pada

proses testing II ... 48 Tabel 4.17 Daftar keyword dari kelas Jaringan Tumbuhan dan kelas Pertumbuhan

dan Perkembangan – Teori ... 48 Tabel 4.18 Mean dan varian fitur dari kelas Jaringan Tumbuhan dan kelas

Pertumbuhan dan Perkembangan – Teori ... 49 Tabel 4.19 Perbandingan fitur soal ujian data testing I dan II kelas Reaksi Redoks

(15)

xv

DAFTAR GAMBAR

Gambar 2.1 Proses Tokenisasi ... 11

Gambar 3.1 Diagram alir metodologi penelitian... 20

Gambar 4.1 Contoh tahapan text preprocesiing ... 29

Gambar 4.2 Contoh perhitungan nilai mean dan varian ... 30

(16)

xvi

DAFTAR LAMPIRAN

Referensi

Dokumen terkait

 Panteisme : Panteisme, berasal dari kata pan (seluruh) dan teisme (paham ketuhanan), suatu kepercayaan bahwa Tuhan berada dalam segala sesuatu, dan bahwa segala sesuatu adalah

Seluruh Dosen dan Staff Pengajar Fakultas Teknik, Universitas Mercu Buana yang telah memberikan ilmu dan pengalaman yang sangat bermanfaat bagi saya selaku

P SURABAYA 03-05-1977 III/b DOKTER SPESIALIS JANTUNG DAN PEMBULUH DARAH RSUD Dr.. DEDI SUSILA, Sp.An.KMN L SURABAYA 20-03-1977 III/b ANESTESIOLOGI DAN

Menurut Houglum (2005), prinsip rehabilitasi harus memperhatikan prinsip- prinsip dasar sebagai berikut: 1) menghindari memperburuk keadaan, 2) waktu, 3) kepatuhan, 4)

Hasil penelitian menunjukkan Likuiditas, Cash flow dan Pertumbuhan penjualan berpengaruh signifikan terhadap profitabilitas pada perusahaan pertanian yang terdaftar di Bursa

38 Radio ii mudah ii beradaptasi ii dan ii sering ii dengan ii kehebatannya ii menyajikan ii bentuk ii siaran ii “live” ii (secara ii langsung), ii tidak

Dari hasil penelitian yang didapat, waktu tunggu pelayanan resep obat berdasarkan jenis resep di Apotek Panacea Kupang yaitu waktu tunggu pelayanan resep obat berdasarkan

Merekam dalam bentuk MIDI § Musik direkam dalam bewntuk MIDI § Berbagai software musik: Cakewalk, Cubase, Nuendo § Cara mengopreasi- kan program: Cakewalk, Cubase dan Nuendo