i
PENGELOMPOKAN BERITA ONLINE MENGGUNAKAN MULTINOMIAL NAIVE BAYES
SKRIPSI
Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika
Disusun Oleh: Amelia Rahman
M0512004
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET
iv
PENGELOMPOKAN BERITA ONLINE MENGGUNAKAN MULTINOMIAL NAIVE BAYES
AMELIA RAHMAN
Program Studi Informatika Fakultas FMIPA Universitas Sebelas Maret
ABSTRAK
Jumlah dokumen teks yang terus bertambah merupakan sumber informasi yang sangat berharga dan dapat dimanfaatkan untuk berbagai kepentingan. Analisis dokumen teks dapat dilakukan dengan text mining. Salah satu metode text mining yang bermanfaat untuk mengelompokan data yang jumlahnya sangat banyak dan sulit dilakukan apabila diproses secara manual adalah klasifikasi. Klasifikasi merupakan suatu proses pengelompokan dan pengkategorian suatu dokumen berdasarkan model terlatih yang sudah memiliki label sebelumnya.
Penelitian ini bertujuan untuk mengelompokan berita dalam teks Bahasa Indonesia dengan metode klasifikasi Multinomial Naive Bayes. Untuk mendapatkan hasil yang lebih optimal, maka dilakukan proses seleksi fitur menggunakan metode Document Frequency Thresholding dan juga pembobotan dengan Term Frequency –
Document Frequency (TFIDF). Hasil penelitian menunjukan bahwa penggunaan
Term Frequency – Document Frequency (TFIDF) menghasilkan nilai rata-rata
tertinggi mencapai 86,62 %, sementara Multinomial Naive Bayes mencapai 86,28%, Multinomial Naive Bayes dengan DF-Thresholding-TFIDF mencapai 86,15% dan Multinomial Naive Bayes dengan DF-Thresholding mencapai 85,98%. Fitur seleksi dengan metode Document Frequency Thresholding cukup efektif untuk mengurangi jumlah dimensi data ditunjukan dengan hasil akurasi akhir yang tidak jauh signifikan dari metode Multinomial Naive Bayes.
v
Online News Classification Using Multinomial Naive Bayes
AMELIA RAHMAN
Department of Informatic, Mathematic and Science Faculty Sebelas Maret University
ABSTRACT
The huge availability of text in numerous forms is the valuable information
resource that can be used for various purposes. One of the text mining methods to
analyze text document is classification. Text classification is a process of grouping
and categorizing a document based on the training models.
This study aimed to categorize Indonesian news automatically using
Multinomial Naive Bayes. To get more optimal result, feature selection process using
Document Frequency Thresholding method and term weighting using Term
Frequency-Inverse Document Frequency (TF-IDF) were applied. The experiment
showed that Multinomial Naive Bayes with TF-IDF produced the highest average
accuracy to 86,62 % while Multinomial Naive Bayes reached 86,28%, Multinomial
Naive Bayes with DF-Thresholding-TFIDF to 86,15% and Multinomial Naive Bayes
with DF-Thresholding to 85,98%. Feature selection with Document Frequency Thresholding is quite efficient to reduce the number of data dimension shown with
the result of insignificant final accuracy from Multinomial Naive Bayes method.
vi MOTTO
“Jika kamu tak tahan lelahnya belajar, maka kamu akan menanggung perihnya
kebodohan.”
(Imam Syafi’i)
“The best of you is the most beneficial.” (Rasulullah SAW.)
“Boleh jadi, saat engkau tidur terlelap, pintu-pintu langit sedang diketuk oleh
puluhan doa kebaikan untukmu. Dari seorang fakir yang telah engkau tolong, atau
dari orang kelaparan yang telah engkau beri makan, atau dari seorang yang sedih
yang telah engkau bahagiakan, atau dari seseorang yang berpapasan denganmu
yang telah engkau berikan senyuman, atau dari seseorang yang dihimpit kesulitan
dan telah engkau lapangkan. Maka, janganlah sekali-kali engkau meremehkan sebuah kebaikan. “
vii
PERSEMBAHAN
Tugas akhir ini ku persembahkan untuk
kedua orang tuaku, Ibu Hj. Iis Nuriah dan Bapak H. Dadun Abdurahman, kedua
kakakku tercinta, Tika Kandita Rahman dan Mita Mutia Rahman, serta adikku
viii
KATA PENGANTAR
Segala puji dan syukur bagi Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan Tugas Akhir dengan judul “Pengelompokkan Berita Online Menggunakan Metode Multinomial Naive Bayes”.
Dalam menyelesaikan penelitian Tugas Akhir ini, penulis mendapatkan banyak dukungan dan bantuan dari berbagai pihak. Maka dari itu, penulis mengucapkan terimakasih yang tak terhingga kepada :
1. Bapak Dr. Wiranto, M.Cs. dan Bapak Afrizal Doewes, S.Kom., M.Sc. selaku dosen pembimbing I dan pembimbing II atas waktu, ilmu, kesabaran, dan kebaikan yang telah diberikan kepada penulis selama menyelesaikan Tugas Akhir ini.
2. Para dosen di Program Studi Informatika, Universitas Sebelas Maret yang dengan tulus ikhlas memberikan ilmu kepada penulis.
3. Bapak Yuliarso, Bapak Agustinus dan Ibu Dewi yang telah membantu penulis untuk memvalidasi data penelitian.
4. Rofiqoh Hasanah, Ersinta Elfandari, Ely Desyanawati, Risalatul Hanifah, Annisa Ambali, Dwi Pramitha, Diani Fauzi, Zaenal Abidin, Nurrahim Dwi Saputra, Zainur Rohman, Mukhlis Khoerudin, M. Safri Juliardi, Yusuf Fadlilah dan semua anggota keluarga drama yang telah memberikan warna-warni kehidupan.
Surakarta, September 2016
ix DAFTAR ISI
HALAMAN JUDUL ... Error! Bookmark not defined. HALAMAN PERSETUJUAN ... Error! Bookmark not defined. HALAMAN PENGESAHAN ... Error! Bookmark not defined.
ABSTRAK ... iv
ABSTRACT ... v
MOTTO ... vi
PERSEMBAHAN ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... ix
DAFTAR TABEL ... xi
DAFTAR GAMBAR ... xii
DAFTAR LAMPIRAN ... xiii BAB I PENDAHULUAN ... Error! Bookmark not defined. 1.1 Latar Belakang ... Error! Bookmark not defined. 1.2 Rumusan Masalah ... Error! Bookmark not defined. 1.3 Batasan Masalah ... Error! Bookmark not defined. 1.4 Tujuan Penelitian ... Error! Bookmark not defined. 1.5 Manfaat Penelitian ... Error! Bookmark not defined. 1.6 Sistematika Penulisan... Error! Bookmark not defined. BAB II TINJAUAN PUSTAKA ... Error! Bookmark not defined. 2.1 Dasar Teori ... Error! Bookmark not defined. 2.1.1 Text Mining ... Error! Bookmark not defined. 2.1.2 Text Preprocessing ... Error! Bookmark not defined. 2.1.3 Document Frequency Thresholding ... Error! Bookmark not defined. 2.1.4 Term Frequency – Inverse Document Frequency (TFIDF) ... Error! Bookmark not defined.
x
BAB III METODOLOGI PENELITIAN ... Error! Bookmark not defined. 3.1 Pengumpulan Data ... Error! Bookmark not defined. 3.2 Text Preprocessing ... Error! Bookmark not defined. 3.3 DF-Thresholding ... Error! Bookmark not defined. 3.4 Klasifikasi ... Error! Bookmark not defined. 3.4.1 Klasifikasi Multinomial Naive Bayes ... Error! Bookmark not defined. 3.4.2 Klasifikasi Multinomial Naive Bayes dengan Pembobotan TFIDF ... Error! Bookmark not defined.
3.5 Evaluasi ... Error! Bookmark not defined. BAB IV PEMBAHASAN ... Error! Bookmark not defined. 4.1 Pengumpulan Data ... Error! Bookmark not defined. 4.2 Text Preprocessing ... Error! Bookmark not defined. 4.3 Document Frequency Thresholding ... Error! Bookmark not defined. 4.4 Term Frequency – Inverse Document Frequency (TFIDF) ... Error! Bookmark not defined.
4.5 Klasifikasi ... Error! Bookmark not defined. 4.6.1 Contoh Perhitungan Multinomial Naive BayesError! Bookmark not defined.
4.6.2 Contoh Perhitungan Multinomial Naive Bayes dengan TFIDF ... Error! Bookmark not defined.
xi
DAFTAR TABEL
Tabel 2.1 Keterkaitan Penelitian ... Error! Bookmark not defined. Tabel 3.1 Confusion Matrix ... Error! Bookmark not defined. Tabel 4.1 Data Penelitian ... Error! Bookmark not defined. Tabel 4.2 Data Training dan Testing ... Error! Bookmark not defined. Tabel 4.3 Contoh Data Berita ... Error! Bookmark not defined. Tabel 4.4 Contoh Perhitungan Term Frequency ... Error! Bookmark not defined. Tabel 4.5 Contoh Perhitungan Document Frequency Error! Bookmark not defined. Tabel 4.6 Pengujian DF-Threshold ... Error! Bookmark not defined. Tabel 4.7 Contoh Perhitungan TFIDF ... Error! Bookmark not defined. Tabel 4.8 Contoh Data untuk Perhitungan MultinomialError! Bookmark not defined.
Tabel 4.9 Contoh Perhitungan Multinomial Naive Bayes dengan TFIDF ... Error! Bookmark not defined.
Tabel 4.10 Hasil Evaluasi Multinomial Naive Bayes . Error! Bookmark not defined. Tabel 4.11 Hasil Evaluasi Multinomial Naive Bayes dengan DF-Thresholding Error! Bookmark not defined.
Tabel 4.12 Hasil Evaluasi Multinomial Naive Bayes dengan TFIDF ... Error! Bookmark not defined.
Tabel 4.13 Hasil Evaluasi Multinomial Naive Bayes dengan DF Thresholding-TFIDF ... Error! Bookmark not defined. Tabel 4.14 Contoh Data Berita yang Tidak Berhasil Diklasifikasikan ... Error! Bookmark not defined.
xii
DAFTAR GAMBAR
xiii
DAFTAR LAMPIRAN