Analisis Akurasi Algoritma Naïve Bayes Pada Klasifikasi Dokumen Berkategori

(1)

2.1 Text Mining

Text mining dapat diartikan sebagai penemuan informasi yang baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis mengekstrak informasi dari sumber-sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.

Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Text mining biasanya melibatkan proses penataan teks input (biasanya parsing, bersama dengan penambahan beberapa fitur linguistik turunan dan penghilangan beberapa diantaranya, dan penyisipan subsequent ke dalam database), menentukan pola dalam data terstruktur, dan akhirnya mengevaluasi dan menginterpretasi output. Berkualitas tinggi di bidang text mining biasanya mengacu ke beberapa kombinasi relevansi, kebaruan, dan interestingness.

(2)

Menurut Saraswati (2011), saat ini text mining telah mendapat perhatian dalam berbagai bidang diantaranya :

1. Aplikasi keamanan

Banyak paket perangkat lunak text mining dipasarkan terhadap aplikasi keamanan, khususnya analisis plain text seperti berita internet. Hal ini juga mencakup studi enkripsi teks.

2. Aplikasi biomedis

Berbagai aplikasi text mining dalam literatur biomedis telah disusun. Salah satu contohnya adalah PubGene yang mengkombinasikan text mining biomedis dengan visualisasi jaringan sebagai sebuah layanan Internet. Contoh lain text mining adalah GoPubMed.org. Kesamaan semantik juga telah digunakan oleh sistem text mining, yaitu, GOAnnotator.

3. Perangkat Lunak dan Aplikasi

Departemen riset dan pengembangan perusahaan besar, termasuk IBM dan Microsoft, sedang meneliti teknik text mining dan mengembangkan program untuk lebih mengotomatisasi proses pertambangan dan analisis. Perangkat lunak text mining juga sedang diteliti oleh perusahaan yang berbeda yang bekerja di bidang pencarian dan pengindeksan secara umum sebagai cara untuk meningkatkan performansinya.

4. Aplikasi Media Online

Text mining sedang digunakan oleh perusahaan media besar, seperti perusahaan Tribune, untuk menghilangkan ambigu informasi dan untuk memberikan pembaca dengan pengalaman pencarian yang lebih baik, yang meningkatkan loyalitas pada site dan pendapatan. Selain itu, editor diuntungkan dengan mampu berbagi, mengasosiasi dan properti paket berita, secara signifikan meningkatkan peluang untuk menguangkan konten.

5. Aplikasi Pemasaran

(3)

6. Sentiment Analysis

Sentiment Analysis mungkin melibatkan analisis dari review film untuk memperkirakan berapa baik review untuk sebuah film. Analisis semacam ini mungkin memerlukan kumpulan data berlabel atau label dari efektifitas kata-kata. Sebuah sumber daya untuk efektivitas kata-kata telah dibuat untuk WordNet.

7. Aplikasi Akademik

Masalah text mining penting bagi penerbit yang memiliki database besar untuk mendapatkan informasi yang memerlukan pengindeksan untuk pencarian. Hal ini terutama berlaku dalam ilmu sains, di mana informasi yang sangat spesifik sering terkandung dalam teks tertulis. Oleh karena itu, inisiatif telah diambil seperti Nature’s proposal untuk Open Text Mining Interface (OTMI) dan Health’s common Journal Publishing untuk Document Type Definition (DTD) yang akan memberikan isyarat semantik pada mesin untuk menjawab pertanyaan spesifik yang terkandung dalam teks tanpa menghilangkan barrier penerbit untuk akses publik.

Sebelumnya, website paling sering menggunakan pencarian berbasis teks, yang hanya menemukan dokumen yang berisi kata-kata atau frase spesifik yang ditentukan oleh pengguna. Sekarang, melalui penggunaan web semantik, text mining dapat menemukan konten berdasarkan makna dan konteks (daripada hanya dengan kata tertentu). Text mining juga digunakan dalam beberapa filter email spam sebagai cara untuk menentukan karakteristik pesan yang mungkin berupa iklan atau materi yang tidak diinginkan lainnya.

Dengan text mining tugas-tugas yang berhubungan dengan penganalisaan teks dengan jumlah yang besar, penemuan pola serta penggalian informasi yang mungkin berguna dari suatu teks dapat dilakukan. Sebagai bentuk aplikasi dari text mining, sistem klasifikasi berita menggunakan berita sebagai sumber informasi dan informasi klasifikasi sebagai informasi yang akan diekstrak dari sumber informasi. Informasi klasifikasi dapat berbentuk angkaangka probabilitas, set aturan atau bentuk lainnya.

(4)

(text transformation/feature generation), dan penemuan pola (pattern discovery). (Even dan Zohar, 2002). Masukan awal dari proses ini adalah suatu data teks dan menghasilkan keluaran berupa pola sebagai hasil interpretasi.

2.1.1 Text Preprocessing

Tahapan awal dari text mining adalah text preprocessing yang bertujuan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahapan berikutnya. Beberapa contoh tindakan yang dapat dilakukan pada tahap ini, mulai dari tindakan yang bersifat kompleks seperti part of speech (pos) tagging, parse tree, hingga tindakan yang bersifat sederhana seperti proses parsing sederhana terhadap teks, yaitu memecah suatu kalimat menjadi sekumpulan kata. Selain itu pada tahapan ini biasanya juga dilakukan casefolding, yaitu pengubahan karakter huruf menjadi huruf kecil.

Proses part of speech melakukan parsing terhadap seluruh kalimat dalam teks kemudian memberikan peran kepada setiap kata, misalnya : petani (subyek) pergi (predikat) ke (kata hub) sawah (keterangan). Hasil dari part of speech tagging dapat digunakan untuk parse tree, di mana masing-masing kalimat berdiri sebagai sebuah pohon mandiri. Untuk proses parsing sederhana tidak dibangun parse tree seperti cara sebelumnya. Pada proses parsing sederhana sistem akan memecah teks menjadi sekumpulan kata-kata, yang kemudian akan dibawa sebagai input untuk tahap berikutnya pada proses text mining.

2.1.2 Text Transformation (feature generation)

Pada tahap ini hasil yang diperoleh dari tahap text preprocessing akan melalui proses tranformasi. Adapun proses transformasi ini dilakukan dengan mengurangi jumlah kata-kata yang ada dengan penghilangan stopword dan juga dengan mengubah kata-kata ke dalam bentuk dasarnya (stemming).

(5)

mengurangi beban kerja system. Dengan menghilangkan stopword dari suatu teks maka sistem hanya akan memperhitungkan kata-kata yang dianggap penting.

Stemming adalah contoh tindakan lain yang dapat dilakukan pada tahap transformasi teks. Stemming adalah proses untuk mereduksi kata ke bentuk dasarnya Sedangkan menurut Tala (2003) Stemming adalah suatu proses yang menyediakan suatu pemetaan antara berbagai kata dengan morfologi yang berbeda menjadi satu bentuk dasar (stem). Kata yang memiliki bentuk dasar sama walaupun imbuhannya berbeda seharusnya memiliki kedekatan arti. Disamping itu juga, proses stemming akan sangat mengurangi jumlah dan beban database. Jika setiap kata disimpan tanpa melalui proses stemming, maka satu macam kata dasar saja akan disimpan dengan berbagai macam bentuk yang berbeda sesuai dengan imbuhan yang mungkin melekatinya. Hal ini sangat berbeda jika kita menerapkan proses stemming pada tahap ini, satu kata dasar hanya akan disimpan sekali walaupun mungkin kata dasar tersebut pada sumber data sudah berubah dari bentuk aslinya dan mendapatkan berbagai macam imbuhan. Proses stemming dan penghilangan stopword dapat digunakan secara mandiri atau tergabung, dimana dilakukan proses penghilangan stopword terlebih dahulu yang diikuti dengan proses stemming. Hal ini dilakukan untuk menemukan pola dari teks dalam berita tersebut.

2.1.3 Pattern Discovery

Tahap penemuan pola atau pattern discovery adalah tahap terpenting dari seluruh proses text mining. Tahap ini berusaha menemukan pola atau pengetahuan dari keseluruhan teks. Seperti yang disebutkan dalam bab sebelumnya bahwa dalam data/text mining terdapat dua teknik pembelajaran pada tahap pattern discovery ini, yaitu unsupervised dan supervised learning. Adapun perbedaan antara keduanya adalah pada supervised learning terdapat label atau nama kelas pada data latih (supervisi) dan data baru diklasifikasikan berdasarkan data latih. Sedangkan pada unsupervised learning tidak terdapat label atau nama kelas pada data latih, data latih dikelompokkan berdasarkan ukuran kemiripan pada suatu kelas.

(6)

atribut tujuan (tidak kontinyu). Tujuan dari supervised learning adalah untuk memprediksi nilai dari fungsi untuk sebuah data masukan yang sah setelah melihat sejumlah data latih.

2.1 Klasifikasi

Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan kelas yang tidak diketahui dari suatu objek. Dalam pengklasifikasian data terdapat dua proses yang dilakukan yaitu:

1. Proses training

Pada proses training digunakan training set yang telah diketahui label-labelnya untuk membangun model atau fungsi.

2. Proses testing

Untuk mengetahui keakuratan model atau fungsi yang akan dibangun pada proses training, maka digunakan data yang disebut dengan testing set untuk memprediksi label-labelnya.

Gambar 2.1 Tahapan Proses Klasifikasi

Sumber: http://www.informatika.unsyiah.ac.id/tfa/dm/DM-Praktikum-Decision-Tree.pdf

(7)

Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas sampel yang tidak berlabel, atau menguji nilai atau rentang nilai dari suatu atribut. Klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai-nilai diskrit atau nominal, sedangkan regresi digunakan untuk mempediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan penggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction.

Klasifikasi merupakan penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifikasi telah banyak ditemui dalam berbagai aplikasi. Sebagai contoh, pendeteksian pesan email, spam berdasarkan header dan isi atau mengklasifikasikan galaksi berdasarkan bentuk-bentuknya. Data input untuk klasifikasi adalah koleksi record. Setiap record dikenal sebagai instance atau contoh yang ditentukan oleh sebuah tuple (x,y). Dimana x adalah himpunan atribut dan y adalah atribut tertentu, yang dinyatakan sebagai label class (juga dikenal sebagai kategori atau atribut target).

Klasifikasi adalah tugas pembelajaran sebuah fungsi target f yang memetakan setiap himpunan atribut x ke salah satu label kelas y yang telah di definisikan sebelumnya. Fungsi target juga di kenal secara informal sebagai model klasifikasi. Model klasifikasi berguna untuk keperluan sebagai berikut :

1. Pemodelan Deskriptif

Model klasifikasi dapat bertindak sebagai alat penjelas untuk membedakan objek objek dari kelas kelas yang berbeda. Sebagai contoh untuk para ahli Biologi, model deskriptif yang meringkas data.

2. Pemodelan Prediktif

(8)

Input Output

Attribut set (x) Class label (y)

Gambar 2.2 Klasifikasi sebagai pemetaan sebuah himpunan atribut input x ke dalam label class-nya

Beberapa teknik klasifikasi yang digunakan adalah decision tree classifier, rule-based classifier, neural-network, support vector machine, dan naïve bayes classifier, Setiap teknik menggunakan algoritme pembelajaran untuk mengidentifikasi model yang memberikan hubungan yang paling sesuai antara himpunan atribut dan label kelas dari data input.

Pendekatan umum yang digunakan dalam masalah klasifikasi adalah, pertama,training set berisi record yang mempunyai label kelas yang diketahui haruslah tersedia . Training set digunakan untuk membangun model klasifikasi , yang kemudian diaplikasikan ke test set, yang berisi record-record dengan label kelas yang tidak di ketahui.

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah:

a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.

c. Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk kategori apa.

Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang dimilikinya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Sebuah dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen memiliki makna

(9)

tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari dokumen tersebut.

2.3 Naïve Bayes Classifier

Naïve bayes klasifikasi merupakan metode terbaru yang digunakan untuk memprediksi probabilitas.Algoritma ini memanfaatkan teori probabilitas yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Dua kelompok peneliti, satu oleh pantel dan Lin, dan yang lain oleh Microsoft Research memperkenalkan metode statistik bayesian. Tetapi yang membuat naïve bayesian ini popular adalah pendekatan yang dilakukan oleh Paul Graham.

Banyak aplikasi ini menghubungkan antara atribut set dan variabel kelas yang non deterministic. Dengan kata lain, label kelas test record tidak dapat diprediksi dengan peristiwa tertentu meski atribut set identik dengan beberapa contoh training. Situasi ini makin meningkat karena noisy data atau kehadiran factor confouding tertentu yang mempengaruhi klasifikasi tetapi tidak termasuk di dalam analisis. Sebagai contoh, perhatikan tugas memprediksi apakah seseorang beresiko terkena penyakit hati berdasarkan diet yang dilakukan dan olahraga teratur. Meski mempunyai pola makan sehat dan melakukan olahraga teratur, tetapi masih beresiko terkena penyakit hati karena faktor faktor lain seperti keturunan, merokok, dan penyalahgunaan alkohol. Untuk menentukan apakah diet sehat dan olahraga teratur yang dilakukan sesorang adalah cukup menjadi subyek interpretasi, yang akan memperkenalkan ketidakpastian pada masalah pembelajaran.

(10)

diamati, maka P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa H benar (valid). Karena asumsi atribut tidak saling terkait (conditionally independent), maka P(X|Ci) dapat didekati dengan cara:

n

P (X|Ci) = ∏ P(Xk|Ci) k=1

Jika P(X|Ci) diketahui maka klas dari data sampel X dapat didekati dengan menghitungg P(X|Ci)*P(Ci). Klas Ci dimana P(X|Ci)*P(Ci) maksimum adalah klas dari sampel X.

Naïve bayes classifier memiliki asumsi bahwa hubungan antar atribut adalah saling bebas. Naïve bayes classifier memiliki beberapa keuntungan dan kelemahan yaitu diantaranya :

Keuntungan :

a. Hasilnya cukup baik untuk sebagian besar kasus dan mudah diimplementasikan. b. Bila asumsi saling bebas terpenuhi, maka tingkat akurasinya sangat tinggi Kelemahan :

a. Adanya asumsi saling bebas antar atributnya terkadang akan menurunkan tingkat akurasi.

b. Biasanya dalam kehidupan nyata selalu ada hubungan antar atribut sehingga asumsi saling bebas menjadi tidak terpenuhi dan keterkaitan tersebut tidak dapat dimodelkan oleh naïve bayes classifier.

c. Perkiraan kemungkinan class yang tidak akurat.

d. Batasan atau threshold harus ditentukan secara manual bukan secara analitis.

2.4 Naïve Bayes Classifier untuk Klasifikasi Dokumen

(11)

pada P={p(C=ci|D=dj)} | c ε C dan d ε D}. Nilai probabilitas p(C=ci|D=dj) dapat dihitung dengan persamaan :

p(C=ci|D=dj) = ( ₍ ⋂ ₎ )

=

( | ) ( )

( )

Dengan p(D=dj|C=ci) merupakan nilai probabilitas dari kemunculan dokumen dj jika diketahui dokumen tersebut berkategori ci, p(C=ci) adalah nilai probabilitas kemunculan kategori ci, dan p(D=dj) adalah nilai probabilitas kemunculan dokumen dj.

Naïve Bayes menganggap sebuah dokumen sebagai kumpulan dari kata-kata yang menyusun dokumen tersebut, dan tidak memperhatikan urutan kemunculan kata pada dokumen. Sehingga perhitungan probabilitas p(D=dj|C=ci) dapat dianggap sebagai hasil perkalian dari probabilitas kemunculan kata-kata pada dokumen dj. Perhitungan probabilitas p(C=ci|D=dj) dapat dituliskan sebagai berikut :

p(C=ci|D=dj) = ∏ (₍ _, |_, _,…) (_,… ₎)

dengan ∏ (wk |C = ci) ada lah hasil perkalian dari probabilitas kemunculan semua kata pada dokumen dj.

Proses klasifikasi dilakukan dengan membuat model probabilistic dari dokumen training, yaitu dengan menghitung nilai p(wk|c). Untuk wkj diskritdengan wkj ε V = {v1,v2,v3,…,vm} maka p(wk|c) dicari untuk seluruh kemungkinan nilai wkj dan didapatkan dengan melakukan perhitungan :

P(wk = wkj|c) = ( _{( )} . )

dan

(12)

dengan Db(wk = wkj.c) adalah fungsi yang mengembalikan jumlah dokumen b pada kategori c yang memilki nilai kata wk=wkj, Db(c) adalah fungsi yang mengembalikan jumlah dokumen b yang memiliki kategori c, dan |D| adalah jumlah seluruh training dokumen. Persamaan Db(wk = wkj.c) sering dikombinasikan dengan Laplacian Smoothing untuk mencegah persamaan mendapatkan nilai 0, yang dapat mengganggu hasil klasifikasi secara keseluruhan. Sehingga persamaan Db(wk = wkj.c) dituliskan sebagai :

P(wk = wkj|c) = ( _{( ) | |}. )

dengan |V| merupakan jumlah kemungkinan nilai dari wkj.

Pemberian kategori dari sebuah dokumen dilakukan dengan memilih nilai c yang memilki nilai p(C=ci|D=dj) maksimum, dan dinyatakan dengan :

c* =arg max p ∏ (wk |C) x p(c) cϵC

Kategori c* merupakan kategori yang memiliki nilai p(C=ci|D=dj) maksimum. Nilai p(D=dj) tidak mempengaruhi perbandingan karena untuk setiap kategori nilainya akan sama. Berikut ini gambaran proses klasifikasi dengan algoritma Naïve Bayes :

Learner :

Untuk setiap kategori : a. Hitung p(ci) b. Hitung p(wk|ci)

Untuk setiap kata wk pada model

Classifier :

a. Hitung ( ) ∏ (wk |ci) untuk setiap kategori

b. Tentukan kategori dengan nilai ( ) ∏ (wk |ci) maksimal

Training data Model

probabilistik (classifier)

Testing data Kategori

(13)

2.5 Penelitian Terdahulu

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti yang berkaitan dengan penelitian yang penulis lakukan diantara penelitian tersebut yaitu :

Nurani et al (2007) menjelaskan implementasi naive bayes classifier pada program bantu penentuan buku referensi matakuliah menghasilkan nilai akurasi 69%. Dimana perpustakaan merupakan bagian yang penting dari suatu Universitas karena menyediakan buku-buku referensi. Kesulitan yang terjadi adalah ketika perpustakaan harus mengidentifikasi buku-buku referensi tersebut sesuai dengan matakuliahnya. Ada beberapa buku yang sering dijadikan referensi bersama atas beberapa matakuliah. Ada juga buku-buku yang dijadikan referensi tunggal suatu matakuliah, tetapi bahasan materi matakuliah yang bersangkutan tidak dibahas secara optimal dalam buku referensi tersebut. Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi dan disusun berdasarkan buku-buku referensi utama dan referensi pendukung dari matakuliah tersebut. Proses klasifikasi akan dilakukan menggunakan metodeNaiue BayesianClassifier (NBC). Dalammelaksanakan tugasnya untuk mengklasifikasikan daftar isi buku referensi sistem dipengaruhi oleh berbagai faktor seperti pola data dan jumlah data training.

Indranandita et al, (2008) menjelaskan sistem klasifikasi dan pencarian jurnal dengan menggunakan metode naive bayes dan vector space model menghasilkan akurasi sebesar 64%. Dimana kebutuhan konsumen terhadap informasi dalam bentuk jurnal atau artikel ilmiah semakin meningkat, sehingga pengelompokan jurnal dibutuhkan untuk mempermudah pencarian informasi. Topik jurnal diharapkan dapat mewakili isi jurnal, tanpa harus membaca secara keseluruhan. Dalam kenyataannya, pengelompokan jurnal yang mengacu topik/kategori tertentu sulit dilakukan jika hanya mengandalkan query biasa. Sistem klasifikasi dan pencarian jurnal dengan metode Naive Bayes dan Vector Space Model dengan pendekatan Cosine diharapkan membantu pengguna dalam penentuan topik/kategori dan menghasilkan daftar jurnal berdasarkan urutan tingkat kemiripan.

(14)

klaisifikasi teks. Pada proses klasifikasi itu akan digunakan data set yang telah diketahui kelas emosinya yaitu jijik, malu, marah, sedih, senang, dan takut dengan menggunakan metode Naïve Bayes dan Naïve Bayes Multinomial. Akan dilihat sejauh mana kedua metode itu dapat mengklasifikasikan data emosi berbahasa indonesia. Dari hasil percobaan yang dilakukan dapat ditarik kesimpulan bahwa Modifikasi data dapat meningkatkan kemampuan mesin mengklasifikasi data teks emosi berbahasa indonesia. Metode multinomial naïve bayes lebih baik dari metode naïve bayes untuk klasifikasi teks berbahasa Indonesia. Dengan rasio 0,8 yang dihasilkan F-measure tinggi 62,15 untuk multinomial naïve bayes menggunakan data asli. Hasil klasifikasi mengggunakan metode multinomial naïve bayes dan naïve bayes tidak memberikan perbaikan yang signifikan saat rasio data 0,5 untuk percobaan DataNot.

Samodra et al, (2009) menjelaskan klasifikasi dokumen teks berbahasa Indonesia dengan menggunakan naïve bayes. Dimana penyebaran informasi dalam bentuk dokumen digital telah mengalami pertumbuhan yang sangat pesat. Dengan menggunakan metode klasifikasi teks, maka kumpulan dokumen yang jumlahnya sangat besar tersebut dapat diorganisir sedemikian rupa sehingga dapat mempermudah dan mempercepat pencarian informasi yang dibutuhkan. Eksperimen ditujukan untuk menghasilkan dokumen teks berbahasa Indonesia dengan menggunakan metode Naïve Bayes. Uji coba dilakukan dengan menggunakan sampel dokumen teks yang dimabil dari sebuah media massa elektonik berbasis web. Hasil eksperimen menunujukkan bahwa metode Naïve Bayes dapat digunakan secara efektif untuk menghasilkan dokumen teks berbahasa Indonesia. Hal ini terlihat dari hasil eksperimen yaitu dengan porsi dokumen training yang kecil (20%) nilai akurasinya dapat mencapai 83,57 % dan terus meningkat hingga 87,63 % sesuai dengan peningkatan porsi dokumen training.

(15)

Hamzah (2012) menjelaskan klasifikasi teks dengan Naïve Bayes Classifier (Nbc) untuk pengelompokan teks berita dan abstract akademis menghasilkan akurasi yang lebih tinggi maksimal 91% dibandingkan dengan dokumen akademik maksimal 82%. Dimana perkembangan informasi teks digital telah tumbuh sangat cepat. Saat ini diperkirakan 80% teks digital dalam bentuk tidak terstruktur. Tingginya volume dokumen teks ini dipicu oleh aktivitas dari berbagai sumber berita dan aktivitas akademis dari kegiatan riset, konferensi dan pertemuan ilmiah yang makin meningkat. Kebutuhan analisis text mining sangat diperlukan dalam menangani teks yang tidak terstruktur tersebut. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai cara pendekatan antara lain pendekatan probabilistic, support vector machine , dan artificial neural network, atau decision tree classification. Metode probabilistic Naïve Bayes Classifier (NBC) memiliki beberapa kelebihan kesederhanaan dalam komputasinya. Namun metode ini memiliki kelemahan dalam asumsi yang sulit dipenuhi, yaitu independensi feature kata. Penelitian ini mengkaji kinerja NBC untuk kategorisasi teks berita dan teks akademis. Penelitian menggunakan data 1000 dokumen berita dan 450 dokumen abstrak akademik. Seleksi kata dengan minimal muncul pada 4 atau 5 dokumen memberikan akurasi yang paling tinggi.

2.6 Perbedaan dengan Riset Lain

Dalam beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa perbedaan riset yang akan dilakukan oleh penulis. Riset yang dilakukan penulis dalam klasifikasi naïve bayes yaitu menggunakan sub parent category dan parent category dari suatu kategori dalam proses training dan testing untuk menghasilkan nilai akurasi dari klasifikasi dokumen.

2.7Kontribusi Riset