Abstract—Banyak klasifikasi teks yang ditemui
masih manual sehingga sistem hanya dapat menentukan kategori teks berdasarkan yang telah pengguna tetapkan sebelumya. Perlu adanya suatu teknik khusus yang mengolah teks-teks tersebut agar dapat dimanfaatkan. Klasifikasi teks berdasarkan topik merupakan salah satu metode untuk dapat mengetahui kategori berdasarkan pada suatu topik dari teks yang ada. Klasifikasi yang dilakukan terhadap teks-teks tersebut menggunakan metode Naive Bayes Classifier.
Kata Kunci: Naive Bayes Classifier, Teks, Klasifikasi I. PENDAHULUAN
emakin berkembangnya teknologi menuntut agar pekerjaan dapat diselesaikan dengan cepat dan meminimalkan campur tangan dari manusia. Semakin banyak pekerjaan yang dikerjakan oleh suatu teknologi maka semakin mempermudah manusia dalam menyelesaikan pekerjaannya. Kategorisasi teks yang sering dijumpai masih banyak yang manual sehingga sistem hanya dapat menentukan kategori teks tersebut berdasarkan yang telah pengguna tetapkan sebelumya. Kategorisasi teks berdasarkan topik merupakan salah satu metode untuk dapat mengetahui kategori berdasarkan pada suatu topik dari teks yang ada.
S
Pencarian informasi (Information Retrieval) berbasis query sebenarnya bisa melakukan hal ini. Namun, cara ini tidaklah efisien karena pencarian informasi berbasis query berguna untuk mengetahui secara pasti kejadian yang terjadi, bukan untuk pencarian informasi yang sifatnya pendekatan. Oleh karena itu, dibutuhkanlah teknik khusus untuk membantu mencari informasi yang relevan. Salah satu metode klasifikasi yang terkenal adalah Naive Bayes Classifier (yang kemudian akan ditulis NBC). Kelebihan dari metode ini adalah
tingkat akurasi yang tinggi, juga waktu komputasi yang lebih cepat.
NBC adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah kelas. NBC dapat dihitung berdasarkan Teorema Bayes berikut ini:
P (B∣A)=
P ( A∣B) P (B)
P( A)
Berdasarkan teorema di atas, B merepresentasikan sebuah kelas dan A merepresentasikan sebuah atribut. P(B) disebut prior probability B. P(A) merupakan prior probability X. P(B|A) merupakan probabilitas B benar jika A dan P(A|B) adalah probabilitas A jika B benar. II.DASAR TEORI
2.1 Data Mining
Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis data yang tradisional tidak dapat digunakan untuk mengekstrak informasi dari data yang sangat besar.
Untuk itu diperlukan suatu metode baru yang dapat menjawab kebutuhan tersebut. Data mining merupakan teknologi yang menggabungkan metode analisis tradisional dengan algortima yang canggih untuk memproses data dengan volume besar.
Data mining atau Knowledge Discovery in Databases (KDD) adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah pendekatan teknis yang berbeda, seperti clustering, data summarization, learning classification rules.
2.2 Classification
Suatu teknik dengan melihat pada
Text Categorization Based on Topic
(Trastoto P., Dyan K., Ariefan DW) Computer Science Universitas Gadjah Mada
kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunakan supervised induction, yang memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk menentukan kelas- kelas. Salah satu algoritma yang terkenal untuk teknik ini adalah Naive Bayes Classifier.
2.3 Membangun sebuah classifier dari model probabilitas.
NBC mengkombinasikan model ini dengan aturan keputusan. Sebuah aturan yang umum adalah untuk memilih hipotesis yang paling mungkin, ini dikenal sebagai posteriori maksimum atau aturan keputusan MAP.
2.4 Naïve Bayes Classifier untuk klasifikasi dokumen Berikut ini adalah sebuah contoh dari NBC untuk permasalahan klasifikasi dokumen. Masalah mengklasifikasikan dokumen adalah berdasarkan konten, misalnya spam dan non-spam e-mail. Bayangkan bahwa dokumen yang diambil dari beberapa kelas dokumen yang dapat dimodelkan sebagai set kata-kata dimana probabilitas (independen) bahwa kata ke-i dari suatu dokumen tertentu terjadi dalam dokumen dari kelas C dapat ditulis sebagai
p(wi |C) (2.31)
Untuk perlakuan ini, kita
menyederhanakan hal-hal lebih lanjut dengan mengasumsikan bahwa kata-kata secara acak terdistribusi dalam dokumen - yaitu, kata-kata tidak tergantung pada panjang dokumen, posisi dalam dokumen ,dengan hubungannya dengan kata lain, atau dokumen-konteks yang lain.
2.5 Evaluasi Hasil Teks Kategorisasi
Teks yang telah berhasil
dikategorisasikan akan dievaluasi nilai keakurasian dari hasil tersebut. Dalam mengevaluasi hasil tersebut terdapat 3 bagian, yaitu akurasi, presisi dan recall. Akurasi =
TP+TN
TP+ FP+FN +TN
Precision =TP
TP+ FP
Recall =TP
TP+ FN
III. METODEKoleksi data training dimasukkan ke dalam database beserta kategori yang telah menyertai data training, dalam hal ini adalah kalimat pada paragraf atau teks tersebut. Sebelum dilakukan tahap klasifikasi dengan naïve bayes, ada beberapa hal yang perlu dikerjakan terlebih dahulu yaitu pada langkah preprocessing.
Tahap preprocessing meliputi penghilangan kata – kata yang tidak diperlukan seperti tanda baca, tanda penghubung sampai dengan angka juga ikut dihalangkan. Kemudian kalimat dipecah per kata untuk distemming dan penghilangan stopword.
Ekstraksi fitur dari naïve bayes yang digunakan pada paper ini adalah term frekuensi - laplace smoothing. Dengan menghitung probabilitas kemunculan suatu kata pada kumpulan kalimat yang telah dimasukkan, akan didapatkan suatu nilai yang nantinya dibandingkan dengan probabilitas pada kategori lain. Sehingga nilai terbesarlah yang akan dijadikan sebagai hasil bahwa teks tersebut merupakan kategori dari nilai terbesar yang telah didapatkan.
IV. IMPLEMENTASI SISTEMDAN PEMBAHASAN
Setelah melakukan analisis dan membuat rancangan atau desain sistem sesuai dengan kebutuhan yang telah ditentukan, maka tahap selanjutnya yaitu implementasi sistem.
Pada tahap awal di gambar 1, user akan diberikan sebuah textarea dan beberapa tombol untuk memasukkan teks yang akan dicari kategori dari teks tersebut kemudian tekan tombol proses sebagai input perintah. Sistem akan menjalankan proses perhitungan sesuai dengan yang telah dibuat dan memberikan hasil berupa nama kategori dan proses perhitungan yang dilakukan saat melakukan perhitungan naive bayes.
Gambar 1. UI System Categorization Pada saat memproses teks yang diinputkan oleh pengguna, sistem juga menyimpan teks tersebut sebagai data training yang telah di filter terlebih dahulu dengan metode – metode sebelumya dan tersimpan sebagai kategori hasil yang telah diberikan oleh sistem. Pengguna selain dapat menggunakan sistem ini untuk megkategorikan teks yang dimasukkan, sistem ini juga menyediakan fasilitas untuk menambah data training berdasar pada topik atau kategori pada teks yang dimasukkan.
Setelah hasil sudah keluar maka pengguna dapat melihat proses perhitungan dari sistem dengan menekan tombol “Lihat Proses Hitung”.
Gambar 2 memperlihatkan pengguna dapat menambahkan data training berdasarkan kategori yang ditetapkan untuk dimasukkan ke dalam database pada sistem.
Gambar 2. Input teks - data training V. PENGUJIAN
Pengujian sistem dari kategori teks pada paper ini dapat dilakukan dengan menghitung akurasi, presisi dan recall-nya. Sedangkan data training yang disediakan berjumlah 180 dengan tiap kategori sebanyak 30 data training.
Kategori olahraga
D1= Isa raja sedang bermain badminton di universitas gadjah mada - Y
D2 = Sunarto pun memberikan selamat kepada para wisudawan beserta keluarga atas keberhasilannya menyelesaikan di perguruan tinggi - N
D3= Sebastian Vettel secara sengaja mengabaikan team order Red Bull untuk meraih kemenangan - Y
D4 = Tekanan yang diberikan dari pihak sekolah untuk mencapai target lulus 100 persen kerap kali membuat peserta didik terbebani saat mengerjakan UN - N
D5 = Sekretaris Fraksi PDI Perjuangan Bambang Wuryanto ini menjelaskan saat ini defisit neraca perdagangan akibat sumbangan impor BBM yang sangat besar - N
Tabel kategori olahraga
doc Sistem
prediction Correct answer TP FP FN TN
d1 N Y 1 d2 N N 1 d3 Y Y 1 d4 N N 1 d5 N N 1 Akurasi : 4/5 Precision : 1/1 = 1 Recall : 1/2 = 0.5 Kategori inernasional
D1= Neraca perdagangan internasional adalah gambaran perbandingan antara besarnya nilai ekspor dan nilai impor - Y
D2 = Icona dirancang oleh mantan direktur teknik Ferrari Claudio Lombardi - N
D3= Obama memiliki hubungan erat dengan negara lain sehingga memiliki kekuatan militer yang sangat kuat - Y
D4 =
Perdagangan internasional itu lebih
dikenal dengan kegiatan ekspor-impor,
pelakunya adalah eksportir dan importir
- YD5 = Sirkuit Nurburgring sebagai sirkuit balap dan trek pengujian mobil paling terkenal di seluruh dunia telah mengalami masalah keuangan selama bertahun-tahun - N
Tabel kategori internasional
doc Sistem
d1 N Y 1 d2 N N 1 d3 Y Y 1 d4 N Y 1 d5 N N 1 Akurasi : 3/5 Precision : 1/1 = 1 Recall : 1/3 Kategori pendidikan
D1= Berkapsitas sepuluh penumpang, kaca anti peluru berdimensi besar di semua sisi kabin dapat memberi sensasi pandangan panorama bagi semua awak - N
D2 = Seorang siswa yang tidak lulus dan mengikuti kejar paket c sedang belajar serius di dekat lapangan sepak bola - Y
D3= Jumlah pserta Ujian Akhir Sekolah dan Ujian Akhir Nasional (UAS/UAN) tahun 2013 tingkat SMA/sederajat di Kabupaten Gayo - Y
D4 = ToPu sedang makan makanan paket C yang ada di warung sambil bermain game di java - N
D5 = Secara konvensional terdapat kecenderungan bahwa upaya peningkatan mutu pendidikan selalu dikaitkan dengan ketersediaan sarana dan prasana pendidikan yang memadai, serta kompetensi guru - Y
Tabel kategori pendidikan doc Sistem
prediction Correct answer TP FP FN TN
d1 N N 1 d2 Y Y 1 d3 Y Y 1 d4 Y N 1 d5 Y Y 1 Akurasi : 4/5 Precision : 3/4 Recall : 3/3 = 1 Kategori ekonomi
D1= Mantan Wakil Presiden RI Jusuf Kalla mengatakan ada atau tidaknya kebijakan redenominasi rupiah oleh pemerintah Indonesia tidak akan mengganggu perekonomian - Y
D2 = Perekonomian global tengah menghadapi berbagai rintangan yang mengancam pemulihan krisis - Y
D3= Sunarto berharap, dalam era globalisasi dan abad ke-21 yang penuh dengan tantangan dan gejolak dalam berbagai bidang, termasuk bidang pendidikan tinggi menuntut kesiapsiagaan yang makin baik dan tuntutan profesionalisme yang makin tinggi - N
D4 = Negara telah menunjuk likuidator, Jens Lieser, yang menjelaskan bahwa seluruh bisnis Nurburgring berstatus dijual - N
D5 = Jusuf kalla mengundang ToPu untuk bermain sepak bola bersama - N Tabel kategori ekonomi
doc Sistem
prediction Correct answer TP FP FN TN
d1 Y Y 1 d2 N Y 1 d3 N N 1 d4 N N 1 d5 Y N 1 Akurasi : 3/5 Precision : 1/2 = 0.5 Recall : 1/2 = 0.5 Kategori lain - lain
D1= Cinta antara arifan dan seorang mahasiswi sungguh sangat memilukan - Y
D2 = Penghargaan "Hot Thread of The Month" ini diadain supaya Agan-Agan makin terpacu untuk membuat thread berkualitas - Y
D3= Tugas 2 adalah Pengantar Ekonomi (topik supply and demand) - Y
D4 = UI mengirimkan tim Sadewa dengan rancangan mobil bernama Kalabia Evo_3 yang merupakan kendaraan ultra-efisien dan ramah lingkungan berbasiskan teknologi muktahir hasil pemikiran mahasiswa - Y
D5 = Krisis ekonomi yang melanda Siprus membuat gaji presiden negara tersebut, Nicos Anastasiades, dipotong 25% - N
Tabel kategori lain - lain doc Sistem
prediction Correct answer TP FP FN TN
d2 N Y 1 d3 N Y 1 d4 Y Y 1 d5 N N 1 Akurasi : 2/5 Precision : 1/1 = 1 Recall : 1/4 Kategori teknologi
D1= Sebuah gambar yang bocor di internet mengungkap kemungkinan HTC One versi dual SIM card - Y
D2 = Menko Perekonomian Hatta
Radjasa meminta PT KAI
mempertimbangkan kemampuan ekonomi masyarakat terkait rencana penghapusan KRL ekonomi - N
D3= Orang yang membawa htc itu merupakan pelatih sepak bola professional - N
D4 = Akses informasi yang cepat mendukung kemajuan suatu negara - N
D5 = Kategorisasi teks berdasarkan topik merupakan salah satu tugas artificial intelligence - N
Tabel kategori teknologi doc Sistem
prediction Correct answer TP FP FN TN
d1 Y Y 1 d2 N N 1 d3 Y N 1 d4 Y N 1 d5 N N 1 Akurasi : 3/5 Precision : 1/3 Recall : 1/1 = 1
Rata – rata precision dan recall dari ke-6 kategori di atas adalah
Akurasi :
(
4/5+3/5+4/5+3 /5+2 /5+3/5)
6
=0.634
Precision :(1+1+3/ 4+1 /2+1+1/3)
6
=0.76389
Recall :(0.5+1/3+1+1/2+1/ 4+1)
6
=0.59723
VI. PENUTUP 1. KesimpulanDari semua uraian sebelumnya, maka dapat ditarik kesimpulan sebagai berikut :
1. Naive Bayes Classifier merupakan metode klasifikasi yang mudah diimplementasikan karena sederhana, juga waktu komputasi yang cepat. NBC merupakan salah satu metode yang populer digunakan untuk menyelesaikan masalah klasifikasi
2. Proses perhitungan untuk semua teks berhasil diperoleh dengan perhitungan Laplace Smoothing 3. Akurasi dari proses kategorisasi teks
sangat bergantung dengan kualitas dan kuantitas dari data training yang disediakan
2. Saran
Beberapa saran untuk kelanjutan sistem teks kategorisasi berdasarkan topik ini antara lain:
1. Algoritma stemming perlu disempurnakan
2. Data training dan pengklasifikasian teks perlu diperbanyak
DAFTAR PUSTAKA
[1] Rendy, Klasifikasi Tweet berdasarkan Berita dengan Metode Naïve Bayes Classifier .
[2] Saraswati, 2011, Text Mining Classifier untuk Text Mining dengan metode Naive Bayes Classifier dan Support Vector Machines untuk Sentiment Analysis
[3] Wibisono, Y. Klasifikasi Berita Berbahasa Indones menggunakan Naive Bayes Classifier. Universitas Pendidikan Indonesia