• Tidak ada hasil yang ditemukan

Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode Multinominal Naive Bayes dan Jaringan Saraf Tiruan

N/A
N/A
Protected

Academic year: 2021

Membagikan "Klasifikasi Dokumen Bahasa Indonesia Menggunakan Metode Multinominal Naive Bayes dan Jaringan Saraf Tiruan"

Copied!
9
0
0

Teks penuh

(1)

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MULTINOMINAL NAIVE BAYES DAN JARINGAN SARAF TIRUAN

Bagus Kurniawan¹, Retno Novi Dayawati², Angelina Prima Kurniati³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Klasifikasi adalah metode pengelompokan satu data kedalam suatu kelompok data berdasarkan kemiripannya dengan data lain dalam kelas-kelas data yang telah di tentukan. Proses klasifikasi ini juga dapat diterapkan pada berita berita berbahasa indonesia dengan menggunakan classifier multinominal naive bayes. Namun terdapat suatu cara untuk meningkatkan hasil akurasi metode multinominal naive bayes ini yaitu dengan menggabungkannya dengan metode jaringan saraf tiruan setelah proses metode multinominal naive bayes secara sequensial untuk memperbaiki sistem pemisahan linier dari metode multinominal naive bayes.

Hasil pengujian menunjukan bahwa metode gabungan antara multinominal naive bayes dan jaringan saraf tiruan menghasilkan peningkatan performansi dibandingkan klasifikasi

menggunakan metode multinominal naive bayes saja. Sehingga dapat dikatakan bahwa metode multinominal naive bayes dan Jaringan saraf tiruan dapat digunakan untuk proses klasifikasi berita berbahasa Indonesia

Kata Kunci : Klasifikasi, classifier, multinominal naïve bayes, jaringan saraf tiruan dan akurasi.

Abstract

Classification is a method that group a data into one data class depend on that similiarity characteristic with the other data .In this method the data classes have been determined before the process. Classification process can be implemented for indonesian news document using multinominal naive bayes classifier. There is a way to improve the accuration of multinominal naive bayes for classification task by combining this method with artificial neural network method sequentially.The artificial neuron network method is used to fix the linier separating system which was created by multinominal naive bayes method.

The result show that the combined method add accuracy in spite of using only multinominal naive bayes method. Depend on this fact that can be concluded that the combined method between multinominal naive bayes method and artificial neuron network can be used for classifiying Indonesian news document

Keywords : Clasification, classifier, multinominal naïve bayes, artificial neural network and accuracy .

(2)

1.

PENDAHULUAN

1.1

Latar belakang masalah

Semakin berkembangnya jaman menyebabkan arus informasi yang semakin deras. Salah satu informasi penting yang telah berkembang cukup pesat dan banyak dicari orang adalah berita. Namun tidak semua orang tertarik dengan semua berita, melainkan mencari berita dengan topik tertentu saja. Bukanlah hal yang mudah bila harus memilah-milah sendiri berita yang ingin dibaca setiap harinya, baik itu melalui Internet maupun sumber-sumber yang lain. Oleh karena itulah akan sangat membantu bila terdapat sebuah sistem yang membantu memilah-milah atau mengklasifikasikan berita yang ingin dibaca.

Tugas akhir ini mengkolaborasikan dua buah metode yaitu metode multinominal naive bayes dan jaringan saraf tiruan yang pemprosesannya dilakukan secara sequensial. multinominal naive bayes merupakan metode naive bayes yang digunakan untuk klasifikasi berbasis teks[11]. Metode ini termasuk ke dalam golongan analytical learning dalam skema pembelajaran yang menggunakan data training untuk memprediksi data tertentu. Metode ini berdasar pada sebuah asumsi antara atribut yang satu dengan yang lain pada sebuah object

yang akan diklasifikasikan adalah saling bebas atau biasa disebut dengan

conditional indepedence. Hal inilah yang menjadikan metode multinominal naive bayes sederhana untuk dimplementasikan, memiliki proses yang cepat dan cukup baik untuk data yang besar dan memiliki tingkat akurasi yang cukup tinggi. Metode ini merupakan metode yang memisahkan data secara linier sehingga diperlukan suatu pemisah linier yang dapat memisahkan data secara tepat. Namun metode ini memiliki masalah ketika berhadapan dengan banyak kategori. Kurang beragamnya data training dari segi distribusi datanya, Mengakibatkan salah satu kelas mendapatkan lebih banyak instance untuk dilatih dan dibandingkan kelas lainnya. Masalah lain pada metode ini adalah noise pada data.

Metode yang kedua adalah Jaringan saraf tiruan.Jaringan saraf tiruan adalah metode pada machine learning yang termasuk ke dalam golongan

inductive learning. Metode ini memiliki proses pembelajaran menggunakan node-node dan bobot, dimana aturan-aturan yang diproduksi diperbaiki dengan perubahan bobot. Kemampuan belajar metode ini digunakan untuk memperbaiki hasil pemisahan linier metode multinominal naive bayes dan memperbaiki kesalahan prediksi pada saat pelatihan akibat noise dan outlier. Selain itu kelebihan lainnya adalah memiliki fault-tolerance. Jaringan saraf tiruan dapat digunakan untuk mengetahui pola-pola tertentu untuk masalah yang kompleks. Keuntungan lain metode ini adalah memiliki kemampuan untuk mengurangi tingkat kesalahan melalui metode perubahan bobot. Sehingga dalam Tugas Akhir ini metode jaringan saraf tiruan digunakan sebagai metode untuk memproses data hasil metode multinominal naive bayes untuk meningkatkan akurasi klasifikasi suatu dokumen berita.

Metode jaringan saraf tiruan yang digunakan adalah metode

Backpropagation. Backpropagation menggunakan perhitungan maju untuk

menghitung error hasil klasifikasi dan propagasi balik digunakan untuk merubah bobot pada jaringan. Backpropagation dipilih sebagai tipe jaringan karena

(3)

keterhubungan atau relasi antar atribut belum diketahui jelas, Selain itu tidak menutup kemungkinan proses klasifikasi yang dilakukan menghasilkan masalah yang kompleks dan diperlukan sebuah solusi yang jelas. Metode Backpropagation

dipilih sebagai metode JST yang digunakan untuk mengatasi kelemahan pada metode multinominal naive bayes karena metode ini sebelumya pernah dimplementasikan untuk aplikasi text retrival dan menghasilkan tingkat akurasi yang cukup tinggi yaitu sebesar 96%[ 1].

1.2

Perumusan masalah

Dalam tugas akhir ini penulis menitikberatkan pembahasan pada peningkatan akurasi yang didapat dengan menggabungkan Metode Multinominal Naivebayes

dan jaringan saraf tiruan backpropagation dibandingkan dengan menggunakan metode multinominal naive bayes saja. Sehingga perumusan masalah untuk Tugas Akhir ini dapat dibagi menjadi point-point berikut :

 Bagaimana menentukan perbandingan yang tepat untuk data training1,training2 dan data testing yang digunakan?

 Apa saja yang harus dilakukan untuk menghasil term-term yang sesuai yang menunjang tingkat akurasi pada data dokumen yang disediakan ?

 Bagaimanakah model JST backpropagation yang sesuai untuk menghasilkan tingkat akurasi yang baik pada metode gabungan ini ?

 Seberapa besarkah perbaikan tingkat akurasi yang diberikan oleh metode jaringan saraf tiruan yang digunakan ?

1.3

Tujuan

Tujuan yang ingin dicapai dalam pembuatan Tugas Akhir ini antara lain :

 Implementasi metode multinominal naive bayes dan JST pada proses klasifikasi dokumen berita bahasa indonesia.

 Analisis akurasi metode multinominal naive bayes dan jaringan saraf tiruan backpropagation terhadap klasifikasi dokumen artikel berita

1.4

Batasan Masalah

Adapun batasan masalah dalam tugas akhir ini adalah sebagai berikut :

 Dokumen yang diinputkan merupakan dokumen terstruktur yang telah jelas memiliki label judul dan isi dengan jumlah dokumen 450 buah

 Untuk berita yang memiliki judul dan sub judul dilakukan penanganan khusus berupa penggabungan keduanya menjadi satu judul saja.

 Untuk preprocessing tepatnya proses pembentukan term tidak menangani masalah phrase atau ungkapan dalam bahasa indonesia.

preprocessing stemming menggunakan algoritma porter stemmer untuk bahasa Indonesia

(4)

 Kelas-kelas klasifikasi telah ditentukan sebelumnya, yaitu: politik,ekonomi,hiburan,olahraga,teknologi.

1.5

Metodologi penyelesaian masalah

 Studi Literatur

Pencarian referensi dan sumber-sumber lain yang dapat digunakan sebagai acuan dalam pembangunan aplikasi klasifikasi dokumen berita bahasa indonesia ini.

 Implementasi Sistem

Menyiapkan data yang diperlukan untuk keperluan sistem Data yang disiapkan berupa data untuk melatih metode

multinominal naive bayes, jaringan sarf tiruan back propagation, serta data untuk menguji akurasi dari sistem.

Preprocessing

Proses dimulai dengan pemecahan documen menjadi term-term.Setelah itu barulah dilakukan proses filtering,Stemming dan pembobotan.

Pembentukan Implementasi dan analisa Model 1(model

Knowledge based neural network)

a) Pembentukan model multinominal naïve bayes_1(Model Knowledge Based Neural Network)

Data latih 1 yang telah mengalami preprocessing selanjutnya digunakan untuk membuat model classifier metode Multinominal Naive Bayes.

b) Pembentukan JST 1(Model Knowledge Based Neural Network)

Setelah model multinominal naive bayes

terbentuk selanjutnya data latih 2 yang telah mengalami proses preprocesing dimasukan ke dalam model multinominal naive bayes yang telah terbentuk sebelumnya hasil dari proses ini berupa nilai probabilitas suatu kata ke dalam suatu kategori dan nilai probabilitas dari suatu kategori terhadap keseluruhan dokumen.Hasil inilah yang nantinya akan menjadi bobot awal pada jaringan saraf tiruan yang akan dilatih dengan metode backpropagation. c) Analisa model 1(Model Knowledge Based Neural

Network

Hal-hal yang dianalisa dalam proses ini adalah tingkat akurasi dan waktu pelatihan untuk model Knowledge Based Neural Network

(5)

Pembentukan Implementasi dan analisa Model custom model a) Pembentukan model multinominal naïve bayes_2

Data latih 1 yang telah mengalami preprocessing selanjutnya digunakan untuk membuat model classifier metode ”Multinominal Naive Bayes”.

b) Pembentukan JST 2(Custom model)

Setelah model multinominal naive bayes terbentuk selanjutnya data latih 2 yang telah mengalami proses preprocesing dimasukkan ke dalam model multinominal naive bayes yang telah terbentuk sebelumnya. Hasil dari proses ini adalah nilai probabilitas suatu instance masuk ke suatu kategori dan nilai probabilitas suatu instance tidak masuk ke suatu kategori.bila suatu instance tidak termasuk ke dalam suatu kategori maka intance tersebut akan masuk ke dalam kelas kategori khusus yang telah disediakan. untuk masing-masing kategori, hasil ini akan menjadi inputan bagi pembentukan JST backpropagation.

c) Analisa model 2

Hal-hal yang dianalisa dalam proses ini adalah tingkat akurasi dan waktu pelatihan untuk model 2

Pross pengujian

Proses pengujian merupakan proses untuk mengukur tingkat akurasi data.Pengukuran ini dilakukan baik untuk data yang normal ,mengandung outlier, dan terhadap data yang penyebarannya tidak merata.Namun sebelumnya dilakukan proses pemilihan model JST antara model 1 dan model 2 berdasarkan tingkat akurasi dan waktu pelatihan jaringan terbaik.

 Evaluasi dan Analisa keseluruhan hasil keluaran sistem

(6)

Diagram Proses pembentukan model :

(7)
(8)

5.

KESIMPULAN DAN SARAN

5.1

Kesimpulan

Metode multinominal naive bayes dan jaringan saraf tiruan dapat dimplementasikan secara sequensial untuk pengklasifikasian dokumen berita berbahasa indonesia. Pengimplementasian metode gabungan ini adalah dengan menggunakan custom model. Model ini dipilih karena berdasarakan hasil percobaan dan pengujian yang telah dilakukan menunjukan bahwa custom model memiliki tingkat ketahanan terhadapa kenaikan jumlah kategori dan menghasilkan tingkat akurasi yang lebih baik dibandingkan metode gabungan KBNN. Selain itu didapat juga bahwa dengan metode gabungan custom model diperoleh peningkatan akurasi sebesar 3.39 untuk data yang bersifat normal, dan 3.98 untuk data yang bersifat unbalanced dibandingkan dengan menggunakan metode

multinominal naive bayes saja.Hal ini terjadi karena adanya pelatihan JST oleh custom model pada keluaran metode multinominal naive bayes yang mengurangi dampak noise terhadap penurunan tingkat akurasi.

5.2

Saran

1. Hasil yang lebih baik untuk metode gabungan multinominal naive bayes dan JST secara sequensial dapat diperoleh dengan menggunakan fungsi stemming yang benar-benar sesuai untuk bahasa indonesia.

2. Hasil yang lebih baik untuk metode gabungan ini mungkin didapat dengan menambahkan algoritma-algoritma baru atau cara-cara baru yang sudah teruji untuk pelatihan model JST yang digunakan terutama yang berkaitan dengan parameter-parameter JST itu sendiri.

(9)

Referensi

[1] Thomas Mandl. - Implementation of Large Backpropagation Networks for Text Retrieval. Available on:

http://www.dsi.unifi.it/NNLDAR/Papers/01-NNLDAR05-Liu.pdf

(20 Desember 2008)

[2] Suyanto. 2007. Artificial Intelligence: Searching, Reasoning, Planning and

Learning. Bandung: Informatika.

[3] Jong Jek Siang. 2007. Jaringan SyarafTiruan dan Pemprograman

menggunakan Matlab. Yogyakarta: ANDI.

[4] Kiki, Sri Kusumadewi. 2008. Analisis Jaringan Saraf Tiruan dengan

Metode Backpropagation Untuk Mendeteksi Gangguan Psikologi. Avaiable

on:

http://cicie.files.wordpress.com/2008/06/analisis-jst-_backpropagation_.pdf ( 16 Juni 2008)

[5] 2000.: Aplikasi Jaringan Syaraf Tiruan sebagai Metode Alternatif Prakiraan Beban

Jangka Pendek. Available on:

http://elektroindonesia.com/elektro/ener29.html

(20 November2008)

[6] http://grb.mnsu.edu/grbts/doc/manual/Backpropagation_Neural_Netw.html

[7] Saputra,Irvan.2008. Matriks Analisa dan Implementasi Klasifikasi Berita

Berbahsa Indonesia menggunakan Metode Naïve Bayes. (20 November

2008)

[8] DataMining and Techniques (Second Edition). Diane Cerra. Available on :

http://www.cs.waikato.ac.nz/~ml/weka/book.html

(20 Juni 2008)

[9] Christopher D. Manning and Prabhakar Raghavan.2008.Introduction to Information Retrieval. Cambridge University Press. Available on :

nlp.stanford.edu/IR-book/pdf/irbookprint.pdf (20 Juni 2008) [10] http://www.doc.ic.ak.uk/~nd/surprise_96/journal/val1/cs1

(18esember 2008)

[11] http://www.ia.hiof.no/~kyvh.SciLib/docs/SciLib/Neuro

(15esember 2008)

[12] Ian H. Witten and Eibe Frank.2005. Data Mining: Practical Machine Learning Tools

[13] Goyal,Dayal Ram.2007. Knowledge Based Neural Network for Text Classification

[14] http://www.stttelkom.ac.id/library/inde

x.php?view=article&catid=20%3Ainformatika&id=505%3Ajaringan-

syaraf-tiruan-backpropagation-delta-bar-delta&tmpl=component&print=1&page=&option=com_content&Itemid=15

[15] Z Talla,Fadillah.. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. (20 November 2008)

Gambar

Diagram Proses pembentukan model :
Gambar 1.2 : Proses pembentukan jaringan saraf tiruan

Referensi

Dokumen terkait

Anggota jenis VIP dapat menyimpan file atau dokumen sampai maksimal berkapasitas 175 MB sekali unggah, disediakan 20 folder dari indowebster untuk menyimpan file

Secara umum hanya penjaga gawang saja yang berhak menyentuh bola dengan tangan atau lengan di dalam daerah gawangnya, sedangkan 10 (sepuluh) pemain lainnya hanya diijinkan

Asimilasi adalah proses percampuran dua macam kebudayaan atau lebih menjadi satu kebudayaan yang baru, di mana dengan percampuran tersebut maka masing-masing unsur budaya

Iklan A Mild versi Go A Head gambar para diving didasar laut yang di muat di media luar ruang billboard serentak di seluruh wilayah Indonesia Pada. Tanggal

Kecakapan yang bersifat penalaran, agar siswa dapat berpikir secara logis dalam memecahkan masalah dalam proses memahami puisi-puisi yang terdapat dalam kumpulan

Untuk membuat sebuah situs atau website diperlukan domain dan hosting. Dua istilah ini adalah komponen utama dalam membangun sebuah website sehingga dapat diakses

Model promosi pada Gambar 6, memperlihatkan wisatawan mendapatkan informasi destinasi wisata dalam bentuk digital recreation melalui portal, media sosial,

ALOKASI DAN PERUNTUKAN ALOKASI DANA DESA TAHUN ANGGARAN 2017H. KECAMATAN/DESA DAN KETENAGAKERJAAN JAMINAN KESEHATAN