KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

(1)

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

Lukman Syafie

Staf Pengajar Teknik Informatika,

Fakultas Ilmu Komputer Universitas Muslim Indonesia Makassar e-mail: [email protected]

Abstrak

Penelitian ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian Network, (2) merancang simulasi klasifikasi yang mampu mengklasifikasi dokumen repository secara otomatis berdasarkan algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil simulasi algoritma klasifikasi Bayesian Network untuk klasifikasi dokumen repository. Metode penelitian yang digunakan adalah metode eksperimen dengan bentuk penelitian kuantitatif.

Hasil kajian diharapkan bermanfaat dalam membantu mengklasifikasikan suatu dokumen secara otomatis, serta menjadi dasar pembuatan sistem klasifikasi yang lebih kompleks. Kata Kunci: Bayes Network, Klasifikasi, Dokumen, Algoritma

Abstract

This study aims to (1) develop the classification of the Algorithm Bayesian Network; (2) design the simulation classification which will be capable of classifying the document repository automatically based on the existing algorithm classification; (3) analyze the simulation result of the performance of the Algorithm Bayesian Network to classification document repository.

The method used in the research was the quantitative experimental method.

The study results are expected to be useful in helping to classify a document automatically, as well as a base for a more complex classification system.

Keywords: Bayes Network, Document Classification, Algorithm.

1. Pengantar

Perkembangan teknologi informasi yang sangat pesat memungkinkan tersedianya informasi di internet yang dapat diperoleh dengan cepat. Internet menjadi media utama dalam penyebaran dan perolehan kembali informasi. Keberadaan informasi yang sangat luas di internet diharapkan dapat diantisipasi dengan penyaringan data secara otomatis yang dapat membantu proses pencarian informasi secara cepat. Oleh karena itu, diperlukan pemahaman tentang perangkat dan metodologi untuk mencari data kemudian mengambil intisarinya untuk tujuan tertentu. Untuk memudahkan proses pengambilan informasi dari sekumpulan data diperlukan adanya proses ekstraksi informasi. Ekstraksi informasi adalah proses mendapatkan fakta-fakta terstruktur dari sekumpulan data yang

tersedia. Tantangan utama yang dihadapi adalah bagaimana melakukan ekstraksi data secara otomatis. Pada ekstraksi data secara otomatis ada beberapa hal yang harus kita sadari, yaitu bahwa proses ini harus dapat dilakukan tanpa ada pengawasan dari manusia [8].

Salah satu tahap yang sangat penting dalam proses ekstraksi informasi adalah fungsi klasifikasi. Klasifikasi yang dimaksud di sini adalah bagian teknik dari Web Mining yaitu Web Content Mining yang berfokus pada analisa konten informasi teks yang tersimpan pada dokumen web yaitu dengan menggunakan machine learning [1] [5].

Beberapa metode telah dilakukan untuk klasifikasi. Lee telah mengajukan teknik klasifikasi berdasarkan isi teks yang terdapat pada website menggunakan metode Artificial Neural Networks (ANN) [3]. Pop mengajukan teknik klasifikasi menggunakan

(2)

Naive Bayesian F [6], sedang Urvoy menggunakan metode analisis kesamaan bentuk HTML [12]. Metode klasifikasi yang lain yaitu menggunakan algoritma CART [10].

Dalam proses klasifikasi, jika suatu data pengujian tidak ada dalam data pelatihan, maka data pengujian tersebut menjadi sulit untuk diklasifikasikan [9]. Atas dasar itu, digunakan teknik penambahan nilai peluang dari kata-kata pada website pengujian yang tidak terdapat pada data pelatihan [11].

2. Kajian Literatur dan Pengembangan Hipotesis

Teorema Bayes yang juga dikenal sebagai aturan Bayes adalah alat yang berguna untuk menghitung peluang bersyarat (conditional probability). Peluang bersyarat dari A saat B dilambangkan dengan P(A|B) [4].

Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah ditentukan sebelumnya [5]. Bayesian Network merupakan metode yang dapat digunakan untuk melakukan klasifikasi berdasarkan konten dari dokumen. Bayesian Network bekerja dengan cara menghitung probabilitas dari suatu dokumen berdasarkan kontennya [6].

Proses klasifikasi dilakukan dengan menghitung nilai peluang menggunakan persamaan:

(1) dengan merupakan nilai peluang kategori ci jika diketahui dokumen

wj, merupakan nilai

peluang dari kemunculan dokumen wj jika

diketahui dokumen tersebut berkategori ci,

adalah nilai peluang kemunculan kategori ci, dan adalah nilai

peluang kemunculan dokumen wj.

Dokumen terdiri dari kumpulan kata-kata yang menyusun dokumen tersebut sehingga perhitungan peluang dapat dianggap sebagai

hasil perkalian dari peluang kemunculan kata-kata pada dokumen wj [6][7][9]:

(2)

dan diperoleh dari

perhitungan:

(3) dengan adalah fungsi yang mengembalikan nilai kemunculan kata pada kategori , adalah fungsi yang mengembalikan jumlah keseluruhan kata pada kategori , dan merupakan banyaknya kata yang unik.

Dari persamaan (1) dan persamaan (2) diperoleh:

(4) dimana merupakan suatu nilai konstan dalam setiap perhitungan sehingga persamaan (3) dapat dinyatakan dalam bentuk persamaan:

(5) Dari proses klasifikasi ini, dokumen dikategorikan sebagai dokumen Sains (S) jika:

(6)

dan sebaliknya termasuk Non-Sains (H) jika (7)

Berdasarkan persamaan (3) dan sifat-sifat yang dimiliki oleh operator perkalian pada bilangan pecahan, maka akan diperoleh nilai peluang kemunculan kata yang sangat kecil dan cenderung menuju nol. Hal ini mengakibatkan rumusan umum klasifikasi yang ditunjukkan dalam persamaan (5) akan gagal mengklasifikasi dokumen yang diberikan. Oleh karena itu dilakukan modifikasi persamaan dengan bentuk

(3)

logaritma natural, sehingga persamaan klasifikasi yang baru dinyatakan dalam bentuk: (8) atau (9) atau (10) Dengan demikian diperoleh rumus klasifikasi yang baru:

(11) Dari persamaan ini, dokumen dikategorikan sebagai dokumen Sains (S) jika:

(12)

dan sebaliknya termasuk Non-Sains (H) jika:

(13)

3. Metode Penelitian

Secara umum desain penelitian yang dilakukan adalah metode eksperimen dengan bentuk penelitian kuantitatif. Data yang digunakan dalam penelitian ini adalah data primer, yaitu sekumpulan dokumen Repository yang akan diklasifikasikan berdasarkan konten atau isi teks. Lokasi penelitian adalah Perpustakaan Utsman bin Affan, Universitas Muslim Indonesia yang terletak di Jl. Urip Sumoharjo Km. 5 Makassar.

Variabel atau peubah yang diamati dan diukur dalam penulisan ini adalah: Dokumen repository yang dilambangkan dengan atribut wj, yang mewakili dokumen

ke-j. Kata-kata dalam dokumen dilambangkan dengan kp, yang mewakili kata

ke-p. Kategori dari dokumen yang dilambangkan dengan ci, yaitu kategori ke-i.

4. Hasil dan Pembahasan

Berdasarkan rumusan klasifikasi yang telah disusun, dibuat suatu algoritma klasifikasi Bayesian Network sebagai berikut: Sub Algoritma Bayes

1. Hitung jumlah kata:

2. Hitung jumlah frekuensi kata pada kategori S:

3. Hitung jumlah frekuensi kata pada kategori H:

4. Untuk setiap pada kategori S, hitung

5. Untuk setiap pada kategori H, hitung

Sub Algoritma L1

1. Untuk data pelatihan (level 1): i. Hitung frekuensi dan

pada . Simpan ke database level 1

ii. Hitung prior probability

iii. Hitung prior probability

2. Untuk data uji level 2:

i. Hitung frekuensi dan pada . Simpan ke database level 2

(4)

ii. Hitung:

jumlah yang tidak terdapat dalam .

iii.

3. Gunakan Sub Algoritma Bayes pada data level 1

4. Untuk data uji level 2: Untuk setiap :

i.

ii.

iii.

Hitung

Jika maka Kategori=SAINS else Kategori = NON-SAINS

Pengujian dilakukan sebanyak 30 kali percobaan dengan variasi jumlah data pelatihan. Percobaan ke-1 diuji mengguna-kan data pelatihan yang terdiri dari 1 doku-men, percobaan ke-2 diuji menggunakan data pelatihan yang terdiri dari 2 dokumen, dan seterusnya sampai percobaan ke-30 dengan data pelatihan terdiri dari 30 dokumen untuk masing-masing kategori Sains dan Non-Sains. Untuk setiap perco-baan, digunakan data pengujian yang terdiri dari 20 dokumen Sains dan 20 dokumen Non-Sains. Untuk dokumen kategori Sains, digunakan data dari dokumen repository Program Studi Teknik Infor-matika, Teknik Elektro, dan Teknik

Sipil. Untuk dokumen kategori Non-Sains, digunakan data dari dokumen repository Program Studi Akuntansi, Manajemen, dan Hukum.

Tingkat akurasi setiap percobaan diperoleh menggunakan persamaan:

Tabel 1. Total frekuensi kata dan total kata yang berbeda pada setiap percobaan.

No Frequensi Kata Total Kata yang unik S H 1 264 343 289 2 365 427 375 3 486 577 503 4 581 727 534 5 646 845 608 6 676 969 670 7 771 1047 713 8 866 1205 752 9 986 1290 822 10 1123 1319 896 11 1252 1354 949 12 1330 1425 1016 13 1429 1506 1075 14 1510 1623 1133 15 1624 1757 1203 16 1726 1901 1251 17 1778 1995 1283 18 1828 2125 1318 19 1901 2207 1370 20 1976 2313 1413 21 2049 2463 1453 22 2252 2602 1529 23 2396 2746 1583 24 2548 2900 1668 25 2719 3034 1725 26 2827 3217 1772 27 2902 3453 1835 28 2973 3597 1871 29 3077 3769 1905 30 3095 3887 1946

Untuk mengimplementasikan rumus yang telah dibuat, dibangun sistem simulasi untuk menguji tingkat akurasi yang diha-silkan. Pengujian terhadap metode yang digunakan menunjukkan bahwa proses klasifikasi dapat dilakukan dengan baik hingga mencapai tingkat akurasi 97,5%.

(5)

Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut.

Tabel 2. Hasil pengujian data

No Acuracy (%) Error (%) Rata-rata lama proses 1 90 10 0,735 2 90 10 0,745 3 87,5 12,5 0,757 4 92,5 7,5 0,778 5 92,5 7,5 0,765 6 95 5 0,761 7 95 5 0,747 8 95 5 0,735 9 92,5 7,5 0,745 10 87,5 12,5 0,751 11 87,5 12,5 0,746 12 87,5 12,5 0,743 13 85 15 0,741 14 87,5 12,5 0,755 15 90 10 0,793 16 92,5 7,5 0,784 17 92,5 7,5 0,435 18 92,5 7,5 0,761 19 92,5 7,5 0,744 20 92,5 7,5 0,753 21 92,5 7,5 0,747 22 92,5 7,5 0,763 23 92,5 7,5 0,766 24 92,5 7,5 0,787 25 92,5 7,5 0,757 26 95 5 0,750 27 95 5 0,763 28 95 5 0,765 29 95 5 0,500 30 95 5 0,767

Gambar 10. Grafik tingkat akurasi setiap percobaan

Gambar 11. Grafik tingkat error setiap percobaan

Dari grafik tingkat akurasi terlihat bahwa nilai akurasi dari keseluruhan pengujian cenderung meningkat. Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut.

Dari grafik tingkat Error terlihat bahwa nilai Error dari keseluruhan pengujian cenderung menurun. Meskipun nilai error tersebut masih cukup besar, tetapi nilai tersebut dapat diperkecil lagi jika dilakukan koreksi terhadap False Negatif dan False Positif saat proses pengujian. False Negatif adalah suatu keadaan ketika sistem mengkla-sifikasikan dokumen Sains sebagai Non-Sains. False Positif adalah suatu keadaan ketika sistem mengklasifikasikan dokumen Non-Sains sebagai dokumen Sains.

(6)

5. Kesimpulan

Berdasarkan hasil penelitian, maka dapat ditarik kesimpulan sebagai berikut :

1. Algoritma yang dibuat mampu melaku-kan klasifikasi dokumen repository dengan akurasi yang cukup tinggi. 2. Jumlah data pelatihan berpengaruh

secara signifikan terhadap hasil proses klasifikasi.

3. Tingkat akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata dokumen uji yang tidak terdapat pada data pelatihan.

DAFTAR PUSTAKA

[1] Guermazi, Radhouane,et al. (2007). Combining Classifiers for Web Violent Content Detection and Filtering. ICCS 2007, Part III, LNCS 4489, pp. 773–78. [2] Larose, D.T. (2005). Discovering

Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, Jhon Wiley & Sons, Inc.

[3] Lee, Pui Y., et al. (2002). Neural Networks for Web Content Filtering. Nanyang Technological University. Jurnal IEEE Intelligent Systems.

[4] Lewis. David D. (2000). Stop word list of the Smart Information Retrieval Project. http://jmlr.org/papers/volume5/lewis04a/a11 -smart-stop-list/ english.stop. Diakses tanggal 30 Januari 2013 02:40

[5] Pasaribu, Hiskia E., et al. (2010). Klasifikasi Dokumen Web Menggunakan Version Space Support Vector Machine. Fakultas Informatika Institut Teknologi Telkom, Bandung. Konferensi Nasional Sistem dan Informatika (2010). KNS I10-059.

[6] Pop, Ioan. (2006). An approach of the Naive Bayes classifier for the document classification. General Mathematics Vol. 14, No. 4 (2006), 135–138.

[7] Sahlan, La Ode. (2011). Penerapan Metode Naive Bayesian Dalam Pengklasifikasian Dokumen Web. Makassar. Skripsi, Jurusan Matematika Universitas Hasanuddin. [8] Sari, Riri Fitri, dkk. (2011). Teknik Ekstraksi

Informasi di Web. CV. Andi Offset, Yogyakarta.

[9] Shadiq, Muh. Ammar. (2009). Keoptimalan Naïve Bayes dalam Klasifikasi. Program Studi Ilmu Komputer Fakultas Pendidikan Matematika Dan Ilmu Pengetahuan Alam Universitas Pendidikan Indonesia.

[10] Susanto, Sani, dkk. (2010). Pengantar Data Mining, Menggali Pengetahuan dari Bongkahan Data. CV. Andi Offset, Yogyakarta.

[11] Syafie, Lukman (2013). Perancangan Algoritma Bayesian Network Untuk Memfilter Website Terlarang. E-journal, Universitas Hasanuddin, Makassar.

[12] Urvoy, Tangui, dkk. (2008). Tracking Web Spam with HTML Style Similarities. ACM Journal Name, Vol. V, No. N, Month 2006, Pages 1–26.