KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN
ALGORITMA NAÏVE BAYES
1
Abdur Rozaq –
2Agus Zainal Arifin –
3Diana Purwitasari
Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Email : [email protected], [email protected], [email protected]
Perkembangan teknologi informasi
mem-pengaruhi ketersediaan penyimpanan dan
penyampaian informasi di media online.
Banyaknya informasi digital yang tidak terstruktur sebagai salah satu dampak dari perkembangan teknologi informasi yang membutuhkan cara pengorganisasian untuk kemudahan
pengolahan-nya.Tugas Akhir ini bertujuan untuk
mengelompokkan informasi yang terkandung dalam dokumen bahasa Arab menggunakan metode Naïve Bayes. Metode ini mengkategorikan objek baru berdasarkan pada atribut dan sampel data training. Pada tahap preprocessing setiap kata dalam dokumen dicari bentuk dasarnya dan dilakukan penghapusan daftar kata yang tidak memiliki peran penting dalam membangun sebuah dokumen. Selanjutnya dilakukan klasifikasi dokumen menggunakan metode Naïve Bayes yang memanfaatkan nilai probabilitas semua dokumen dan tiap-tiap kategori. Berdasarkan uji coba
yang dilakukan dengan menggunakan 155
dokumen teks bahasa Arab yang diambil dari kitab dalam software Maktabah Syamilah, menunjukkan bahwa metode Naïve Bayes mampu melakukan klasifikasi dokumen teks bahasa Arab dengan nilai lokal optimal F-measure terbaik sebesar 0.88 dengan tingkat akurasi mencapai 97%.
1. PENDAHULUAN
Berkembangnya teknologi informasi
me-ningkatkan ketersediaan penyampaian dan
penyimpanan informasi melalui internet, dimana internet menjadi media publikasi yang sangat populer. Banyaknya informasi digital yang tidak terstruktur sebagai dampak dari perkembangan teknologi informasi yang membutuhkan suatu cara pengorganisasian atau pengelompokan informasi untuk kemudahan pengolahannya 1. Oleh sebab itu kategorisasi teks secara otomatis merupakan salah satu solusi untuk masalah tersebut karena dengan signifikan dapat mereduksi biaya dan waktu kategorisasi manual.
Pengklasifikasian dokumen didasarkan atas kesamaan fitur atau kesamaan isi dokumen. Klasifikasi dilakukan dengan cara memasukkan dokumen-dokumen ke dalam beberapa kategori yang sudah ditentukan sebelumnya. Metode klasifikasi seperti ini disebut dengan supervised learning. Secara garis besar metode klasifikasi dibagi menjadi dua, yaitu supervised learning dan unsupervised learning 1. Supervised learning
adalah suatu metode pengelompokan dokumen, di-mana kelas atau kategori untuk dokumen-dokumen
tersebut sudah ditentukan terlebih dahulu;
sedangkan unsupervised learning adalah pe-ngelompokan dokumen secara otomatis tanpa terlebih dahulu mendefinisikan kategori atau kelas yang ada. Metode pembelajaran statistik untuk kategorisasi teks seperti ini sudah banyak diimplementasikan seperti Regressions Models, Nearest Neighbor Classifiers, Bayes Belief Networks, Decision Trees, Rule Learning Algorithms, Neural Networks, dan Inductive Learning Techniques. Penelitian tentang kategori-sasi teks secara otomatis sering dilakukan pada beberapa bahasa diantaranya pada bahasa Inggris, bahasa Cina, dan bahasa Indonesia. Namun dalam kurun waktu dua tahun belakangan ini penelitian tentang teks bahasa Arab yang ter-publish di media online hanya sekitar 260 penelitian, 30 diantaranya adalah penelitian tentang temu kembali informasi dokumen teks berbahasa Arab sedangkan sisanya adalah tentang Arabic text recognition, dll.
Bahasa Arab memiliki morfologi yang lebih kaya dan kompleks daripada bahasa Inggris ataupun bahasa Indonesia 2. Dimana dalam teks bahasa Arab dapat dicari bentuk morfologi sebuah kata dari stem atau kata dasarnya. Stemming merupakan suatu proses menemukan kata dasar dari sebuah kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran (confixes) pada kata turunan.
Hadi Wa’el Musa dkk pernah melakukan penelitian tentang kategorisasi dokumen teks berbahasa Arab menggunakan algoritma Naïve Bayes 3. Implementasi metode Naïve Bayes ini dengan perhitungan probabilitas tiap dokumen dalam ketegori, dimana dalam perhitungannya dilakukan pada sistem pembelajaran bagaimana
mengklasifikasi dokumen melalui dokumen
sampel. Dalam beberapa penelitian yang pernah dilakukan sebelumnya, penggunaan metode Naïve Bayes untuk proses klasifikasi dokumen memiliki beberapa keunggulan dibandingkan dengan peng-gunaan metode yang lain. Seperti penelitian yang
pernah dilakukan oleh Al Hawari S. dkk tentang
perbandingan hasil klasifikasi dokumen teks berbahasa arab dengan menggunakan algoritma Naïve bayes dan K-Nearest Neighbor 4 yang menunjukkan bahwa algoritma Naive Bayes menghasilkan nilai evaluasi (precision, recall dan
F-measure) yang lebih tinggi daripada penggunaan algoritma K-Nearest Neighbor yang berbasis pada koefisien Cosine. Oleh karene itu Tugas Akhir ini dibuat untuk mengatasi masalah pengorganisasian atau klasifikasi informasi menggunakan algoritma Naïve Bayes. Metode Naïve Bayes dipilih karena
lebih sederhana, efektif, dan juga dapat
diaplikasikan pada jumlah data yang sedikit.
2. KLASIFIKASI DOKUMEN
Klasifikasi dokumen adalah suatu proses
pengelompokan dokumen sesuai dengan
pembahasan di dalamnya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap waktu semakin bertambah. Sebuah dokumen dapat dikelompokan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen memiliki makna tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari suatu dokumen.
Dalam text mining, klasifikasi mengacu pada aktifitas menganalisis atau mempelajari himpunan dokumen teks pre-classified untuk memperoleh suatu model atau fungsi yang dapat digunakan untuk mengelompokkan dokumen teks lain yang belum diketahui kelasnya ke dalam satu atau lebih kelas-kelas predefined tersebut 6.
Klasifikasi termasuk pembelajaran supervised learning. Jenis lain adalah unsupervised learning atau dikenal sebagai clustering. Pada supervised learning, setiap data training mengandung pasangan data input dan output yang diharapkan, sedangkan pada unsupervised learning belum ditentukan target output yang harus diperoleh. Text document clustering adalah proses clustering dengan spesialisasi pada dokumen berbasis teks. Indexing atau preprocessing juga berlaku dalam text document clustering. Teknik yang paling banyak dipakai adalah dengan merepresentasikan tiap dokumen teks dalam vector space model. Dalam model ini, setiap dokumen D,
direpre-sentasikan sebagai suatu vektor c = {t1,t2,...,tn},
dimana tn adalah frekuensi term ke-n pada
dokumen bersangkutan
Error! Reference source
not found.
. Terkadang representasi frekuensi inidiganti menjadi format biner atau boolean (0 atau 1) yang menandakan ada-tidaknya term tersebut pada dokumen bersangkutan. Salton menyarankan untuk merepresentasikannya dalam bentuk yang sudah mengalami pembobotan, seperti TF-IDF. Berdasarkan struktur hasil clustering-nya, maka teknik clustering dapat dibedakan menjadi dua tipe
yakni
Error! Reference source not found.
:1. Hierarchical
2. Non-hierarchical (partitional).
Teknik hierarchical menghasilkan urutan partisi yang bersarang (nested) dengan satu cluster utama pada level atas, dan cluster-cluster kecil di bawah. Sebaliknya, teknik nonhierarchical menghasilkan partisi yang tidak bersarang (unnested) dengan membagi dokumen-dokumen dalam beberapa cluster awal yang ditentukan, kemudian mengubah posisi dokumen dalam cluster yang telah ada hingga solusi terakhir dicapai.
Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu :
1. Fase information retrieval (IR) untuk
mendapatkan data numerik dari dokumen teks. Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal dokumen. Fitur yang diperoleh dapat direduksi agar dimensi
vektor menjadi lebih kecil. Beberapa
pendakatan feature reduction dapat diterapkan seperti menghapus stopword dan stemming.
2. Fase klasifikasi utama. Data numerik hasil dari
proses pada fase pertama di atas akan diproses lagi untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah Naïve Bayesian, Rocchio, Decision Tree, k-Nearest Neighbor (k-NN), Neural Network (NN), dan Support Vector Machines (SVM). Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari 6.
Manfaat dari klasifikasi dokumen adalah untuk
pengorganisasian dokumen. Dengan jumlah
dokumen yang sangat besar, untuk mencari sebuah dokumen akan lebih mudah apabila kumpulan dokumen yang dimiliki terorganisir dan telah dikelompokan sesuai kategorinya masing-masing. Contoh aplikasi penggunaan klasifikasi dokumen teks yang banyak digunakan adalah email spam filtering. Pada aplikasi spam filtering sebuah email diklasifikasikan apakah email tersebut termasuk spam atau tidak dengan memperhatikan kata-kata yang yang terdapat dalam email tersebut. Aplikasi ini telah digunakan oleh banyak provider jasa layanan email.
3. ALGORITMA NAÏVE BAYES
Naïve Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan probabilitas. Metode ini memanfaatkan teori probabilitas yang dikemukakan oleh ilmuwan Inggris Thomas Bayes 8, yaitu memprediksi
probabilitas di masa depan berdasarkan peng-alaman di masa sebelumnya. Atau dalam konsep IR metode seperti ini biasa ditandai dengan adanya satu set data yang dibagi dalam dua kelompok, data training dan data testing. Data testing adalah sekumpulan data yang akan diproses dan dicari kelasnya, sedangkan data training adalah data yang telah dihitung sebelumnya yang kemudian dibandingkan nilainya dengan sejumlah fitur yang ada dalam data testing.
Naïve Bayes merupakan turunan dari konsep teorema Bayes, yaitu melakukan klasifikasi dengan menghitung nilai probabilitas kategori dan semua data yang ada. Perhitungan nilai probabi-litas tersebut menggunakan persamaan :
p(ci) = fd (ci), (3.1)
|D| dimana
fd (ci) adalah jumlah dokumen yang dimiliki
kategori ci.
|D| adalah jumlah keseluruhan training document. dan
p(tj | ci) = f (tj.ci)+1, (2.4)
f(ci)+|T|
dimana
f (tj.ci) adalah nilai kemunculan kata tj pada
kategori ci.
f(ci) adalah jumlah seluruh kata pada kategori ci.
|T| adalah jumlah keseluruhan kata/fitur yang digunakan.
Dengan dua persamaan di atas didapat nilai
probabilitas masing-masing kategori ci dan nilai
probabilitas term yang telah diekstrak dari
dokumen training di. Pengekstrakan fitur/term ini
dilakukan untuk mempercepat proses perhitungan Naïve bayes itu sendiri. Tahapan ekstraksi fitur/term ini adalah sebagai berikut :
1. Ambil sejulah N kata/term dari semua
dokumen training dalam masing-masing
kategori ci yang memiliki nilai frekuensi
terbesar.
2. Hasil pengambilan term pada proses 1 di atas,
di-select distinct untuk mendapatkan term yang berbeda.
3. Mengecek keberadaan term yang dihasilkan
dari proses 2 pada dokumen testing.
4. Apabila ada, maka ambil sejumlah N
kata/term yang sama, yang memiliki nilai frekuensi terbesar.
5. Apabila tidak ada, maka ambil sejumlah n
kata/term yang sama yang memiliki frekuensi
tertinggi dan ambil sejumlah N-n kata/term lain yang juga memiliki nilai frekuensi ter-besar.
Rangkaian tahapan ini dilakukan pada semua dokumen hingga didapat sejumlah N fitur/term dari semua dokumen. Dan nilai frekuensi dari N term inilah yang nanti akan digunakan dalam perhitungan Naïve Bayes untuk menentukan kategori suatu dokumen.
3.1CONTOH PERHITUNGAN NAÏVE BAYES Dari persamaan 3.1 dan persamaan 3.2 di atas, misalkan dari 9 dokumen bahasa Arab akan didapat model probabilistik dan selanjutnya dicari nilai terbesar dari hasil perkalian masing-masing data probabilistik yang telah diperoleh. Sebelum-nya tentu terlebih dahulu semua dokumen training mengalami preprocessing dan ekstraksi fitur, hingga didapat data hasil prepocessing seperti pada Tabel 3.1.
Tabel 3.1 Dokumen setelah preprocessing Dokumen Kategori Kata/Term Hasil Ekstraksi
(Kemunculan) D1 Sholat (sholla)يلص (3), (khomsa)
سمخ (2), (‘asyaro)رشع (1) D2 Sholat (sholla) يلص (3), (‘asyaro) رشع (2), (khoroja) جرخ (1) D3 Zakat (khasaba) بسح (2), (nafsa) سفن (2), (nadhoro) رظن (1) D4 Zakat (faro’a) عرف (2), (showama) موص (2), (nadhoro) رظن (1) D5 Puasa (sholla)يلص (3), (khomsa) سمخ (1), (showama) موص (2) D6 Puasa (nadhoro) رظن (3), (khomsa) سمخ (1), (showama) موص (2)
D7 Haji (sholla)يلص (1), (showama) موص (2), (khomsa) سمخ (2) D8 Haji (khoroja) جرخ (2), (showama) موص (2), (khomsa) سمخ (1) D9 ? (sholla)يلص (1), (‘asyaro) رشع (1), (khomsa) سمخ (2)
Dari data dokumen training setelah tahap preprocessing dan ekstraksi fitur seperti pada Tabel 3.1 di atas. Dengan menggunakan persama-an 3.1 dpersama-an persamapersama-an 3.2, didapat sebuah model probabilistik seperti pada Tabel 3.2. Setelah didapat model probabilistik term hasil ekstraksi dari masing-masing kategori,
Tabel 3.2 Probabilistik term dalam dokumen K a te g o ri p (ci ) p(wkj|ci) مو ص س فن ي لص رظن س مخ ج ر خ ر ش ع ع ر ف S h o la t ¼ 1/ 20 1/20 7/20 1/20 3/20 2/20 4/20 1/20 Za k a t ¼ 3/18 3/18 1/18 3/18 1/18 1/18 1/18 3/18 P u a sa ¼ 5/20 1/20 4/20 4/20 3/20 1/20 1/20 1/20 H a ji ¼ 5/18 1/18 2/18 1/18 4/18 3/18 1/18 1/18
berikutnya dilakukan perhitungan dengan metode Naive Bayes pada dokumen testing dengan mengalikan nilai probabilitas semua kategori dengan probabilitas tiap term yang diambil dari masing-masing dokumen. p(“Sholat”|“D9”) = p(“Sholat”) x p(“يلص”|“Sholat”) x p(“سمخ”|”Sholat”) x p(“رشع ”|”Sholat”) = 1/4x7/20x3/20x4/20 = 84/640000 ≈ 13.125 x 10-5 p(“Zakat”|“D9”) = p(“Zakat”) x p(“يلص”|“ Zakat”) x p(“سمخ”|” Zakat”) x p(“رشع ”|”Zakat”) = 1/4 x1/18x1/18 x 1/18 = 1/23328 ≈ 4.287 x 10-5 p(“Puasa”|“D9”) = p(“Puasa”) x p(“يلص”|“Puasa”) x p(“سمخ”|” Puasa”) x p(“رشع ”|” Puasa”) = 1/4 x4/20 x4/20 x1/20 = 16/640000 ≈ 2.5 x 10-5 p(“Haji”|“D9”) = p(“Haji”) x p(“يلص”|“ Haji”) x p(“سمخ”|” Haji”) x p(“رشع ”|” Haji”) = 1/4x2/18x4/18x 1/18 = 8/23328 ≈ 3.249 x 10-5 Berdasarkan hasil perhitungan Naive Bayes
di atas, diketahui bahwa D9 menghasilkan nilai
terbesar pada perhitungan dengan kategori 1, yaitu
kategori Sholat. Maka dari itu dapat disimpulkan
bahwa D9 masuk ke dalam kategori Sholat.
Perhitungan seperti ini dilakukan pada semua dokumen testing sehingga semua dokumen terklasifikasi.
.
4. METODE KLASIFIKASI
Terdapat dua metode umum untuk mengukur tingkat keberhasilan hasil klasifikasi yaitu internal dan external measure Error! Reference source not found.. Internal measure membandingkan cluster-cluster yang dihasilkan tanpa adanya informasi atau knowledge atas kelas-kelas awal sebelumnya. Sedangkan external measure meng-evaluasi cluster-cluster yang dihasilkan dengan kelas-kelas yang sudah ditentukan sebelumnya. Pada unsupervised classification, terdapat dua tipe metode evaluasi klasifikasi yang terkenal, yakni F-measure dan entropy. Dalam Tugas Akhir ini, metode evaluasi klasifikasi yang digunakan adalah F-measure dan accuration.
Sebagai salah satu metode external measure, metode F-measure menggunakan informasi kelas awal dari data uji yang digunakan dalam klasifikasi. F-measure pada awalnya digunakan pada bidang IR dengan mengkombinasikan konsep recall dan precision Error! Reference source not found..
Jika kita mengasumsikan A sebagai himpunan dokumen yang seharusnya diberikan oleh sistem IR (retrieved document), B adalah himpunan dokumen yang ternyata diberikan sebagai hasil retrieval sistem IR, dan A∩B adalah himpunan dokumen benar yang diberikan sistem IR, maka nilai recall dan precision sistem IR tersebut dapat
dinyatakan sebagai berikut
Error! Reference
source not found.
:Recall = (4.1)
Precision = (4.2)
Pada dasarnya, nilai recall dan precision berada pada rentang antara 0 s/d 1. Oleh karena itu, suatu sistem IR yang baik adalah yang dapat memberikan nilai recall dan precision mendekati 1. Akan tetapi, nilai recall dan precision saja di-anggap belum cukup mewakili kinerja sistem. Oleh karena itu, dibuat metode evaluasi F-measure yang mengkombinasikan metode evaluasi recall dan precision. Formulasi F-measure dinyatakan seperti rumus berikut :
F = , (4.3) dimana , A B A I . B B A I
p
r
rp
+
+
2 2)
1
(
β
β
r adalah recall, p adalah precission, dan konstanta
β yang digunakan biasanya bernilai 1.
Evaluasi menggunakan perhitungan recall dan precission belum cukup untuk menilai kinerja suatu sistem, sehingga diperlukan perhitungan evaluasi F-measure sebagai kombinasi antara perhitungan recall dan precission. Sedangkan perhitungan evaluasi accuration adalah untuk mengetahui keberhasilan proses klasifikasi secara umum.
5. UJI COBA
Uji coba pertama dilakukan untuk mengetahui keberhasilan proses klasifikasi dokumen bahasa Arab dengan menggunakan algoritma Naïve Bayes dan untuk mengetahui jumlah pengambilan fitur/ kata yang mampu menghasilkan klasifikasi paling optimal. Keberhasilan proses klasifikasi ini bisa dilihat pada hasil evaluasi dengan perhitungan recall, precission, F-measure dan perhitungan accruration.
Error! Reference source not found. merupakan hasil proses klasifikasi 155 dokumen bahasa Arab dengan menggunakan algoritma Naive Bayes. Dari 155 dokumen testing yang dipakai pada aplikasi dalam Tugas Akhir ini, ada sebanyak 56 dokumen yang terklasifikasi salah, artinya tidak sesuai dengan kategori sebelumnya.
Dari 155 data uji dokumen testing yang di-gunakan pada aplikasi dalam Tugas Akhir dengan menggunakan perhitungan evaluasi recall, pre-cission, F-measure, dan accuration akan didapat pada jumlah pengambilan beberapa fitul/kata yang bisa menghasilkan klasifikasi terbaik. Hal ini bisa dilihat dari 4 metode perhitungan evaluasi di atas.
Pelaksanaan uji coba ini dilakukan dengan memasukkan jumlah fitur/kata antara 5 s/d 15 fitur. Hal ini dimaksudkan untuk mencari jumlah fitur/kata yang mampu menghasilkan klasifikasi paling optimal. Penilaian ini dilihat berdasarkan
perhitungan evaluasi recall, precission,
F-measure, dan accuration yang masing-masing menghasilkan nilai tertinggi.
Tabel 5.1 adalah hasil perhitungan recall setiap kategori pada aplikasi dengan menggunakan 155 data uji yang ada dalam database. Kategori Haji selalu memiliki nilai recall terbesar pada 6 kali percobaan dengan memasukkan jumlah peng-ambilan berbeda pada fitur/kata, yaitu pada pengambilan 7 fitur/kata, 9 fitur/kata, 12, 13, 14, dan 15 fitur/kata. Hal ini menunjukkan bahwa nilai recall maksimal sebesar 0.9 dan nilai tersebut dimiliki oleh kategori Haji.
Evaluasi recall ini dihitung pada semua kategori yang ada dalam aplikasi. Sehingga nilai yang didapat adalah nilai recall pada setiap kategori dengan percobaan pengambilan jumlah fitur/kata yang berbeda. Hal ini juga dilakukan
pada perhitugan evaluasi lain precission, F-measure, dan accuration.
Tabel 5.1 Nilai recall pada klasifikasi dokumen bahasa Arab J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 0.84 0.41 0.84 0.60 0.70 0.55 0.29 6 0.82 0.35 0.77 0.70 0.50 0.55 0.11 7 0.76 0.23 0.76 0.90 0.60 0.57 0.12 8 0.79 0.29 0.85 0.85 0.60 0.45 0.12 9 0.84 0.35 0.85 0.90 0.60 0.45 0.18 10 0.84 0.41 0.77 0.75 0.60 0.55 0.12 11 0.79 0.30 0.85 0.85 0.60 0.65 0.24 12 0.76 0.30 0.85 0.90 0.60 0.56 0.18 13 0.74 0.30 0.85 0.90 0.60 0.68 0.24 14 0.79 0.30 0.77 0.90 0.60 0.62 0.24 15 0.82 0.24 0.85 0.90 0.60 0.60 0.30
Tabel 5.2 Nilai precission pada klasifikasi dokumen bahasa Arab
J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 0.8 4 0. 58 0.55 0.40 0.41 0.73 0.63 6 0.8 6 0. 55 0.67 0.37 0.30 0.67 0.40 7 0.9 7 0. 50 0.71 0.43 0.33 0.66 0.33 8 0.9 4 0. 45 0.85 0.38 0.36 0.60 0.40 9 0.9 1 0. 55 0.69 0.43 0.35 0.64 0.50 10 0.8 9 0. 53 0.71 0.38 0.38 0.73 0.33 11 0.9 7 0. 56 0.65 0.40 0.43 0.76 0.58 12 0.9 7 0. 63 0.58 0.40 0.40 0.72 0.50 13 0.9 7 0. 45 0.61 0.42 0.38 0.87 0.57 14 0.9 7 0. 42 0.59 0.45 0.35 0.78 0.67 15 0.9 4 0. 40 0.58 0.49 0.35 0.77 0.72
Tabel 5.2 adalah hasil perhitungan precission setiap kategori pada aplikasi dengan menggunakan 155 data uji yang ada dalam database. Kategori Sholat selalu memiliki nilai preccision terbesar pada 6 kali percobaan dengan memasukkan jumlah pengambilan berbeda pada fitur/kata, yaitu pada pengambilan 7 fitur/kata, 11, 12, 13, 14, dan 15 fitur/kata. Hal ini menunjukkan bahwa nilai preccision maksimal sebesar 0.97 dan nilai tersebut dimiliki oleh kategori Sholat.
Dengan menggunakan jumlah dokumen testing yang sama pada aplikasi, didapat hasil perhitungan F-measure masksimal sebesar 0.88. Nilai tersebut dimiliki oleh kategori Sholat pada pengambilan 9 fitur/kata. Ini menunjukkan bahwa kategori Sholat memiliki nilai preccision dan recall yang cukup tinggi, meskipun pada beberapa kali percobaan,
nilai recall pada kategori Sholat lebih kecil daripada nilai recall pada kategori Haji.
Tabel 5.3 Nilai F-measure pada klasifikasi dokumen bahasa Arab
J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 0.84 0.48 0.67 0.48 0.52 0.63 0.40 6 0.84 0.43 0.72 0.48 0.37 0.60 0.18 7 0.85 0.37 0.74 0.58 0.43 0.61 0.17 8 0.86 0.36 0.85 0.52 0.41 0.51 0.18 9 0.88 0.43 0.76 0.58 0.44 0.53 0.26 10 0.86 0.47 0.74 0.50 0.46 0.63 0.17 11 0.87 0.38 0.73 0.54 0.50 0.70 0.33 12 0.85 0.40 0.67 0.55 0.48 0.64 0.26 13 0.84 0.36 0.71 0.57 0.46 0.76 0.33 14 0.87 0.34 0.67 0.60 0.44 0.69 0.35 15 0.87 0.30 0.69 0.63 0.44 0.68 0.42
Tabel 5.4 Nilai accuration pada klasifikasi dokumen bahasa Arab
J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 92.2 90.3 92.9 83.2 91.6 83.2 90.3 6 92.2 89.6 94.8 80.6 89.0 81.2 88.3 7 93.5 89.0 95.4 83.2 89.6 81.2 87.7 8 93.5 88.3 97.4 80.0 89.0 78.0 88.3 9 94.1 89.6 95.4 83.2 90.3 79.3 89.0 10 93.5 89.6 95.4 80.6 90.9 83.2 87.7 11 94.2 89.6 94.8 81.3 92.2 85.8 89.6 12 93.5 90.3 93.5 81.3 91.6 83.2 89.0 13 92.9 88.3 94.2 82.5 90.9 89.0 89.6 14 94.2 87.7 93.5 84.5 90.3 85.8 90.3 15 94.2 87.7 93.5 86.4 90.3 85.1 90.9
Tabel 5.4 adalah hasil perhitungan accuration masing-masing kategori pada aplikasi. Berdasar-kan hasil perhitungan tersebut diketahui nilai accuration terbesar dimiliki oleh kategori Puasa pada pengambilan 8 fitur/kata. Hal ini menunjuk-kan bahwa pada kategori Puasa lah proses klasifi-kasi dokumen menghasilkan output paling optimal. Dari 4 perhitungan evaluasi recall, precission, F-measure, dan accuration nilai terbesar tidak dimiliki oleh satu kategori, namun nilai tersebut dimiliki oleh beberapa kategori sesuai dengan perhitungannya. Hal ini menunjukkan bahwa variabel yang menentukan keberhasilan suatu klasifiksai bukan hanya jumlah pengambilan fitur saja, namun banyaknya dokumen training pada masing-masing kategori, dan juga ketepatan pengambilan fitur/kata dalam masing-masing
dokumen memiliki peran yang tidak kalah penting dalam keberhasilan suatu proses klasifikasi.
Tabel 5.5 Perbandingan nilai recall proses ekstraksi fitur tanpa pencocokkan J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 0.57 0 0.73 0. 62 0.42 0. 96 0.65 6 0.59 0 0.89 0. 72 0.39 0 0.61 7 0.60 0 0.67 0. 69 0.34 0 0.67 8 0.64 0 0.80 0. 63 0.30 0 0.68 9 0.67 0 0.80 0. 73 0.33 0 0.70 10 0.68 0 0.80 0. 74 0.33 0 0.67 11 0.71 0 0.75 0. 75 0.33 0 0.62 12 0.67 0 0.75 0. 74 0.32 0 0.68 13 0.70 0 0.77 0. 71 0.33 0 0.63 14 0.66 0 0.67 0. 65 0.33 0 0.65 15 0.67 0.7 5 0.73 0. 71 0.37 0 0.67
Uji coba kedua dilakukan untuk mengetahui perbandingan hasil klasifikasi dokumen teks berbahasa Arab dengan implementasi ekstraksi fitur yang berbeda. Pada Tugas Akhir ini ekstraksi fitur yang digunakan adalah dengan mengambil sejumlah fitur/kata yang memiliki frekuensi tertinggi dari semua dokumen training, kemudian
mencari/mencocokkan fitur tersebut pada
dokumen testing. Apabila didapat, maka fitur tersebut diambil sejumlah pengambilan pada dokumen training. Namun apabila tidak ditemu-kan, maka dicari fitur lain yang memiliki frekuensi tertinggi dari dokumen testing. Proses esktraksi fitur ini berbeda dengan proses ekstraksi fitur yang diimplementasikan pada penelitian sebelumnya, yang mengambil sejumlah fitur dengan frekuensi tertinggi dari semua dokumen training, kemudian juga mengambil sejumlah fitur dengan frekuensi tertinggi pada dokumen testing tanpa proses pencocokkan terlebih dahulu.
Perbandingan kinerja dua proses ekstraksi fitur yang berbeda ini dihitung berdasarkan nilai evaluasi recall, precission, F-measure, dan accuration hasil proses klaisifiasi dokumen bahasa Arab. Dari perhitungan evaluasi tersebut dapat diketahui keberhasilan masing-masing proses ekstraksfi fitur yang ada.
Tabel 5.4 adalah hasil perhitungan accuration masing-masing kategori pada aplikasi. Berdasarkan hasil perhitungan tersebut diketahui nilai accuration terbesar dimiliki oleh kategori Puasa pada pengambilan 8 fitur/kata. Hal ini
menunjukkan bahwa pada kategori Puasa lah proses klasifikasi dokumen
Dari 4 perhitungan evaluasi recall, precission, F-measure, dan accuration nilai terbesar tidak dimiliki oleh satu kategori, namun nilai tersebut dimiliki oleh beberapa kategori sesuai dengan perhitungannya. Hal ini menunjukkan bahwa variabel yang menentukan keberhasilan suatu klasifiksai bukan hanya jumlah pengambilan fitur saja, namun banyaknya dokumen training pada masing-masing kategori, dan juga ketepatan pengambilan fitur/kata dalam masing-masing dokumen memiliki peran yang tidak kalah penting dalam keberhasilan suatu proses klasifikasi.
Tabel 5.55 merupakan nilai perhitungan evaluasi recall dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.4 terlihat nilai recall terbesar mencapai 0.96 dimiliki oleh kategori Jual Beli pada pengambilan 5 fitur/kata. Namun pada percobaan pengambilan fitur dengan jumlah lain, nilai recall pada kategori Puasa bernilai nol. Begitu juga pada kategori Zakat. Hal ini menunjukkan bahwa pada kategori tersebut, semua dokumen salah masuk kelas.
Pada kategori-kategori yang lain, nilai recall yang didapat juga cukup rendah. Nilai ini juga menunjukkan bahwa semua dokumen yang ada pada masing-masing kategori banyak yang salah masuk kelas. Nilai recall terbesar 0.96 pada Tabel 5.5 memang lebih tinggi daripada nilai recall terbesar 0.90 pada Tabel 5.1 yang meng-implementasikan proses ekstraksi fitur dengan melakukan pencocokan kata yang diambil dari dokumen training dan dokumen testing. Namun dari perbandingan nilai recall pada dua tabel ini terlihat pada Tabel 5.1 semua kategori menghasil-kan nilai recall lebih dari nol. Artinya tidak ada kategori yang sama sekali salah mengklasifikasi dokumen. Sedangkan pada Tabel 5.5 nilai recall kategori Zakat dan kategori Jual Beli bernilai nol pada 10 kali uji coba. Ini menunjukkan bahwa pada percobaan tersebut, kategori Zakat dan kategori Jual Beli banyak me-retrieve dokumen yang tidak relevan.
Tabel 5.6 adalah nilai perhitungan evaluasi precission dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.6 terlihat nilai precission terbesar mencapai 0.97 dimiliki oleh kategori Sholat pada pengambilan 6, 9, 10, 11, 12, 13, dan 14 fitur/kata. Nilai ini sama dengan nilai
perhitungan precission yang menggunakan
ekstraksi fitur dengan melakukan pencocokan kata yang terdapat pada Tabel 5.2.
Dari hasil perhitungan evaluasi recall dan precission belum cukup untuk menilai bahwa aplikasi pada Tugas Akhir ini efektif atau tidak. Sehingga masih harus dilakukan perhitungan evaluasi F-measure yang merupakan kombinasi
antara hasil perhitungan recall dan precission pada proses klasifikasi dokumen bahasa Arab.
Tabel 5.7 adalah nilai perhitungan evaluasi F-measure dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.7 terlihat nilai F-measure terbesar mencapai 0.82 dimiliki oleh kategori Sholat pada pengambilan 11 fitur/kata.
Tabel 5.6 Perbandingan nilai precission proses ekstraksi fitur tanpa pencocokkan
J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 0.95 0.12 0.62 0.50 0.80 0.65 0.65 6 0.97 0.12 0.62 0.65 0.70 0.70 0.65 7 0.95 0.12 0.62 0.55 0.70 0.62 0.70 s 8 0.97 0.12 0.62 0.60 0.70 0.60 0.76 9 0.97 0.18 0.62 0.70 0.80 0.60 0.82 10 0.97 0.18 0.62 0.70 0.80 0.60 0.82 11 0.97 0.12 0.69 0.75 0.70 0.60 0.88 12 0.97 0.12 0.69 0.70 0.70 0.56 0.88 13 0.97 0.12 0.77 0.75 0.70 0.58 0.82 14 0.97 0.12 0.62 0.65 0.70 0.58 0.76 15 0.95 0.18 0.62 0.75 0.70 0.60 0.70
Nilai ini lebih kecil daripada nilai F-measure terbesar menggunakan ekstraksi fitur dengan melakukan pencocokan seperti pada Tabel 5.3 yang mencapai 0.88.
Pada kategori Zakat dan Jual Beli, 10 kali percobaan menghasilkan nilai F-measure nol. Hal ini dikarenakan pada kategori Zakat dan Jual Beli memiliki hasil recall yang juga bernilai nol. Sehinggal menyebabkan nilai F-measeure pada kedua kategori tersebut bernilai nol, karena recall menjadi salah satu penyebut dalam rumus perhitungan F-measure.
Tabel 5.7 Perbandingan nilai F-measure proses ekstraksi fitur tanpa pencocokkan
J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 0.71 0 0.67 0.56 0.55 0.78 0.65 6 0.73 0 0.73 0.70 0.50 0 0.63 7 0.73 0 0.67 0.61 0.42 0 0.69 8 0.77 0 0.69 0.62 0.42 0 0.72 9 0.79 0 0.69 0.72 0.47 0 0.76 10 0.80 0 0.69 0.72 0.47 0 0.74 11 0.82 0 0.72 0.75 0.45 0 0.73 12 0.79 0 0.72 0.72 0.44 0 0.77 13 0.81 0 0.77 0.73 0.45 0 0.72 14 0.79 0 0.64 0.65 0.45 0 0.70 15 0.78 0.29 0.67 0.73 0.48 0 0.69
Tabel 5.8 Perbandingan nilai accuration proses ekstraksi fitur tanpa pencocokkan
J u m la h F it u r Kategori S h o la t Za k a t P u a sa H a ji N ik a h J u a l Be li W a k a f 5 81.2 0 94.8 89.6 91.6 90.3 92.2 6 82.5 0 96.1 92.9 90.9 0 91.6 7 83.2 0 94.8 90.9 87.7 0 92.9 8 85.8 0 95.4 90.3 87.7 0 93.5 9 87.7 0 95.4 92.9 88.3 0 94.1 10 88.3 0 95.4 92.9 88.3 0 93.5 11 89.6 0 95.4 93.5 89.0 0 92.9 12 87.7 0 95.4 92.9 88.3 0 94.1 13 89.0 0 96.1 92.9 89.0 0 92.9 14 87.0 0 94.1 90.9 89.0 0 92.9 15 87.0 90.3 94.8 92.9 90.3 0 92.9
Tabel 5.8 adalah nilai perhitungan evaluasi accuration dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.8 terlihat nilai accuration tertinggi mencapai 96.13% dimiliki oleh kategori Puasa pada pengambilan 6 fitur/kata. Nilai ini lebih kecil daripada nilai accuration tertinggi menggunakan ekstraksi fitur dengan melakukan pencocokan kata seperti terdapat pada Tabel 5.3 yang mencapai 97.42%.
Pada Tabel 5.8 terlihat kategori Zakat dan Jual Beli memiliki nilai accuration nol. Hal ini menunjukkan bahwa pada kategori tersebut sistem banyak meretrieve dokumen yang tidak relevan. Nilai accuration nol pada dua kategori ini disebabkan karena pada dua kategori tersebut hasil perhitungan recall juga bernilai nol, dimana recall menjadi salah satu faktor penyebut/pembagi dalam perhitungan accuration.
Uji coba yang ketiga dilakukan untuk me-ngetahui perbandingan hasil klasifikasi dokumen bahasa Arab dengan menggunakan 2 metode yang berbeda, yaitu metode k-NN dan metode Naïve Bayes. Perbandingan ini dilakukan dengan hanya melakukan perhitungan hasil F-measure dan accuration. Dari hasil uji coba ini nanti akan diketahui metode mana yang lebih sesuai untuk menangani masalah klasifikasi dokumen, k-NN ataukah Naïve Bayes.
Dengan menggunakan data uji yang sama, dilakukan percobaan proses klasifikasi dengan menggunakan metode k-NN dan menggunakan metode Naïve Bayes. Seperti pada proses klasifikasi menggunakan metode Naïve Bayes, pada penggunaan metode k-NN juga terdapat parameter yang bisa ditentukan oleh user untuk bisa menghasilkan klasifikasi paling optimal. Parameter ini berupa nilai k yang akan digunakan untuk menghitung kedekatan antar dokumen pada data uji.
Perbandingan ini berdasarkan nilai klasifikasi paling optimal pada 2 metode tersebut dengan nilai parameter masing-masing. Klasifikasi mengguna-kan metode k-NN ini memiliki nilai F-measure terbesar dengan nilai k=11. Sedangkan klasifikasi menggunakan metode Naïve Bayes ini menghasil-kan nilai F-measure terbesar dengan jumlah pengambilan 9 fitur/kata, hal ini sesuai dengan hasil ujicoba sebelumnya.
Tabel 5.9 adalah data perbandingan hasil perhitungan F-measure pada klasifikasi dokumen bahasa Arab dengan menggunakan metode k-NN dan metode Naïve Bayes. Metode Naïve Bayes memiliki hasil F-measure terbesar mencapai 0.88, sedangkan metode k-NN memiliki hasil F-measure terbesar mencapai 0.84. Dari data pada Tabel 5.9 terlihat bahwa berdasarkan perbandingan nilai F-measure, metode Naïve Bayes menghasilkan nilai lebih besar daripada metode k-NN.
Selain perbandingan nilai F-measure, pada uji coba ini juga akan dibandingkan nilai accuration pada proses klasifikasi dokumen bahasa Arab antara 2 metode tersebut. Perbandingan ini tetap menggunakan hasil perhitungan paling optimal pada masing-masing metode.
Tabel 5.9 Perbandingan nilai F-measure k-NN dan Naïve Bayes
Kategori Nilai F-measure
k-NN Naive Bayes Sholat 0.84 0.88 Zakat 0 0.43 Puasa 0.43 0.76 Haji 0.25 0.58 Nikah 0.52 0.44 Jual Beli 0.67 0.53 Wakaf 0.63 0.26
Tabel 5.10 Perbandingan nilai accuration k-NN dan Naïve Bayes
Kategori Nilai Accuration
k-NN Naive Bayes Sholat 92.90 93.55 Zakat 0 88.39 Puasa 91.61 97.42 Haji 88.39 80.00 Nikah 90.32 89.03 Jual Beli 76.77 78.06 Wakaf 91.61 88.39
Berdasarkan perbandingan nilai accuration antara metode k-NN dan metode Naïve Bayes seperti pada Tabel 5.10 terlihat bahwa metode Naïve Bayes memiliki tingkat akurasi mencapai 97.42 % dengan jumlah pengambilan 8 fitur/kata.
Sedangkan metode k-NN memiliki tingkat akurasi mencapai 92.90% pada nilai k=11. Dari hasil perbandingan nilai accuration ini juga terlihat bahwa metode Naïve Bayes memiliki tingkat akurasi yang lebih tinggi daripada metode k-NN.
Dari perbandingan dua nilai evaluasi ini, pada implementasi k-NN kategori zakat memiliki nilai F-measure dan accuration nol. Hal ini menunjuk-kan bahwa semua dokumen pada kategori zakat terklasifikasi salah atau salah masuk kelas.
6. SIMPULAN DAN SARAN
Berdasarkan aplikasi yang telah dibuat dan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan atas Tugas Akhir ini sebagai berikut :
1. Metode Naïve Bayes dapat diaplikasikan pada
kategorisasi teks berbahasa Arab dengan nilai F-measure terbaik sebesar 0.88 dengan tingkat akurasi mencapai 97.42%
2. Jumlah fitur yang diambil untuk hasil
klasifi-kasi yang optimal sebanyak 8 dan 9 fitur/kata
3. Dibandingkan dengan metode HAC dan k-NN,
Naïve Bayes memiliki tingkat akurasi yang lebih tinggi dan membutuhkan running time yang lebih sedikit.
Beberapa saran atas pengerjaan Tugas Akhir ini guna pengembangan lebih lanjut diantaranya :
1. Pengambilan jumlah fitur otomatis untuk
menghasilkan nilai evaluasi yang optimal
2. Penggunaan penanda pada kata/isi dokumen
yang ditunjuk dan hasil preprocessing-nya, sehingga dengan mudah bisa diketahui hasil preprocessing tiap kata dalam dokumen. 7. DAFTAR PUSTAKA
1. Bakhri Syaiful, Agus Zainal Arifin, Diana
Purwitasari. 2011. “Klasifikasi Dokumen Berbahasa Arab Berbasis KNN”. ITS Surabaya.
2. Al-Shalabi Riyad, Kanaan Ghassan, H.
Gharaibeh, Manaf. “Arabic Text Categorization Using k-NN Algorithm”. Amman Al-Ahliya University, Jordan
3. Eljinini Mohammad Ali H., Hadi Wa’el
Musa, Thabtah Fadi, Zamzeer Mannam, 2009. “Naïve Bayesian Based on Chi Square to Categorize Arabic Data”. Communication of the IBIMA Volume 10, 2009 ISSN : 1943-7765
4. Hadi W., Thabtah F., AL Hawari S.,
Ababneh J. 2008, "Naive Bayesian and K-Nearest Neighbour to Categorize Arabic Text Data", In proceedings of the European Simulation and Modeling Conference, Le Havre, France.
5. Chen, Aitou, Gey. Fredric, 2002, “Building
an Arabic Stemmer for Information Retrieval”, University of California at Berkeley
6. Husni, 2006, “IR dan Klasifikasi”, diktat
kuliah, Teknik Informatika Universitas Trunojoyo
7. Umam, Chatibul 2004. “Kaidah Tata
Bahasa Arab”. Darul Ulum Press.
8. Basuki, Ahmad. 2006 “Metode Bayes”.