• Tidak ada hasil yang ditemukan

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI"

Copied!
27
0
0

Teks penuh

(1)

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND

SMOOTHING

ANDY PRAMURJADI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2010

(2)

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND

SMOOTHING

ANDY PRAMURJADI

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2010

(3)

ABSTRACT

ANDY PRAMURJADI. Document Classification Using Background Smoothing. Supervised by JULIO ADISANTOSO.

Naïve Bayes Classifier (NBC) is one of the methods for text or document classification. A common problem that often occurs on NBC method is data sparsity, especially when the size of training data is too small. One way to handle the sparsity problem is to use background smoothing technique. The aims of this research are to look at the background smoothing effect on short and long query, and to compare it with NBC on small training data.

In this research, we use documents from the Agricultural Research Journal of horticultural domain. The results indicate that the accuracy of document classification on NBC+Background Smoothing is 92.3%, not significantly different from that obtained using only NBC. Improvement of the accuracy is only 1.78% from the results obtained on NBC. However, the results of the classification with NBC+Background Smoothing has been able to properly classify documents of Agriculture Research Journal at horticultural domain, so that it can be used to organize documents much easier for users to find information related to the documents.

(4)

Dosen Penguji:

1. Dr. Yeni Herdiyeni, S.Kom, M.Kom 2. Sony Hartono Wijaya, S.Kom, M.kom

(5)

Judul : Klasifikasi Dokumen Menggunakan Background Smoothing Nama : Andy Pramurjadi

NRP : G64076001

Menyetujui,

Pembimbing

Ir. Julio Adisantoso, M.Kom NIP. 19620714 198601 1 002

Mengetahui, Ketua Departemen

Dr. Ir. Sri Nurdiati, M.Sc NIP. 19601126 198601 2 001

(6)

PRAKATA

Alhamdulillahi Rabbil’alamin, puji syukur penulis panjatkan ke hadirat Allah SWT atas segala rahmat dan karunia-Nya, sehingga tugas akhir ini dengan judul Klasifikasi Dokumen Menggunakan Background Smoothing dapat diselesaikan. Penelitian ini dilaksanakan mulai November 2009 sampai dengan April 2010, bertempat di Departemen Ilmu Komputer.

Penulis berterima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku pembimbing yang telah banyak memberikan arahan, bimbingan, waktu, serta kesabarannya selama pengerjaan tugas akhir ini. Terima kasih yang setulus-tulusnya juga Penulis tujukan bagi istri dan anak tercinta yaitu Yurida Amdani Putri dan Salma Lathifah Pramdani, serta keluarga besar Penulis atas doa serta dukungan untuk keberhasilan Penulis.

Joko Purwanto, Ahmad Zafaroni, Decky Prayoga, Teguh, Dodot, Wanda, Arifa, Annissa, dan seluruh rekan ektensi S1 Ilkom Angkatan 2 atas dukungan, bantuan, serta kebersamaannya selama ini, semoga sukses selalu dan tetap semangat; juga untuk Pak Henky dan Arlan Hernawan staf Jasa Penelitian di Balai Penelitian Tanaman Hias yang telah membantu Penulis dalam mengumpulkan bahan dan data pendukung untuk tugas akhir ini.

Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu selama penyelesaian tugas akhir ini yang tidak dapat disebutkan satu-persatu. Semoga karya ilmiah ini bermanfaat.

Bogor, Mei 2010

(7)

RIWAYAT HIDUP

Penulis dilahirkan di Bogor pada tanggal 2 Oktober 1971, dari pasangan Bapak Prabowo dan Ibu Ellin. Penulis merupakan putra ketiga dari empat bersaudara. Pada Tahun 1991 penulis lulus dari SMAN 3 Bogor dan pada tahun yang sama, penulis melanjutkan pendidikan Diploma 3 di Program Studi Manajemen Keuangan dan Perbankan, STIE Perbanas Jakarta dan lulus pada tahun 1996.

Tahun 1997, penulis bekerja di BII Jakarta, setahun kemudian penulis pindah bekerja di Balai Penelitian Tanaman Buah, Solok, Sumatera Barat. Tahun 2000, penulis diangkat sebagai Pegawai Negeri Sipil golongan II/a dan dipindahtugaskan di Balai Penelitan Tanaman Hias, Pacet, Jawa Barat sampai dengan sekarang.

Tahun 2002, penulis mendapat beasiswa sekolah dari tempat bekerja untuk mengikuti pendidikan Diploma 3 Informatika pada Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam dan lulus pada tahun 2004. Pada pertengahan tahun 2007, penulis mendapatkan lagi kesempatan untuk melanjutkan pendidikan dari tempat penulis bekerja, di Institut Pertanian Bogor untuk mendapatkan gelar sarjana. Pada bulan September 2007 penulis resmi sebagai mahasiswa Program Studi S1 Penyelenggaraan Khusus Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.

(8)

vi

DAFTAR ISI

Halaman

DAFTAR TABEL ……….. vii

DAFTAR GAMBAR ………. vii

DAFTAR LAMPIRAN ……….. vii

PENDAHULUAN ………. 1 Latar Belakang ………. 1 Tujuan ………... 1 Ruang Lingkup ………. 1 Manfaat Penelitian ……… 1 TINJAUAN PUSTAKA ……… 2

Sistem Temu Kembali Informasi ………. 2

Klasifikasi Dokumen ………... 2

Naïve Bayes Classifier (NBC)………... 3

Language Model dalam Temu Kembali Informasi …………...………... 3

Smoothing………. 4

Laplace Smoothing ….…………...………... 4

Background Smoothing …………...………... 4

Confusion Matrix …. ……….………..……….………. 4

METODE PENELITIAN ………... 5

Gambaran Umum Sistem ………. 5

Koleksi Dokumen ………. 5

Praproses………... 5

Naïve Bayes dengan Background Smoothing ………..……… 6

Evaluasi Hasil Klasifikasi ………... 6

HASIL DAN PEMBAHASAN ……….. 6

Uji Coba Klasisfikasi Dokumen ………... 6

NBC+Background Smoothing……….. 7

NBC dan NBC+Background Smoothing ……..……… 8

KESIMPULAN DAN SARAN ……….. 10

Kesimpulan ……….. 10

Saran ………. 10

DAFTAR PUSTAKA ……… 11

(9)

vii

DAFTAR TABEL

Halaman

1 Micro Average untuk Short Query……….. 7

2 Confusion Matrix Short Query ………..……… 7

3 Micro Average untuk Long Query……….. 8

4 Confusion Matrix Long Query ….………. 8

5 Micro Average NBC dan NBC+Background Smoothing λ =0.3 ……….……….. 9

6 Confusion Matrix NBC dan NBC+Background Smoothing (Short Query)………. 9

7 Micro Average NBC dan NBC+Background Smoothing λ =0.7 ………... 9

8 Confusion matrix NBC dan NBC+Background Smoothing (Long Query) ………. 10

DAFTAR GAMBAR

Halaman 1 Proses Sistem Temu Kembali Informasi ……….………... 2

2 Proses Klasifikasi Dokumen ………... 3

3 Format Confusion Matrix ….……….. 4

4 Gambaran Umum Sistem ……… 5

5 Tingkat Akurasi Koefisien λ pada Short Query ……….……… 7

6 Tingkat Akurasi Koefisien λ pada Long Query ………..………... 8

7 Perbandingan Tingkat Akurasi pada Short Query ……….………….. 9

8 Perbandingan Tingkat Akurasi pada Long Query ……….……….……… ………. 10

DAFTAR LAMPIRAN

Halaman 1 Confusion Matrix untuk Semua Koefisien λ pada Short Query………..…………. 13

2 Hasil Pengukuran NBC+ Backgorund Smoothing pada Short Query……… 14

3 Confusion Matrix Semua Koefisien λ pada Long Query……… 15

4 Hasil Pengukuran NBC+ Backgorund Smoothing pada Long Query………...………… 16

5 Confusion Matrix NBC dan NBC+ Backgorund Smoothing ……… 17

(10)

1

PENDAHULUAN

Latar Belakang

Kemudahan dalam mengakses dan

menyebarkan informasi saat ini menyebabkan informasi menjadi banyak dan beragam. Sejalan dengan hal tersebut, banyak orang cenderung lebih memilih informasi yang berguna secara selektif. Untuk itu diperlukan suatu metode dalam menyajikan dan mengorganisasikan informasi agar memudahkan pengguna dalam mencari informasi yang dibutuhkan.

Agar informasi lebih mudah untuk diorganisasikan dan dikelompokkan, dalam temu kembali informasi dapat dilakukan dengan klasifikasi dokumen berdasarkan kategori atau kelas yang telah ditentukan. Salah satu tujuan dari klasifikasi teks atau dokumen adalah proses menggolongkan atau mengelompokkan suatu dokumen ke dalam suatu kategori tertentu (Christopher et al. 2009).

Ada banyak algoritme yang digunakan untuk klasifikasi dokumen, di antaranya adalah Naïve Bayes, k-Nearest Neighbor, Support Vector Machines, Decision Trees, dan Neural Network. Diantara algoritme klasifikasi tersebut, Naïve Bayes Classifier (NBC) atau sering juga disebut sebagai simple bayesian classification merupakan algoritme klasifikasi yang paling mudah untuk diimplementasikan. Masalah umum yang sering terjadi pada metode tersebut, yaitu adanya sparsity data terutama bila ukuran data latih (training) yang digunakan terlalu kecil. Hal ini biasanya terjadi ketika ada kata-kata atau terms yang ada pada dokumen uji tidak muncul pada dokumen latih, sehingga menggunakan metode smoothing untuk menghindarinya. Tujuan utama dari metode smoothing adalah memberikan suatu nilai pada kata atau term yang tersembunyi (unseen) dan untuk menambah keakurasian dari penduga peluang kata yang ada pada dokumen latih.

Saat ini telah banyak metode smoothing yang dihasilkan, di antaranya adalah Kneiser-Ney, Katz, Good-turing Estimation, Dirichlet Prior, Witten-Bell, Jelinek-Mercer (Chen & Goodman 1998) , dan Semantic Smoothing yang menggunakan pendekatan melalui language modeling (Zhou et al. 2008). Studi tentang language model saat ini menjadi topik yang banyak dibicarakan dalam komunitas temu kembali informasi seiring dengan meningkatnya popularitas penggunaan dari languange modeling dalam sistem temu kembali informasi (Zhou et al. 2007). Jelinek-Mercer Smoothing

merupakan teknik smoothing yang

menggunakan metode interpolasi linier antara maximum likelihood model dengan collection background model, dan sebagai parameter pengontrolnya adalah koefisien λ. Teknik ini biasa disebut dengan simple languange model atau dalam semantic smoothing teknik ini digunakan sebagai background smoothing.

Pada penelitian ini metode smoothing yang digunakan adalah background smoothing. Selanjutnya proses pengklasifikasian dokumen menggunakan algoritme klasifikasi NBC untuk melihat pengaruh parameter koefisien λ pada query yang pendek (short query) dan panjang (long query) serta membandingkan tingkat keakurasian klasifikasi NBC dan NBC+ background smoothing.

Tujuan

Penelitian ini bertujuan untuk 1) melihat pengaruh metode background smoothing dengan parameter kontrol (koefisien λ) yang berbeda pada short query dan long query, dan 2) membandingkan tingkat akurasi klasifikasi NBC dan NBC+Background Smoothing dengan nilai koefisien λ terbaik.

Ruang Lingkup

Adapun ruang lingkup penelitian ini dibatasi pada:

1. Evaluasi keakurasian klasifikasi dokumen menggunakan background smoothing dengan nilai parameter pengontrol yang berbeda pada short dan long query.

2. Membandingkan nilai parameter koefisien λ terbaik pada background smoothing dengan NBC.

3. Dokumen yang digunakan adalah artikel dari jurnal penelitian terbatas pada bidang pertanian dengan domain tanaman hortikultura.

4. Proses yang terlibat dalam pembentukan collection background model tidak memperhatikan semantic language model.

Manfaat Penelitian

Manfaat yang diharapkan dari penelitian ini adalah 1) dapat menambah khazanah metode klasifikasi dokumen pada sistem temu kembali informasi dengan pendekatan background smoothing, dan 2) sebagai sarana untuk mengorganisasikan kumpulan dokumen secara otomatis sehingga dapat mempermudah dalam menyajikan dan menyeleksi informasi agar lebih selektif.

(11)

2

TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi

Sistem temu kembali informasi adalah suatu bentuk sistem yang melakukan proses penemuan kembali informasi yang relevan terhadap kebutuhan pengguna dari kumpulan informasi secara otomatis. Sistem temu kembali informasi berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Ada tiga komponen yang mendasari proses dari sistem temu kembali informasi, yaitu representasi dokumen, representasi informasi yang dibutuhkan dari pengguna, dan perbandingan dari kedua representasi tersebut. Proses tersebut di atas diilustrasikan seperti Gambar 1.

Representasi dari dokumen adalah pengindeksan yang dilakukan menggunakan teknik pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen.

Proses informasi yang dibutuhkan (information need) oleh pengguna berupa suatu query dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, untuk itu query perlu diformulasikan (formulasi query) sehingga terjadi dialog interaktif antara pengguna dan sistem agar pengguna memahami betul akan permintaan informasi yang dibutuhkannya (feedback).

Gambar 1 Proses Sistem Temu Kembali Informasi (Hiemstra, 2001)

Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna.

Salah satu pendekatan dalam merepresen-tasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan.

Klasifikasi Dokumen

Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang dimilikinya. Sebuah dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut.

Metode klasifikasi dokumen secara otomatis pun memiliki tingkat keakuratan yang tinggi jika aturan (rule) dibuat dengan baik. Metode klasifkasi dibagi menjadi dua, yaitu klasifikasi secara manual dan klasifikasi dokumen secara otomatis. Klasifikasi manual umumnya akurat karena dilakukan oleh tenaga ahli dan konsisten, namun cenderung sulit dilakukan dan butuh waktu yang lama.

Klasifikasi dokumen secara otomatis terdiri atas dua kategori, yaitu hand‐coded rule‐based systems dan supervised learning (Christopher et al. 2009). Hand‐coded rule‐

based systems tingkat akurasinya tinggi jika rule dibuat dengan sangat baik oleh ahlinya dan sangat kompleks serta dibutuhkan biaya yang mahal.

Pada supervised learning menggunakan data latih (learning) untuk memberikan label kategori yang telah terdefinisi sebelumnya. Dengan semakin meningkatnya kebutuhan untuk klasifikasi dokumen, algoritme untuk membantu melakukan aktivitas tersebut juga semakin dikembangkan.

Ada banyak model yang digunakan dalam supervised learning, di antaranya adalah Vector Space Model (VSM), Naïve Bayes, Bernoulli, k‐Nearest Neighbors (KNN), dan maximum a posteriori. Klasifikasi dokumen dilakukan dalam dua tahap. Tahap pertama adalah pelatihan (training) terhadap kumpulan dokumen. Sedangkan tahap kedua adalah proses klasifikasi dokumen yang belum diketahui kategorinya (testing). Proses pengklasifikasian terhadap dokumen dapat dilihat pada Gambar 2.

Kebutuhan informasi Formulasi query Dokumen pengindeksan Query Dokumen terindeks

feedback Dokumen retrieved Penyesuaian

(12)

3 Gambar 2 Proses Klasifikasi Dokumen

Naïve Bayes Classifier (NBC)

Metode klasifikasi Bayesian adalah bagian dari teknik klasifikasi berbasis statistik. Metode ini dapat memprediksi kemungkinan anggota sebuah kelompok atau kategori, berdasarkan sampel yang berasal dari anggota kelompok tersebut. Klasifikasi NBC termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini, sebuah dokumen terdiri atas beberapa kejadian kata dan diasumsikan panjang dokumen tidak bergantung pada kelasnya. Dengan menggunakan asumsi Bayes bahwa kemungkinan tiap kejadian kata dalam sebuah dokumen adalah bebas tidak terpengaruh dengan konteks kata dan posisi kata dalam dokumen.

NBC adalah penyederhanaan dari Bayesian Classification, metode ini sering juga disebut sebagai Simple Bayesian Classification. NBC merupakan klasifikasi peluang sederhana yang didasarkan asumsi yang kuat (naïve) dan bebas (independence), serta dapat dilatih dengan sangat efisien pada kondisi supervised learning. Penggunaan NBC dalam klasifikasi teks pada sistem temu kembali informasi sebagai penduga peluang suatu dokumen dalam kelas atau kategori tertentu (Christopher et al. 2009). Peluang dari suatu dokumen d ada pada kelas c dapat diformulasikan sebagai berikut:

| ∞ ∏ k| (1) Dengan P(tk|c) adalah peluang kata atau term tk muncul pada dokumen kelas c, dan P(c) merupakan prior probability peluang dokumen ada pada kelas c.

Pendekatan yang digunakan untuk menduga parameter P(c) dan P(tk|c) adalah dengan formula berikut:

  

|  ct

 ct

Nc adalah banyaknya dokumen dalam kelas c, N adalah total dokumen. Tct adalah banyaknya t dalam dokumen latih dari kelas c.

Language Model dalam Temu Kembali Informasi

Penggunaan Language Modeling (LM) atau statistical language modeling muncul sebagai probabilistic framework yang baru untuk menangkap ketidakteraturan statistik yang menjadi ciri dari ketidakteraturan penggunaan bahasa. Sebuah LM adalah suatu model tentang distribusi kondisional dari identitas kata-kata dalam sebuah rangkaian, yang ditentukan oleh identitas dari semua kata-kata sebelumnya.

Dalam bidang penelitian Information Retrieval (IR), LM yang digunakan adalah unigram model karena urut-urutan kata tidak terlalu dipermasalahkan, tidak seperti dalam pengenalan suara (speech recognition) otomatis yang sangat bergantung pada kemampuan mesin memahami urutan kata-kata.

Salah satu model IR yang menggunakan LM adalah Query-Likelihood Model yang pertama diusulkan oleh Ponte dan Croft (dalam Liu & Croft 2004) yang menganggap sebuah query sebagai sebuah vektor dari atribut biner, masing-masing atribut untuk sebuah istilah yang unik di dalam kosa kata indeks, dan menandakan ada atau tidaknya istilah tersebut di dalam query.

Jumlah kemunculan istilah tersebut di dalam query sendiri tidak diperhitungkan. Ada dua asumsi yang mendasari model ini, pertama adalah semua atribut bernilai biner. Jika sebuah istilah ada di query, maka atribut yang mewakili istilah tersebut bernilai 1 dan jika tidak bernilai 0. Kedua, istilah dianggap tidak berkaitan di dalam sebuah dokumen. Asumsi ini mirip dengan dugaan yang digunakan dalam teori-teori peluang pada IR.

Berdasarkan dua asumsi di atas, maka query likelihood P(Q|D) dapat dirumuskan sebagai hasil dari dua peluang, yaitu peluang kemunculan istilah pada query dan peluang ketidak-munculan istilah itu.

|  !  | !"1.0 &  | '

()* (*

P(t|D) dihitung dengan metode non-parametrik yang memanfaatkan peluang rata-rata dari t (term) di dalam dokumen yang mengandung term tersebut. Untuk istilah-istilah yang tidak muncul, maka peluang global dari t dalam koleksi dokumen yang digunakan.

Praproses Dokumen-dokumen Pengindeksan Menerapkan algoritme klasfikasi Hasil pengukuran Pembobotan indeks

(13)

Smoothing

Smoothing adalah bagian penting dari yang berfungsi untuk membandingkan peluang kata yang muncul dan yang tidak muncul suatu dokumen. Smoothing akan keakurasian perkiraan peluang

pada dokumen latih. Dengan kata lain, smoothing juga memberikan nilai (

peluang pada kata yang tidak muncul. Pada konteks LM, smoothing dikatakan sebagai pengontrol dari

likelihood estimator agar hasilnya lebih akura (Zhai dan Lafferty 2001). Menurut Chen dan Goodman (1998) telah banyak metode smoothing yang dihasilkan, antara lain Laplace smoothing, Katz smoothing turing Estimation, Dirichlet Prior Jelinek-Mercer Smoothing, Smoothing (Zhou et al. 2008)

Laplace Smoothing

Laplace smoothing merupakan teknik smoothing yang biasa digunakan pada penghitungan Maximum Likelihood Estimation (MLE). Kegunaannya untuk menghilangkan dugaan parameter yang bernilai nol.

Laplace smoothing disebut juga dengan add-one karena pada notasi

penghitungan kata dalam kelas dengan satu. Formula laplace smoothing MLE sebagai berikut:

 |  234+,-./01. ∑2

dengan B’ = |V| = banyaknya term kata atau vocabulary dan banyaknya kata unik.

Background Smoothing

Teknik smoothing ini biasa disebut dengan simple languange model atau

collection model. Dalam semantic teknik ini digunakan sebagai smoothing (Zhou et al.

komunitas Temu Kembali Informasi, teknik ini dikenal dengan Jelinek-Mercer Smoothing Smoothing) yang menggunakan metode interpolasi linier untuk memodelkan kelas unigram dari maximum likelihood model dengan collection background model parameter pengontrol yang mempengaruhinya adalah koefisien λ. Tujuannya adalah untuk menduga peluang dari kata yang tidak muncul (unseen) berdasarkan background model seluruh koleksi dokumen latih.

adalah bagian penting dari LM yang berfungsi untuk membandingkan peluang yang tidak muncul dalam akan menambah kata yang ada Dengan kata lain, juga memberikan nilai (non zero) peluang pada kata yang tidak muncul.

smoothing dapat dikatakan sebagai pengontrol dari maximum agar hasilnya lebih akurat Menurut Chen dan banyak metode antara lain adalah Katz smoothing, Good-Dirichlet Prior, Witten-Bell,

, dan Semantic

merupakan teknik yang biasa digunakan pada penghitungan Maximum Likelihood Estimation Kegunaannya untuk menghilangkan dugaan parameter yang bernilai nol.

disebut juga dengan karena pada notasi P(t|c) setiap penghitungan kata dalam kelas c, ditambah laplace smoothing untuk

+,-. +,-5 .65 234 (2) term dalam kosa dan ∑-59:7 8 =

ini biasa disebut dengan atau background semantic smoothing teknik ini digunakan sebagai background et al. 2008). Dalam komunitas Temu Kembali Informasi, teknik ini Mercer Smoothing (JM yang menggunakan metode memodelkan kelas maximum likelihood model collection background model dan yang mempengaruhinya . Tujuannya adalah untuk dari kata yang tidak muncul background model atau

Model background smoothing dinyatakan dalam bentuk:

b |j  1 & < ml |? @ <

Dengan ml |? adalah model kelas dengan pendugaan parameter likelihood, b |j adalah model kelas dengan background smoothing.  simple language model yang meng kan frekuensi kata (t) query di dalam koleksi dokumen D dengan jumlah seluruh kata dalam koleksi dokumen.

Sedangkan koefisien λ gunanya sebagai parameter pengontrol dari

background model, dalam semantic smoothing digunakan sebagai komponen pengontrol pada pemetaan topic signature sebagai model campuran atau mixture model (Zhou 2007).

Confusion Matrix

Confusion matrix atau disebut juga matriks klasifikasi adalah suatu alat visual yang biasanya digunakan dalam supervised learning Matriks klasifikasi berisi jumlah kasus yang diklasifikasikan dengan benar dan kasus kasus yang salah diklasifikasikan.

yang diklasifikasikan dengan benar muncul pada diagonal, karena kelompok prediksi dan kelompok aktual adalah sama. Elemen selain diagonal menunjukkan kasus yang diklasifikasikan. Jumlah elemen diagonal dibagi total jumlah kasus adalah rasio tingkat akurasi dari klasifikasi. Format dari confusion matrix dapat dilihat pada Gambar 3.

Gambar 3 Format Confusion Matrix 2008)

Evaluasi kesamaan dokumen dapat diukur menggunakan recall, precision dan

Hasil klasifikasi (predicted class

kemungkinan yaitu benar dalam kelasnya ( dan TN) atau salah, masuk kelas lainnya ( dan FN).

Hasil pengukuran (performace metric diperoleh dengan melihat pada format

4 background smoothing tersebut

< | (3) adalah model kelas unigram dengan pendugaan parameter maximum model kelas unigram  | adalah yang

mengkombinasi-di dalam seluruh dengan jumlah seluruh kata koefisien λ gunanya sebagai parameter pengontrol dari collection semantic smoothing digunakan sebagai komponen pengontrol pada sebagai model (Zhou et al.

atau disebut juga matriks klasifikasi adalah suatu alat visual yang supervised learning. berisi jumlah kasus-kasus yang diklasifikasikan dengan benar dan

Pada Kasus yang diklasifikasikan dengan benar muncul pada diagonal, karena kelompok prediksi dan kelompok aktual adalah sama. Elemen-elemen selain diagonal menunjukkan kasus yang salah diklasifikasikan. Jumlah elemen diagonal dibagi tingkat akurasi confusion matrix

Confusion Matrix (Hamel

dapat diukur dan F-measure. predicted class) memunyai kemungkinan yaitu benar dalam kelasnya (TP kelas lainnya (FP metric) dapat diperoleh dengan melihat pada format confusion

(14)

5 matrix di atas. Akurasi dari pengklasifikasian

diperoleh dari formula:

ABCDEFG  7 @ 7H @ I @ IH 7 @ 7H (4)

Pengukuran lain yaitu recall, precision, F-measure (F1) dapat dinotasikan sebagai berikut:

JKELL  7 @ IH 7 (5555)

DKGFGNO  7 @ I 7 I1  2 Q JKELL Q DKGFGNOJKELL @ DKGFGNO

Recall adalah tingkat keberhasilan pengenalan suatu kelas yang harus dikenali. Recall dinyatakan dalam jumlah pengenalan entitas bernilai benar, dibagi dengan jumlah entitas yang seharusnya dapat dikenali oleh sistem. Sedangkan Precision adalah tingkat ketepatan hasil klasifikasi dari seluruh dokumen. Precision dihitung dari jumlah pengenalan yang bernilai benar oleh sistem, dibagi dengan jumlah keseluruhan pengenalan yang dilakukan oleh sistem. F-measure adalah nilai yang mewakili keseluruhan kinerja sistem dan merupakan gabungan nilai recall dan precision.

METODE PENELITIAN

Gambaran Umum Sistem

Secara garis besar pengerjaan sistem dilakukan dalam beberapa tahap, seperti yang terlihat pada Gambar 4.

Koleksi Dokumen

Koleksi dokumen yang digunakan sebagai dokumen latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009. Namun tidak semua edisi jurnal tersebut digunakan karena tidak semua jurnal tersebut disimpan dalam format file yang sama, sehingga butuh waktu lama untuk dilakukan kompilasi data.

Adapun pembagian jenis tanaman hortikultura adalah komoditas tanaman hias, buah tropik, buah sub tropik, dan sayuran. Dokumen tersebut terdiri atas berbagai bidang penelitian pertanian yaitu

ekofisiologi-agronomi, pemuliaan-teknologi benih, dan proteksi.

Proporsi dokumen yang digunakan adalah dengan 70 % untuk data latih dan 30 % untuk data uji. Dokumen uji untuk setiap dokumen dibagi menjadi dua, yaitu untuk short dan long query.

Gambar 4 Gambaran Umum Sistem

Praproses

Praproses merupakan tahapan awal dalam proses klasifikasi dokumen setelah koleksi dokumen terkumpul. Praproses dalam penelitian ini dilakukan dalam beberapa tahapan, yaitu: 1. Pengelompokan dan kompilasi dokumen.

Pada tahap ini koleksi dokumen diseleksi berdasarkan kategori atau kelas yang telah ditentukan sebelumnya.

2. Indexing. Proses indexing melibatkan konsep linguistic processing dengan tujuan untuk mengekstrak kata-kata dari dokumen yang merupakan representasi dari bag-of-words. Ekstraksi kata yang pada penelitian ini melibatkan tiga operasi utama, yaitu:

a. Proses parsing yaitu dilakukan dengan memilah dokumen menjadi unit-unit yang lebih kecil berupa kata.

b. Proses stopwords yaitu dihilangkannya kata yang tidak berhubungan dengan subyek utama dari dokumen. Kata yang dihilangkan adalah kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti seperti: dan, yang, ini, itu serta string yang berupa angka, dilanjutkan dengan kata-kata

Evaluasi Hasil Klasifikasi Naïve Bayes Classifier

Koleksi Dokumen Praproses Maximum Likelihood Model Background Collection Model

(15)

6 yang tidak berarti sebagai pembeda

antar dokumen.

c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh kata pada kelas dari dokumen. Pembobotan global akan menghasilkan total kata dan jumlah total kata unik yang ada pada dokumen latih.

Naïve Bayes Classifier (NBC) dengan Background Smoothing

Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi NBC yang merupakan multinomial model. Agar mudah dalam implementasinya maka digunakan teknik background smoothing sebagai pengontrol dari penghitungan maximum likelihood estimator melalui pendekatan simple language model agar hasil klasifikasinya lebih akurat.

Pada tahap ini diawali dengan penghitungan peluang setiap kata dalam dokumen latih menggunakan Maximum Likelihood Estimation (MLE) berdasarkan kata pada dokumen uji. Proses penghitungan tersebut dimulai dengan pendugaan parameter peluang kata pada dokumen kelas ci sesuai dengan formula (2). Selanjutnya melakukan kombinasi linier pada unigram class model menggunakan collection background model dengan parameter pengontrol λ sesuai dengan formula (3) pada dokumen latih. Setelah didapatkan peluang tiap kata dari dokumen uji berdasarkan dokumen latih, proses akhir adalah penghitungan peluang dari masing-masing kelas terhadap dokumen uji dengan formula (1).

Evaluasi Hasil Klasifikasi

Evaluasi hasil klasifikasi dokumen dilakukan untuk menganalisis tingkat keakurasian klasifikasi dokumen dengan metode background smoothing pada parameter pengontrol λ yang berbeda. Hal ini dimaksudkan untuk menentukan nilai ideal dari parameter pengontrol λ yang sesuai dengan data training.

Setelah diperoleh nilai koefisien λ yang terbaik untuk short dan long query, evaluasi dilanjutkan pada perbandingan klasifikasi

dokumen antara NBC dengan NBC+

Background Smoothing. Pengukuran kesamaan dokumen yang digunakan adalah tingkat akurasi, recall, precision, dan F-1

menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN

Dokumen yang digunakan sebagai dokumen latih dan uji perlu dikompilasi karena hasil klasifikasi bergantung pada koleksi dokumen yang akan dijadikan dokumen latih. Hasil kompilasi menghasilkan 249 dokumen. Isi dari koleksi dokumen tersebut merupakan judul penelitian, kata kunci dan abstrak dari 3 (tiga) kelas, yaitu:

a) Kelas Ekofisiologi dan Agronomi b) Kelas Pemuliaan dan Teknologi Benih c) Kelas Proteksi (Hama dan Penyakit)

Masing-masing kelas terdiri atas 83 dokumen. Dokumen tersebut dibagi lagi untuk dijadikan sebagai data latih dan data uji. Data latih untuk setiap kelas terdiri atas 58 dokumen, sedangkan untuk data uji terdiri atas 25 dokumen. Pembagian tersebut sesuai dengan proporsi dokumen pada Bab Metodologi Penelitian, yaitu 70 % untuk data latih dan 30 % untuk data uji.

Setelah melalui proses indexing, diperoleh pembobotan indeks yang diperlukan dalam proses klasifikasi dokumen. Bagian penting dari tahap ini adalah penentuan stoplist atau kata yang akan dibuang sebagai stopword. Penghilangan stopword disesuaikan dengan kebutuhan penelitian, yaitu kata yang sering muncul dalam koleksi dokumen dan tidak memunyai arti dan dilanjutkan dengan menghilangkan kata-kata yang tidak berarti dalam membedakan dokumen. Hasil dari penghilangan stopword dan pembobotan indeks kata, diperoleh total jumlah kata sebanyak 20605 dan jumlah kata unik sebanyak 2949 untuk pembobotan global.

Uji Coba Klasifikasi Dokumen

Uji coba dilakukan dengan dua kombinasi perlakuan, yaitu:

1. NBC+Background Smoothing dengan parameter pengontrol λ= 0.1 sampai dengan 0.9, agar diperoleh nilai koefisien λ terbaik pada short dan long query.

2. Setelah diperoleh parameter pengontrol koefisien λ yang terbaik, selanjutnya dilakukan perbandingan klasifikasi dokumen NBC dengan NBC+Background Smoothing. Tujuannya adalah untuk mengetahui apakah akurasi klasifikasi dokumen menggunakan

(16)

7 Background Smoothing lebih baik daripada

NBC.

NBC+Background Smoothing

Tingkat keakurasian yang paling baik untuk short query diperoleh pada parameter pengontrol koefisien λ=0.3, seperti yang terlihat pada Gambar 5. Rata-rata nilai recall, precision dan F-measure untuk semua kelas atau micro average pada koefisien λ=0.3 adalah 84 % dan akurasi yang didapat adalah 89.3 %. Hasil penghitungan pada micro average untuk semua nilai koefisien λ dapat dilihat pada Tabel 1. Hasil klasifikasi dokumen untuk semua koefisien λ pada short query dalam bentuk confusion matrix ada pada Lampiran 1.

Tabel 1 Micro Average untuk Short Query

rec=recall (%); pre=Precision (%); F-1= F-measure (%); acc= Accuracy (%) Pada Gambar 5 terlihat bahwa parameter pengontrol koefisien λ=0.1, 0.4, 0.5, 0.6, 0.7, dan 0.8 memiliki nilai akurasi yang sama, yaitu sebesar 88.4 %. Walaupun nilai yang diperoleh adalah sama, namun untuk nilai macro average berbeda. Nilai macro average yang berbeda adalah pada koefisien λ=0.1. Sedangkan untuk koefisien λ= 0.4, 0.5, 0.6, 0.7 dan 0.8 nilainya sama. Hasil pengukuran macro dan micro average untuk semua koefisien pada short query dapat dilihat di Lampiran 2.

Perbedaan tersebut nampak pada kelas b (Pemuliaan dan Teknologi Benih) dan kelas c (Proteksi). Sedangkan untuk kelas a (Fisiologi dan Agronomi) nilai yang diperoleh adalah sama. Pada Koefisien λ=0.1, nilai pada kelas c lebih tinggi dan pada kelas b nilainya lebih rendah. Hal ini disebabkan karena pada kelas c dokumen yang dikenali dengan benar lebih tinggi daripada koefisien λ= 0.4, 0.5, 0.6, 0.7, dan 0.8. Demikian pula sebaliknya yang terjadi pada kelas b, dokumen yang dikenali dengan benar lebih rendah dibandingkan dengan λ= 0.1.

Pada Tabel 2 terlihat bahwa total pengujian untuk tiga kelas a, b, dan c yang diklasifikasi-kan benar adalah 555, dan yang diklasifikasi salah adalah sebanyak 120. Sedangkan untuk dokumen yang diklasifikasikan dari total tiga kelas dengan banyaknya koefisien λ yang diujikan, diperoleh nilai sebanyak 1230. Nilai tersebut diperoleh dengan penghitungan sebagai berikut:

((75 x 3)*9) - (555+120+120) = 2025 - 796 = 1230

Nilai 75 adalah total dokumen uji dan nilai 3 merupakan jumlah kelas atau kategori. Nilai 555 adalah total dokumen yang diklasifikasikan benar di tiga kelas pada semua koefisien λ, dan 120 adalah total dokumen yang diklasifikasikan salah di tiga kelas pada semua koefisien λ.

Tabel 2 Confusion Matrix Short Query

TRUE FALSE

TRUE 555 120

FALSE 120 1230

parameter pengontrol koefisien λ

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 rec 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 83,1 pre 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 74,7 F-1 82,7 81,3 84,0 82,7 82,7 82,7 82,7 82,7 78,7 acc 88,4 87,6 89,3 88,4 88,4 88,4 88,4 88,4 85,8 70 % 72 % 74 % 76 % 78 % 80 % 82 % 84 % 86 % 88 % 90 % 92 % 94 % 96 % 98 % 100 % 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 T in g k a t A k u r a si Koefisien λ

Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Short Query

0 %

(17)

8 70 % 72 % 74 % 76 % 78 % 80 % 82 % 84 % 86 % 88 % 90 % 92 % 94 % 96 % 98 % 100 % 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Ti n gk at A k u r as i Koefisien λ

Tingkat Akurasi Parameter Pengontrol Koefisien λ pada Long Query

0 %

Pada long query, tingkat keakurasian terbaik diperoleh pada parameter pengontrol koefisien λ=0.7 dan λ=0.8. Nilai micro average untuk recall, precision dan F-measure adalah 89.3 %. Sedangkan akurasi yang didapat adalah 92.8 %. Hasil penghitungan micro average tersebut dapat pada tabel dibawah ini.

Tabel 3 Micro Average untuk Long Query

rec = recall (%); pre=Precision (%); F-1= F1 (%); acc= Accuracy (%)

Hasil klasifikasi dokumen untuk semua koefisien λ pada long query dalam bentuk confusion matrix dapat dilihat pada Lampiran 3 dan hasil pengukuran untuk semua koefisien λ pada long query ada di Lampiran 4. Dari Gambar 6 terlihat bahwa parameter pengontrol koefisien λ=0.1 sampai dengan 0.6 memiliki nilai akurasi yang sama, sebesar 92 %. Demikian juga untuk recall, precision dan F-measure pada micro average adalah sama, yaitu 88 %. Perbedaan yang tampak pada koefisien λ=0.1 sampai dengan 0.3, dan koefisien λ=0.4 sampai 0.6.

Perbedaan tersebut tidak terlalu berarti, hanya pada koefisien λ=0.1 sampai 0.3, kelas a dikenali salah ke dalam kelas b sebanyak satu dokumen uji dan kelas c sebanyak dua dokumen uji. Sebaliknya pada koefisien λ=0.4 sampai

0.6, kelas a salah dikenali ke dalam kelas b sebanyak 2 (dua) dokumen uji dan kelas c sebanyak satu dokumen uji. Nilai Micro Average untuk total seluruh nilai parameter pengontrol koefisien λ mulai dari 0.1 sampai dengan 0.9, dapat dilihat pada tabel 4.

Tabel 4 Confusion Matrix Long Query

TRUE FALSE

TRUE 594 81

FALSE 81 1269

Pada Tabel 4 terlihat bahwa total pengujian untuk kelas a, b, dan c yang diklasifikasikan benar adalah 594, dan yang diklasifikasikan salah adalah sebanyak 81. Dari total kelas dengan banyaknya koefisien λ yang diujikan sebanyak 1269.

NBC dan NBC+Background Smoothing

Perbedaan antara klasifikasi dokumen NBC dengan NBC+Background Smoothing adalah Maximum Likelihood Estimation (MLE). Penghitungan MLE pada NBC seperti pada formula (2), menggunakan jumlah seluruh kata unik dokumen latih di semua kelas, sedangkan

pada Background Smoothing tidak

menambahkan jumlah seluruh kata unik dalam dokumen uji untuk penghitungannya.

Hasil pengukuran ini dilakukan pada nilai parameter pengontrol koefisien λ yang terbaik untuk background smoothing. Dari hasil pengukuran sebelumnya telah diperoleh nilai koefisien terbaik untuk short query adalah λ=0.3 dan long query pada λ=0.7.

parameter pengontrol koefisien λ

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

rec 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 pre 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 F-1 88,0 88,0 88,0 88,0 88,0 88,0 89,3 89,3 85,3 acc 92,0 92,0 92,0 92,0 92,0 92,0 92,9 92,9 90,2

(18)

Hasil klasifikasi dokumen untuk

terlihat pada Tabel 5 dan Gambar 7 bahwa tingkat akurasi NBC+Background Smoothing dengan koefisien λ=0.3 lebih baik dibandingkan dengan NBC. Hasil pengukuran selengkapnya dapat dilihat pada Lampiran 6

measure pada tabel macro average

a dan kelas b, lebih tinggi dibandingkan dengan F-measure pada NBC. Hanya kelas

uji diklasifikasikan dengan baik terhadap kelas a dan b oleh NBC.

Tabel 5 Micro Average NBC dan NBC+ Background Smoothing

Gambar 7 Perbandingan Tingkat pada Short Query

Berdasarkan Tabel 6 pengujian dokumen untuk tiga kelas a, b, dan c pada NBC yang diklasifikasikan dengan benar adalah 62, dan yang diklasifikasikan salah yaitu 13 dokumen uji dari total 75 dokumen yang diujikan. Sedangkan dokumen uji yang diklasifikasikan dari total dokumen pada tiga kelas sebanyak 137. Sedangkan pada NB

Smoothing mengklasifikasikan dokumen dengan benar sebanyak 63 dokumen uji. Hal inilah yang membuat tingkat akurasi NBC+Background Smoothing 0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 % Ti n g k a t K in er ja

Tingkat Kinerja NBC dan NBC+

Background Smoothing pada Short Query

Pengukuran Micro Average (%) recall precision

NBC 82,67 82,67

NBC+BgS 84,00 84,00

Hasil klasifikasi dokumen untuk short query dan Gambar 7 bahwa Background Smoothing lebih baik dibandingkan dengan NBC. Hasil pengukuran selengkapnya dimana nilai F-macro average untuk kelas lebih tinggi dibandingkan dengan pada NBC. Hanya kelas c dokumen ifikasikan dengan baik terhadap kelas

NBC dan NBC+ Background Smoothing λ=0.3

7 Perbandingan Tingkat Akurasi Short Query

pengujian dokumen pada NBC yang diklasifikasikan dengan benar adalah 62, dan yang diklasifikasikan salah yaitu 13 dokumen uji dari total 75 dokumen yang diujikan. Sedangkan dokumen uji yang diklasifikasikan dari total dokumen pada tiga kelas sebanyak 137. Sedangkan pada NBC+Background mengklasifikasikan dokumen dengan benar sebanyak 63 dokumen uji. Hal inilah yang membuat tingkat akurasi

Background Smoothing lebih baik

daripada NBC, walaupun tidak terlalu berbeda. Hasil klasifikasi dokumen pada tiap kelas, selengkapnya dapat dilihat pada Lampiran 5.

Tabel 6 Confusion Matrix NBC dan NBC+ Background Smoothing (Short Query

TRUE NBC TRUE 62 FALSE 13 NBC+Background Smoothing TRUE 63 FALSE 12

Hasil klasifikasi untuk long query dilihat pada Tabel 7 dan Gambar 8. Terlihat bahwa tingkat akurasi klasifikasi dokumen NBC+Background Smoothing dengan koefisien λ=0.7 lebih baik dibandingkan dengan NBC. Dimana nilai micro average untuk precision, dan F-measure pada Background Smoothing dengan koefisien adalah sebesar 89.3 %, sedangkan pada NBC diperoleh sebesar 86.6 %. Tingkat akurasi +Background Smoothing mencapai 92.9 %, sedangkan NBC menghasilkan tingkat akurasi sebesar 91.1 %.

Hasil pengukuran macro dan micro average untuk long query dapat dilihat pada

Pada tabel macro average terlihat bahwa nilai F-measure pada kelas a dan kelas b

dibandingkan dengan F-measure

Namun sebaliknya pada kelas c terlihat bahwa nilai F-measure yang diperoleh NBC lebih tinggi dibandingkan dengan NBC+

Smoothing. Hal inilah yang menyebabkan hasil klasifikasi dokumen menggunakan

Background Smoothing tidak terlalu berbeda dengan NBC karena pada tabel macro average (Lampiran 6) terlihat bahwa nilai

kelas c lebih tinggi dibandingkan dengan NBC+Background Smoothing.

Tabel 7 Micro Average NBC dan NBC+ Background Smoothing

Pengukuran Micro Average (%) recall precision F

NBC 86,67 86,67 86,67

NBC+BgS 89,33 89,33 89,33

Tingkat Kinerja NBC dan NBC+

Short Query

NBC

NBC +BgS Pengukuran Micro Average (%)

F-1 Akurasi

82,67 88,44 84,00 89,33

9 , walaupun tidak terlalu berbeda. Hasil klasifikasi dokumen pada tiap kelas,

lengkapnya dapat dilihat pada Lampiran 5. NBC dan NBC+ Short Query) FALSE 13 137 Background Smoothing 12 138 long query dapat dilihat pada Tabel 7 dan Gambar 8. Terlihat bahwa tingkat akurasi klasifikasi dokumen

dengan koefisien lebih baik dibandingkan dengan NBC. untuk recall,

pada NBC+

dengan koefisien λ=0.7 adalah sebesar 89.3 %, sedangkan pada NBC diperoleh sebesar 86.6 %. Tingkat akurasi NBC mencapai 92.9 %, sedangkan NBC menghasilkan tingkat akurasi micro average dapat dilihat pada Lampiran 6.

erlihat bahwa nilai b lebih tinggi pada NBC. terlihat bahwa yang diperoleh NBC lebih NBC+Background . Hal inilah yang menyebabkan hasil klasifikasi dokumen menggunakan NBC+ tidak terlalu berbeda macro average ) terlihat bahwa nilai recall untuk lebih tinggi dibandingkan dengan

NBC dan NBC+ Background Smoothing λ=0.7

Pengukuran Micro Average (%) F-1 Akurasi

86,67 91,11 89,33 92,89

(19)

Gambar 8 Perbandingan Tingkat pada Long Query Selain dari hasil pengukuran pada average, terlihat juga pada Tabel 8 matrix, bahwa tingkat akurasi

Background Smoothing lebih baik daripada NBC, walaupun hasil yang diperoleh tidak terlalu berbeda seperti halnya pada

Dimana total pengujian dokumen untuk tiga kelas a, b, dan c pada NBC yang diklasifikasikan dengan benar sebanyak 65, dan yang diklasifikasikan salah yaitu 10 dokumen dari total 75 dokumen yang diujikan. Sedangkan NBC+Background Smoothing mengklasifikasikan dokumen dengan benar sebanyak 67 dokumen.

Tabel 8 Confusion Matrix NBC dan NBC+ Background Smoothing TRUE NBC TRUE 65 FALSE 10 NBC+Background Smoothing TRUE 67 FALSE 8

Dari hasil penelitian ini menunjukkan bahwa hasil klasifikasi menggunakan

smoothing tidak bergantung pada panjang atau pendeknya query karena hasil yang hampir sama dicapai pula oleh NBC, baik untuk maupun long query. Hal yang mempengaruhi hasil klasifikasi dengan background smoothing adalah adanya nilai parameter pengontrol

0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 % Ti n gk at K in e r ja

Tingkat Kinerja NBC dan NBC+

Background Smoothing pada Long Query

8 Perbandingan Tingkat Akurasi Long Query

Selain dari hasil pengukuran pada macro terlihat juga pada Tabel 8 confusion bahwa tingkat akurasi NBC+ lebih baik daripada walaupun hasil yang diperoleh tidak berbeda seperti halnya pada short query. total pengujian dokumen untuk tiga pada NBC yang diklasifikasikan dengan benar sebanyak 65, dan ah yaitu 10 dokumen dari total 75 dokumen yang diujikan. Background Smoothing mengklasifikasikan dokumen dengan benar

NBC dan NBC+ Background Smoothing (Long Query)

FALSE NBC 10 140 NBC+Background Smoothing 8 142 Dari hasil penelitian ini menunjukkan bahwa hasil klasifikasi menggunakan background tidak bergantung pada panjang atau karena hasil yang hampir sama dicapai pula oleh NBC, baik untuk short . Hal yang mempengaruhi background smoothing adalah adanya nilai parameter pengontrol λ

yang disesuaikan dengan data

sehingga hasilnya lebih baik dibandingkan dengan NBC kendati tidak terlalu berbeda. Sedangkan nilai λ terbaik pada short

query, terkait dengan domain klasifikasi dokumen yang digunakan sebagai

background model. Pada penelitian ini menggunakan domain tanaman hortikultura pada penelitian tentang pertanian. Bisa saja nilai koefisien λ untuk domain selain hortikultura, misalnya untuk domain tanaman pangan nilai koefisien λ pada short query bukan di dan sebaliknya untuk long query λ=0.7.

KESIMPULAN DAN SARAN

Kesimpulan

Background smoothing merupakan teknik smoothing dengan pendekatan

model. Pada penelitian ini,

smoothing memodelkan seluruh dokumen latih sebagai collection background model

klasifikasi terlihat bahwa tingkat akurasi NBC+ Background Smoothing tidak banyak pengaruhnya dibandingkan dengan NBC. Peningkatan akurasi tersebut hanya sebesar 1.78% dari hasil yang diperoleh pada NBC. Untuk dapat menambah tingkat keakurasia perlu melibatkan keterkaitan antar kata atau semantic.

Hasil klasifikasi dengan

smoothing dipengaruhi oleh nilai parameter pengontrol λ yang disesuaikan dengan data training. Nilai λ terbaik yang diperoleh pada short dan long query bergantung pada domain klasifikasi dokumen yang digunakan sebagai collection background model. Hasil pengukuran klasifikasi pada dokumen bidang kajian pertanian untuk domain hortikultura menunjukkan bahwa nilai parameter koefisien λ yang terbaik pada short query

λ=0.3 dengan akurasi sebesar 89.3 % dan pada long query diperoleh pada λ=0.7 dengan akurasi 92.8 %. Oleh karena itu, nilai λ

sebaiknya digunakan pada data training kecil untuk klasifikasi short query untuk long query dibutuhkan nilai besar.

Saran

Pada penelitian selanjutnya metod Background Smoothing perlu di

koleksi dokumen selain domain pertanian

Tingkat Kinerja NBC dan NBC+

Long Query

NBC NBC+ BgS

10 yang disesuaikan dengan data training, sehingga hasilnya lebih baik dibandingkan dengan NBC kendati tidak terlalu berbeda.

short dan long , terkait dengan domain klasifikasi dokumen yang digunakan sebagai collection . Pada penelitian ini enggunakan domain tanaman hortikultura pada penelitian tentang pertanian. Bisa saja nilai untuk domain selain hortikultura, misalnya untuk domain tanaman pangan nilai bukan di λ=0.3, long query tidak pada

KESIMPULAN DAN SARAN

merupakan teknik dengan pendekatan languange . Pada penelitian ini, background memodelkan seluruh dokumen latih model. Dari hasil klasifikasi terlihat bahwa tingkat akurasi NBC+ tidak banyak pengaruhnya dibandingkan dengan NBC. Peningkatan akurasi tersebut hanya sebesar 1.78% dari hasil yang diperoleh pada NBC. Untuk dapat menambah tingkat keakurasian perlu melibatkan keterkaitan antar kata atau Hasil klasifikasi dengan background dipengaruhi oleh nilai parameter yang disesuaikan dengan data terbaik yang diperoleh pada ng pada domain klasifikasi dokumen yang digunakan sebagai . Hasil pengukuran klasifikasi pada dokumen bidang kajian pertanian untuk domain hortikultura menunjukkan bahwa nilai parameter koefisien adalah pada =0.3 dengan akurasi sebesar 89.3 % dan pada =0.7 dengan akurasi λ yang kecil training yang short query. Sebaliknya dibutuhkan nilai λ yang lebih

Pada penelitian selanjutnya metode perlu diujikan pada domain pertanian

(20)

11 hortikultura agar dapat dilihat hasil klasifikasi

dan pengaruh nilai λ terbaik untuk short dan long query sama atau berbeda.

Selain dipadankan dengan NBC, metode Background Smoothing dapat juga dipadankan dengan teknik smoothing yang lain seperti pada Semantic Smoothing.

DAFTAR PUSTAKA

Christopher D Manning, Raghavan P, Hinrich Schütze.2009. An Introduction to Informa- tion Retrieval. http://nlp.stanford. edu/ IRbook/pdf/irbookprint. Pdf. [12 Jun 2009]. Djoerd Hiemstra. 2001.Using Language Models

for Information Retrieval.[tesis]. Centre for Telematics and Information Technology, University of Twente. ISSN 1381-3617 no. 01-32; ISBN 90-75296-05-3. http://www home.cs.utwente.nl/~hiemstra/ publications. [7 Feb 2010].

Chen, SF, Goodman J. 1998. An Empirical Study of Smoothing Techniques for Language Modeling. TR-10-98, Harvard University. http://research.Microsoft.com/ en-us/um/people/joshuago/publications. [12 jun 2009].

Kartika I.2005. Evaluasi Penambahan Dokumen Dalam Sistem Temu Kembali Informasi. [skripsi].Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Liu X, Croft WB. 2004. Statistical Language Modeling For Information Retrieval. Annual Review of Information Science and Technology, vol. 39, pp. 3-31. http://ciir. cs.umass.edu/pubfiles. [7 Feb 2010]. Lutz Hamel. Model Assessment with ROC

Curves.2008. The Encyclopedia of Data Warehousing and Mining.2nd Edition.Idea Group Publishers. http://homepage.cs.uri. edu/faculty/hamel/pubs. [15 Mar 2010]. Zhai C, Lafferty J. 2001.A study of Smoothing

Methods for Language Models Applied to Ad Hoc Information Retrieval, Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'01), hlm 334-342. http://sifaka. cs.uiuc.edu/czhai/ selected.html. [7 Feb 2010]

Zhou X, Zhang X, Hu X. 2008. Semantic Smoothing for Bayesian Text Classification with Small Training Data. Dalam: SIAM SDM 08. Proc of the 2008, SIAM International Conference on Data Mining; Georgia, Atlanta, 24-26 Apr 2008. http:// www.siam.org/proceedings/datamining/ 2008/dm08_26_Zhou.pdf. [7 Jul 2009]. Zhou X, Hu X, Zhang X. 2007. Topic Signature

Language Model for Ad Hoc Retrieval. J IEEE Trans Knowledge and Data Eng (TKDE).19:9: 1276-1287. http:// www. daviszhou.net/research. [12 Agu 2009].

(21)

12

(22)

13 Lampiran 1 Confusion Matrix untuk Semua Koefisien λ pada Short Query

Koefisien λ

Kelas A Kelas B Kelas C

AA AB AC BA BB BC CA CB CC 0.1 17 3 5 3 22 0 1 1 23 0.2 17 3 5 3 22 0 2 1 22 0.3 18 2 5 2 23 0 2 1 22 0.4 17 2 6 2 23 0 2 1 22 0.5 17 2 6 2 23 0 2 1 22 0.6 17 2 6 2 23 0 2 1 22 0.7 17 2 6 2 23 0 2 1 22 0.8 17 2 6 2 23 0 2 1 22 0.9 14 5 6 3 22 0 0 2 23

≠ Kelas A = Fisiologi dan Agronomi Kelas B = Pemuliaan dan Teknologi Benih Kelas C = Proteksi

(23)

14 Lampiran 2 Hasil Pengukuran Macro dan Micro Average pada Short Query

Koefisien λ

MACRO AVERAGE (%) MICRO AVERAGE (%)

Recall Precision F-measure Accuracy

Recall Precision F-measure Accuracy

A B C A B C A B C A B C 0.1 80.95 84.62 82.14 68.00 88.00 92.00 73.91 86.27 86.79 84.00 90.67 90.67 82.67 82.67 82.67 88.44 0.2 77.27 84.62 81.48 68.00 88.00 88.00 72.34 86.27 84.62 82.67 90.67 89.33 81.33 81.33 81.33 87.56 0.3 81.82 88.46 81.48 72.00 92.00 88.00 76.60 90.20 84.62 85.33 93.33 89.33 84.00 84.00 84.00 89.33 0.4 80.95 88.46 78.57 68.00 92.00 88.00 73.91 90.20 83.02 84.00 93.33 88.00 82.67 82.67 82.67 88.44 0.5 80.95 88.46 78.57 68.00 92.00 88.00 73.91 90.20 83.02 84.00 93.33 88.00 82.67 82.67 82.67 88.44 0.6 80.95 88.46 78.57 68.00 92.00 88.00 73.91 90.20 83.02 84.00 93.33 88.00 82.67 82.67 82.67 88.44 0.7 80.95 88.46 78.57 68.00 92.00 88.00 73.91 90.20 83.02 84.00 93.33 88.00 82.67 82.67 82.67 88.44 0.8 80.95 88.46 78.57 68.00 92.00 88.00 73.91 90.20 83.02 84.00 93.33 88.00 82.67 82.67 82.67 88.44 0.9 82.35 75.86 79.31 56.00 88.00 92.00 66.67 81.48 85.19 81.33 86.67 89.33 78.67 78.67 78.67 85.78

≠ A = Kelas Fisiologi dan Agronomi B = Kelas Pemuliaan dan Teknologi Benih C = Kelas Proteksi

1

(24)

15 Lampiran 3 Confusion Matrix Semua Koefisien λ pada Long Query

Koefisien

λ

Kelas A Kelas B Kelas C

AA AB AC BA BB BC CA CB CC 0.1 22 1 2 3 22 0 2 1 22 0.2 22 1 2 3 22 0 2 1 22 0.3 22 1 2 3 22 0 2 1 22 0.4 22 2 1 3 22 0 2 1 22 0.5 22 2 1 3 22 0 2 1 22 0.6 22 2 1 3 22 0 2 1 22 0.7 22 2 1 2 23 0 2 1 22 0.8 22 2 1 2 23 0 2 1 22 0.9 19 4 2 2 23 0 2 1 22

≠ Kelas A = Fisiologi dan Agronomi Kelas B = Pemuliaan dan Teknologi Benih Kelas C = Proteksi

(25)

16 Lampiran 4 Hasil Pengukuran Macro dan Micro Average pada Long Query

Koefisien λ

MACRO AVERAGE (%) MICRO AVERAGE (%)

Recall Precision F-measure Accuracy

Recall Precision F-measure Accuracy

A B C A B C A B C A B C 0.1 81.48 91.67 91.67 88.00 88.00 88.00 84.62 89.80 89.80 89.33 93.33 93.33 88.00 88.00 88.00 92.00 0.2 81.48 91.67 91.67 88.00 88.00 88.00 84.62 89.80 89.80 89.33 93.33 93.33 88.00 88.00 88.00 92.00 0.3 81.48 91.67 91.67 88.00 88.00 88.00 84.62 89.80 89.80 89.33 93.33 93.33 88.00 88.00 88.00 92.00 0.4 81.48 88.00 95.65 88.00 88.00 88.00 84.62 88.00 91.67 89.33 92.00 94.67 88.00 88.00 88.00 92.00 0.5 81.48 88.00 95.65 88.00 88.00 88.00 84.62 88.00 91.67 89.33 92.00 94.67 88.00 88.00 88.00 92.00 0.6 81.48 88.00 95.65 88.00 88.00 88.00 84.62 88.00 91.67 89.33 92.00 94.67 88.00 88.00 88.00 92.00 0.7 84.62 88.46 95.65 88.00 92.00 88.00 86.27 90.20 91.67 90.67 93.33 94.67 89.33 89.33 89.33 92.89 0.8 84.62 88.46 95.65 88.00 92.00 88.00 86.27 90.20 91.67 90.67 93.33 94.67 89.33 89.33 89.33 92.89 0.9 82.61 82.14 91.67 76.00 92.00 88.00 79.17 86.79 89.80 86.67 90.67 93.33 85.33 85.33 85.33 90.22

≠ A = Kelas Fisiologi dan Agronomi B = Kelas Pemuliaan dan Teknologi Benih C = Kelas Proteksi

1

(26)

17 Lampiran 5 Confusion Matrix NBC dan NBC+ Background Smoothing

Short Query Kelas A Kelas B Kelas C

AA AB AC BA BB BC CA CB CC

NBC+BgS

(λ = 0.3) 18 3 4 4 21 0 1 1 23

NBC 18 2 5 2 23 0 2 1 22

≠ Kelas A = Fisiologi dan Agronomi Kelas B = Pemuliaan dan Teknologi Benih Kelas C = Proteksi

NBC = Naïve Bayes Classifier

NBC+BgS = Naïve Bayes Classifier+Background Smoothing

Long Query Kelas A Kelas B Kelas C

AA AB AC BA BB BC CA CB CC

NBC+BgS

(λ = 0.7) 22 1 2 2 23 0 2 1 22

(27)

18 Lampiran 6 Hasil Pengukuran NBC dan NBC+ Backgorund Smoothing

Short Query

MACRO AVERAGE (%) MICRO AVERAGE (%)

Recall Precision F-measure Accuracy

Recall Precision F-measure Accuracy

A B C A B C A B C A B C NBC+BgS (λ = 0.3) 81.82 88.46 81.48 72.00 92.00 88.00 76.60 90.20 84.62 85.33 93.33 89.33 84.00 84.00 84.00 89.33 NBC 78.26 84.00 85.19 72.00 84.00 92.00 75.00 84.00 88.46 84.00 89.33 92.00 82.67 82.67 82.67 88.44 Long Query

MACRO AVERAGE (%) MICRO AVERAGE (%)

Recall Precision F-measure Accuracy Recall Precision F-measure Accuracy

A B C A B C A B C A B C

NBC+BgS

(λ = 0.7) 84,62 92,00 91,67 88,00 92,00 88,00 86,27 92,00 89,80 90,67 94,67 93,33 89.33 89.33 89.33 92.89

NBC 78,57 87,50 95,65 88,00 84,00 88,00 83,02 85,71 91,67 88,00 90,67 94,67 86.67 86.67 86.67 91.11

≠ A = Kelas Fisiologi dan Agronomi B = Kelas Pemuliaan dan Teknologi Benih C = Kelas Proteksi

NBC = Naïve Bayes Classifier

NBC+BgS = Naïve Bayes Classifier+Background Smoothing

1

Gambar

Gambar 1 Proses Sistem Temu Kembali                         Informasi (Hiemstra, 2001)
Gambar 3  Format Confusion Matrix 2008)
Gambar 4 Gambaran Umum Sistem
Tabel 1  Micro Average untuk Short Query
+4

Referensi

Dokumen terkait

Jasa Marga bekerja sama dengan Lembaga Afiliasi Penelitian dan Industri Teknologi Bandung (LAPI ITB), maka hanya akan diperhitungkan faktor-faktor tertentu yang dianggap

KEP-38/MK/IV/1972 “Lembaga Keuangan Bukan Bank (LKBB) adalah sebuah badan usaha yang melakukan kegiatan dalam hal keuangan baik secara langsung maupun tidak

Pemilu yang sebelumnya hanya dikenal sebagai instrument untuk memilih sebagian anggota DPR dan DPRD (karena yang sebagian lagi diangkat, misalnya Pemilu pada era

Data kadar ureum darah mencit berdistribusi normal dan homogen, maka dilanjutkan dengan analisis data dengan menggunakan one way anova untuk mengetahui pengaruh pemberian

sebelum kita masuk lebih dalam mengenai php dan mysql, hal pertama yang harus anda kuasai atau paling tidak mengerti tentang syntax- syntax yang ada di HTML

Anggaplah bahawa jemaah yang mendapat tawaran menunaikan haji amat bertuah kerana secara tidak langsung telah juga membuka jalan untuk mereka membuat pemeriksaan

Guru secara nasional. 4) Mengkoordinasikan pelaksanaan Pelatihan Implementasi Kurikulum 2013 Bagi Guru Bagi Guru pada semua jenjang. 5) Mengkoordinasikan pemilihan calon peserta

Mendapatkan sebuah alat yang nantinya bisa membantu dosen, plp dan mahasiswa dalam merancang dan membuat casing akrilik dari sebuah rangkaian elektronik, mendapatkan sebuah