TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN
P-NORM MODEL DAN BELIEF REVISION
DEVI DIAN PRAMANA PUTRA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
ABSTRACT
DEVI DIAN PRAMANA PUTRA. Extended Boolean Model on Retrieval Using P-Norm Model and Belief Revision. Supervised by JULIO ADISANTOSO.
Extended Boolean Model is introduced to intermediate between the Boolean system of query processing and the vector-processing model. The query structure inherent in the Boolean system is preserved, while at the same time weighted term may be incorporated into both queries and stored documents. The retrieved output can also be ranked in strict similarity order with the user queries. Belief Revision is a logical framework in which documents and queries are represented by propositional formulas. Disjunctive Normal Form (DNF) is used to represent documents and queries in the Belief Revision. The purpose of this research is to implement Extended Boolean Model using P-Norm Model and Belief Revision for documents in Bahasa Indonesia. This testing used 30 queries from a thousand agricultural documents and 13 queries from 93 medicinal plants documents. The test result shows that the use of medicinal plants documents is better than agricultural documents. This is due to agricultural documents which have a high similarity between documents. The performance of information retrieval with P-Norm Model and Belief Revision gave good result which is around 81% average precision for medicinal plants documents and 54% for agricultural documents.
TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN
P-NORM MODEL DAN BELIEF REVISION
DEVI DIAN PRAMANA PUTRA
Skripsi
Sebagai salah satu syarat untuk memperoleh
gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
Judul : Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision Nama : Devi Dian Pramana Putra
NRP : G64070059
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom NIP 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc. NIP 19601126 198601 2 001
PRAKATA
Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala
karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Temu-Kembali Model
Extended Boolean Menggunakan P-Norm Model dan Belief Revision.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpan bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1. Ibu dan Bapak serta adik yang selalu memberikan doa, nasihat, dukungan dan semangat kepada Penulis sehingga dapat menyelesaikan tugas akhir ini.
2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
3. Bapak Ahmad Ridha, S.Kom, M.S dan Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku dosen penguji pada ujian skripsi.
4. Teman-teman satu bimbingan Nova Maulizar, Aprilia Ramadhina, Woro Indriyani, Fandi Rahmawan, Agus Umriadi, Isna Mariam, Nutri Rahayuni dan Ilkomerz 44 terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
5. Seksi konsumsi seminar, Yuridhis Kurniawan dan Fandi Rahmawan.
6. Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Oktober 2011
RIWAYAT HIDUP
Penulis dilahirkan di Lumajang pada tanggal 9 September 1989 dari ayah Sukamat dan ibu Asih. Penulis merupakan anak pertama dari dua bersaudara. Pada tahun 2007 lulus dari Sekolah Menengah Atas (SMA) Negeri 2 Bogor dan diterima di Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor (IPB) melalui jalur USMI. Tahun 2010 penulis melakukan Praktek Kerja Lapang di Pusat Perpustakaan dan Penyebaran Teknologi Pertanian (PUSTAKA) Bogor dengan bidang kajian Modul Sirkulasi pada Sistem Informasi Perpustakaan Pertanian.
DAFTAR ISI
Halaman DAFTAR GAMBAR ... v DAFTAR TABEL ... v DAFTAR LAMPIRAN... v PENDAHULUAN ... 1 Latar Belakang ... 1 Tujuan Penelitian ... 1Ruang Lingkup Penelitian ... 1
Manfaat Penelitian ... 1
TINJAUAN PUSTAKA ... 1
Information Retrieval (Temu-Kembali Informasi) ... 1
Inverted Index ... 1
Boolean Model ... 2
Extended Boolean Model ... 2
P-Norm Model ... 2
Belief Revision ... 3
Pembobotan Tf-Idf ... 3
Evaluasi Temu-Kembali Informasi ... 4
METODE PENELITIAN ... 4
Koleksi Dokumen ... 5
Pemrosesan Dokumen ... 5
Pemrosesan Kueri ... 5
Similarity Dokumen dengan Kueri ... 5
Pemeringkatan Dokumen ... 5
Evaluasi Hasil Temu-Kembali ... 5
Asumsi ... 5
Lingkungan Implementasi ... 6
HASIL DAN PEMBAHASAN ... 6
Koleksi Dokumen Pengujian ... 6
Pemrosesan Dokumen ... 7
Pemrosesan Kueri ... 7
Temu-Kembali dengan Boolean Model ... 7
Temu-Kembali dengan P-Norm Model ... 8
Temu-Kembali dengan Belief Revision ... 8
Evaluasi Sistem Temu-Kembali Informasi ... 9
KESIMPULAN DAN SARAN ... 10
Kesimpulan... 10
Saran ... 10
DAFTAR PUSTAKA ... 10
DAFTAR GAMBAR
Halaman
1 Struktur Inverted Index ... 2
2 Sebaran ukuran kesamaan EBM ... 2
3 Pseudocode Belief Revision ... 3
4 Gambaran umum sistem ... 4
5 Contoh dokumen pertanian ... 6
6 Contoh dokumen tanaman obat ... 6
7 Format dokumen setelah dilakukan pembuangan tagging ... 7
8 Contoh pemrosesan kueri ... 7
9 Contoh perhitungan algoritma Belief Revision ... 8
10 Grafik R-P kinerja BR dengan P-Norm Model pada dokumen pertanian ... 9
11 Grafik R-P kinerja BR dengan P-Norm Model pada dokumen tanaman obat ... .9
DAFTAR TABEL
Halaman 1 Deskripsi dokumen pengujian... 62 Nilai AVP BR dengan P-Norm Model pada dokumen pertanian ... 9
3 Nilai AVP BR dengan P-Norm Model pada dokumen tanaman obat ... 9
DAFTAR LAMPIRAN
Halaman 1 Antarmuka Implementasi ... 122 Gugus kueri dan jawaban untuk dokumen pertanian ... 13
3 Gugus kueri dan jawaban untuk dokumen tanaman obat ... 19
4 Hasil perhitungan precision pada elevent standart recall untuk dokumen pertanian ... 20
PENDAHULUAN
Latar Belakang
Temu-kembali informasi model Boolean merupakan model yang paling sederhana. Model Boolean banyak digunakan karena mudah untuk diimplementasikan dan membutuhkan waktu yang relatif singkat untuk proses temu-kembali informasi. Model Boolean juga dapat memberikan hasil recall dan
precision yang tinggi jika kueri diformulasikan
dengan baik.
Dalam model Boolean kueri diekspresikan menggunakan ekspresi Boolean. Dokumen yang dikembalikan merupakan hasil pencocokan pasti dari kueri yang diberikan. Dokumen yang dikembalikan diprediksi relevan atau tidak relevan. Oleh karena itu dokumen yang dikembalikan bisa terlalu banyak atau sedikit.
Kondisi tersebut dapat membatasi informasi yang akan diterima oleh pengguna. Untuk itu diperlukan sebuah model yang mampu menangani pencocokan sebagian antara dokumen dengan kueri berbentuk Boolean. Salton et al. (1983) memperkenalkan Extended
Boolean Model (EBM) yang dikenal juga
sebagai P-Norm Model untuk mengatasi kelemahan dari model Boolean.
Lee dan Fox (1988) melakukan penelitian dengan membandingkan P-Norm Model
dengan Mixed Min and Max Model (MMM) dan Paice Model. Penelitian tersebut menggunakan tiga koleksi dokumen yaitu: CISI, CACM, dan INSPEC. Hasil penelitian menunjukkan bahwa P-Norm Model
mendapatkan nilai average precision yang paling baik. Namun P-Norm Model
membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan dengan semakin besarnya nilai p yang digunakan. Nilai p menunjukkan nilai keketatan pada operator
Boolean.
Selanjutnya Losada dan Barreiro (1999) melakukan penelitian menggunakan Belief
Revision (BR) untuk pemeringkatan dokumen
dalam EBM. BR merupakan logical framework, dimana dokumen dan kueri
direpresentasikan dengan formula proposisi. Pada penelitian tersebut didapatkan bahwa BR tidak membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan. Penelitian tersebut membandingkan BR dengan P-Norm
Model dengan nilai p=1 dengan bobot biner
untuk dokumen dan kueri. Untuk itu, penelitian kali ini akan membandingkan Belief Revision
dengan P-Norm Model dengan nilai p=1, 2, 5 dan 9 untuk dokumen berbahasa Indonesia yaitu dokumen pertanian dan dokumen tanaman obat dengan struktur tag XML.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1.
Mengimplementasikan Belief Revision danP-Norm Model untuk pemeringkatan
dokumen Bahasa Indonesia.
2.
Membandingkan kinerja Belief Revision dan P-Norm Model pada sistem temu-kembali.Ruang Lingkup
Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.
Manfaat Penelitian
Manfaat dari penelitian ini adalah melakukan pemeringkatan dokumen berbahasa Indonesia (dokumen pertanian dan dokumen tanaman obat) dengan kueri berbentuk
Boolean. P-Norm Model dan Belief Revision
diharapkan dapat meningkatkan kinerja sistem dengan kueri berbentuk Boolean.
TINJAUAN PUSTAKA
Information Retrieval (Temu-Kembali
Informasi)
Temu-kembali informasi berkaitan dengan merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR system), sehingga kueri tersebut akan merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan dengan kueri (Baeza-Yates & Ribeiro-Neto 1999).
Inverted Index
Inverted index adalah sebuah index yang
memetakan kembali term ke dalam bagian dari dokumen dimana term tersebut muncul (Manning et al. 2008). Inverted index dibangun untuk mempercepat pencarian term dalam koleksi dokumen. Ide dasar dari inverted index
dapat dilihat pada Gambar 1. Kumpulan dari
term yang unik disebut dictionary atau vocabulary. Untuk masing-masing term,
terdapat kumpulan dokumen dimana term tersebut muncul yang disebut posting list. Setiap entry dalam posting list dapat pula berisi lokasi term di dalam dokumen seperti kata, kalimat dan paragraf. Lalu setiap entry dapat juga berisi bobot untuk term di dalam dokumen. Bobot tersebut digunakan dalam perhitungan ukuran kesamaan dari kueri yang dimasukkan.
Gambar 1 Struktur inverted index Boolean Model
Boolean Model adalah model untuk
temu-kembali informasi yang memungkinkan input kueri yang berbentuk ekspresi Boolean dari
term yang merupakan kombinasi dari operator AND, OR, dan NOT (Manning et al 2008).
Model Booelan mempertimbangkan bahwa
index term muncul atau tidak di dalam
dokumen, sehingga index term diasumsikan memiliki bobot biner. Kueri yang dimasukkan dapat direpresentasikan menggunakan
Disjunctive Normal Form (DNF). Dimana
klausa AND dihubungkan dengan penghubung
OR. Pada model Boolean, kueri diproses sesuai
dengan operator yang digunakan dan menampilkan dokumen berdasarkan urutan dokumen ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan, karena tidak ada pencocokan sebagian antara kueri dengan dokumen.
Extended Boolean Model
Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean biasa. EBM menggabungkan karakateristik dari
Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri
dan dokumen (Salton et al 1983). Dengan cara ini dokumen mungkin sedikit relevan jika cocok dengan beberapa istilah kueri dan akan dikembalikan sebagai hasilnya. Ketika hanya dua term dalam kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap term digambarkan pada koordinat yang
berbeda. Untuk kueri AND titik (1,1) merepresentasikan dimana kedua term muncul dan merupakan titik yang paling diinginkan, sedangkan untuk kueri OR, titik (0,0) merepresentasikan dimana kedua term tidak muncul dan merupakan titik yang tidak diingikan. Jika hanya salah satu term yang muncul maka nilai ukuran kesamaan akan bernilai ⁄ untuk OR kueri dan ⁄ untuk AND kueri. Sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan persamaan berikut (Salton et al 1983):
√
( ) √ dengan , merupakan bobot term A dan bobot term B pada dokumen.
Gambar 2 Sebaran ukuran kesamaan EBM P-Norm Model
P-Norm Model memberikan gagasan untuk
memasukkan nilai p, yaitu nilai yang menunjukkan keketatatan pada operator. Nilai p berkisar dari satu sampai tak-hingga. Untuk
P-Norm Model ukuran kesamaan antara
dokumen dan kueri didefinisikan sebagai berikut: ( ) [ ] ⁄ ( ) [ ] ⁄ dengan
merupakan kueri term berbobot merupakan bobot term A dan term
B pada dokumen .
Belief Revision
Belief revision (BR) berkaitan dengan
akomodasi sebuah informasi baru ke dalam
knowledge base yang ada. Formalisasi logis
dari BR telah diteliti dalam filsafat, database dan kecerdasan buatan untuk desain agen rasional. Dalam temu-kembali informasi BR direpresentasikan dalam logika proposisi. Dalam BR, model dibangun dari interpretasi. Himpuan dari model dapat dituliskan sebagai
Mod( ) dimana adalah formula. Pseudocode
dari Belief Revision yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.
Gambar 3 Pseudocode Belief Revision BR menggunakan Symmetric difference antara dua interpretasi yang berbeda yaitu I dan
J. Ukuran dari jarak antar-interpretasi tersebut
dapat ditulis sebagai dist(I,J). Lalu jarak antara
Mod( ) dan I adalah:
Kita misalkan adalah kueri(q) dan I adalah model dokumen(md) dan k adalah jumlah term dalam kueri. Dokumen hanya mempunyai satu model(md), sedangkan kueri memiliki himpunan model(Mod(q)). Kita dapat menggunakan Dalal’s distance untuk model di atas.
Formula ini menggunakan jarak antara setiap model dari kueri (J) dan model dokumen (md), lalu dihitung kardinalitas dari masing-masing model kueri terhadap model dokumen. Langkah 1 sampai 10 pada Gambar 3 menunjukkan algoritme untuk formula di atas. Pertama akan ditetapkan nilai sama dengan nol. Lalu untuk masing-masing model dokumen ( ), ditetapkan nilai
sama dengan banyaknya kata unik dalam koleksi dokumen. Untuk masing-masing , dihitung nilai . Jarak dari klausa dokumen kepada kueri adalah jarak terdekat dari klausa dokumen ke klausa kueri. ( ) adalah kardinalitas dari { | } yaitu banyaknya term positif yang muncul dalam klausa satu dan negatif term pada klausa yang lain atau sebaliknya. | | merupakan banyaknya term dalam yang tidak termasuk dalam . Jika nilai maka nilai sama dengan nilai . Ulangi langkah 4 sampai tidak ada lagi yang tersisa. Update lalu ulangi langkah 2 sampai tidak ada lagi yang tersisa. Jarak rata-rata merupakan hasil bagi dengan banyaknya klausa . merupakan nilai terkecil untuk banyaknya term dalam klausa . Lalu dipilih kardinalitas terkecil sebagai jarak(distance).
Jarak (distance) dapat digunakan untuk menghitung ukuran kesamaan yang dinormalisasi dalam interval [0,1]. Langkah 11 menujukkan algoritme untuk formula di bawah.
Dari persamaan di atas diperoleh ukuran kesamaan (similarity measure) antara dokumen(d) dan kueri(q) dimana k adalah jumlah term yang muncul dalam kueri ( Losada and Barreiro 1999).
Pembobotan Tf-Idf
Term frequency (tf) merupakan frekuensi
kemunculan suatu term t pada dokumen d.
Document frequency (df) merupakan banyaknya dokumen di dalam korpus yang mengandung kata tertentu (Manning et al. 2008).
Pembobotan tf-idf memberikan bobot pada
term t dalam dokumen d dengan nilai:
dengan
merupakan frekuensi term t pada dokumen d
merupakan jumlah dokumen dalam koleksi
dft merupakan jumlah dokumen yang
Kesamaan antar kueri dan dokumen dapat ditentukan dengan menghitung cosine similarity dari vektor istilah kueri ⃗ ) dan
vektor istilah dokumen ( ⃗ ) (Manning et al. 2008):
⃗ ⃗ | ⃗ | | ⃗ |
dengan pembilang merupakan dot product (inner product) antara ⃗ dan ⃗ . Dot
Product antara dua vektor didefinisikan sebagai ∑ , sedangkan penyebut merupakan perkalian panjang Euclidean. Panjang Euclidean didefinisikan sebagai
√∑ ⃗
Dalam EBM bobot term dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi (Salton et al 1983). Normalisasi bobot tf-idf didapatkan dari persamaan berikut: dengan
merupakan bobot term i dalam dokumen j
merupakan frekuensi term i dalam dokumen j
merupakan frekuensi maksimum
term i dalam dokumen j
merupakan nilai idf dari term i dalam koleksi
merupakan nilai maksimum idf
term i dalam koleksi.
Evaluasi Temu-Kembali Informasi
Manning (2008) menyatakan, terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif adalah recall dan precision (R-P). Perhitungan recall-precision diformulasikan sebagai berikut:
Relevant Not Relevant
Retrieved Tp fp Not Retrieved Fn tn Precision = P = tp/(tp + fp) Recall = R = tp/(tp+fn)
Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average
Precision (AVP) diperlukan untuk menghitung
rata-rata tingkat precision pada berbagai tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:
̅( ) ∑
dimana, ̅( )adalah AVP pada level recall r,
Nq adalah jumlah kueri yang digunakan, dan
Pi(r) adalah precision pada level recall r untuk kueri ke-i.
METODE PENELITIAN
Penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan dokumen (korpus), pemrosesan dokumen, pemrosesan kueri, perhitungan ukuran kesamaan antara dokumen dengan kueri untuk P-Norm Model dan BeliefRevision, pemeringkatan dokumen dari hasil
perhitungan ukuran kesamaan dokumen-kueri dan evaluasi terhadap kinerja sistem. Secara umum gambaran sistem dapat dilihat pada Gambar 4.
Koleksi Dokumen
Dokumen yang digunakan sebagai dokumen pengujian adalah dokumen corpus yang berasal dari lab TKI hasil Penelitian Adisantoso & Ridha (2004). Dokumen yang berada di Lab TKI berjumlah 1000 dokumen pertanian dan 93 dokumen tanaman obat berasal dari Lab Computational Intelligence.
Pemrosesan Dokumen
Pada tahap ini dilakukan lowercasing terhadap dokumen, yaitu dengan mengubah semua huruf menjadi huruf non-capital agar menjadi case insensitive pada saat dilakukan pemrosesan teks dokumen. Selanjutnya dilakukan proses parsing yang merupakan proses memilah dokumen menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat (Ridha 2002). Dalam penelitian ini unit terkecil yang digunakan adalah kata yang terdiri minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords.
Stopwords adalah kata umum yang biasanya
muncul dalam jumlah yang besar dan dianggap tidak memiliki makna. Lalu dilakukan pembobotan pada term dengan pembobotan tf-idf dan tf-tf-idf yang sudah dinormalisasi.
Pemrosesan Kueri
Proses selanjutnya adalah melakukan pemrosesan terdapat kueri yang dimasukkan. Pemrosesan kueri sama halnya dengan pemrosesan dokumen. Kueri yang dimasukkan akan dilakukan lowercasing dan juga parsing. Pada pemrosesan kueri sedikit berbeda karena kueri yang dimasukkan mengandung operator
Boolean, sehingga perlu dipisahkan antara term
yang mengandung operator Boolean dengan
term yang bukan operator Boolean. Pemisahan
tersebut dilakukan untuk mengetahui jenis operator yang digunakan, sehingga memudahkan dalam perhitungan nilai ukuran kesamaan. Setelah pemrosesan kueri maka akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan.
Similarity Dokumen dengan Kueri
Pada perhitungan similarity antara dokumen dengan kueri untuk metode P-Norm
Model, dilakukan pengecekan apakah jenis
operator Boolean yang digunakan. Perhitungan ukuran kesamaan akan dilakukan sesuai dengan jenis operator yang dimasukkan, sedangkan
untuk Belief Revision, kueri direpresentasikan sebagai formula proposisi. Dalam formula proposisi dokumen dan kueri harus dalam bentuk Disjunctive Normal Form (DNF). DNF mempunyai bentuk: , dengan masing-masing adalah klausa yang dihubungkan dengan operator AND.
Perhitungan nilai kesamaan Belief Revision dilakukan dengan membandingkan model kueri dengan model dokumen.
Pemeringkatan Dokumen
Pemeringkatan dokumen dilakukan setelah perhitungan nilai kesamaan antara dokumen dengan kueri untuk P-Norm Model dan Belief
Revision. Pemeringkatan dokumen dilakukan
dengan mengurutkan dokumen yang dikembalikan sesuai dengan bobot yang diperoleh. Semakin besar bobot yang diperoleh maka peringkat dokumen yang dikembalikan akan semakin tinggi.
Evaluasi Hasil Temu-Kembali
Pengujian sistem dilakukan dengan perhitungan terhadap recall dan precision.
Recall adalah rasio dokumen relevan yang
ditemukembalikan. Precision adalah dokumen yang ditemukembalikan, dokumen tersebut relevan. Dalam perhitungan recall, digunakan
elevent standart recall yaitu 0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.7,0.8,0.9 dan 1.0. Perhitungan dilakukan untuk masing-masing metode.
Hasil perhitungan recall dan precision untunk masing-masing model akan dibandingkan dalam bentuk grafik
recall-precision, selain itu juga akan dihitung average precision dari masing-masing model untuk
memperoleh model yang baik untuk temu-kembali.
Asumsi
Asumsi-asumsi yang digunakan dalam pembangunan sistem ini adalah:
1. Tidak ada kesalahan dalam pengetikan kueri.
2. Setiap kata dalam kueri dipisahkan dengan operator AND dan OR.
3. Kueri ditulis dalam bentuk Disjuctive
Lingkungan Implementasi
Lingkungan implementasi yang akan digunakan adalah sebagai berikut:
Perangkat lunak:
Microsoft Windows 7 Profesional sebagai sistem operasi.
PHP sebagai bahasa pemrograman.
Netbeans IDE 6.9 sebagai IDE untuk pembangunan sistem.
Wamp Server Apache version 2.2.11 sebagai web server.
Notepad++.
Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem.
Perangkat keras:
Processor Intel Core 2 duo 2.2 GHz
RAM 2 GB
Hardisk 320GB
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat yang berasal dari Laboratorium Temu-Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.
Tabel 1 Deskripsi dokumen pengujian
Uraian Dokumen Pertanian Nilai (byte)
Ukuran keseluruhan dokumen 4.139.332 Ukuran rata-rata dokumen 4139 Ukuran dokumen terbesar 54.082 Ukuran dokumen terkecil 451
Uraian Dokumen Tanaman Obat
Nilai (byte)
Ukuran keseluruhan dokumen 297.796 Ukuran rata-rata dokumen 3202 Ukuran dokumen terbesar 13.628 Ukuran dokumen terkecil 928 Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen pertanian dapat dilihat pada Gambar
5, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 6.
Gambar 5 Contoh dokumen pertanian
Gambar 6 Contoh dokumen tanaman obat Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:
<DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.
<DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.
<DATE></DATE>, menunjukkan tanggal dari berita.
<AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.
<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.
<nama></nama>, tag ini menunjukkan nama dari tanaman obat.
<namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.
<DOC>
<DOCNO>balaipenelitian000000-001</DOCNO>
<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum
Gaertn.)… </TITLE>
<AUTHOR>Ireng Darwati Ireng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>
<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang
optimal diperlukan tanah yang sifat-sifat fisik dan
kesuburannya baik….</P> </TEXT> </DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili :
Crassulaceae. Nama Lokal : Cakar itek (Sunda);
</content>
<fam>Crassulaceae</fam> <penyakit>Kulit</penyakit>
<content></content>, tag ini mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.
<fam></fam>, tag ini menunjukkan nama family dari tanaman obat.
<penyakit></penyakit>, tag ini menunjukkan penyakit yang berkaitan dengan tanaman obat.
Pemrosesan Dokumen
Sebelum dilakukan proses pengindeksan koleksi dokumen terlebih dahulu dilakukan pembuangan tagging. Pembuangan tagging ini dilakukan karena tagging bukan merupakan penciri dari suatu dokumen. Gambar 7 menunjukkan format dokumen setelah dilakukan pembungan tagging.
Setelah proses pembuangan tagging lalu dilakukan parsing terhadap dokumen, kemudian dilakukan proses pembuangan
stopword, pembuangan tanda baca dan mengubah term ke lower case. Setelah itu dilakukan pembuatan inverted index dari masing-masing kata unik dan disimpan ke dalam file.
Pembobotan dilakukan untuk masing-masing dokumen dengan pembobotan Tf-Idf dan Tf-Idf yang sudah dinormalisasi. Hasil pembobotan juga disimpan ke dalam file.
Gambar 7 Format dokumen setelah dilakukan pembuangan tagging.
Pemrosesan Kueri
Kueri yang digunakan dalam penelitian ini berupa kueri yang berbentuk Boolean. Kata dalam kueri dipisahkan oleh operator AND dan
OR.
Dalam pemrosesan kueri yang pertama dilakukan adalah melakukan proses case
folding. Case folding adalah membuat huruf
pada teks menjadi kecil. Lalu dilakukan pengecekan apakan dalam kueri terdapat operator Boolean, jika ada maka kata akan
dijadikan index dalam array dengan nama ‘i_root’ selainnya kata akan dijadikan index dengan nama ‘i_term’ dan jika terdapat tanda kurung maka kata akan dijadikan index dengan nama ‘brackets’ dan akan dilakukan proses rekursif dalam memroses kueri tersebut. Contoh pemrosesan kueri, dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 8. Kueri ‘gagal AND panen’ sudah dalam DNF sehingga dapat diproses untuk mendapatkan ukuran kesamaan.
Gambar 8 Contoh pemrosesan kueri
Temu-Kembali dengan Boolean Model
Pada temu-kembali menggunakan Boolean
Model kueri yang dimasukkan mengandung
operator Boolean. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list dari
index ‘i_term’ tersebut dan dilakukan proses intersection. Jika operator adalah OR maka
akan dilakukan proses merge terhadap posting
list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari
kueri yang diberikan. Karena dalam Boolean
Model tidak ada pencocokan sebagian antara
dokumen dan kueri yang diberikan. Berikut adalah penggalan contoh hasil temu-kembali menggunakan Boolean Model dengan kueri ‘gagal AND panen’.
balaipenelitian000000-001 PRODUKTIVITAS SOM JAWA Ireng Darwati
Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik. Array ( [i_term] => Array ( [0] => gagal [1] => panen ) [i_root] => Array ( [0] => and ) ) Array ( [0] => gatra070203.txt [1] => gatra161002.txt [2] => gatra190802.txt [3] => gatra210704.txt [4] => gatra260803.txt [5] => gatra301002.txt [6] => indosiar031203.txt [7] => indosiar040903.txt [8] => indosiar050704-002.txt [9] => indosiar130104.txt )
Temu-Kembali dengan P-Norm Model
Pada temu-kembali menggunakan P-Norm
Model akan ditentukan nilai p yang akan
digunakan. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator adalah AND maka rumus yang digunakan adalah ( ) [ ] ⁄
Jika operator yang digunakan adalah OR maka persamaan yang digunakan adalah
( )
[ ]
⁄
dengan
merupakan kueri term berbobot
merupakan bobot term A dan term B pada dokumen
.
Pada P-Norm Model nilai p yang digunakan adalah 1, 2, 5 dan 9. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan
P-Norm Model untuk nilai p=9 dengan kueri
‘gagal AND panen’.
Temu-Kembali dengan Belief Revision
Pada temu-kembali menggunakan Belief
Revision kueri yang dimasukkan harus dalam
bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief
Revision.
Pada Gambar 9 literal merupakan himpunan kata unik dalam koleksi dokumen,
untuk model dokumen, untuk model kueri. Terdapat dua model dokumen dan dua model kueri. Hasil dari perhitungan similarity
menghasilkan nilai 1, hal tersebut karena kueri yang dimasukkan dapat dipenuhi oleh model dokumen. Pada penelitian ini dokumen hanya mempunyai satu model sedangkan kueri memiliki satu atau lebih model. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan Belief Revision pada dokumen pertanian dengan kueri ‘gagal AND panen’.
Gambar 9 Contoh perhitungan algoritma
Belief Revision Array ( [kompas030704.txt]=> 0.19519 [indosiar140204.txt]=> 0.12138 [republika060804-001.txt]=>0.09549 [situshijau280404-002.txt] =>0.08724 [gatra301002.txt] => 0.08230 [indosiar040903.txt] => 0.08230 [gatra190902-02.txt] => 0.08055 [indosiar240703.txt] => 0.08055 [indosiar260803-001.txt] => 0.0776 [suarapembaruan260703-002.txt] => 0.07699 ) Array( [republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1)
Evaluasi Sistem Temu-Kembali Informasi
Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen dan kueri uji yang berbeda.
1. Pengujian pada Dokumen Pertanian
Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan
P-Norm Model untuk dokumen pertanian terdapat
pada Lampiran 4.
Perbandingan kinerja Belief Revision
dengan P-Norm Model
Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat
pada Tabel 2. Lalu untuk ilustrasi perbandingan kinerja Belief Revision dengan P-Norm dapat dilihat pada Gambar 10.
Tabel 2 Nilai AVP BR dengan P-Norm Model pada dokumen pertanian
Metode AVP
Belief Revision 0.5490
P-Norm Model 0.5489 Pada Tabel 2 dapat dilihat bahwa Belief
Revision mendapat nilai AVP sebesar 0.5490.
Sedangkan P-Norm medapat nilai AVP sebesar 0.5489. Dapat dilihat bahwa Belief Revision mendapat nilai AVP yang lebih besar dari
P-Norm yaitu dengan selisih sebesar 0.0001.
Dengan menggunakan Belief Revision maka nilai AVP meningkat sebesar 0.01%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada
P-Norm Model dengan average precision sekitar
54%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 54% hasil temu-kembali relevan terhadap kueri.
Gambar 10 Grafik R-P kinerja BR dengan
P-Norm Model dokumen pertanian
2. Pengujian pada Dokumen Tanaman Obat
Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji berikut dokumen-dokumen yang relevan (Lampiran 3). Pengujian yang dilakukan sama seperti pengujian sebelumnya yaitu mendapatkan nilai
recall dan precision dari sistem. Perhitungan
AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 5.
Perbandingan kinerja Belief Revision
dengan P-Norm Model
Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat
pada Tabel 3. Pada Gambar 11 dapat dilihat perbandingan kinerja Belief Revision dengan
P-Norm Model.
Tabel 3 Nilai AVP BR dengan P-Norm Model pada dokumen tanaman obat
Metode AVP
Belief Revision 0.8128
P-Norm Model 0.8378 Pada Tabel 3 dapat dilihat bahwa Belief
Revision mendapat nilai AVP sebesar 81,28%.
Sedangkan P-Norm Model mendapat nilai AVP sebesar 83.78%. Dari data di atas dapat dilihat bahwa Belief Revision memiliki nilai AVP yang lebih besar dari P-Norm Model yaitu dengan selisih sebesar 2.5%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm
Model dengan average precision sekitar 83%.
Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 83% hasil temu-kembali relevan terhadap kueri.
Gambar 11 Grafik R-P kinerja BR dengan
KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian ini menunjukkan bahwa: 1. Belief Revision akan optimal untuk
dokumen yang homogen, sedangkan
P-Norm Model akan optimal untuk dokumen
yang kurang homogen.
2. Kinerja sistem yang didapatkan secara keseluruhan sudah cukup baik yaitu lebih dari 50%.
Saran
Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian ke depan seperti:
1. Menggunakan stemming untuk melihat pengaruh stemming terhadap kinerja Belief
Revision dan P-Norm Model.
2. Menggunakan dokumen uji yang lebih banyak dan beragam.
3. Menggunakan pembobotan dalam Belief
Revision.
Daftar Pustaka
Adisantoso J, Ridha A. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektifitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4, Departemen Ilmu Komputer FMIPA IPB, Bogor.
Baaeza-Yates R, Ribeiro B. 1999. Modern
Information Retrieval. Addison-Wesley,
New York.
Herdi H. 2010. Pembobotan dalam Proses
Pengindeksan Dokumen Bahasa Indonesia menggunakan Framework Indri [skripsi].
Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor.
Lee W C, Fox E A. 1988. Experimental
Comparation of Schemes for Interpreting Boolean Queries. TR-88-27, VPI&SU
Comp. Science Dept., September 1988, Blacksburg, VA.
Losada D E, Barreiro A. 1999. Using a Belief
Revision Operator for Document Ranking in Extended Boolean Models. In Proc. of SIGIR-99, the 22th ACM Conference on Research and Development in Information Retrieval, pages 66–73, Berkeley, California, August 1999.
Losada D E, Barreiro A. 2000. Implementing
Document Ranking within a Logical Framework. SPIRE 2000: 188-198.
Losada D E, Barreiro A. 2001. A Logical
Model for Information Retrieval Based on Propositional Logic and Belief Revision. Comput. J. 44(5): 410-424 (2001).
Manning C D, Raghavan P, Schutze H. 2009.
Introduction to Information Retrieval.
America, New York.
Ridha A. 2002. Pengindeksan Otomatis dengan
Istilah Tunggal untuk Dokumen Berbahasa Indonesia. [skripsi]. Bogor: Departemen
Ilmu Komputer, Institut Petanian Bogor. Salton G, Fox E, Wu H. 1983. Extended
Boolean Information Retrieval.
Communications of the ACM, 1983, 26(11): 1022-1036.
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Bencana kekeringan
gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002, situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.
Dukungan pemerintah pada pertanian
indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028, suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,
indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.
Gabah kering giling
indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104.
Gagal panen/puso gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika030903-002, republika060804-001, republika080703, republika090804-01, republika120804-04, republika130704-001, republika130804-02, republika200603, republika230704-005, republika260604-003, situshijau091203-002, situshijau100603-003, situshijau110303-002, situshijau280404-002, suarakarya000000-002-02, suarakarya000000-011, suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002.
Lanjutan Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Impor beras indonesia
gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001, republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903
Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
Institut pertanian bogor
gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001, kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-002, republika110604-002, republika140704-002, republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001
Kelangkaan pupuk
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101
Kelompok masyarakat tani/kelompok tani
bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103
Laboratorium pertanian
balaipenelitian000000-010, gatra100203, indobic130504-002, indosiar010704, jurnal000000-027, kompas220801, kompas241203, kompas300502-002, mediaindonesia290903-002, republika050804-007, republika120704-005, republika230704-004, republika300604-002, situshijau040603, situshijau051103-02, situshijau100603-001, situshijau140503-001-01, situshijau150403-002, situshijau180603-003, suarakarya000000-003, suaramerdeka031101
Lanjutan Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Musim panen
gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001, mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika060804-001, republika060804-003, republika100704-003, republika151202, republika171102, republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002
Pembangu nan untuk sektor pertanian
gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003, republika150903, republika190803, republika251002-republika150604-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303 Penerapan bioteknolo gi di indonesia/ penerapan bioteknolo gi/biotekn ologi di indonesia
jurnal000000-018, kompas121099, puslitbang000000-001, republika220604-003, republika290704-002, situshijau000000-002, situshijau030603-001, situshijau040603, situshijau050703-001, 001, situshijau070103-002, situshijau070103-003, situshijau100603-002, situshijau100603-003, situshijau110303-002, situshijau130103-001, situshijau130503-001, situshijau130503-002, situshijau140103-002, situshijau140103-003, situshijau140503-001-01, situshijau140903-001, situshijau150403-001, situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-003, situshijau200103-001, situshijau210103-003, situshijau210503-001, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-02, suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No, suarapembaruan151102, wartapenelitian000000-009 harga komoditas pertanian indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304,jur nal000000-022,jurnal000000-027,kompas 170402,kompas030502- 001,kompas030502-002,kompas080702,kompas100399,kompas101004,kompas111099,kompas140802, kompas160304,kompas170104,kompas171002,kompas180502,kompas180504,kom pas230603,kompas250901,kompas270203-001,kompas270401,kompas270502-001,kompas280602,kompas311203,mediaindonesia060803,mediaindonesia310503, pikiranrakyat240404,pikiranrakyat300604,poskota000000-002,poskota000000- 003,republika030804-002,republika060503,republika060804-001,republika060804- 003,republika061102,republika090902,republika140704-004,situshijau050703- 002,situshijau070503,situshijau130203-002,situshijau240203- 002,situshijau280203,situshijau280404-001,situshijau280404-002,situshijau280404- 003,suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-001,suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,suarapemb aruan220403,trubus000004,wartapenelitian000000-002
Lanjutan Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Penerapan teknologi pertanian
indosiar250204-001, 001, 011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009
Penyakit hewan ternak/penyakit ternak
gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01 Penyuluhan pertanian bitraindonesia000000-001, gatra190902-02, indosiar310504,
jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007
Perdagangan hasil pertanian
gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006
Pertanian organik/sistem pertanian organik
indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303, situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702
Petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901, kompas310702, republika010704-003, republika020804, republika100902, republika140704-004, republika150604-002, republika200704-001, republika220604-002, republika280704-002, republika310704-001, situshijau280203, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
Lanjutan Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Peternak unggas/peternak ayam/peternak burung
gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802 Produk usaha peternakan
rakyat/produk peternakan
jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102
Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008
Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001, 008, 015, 018, jurnal000000-019, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang000000-001, republika030903-002, republika070604-002, republika100704-002, republika140104, republika170604-001, republika190604-001, republika190604-002, republika210704-001, republika210704-003, republika220604-003, republika241203, republika260803, republika280703, republika300604-003, situshijau040603, situshijau070503, situshijau080503-001, situshijau091203-003, situshijau101103-004, situshijau130103-001, situshijau130503-002, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau150403-002, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau200103-001-No, situshijau201003-002, situshijau210103-003, situshijau210503-001, situshijau250203, situshijau270303-004, situshijau290503-001, situshijau300403, situshijau310303, suarakarya000000-001-02, suarakarya000000-010, suarakarya000000-019, suarakarya000000-027, suarakarya000000-034, suarakarya000000-037, suaramerdeka270601, suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602, suarapembaruan110702, suarapembaruan110702-01, suarapembaruan151102, suarapembaruan160702, suarapembaruan241003, suarapembaruan290802-001, wartapenelitian000000-007, wartapenelitian000000-009
Lanjutan Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Swasembada pangan indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899, kompas270203-001, kompas270401, kompas270502-002, mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005, republika220604-003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, 001-02, 002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan110903, suarapembaruan221102
Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004
Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003, republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001
Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002
Upaya peningkatan pendapatan petani/peningkatan pendapatan petani
indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003, kompas100399, kompas170903, kompas200802, kompas210502, kompas260702, kompas270203-001, kompas300402, kompas300502-002, pembaruan110903, poskota110703, republika030804-002, republika030903-001, republika060804-001, republika060804-003, republika230404, republika231202-001, republika231202-002, republika240604-005, republika241203, republika281202, republika300704-002, situshijau140503-001, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau280203, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602, suarapembaruan290802-001, wartapenelitian000000-005
Lampiran 3 Gugus kueri dan jawaban untuk dokumen tanaman obat
Kueri Gugus Jawaban
pencernaan 001,002,004,018,019,022,032,036,048,049,051,053,054,076,078,088,089,073 nyeri radang demam 003,008,016,021,029,031,033,038,039,043,046,056,062,063,066,077,081,084,085 ,086 kulit 005,017,026,035,041,058,067,070,072,091 perawatan 006,007,011,012,013,019,023,028,030,034,037,044,047,055,061,064,059,068,069 ,071,073,074,075,079,087,093 saluran kemih 009,025,042,057,080,090 pernapasan 010,040,045,024,060 kronis 014,015,020,027,052,065,082,083,092 gangguan pencernaan 004,073,022,033,049,053,063,074,076,081,088,001,002,006,007,018,023,032,050 diabetes mellitus 004,073,018,027,032,050,074,080,082,001,014,022,049,053,054,065 batuk rejan 010,024,040,045,060,035 kencing manis 004,020,027,052,065,073,074,076,080,082,083,084,090,092,025,057,042 muntah darah 034,047,064,087,072,024,029,033,035,039,040,045,060,063,081 masuk angin 007,018,032,042,050,054,006,023,055,074,076,079
Lampiran 4 Hasil perhitungan precision pada elevent standart recall untuk dokumen pertanian
Recall
Precision
Belief Revision P-Norm Model
0 0.6986 0.8646 0.1 0.6450 0.6595 0.2 0.5967 0.5931 0.3 0.5377 0.5332 0.4 0.5241 0.5115 0.5 0.5061 0.4985 0.6 0.5061 0.4819 0.7 0.5061 0.4759 0.8 0.5061 0.4759 0.9 0.5061 0.4718 1 0.4895 0.4718 Average Precision 0.5490 0.5489
Lampiran 5 Hasil perhitungan precision pada elevent standart recall untuk dokumen tanaman obat
Recall
Precision
Belief Revision P-Norm Model
0 0.9031 0.9416 0.1 0.8602 0.9416 0.2 0.8333 0.9192 0.3 0.8333 0.9143 0.4 0.8272 0.8945 0.5 0.8071 0.8752 0.6 0.8071 0.8336 0.7 0.8068 0.7904 0.8 0.8068 0.7578 0.9 0.7287 0.6841 1 0.7275 0.6634 Average Precision 0.8128 0.8378
Penguji:
1. Ahmad Ridha, S.Kom, M.S 2. Dr. Yeni Herdiyeni, S.Si, M.Kom