PENGGUNAAN OPERATOR
BELIEF REVISION
PADA TEMU
KEMBALI DOKUMEN BAHASA INDONESIA
MODEL
BOOLEAN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
PENGGUNAAN OPERATOR
BELIEF REVISION
PADA TEMU
KEMBALI DOKUMEN BAHASA INDONESIA
MODEL
BOOLEAN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
MERISKA DEFRIANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
ABSTRACT
MERISKA DEFRIANI. Application of Belief Revision Operator on Boolean Model Retrieval of Indonesian Documents. Supervised by JULIO ADISANTOSO.
Retrieval results of conventional Boolean Model are based only on the exact matching between document and query without ranking. Extended Boolean Model has developed a search process using partial matching and ranking, but it is difficult to be applied for complex queries structures. Belief Revision model was introduced to improve the information retrieved by Boolean Models. The objective of this research is to implement Extended Boolean Model (EBM) and Belief Revision (BR) to rank Indonesian documents. Query and document are weighted in binary. Then, the similarity is calculated to obtain the rank. Information retrieved using EBM equals to BR with average precision of 0.5148.
NRP : G64080048
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom. NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001
PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa-ta'ala atas segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Penggunaan Operator Belief Revision pada Temu Kembali Dokumen Bahasa Indonesia Model Boolean. Penelitian ini dilaksanakan mulai Oktober 2011 sampai dengan Maret 2012 dan bertempat di Departemen Ilmu Komputer Institut Pertanian Bogor.
Penulis juga menyampaikan terima kasih kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, yaitu:
1 Ayahanda Darminto, Ibunda Rustini, serta kakakku Wenny Yuniaris yang selalu memberikan kasih sayang, semangat, dan doa.
2 Bapak Ir. Julio Adisantoso, M.Kom selaku pembimbing yang selalu memberikan ide dan semangat serta bersedia mendengarkan keluh kesah penulis selama pengerjaan penelitian ini.
3 Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom yang telah bersedia menjadi penguji.
4 Mohamad Firman yang selalu menemani dan memberikan semangat.
5 Teman-teman satu bimbingan Anita, Fania, Zhia, Iki, Aga, Mey, Nofel, Susi, dan Uty semoga cepat menyusul.
6 Rekan-rekan Ilkomerz 45 atas segala kebersamaan, canda tawa, dan kenangan indah yang telah mengisi kehidupan penulis selama di kampus.
Terakhir, penulis berharap penelitian ini dapat memberikan manfaat.
Bogor, Mei 2012
Negeri 3 Malang. Pada tahun yang sama, penulis diterima menjadi mahasiswa di Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB. Penulis menjadi mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
v
DAFTAR ISI
Halaman
DAFTAR TABEL ... vi
DAFTAR GAMBAR ... vi
DAFTAR LAMPIRAN ... vi
PENDAHULUAN ... 1
Latar Belakang ... 1
Tujuan Penelitian ... 1
Ruang Lingkup Penelitian ... 1
METODE PENELITIAN ... 1
Koleksi Dokumen ... 1
Pemrosesan Dokumen ... 1
Pemrosesan Kueri ... 2
Ukuran Kesamaan pada Extended Boolean Model ... 2
Ukuran Kesamaan pada Belief Revision ... 3
Pemeringkatan Dokumen ... 4
Evaluasi Hasil Temu kembali ... 4
Lingkungan Implementasi ... 4
HASIL DAN PEMBAHASAN ... 4
Koleksi Dokumen Pengujian ... 4
Pemrosesan Dokumen ... 5
Pemrosesan Kueri ... 5
Temu Kembali dengan Boolean Model ... 5
Temu Kembali dengan Extended Boolean Model... 6
Temu Kembali dengan Belief Revision ... 6
Evaluasi Sistem Temu Kembali ... 7
KESIMPULAN DAN SARAN ... 8
Kesimpulan ... 8
Saran ... 8
DAFTAR PUSTAKA ... 8
vi
2 Deskripsi dokumen pengujian ... 4
3 Nilai AVP BR1 dan BR2 ... 7
DAFTAR GAMBAR
Halaman 1 Gambaran umum sistem ... 22 Sebaran ukuran kesamaan EBM ... 3
3 Pseudocode Belief Revision ... 3
4 Contoh dokumen pertanian ... 5
5 Format dokumen setelah dilakukan pembuangan tagging ... 5
6 Contoh pemrosesan kueri ... 5
7 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan Boolean Model ... 6
8 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan EBM ... 6
9 Contoh perhitungan algoritma Belief Revision ... 6
10 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan BR ... 6
11 Grafik R-P perbandingan kinerja BR1 dan BR2 ... 7
DAFTAR LAMPIRAN
Halaman 1 Antarmuka implementasi... 102 Gugus kueri dan jawaban untuk dokumen pertanian ... 11
3 Hasil perhitungan precision pada eleven standard recall ... 17
4 Hasil perhitungan precision pada eleven standardrecall berbagai kueri Belief Revision (1) ... 18
1
PENDAHULUAN
Latar BelakangTemu kembali informasi model Boolean
merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT
(Manning et al. 2008). Dokumen yang dikembalikan merupakan hasil pencocokan secara tepat sama dengan kueri. Model
Boolean ini masih diperlukan dalam pencarian dokumen dengan menggunakan
search engine karena ekspresi Boolean lebih mirip dengan bahasa alami sehingga mampu merepresentasikan keinginan pengguna dengan lebih baik.
Model Boolean menghasilkan sekumpulan dokumen yang cocok tanpa adanya pemeringkatan. Salton et al. (1983) memperkenalkan Extended Boolean Model
(EBM) yang juga dikenal sebagai P-Norm Model untuk mengatasi kelemahan tersebut. Penelitian mengenai P-Norm Model pernah dilakukan oleh Lee dan Fox (1988), yaitu membandingkan P-Norm Model dengan
Mixed Min and Max Model (MMM) dan
Paice Model. Hasil penelitian tersebut menunjukkan bahwa P-Norm Model
mendapatkan nilai average precision yang paling baik. P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan yang berbanding lurus dengan nilai keketatan (p) pada operator Boolean. Namun, untuk struktur kueri yang kompleks, EBM sulit diterapkan sehingga model tersebut disempurnakan dengan menggunakan Belief Revision (BR).
BR merupakan logical framework yang dokumen dan kuerinya direpresentasikan dengan formula proposisi. Losada dan Barreiro (1999) melakukan penelitian menggunakan BR untuk pemeringkatan dokumen dalam EBM. Penelitian tersebut membandingkan BR dengan P-Norm Model
dengan nilai p=1 dan bobot biner untuk kueri dan dokumen. Hasil dari penelitian tersebut menunjukan bahwa BR memiliki kesamaan dengan P-Norm Model dengan nilai p=1. Selain itu, Putra (2011) membandingkan BR dengan P-Norm Model dengan nilai p=1, 2, 5, dan 9 untuk dokumen berbahasa Indonesia. Penelitian tersebut menggunakan rumus pendekatan hasil penelitian Losada (2001) dalam perhitungan jarak antara kueri dan dokumen. Nilai AVP yang diperoleh untuk
BR dan P-Norm Model pada dokumen pertanian, yaitu 0.5490 dan 0.5489, sedangkan pada tanaman obat 0.8128 dan 0.8378. Namun, penelitian-penelitian tersebut belum diimplementasikan secara keseluruhan sampai diperoleh nilai ukuran kesamaan (similarity measure) yang digunakan untuk pemeringkatan dokumen pada model
Boolean. Oleh karena itu, penelitian kali ini akan mengimplementasikan BR secara keseluruhan dengan menggunakan kombinasi kueri dan dokumen dalam perhitungan jarak. Selain itu, dibandingkan juga hasil pemeringkatan antara BR dan EBM.
Tujuan Penelitian
Tujuan dari penelitian ini ialah mengimplementasikan Extended Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia. Ruang Lingkup Penelitian
Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia, sedangkan kueri yang digunakan diperoleh dari Putra (2011) tanpa menggunakan operator Boolean NOT.
METODE PENELITIAN
Penelitian ini dilaksanakan dalam empat tahapan, yaitu: (1) pengumpulan dokumen (korpus) dan pemrosesan dokumen, (2) pemrosesan kueri, (3) perhitungan ukuran kesamaan antara dokumen dengan kueri untuk EBM dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri, dan (4) evaluasi hasil temu kembali. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1.Koleksi Dokumen
Dokumen yang digunakan sebagai pengujian ialah korpus yang tersedia di Laboratorium Temu Kembali Informasi hasil Penelitian Adisantoso dan Ridha (2004). Dokumen tersebut merupakan dokumen pertanian yang berjumlah 1000 dokumen.
Pemrosesan Dokumen
Pada tahap ini, dilakukan lowercasing
terhadap dokumen, yaitu mengubah seluruh huruf menjadi huruf nonkapital agar bersifat
Gambar 1 Gambaran umum sistem.
dilakukan proses parsing, yaitu proses memilah dokumen menjadi unit-unit yang lebih kecil seperti kata, frasa, atau kalimat (Ridha 2002). Dalam penelitian ini, unit terkecil yang digunakan ialah kata yang terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen ini dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords, yaitu kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna seperti kata dan, pada, dan yang. Setelah itu, dilakukan pembobotan pada term. Berdasarkan pembobotannya terdapat dua model temu kembali, yaitu temu kembali
Boolean dan Vector Space Model.
Temu kembali model Boolean merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT (Manning et al. 2008). Model Boolean hanya mempertimbangkan kemunculan index term
sehingga index term diasumsikan memiliki bobot biner, yaitu bernilai 0 atau 1. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form
(DNF). Klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan hasilnya ditampilkan berdasarkan urutan dokumen yang
ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan karena mengunakan pencocokan tepat sama dengan kueri. Sementara itu, pada temu kembali Vector Space Model bobot yang digunakan diperoleh dari jumlah kemunculan term pada dokumen dan jumlah dokumen yang mengandung term
tersebut. Kueri diproses tanpa operator
Boolean dan hasilnya ditampilkan berdasarkan nilai ukuran kesamaan. Dokumen yang dikembalikan cenderung lebih mencerminkan relevansi terhadap kueri.
Pemrosesan Kueri
Pemrosesan pada tahap ini sama halnya dengan pemrosesan dokumen, yaitu dilakukan lowercasing dan parsing. Namun
parsing pada tahap ini sedikit berbeda karena kueri yang dimasukkan mengandung operator
Boolean sehingga perlu dipisahkan antara
term operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan untuk mempermudah perhitungan nilai ukuran kesamaan. Setelah itu, akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pada penelitian ini pembobotan yang digunakan sesuai dengan model temu kembalinya, yaitu pembobotan biner.
Ukuran Kesamaan pada Extended Boolean Model
Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean
biasa. EBM menggabungkan karakteristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al. 1983). Dengan cara ini, tingkat relevansi suatu dokumen yang cocok dan dikembalikan dapat menjadi lebih tinggi. Apabila hanya dua kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap
term digambarkan pada koordinat yang berbeda. Titik (1,1) pada kueri AND merepresentasikan kemunculan kedua term, sedangkan titik (0,0) pada kueri OR merepresentasikan ketidakmunculan kedua
term. Jika hanya salah satu term yang muncul, maka nilai ukuran kesamaan akan bernilai 1⁄√2 untuk kueri OR dan 1-1⁄√2 untuk kueri AND, sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan Inverted Index Query (q) Dokumen (d) Inverted Term Evaluation Tahap 1 Tahap 2
Tahap 3
Tahap 4 Doc Ranking Similarity(di,q)
EBM
Similarity(di,q) Belief Revision
3
persamaan berikut (Salton et al. 1983):
sim(D,Q(A or B)) = �dA
2+d B 2
2 (1)
sim(D,Q(A and B))=1-�(1 - dA)
2 + (1 - dB)2
2 (2)
dengan dA, dB merupakan bobot biner term A
dan bobot biner term B pada dokumen (Putra 2011).
Gambar 2 Sebaran ukuran kesamaan EBM.
Ukuran Kesamaan pada Belief Revision
Belief Revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam
knowledge base yang ada. Dalam temu kembali informasi, BR direpresentasikan dalam logika proposisi. Dokumen dan kueri memiliki model yang dibangun dari interpretasi. Interpretasi merupakan sebuah fungsi yang memetakan alfabet dalam logika proposisi ke bentuk himpunan. Pseudocode
dari BR yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.
BR menggunakan symmetric difference
antara dua interpretasi yang berbeda yaitu I
dan J. Ukuran jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J) sehingga jarak antara himpunan model (Mod(ψ)) dan I ialah:
dist(Mod(ψ),md) =minj∈Mod(q) dist(J,md))
Algorithm BRsim:
Function Similarityψ,μ Input : query ψ= ψ1,ψ2,… document μ= μ Output : BRsimμ,ψ
1. Distance=0; 2. Distance_to_ψ = S
3. Extract a newm, model ofψ
4. ComputeCDistLITm,μ
5. if CDistLITm,μ<Distance_to_ψ
then Distance_to_ψ=CDistLITm,μ
6.go to step 3 until no moreψmodelsremain
7. Distance=Distance_to_ψ 8. return(1 - Distance/k )
Gambar 3 Pseudocode Belief Revision.
Kueri (q) dilambangkan dengan ψ dan I
adalah model dokumen (md). Dokumen hanya mempunyai satu model, sedangkan kueri memiliki himpunan model (Mod(ψ)). Untuk model tersebut, digunakan Dalal’s
distance sebagai berikut:
dist(Mod(ψ),I)=minj∈Mod(ψ)dist(J,I))
Formula ini menggunakan jarak antara setiap model antara kueri (J) dan model dokumen (md), lalu dihitung kardinalitas dari masing-masing model kueri terhadap model dokumen. Langkah 1 sampai 7 pada Gambar 3 menunjukkan algoritme untuk mendapatkan ukuran jarak dari formula
Dalal’s distance.
Langkah pertama, nilai Distance
ditetapkan sama dengan nol, kemudian untuk masing-masing model kueri (m), ditetapkan nilai Distance_to_ψ sama dengan banyaknya kata unik (S) dalam koleksi dokumen. Untuk masing-masing m, dihitung nilai d. Jarak dari klausa dokumen ke kueri adalah jarak terdekat dari klausa dokumen ke klausa kueri.
CDist(LIT(m),μ )adalah banyaknya term
positif yang muncul dalam klausa satu (LIT(m)) dan term negatif pada klausa lain (μ) atau sebaliknya. Jika nilai
CDist(LIT(m),μ )<Distance_to_ψ maka nilai
Distance_to_ψ sama dengan nilai
CDist(LIT(m),μ ), sehingga Distance_to_ψ merupakan jarak terkecil dari model kueri ke setiap dokumen.
Langkah-langkah tersebut (Langkah 3 sampai Langkah 5 pada Gambar 3) diulang sampai tidak ada lagi model ψ yang tersisa. Setelah itu, nilai Distance sama dengan
Jarak (Distance) tersebut digunakan untuk menghitung ukuran kesamaan yang dinormalisasi dalam interval [0,1] (Langkah 8 pada Gambar 3) dengan k merupakan banyaknya term yang terdapat dalam klausa
ψ. Rumusan tersebut diformulasikan sebagai berikut:
BRsim(d,q)=1 - distance(d,q)
k
Ukuran kesamaan (similarity measure) antara dokumen (d) dan kueri (q) dari persamaan di atas diperoleh dengan k adalah jumlah term yang muncul dalam kueri (Losada & Barreiro 1999 dalam Putra 2011).
Pemeringkatan Dokumen
Pemeringkatan dokumen dilakukan setelah perhitungan nilai kesamaan antara dokumen dengan kueri untuk EBM dan BR. Pemeringkatan dokumen yang dikembalikan sesuai dengan nilai kesamaan yang diperoleh. Semakin besar nilai kesamaan yang diperoleh, peringkat dokumen yang dikembalikan akan semakin tinggi.
Evaluasi Hasil Temu kembali
Manning (2008) menyatakan bahwa terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu kembali secara efektif, yaitu recall dan
precision (R-P). Perhitungan recall-precision
diformulasikan berdasarkan Tabel 1.
Tabel 1 Confusion matrix
Relevant Not Relevant Retrieved tp fp
Not Retrieved fn tn dengan demikian, R-P didefinisikan sebagai
Precision= P= (tptp+fp)
Recall= R= tp (tp+fn)
Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) dengan interpolasi maksimum diperlukan untuk menghitung rata-rata precision pada berbagai tingkat
recall, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:
P
��rj�=∑ Pi(r)
Nq
Nq
i=1
dengan ��(rj) adalah AVP pada level recallr,
Nq adalah jumlah kueri yang digunakan, dan
Pi(r) adalah precision pada level recall r
untuk kueri ke-i.
Lingkungan Implementasi
Lingkungan implementasi yang digunakan yaitu:
Perangkat lunak:
• Microsoft Windows 7 Profesional sebagai sistem operasi,
• PHP sebagai bahasa pemrograman,
• Xampp Server Apache version 2.5.8 sebagai web server,
• Notepad++, dan
• Microsoft Office 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi.
Perangkat Keras:
• Processor Intel Core 2 Duo 2.10 GHz, • RAM 2 GB, dan
• Hardisk 250 GB.
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 1000 dokumen pertanian yang ada di Laboratorium Temu Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2.
Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte)
Ukuran keseluruhan dokumen 4 139 332 Ukuran rata-rata dokumen 4 139 Ukuran dokumen terbesar 54 082
Ukuran dokumen terkecil 451
Dokumen yang digunakan dalam penelitian ini memiliki format plain text
dengan struktur XML. Struktur tulisan dokumen tersebut dapat dilihat pada Gambar 4.
Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:
5
• <DOCNO></DOCNO>, menunjukkan ID dari dokumen.
• <DATE></DATE>, menunjukkan tanggal dari berita.
• <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.
• <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.
Pemrosesan Dokumen
Proses awal sebelum dilakukannya pengindeksan ialah pembuangan tagging
karena tagging bukan merupakan penciri sebuah dokumen. Format dokumen setelah dilakukan pembuangan tagging dapat dilihat pada Gambar 5.
Proses selanjutnya ialah parsing
dokumen, pembuangan stopword dan tanda
baca, dan lowercasing. Setelah itu dilakukan pembuatan inverted index kata-kata unik dari masing-masing dokumen dan disimpan ke dalam satu file.
Pemrosesan Kueri
Kueri yang digunakan dalam penelitian ini merupakan kueri yang berbentuk Boolean. Kata-kata yang ada pada kueri dipisahkan oleh operator Boolean, yaitu AND atau OR.
Proses awal yang dilakukan ialah
lowercasing, yaitu mengubah seluruh huruf menjadi nonkapital. Setelah itu, dilakukan pengecekan operator Boolean dalam kueri. Apabila dalam kueri terdapat kata yang merupakan operator Boolean maka kata tersebut dijadikan index dan dimasukkan ke dalam array dengan nama ‘i_root’. Kata yang bukan merupakan operator Boolean dijadikan
index dan dimasukkan ke dalam array dengan nama ‘i_term’. Apabila terdapat tanda kurung maka kata dijadikan index dan dimasukkan ke dalam array dengan nama ‘brackets’. Pemrosesan kueri ini dilakukan secara rekursif. Contoh pemrosesan kueri dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 6.
Temu Kembali dengan Boolean Model
Pada temu kembali menggunakan Boolean Model, kueri yang dimasukkan mengandung operator Boolean. Kueri diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list
dari index ‘i_term’ tersebut dan dilakukan proses intersection. Jika operator yang digunakan adalah OR maka akan dilakukan proses merge terhadap posting list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari kueri yang diberikan. Hal tersebut disebabkan
Gambar 6 Contoh pemrosesan kueri.
Array (
[i_term] => Array (
[0] => gagal [1] => panen )
[i_root] => Array (
[0] => and )
)
balaipenelitian000000-001 PRODUKTIVITAS SOM JAWA Ireng Darwati
Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik.
<DOC>
<DOCNO>balaipenelitian000000-001</DOCNO>
<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum
Gaertn.)… </TITLE>
<AUTHOR>Ireng DarwatiIreng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>
<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang
optimaldiperlukan tanah yang
sifat-sifat fisik dan kesuburannya baik….</P> </TEXT>
</DOC>
Gambar 4 Contoh dokumen pertanian.
dalam Boolean Model tidak ada pencocokan sebagian antara dokumen dengan kueri yang diberikan (Putra 2011).
Gambar 7 merupakan contoh hasil temu kembali menggunakan Boolean Model
dengan kueri ‘gagal AND panen’.
Temu Kembali dengan Extended Boolean Model
Pada temu kembali menggunakan Extended Boolean Model, kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika menggunakan operator OR maka rumus yang digunakan ialah (1) dan (2).
Gambar 8 merupakan sepuluh teratas dokumen hasil temu kembali menggunakan
Extended Boolean Model dengan kueri ‘gagal AND panen’.
Temu Kembali dengan Belief Revision
Pada temu kembali menggunakan Belief Revision, kueri yang dimasukkan harus dalam bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief Revision.
P= {a,b,c,d}
d= (a ˄ b ˄ ¬c ˄ d ) q= (a ˄ b)
Algorithm BRsim-SC: Function Similarity(ψ,μ)
Input : query ψ= {ψ} document μ= {μ}
Output : BRsim(μ,ψ)
1. Distance=0; 2. Distance_to_ψ =4 3. m= {a,b}
4. LIT(m) = {a,b,¬c,¬d}, CDist(LIT(m),μ)= 0 5. Distance_to_ψ = 0
2. Distance_to_ψ =4 3. m= {a,b, c}
4. LIT(m)= {a,b,c,¬d}, CDist(LIT(m),μ)= 1 5. Distance_to_ψ = 0
2. Distance_to_ψ =4 3. m= {a,b,d}
4. LIT(m)= {a,b,¬c,d}, CDist(LIT(m),μ)= 0 5. Distance_to_ψ = 0
2. Distance_to_ψ =4 3. m= {a,b,c,d}
4. LIT(m)= {a,b,c,d}, CDist(LIT(m),μ)= 1 5. Distance_to_ψ = 0
7. Distance = 0 8. return(1 – 0/2 )
Literal P merupakan himpunan kata unik dalam koleksi dokumen, d untuk model dokumen, q untuk model kueri. Dokumen terdiri atas satu model sedangkan kueri terdiri atas empat model. Perhitungan terdiri atas empat iterasi. Pada setiap iterasi, dihitung Gambar 7 Contoh hasil temu kembali kueri
'gagal AND panen' dengan
Boolean Model.
Array (
[republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1
[kompas030704.txt] => 1 )
Array (
[0] => gatra070203.txt [1] => gatra161002.txt [2] => gatra190802.txt [3] => gatra210704.txt [4] => gatra260803.txt [5] => gatra301002.txt [6] => indosiar031203.txt [7] => indosiar040903.txt [8] => indosiar050704-002.txt [9] => indosiar130104.txt
)
Array (
[republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1
[kompas030704.txt] => 1
)
Gambar 8 Contoh hasil temu kembali kueri 'gagal AND panen' dengan EBM.
Gambar 9 Contoh perhitungan algoritma
Belief Revision.
7
jarak setiap dokumen dan model kueri. Jarak akhir antara kueri dengan dokumen adalah jarak yang terkecil diantara keempat iterasi tersebut, yaitu 0 sehingga hasil perhitungan ukuran kesamaannya menghasilkan nilai 1. Hal tersebut karena kueri yang dimasukkan
(a˄ b) dapat dipenuhi oleh model dokumen.
Gambar 10 merupakan sepuluh contoh teratas hasil temu kembali menggunakan
Belief Revision pada dokumen pertanian dengan kueri ‘gagal AND panen’.
Evaluasi Sistem Temu Kembali
Proses evaluasi sistem temu kembali (Lampiran 1) dalam penelitian ini dilakukan pada dokumen pertanian. Kueri yang digunakan ialah 30 kueri uji yang digunakan oleh Putra (2011). Kueri-kueri uji tersebut telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan
precision dari sistem.
Perbandingan Kinerja Extended Boolean
Model dengan Belief Revision
Belief Revision memiliki kinerja yang sama dengan Extended Boolean Model. Nilai AVP yang diperoleh dari kedua model tersebut yaitu 0.5148. Kesamaan nilai AVP tersebut menandakan bahwa nilai precision
pada setiap tingkat recall BR juga sama dengan EBM (Lampiran 3).
Perhitungan ukuran kesamaan model EBM yang menggunakan bobot biner menghasilkan nilai yang sama dengan
P-Norm Model dengan p=1. Perhitungan ukuran kesamaan dalam P-Norm Model
dengan p=1 menggunakan persamaan berikut (Salton et al. 1983):
sim�D,Qand�=
1-
�
a1�1 - dA1� + a2�1 - dA2� + … + an�1 - dAn�a1 + a2 + … + an
�
sim�D,Qor�=a1dA1+a2dA2+…+andAn a1+a2+…+an
dengan an adalah bobot term An pada kueri
dan dAnadalah bobot term Anpada dokumen.
Berdasarkan hasil penelitian Losada dan Barreiro (1999), P-Norm Model dengan p=1 memiliki kesamaan dengan BR.
Namun, untuk kueri yang lebih kompleks seperti ‘(petani AND tebu) OR (petani AND
gula) OR (gula AND negeri)’, terdapat perbedaan nilai AVP antara kedua model, yaitu BR lebih baik 0.1315 dibandingkan dengan EBM. Oleh karena itu, untuk kueri yang lebih kompleks dapat dikatakan bahwa BR memiliki kinerja yang lebih baik dibandingkan dengan EBM.
Perbandingan Kinerja Belief Revision terhadap Berbagai Jenis Kueri
Perbedaan Belief Revision (1) hasil penelitian Putra (2011) dengan Belief Revision (2) hasil penelitian ini terletak pada perbedaan proses perhitungan jarak antara kueri dengan dokumen.
Perbandingan kinerja Belief Revision (1)
dengan Belief Revision (2) dapat dilihat pada Tabel 3, sedangkan ilustrasi perbandingan kinerjanya dapat dilihat pada Gambar 11.
Tabel 3 Nilai AVP BR1 dan BR2
Metode AVP
Belief Revision (1) 0.4975 Belief Revision (2) 0.5148
Gambar 11 Grafik R-P perbandingan kinerja BR1 dan BR2.
Nilai precision pada setiap tingkat recall Belief Revision ini dapat dilihat pada Lampiran 4 dan Lampiran 5. Terdapat empat kueri yang nilai precision pada setiap tingkat
recall-nya berbeda, yaitu kueri yang menggunakan operator Boolean AND dan OR. Perbedaan tersebut disebabkan perbedaan proses perhitungan jarak.
Pada Belief Revision (1), perhitungan jarak kueri yang menggunakan operator
Boolean OR diperoleh dari jarak terkecil antara dokumen dengan setiap klausa kueri. Klausa tersebut merupakan conjunctive clause kueri yang dipisahkan oleh operator
nilainya lebih kecil dari jarak klausa ‘kelompok AND tani’. Akan tetapi, ketika nilai jarak tersebut dimasukkan ke dalam perhitungan ukuran kesamaan (similarity), hasil yang diperoleh tidak sama dengan nol. Hal tersebut menandakan bahwa dokumen relevan dengan kueri. sehingga dokumen yang tidak mengandung kata ‘kelompok’, ‘tani’, atau ‘gapoktan’ akan tetap ditemukembalikan. Keadaan itu akan memengaruhi nilai precision dan recall-nya.
Menurut Losada dan Barreiro (1999), perhitungan ukuran kesamaan (BRsim) kueri yang menggunakan operator Boolean OR sama dengan ukuran kesamaan (BRsim) kueri yang menggunakan operator Boolean AND.
Oleh karena itu, pada Belief Revision (2) perhitungan jarak kueri yang menggunakan operator Boolean OR sama dengan perhitungan jarak kueri yang menggunakan operator Boolean AND, yaitu jarak terkecil antara dokumen dan model kueri. Pada kueri ‘(kelompok AND tani) OR gapoktan’, nilai jarak diperoleh dari kardinalitas symmetric different terkecil antara dokumen dan setiap model kueri. Apabila dokumen tidak mengandung ketiga kata dalam kueri tersebut nilai ukuran kesamaannya akan sama dengan nol dan dokumen tidak akan ditemu-kembalikan.
KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian ini menunjukkan bahwa: 1 Telah diimplementasikan Extended
Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia.
2 Belief Revision memiliki kinerja yang sama dengan Extended Boolean Model. Nilai AVP yang dihasilkan yaitu 0.5148.
Saran
Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian selanjutnya, antara lain:
1 Mengembangkan sistem untuk kueri yang lebih kompleks.
2 Menggunakan dokumen uji yang lebih banyak dan beragam.
3 Menggunakan ekspansi kueri atau relevance feedback agar hasil temu kembali lebih optimal.
DAFTAR PUSTAKA
Adisantoso J, Ridha A. 2004. Corpus dokumen teks bahasa Indonesia untuk pengujian efektivitas temu kembali informasi. Laporan Akhir Hibah Penelitian SP4, Departemen Ilmu Komputer FMIPA IPB, Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. England: Addison Wesley.
Lee WC, Fox EA. 1988. Experimental comparation of schemes for interpreting boolean queries [TR-88-27]. Blacksburg, VA: Computer Science, Virginia Polytechnic Institute and State University. Losada DE, Barreiro A. 1999. Using a Belief Revision Operator for Document Ranking in Extended Boolean Models. Di dalam:
Proceedings of SIGIR-99 at the 22th ACM Conference on Research and Development in Information Retrieval; Berkeley, 15-19 Agu 1999. New York : ACM. Hlm 66-73.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval. Cambridge: Cambridge University Press. Putra DDP. 2011. Temu kembali Model
Extended Boolean menggunakan P-Norm Model dan Belief Revision [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Petanian Bogor.
Salton G, Fox E, Wu H. 1983. Extended boolean information retrieval.
Communications of the ACM
11
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Bencana kekeringan
gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001,
mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01,
republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002,
situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.
Dukungan pemerintah pada pertanian
indosiar070504, jurnal000000-026, kompas030401, kompas050303,
kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903,
poskota040804, republika100903, republika180303, republika210902,
republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028,
suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,
indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.
Gabah kering giling
indosiar180603, indosiar240703, indosiar300304, kompas 170402,
kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002,
republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104. Gagal panen gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504,
indosiar031203, indosiar040903, indosiar050704-002, indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603,
indosiar180304, indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika030903-002, republika060804-001, republika080703, republika090804-01, republika120804-04, republika130704-0republika090804-01, republika130804-02,
Lanjutan
Kueri Gugus Jawaban
Impor beras Indonesia
gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602,
kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104,
mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001,
republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001,
republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903
Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804,
republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01,
suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
Institut pertanian bogor
gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001,
kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-republika100604-002, republika110604-republika100604-002, republika140704-republika100604-002,
republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004,
situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001
Kelangkaan pupuk
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101 Kelompok
masyarakat tani
bitraindonesia000000-001, indosiar021203-002, jurnal000000-017,
kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103
Laboratorium pertanian
13
Lanjutan
Kueri Gugus Jawaban
Musim panen gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001,
mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, 001, republika060804-003, republika100704-republika060804-003, republika151202, republika171102,
republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002 Pembangunan
untuk sektor pertanian
gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003,
republika150903, republika190803, republika251002-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303
Penerapan bioteknologi di indonesia
jurnal000000-018, kompas121099, puslitbang000000-001, republika220604-003, republika290704-002, situshijau000000-002, situshijau030603-001, situshijau040603, situshijau050703-001, situshijau070103-001,
situshijau070103-002, situshijau070103-003, situshijau100603-002, situshijau100603-003, situshijau110303-002, situshijau130103-001, situshijau130503-001, situshijau130503-002, situshijau140103-002, situshijau140103-003, situshijau140503-001-01, situshijau140903-001, situshijau150403-001, situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-003, situshijau200103-001, situshijau210103-003, situshijau210503-001, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-02,
suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No, suarapembaruan151102, wartapenelitian000000-009
harga komoditas pertanian
indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304 ,jurnal000000-022,jurnal000000-027,kompas
170402,kompas030502-001,kompas030502-002,kompas080702,kompas100399,kompas101004, kompas111099,kompas140802,kompas160304,kompas170104,kompas171002, kompas180502,kompas180504,kompas230603,kompas250901,kompas270203-001,kompas270401,kompas270502-001,kompas280602,kompas311203, mediaindonesia060803,mediaindonesia310503,pikiranrakyat240404,
pikiranrakyat300604,poskota000000-002,poskota000000-003,republika030804-002,republika060503,republika060804-001,republika060804-003,
republika061102,republika090902,republika140704-004,situshijau050703-002, situshijau070503,situshijau130203-002,situshijau240203-002,situshijau280203, situshijau280404-001,situshijau280404-002,situshijau280404-003,
suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-001, suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,
Lanjutan
Kueri Gugus Jawaban
Penerapan teknologi pertanian
indosiar250204-001, 001, 011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099,
kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702,
wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009
Penyakit hewan ternak gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004,
republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01 Penyuluhan pertanian bitraindonesia000000-001, gatra190902-02, indosiar310504,
jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603,
poskota110703, republika030903-002, republika050804-001,
republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007
Perdagangan hasil pertanian
gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104,
mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202,
situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002,
wartapenelitian000000-006
Sistem pertanian organik indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303,
situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02,
suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702
Petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901, kompas310702, republika010704-003, republika020804,
15
Lanjutan
Kueri Gugus Jawaban
Peternak ayam gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003,
republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802 Produk usaha peternakan
rakyat
jurnal000000-003, kompas120101, kompas150201,
mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102
Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004,
situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702,
suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008
Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001, 008, 015, 018, jurnal000000-019, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang000000-001,
republika030903-002, republika070604-002, republika100704-002, republika140104, republika170604-001, republika190604-001, republika190604-002, republika210704-001, republika210704-003, republika220604-003, republika241203, republika260803,
republika280703, republika300604-003, situshijau040603, situshijau070503, situshijau080503-001, situshijau091203-003, situshijau101103-004, situshijau130103-001, situshijau130503-002, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau150403-002, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau200103-001-No, situshijau201003-002, situshijau210103-003, situshijau210503-001, situshijau250203,
situshijau270303-004, situshijau290503-001, situshijau300403, situshijau310303, suarakarya000000-001-02, suarakarya000000-010, suarakarya000000-019, suarakarya000000-027, suarakarya000000-034, suarakarya000000-037, suaramerdeka270601, suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602,
Lanjutan
Kueri Gugus Jawaban
Swasembada pangan indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899, kompas270203-001, kompas270401, kompas270502-002,
mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005,
republika220604-003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, 001-02, 002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001,
suarapembaruan110903, suarapembaruan221102
Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004
Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003,
republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503,
situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001
Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104,
mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004,
republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001,
situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002
Upaya peningkatan pendapatan petani/peningkatan pendapatan petani
indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003, kompas100399, kompas170903, kompas200802, kompas210502, kompas260702, kompas270203-001, kompas300402, kompas300502-002, pembaruan110903, poskota110703,
republika030804-002, republika030903-001, republika060804-001, republika060804-003, republika230404, republika231202-001, republika231202-002, republika240604-005, republika241203, republika281202, republika300704-002, situshijau140503-001, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau280203, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602, suarapembaruan290802-001,
17
Lampiran 3 Hasil perhitungan precision pada eleven standardrecall
Recall
Precision
Belief Revision Extended Boolean Model
0 0.7612 0.7612
0.1 0.5899 0.5899
0.2 0.5333 0.5333
0.3 0.4888 0.4888
0.4 0.4772 0.4772
0.5 0.4720 0.4720
0.6 0.4701 0.4701
0.7 0.4678 0.4678
0.8 0.4678 0.4678
0.9 0.4678 0.4678
1 0.4666 0.4666
Lampiran 4 Hasil perhitungan precision pada eleven standardrecall berbagai kueri Belief Revision (1)
Kueri Nilai precision pada eleven standard recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
bencana kekeringan 0.7917 0.7917 0.7917 0.7917 0.7917 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 dukungan pemerintah pada
pertanian 1.0000 0.7500 0.3478 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214
flu burung 1.0000 1.0000 1.0000 1.0000 1.0000 0.9500 0.9500 0.9500 0.9500 0.9500 0.9130
gabah kering giling 1.0000 0.7143 0.7143 0.5455 0.5455 0.5417 0.5417 0.5417 0.5417 0.5417 0.5417 gagal panen/puso 0.8667 0.8667 0.8667 0.7895 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 impor beras Indonesia 1.0000 0.4545 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 industri gula 0.2800 0.2800 0.2800 0.2800 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 institut pertanian bogor 1.0000 0.3571 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 kelangkaan pupuk 1.0000 1.0000 0.8750 0.8750 0.8750 0.8750 0.8750 0.8261 0.8261 0.8261 0.8261 Kelompok masyarakat
tani/kelompok tani 0.3636 0.3636 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 laboratorium pertanian 0.3000 0.3000 0.3000 0.2692 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667
musim panen 1.0000 0.5000 0.5000 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333
pembangunan untuk sektor
pertanian 0.6667 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481
Penerapan bioteknologi di
indonesia 1.0000 0.7143 0.6667 0.6500 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000
penerapan teknologi pertanian 1.0000 0.4444 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 Penyakit hewan ternak 1.0000 1.0000 1.0000 0.6667 0.6364 0.6364 0.5909 0.5909 0.5909 0.5909 0.5909 penyuluhan pertanian 1.0000 0.7143 0.6667 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 perdagangan hasil pertanian 1.0000 0.3636 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 sistem pertanian organic 0.6667 0.6667 0.6667 0.5333 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615
19
Lanjutan
Peternak ayam 1.0000 1.0000 1.0000 1.0000 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 Produk usaha peternakan
rakyat 0.2500 0.2500 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818
pupuk organic 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 riset pertanian 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 swasembada pangan 0.7826 0.7826 0.7826 0.7826 0.7826 0.7826 0.7692 0.7500 0.7500 0.7500 0.7500
tadah hujan 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517
tanaman obat 0.6667 0.5000 0.5000 0.4348 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231
tanaman pangan 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 Upaya peningkatan
Lampiran 5 Hasil perhitungan precision pada eleven standard recall berbagai kueri Belief Revision (2)
Kueri precision pada elevent standard recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
bencana kekeringan 0.7917 0.7917 0.7917 0.7917 0.7917 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 dukungan pemerintah pada
pertanian 1.0000 0.7500 0.3478 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214
flu burung 1.0000 1.0000 1.0000 1.0000 1.0000 0.9500 0.9500 0.9500 0.9500 0.9500 0.9130
gabah kering giling 1.0000 0.7143 0.7143 0.5455 0.5455 0.5417 0.5417 0.5417 0.5417 0.5417 0.5417
gagal panen 1.0000 0.8889 0.8667 0.7895 0.6552 0.6552 0.6552 0.6552 0.6552 0.6552 0.6552
impor beras Indonesia 1.0000 0.4545 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 industri gula 0.2800 0.2800 0.2800 0.2800 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 institut pertanian bogor 1.0000 0.3571 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 kelangkaan pupuk 1.0000 1.0000 0.8750 0.8750 0.8750 0.8750 0.8750 0.8261 0.8261 0.8261 0.8261 kelompok masyarakat tani 1.0000 0.5714 0.3684 0.3333 0.3333 0.3333 0.3333 0.3333 0.3333 0.3333 0.3333 laboratorium pertanian 0.3000 0.3000 0.3000 0.2692 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667
musim panen 1.0000 0.5000 0.5000 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333
pembangunan untuk sektor
pertanian 0.6667 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481
penerapan bioteknologi di
indonesia 1.0000 1.0000 0.9091 0.6500 0.6500 0.6500 0.6500 0.6500 0.6500 0.6500 0.6500
penerapan teknologi
pertanian 1.0000 0.4444 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000
penyakit hewan ternak 1.0000 1.0000 1.0000 0.6667 0.6364 0.6364 0.5909 0.5909 0.5909 0.5909 0.5909 penyuluhan pertanian 1.0000 0.7143 0.6667 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 perdagangan hasil pertanian 1.0000 0.3636 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 sistem pertanian organic 0.6667 0.6667 0.6667 0.5333 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615
21
Lanjutan
peternak ayam 1.0000 1.0000 1.0000 1.0000 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 produk usaha peternakan
rakyat 0.2500 0.2500 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818
pupuk organic 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 riset pertanian 1.0000 0.8889 0.5600 0.5357 0.5357 0.5357 0.5357 0.5357 0.5357 0.5357 0.5357 swasembada pangan 0.7826 0.7826 0.7826 0.7826 0.7826 0.7826 0.7692 0.7500 0.7500 0.7500 0.7500
tadah hujan 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517
tanaman obat 0.6667 0.5000 0.5000 0.4348 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231 tanaman pangan 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 upaya peningkatan
Penguji:
ABSTRACT
MERISKA DEFRIANI. Application of Belief Revision Operator on Boolean Model Retrieval of Indonesian Documents. Supervised by JULIO ADISANTOSO.
Retrieval results of conventional Boolean Model are based only on the exact matching between document and query without ranking. Extended Boolean Model has developed a search process using partial matching and ranking, but it is difficult to be applied for complex queries structures. Belief Revision model was introduced to improve the information retrieved by Boolean Models. The objective of this research is to implement Extended Boolean Model (EBM) and Belief Revision (BR) to rank Indonesian documents. Query and document are weighted in binary. Then, the similarity is calculated to obtain the rank. Information retrieved using EBM equals to BR with average precision of 0.5148.
PENDAHULUAN
Latar BelakangTemu kembali informasi model Boolean
merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT
(Manning et al. 2008). Dokumen yang dikembalikan merupakan hasil pencocokan secara tepat sama dengan kueri. Model
Boolean ini masih diperlukan dalam pencarian dokumen dengan menggunakan
search engine karena ekspresi Boolean lebih mirip dengan bahasa alami sehingga mampu merepresentasikan keinginan pengguna dengan lebih baik.
Model Boolean menghasilkan sekumpulan dokumen yang cocok tanpa adanya pemeringkatan. Salton et al. (1983) memperkenalkan Extended Boolean Model
(EBM) yang juga dikenal sebagai P-Norm Model untuk mengatasi kelemahan tersebut. Penelitian mengenai P-Norm Model pernah dilakukan oleh Lee dan Fox (1988), yaitu membandingkan P-Norm Model dengan
Mixed Min and Max Model (MMM) dan
Paice Model. Hasil penelitian tersebut menunjukkan bahwa P-Norm Model
mendapatkan nilai average precision yang paling baik. P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan yang berbanding lurus dengan nilai keketatan (p) pada operator Boolean. Namun, untuk struktur kueri yang kompleks, EBM sulit diterapkan sehingga model tersebut disempurnakan dengan menggunakan Belief Revision (BR).
BR merupakan logical framework yang dokumen dan kuerinya direpresentasikan dengan formula proposisi. Losada dan Barreiro (1999) melakukan penelitian menggunakan BR untuk pemeringkatan dokumen dalam EBM. Penelitian tersebut membandingkan BR dengan P-Norm Model
dengan nilai p=1 dan bobot biner untuk kueri dan dokumen. Hasil dari penelitian tersebut menunjukan bahwa BR memiliki kesamaan dengan P-Norm Model dengan nilai p=1. Selain itu, Putra (2011) membandingkan BR dengan P-Norm Model dengan nilai p=1, 2, 5, dan 9 untuk dokumen berbahasa Indonesia. Penelitian tersebut menggunakan rumus pendekatan hasil penelitian Losada (2001) dalam perhitungan jarak antara kueri dan dokumen. Nilai AVP yang diperoleh untuk
BR dan P-Norm Model pada dokumen pertanian, yaitu 0.5490 dan 0.5489, sedangkan pada tanaman obat 0.8128 dan 0.8378. Namun, penelitian-penelitian tersebut belum diimplementasikan secara keseluruhan sampai diperoleh nilai ukuran kesamaan (similarity measure) yang digunakan untuk pemeringkatan dokumen pada model
Boolean. Oleh karena itu, penelitian kali ini akan mengimplementasikan BR secara keseluruhan dengan menggunakan kombinasi kueri dan dokumen dalam perhitungan jarak. Selain itu, dibandingkan juga hasil pemeringkatan antara BR dan EBM.
Tujuan Penelitian
Tujuan dari penelitian ini ialah mengimplementasikan Extended Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia. Ruang Lingkup Penelitian
Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia, sedangkan kueri yang digunakan diperoleh dari Putra (2011) tanpa menggunakan operator Boolean NOT.
METODE PENELITIAN
Penelitian ini dilaksanakan dalam empat tahapan, yaitu: (1) pengumpulan dokumen (korpus) dan pemrosesan dokumen, (2) pemrosesan kueri, (3) perhitungan ukuran kesamaan antara dokumen dengan kueri untuk EBM dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri, dan (4) evaluasi hasil temu kembali. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1.Koleksi Dokumen
Dokumen yang digunakan sebagai pengujian ialah korpus yang tersedia di Laboratorium Temu Kembali Informasi hasil Penelitian Adisantoso dan Ridha (2004). Dokumen tersebut merupakan dokumen pertanian yang berjumlah 1000 dokumen.
Pemrosesan Dokumen
Pada tahap ini, dilakukan lowercasing
terhadap dokumen, yaitu mengubah seluruh huruf menjadi huruf nonkapital agar bersifat
2
Gambar 1 Gambaran umum sistem.
dilakukan proses parsing, yaitu proses memilah dokumen menjadi unit-unit yang lebih kecil seperti kata, frasa, atau kalimat (Ridha 2002). Dalam penelitian ini, unit terkecil yang digunakan ialah kata yang terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen ini dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords, yaitu kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna seperti kata dan, pada, dan yang. Setelah itu, dilakukan pembobotan pada term. Berdasarkan pembobotannya terdapat dua model temu kembali, yaitu temu kembali
Boolean dan Vector Space Model.
Temu kembali model Boolean merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT (Manning et al. 2008). Model Boolean hanya mempertimbangkan kemunculan index term
sehingga index term diasumsikan memiliki bobot biner, yaitu bernilai 0 atau 1. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form
(DNF). Klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan hasilnya ditampilkan berdasarkan urutan dokumen yang
ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan karena mengunakan pencocokan tepat sama dengan kueri. Sementara itu, pada temu kembali Vector Space Model bobot yang digunakan diperoleh dari jumlah kemunculan term pada dokumen dan jumlah dokumen yang mengandung term
tersebut. Kueri diproses tanpa operator
Boolean dan hasilnya ditampilkan berdasarkan nilai ukuran kesamaan. Dokumen yang dikembalikan cenderung lebih mencerminkan relevansi terhadap kueri.
Pemrosesan Kueri
Pemrosesan pada tahap ini sama halnya dengan pemrosesan dokumen, yaitu dilakukan lowercasing dan parsing. Namun
parsing pada tahap ini sedikit berbeda karena kueri yang dimasukkan mengandung operator
Boolean sehingga perlu dipisahkan antara
term operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan untuk mempermudah perhitungan nilai ukuran kesamaan. Setelah itu, akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pada penelitian ini pembobotan yang digunakan sesuai dengan model temu kembalinya, yaitu pembobotan biner.
Ukuran Kesamaan pada Extended Boolean Model
Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean
biasa. EBM menggabungkan karakteristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al. 1983). Dengan cara ini, tingkat relevansi suatu dokumen yang cocok dan dikembalikan dapat menjadi lebih tinggi. Apabila hanya dua kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap
term digambarkan pada koordinat yang berbeda. Titik (1,1) pada kueri AND merepresentasikan kemunculan kedua term, sedangkan titik (0,0) pada kueri OR merepresentasikan ketidakmunculan kedua
term. Jika hanya salah satu term yang muncul, maka nilai ukuran kesamaan akan bernilai 1⁄√2 untuk kueri OR dan 1-1⁄√2 untuk kueri AND, sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan Inverted Index Query (q) Dokumen (d) Inverted Term Evaluation Tahap 1 Tahap 2
Tahap 3
Tahap 4 Doc Ranking Similarity(di,q)
EBM
Similarity(di,q) Belief Revision
persamaan berikut (Salton et al. 1983):
sim(D,Q(A or B)) = �dA
2+d B 2
2 (1)
sim(D,Q(A and B))=1-�(1 - dA)
2 + (1 - dB)2
2 (2)
dengan dA, dB merupakan bobot biner term A
[image:34.595.98.296.39.842.2]dan bobot biner term B pada dokumen (Putra 2011).
Gambar 2 Sebaran ukuran kesamaan EBM.
Ukuran Kesamaan pada Belief Revision
Belief Revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam
knowledge base yang ada. Dalam temu kembali informasi, BR direpresentasikan dalam logika proposisi. Dokumen dan kueri memiliki model yang dibangun dari interpretasi. Interpretasi merupakan sebuah fungsi yang memetakan alfabet dalam logika proposisi ke bentuk himpunan. Pseudocode
dari BR yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.
BR menggunakan symmetric difference
antara dua interpretasi yang berbeda yaitu I
dan J. Ukuran jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J) sehingga jarak antara himpunan model (Mod(ψ)) dan I ialah:
dist(Mod(ψ),md) =minj∈Mod(q) dist(J,md))
Algorithm BRsim:
Function Similarityψ,μ Input : query ψ= ψ1,ψ2,… document μ= μ Output : BRsimμ,ψ
1. Distance=0; 2. Distance_to_ψ = S
3. Extract a newm, model ofψ
4. C