• Tidak ada hasil yang ditemukan

Penggunaan Operator Belief Revision pada Temu Kembali Dokumen Bahasa Indonesia Model Boolean

N/A
N/A
Protected

Academic year: 2017

Membagikan "Penggunaan Operator Belief Revision pada Temu Kembali Dokumen Bahasa Indonesia Model Boolean"

Copied!
54
0
0

Teks penuh

(1)

PENGGUNAAN OPERATOR

BELIEF REVISION

PADA TEMU

KEMBALI DOKUMEN BAHASA INDONESIA

MODEL

BOOLEAN

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(2)

PENGGUNAAN OPERATOR

BELIEF REVISION

PADA TEMU

KEMBALI DOKUMEN BAHASA INDONESIA

MODEL

BOOLEAN

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

MERISKA DEFRIANI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

(3)

ABSTRACT

MERISKA DEFRIANI. Application of Belief Revision Operator on Boolean Model Retrieval of Indonesian Documents. Supervised by JULIO ADISANTOSO.

Retrieval results of conventional Boolean Model are based only on the exact matching between document and query without ranking. Extended Boolean Model has developed a search process using partial matching and ranking, but it is difficult to be applied for complex queries structures. Belief Revision model was introduced to improve the information retrieved by Boolean Models. The objective of this research is to implement Extended Boolean Model (EBM) and Belief Revision (BR) to rank Indonesian documents. Query and document are weighted in binary. Then, the similarity is calculated to obtain the rank. Information retrieved using EBM equals to BR with average precision of 0.5148.

(4)

NRP : G64080048

Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom. NIP. 19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001

(5)

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa-ta'ala atas segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Penggunaan Operator Belief Revision pada Temu Kembali Dokumen Bahasa Indonesia Model Boolean. Penelitian ini dilaksanakan mulai Oktober 2011 sampai dengan Maret 2012 dan bertempat di Departemen Ilmu Komputer Institut Pertanian Bogor.

Penulis juga menyampaikan terima kasih kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, yaitu:

1 Ayahanda Darminto, Ibunda Rustini, serta kakakku Wenny Yuniaris yang selalu memberikan kasih sayang, semangat, dan doa.

2 Bapak Ir. Julio Adisantoso, M.Kom selaku pembimbing yang selalu memberikan ide dan semangat serta bersedia mendengarkan keluh kesah penulis selama pengerjaan penelitian ini.

3 Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom yang telah bersedia menjadi penguji.

4 Mohamad Firman yang selalu menemani dan memberikan semangat.

5 Teman-teman satu bimbingan Anita, Fania, Zhia, Iki, Aga, Mey, Nofel, Susi, dan Uty semoga cepat menyusul.

6 Rekan-rekan Ilkomerz 45 atas segala kebersamaan, canda tawa, dan kenangan indah yang telah mengisi kehidupan penulis selama di kampus.

Terakhir, penulis berharap penelitian ini dapat memberikan manfaat.

Bogor, Mei 2012

(6)

Negeri 3 Malang. Pada tahun yang sama, penulis diterima menjadi mahasiswa di Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB. Penulis menjadi mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(7)

v

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

METODE PENELITIAN ... 1

Koleksi Dokumen ... 1

Pemrosesan Dokumen ... 1

Pemrosesan Kueri ... 2

Ukuran Kesamaan pada Extended Boolean Model ... 2

Ukuran Kesamaan pada Belief Revision ... 3

Pemeringkatan Dokumen ... 4

Evaluasi Hasil Temu kembali ... 4

Lingkungan Implementasi ... 4

HASIL DAN PEMBAHASAN ... 4

Koleksi Dokumen Pengujian ... 4

Pemrosesan Dokumen ... 5

Pemrosesan Kueri ... 5

Temu Kembali dengan Boolean Model ... 5

Temu Kembali dengan Extended Boolean Model... 6

Temu Kembali dengan Belief Revision ... 6

Evaluasi Sistem Temu Kembali ... 7

KESIMPULAN DAN SARAN ... 8

Kesimpulan ... 8

Saran ... 8

DAFTAR PUSTAKA ... 8

(8)

vi

2 Deskripsi dokumen pengujian ... 4

3 Nilai AVP BR1 dan BR2 ... 7

DAFTAR GAMBAR

Halaman 1 Gambaran umum sistem ... 2

2 Sebaran ukuran kesamaan EBM ... 3

3 Pseudocode Belief Revision ... 3

4 Contoh dokumen pertanian ... 5

5 Format dokumen setelah dilakukan pembuangan tagging ... 5

6 Contoh pemrosesan kueri ... 5

7 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan Boolean Model ... 6

8 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan EBM ... 6

9 Contoh perhitungan algoritma Belief Revision ... 6

10 Contoh hasil temu kembali kueri ‘gagal AND panen’ dengan BR ... 6

11 Grafik R-P perbandingan kinerja BR1 dan BR2 ... 7

DAFTAR LAMPIRAN

Halaman 1 Antarmuka implementasi... 10

2 Gugus kueri dan jawaban untuk dokumen pertanian ... 11

3 Hasil perhitungan precision pada eleven standard recall ... 17

4 Hasil perhitungan precision pada eleven standardrecall berbagai kueri Belief Revision (1) ... 18

(9)

1

PENDAHULUAN

Latar Belakang

Temu kembali informasi model Boolean

merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT

(Manning et al. 2008). Dokumen yang dikembalikan merupakan hasil pencocokan secara tepat sama dengan kueri. Model

Boolean ini masih diperlukan dalam pencarian dokumen dengan menggunakan

search engine karena ekspresi Boolean lebih mirip dengan bahasa alami sehingga mampu merepresentasikan keinginan pengguna dengan lebih baik.

Model Boolean menghasilkan sekumpulan dokumen yang cocok tanpa adanya pemeringkatan. Salton et al. (1983) memperkenalkan Extended Boolean Model

(EBM) yang juga dikenal sebagai P-Norm Model untuk mengatasi kelemahan tersebut. Penelitian mengenai P-Norm Model pernah dilakukan oleh Lee dan Fox (1988), yaitu membandingkan P-Norm Model dengan

Mixed Min and Max Model (MMM) dan

Paice Model. Hasil penelitian tersebut menunjukkan bahwa P-Norm Model

mendapatkan nilai average precision yang paling baik. P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan yang berbanding lurus dengan nilai keketatan (p) pada operator Boolean. Namun, untuk struktur kueri yang kompleks, EBM sulit diterapkan sehingga model tersebut disempurnakan dengan menggunakan Belief Revision (BR).

BR merupakan logical framework yang dokumen dan kuerinya direpresentasikan dengan formula proposisi. Losada dan Barreiro (1999) melakukan penelitian menggunakan BR untuk pemeringkatan dokumen dalam EBM. Penelitian tersebut membandingkan BR dengan P-Norm Model

dengan nilai p=1 dan bobot biner untuk kueri dan dokumen. Hasil dari penelitian tersebut menunjukan bahwa BR memiliki kesamaan dengan P-Norm Model dengan nilai p=1. Selain itu, Putra (2011) membandingkan BR dengan P-Norm Model dengan nilai p=1, 2, 5, dan 9 untuk dokumen berbahasa Indonesia. Penelitian tersebut menggunakan rumus pendekatan hasil penelitian Losada (2001) dalam perhitungan jarak antara kueri dan dokumen. Nilai AVP yang diperoleh untuk

BR dan P-Norm Model pada dokumen pertanian, yaitu 0.5490 dan 0.5489, sedangkan pada tanaman obat 0.8128 dan 0.8378. Namun, penelitian-penelitian tersebut belum diimplementasikan secara keseluruhan sampai diperoleh nilai ukuran kesamaan (similarity measure) yang digunakan untuk pemeringkatan dokumen pada model

Boolean. Oleh karena itu, penelitian kali ini akan mengimplementasikan BR secara keseluruhan dengan menggunakan kombinasi kueri dan dokumen dalam perhitungan jarak. Selain itu, dibandingkan juga hasil pemeringkatan antara BR dan EBM.

Tujuan Penelitian

Tujuan dari penelitian ini ialah mengimplementasikan Extended Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia. Ruang Lingkup Penelitian

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia, sedangkan kueri yang digunakan diperoleh dari Putra (2011) tanpa menggunakan operator Boolean NOT.

METODE PENELITIAN

Penelitian ini dilaksanakan dalam empat tahapan, yaitu: (1) pengumpulan dokumen (korpus) dan pemrosesan dokumen, (2) pemrosesan kueri, (3) perhitungan ukuran kesamaan antara dokumen dengan kueri untuk EBM dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri, dan (4) evaluasi hasil temu kembali. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1.

Koleksi Dokumen

Dokumen yang digunakan sebagai pengujian ialah korpus yang tersedia di Laboratorium Temu Kembali Informasi hasil Penelitian Adisantoso dan Ridha (2004). Dokumen tersebut merupakan dokumen pertanian yang berjumlah 1000 dokumen.

Pemrosesan Dokumen

Pada tahap ini, dilakukan lowercasing

terhadap dokumen, yaitu mengubah seluruh huruf menjadi huruf nonkapital agar bersifat

(10)

Gambar 1 Gambaran umum sistem.

dilakukan proses parsing, yaitu proses memilah dokumen menjadi unit-unit yang lebih kecil seperti kata, frasa, atau kalimat (Ridha 2002). Dalam penelitian ini, unit terkecil yang digunakan ialah kata yang terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen ini dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords, yaitu kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna seperti kata dan, pada, dan yang. Setelah itu, dilakukan pembobotan pada term. Berdasarkan pembobotannya terdapat dua model temu kembali, yaitu temu kembali

Boolean dan Vector Space Model.

Temu kembali model Boolean merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT (Manning et al. 2008). Model Boolean hanya mempertimbangkan kemunculan index term

sehingga index term diasumsikan memiliki bobot biner, yaitu bernilai 0 atau 1. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form

(DNF). Klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan hasilnya ditampilkan berdasarkan urutan dokumen yang

ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan karena mengunakan pencocokan tepat sama dengan kueri. Sementara itu, pada temu kembali Vector Space Model bobot yang digunakan diperoleh dari jumlah kemunculan term pada dokumen dan jumlah dokumen yang mengandung term

tersebut. Kueri diproses tanpa operator

Boolean dan hasilnya ditampilkan berdasarkan nilai ukuran kesamaan. Dokumen yang dikembalikan cenderung lebih mencerminkan relevansi terhadap kueri.

Pemrosesan Kueri

Pemrosesan pada tahap ini sama halnya dengan pemrosesan dokumen, yaitu dilakukan lowercasing dan parsing. Namun

parsing pada tahap ini sedikit berbeda karena kueri yang dimasukkan mengandung operator

Boolean sehingga perlu dipisahkan antara

term operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan untuk mempermudah perhitungan nilai ukuran kesamaan. Setelah itu, akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pada penelitian ini pembobotan yang digunakan sesuai dengan model temu kembalinya, yaitu pembobotan biner.

Ukuran Kesamaan pada Extended Boolean Model

Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean

biasa. EBM menggabungkan karakteristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al. 1983). Dengan cara ini, tingkat relevansi suatu dokumen yang cocok dan dikembalikan dapat menjadi lebih tinggi. Apabila hanya dua kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap

term digambarkan pada koordinat yang berbeda. Titik (1,1) pada kueri AND merepresentasikan kemunculan kedua term, sedangkan titik (0,0) pada kueri OR merepresentasikan ketidakmunculan kedua

term. Jika hanya salah satu term yang muncul, maka nilai ukuran kesamaan akan bernilai 1⁄√2 untuk kueri OR dan 1-1⁄√2 untuk kueri AND, sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan Inverted Index Query (q) Dokumen (d) Inverted Term Evaluation Tahap 1 Tahap 2

Tahap 3

Tahap 4 Doc Ranking Similarity(di,q)

EBM

Similarity(di,q) Belief Revision

(11)

3

persamaan berikut (Salton et al. 1983):

sim(D,Q(A or B)) = �dA

2+d B 2

2 (1)

sim(D,Q(A and B))=1-�(1 - dA)

2 + (1 - dB)2

2 (2)

dengan dA, dB merupakan bobot biner term A

dan bobot biner term B pada dokumen (Putra 2011).

Gambar 2 Sebaran ukuran kesamaan EBM.

Ukuran Kesamaan pada Belief Revision

Belief Revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam

knowledge base yang ada. Dalam temu kembali informasi, BR direpresentasikan dalam logika proposisi. Dokumen dan kueri memiliki model yang dibangun dari interpretasi. Interpretasi merupakan sebuah fungsi yang memetakan alfabet dalam logika proposisi ke bentuk himpunan. Pseudocode

dari BR yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.

BR menggunakan symmetric difference

antara dua interpretasi yang berbeda yaitu I

dan J. Ukuran jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J) sehingga jarak antara himpunan model (Mod(ψ)) dan I ialah:

dist(Mod(ψ),md) =minjMod(q) dist(J,md))

Algorithm BRsim:

Function Similarityψ,μ Input : query ψ= ψ1,ψ2,… document μ= μ Output : BRsimμ,ψ

1. Distance=0; 2. Distance_to_ψ = S

3. Extract a newm, model ofψ

4. ComputeCDistLITm,μ

5. if CDistLITm,μ<Distance_to_ψ

then Distance_to_ψ=CDistLITm,μ

6.go to step 3 until no moreψmodelsremain

7. Distance=Distance_to_ψ 8. return(1 - Distance/k )

Gambar 3 Pseudocode Belief Revision.

Kueri (q) dilambangkan dengan ψ dan I

adalah model dokumen (md). Dokumen hanya mempunyai satu model, sedangkan kueri memiliki himpunan model (Mod(ψ)). Untuk model tersebut, digunakan Dalal’s

distance sebagai berikut:

dist(Mod(ψ),I)=minj∈Mod(ψ)dist(J,I))

Formula ini menggunakan jarak antara setiap model antara kueri (J) dan model dokumen (md), lalu dihitung kardinalitas dari masing-masing model kueri terhadap model dokumen. Langkah 1 sampai 7 pada Gambar 3 menunjukkan algoritme untuk mendapatkan ukuran jarak dari formula

Dalal’s distance.

Langkah pertama, nilai Distance

ditetapkan sama dengan nol, kemudian untuk masing-masing model kueri (m), ditetapkan nilai Distance_to_ψ sama dengan banyaknya kata unik (S) dalam koleksi dokumen. Untuk masing-masing m, dihitung nilai d. Jarak dari klausa dokumen ke kueri adalah jarak terdekat dari klausa dokumen ke klausa kueri.

CDist(LIT(m),μ )adalah banyaknya term

positif yang muncul dalam klausa satu (LIT(m)) dan term negatif pada klausa lain (μ) atau sebaliknya. Jika nilai

CDist(LIT(m),μ )<Distance_to_ψ maka nilai

Distance_to_ψ sama dengan nilai

CDist(LIT(m),μ ), sehingga Distance_to_ψ merupakan jarak terkecil dari model kueri ke setiap dokumen.

Langkah-langkah tersebut (Langkah 3 sampai Langkah 5 pada Gambar 3) diulang sampai tidak ada lagi model ψ yang tersisa. Setelah itu, nilai Distance sama dengan

(12)

Jarak (Distance) tersebut digunakan untuk menghitung ukuran kesamaan yang dinormalisasi dalam interval [0,1] (Langkah 8 pada Gambar 3) dengan k merupakan banyaknya term yang terdapat dalam klausa

ψ. Rumusan tersebut diformulasikan sebagai berikut:

BRsim(d,q)=1 - distance(d,q)

k

Ukuran kesamaan (similarity measure) antara dokumen (d) dan kueri (q) dari persamaan di atas diperoleh dengan k adalah jumlah term yang muncul dalam kueri (Losada & Barreiro 1999 dalam Putra 2011).

Pemeringkatan Dokumen

Pemeringkatan dokumen dilakukan setelah perhitungan nilai kesamaan antara dokumen dengan kueri untuk EBM dan BR. Pemeringkatan dokumen yang dikembalikan sesuai dengan nilai kesamaan yang diperoleh. Semakin besar nilai kesamaan yang diperoleh, peringkat dokumen yang dikembalikan akan semakin tinggi.

Evaluasi Hasil Temu kembali

Manning (2008) menyatakan bahwa terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu kembali secara efektif, yaitu recall dan

precision (R-P). Perhitungan recall-precision

diformulasikan berdasarkan Tabel 1.

Tabel 1 Confusion matrix

Relevant Not Relevant Retrieved tp fp

Not Retrieved fn tn dengan demikian, R-P didefinisikan sebagai

Precision= P= (tptp+fp)

Recall= R= tp (tp+fn)

Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) dengan interpolasi maksimum diperlukan untuk menghitung rata-rata precision pada berbagai tingkat

recall, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:

P

��rj�=∑ Pi(r)

Nq

Nq

i=1

dengan ��(rj) adalah AVP pada level recallr,

Nq adalah jumlah kueri yang digunakan, dan

Pi(r) adalah precision pada level recall r

untuk kueri ke-i.

Lingkungan Implementasi

Lingkungan implementasi yang digunakan yaitu:

Perangkat lunak:

• Microsoft Windows 7 Profesional sebagai sistem operasi,

• PHP sebagai bahasa pemrograman,

• Xampp Server Apache version 2.5.8 sebagai web server,

• Notepad++, dan

• Microsoft Office 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi.

Perangkat Keras:

• Processor Intel Core 2 Duo 2.10 GHz, • RAM 2 GB, dan

• Hardisk 250 GB.

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Penelitian ini menggunakan 1000 dokumen pertanian yang ada di Laboratorium Temu Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2.

Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte)

Ukuran keseluruhan dokumen 4 139 332 Ukuran rata-rata dokumen 4 139 Ukuran dokumen terbesar 54 082

Ukuran dokumen terkecil 451

Dokumen yang digunakan dalam penelitian ini memiliki format plain text

dengan struktur XML. Struktur tulisan dokumen tersebut dapat dilihat pada Gambar 4.

Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:

(13)

5

• <DOCNO></DOCNO>, menunjukkan ID dari dokumen.

• <DATE></DATE>, menunjukkan tanggal dari berita.

• <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.

• <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

Pemrosesan Dokumen

Proses awal sebelum dilakukannya pengindeksan ialah pembuangan tagging

karena tagging bukan merupakan penciri sebuah dokumen. Format dokumen setelah dilakukan pembuangan tagging dapat dilihat pada Gambar 5.

Proses selanjutnya ialah parsing

dokumen, pembuangan stopword dan tanda

baca, dan lowercasing. Setelah itu dilakukan pembuatan inverted index kata-kata unik dari masing-masing dokumen dan disimpan ke dalam satu file.

Pemrosesan Kueri

Kueri yang digunakan dalam penelitian ini merupakan kueri yang berbentuk Boolean. Kata-kata yang ada pada kueri dipisahkan oleh operator Boolean, yaitu AND atau OR.

Proses awal yang dilakukan ialah

lowercasing, yaitu mengubah seluruh huruf menjadi nonkapital. Setelah itu, dilakukan pengecekan operator Boolean dalam kueri. Apabila dalam kueri terdapat kata yang merupakan operator Boolean maka kata tersebut dijadikan index dan dimasukkan ke dalam array dengan nama ‘i_root’. Kata yang bukan merupakan operator Boolean dijadikan

index dan dimasukkan ke dalam array dengan nama ‘i_term’. Apabila terdapat tanda kurung maka kata dijadikan index dan dimasukkan ke dalam array dengan nama ‘brackets’. Pemrosesan kueri ini dilakukan secara rekursif. Contoh pemrosesan kueri dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 6.

Temu Kembali dengan Boolean Model

Pada temu kembali menggunakan Boolean Model, kueri yang dimasukkan mengandung operator Boolean. Kueri diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list

dari index ‘i_term’ tersebut dan dilakukan proses intersection. Jika operator yang digunakan adalah OR maka akan dilakukan proses merge terhadap posting list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari kueri yang diberikan. Hal tersebut disebabkan

Gambar 6 Contoh pemrosesan kueri.

Array (

[i_term] => Array (

[0] => gagal [1] => panen )

[i_root] => Array (

[0] => and )

)

balaipenelitian000000-001 PRODUKTIVITAS SOM JAWA Ireng Darwati

Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik.

<DOC>

<DOCNO>balaipenelitian000000-001</DOCNO>

<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum

Gaertn.)… </TITLE>

<AUTHOR>Ireng DarwatiIreng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>

<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang

optimaldiperlukan tanah yang

sifat-sifat fisik dan kesuburannya baik….</P> </TEXT>

</DOC>

Gambar 4 Contoh dokumen pertanian.

(14)

dalam Boolean Model tidak ada pencocokan sebagian antara dokumen dengan kueri yang diberikan (Putra 2011).

Gambar 7 merupakan contoh hasil temu kembali menggunakan Boolean Model

dengan kueri ‘gagal AND panen’.

Temu Kembali dengan Extended Boolean Model

Pada temu kembali menggunakan Extended Boolean Model, kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika menggunakan operator OR maka rumus yang digunakan ialah (1) dan (2).

Gambar 8 merupakan sepuluh teratas dokumen hasil temu kembali menggunakan

Extended Boolean Model dengan kueri ‘gagal AND panen’.

Temu Kembali dengan Belief Revision

Pada temu kembali menggunakan Belief Revision, kueri yang dimasukkan harus dalam bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief Revision.

P= {a,b,c,d}

d= (a ˄ b ˄ ¬c ˄ d ) q= (a ˄ b)

Algorithm BRsim-SC: Function Similarity(ψ,μ)

Input : query ψ= {ψ} document μ= {μ}

Output : BRsim(μ,ψ)

1. Distance=0; 2. Distance_to_ψ =4 3. m= {a,b}

4. LIT(m) = {a,b,¬c,¬d}, CDist(LIT(m),μ)= 0 5. Distance_to_ψ = 0

2. Distance_to_ψ =4 3. m= {a,b, c}

4. LIT(m)= {a,b,c,¬d}, CDist(LIT(m),μ)= 1 5. Distance_to_ψ = 0

2. Distance_to_ψ =4 3. m= {a,b,d}

4. LIT(m)= {a,b,¬c,d}, CDist(LIT(m),μ)= 0 5. Distance_to_ψ = 0

2. Distance_to_ψ =4 3. m= {a,b,c,d}

4. LIT(m)= {a,b,c,d}, CDist(LIT(m),μ)= 1 5. Distance_to_ψ = 0

7. Distance = 0 8. return(1 – 0/2 )

Literal P merupakan himpunan kata unik dalam koleksi dokumen, d untuk model dokumen, q untuk model kueri. Dokumen terdiri atas satu model sedangkan kueri terdiri atas empat model. Perhitungan terdiri atas empat iterasi. Pada setiap iterasi, dihitung Gambar 7 Contoh hasil temu kembali kueri

'gagal AND panen' dengan

Boolean Model.

Array (

[republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1

[kompas030704.txt] => 1 )

Array (

[0] => gatra070203.txt [1] => gatra161002.txt [2] => gatra190802.txt [3] => gatra210704.txt [4] => gatra260803.txt [5] => gatra301002.txt [6] => indosiar031203.txt [7] => indosiar040903.txt [8] => indosiar050704-002.txt [9] => indosiar130104.txt

)

Array (

[republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1

[kompas030704.txt] => 1

)

Gambar 8 Contoh hasil temu kembali kueri 'gagal AND panen' dengan EBM.

Gambar 9 Contoh perhitungan algoritma

Belief Revision.

(15)

7

jarak setiap dokumen dan model kueri. Jarak akhir antara kueri dengan dokumen adalah jarak yang terkecil diantara keempat iterasi tersebut, yaitu 0 sehingga hasil perhitungan ukuran kesamaannya menghasilkan nilai 1. Hal tersebut karena kueri yang dimasukkan

(a˄ b) dapat dipenuhi oleh model dokumen.

Gambar 10 merupakan sepuluh contoh teratas hasil temu kembali menggunakan

Belief Revision pada dokumen pertanian dengan kueri ‘gagal AND panen’.

Evaluasi Sistem Temu Kembali

Proses evaluasi sistem temu kembali (Lampiran 1) dalam penelitian ini dilakukan pada dokumen pertanian. Kueri yang digunakan ialah 30 kueri uji yang digunakan oleh Putra (2011). Kueri-kueri uji tersebut telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan

precision dari sistem.

Perbandingan Kinerja Extended Boolean

Model dengan Belief Revision

Belief Revision memiliki kinerja yang sama dengan Extended Boolean Model. Nilai AVP yang diperoleh dari kedua model tersebut yaitu 0.5148. Kesamaan nilai AVP tersebut menandakan bahwa nilai precision

pada setiap tingkat recall BR juga sama dengan EBM (Lampiran 3).

Perhitungan ukuran kesamaan model EBM yang menggunakan bobot biner menghasilkan nilai yang sama dengan

P-Norm Model dengan p=1. Perhitungan ukuran kesamaan dalam P-Norm Model

dengan p=1 menggunakan persamaan berikut (Salton et al. 1983):

sim�D,Qand�=

1-

a1�1 - dA1� + a2�1 - dA2� + … + an�1 - dAn

a1 + a2 + … + an

sim�D,Qor�=a1dA1+a2dA2+…+andAn a1+a2+…+an

dengan an adalah bobot term An pada kueri

dan dAnadalah bobot term Anpada dokumen.

Berdasarkan hasil penelitian Losada dan Barreiro (1999), P-Norm Model dengan p=1 memiliki kesamaan dengan BR.

Namun, untuk kueri yang lebih kompleks seperti ‘(petani AND tebu) OR (petani AND

gula) OR (gula AND negeri)’, terdapat perbedaan nilai AVP antara kedua model, yaitu BR lebih baik 0.1315 dibandingkan dengan EBM. Oleh karena itu, untuk kueri yang lebih kompleks dapat dikatakan bahwa BR memiliki kinerja yang lebih baik dibandingkan dengan EBM.

Perbandingan Kinerja Belief Revision terhadap Berbagai Jenis Kueri

Perbedaan Belief Revision (1) hasil penelitian Putra (2011) dengan Belief Revision (2) hasil penelitian ini terletak pada perbedaan proses perhitungan jarak antara kueri dengan dokumen.

Perbandingan kinerja Belief Revision (1)

dengan Belief Revision (2) dapat dilihat pada Tabel 3, sedangkan ilustrasi perbandingan kinerjanya dapat dilihat pada Gambar 11.

Tabel 3 Nilai AVP BR1 dan BR2

Metode AVP

Belief Revision (1) 0.4975 Belief Revision (2) 0.5148

Gambar 11 Grafik R-P perbandingan kinerja BR1 dan BR2.

Nilai precision pada setiap tingkat recall Belief Revision ini dapat dilihat pada Lampiran 4 dan Lampiran 5. Terdapat empat kueri yang nilai precision pada setiap tingkat

recall-nya berbeda, yaitu kueri yang menggunakan operator Boolean AND dan OR. Perbedaan tersebut disebabkan perbedaan proses perhitungan jarak.

Pada Belief Revision (1), perhitungan jarak kueri yang menggunakan operator

Boolean OR diperoleh dari jarak terkecil antara dokumen dengan setiap klausa kueri. Klausa tersebut merupakan conjunctive clause kueri yang dipisahkan oleh operator

(16)

nilainya lebih kecil dari jarak klausa ‘kelompok AND tani’. Akan tetapi, ketika nilai jarak tersebut dimasukkan ke dalam perhitungan ukuran kesamaan (similarity), hasil yang diperoleh tidak sama dengan nol. Hal tersebut menandakan bahwa dokumen relevan dengan kueri. sehingga dokumen yang tidak mengandung kata ‘kelompok’, ‘tani’, atau ‘gapoktan’ akan tetap ditemukembalikan. Keadaan itu akan memengaruhi nilai precision dan recall-nya.

Menurut Losada dan Barreiro (1999), perhitungan ukuran kesamaan (BRsim) kueri yang menggunakan operator Boolean OR sama dengan ukuran kesamaan (BRsim) kueri yang menggunakan operator Boolean AND.

Oleh karena itu, pada Belief Revision (2) perhitungan jarak kueri yang menggunakan operator Boolean OR sama dengan perhitungan jarak kueri yang menggunakan operator Boolean AND, yaitu jarak terkecil antara dokumen dan model kueri. Pada kueri ‘(kelompok AND tani) OR gapoktan’, nilai jarak diperoleh dari kardinalitas symmetric different terkecil antara dokumen dan setiap model kueri. Apabila dokumen tidak mengandung ketiga kata dalam kueri tersebut nilai ukuran kesamaannya akan sama dengan nol dan dokumen tidak akan ditemu-kembalikan.

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian ini menunjukkan bahwa: 1 Telah diimplementasikan Extended

Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia.

2 Belief Revision memiliki kinerja yang sama dengan Extended Boolean Model. Nilai AVP yang dihasilkan yaitu 0.5148.

Saran

Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian selanjutnya, antara lain:

1 Mengembangkan sistem untuk kueri yang lebih kompleks.

2 Menggunakan dokumen uji yang lebih banyak dan beragam.

3 Menggunakan ekspansi kueri atau relevance feedback agar hasil temu kembali lebih optimal.

DAFTAR PUSTAKA

Adisantoso J, Ridha A. 2004. Corpus dokumen teks bahasa Indonesia untuk pengujian efektivitas temu kembali informasi. Laporan Akhir Hibah Penelitian SP4, Departemen Ilmu Komputer FMIPA IPB, Bogor.

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. England: Addison Wesley.

Lee WC, Fox EA. 1988. Experimental comparation of schemes for interpreting boolean queries [TR-88-27]. Blacksburg, VA: Computer Science, Virginia Polytechnic Institute and State University. Losada DE, Barreiro A. 1999. Using a Belief Revision Operator for Document Ranking in Extended Boolean Models. Di dalam:

Proceedings of SIGIR-99 at the 22th ACM Conference on Research and Development in Information Retrieval; Berkeley, 15-19 Agu 1999. New York : ACM. Hlm 66-73.

Manning CD, Raghavan P, Schutze H. 2008.

Introduction to Information Retrieval. Cambridge: Cambridge University Press. Putra DDP. 2011. Temu kembali Model

Extended Boolean menggunakan P-Norm Model dan Belief Revision [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Petanian Bogor.

Salton G, Fox E, Wu H. 1983. Extended boolean information retrieval.

Communications of the ACM

(17)
(18)
(19)

11

Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian

Kueri Gugus Jawaban

Bencana kekeringan

gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001,

mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01,

republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002,

situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.

Dukungan pemerintah pada pertanian

indosiar070504, jurnal000000-026, kompas030401, kompas050303,

kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903,

poskota040804, republika100903, republika180303, republika210902,

republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028,

suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,

indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.

Gabah kering giling

indosiar180603, indosiar240703, indosiar300304, kompas 170402,

kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002,

republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104. Gagal panen gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504,

indosiar031203, indosiar040903, indosiar050704-002, indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603,

indosiar180304, indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika030903-002, republika060804-001, republika080703, republika090804-01, republika120804-04, republika130704-0republika090804-01, republika130804-02,

(20)

Lanjutan

Kueri Gugus Jawaban

Impor beras Indonesia

gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602,

kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104,

mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001,

republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001,

republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903

Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804,

republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01,

suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

Institut pertanian bogor

gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001,

kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-republika100604-002, republika110604-republika100604-002, republika140704-republika100604-002,

republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004,

situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001

Kelangkaan pupuk

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101 Kelompok

masyarakat tani

bitraindonesia000000-001, indosiar021203-002, jurnal000000-017,

kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103

Laboratorium pertanian

(21)

13

Lanjutan

Kueri Gugus Jawaban

Musim panen gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001,

mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, 001, republika060804-003, republika100704-republika060804-003, republika151202, republika171102,

republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002 Pembangunan

untuk sektor pertanian

gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003,

republika150903, republika190803, republika251002-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303

Penerapan bioteknologi di indonesia

jurnal000000-018, kompas121099, puslitbang000000-001, republika220604-003, republika290704-002, situshijau000000-002, situshijau030603-001, situshijau040603, situshijau050703-001, situshijau070103-001,

situshijau070103-002, situshijau070103-003, situshijau100603-002, situshijau100603-003, situshijau110303-002, situshijau130103-001, situshijau130503-001, situshijau130503-002, situshijau140103-002, situshijau140103-003, situshijau140503-001-01, situshijau140903-001, situshijau150403-001, situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-003, situshijau200103-001, situshijau210103-003, situshijau210503-001, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-02,

suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No, suarapembaruan151102, wartapenelitian000000-009

harga komoditas pertanian

indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304 ,jurnal000000-022,jurnal000000-027,kompas

170402,kompas030502-001,kompas030502-002,kompas080702,kompas100399,kompas101004, kompas111099,kompas140802,kompas160304,kompas170104,kompas171002, kompas180502,kompas180504,kompas230603,kompas250901,kompas270203-001,kompas270401,kompas270502-001,kompas280602,kompas311203, mediaindonesia060803,mediaindonesia310503,pikiranrakyat240404,

pikiranrakyat300604,poskota000000-002,poskota000000-003,republika030804-002,republika060503,republika060804-001,republika060804-003,

republika061102,republika090902,republika140704-004,situshijau050703-002, situshijau070503,situshijau130203-002,situshijau240203-002,situshijau280203, situshijau280404-001,situshijau280404-002,situshijau280404-003,

suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-001, suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,

(22)

Lanjutan

Kueri Gugus Jawaban

Penerapan teknologi pertanian

indosiar250204-001, 001, 011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099,

kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702,

wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009

Penyakit hewan ternak gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004,

republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01 Penyuluhan pertanian bitraindonesia000000-001, gatra190902-02, indosiar310504,

jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603,

poskota110703, republika030903-002, republika050804-001,

republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007

Perdagangan hasil pertanian

gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104,

mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202,

situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002,

wartapenelitian000000-006

Sistem pertanian organik indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303,

situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02,

suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702

Petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901, kompas310702, republika010704-003, republika020804,

(23)

15

Lanjutan

Kueri Gugus Jawaban

Peternak ayam gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003,

republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802 Produk usaha peternakan

rakyat

jurnal000000-003, kompas120101, kompas150201,

mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102

Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004,

situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702,

suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008

Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001, 008, 015, 018, jurnal000000-019, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang000000-001,

republika030903-002, republika070604-002, republika100704-002, republika140104, republika170604-001, republika190604-001, republika190604-002, republika210704-001, republika210704-003, republika220604-003, republika241203, republika260803,

republika280703, republika300604-003, situshijau040603, situshijau070503, situshijau080503-001, situshijau091203-003, situshijau101103-004, situshijau130103-001, situshijau130503-002, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau150403-002, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau200103-001-No, situshijau201003-002, situshijau210103-003, situshijau210503-001, situshijau250203,

situshijau270303-004, situshijau290503-001, situshijau300403, situshijau310303, suarakarya000000-001-02, suarakarya000000-010, suarakarya000000-019, suarakarya000000-027, suarakarya000000-034, suarakarya000000-037, suaramerdeka270601, suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602,

(24)

Lanjutan

Kueri Gugus Jawaban

Swasembada pangan indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899, kompas270203-001, kompas270401, kompas270502-002,

mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005,

republika220604-003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, 001-02, 002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001,

suarapembaruan110903, suarapembaruan221102

Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004

Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003,

republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503,

situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001

Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104,

mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004,

republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001,

situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002

Upaya peningkatan pendapatan petani/peningkatan pendapatan petani

indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003, kompas100399, kompas170903, kompas200802, kompas210502, kompas260702, kompas270203-001, kompas300402, kompas300502-002, pembaruan110903, poskota110703,

republika030804-002, republika030903-001, republika060804-001, republika060804-003, republika230404, republika231202-001, republika231202-002, republika240604-005, republika241203, republika281202, republika300704-002, situshijau140503-001, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau280203, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602, suarapembaruan290802-001,

(25)

17

Lampiran 3 Hasil perhitungan precision pada eleven standardrecall

Recall

Precision

Belief Revision Extended Boolean Model

0 0.7612 0.7612

0.1 0.5899 0.5899

0.2 0.5333 0.5333

0.3 0.4888 0.4888

0.4 0.4772 0.4772

0.5 0.4720 0.4720

0.6 0.4701 0.4701

0.7 0.4678 0.4678

0.8 0.4678 0.4678

0.9 0.4678 0.4678

1 0.4666 0.4666

(26)

Lampiran 4 Hasil perhitungan precision pada eleven standardrecall berbagai kueri Belief Revision (1)

Kueri Nilai precision pada eleven standard recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 0.7917 0.7917 0.7917 0.7917 0.7917 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 dukungan pemerintah pada

pertanian 1.0000 0.7500 0.3478 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214

flu burung 1.0000 1.0000 1.0000 1.0000 1.0000 0.9500 0.9500 0.9500 0.9500 0.9500 0.9130

gabah kering giling 1.0000 0.7143 0.7143 0.5455 0.5455 0.5417 0.5417 0.5417 0.5417 0.5417 0.5417 gagal panen/puso 0.8667 0.8667 0.8667 0.7895 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 impor beras Indonesia 1.0000 0.4545 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 industri gula 0.2800 0.2800 0.2800 0.2800 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 institut pertanian bogor 1.0000 0.3571 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 kelangkaan pupuk 1.0000 1.0000 0.8750 0.8750 0.8750 0.8750 0.8750 0.8261 0.8261 0.8261 0.8261 Kelompok masyarakat

tani/kelompok tani 0.3636 0.3636 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 0.2593 laboratorium pertanian 0.3000 0.3000 0.3000 0.2692 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667

musim panen 1.0000 0.5000 0.5000 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333

pembangunan untuk sektor

pertanian 0.6667 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481

Penerapan bioteknologi di

indonesia 1.0000 0.7143 0.6667 0.6500 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000

penerapan teknologi pertanian 1.0000 0.4444 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 Penyakit hewan ternak 1.0000 1.0000 1.0000 0.6667 0.6364 0.6364 0.5909 0.5909 0.5909 0.5909 0.5909 penyuluhan pertanian 1.0000 0.7143 0.6667 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 perdagangan hasil pertanian 1.0000 0.3636 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 sistem pertanian organic 0.6667 0.6667 0.6667 0.5333 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615

(27)

19

Lanjutan

Peternak ayam 1.0000 1.0000 1.0000 1.0000 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 Produk usaha peternakan

rakyat 0.2500 0.2500 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818

pupuk organic 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 riset pertanian 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 0.3704 swasembada pangan 0.7826 0.7826 0.7826 0.7826 0.7826 0.7826 0.7692 0.7500 0.7500 0.7500 0.7500

tadah hujan 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517

tanaman obat 0.6667 0.5000 0.5000 0.4348 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231

tanaman pangan 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 Upaya peningkatan

(28)

Lampiran 5 Hasil perhitungan precision pada eleven standard recall berbagai kueri Belief Revision (2)

Kueri precision pada elevent standard recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 0.7917 0.7917 0.7917 0.7917 0.7917 0.6897 0.6897 0.6897 0.6897 0.6897 0.6897 dukungan pemerintah pada

pertanian 1.0000 0.7500 0.3478 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214 0.3214

flu burung 1.0000 1.0000 1.0000 1.0000 1.0000 0.9500 0.9500 0.9500 0.9500 0.9500 0.9130

gabah kering giling 1.0000 0.7143 0.7143 0.5455 0.5455 0.5417 0.5417 0.5417 0.5417 0.5417 0.5417

gagal panen 1.0000 0.8889 0.8667 0.7895 0.6552 0.6552 0.6552 0.6552 0.6552 0.6552 0.6552

impor beras Indonesia 1.0000 0.4545 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 0.3462 industri gula 0.2800 0.2800 0.2800 0.2800 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 0.2759 institut pertanian bogor 1.0000 0.3571 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 kelangkaan pupuk 1.0000 1.0000 0.8750 0.8750 0.8750 0.8750 0.8750 0.8261 0.8261 0.8261 0.8261 kelompok masyarakat tani 1.0000 0.5714 0.3684 0.3333 0.3333 0.3333 0.3333 0.3333 0.3333 0.3333 0.3333 laboratorium pertanian 0.3000 0.3000 0.3000 0.2692 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667 0.2667

musim panen 1.0000 0.5000 0.5000 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333 0.4333

pembangunan untuk sektor

pertanian 0.6667 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481 0.1481

penerapan bioteknologi di

indonesia 1.0000 1.0000 0.9091 0.6500 0.6500 0.6500 0.6500 0.6500 0.6500 0.6500 0.6500

penerapan teknologi

pertanian 1.0000 0.4444 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000 0.3000

penyakit hewan ternak 1.0000 1.0000 1.0000 0.6667 0.6364 0.6364 0.5909 0.5909 0.5909 0.5909 0.5909 penyuluhan pertanian 1.0000 0.7143 0.6667 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 perdagangan hasil pertanian 1.0000 0.3636 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 0.3200 sistem pertanian organic 0.6667 0.6667 0.6667 0.5333 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615 0.4615

(29)

21

Lanjutan

peternak ayam 1.0000 1.0000 1.0000 1.0000 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 0.9091 produk usaha peternakan

rakyat 0.2500 0.2500 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818

pupuk organic 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 0.4000 riset pertanian 1.0000 0.8889 0.5600 0.5357 0.5357 0.5357 0.5357 0.5357 0.5357 0.5357 0.5357 swasembada pangan 0.7826 0.7826 0.7826 0.7826 0.7826 0.7826 0.7692 0.7500 0.7500 0.7500 0.7500

tadah hujan 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517 0.5517

tanaman obat 0.6667 0.5000 0.5000 0.4348 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231 0.4231 tanaman pangan 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 0.2800 upaya peningkatan

(30)

Penguji:

(31)

ABSTRACT

MERISKA DEFRIANI. Application of Belief Revision Operator on Boolean Model Retrieval of Indonesian Documents. Supervised by JULIO ADISANTOSO.

Retrieval results of conventional Boolean Model are based only on the exact matching between document and query without ranking. Extended Boolean Model has developed a search process using partial matching and ranking, but it is difficult to be applied for complex queries structures. Belief Revision model was introduced to improve the information retrieved by Boolean Models. The objective of this research is to implement Extended Boolean Model (EBM) and Belief Revision (BR) to rank Indonesian documents. Query and document are weighted in binary. Then, the similarity is calculated to obtain the rank. Information retrieved using EBM equals to BR with average precision of 0.5148.

(32)

PENDAHULUAN

Latar Belakang

Temu kembali informasi model Boolean

merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT

(Manning et al. 2008). Dokumen yang dikembalikan merupakan hasil pencocokan secara tepat sama dengan kueri. Model

Boolean ini masih diperlukan dalam pencarian dokumen dengan menggunakan

search engine karena ekspresi Boolean lebih mirip dengan bahasa alami sehingga mampu merepresentasikan keinginan pengguna dengan lebih baik.

Model Boolean menghasilkan sekumpulan dokumen yang cocok tanpa adanya pemeringkatan. Salton et al. (1983) memperkenalkan Extended Boolean Model

(EBM) yang juga dikenal sebagai P-Norm Model untuk mengatasi kelemahan tersebut. Penelitian mengenai P-Norm Model pernah dilakukan oleh Lee dan Fox (1988), yaitu membandingkan P-Norm Model dengan

Mixed Min and Max Model (MMM) dan

Paice Model. Hasil penelitian tersebut menunjukkan bahwa P-Norm Model

mendapatkan nilai average precision yang paling baik. P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan yang berbanding lurus dengan nilai keketatan (p) pada operator Boolean. Namun, untuk struktur kueri yang kompleks, EBM sulit diterapkan sehingga model tersebut disempurnakan dengan menggunakan Belief Revision (BR).

BR merupakan logical framework yang dokumen dan kuerinya direpresentasikan dengan formula proposisi. Losada dan Barreiro (1999) melakukan penelitian menggunakan BR untuk pemeringkatan dokumen dalam EBM. Penelitian tersebut membandingkan BR dengan P-Norm Model

dengan nilai p=1 dan bobot biner untuk kueri dan dokumen. Hasil dari penelitian tersebut menunjukan bahwa BR memiliki kesamaan dengan P-Norm Model dengan nilai p=1. Selain itu, Putra (2011) membandingkan BR dengan P-Norm Model dengan nilai p=1, 2, 5, dan 9 untuk dokumen berbahasa Indonesia. Penelitian tersebut menggunakan rumus pendekatan hasil penelitian Losada (2001) dalam perhitungan jarak antara kueri dan dokumen. Nilai AVP yang diperoleh untuk

BR dan P-Norm Model pada dokumen pertanian, yaitu 0.5490 dan 0.5489, sedangkan pada tanaman obat 0.8128 dan 0.8378. Namun, penelitian-penelitian tersebut belum diimplementasikan secara keseluruhan sampai diperoleh nilai ukuran kesamaan (similarity measure) yang digunakan untuk pemeringkatan dokumen pada model

Boolean. Oleh karena itu, penelitian kali ini akan mengimplementasikan BR secara keseluruhan dengan menggunakan kombinasi kueri dan dokumen dalam perhitungan jarak. Selain itu, dibandingkan juga hasil pemeringkatan antara BR dan EBM.

Tujuan Penelitian

Tujuan dari penelitian ini ialah mengimplementasikan Extended Boolean Model (EBM) dan Belief Revision (BR) untuk pemeringkatan dokumen bahasa Indonesia. Ruang Lingkup Penelitian

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia, sedangkan kueri yang digunakan diperoleh dari Putra (2011) tanpa menggunakan operator Boolean NOT.

METODE PENELITIAN

Penelitian ini dilaksanakan dalam empat tahapan, yaitu: (1) pengumpulan dokumen (korpus) dan pemrosesan dokumen, (2) pemrosesan kueri, (3) perhitungan ukuran kesamaan antara dokumen dengan kueri untuk EBM dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri, dan (4) evaluasi hasil temu kembali. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1.

Koleksi Dokumen

Dokumen yang digunakan sebagai pengujian ialah korpus yang tersedia di Laboratorium Temu Kembali Informasi hasil Penelitian Adisantoso dan Ridha (2004). Dokumen tersebut merupakan dokumen pertanian yang berjumlah 1000 dokumen.

Pemrosesan Dokumen

Pada tahap ini, dilakukan lowercasing

terhadap dokumen, yaitu mengubah seluruh huruf menjadi huruf nonkapital agar bersifat

(33)
[image:33.595.112.298.84.350.2]

2

Gambar 1 Gambaran umum sistem.

dilakukan proses parsing, yaitu proses memilah dokumen menjadi unit-unit yang lebih kecil seperti kata, frasa, atau kalimat (Ridha 2002). Dalam penelitian ini, unit terkecil yang digunakan ialah kata yang terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen ini dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords, yaitu kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna seperti kata dan, pada, dan yang. Setelah itu, dilakukan pembobotan pada term. Berdasarkan pembobotannya terdapat dua model temu kembali, yaitu temu kembali

Boolean dan Vector Space Model.

Temu kembali model Boolean merupakan model untuk menemukan kembali informasi dengan kueri yang dimasukkan berbentuk ekspresi Boolean, yaitu menggunakan operator AND, OR, dan NOT (Manning et al. 2008). Model Boolean hanya mempertimbangkan kemunculan index term

sehingga index term diasumsikan memiliki bobot biner, yaitu bernilai 0 atau 1. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form

(DNF). Klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan hasilnya ditampilkan berdasarkan urutan dokumen yang

ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan karena mengunakan pencocokan tepat sama dengan kueri. Sementara itu, pada temu kembali Vector Space Model bobot yang digunakan diperoleh dari jumlah kemunculan term pada dokumen dan jumlah dokumen yang mengandung term

tersebut. Kueri diproses tanpa operator

Boolean dan hasilnya ditampilkan berdasarkan nilai ukuran kesamaan. Dokumen yang dikembalikan cenderung lebih mencerminkan relevansi terhadap kueri.

Pemrosesan Kueri

Pemrosesan pada tahap ini sama halnya dengan pemrosesan dokumen, yaitu dilakukan lowercasing dan parsing. Namun

parsing pada tahap ini sedikit berbeda karena kueri yang dimasukkan mengandung operator

Boolean sehingga perlu dipisahkan antara

term operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan untuk mempermudah perhitungan nilai ukuran kesamaan. Setelah itu, akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pada penelitian ini pembobotan yang digunakan sesuai dengan model temu kembalinya, yaitu pembobotan biner.

Ukuran Kesamaan pada Extended Boolean Model

Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean

biasa. EBM menggabungkan karakteristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al. 1983). Dengan cara ini, tingkat relevansi suatu dokumen yang cocok dan dikembalikan dapat menjadi lebih tinggi. Apabila hanya dua kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap

term digambarkan pada koordinat yang berbeda. Titik (1,1) pada kueri AND merepresentasikan kemunculan kedua term, sedangkan titik (0,0) pada kueri OR merepresentasikan ketidakmunculan kedua

term. Jika hanya salah satu term yang muncul, maka nilai ukuran kesamaan akan bernilai 1⁄√2 untuk kueri OR dan 1-1⁄√2 untuk kueri AND, sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan Inverted Index Query (q) Dokumen (d) Inverted Term Evaluation Tahap 1 Tahap 2

Tahap 3

Tahap 4 Doc Ranking Similarity(di,q)

EBM

Similarity(di,q) Belief Revision

(34)

persamaan berikut (Salton et al. 1983):

sim(D,Q(A or B)) = �dA

2+d B 2

2 (1)

sim(D,Q(A and B))=1-�(1 - dA)

2 + (1 - dB)2

2 (2)

dengan dA, dB merupakan bobot biner term A

[image:34.595.98.296.39.842.2]

dan bobot biner term B pada dokumen (Putra 2011).

Gambar 2 Sebaran ukuran kesamaan EBM.

Ukuran Kesamaan pada Belief Revision

Belief Revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam

knowledge base yang ada. Dalam temu kembali informasi, BR direpresentasikan dalam logika proposisi. Dokumen dan kueri memiliki model yang dibangun dari interpretasi. Interpretasi merupakan sebuah fungsi yang memetakan alfabet dalam logika proposisi ke bentuk himpunan. Pseudocode

dari BR yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.

BR menggunakan symmetric difference

antara dua interpretasi yang berbeda yaitu I

dan J. Ukuran jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J) sehingga jarak antara himpunan model (Mod(ψ)) dan I ialah:

dist(Mod(ψ),md) =minjMod(q) dist(J,md))

Algorithm BRsim:

Function Similarityψ,μ Input : query ψ= ψ1,ψ2,… document μ= μ Output : BRsimμ,ψ

1. Distance=0; 2. Distance_to_ψ = S

3. Extract a newm, model ofψ

4. C

Gambar

Gambar 1  Gambaran umum sistem.
Gambar 3  Pseudocode Belief Revision.
Tabel 2  Deskripsi dokumen pengujian
sifat-sifat fisik dan Gambar 6. kesuburannya baik….</P>
+7

Referensi

Dokumen terkait

Berdasarkan hasil yang diperoleh, dapat dikatakan bahwa terdapat pengaruh yang signifikan antara variabel Iklim Komunikasi terhadap Motivasi Kerja Karyawan PT Radio

• Message directory : adalah path direktori lokasi mailbox dimana E-Mail untuk suatu account disimpan. • Storage Format : merupakan format penyimpanan file di dalam folder tiap

3 Untuk mengetahui konsep dari sistem bilangan dan Agar mahasiswa dapat mengetahui dan lebih Pengenalan.. Konsep Dasar Sistem

Hasil penelitian tersebut menyebutkan bahwa frekuensi nafas, suhu tubuh dan saturasi oksigen lebih baik pada bayi yang menjalani perawatan metode kanguru

Pertumbuhan ekonomi tidak berpengaruh secara signifikan terhadap pengangguran terdidik di Provinsi Jawa Tengah, sehingga mempunyai pengertian bahwa perubahan yang

[r]

Contractinq Parties of a request from the other Contracting Party stating the subject or subjects or which consultation is desired.. F..ach of the Contractinq

serrata jantan di habitat mangrove TN Kutai bersifat allometrik positif (pertambahan bobot lebih cepat dibanding pertambahan lebar karapasnya) sedangkan S. serrata betina