• Tidak ada hasil yang ditemukan

Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision

N/A
N/A
Protected

Academic year: 2017

Membagikan "Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision"

Copied!
57
0
0

Teks penuh

(1)

ABSTRACT

DEVI DIAN PRAMANA PUTRA. Extended Boolean Model on Retrieval Using P-Norm Model and Belief Revision. Supervised by JULIO ADISANTOSO.

Extended Boolean Model is introduced to intermediate between the Boolean system of query processing and the vector-processing model. The query structure inherent in the Boolean system is preserved, while at the same time weighted term may be incorporated into both queries and stored documents. The retrieved output can also be ranked in strict similarity order with the user queries. Belief Revision is a logical framework in which documents and queries are represented by propositional formulas. Disjunctive Normal Form (DNF) is used to represent documents and queries in the Belief Revision. The purpose of this research is to implement Extended Boolean Model using P-Norm Model and Belief Revision for documents in Bahasa Indonesia. This testing used 30 queries from a thousand agricultural documents and 13 queries from 93 medicinal plants documents. The test result shows that the use of medicinal plants documents is better than agricultural documents. This is due to agricultural documents which have a high similarity between documents. The performance of information retrieval with P-Norm Model and Belief Revision gave good result which is around 81% average precision for medicinal plants documents and 54% for agricultural documents.

(2)

1

PENDAHULUAN

Latar Belakang

Temu-kembali informasi model Boolean merupakan model yang paling sederhana. Model Boolean banyak digunakan karena mudah untuk diimplementasikan dan membutuhkan waktu yang relatif singkat untuk proses temu-kembali informasi. Model Boolean juga dapat memberikan hasil recall dan precision yang tinggi jika kueri diformulasikan dengan baik.

Dalam model Boolean kueri diekspresikan menggunakan ekspresi Boolean. Dokumen yang dikembalikan merupakan hasil pencocokan pasti dari kueri yang diberikan. Dokumen yang dikembalikan diprediksi relevan atau tidak relevan. Oleh karena itu dokumen yang dikembalikan bisa terlalu banyak atau sedikit.

Kondisi tersebut dapat membatasi informasi yang akan diterima oleh pengguna. Untuk itu diperlukan sebuah model yang mampu menangani pencocokan sebagian antara dokumen dengan kueri berbentuk Boolean. Salton et al. (1983) memperkenalkan Extended Boolean Model (EBM) yang dikenal juga sebagai P-Norm Model untuk mengatasi kelemahan dari model Boolean.

Lee dan Fox (1988) melakukan penelitian dengan membandingkan P-Norm Model dengan Mixed Min and Max Model (MMM) dan Paice Model. Penelitian tersebut menggunakan tiga koleksi dokumen yaitu: CISI, CACM, dan INSPEC. Hasil penelitian menunjukkan bahwa P-Norm Model mendapatkan nilai average precision yang paling baik. Namun P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan dengan semakin besarnya nilai p yang digunakan. Nilai p menunjukkan nilai keketatan pada operator Boolean.

Selanjutnya Losada dan Barreiro (1999) melakukan penelitian menggunakan Belief Revision (BR) untuk pemeringkatan dokumen dalam EBM. BR merupakan logical framework, dimana dokumen dan kueri direpresentasikan dengan formula proposisi. Pada penelitian tersebut didapatkan bahwa BR tidak membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan. Penelitian tersebut membandingkan BR dengan P-Norm Model dengan nilai p=1 dengan bobot biner untuk dokumen dan kueri. Untuk itu, penelitian kali ini akan membandingkan Belief Revision

dengan P-Norm Model dengan nilai p=1, 2, 5 dan 9 untuk dokumen berbahasa Indonesia yaitu dokumen pertanian dan dokumen tanaman obat dengan struktur tag XML.

Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1.

Mengimplementasikan Belief Revision dan P-Norm Model untuk pemeringkatan dokumen Bahasa Indonesia.

2.

Membandingkan kinerja Belief Revision dan P-Norm Model pada sistem temu-kembali.

Ruang Lingkup

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.

Manfaat Penelitian

Manfaat dari penelitian ini adalah melakukan pemeringkatan dokumen berbahasa Indonesia (dokumen pertanian dan dokumen tanaman obat) dengan kueri berbentuk Boolean. P-Norm Model dan Belief Revision diharapkan dapat meningkatkan kinerja sistem dengan kueri berbentuk Boolean.

TINJAUAN PUSTAKA

Information Retrieval (Temu-Kembali Informasi)

Temu-kembali informasi berkaitan dengan merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR system), sehingga kueri tersebut akan merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan dengan kueri (Baeza-Yates & Ribeiro-Neto 1999).

Inverted Index

(3)

1

PENDAHULUAN

Latar Belakang

Temu-kembali informasi model Boolean merupakan model yang paling sederhana. Model Boolean banyak digunakan karena mudah untuk diimplementasikan dan membutuhkan waktu yang relatif singkat untuk proses temu-kembali informasi. Model Boolean juga dapat memberikan hasil recall dan precision yang tinggi jika kueri diformulasikan dengan baik.

Dalam model Boolean kueri diekspresikan menggunakan ekspresi Boolean. Dokumen yang dikembalikan merupakan hasil pencocokan pasti dari kueri yang diberikan. Dokumen yang dikembalikan diprediksi relevan atau tidak relevan. Oleh karena itu dokumen yang dikembalikan bisa terlalu banyak atau sedikit.

Kondisi tersebut dapat membatasi informasi yang akan diterima oleh pengguna. Untuk itu diperlukan sebuah model yang mampu menangani pencocokan sebagian antara dokumen dengan kueri berbentuk Boolean. Salton et al. (1983) memperkenalkan Extended Boolean Model (EBM) yang dikenal juga sebagai P-Norm Model untuk mengatasi kelemahan dari model Boolean.

Lee dan Fox (1988) melakukan penelitian dengan membandingkan P-Norm Model dengan Mixed Min and Max Model (MMM) dan Paice Model. Penelitian tersebut menggunakan tiga koleksi dokumen yaitu: CISI, CACM, dan INSPEC. Hasil penelitian menunjukkan bahwa P-Norm Model mendapatkan nilai average precision yang paling baik. Namun P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan dengan semakin besarnya nilai p yang digunakan. Nilai p menunjukkan nilai keketatan pada operator Boolean.

Selanjutnya Losada dan Barreiro (1999) melakukan penelitian menggunakan Belief Revision (BR) untuk pemeringkatan dokumen dalam EBM. BR merupakan logical framework, dimana dokumen dan kueri direpresentasikan dengan formula proposisi. Pada penelitian tersebut didapatkan bahwa BR tidak membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan. Penelitian tersebut membandingkan BR dengan P-Norm Model dengan nilai p=1 dengan bobot biner untuk dokumen dan kueri. Untuk itu, penelitian kali ini akan membandingkan Belief Revision

dengan P-Norm Model dengan nilai p=1, 2, 5 dan 9 untuk dokumen berbahasa Indonesia yaitu dokumen pertanian dan dokumen tanaman obat dengan struktur tag XML.

Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1.

Mengimplementasikan Belief Revision dan P-Norm Model untuk pemeringkatan dokumen Bahasa Indonesia.

2.

Membandingkan kinerja Belief Revision dan P-Norm Model pada sistem temu-kembali.

Ruang Lingkup

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.

Manfaat Penelitian

Manfaat dari penelitian ini adalah melakukan pemeringkatan dokumen berbahasa Indonesia (dokumen pertanian dan dokumen tanaman obat) dengan kueri berbentuk Boolean. P-Norm Model dan Belief Revision diharapkan dapat meningkatkan kinerja sistem dengan kueri berbentuk Boolean.

TINJAUAN PUSTAKA

Information Retrieval (Temu-Kembali Informasi)

Temu-kembali informasi berkaitan dengan merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR system), sehingga kueri tersebut akan merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan dengan kueri (Baeza-Yates & Ribeiro-Neto 1999).

Inverted Index

(4)

2 dapat dilihat pada Gambar 1. Kumpulan dari

term yang unik disebut dictionary atau vocabulary. Untuk masing-masing term, terdapat kumpulan dokumen dimana term tersebut muncul yang disebut posting list. Setiap entry dalam posting list dapat pula berisi lokasi term di dalam dokumen seperti kata, kalimat dan paragraf. Lalu setiap entry dapat juga berisi bobot untuk term di dalam dokumen. Bobot tersebut digunakan dalam perhitungan ukuran kesamaan dari kueri yang dimasukkan.

Gambar 1 Struktur inverted index

Boolean Model

Boolean Model adalah model untuk temu-kembali informasi yang memungkinkan input kueri yang berbentuk ekspresi Boolean dari term yang merupakan kombinasi dari operator AND, OR, dan NOT (Manning et al 2008). Model Booelan mempertimbangkan bahwa index term muncul atau tidak di dalam dokumen, sehingga index term diasumsikan memiliki bobot biner. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form (DNF). Dimana klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan menampilkan dokumen berdasarkan urutan dokumen ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan, karena tidak ada pencocokan sebagian antara kueri dengan dokumen.

Extended Boolean Model

Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean biasa. EBM menggabungkan karakateristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al 1983). Dengan cara ini dokumen mungkin sedikit relevan jika cocok dengan beberapa istilah kueri dan akan dikembalikan sebagai hasilnya. Ketika hanya dua term dalam kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap term digambarkan pada koordinat yang

berbeda. Untuk kueri AND titik (1,1) merepresentasikan dimana kedua term muncul dan merupakan titik yang paling diinginkan, sedangkan untuk kueri OR, titik (0,0) merepresentasikan dimana kedua term tidak muncul dan merupakan titik yang tidak diingikan. Jika hanya salah satu term yang muncul maka nilai ukuran kesamaan akan bernilai ⁄ untuk OR kueri dan ⁄ untuk AND kueri. Sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan persamaan berikut (Salton et al 1983):

( ) √

dengan , merupakan bobot term A dan bobot term B pada dokumen.

Gambar 2 Sebaran ukuran kesamaan EBM

P-Norm Model

P-Norm Model memberikan gagasan untuk memasukkan nilai p, yaitu nilai yang menunjukkan keketatatan pada operator. Nilai p berkisar dari satu sampai tak-hingga. Untuk P-Norm Model ukuran kesamaan antara dokumen dan kueri didefinisikan sebagai berikut: ( ) [ ] ⁄ ( ) [ ] ⁄ dengan

 merupakan kueri term berbobot

 merupakan bobot term A dan term B pada dokumen

(5)

3

Belief Revision

Belief revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam knowledge base yang ada. Formalisasi logis dari BR telah diteliti dalam filsafat, database dan kecerdasan buatan untuk desain agen rasional. Dalam temu-kembali informasi BR direpresentasikan dalam logika proposisi. Dalam BR, model dibangun dari interpretasi. Himpuan dari model dapat dituliskan sebagai Mod( ) dimana adalah formula. Pseudocode dari Belief Revision yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.

Gambar 3 Pseudocode Belief Revision

BR menggunakan Symmetric difference antara dua interpretasi yang berbeda yaitu I dan J. Ukuran dari jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J). Lalu jarak antara Mod( ) dan I adalah:

Kita misalkan adalah kueri(q) dan I adalah model dokumen(md) dan k adalah jumlah term dalam kueri. Dokumen hanya mempunyai satu model(md), sedangkan kueri memiliki himpunan model(Mod(q)). Kita dapat menggunakan Dalal’s distance untuk model di atas.

Formula ini menggunakan jarak antara setiap model dari kueri (J) dan model dokumen (md), lalu dihitung kardinalitas dari masing-masing model kueri terhadap model dokumen. Langkah 1 sampai 10 pada Gambar 3 menunjukkan algoritme untuk formula di atas. Pertama akan ditetapkan nilai sama dengan nol. Lalu untuk masing-masing model dokumen ( ), ditetapkan nilai

sama dengan banyaknya kata unik dalam koleksi dokumen. Untuk masing-masing , dihitung nilai . Jarak dari klausa dokumen kepada kueri adalah jarak terdekat dari klausa dokumen ke klausa kueri. ( ) adalah kardinalitas dari { | } yaitu banyaknya term positif yang muncul dalam klausa satu dan negatif term pada klausa yang lain atau sebaliknya. | | merupakan banyaknya term dalam yang tidak termasuk dalam . Jika nilai maka nilai sama dengan nilai . Ulangi langkah 4 sampai tidak ada lagi yang tersisa. Update lalu ulangi langkah 2 sampai tidak ada lagi yang tersisa. Jarak rata-rata merupakan hasil bagi dengan banyaknya klausa . merupakan nilai terkecil untuk banyaknya term dalam klausa . Lalu dipilih kardinalitas terkecil sebagai jarak(distance).

Jarak (distance) dapat digunakan untuk menghitung ukuran kesamaan yang dinormalisasi dalam interval [0,1]. Langkah 11 menujukkan algoritme untuk formula di bawah.

Dari persamaan di atas diperoleh ukuran kesamaan (similarity measure) antara dokumen(d) dan kueri(q) dimana k adalah jumlah term yang muncul dalam kueri ( Losada and Barreiro 1999).

Pembobotan Tf-Idf

Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Document frequency (df) merupakan banyaknya dokumen di dalam korpus yang mengandung kata tertentu (Manning et al. 2008).

Pembobotan tf-idf memberikan bobot pada term t dalam dokumen d dengan nilai:

dengan

merupakan frekuensi term t pada dokumen d

 merupakan jumlah dokumen dalam koleksi

(6)

4 Kesamaan antar kueri dan dokumen dapat

ditentukan dengan menghitung cosine similarity dari vektor istilah kueri ⃗ ) dan vektor istilah dokumen ( ⃗ ) (Manning et al. 2008):

⃗ ⃗ | ⃗ | | ⃗ |

dengan pembilang merupakan dot product (inner product) antara ⃗ dan ⃗ . Dot Product antara dua vektor didefinisikan sebagai ∑ , sedangkan penyebut merupakan perkalian panjang Euclidean. Panjang Euclidean didefinisikan sebagai

√∑ ⃗

Dalam EBM bobot term dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi (Salton et al 1983). Normalisasi bobot tf-idf didapatkan dari persamaan berikut:

dengan

 merupakan bobot term i dalam dokumen j

merupakan frekuensi term i dalam dokumen j

 merupakan frekuensi maksimum term i dalam dokumen j

merupakan nilai idf dari term i dalam koleksi

merupakan nilai maksimum idf term i dalam koleksi.

Evaluasi Temu-Kembali Informasi

Manning (2008) menyatakan, terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif adalah recall dan precision (R-P). Perhitungan recall-precision diformulasikan sebagai berikut:

Relevant Not Relevant

Retrieved Tp fp

Not

Retrieved Fn tn

Precision = P = tp/(tp + fp)

Recall = R = tp/(tp+fn)

Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:

̅( ) ∑

dimana, ̅( )adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i.

METODE PENELITIAN

Penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan dokumen (korpus), pemrosesan dokumen, pemrosesan kueri, perhitungan ukuran kesamaan antara dokumen dengan kueri untuk P-Norm Model dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri dan evaluasi terhadap kinerja sistem. Secara umum gambaran sistem dapat dilihat pada Gambar 4.
(7)

4 Kesamaan antar kueri dan dokumen dapat

ditentukan dengan menghitung cosine similarity dari vektor istilah kueri ⃗ ) dan vektor istilah dokumen ( ⃗ ) (Manning et al. 2008):

⃗ ⃗ | ⃗ | | ⃗ |

dengan pembilang merupakan dot product (inner product) antara ⃗ dan ⃗ . Dot Product antara dua vektor didefinisikan sebagai ∑ , sedangkan penyebut merupakan perkalian panjang Euclidean. Panjang Euclidean didefinisikan sebagai

√∑ ⃗

Dalam EBM bobot term dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi (Salton et al 1983). Normalisasi bobot tf-idf didapatkan dari persamaan berikut:

dengan

 merupakan bobot term i dalam dokumen j

merupakan frekuensi term i dalam dokumen j

 merupakan frekuensi maksimum term i dalam dokumen j

merupakan nilai idf dari term i dalam koleksi

merupakan nilai maksimum idf term i dalam koleksi.

Evaluasi Temu-Kembali Informasi

Manning (2008) menyatakan, terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif adalah recall dan precision (R-P). Perhitungan recall-precision diformulasikan sebagai berikut:

Relevant Not Relevant

Retrieved Tp fp

Not

Retrieved Fn tn

Precision = P = tp/(tp + fp)

Recall = R = tp/(tp+fn)

Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:

̅( ) ∑

dimana, ̅( )adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i.

METODE PENELITIAN

Penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan dokumen (korpus), pemrosesan dokumen, pemrosesan kueri, perhitungan ukuran kesamaan antara dokumen dengan kueri untuk P-Norm Model dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri dan evaluasi terhadap kinerja sistem. Secara umum gambaran sistem dapat dilihat pada Gambar 4.
(8)

5 Koleksi Dokumen

Dokumen yang digunakan sebagai dokumen pengujian adalah dokumen corpus yang berasal dari lab TKI hasil Penelitian Adisantoso & Ridha (2004). Dokumen yang berada di Lab TKI berjumlah 1000 dokumen pertanian dan 93 dokumen tanaman obat berasal dari Lab Computational Intelligence.

Pemrosesan Dokumen

Pada tahap ini dilakukan lowercasing terhadap dokumen, yaitu dengan mengubah semua huruf menjadi huruf non-capital agar menjadi case insensitive pada saat dilakukan pemrosesan teks dokumen. Selanjutnya dilakukan proses parsing yang merupakan proses memilah dokumen menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat (Ridha 2002). Dalam penelitian ini unit terkecil yang digunakan adalah kata yang terdiri minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords. Stopwords adalah kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna. Lalu dilakukan pembobotan pada term dengan pembobotan tf-idf dan tf-tf-idf yang sudah dinormalisasi.

Pemrosesan Kueri

Proses selanjutnya adalah melakukan pemrosesan terdapat kueri yang dimasukkan. Pemrosesan kueri sama halnya dengan pemrosesan dokumen. Kueri yang dimasukkan akan dilakukan lowercasing dan juga parsing. Pada pemrosesan kueri sedikit berbeda karena kueri yang dimasukkan mengandung operator Boolean, sehingga perlu dipisahkan antara term yang mengandung operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan, sehingga memudahkan dalam perhitungan nilai ukuran kesamaan. Setelah pemrosesan kueri maka akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan.

Similarity Dokumen dengan Kueri

Pada perhitungan similarity antara dokumen dengan kueri untuk metode P-Norm Model, dilakukan pengecekan apakah jenis operator Boolean yang digunakan. Perhitungan ukuran kesamaan akan dilakukan sesuai dengan jenis operator yang dimasukkan, sedangkan

untuk Belief Revision, kueri direpresentasikan sebagai formula proposisi. Dalam formula proposisi dokumen dan kueri harus dalam bentuk Disjunctive Normal Form (DNF). DNF mempunyai bentuk: , dengan masing-masing adalah klausa yang dihubungkan dengan operator AND. Perhitungan nilai kesamaan Belief Revision dilakukan dengan membandingkan model kueri dengan model dokumen.

Pemeringkatan Dokumen

Pemeringkatan dokumen dilakukan setelah perhitungan nilai kesamaan antara dokumen dengan kueri untuk P-Norm Model dan Belief Revision. Pemeringkatan dokumen dilakukan dengan mengurutkan dokumen yang dikembalikan sesuai dengan bobot yang diperoleh. Semakin besar bobot yang diperoleh maka peringkat dokumen yang dikembalikan akan semakin tinggi.

Evaluasi Hasil Temu-Kembali

Pengujian sistem dilakukan dengan perhitungan terhadap recall dan precision. Recall adalah rasio dokumen relevan yang ditemukembalikan. Precision adalah dokumen yang ditemukembalikan, dokumen tersebut relevan. Dalam perhitungan recall, digunakan elevent standart recall yaitu 0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.7,0.8,0.9 dan 1.0. Perhitungan dilakukan untuk masing-masing metode.

Hasil perhitungan recall dan precision untunk masing-masing model akan dibandingkan dalam bentuk grafik recall-precision, selain itu juga akan dihitung average precision dari masing-masing model untuk memperoleh model yang baik untuk temu-kembali.

Asumsi

Asumsi-asumsi yang digunakan dalam pembangunan sistem ini adalah:

1. Tidak ada kesalahan dalam pengetikan kueri.

2. Setiap kata dalam kueri dipisahkan dengan operator AND dan OR.

(9)

6 Lingkungan Implementasi

Lingkungan implementasi yang akan digunakan adalah sebagai berikut:

Perangkat lunak:

 Microsoft Windows 7 Profesional sebagai sistem operasi.

 PHP sebagai bahasa pemrograman.

 Netbeans IDE 6.9 sebagai IDE untuk pembangunan sistem.

 Wamp Server Apache version 2.2.11 sebagai web server.

 Notepad++.

 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem.

Perangkat keras:

 Processor Intel Core 2 duo 2.2 GHz  RAM 2 GB

Hardisk 320GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat yang berasal dari Laboratorium Temu-Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.

Tabel 1 Deskripsi dokumen pengujian

Uraian Dokumen Pertanian Nilai (byte)

Ukuran keseluruhan dokumen 4.139.332

Ukuran rata-rata dokumen 4139

Ukuran dokumen terbesar 54.082

Ukuran dokumen terkecil 451

Uraian Dokumen Tanaman Obat

Nilai (byte)

Ukuran keseluruhan dokumen 297.796

Ukuran rata-rata dokumen 3202

Ukuran dokumen terbesar 13.628

Ukuran dokumen terkecil 928

Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen pertanian dapat dilihat pada Gambar

5, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 6.

Gambar 5 Contoh dokumen pertanian

Gambar 6 Contoh dokumen tanaman obat

Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

 <DATE></DATE>, menunjukkan tanggal dari berita.

 <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.

 <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

 <nama></nama>, tag ini menunjukkan nama dari tanaman obat.

 <namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.

<DOC>

<DOCNO>balaipenelitian000000-001</DOCNO>

<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum

Gaertn.)…

</TITLE>

<AUTHOR>Ireng DarwatiIreng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>

<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang

optimaldiperlukan tanah yang

sifat-sifat fisik dan kesuburannya baik….</P> </TEXT> </DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili :

Crassulaceae. Nama Lokal : Cakar itek (Sunda);

</content>

(10)

6 Lingkungan Implementasi

Lingkungan implementasi yang akan digunakan adalah sebagai berikut:

Perangkat lunak:

 Microsoft Windows 7 Profesional sebagai sistem operasi.

 PHP sebagai bahasa pemrograman.

 Netbeans IDE 6.9 sebagai IDE untuk pembangunan sistem.

 Wamp Server Apache version 2.2.11 sebagai web server.

 Notepad++.

 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem.

Perangkat keras:

 Processor Intel Core 2 duo 2.2 GHz  RAM 2 GB

Hardisk 320GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat yang berasal dari Laboratorium Temu-Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.

Tabel 1 Deskripsi dokumen pengujian

Uraian Dokumen Pertanian Nilai (byte)

Ukuran keseluruhan dokumen 4.139.332

Ukuran rata-rata dokumen 4139

Ukuran dokumen terbesar 54.082

Ukuran dokumen terkecil 451

Uraian Dokumen Tanaman Obat

Nilai (byte)

Ukuran keseluruhan dokumen 297.796

Ukuran rata-rata dokumen 3202

Ukuran dokumen terbesar 13.628

Ukuran dokumen terkecil 928

Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen pertanian dapat dilihat pada Gambar

5, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 6.

Gambar 5 Contoh dokumen pertanian

Gambar 6 Contoh dokumen tanaman obat

Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

 <DATE></DATE>, menunjukkan tanggal dari berita.

 <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.

 <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

 <nama></nama>, tag ini menunjukkan nama dari tanaman obat.

 <namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.

<DOC>

<DOCNO>balaipenelitian000000-001</DOCNO>

<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum

Gaertn.)…

</TITLE>

<AUTHOR>Ireng DarwatiIreng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>

<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang

optimaldiperlukan tanah yang

sifat-sifat fisik dan kesuburannya baik….</P> </TEXT> </DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili :

Crassulaceae. Nama Lokal : Cakar itek (Sunda);

</content>

(11)

7  <content></content>, tag ini

mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.  <fam></fam>, tag ini menunjukkan

nama family dari tanaman obat.

 <penyakit></penyakit>, tag ini menunjukkan penyakit yang berkaitan dengan tanaman obat.

Pemrosesan Dokumen

Sebelum dilakukan proses pengindeksan koleksi dokumen terlebih dahulu dilakukan pembuangan tagging. Pembuangan tagging ini dilakukan karena tagging bukan merupakan penciri dari suatu dokumen. Gambar 7 menunjukkan format dokumen setelah dilakukan pembungan tagging.

Setelah proses pembuangan tagging lalu dilakukan parsing terhadap dokumen, kemudian dilakukan proses pembuangan stopword, pembuangan tanda baca dan mengubah term ke lower case. Setelah itu dilakukan pembuatan inverted index dari masing-masing kata unik dan disimpan ke dalam file.

Pembobotan dilakukan untuk masing-masing dokumen dengan pembobotan Tf-Idf dan Tf-Idf yang sudah dinormalisasi. Hasil pembobotan juga disimpan ke dalam file.

Gambar 7 Format dokumen setelah dilakukan pembuangan tagging.

Pemrosesan Kueri

Kueri yang digunakan dalam penelitian ini berupa kueri yang berbentuk Boolean. Kata dalam kueri dipisahkan oleh operator AND dan OR.

Dalam pemrosesan kueri yang pertama dilakukan adalah melakukan proses case folding. Case folding adalah membuat huruf pada teks menjadi kecil. Lalu dilakukan pengecekan apakan dalam kueri terdapat operator Boolean, jika ada maka kata akan

dijadikan index dalam array dengan nama

‘i_root’ selainnya kata akan dijadikan index

dengan nama ‘i_term’ dan jika terdapat tanda

kurung maka kata akan dijadikan index dengan

nama ‘brackets’ dan akan dilakukan proses rekursif dalam memroses kueri tersebut. Contoh pemrosesan kueri, dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 8.

Kueri ‘gagal AND panen’ sudah dalam DNF

sehingga dapat diproses untuk mendapatkan ukuran kesamaan.

Gambar 8 Contoh pemrosesan kueri

Temu-Kembali dengan Boolean Model

Pada temu-kembali menggunakan Boolean Model kueri yang dimasukkan mengandung operator Boolean. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list dari index ‘i_term’ tersebut dan dilakukan proses intersection. Jika operator adalah OR maka akan dilakukan proses merge terhadap posting list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari kueri yang diberikan. Karena dalam Boolean Model tidak ada pencocokan sebagian antara dokumen dan kueri yang diberikan. Berikut adalah penggalan contoh hasil temu-kembali menggunakan Boolean Model dengan kueri

‘gagal AND panen’. balaipenelitian000000-001

PRODUKTIVITAS SOM JAWA Ireng Darwati

Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk

menghasilkan umbi yang

optimal, diperlukan tanah

yang sifat-sifat fisik dan kesuburannya baik.

Array (

[i_term] => Array (

[0] => gagal [1] => panen )

[i_root] => Array (

[0] => and )

)

Array (

[0] => gatra070203.txt [1] => gatra161002.txt [2] => gatra190802.txt [3] => gatra210704.txt [4] => gatra260803.txt [5] => gatra301002.txt [6] => indosiar031203.txt [7] => indosiar040903.txt [8] => indosiar050704-002.txt [9] => indosiar130104.txt

(12)

8 Temu-Kembali dengan P-Norm Model

Pada temu-kembali menggunakan P-Norm Model akan ditentukan nilai p yang akan digunakan. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator adalah AND maka rumus yang digunakan adalah

( )

[

]

Jika operator yang digunakan adalah OR maka persamaan yang digunakan adalah

( )

[

]

dengan

 merupakan kueri term berbobot

 merupakan bobot term A dan term B pada dokumen

 .

Pada P-Norm Model nilai p yang digunakan adalah 1, 2, 5 dan 9. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan P-Norm Model untuk nilai p=9 dengan kueri

‘gagal AND panen’.

Temu-Kembali dengan Belief Revision

Pada temu-kembali menggunakan Belief Revision kueri yang dimasukkan harus dalam bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief Revision.

Pada Gambar 9 literal merupakan himpunan kata unik dalam koleksi dokumen,

untuk model dokumen, untuk model kueri. Terdapat dua model dokumen dan dua model kueri. Hasil dari perhitungan similarity menghasilkan nilai 1, hal tersebut karena kueri yang dimasukkan dapat dipenuhi oleh model dokumen. Pada penelitian ini dokumen hanya mempunyai satu model sedangkan kueri memiliki satu atau lebih model. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan Belief Revision

pada dokumen pertanian dengan kueri ‘gagal AND panen’.

Gambar 9 Contoh perhitungan algoritma Belief Revision

Array (

[kompas030704.txt]=> 0.19519 [indosiar140204.txt]=> 0.12138 [republika060804-001.txt]=>0.09549 [situshijau280404-002.txt]

=>0.08724

[gatra301002.txt] => 0.08230 [indosiar040903.txt] => 0.08230 [gatra190902-02.txt] => 0.08055 [indosiar240703.txt] => 0.08055 [indosiar260803-001.txt] => 0.0776 [suarapembaruan260703-002.txt] => 0.07699

)

Array(

(13)

9 Evaluasi Sistem Temu-Kembali Informasi

Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen dan kueri uji yang berbeda.

1.Pengujian pada Dokumen Pertanian

Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 4.

Perbandingan kinerja Belief Revision

dengan P-Norm Model

Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat pada Tabel 2. Lalu untuk ilustrasi perbandingan kinerja Belief Revision dengan P-Norm dapat dilihat pada Gambar 10.

Tabel 2 Nilai AVP BR dengan P-Norm Model pada dokumen pertanian

Metode AVP

Belief Revision 0.5490

P-Norm Model 0.5489

Pada Tabel 2 dapat dilihat bahwa Belief Revision mendapat nilai AVP sebesar 0.5490. Sedangkan P-Norm medapat nilai AVP sebesar 0.5489. Dapat dilihat bahwa Belief Revision mendapat nilai AVP yang lebih besar dari P-Norm yaitu dengan selisih sebesar 0.0001. Dengan menggunakan Belief Revision maka nilai AVP meningkat sebesar 0.01%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm Model dengan average precision sekitar 54%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 54% hasil temu-kembali relevan terhadap kueri.

Gambar 10 Grafik R-P kinerja BR dengan P-Norm Model dokumen pertanian

2.Pengujian pada Dokumen Tanaman Obat

Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji berikut dokumen-dokumen yang relevan (Lampiran 3). Pengujian yang dilakukan sama seperti pengujian sebelumnya yaitu mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 5.

Perbandingan kinerja Belief Revision

dengan P-Norm Model

Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat pada Tabel 3. Pada Gambar 11 dapat dilihat perbandingan kinerja Belief Revision dengan P-Norm Model.

Tabel 3 Nilai AVP BR dengan P-Norm Model pada dokumen tanaman obat

Metode AVP

Belief Revision 0.8128

P-Norm Model 0.8378

Pada Tabel 3 dapat dilihat bahwa Belief Revision mendapat nilai AVP sebesar 81,28%. Sedangkan P-Norm Model mendapat nilai AVP sebesar 83.78%. Dari data di atas dapat dilihat bahwa Belief Revision memiliki nilai AVP yang lebih besar dari P-Norm Model yaitu dengan selisih sebesar 2.5%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm Model dengan average precision sekitar 83%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 83% hasil temu-kembali relevan terhadap kueri.

(14)

10

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian ini menunjukkan bahwa:

1. Belief Revision akan optimal untuk dokumen yang homogen, sedangkan P-Norm Model akan optimal untuk dokumen yang kurang homogen.

2. Kinerja sistem yang didapatkan secara keseluruhan sudah cukup baik yaitu lebih dari 50%.

Saran

Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian ke depan seperti:

1. Menggunakan stemming untuk melihat pengaruh stemming terhadap kinerja Belief Revision dan P-Norm Model.

2. Menggunakan dokumen uji yang lebih banyak dan beragam.

3. Menggunakan pembobotan dalam Belief Revision.

Daftar Pustaka

Adisantoso J, Ridha A. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektifitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4, Departemen Ilmu Komputer FMIPA IPB, Bogor.

Baaeza-Yates R, Ribeiro B. 1999. Modern Information Retrieval. Addison-Wesley, New York.

Herdi H. 2010. Pembobotan dalam Proses Pengindeksan Dokumen Bahasa Indonesia menggunakan Framework Indri [skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor.

Lee W C, Fox E A. 1988. Experimental Comparation of Schemes for Interpreting Boolean Queries. TR-88-27, VPI&SU Comp. Science Dept., September 1988, Blacksburg, VA.

Losada D E, Barreiro A. 1999. Using a Belief Revision Operator for Document Ranking in Extended Boolean Models. In Proc. of SIGIR-99, the 22th ACM Conference on Research and Development in Information Retrieval, pages 66–73, Berkeley, California, August 1999.

Losada D E, Barreiro A. 2000. Implementing Document Ranking within a Logical Framework. SPIRE 2000: 188-198.

Losada D E, Barreiro A. 2001. A Logical Model for Information Retrieval Based on Propositional Logic and Belief Revision. Comput. J. 44(5): 410-424 (2001).

Manning C D, Raghavan P, Schutze H. 2009. Introduction to Information Retrieval. America, New York.

Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. [skripsi]. Bogor: Departemen Ilmu Komputer, Institut Petanian Bogor.

(15)

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN

P-NORM MODEL DAN BELIEF REVISION

DEVI DIAN PRAMANA PUTRA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(16)

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN

P-NORM MODEL DAN BELIEF REVISION

DEVI DIAN PRAMANA PUTRA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(17)

ABSTRACT

DEVI DIAN PRAMANA PUTRA. Extended Boolean Model on Retrieval Using P-Norm Model and Belief Revision. Supervised by JULIO ADISANTOSO.

Extended Boolean Model is introduced to intermediate between the Boolean system of query processing and the vector-processing model. The query structure inherent in the Boolean system is preserved, while at the same time weighted term may be incorporated into both queries and stored documents. The retrieved output can also be ranked in strict similarity order with the user queries. Belief Revision is a logical framework in which documents and queries are represented by propositional formulas. Disjunctive Normal Form (DNF) is used to represent documents and queries in the Belief Revision. The purpose of this research is to implement Extended Boolean Model using P-Norm Model and Belief Revision for documents in Bahasa Indonesia. This testing used 30 queries from a thousand agricultural documents and 13 queries from 93 medicinal plants documents. The test result shows that the use of medicinal plants documents is better than agricultural documents. This is due to agricultural documents which have a high similarity between documents. The performance of information retrieval with P-Norm Model and Belief Revision gave good result which is around 81% average precision for medicinal plants documents and 54% for agricultural documents.

(18)

TEMU-KEMBALI MODEL EXTENDED BOOLEAN MENGGUNAKAN

P-NORM MODEL DAN BELIEF REVISION

DEVI DIAN PRAMANA PUTRA

Skripsi

Sebagai salah satu syarat untuk memperoleh

gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(19)

Judul : Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision Nama : Devi Dian Pramana Putra

NRP : G64070059

Menyetujui:

Pembimbing

Ir. Julio Adisantoso, M.Kom NIP 19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP 19601126 198601 2 001

(20)

PRAKATA

Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision.

Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpan bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:

1. Ibu dan Bapak serta adik yang selalu memberikan doa, nasihat, dukungan dan semangat kepada Penulis sehingga dapat menyelesaikan tugas akhir ini.

2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.

3. Bapak Ahmad Ridha, S.Kom, M.S dan Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku dosen penguji pada ujian skripsi.

4. Teman-teman satu bimbingan Nova Maulizar, Aprilia Ramadhina, Woro Indriyani, Fandi Rahmawan, Agus Umriadi, Isna Mariam, Nutri Rahayuni dan Ilkomerz 44 terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.

5. Seksi konsumsi seminar, Yuridhis Kurniawan dan Fandi Rahmawan.

6. Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Oktober 2011

(21)

RIWAYAT HIDUP

(22)

iv

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... v

DAFTAR TABEL ... v

DAFTAR LAMPIRAN... v

PENDAHULUAN ... 1 Latar Belakang ... 1 Tujuan Penelitian ... 1 Ruang Lingkup Penelitian ... 1 Manfaat Penelitian ... 1

TINJAUAN PUSTAKA ... 1 Information Retrieval (Temu-Kembali Informasi) ... 1 Inverted Index ... 1 Boolean Model ... 2 Extended Boolean Model ... 2 P-Norm Model ... 2 Belief Revision ... 3 Pembobotan Tf-Idf ... 3 Evaluasi Temu-Kembali Informasi ... 4

METODE PENELITIAN ... 4 Koleksi Dokumen ... 5 Pemrosesan Dokumen ... 5 Pemrosesan Kueri ... 5 Similarity Dokumen dengan Kueri ... 5 Pemeringkatan Dokumen ... 5 Evaluasi Hasil Temu-Kembali ... 5 Asumsi ... 5 Lingkungan Implementasi ... 6

HASIL DAN PEMBAHASAN ... 6 Koleksi Dokumen Pengujian ... 6 Pemrosesan Dokumen ... 7 Pemrosesan Kueri ... 7 Temu-Kembali dengan Boolean Model ... 7 Temu-Kembali dengan P-Norm Model ... 8 Temu-Kembali dengan Belief Revision ... 8 Evaluasi Sistem Temu-Kembali Informasi ... 9

KESIMPULAN DAN SARAN ... 10 Kesimpulan... 10 Saran ... 10

DAFTAR PUSTAKA ... 10

(23)

v

DAFTAR GAMBAR

Halaman

1 Struktur Inverted Index ... 2

2 Sebaran ukuran kesamaan EBM ... 2

3 Pseudocode Belief Revision ... 3

4 Gambaran umum sistem ... 4

5 Contoh dokumen pertanian ... 6

6 Contoh dokumen tanaman obat ... 6

7 Format dokumen setelah dilakukan pembuangan tagging ... 7

8 Contoh pemrosesan kueri ... 7

9 Contoh perhitungan algoritma Belief Revision ... 8

10 Grafik R-P kinerja BR dengan P-Norm Model pada dokumen pertanian ... 9

11 Grafik R-P kinerja BR dengan P-Norm Model pada dokumen tanaman obat ... .9

DAFTAR TABEL

Halaman

1 Deskripsi dokumen pengujian... 6

2 Nilai AVP BR dengan P-Norm Model pada dokumen pertanian ... 9

3 Nilai AVP BR dengan P-Norm Model pada dokumen tanaman obat ... 9

DAFTAR LAMPIRAN

Halaman

1 Antarmuka Implementasi ... 12

2 Gugus kueri dan jawaban untuk dokumen pertanian ... 13

3 Gugus kueri dan jawaban untuk dokumen tanaman obat ... 19

4 Hasil perhitungan precision pada elevent standart recall untuk dokumen pertanian ... 20

(24)

1

PENDAHULUAN

Latar Belakang

Temu-kembali informasi model Boolean merupakan model yang paling sederhana. Model Boolean banyak digunakan karena mudah untuk diimplementasikan dan membutuhkan waktu yang relatif singkat untuk proses temu-kembali informasi. Model Boolean juga dapat memberikan hasil recall dan precision yang tinggi jika kueri diformulasikan dengan baik.

Dalam model Boolean kueri diekspresikan menggunakan ekspresi Boolean. Dokumen yang dikembalikan merupakan hasil pencocokan pasti dari kueri yang diberikan. Dokumen yang dikembalikan diprediksi relevan atau tidak relevan. Oleh karena itu dokumen yang dikembalikan bisa terlalu banyak atau sedikit.

Kondisi tersebut dapat membatasi informasi yang akan diterima oleh pengguna. Untuk itu diperlukan sebuah model yang mampu menangani pencocokan sebagian antara dokumen dengan kueri berbentuk Boolean. Salton et al. (1983) memperkenalkan Extended Boolean Model (EBM) yang dikenal juga sebagai P-Norm Model untuk mengatasi kelemahan dari model Boolean.

Lee dan Fox (1988) melakukan penelitian dengan membandingkan P-Norm Model dengan Mixed Min and Max Model (MMM) dan Paice Model. Penelitian tersebut menggunakan tiga koleksi dokumen yaitu: CISI, CACM, dan INSPEC. Hasil penelitian menunjukkan bahwa P-Norm Model mendapatkan nilai average precision yang paling baik. Namun P-Norm Model membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan dengan semakin besarnya nilai p yang digunakan. Nilai p menunjukkan nilai keketatan pada operator Boolean.

Selanjutnya Losada dan Barreiro (1999) melakukan penelitian menggunakan Belief Revision (BR) untuk pemeringkatan dokumen dalam EBM. BR merupakan logical framework, dimana dokumen dan kueri direpresentasikan dengan formula proposisi. Pada penelitian tersebut didapatkan bahwa BR tidak membutuhkan waktu polinomial dalam perhitungan ukuran kesamaan. Penelitian tersebut membandingkan BR dengan P-Norm Model dengan nilai p=1 dengan bobot biner untuk dokumen dan kueri. Untuk itu, penelitian kali ini akan membandingkan Belief Revision

dengan P-Norm Model dengan nilai p=1, 2, 5 dan 9 untuk dokumen berbahasa Indonesia yaitu dokumen pertanian dan dokumen tanaman obat dengan struktur tag XML.

Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1.

Mengimplementasikan Belief Revision dan P-Norm Model untuk pemeringkatan dokumen Bahasa Indonesia.

2.

Membandingkan kinerja Belief Revision dan P-Norm Model pada sistem temu-kembali.

Ruang Lingkup

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.

Manfaat Penelitian

Manfaat dari penelitian ini adalah melakukan pemeringkatan dokumen berbahasa Indonesia (dokumen pertanian dan dokumen tanaman obat) dengan kueri berbentuk Boolean. P-Norm Model dan Belief Revision diharapkan dapat meningkatkan kinerja sistem dengan kueri berbentuk Boolean.

TINJAUAN PUSTAKA

Information Retrieval (Temu-Kembali Informasi)

Temu-kembali informasi berkaitan dengan merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR system), sehingga kueri tersebut akan merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan dengan kueri (Baeza-Yates & Ribeiro-Neto 1999).

Inverted Index

(25)

2 dapat dilihat pada Gambar 1. Kumpulan dari

term yang unik disebut dictionary atau vocabulary. Untuk masing-masing term, terdapat kumpulan dokumen dimana term tersebut muncul yang disebut posting list. Setiap entry dalam posting list dapat pula berisi lokasi term di dalam dokumen seperti kata, kalimat dan paragraf. Lalu setiap entry dapat juga berisi bobot untuk term di dalam dokumen. Bobot tersebut digunakan dalam perhitungan ukuran kesamaan dari kueri yang dimasukkan.

Gambar 1 Struktur inverted index

Boolean Model

Boolean Model adalah model untuk temu-kembali informasi yang memungkinkan input kueri yang berbentuk ekspresi Boolean dari term yang merupakan kombinasi dari operator AND, OR, dan NOT (Manning et al 2008). Model Booelan mempertimbangkan bahwa index term muncul atau tidak di dalam dokumen, sehingga index term diasumsikan memiliki bobot biner. Kueri yang dimasukkan dapat direpresentasikan menggunakan Disjunctive Normal Form (DNF). Dimana klausa AND dihubungkan dengan penghubung OR. Pada model Boolean, kueri diproses sesuai dengan operator yang digunakan dan menampilkan dokumen berdasarkan urutan dokumen ditemukan. Dokumen yang dikembalikan tidak mencerminkan relevansi terhadap kueri yang diberikan, karena tidak ada pencocokan sebagian antara kueri dengan dokumen.

Extended Boolean Model

Extended Boolean Model (EBM) merupakan peningkatan dari model Boolean biasa. EBM menggabungkan karakateristik dari Vector Space Model dengan sifat-sifat aljabar Boolean dan peringkat kesamaan antara kueri dan dokumen (Salton et al 1983). Dengan cara ini dokumen mungkin sedikit relevan jika cocok dengan beberapa istilah kueri dan akan dikembalikan sebagai hasilnya. Ketika hanya dua term dalam kueri yang dimasukkan maka sebaran nilai kesamaan dapat dilihat pada Gambar 2. Pada Gambar 2 dapat dilihat bahwa setiap term digambarkan pada koordinat yang

berbeda. Untuk kueri AND titik (1,1) merepresentasikan dimana kedua term muncul dan merupakan titik yang paling diinginkan, sedangkan untuk kueri OR, titik (0,0) merepresentasikan dimana kedua term tidak muncul dan merupakan titik yang tidak diingikan. Jika hanya salah satu term yang muncul maka nilai ukuran kesamaan akan bernilai ⁄ untuk OR kueri dan ⁄ untuk AND kueri. Sehingga ukuran kesamaan akan berkisar dari 0 hingga 1. Perhitungan ukuran kesamaan dalam EBM menggunakan persamaan berikut (Salton et al 1983):

( ) √

dengan , merupakan bobot term A dan bobot term B pada dokumen.

Gambar 2 Sebaran ukuran kesamaan EBM

P-Norm Model

P-Norm Model memberikan gagasan untuk memasukkan nilai p, yaitu nilai yang menunjukkan keketatatan pada operator. Nilai p berkisar dari satu sampai tak-hingga. Untuk P-Norm Model ukuran kesamaan antara dokumen dan kueri didefinisikan sebagai berikut: ( ) [ ] ⁄ ( ) [ ] ⁄ dengan

 merupakan kueri term berbobot

 merupakan bobot term A dan term B pada dokumen

(26)

3

Belief Revision

Belief revision (BR) berkaitan dengan akomodasi sebuah informasi baru ke dalam knowledge base yang ada. Formalisasi logis dari BR telah diteliti dalam filsafat, database dan kecerdasan buatan untuk desain agen rasional. Dalam temu-kembali informasi BR direpresentasikan dalam logika proposisi. Dalam BR, model dibangun dari interpretasi. Himpuan dari model dapat dituliskan sebagai Mod( ) dimana adalah formula. Pseudocode dari Belief Revision yang digunakan dalam implementasi sistem dapat dilihat pada Gambar 3.

Gambar 3 Pseudocode Belief Revision

BR menggunakan Symmetric difference antara dua interpretasi yang berbeda yaitu I dan J. Ukuran dari jarak antar-interpretasi tersebut dapat ditulis sebagai dist(I,J). Lalu jarak antara Mod( ) dan I adalah:

Kita misalkan adalah kueri(q) dan I adalah model dokumen(md) dan k adalah jumlah term dalam kueri. Dokumen hanya mempunyai satu model(md), sedangkan kueri memiliki himpunan model(Mod(q)). Kita dapat menggunakan Dalal’s distance untuk model di atas.

Formula ini menggunakan jarak antara setiap model dari kueri (J) dan model dokumen (md), lalu dihitung kardinalitas dari masing-masing model kueri terhadap model dokumen. Langkah 1 sampai 10 pada Gambar 3 menunjukkan algoritme untuk formula di atas. Pertama akan ditetapkan nilai sama dengan nol. Lalu untuk masing-masing model dokumen ( ), ditetapkan nilai

sama dengan banyaknya kata unik dalam koleksi dokumen. Untuk masing-masing , dihitung nilai . Jarak dari klausa dokumen kepada kueri adalah jarak terdekat dari klausa dokumen ke klausa kueri. ( ) adalah kardinalitas dari { | } yaitu banyaknya term positif yang muncul dalam klausa satu dan negatif term pada klausa yang lain atau sebaliknya. | | merupakan banyaknya term dalam yang tidak termasuk dalam . Jika nilai maka nilai sama dengan nilai . Ulangi langkah 4 sampai tidak ada lagi yang tersisa. Update lalu ulangi langkah 2 sampai tidak ada lagi yang tersisa. Jarak rata-rata merupakan hasil bagi dengan banyaknya klausa . merupakan nilai terkecil untuk banyaknya term dalam klausa . Lalu dipilih kardinalitas terkecil sebagai jarak(distance).

Jarak (distance) dapat digunakan untuk menghitung ukuran kesamaan yang dinormalisasi dalam interval [0,1]. Langkah 11 menujukkan algoritme untuk formula di bawah.

Dari persamaan di atas diperoleh ukuran kesamaan (similarity measure) antara dokumen(d) dan kueri(q) dimana k adalah jumlah term yang muncul dalam kueri ( Losada and Barreiro 1999).

Pembobotan Tf-Idf

Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Document frequency (df) merupakan banyaknya dokumen di dalam korpus yang mengandung kata tertentu (Manning et al. 2008).

Pembobotan tf-idf memberikan bobot pada term t dalam dokumen d dengan nilai:

dengan

merupakan frekuensi term t pada dokumen d

 merupakan jumlah dokumen dalam koleksi

(27)

4 Kesamaan antar kueri dan dokumen dapat

ditentukan dengan menghitung cosine similarity dari vektor istilah kueri ⃗ ) dan vektor istilah dokumen ( ⃗ ) (Manning et al. 2008):

⃗ ⃗ | ⃗ | | ⃗ |

dengan pembilang merupakan dot product (inner product) antara ⃗ dan ⃗ . Dot Product antara dua vektor didefinisikan sebagai ∑ , sedangkan penyebut merupakan perkalian panjang Euclidean. Panjang Euclidean didefinisikan sebagai

√∑ ⃗

Dalam EBM bobot term dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi (Salton et al 1983). Normalisasi bobot tf-idf didapatkan dari persamaan berikut:

dengan

 merupakan bobot term i dalam dokumen j

merupakan frekuensi term i dalam dokumen j

 merupakan frekuensi maksimum term i dalam dokumen j

merupakan nilai idf dari term i dalam koleksi

merupakan nilai maksimum idf term i dalam koleksi.

Evaluasi Temu-Kembali Informasi

Manning (2008) menyatakan, terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif adalah recall dan precision (R-P). Perhitungan recall-precision diformulasikan sebagai berikut:

Relevant Not Relevant

Retrieved Tp fp

Not

Retrieved Fn tn

Precision = P = tp/(tp + fp)

Recall = R = tp/(tp+fn)

Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:

̅( ) ∑

dimana, ̅( )adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i.

METODE PENELITIAN

Penelitian ini dilakukan dalam beberapa tahap, yaitu pengumpulan dokumen (korpus), pemrosesan dokumen, pemrosesan kueri, perhitungan ukuran kesamaan antara dokumen dengan kueri untuk P-Norm Model dan Belief Revision, pemeringkatan dokumen dari hasil perhitungan ukuran kesamaan dokumen-kueri dan evaluasi terhadap kinerja sistem. Secara umum gambaran sistem dapat dilihat pada Gambar 4.
(28)

5 Koleksi Dokumen

Dokumen yang digunakan sebagai dokumen pengujian adalah dokumen corpus yang berasal dari lab TKI hasil Penelitian Adisantoso & Ridha (2004). Dokumen yang berada di Lab TKI berjumlah 1000 dokumen pertanian dan 93 dokumen tanaman obat berasal dari Lab Computational Intelligence.

Pemrosesan Dokumen

Pada tahap ini dilakukan lowercasing terhadap dokumen, yaitu dengan mengubah semua huruf menjadi huruf non-capital agar menjadi case insensitive pada saat dilakukan pemrosesan teks dokumen. Selanjutnya dilakukan proses parsing yang merupakan proses memilah dokumen menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat (Ridha 2002). Dalam penelitian ini unit terkecil yang digunakan adalah kata yang terdiri minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen dihilangkan karena bukan merupakan penciri dari dokumen. Selanjutnya dilakukan pembuangan stopwords. Stopwords adalah kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna. Lalu dilakukan pembobotan pada term dengan pembobotan tf-idf dan tf-tf-idf yang sudah dinormalisasi.

Pemrosesan Kueri

Proses selanjutnya adalah melakukan pemrosesan terdapat kueri yang dimasukkan. Pemrosesan kueri sama halnya dengan pemrosesan dokumen. Kueri yang dimasukkan akan dilakukan lowercasing dan juga parsing. Pada pemrosesan kueri sedikit berbeda karena kueri yang dimasukkan mengandung operator Boolean, sehingga perlu dipisahkan antara term yang mengandung operator Boolean dengan term yang bukan operator Boolean. Pemisahan tersebut dilakukan untuk mengetahui jenis operator yang digunakan, sehingga memudahkan dalam perhitungan nilai ukuran kesamaan. Setelah pemrosesan kueri maka akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan.

Similarity Dokumen dengan Kueri

Pada perhitungan similarity antara dokumen dengan kueri untuk metode P-Norm Model, dilakukan pengecekan apakah jenis operator Boolean yang digunakan. Perhitungan ukuran kesamaan akan dilakukan sesuai dengan jenis operator yang dimasukkan, sedangkan

untuk Belief Revision, kueri direpresentasikan sebagai formula proposisi. Dalam formula proposisi dokumen dan kueri harus dalam bentuk Disjunctive Normal Form (DNF). DNF mempunyai bentuk: , dengan masing-masing adalah klausa yang dihubungkan dengan operator AND. Perhitungan nilai kesamaan Belief Revision dilakukan dengan membandingkan model kueri dengan model dokumen.

Pemeringkatan Dokumen

Pemeringkatan dokumen dilakukan setelah perhitungan nilai kesamaan antara dokumen dengan kueri untuk P-Norm Model dan Belief Revision. Pemeringkatan dokumen dilakukan dengan mengurutkan dokumen yang dikembalikan sesuai dengan bobot yang diperoleh. Semakin besar bobot yang diperoleh maka peringkat dokumen yang dikembalikan akan semakin tinggi.

Evaluasi Hasil Temu-Kembali

Pengujian sistem dilakukan dengan perhitungan terhadap recall dan precision. Recall adalah rasio dokumen relevan yang ditemukembalikan. Precision adalah dokumen yang ditemukembalikan, dokumen tersebut relevan. Dalam perhitungan recall, digunakan elevent standart recall yaitu 0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.7,0.8,0.9 dan 1.0. Perhitungan dilakukan untuk masing-masing metode.

Hasil perhitungan recall dan precision untunk masing-masing model akan dibandingkan dalam bentuk grafik recall-precision, selain itu juga akan dihitung average precision dari masing-masing model untuk memperoleh model yang baik untuk temu-kembali.

Asumsi

Asumsi-asumsi yang digunakan dalam pembangunan sistem ini adalah:

1. Tidak ada kesalahan dalam pengetikan kueri.

2. Setiap kata dalam kueri dipisahkan dengan operator AND dan OR.

(29)

6 Lingkungan Implementasi

Lingkungan implementasi yang akan digunakan adalah sebagai berikut:

Perangkat lunak:

 Microsoft Windows 7 Profesional sebagai sistem operasi.

 PHP sebagai bahasa pemrograman.

 Netbeans IDE 6.9 sebagai IDE untuk pembangunan sistem.

 Wamp Server Apache version 2.2.11 sebagai web server.

 Notepad++.

 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem.

Perangkat keras:

 Processor Intel Core 2 duo 2.2 GHz  RAM 2 GB

Hardisk 320GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat yang berasal dari Laboratorium Temu-Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.

Tabel 1 Deskripsi dokumen pengujian

Uraian Dokumen Pertanian Nilai (byte)

Ukuran keseluruhan dokumen 4.139.332

Ukuran rata-rata dokumen 4139

Ukuran dokumen terbesar 54.082

Ukuran dokumen terkecil 451

Uraian Dokumen Tanaman Obat

Nilai (byte)

Ukuran keseluruhan dokumen 297.796

Ukuran rata-rata dokumen 3202

Ukuran dokumen terbesar 13.628

Ukuran dokumen terkecil 928

Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen pertanian dapat dilihat pada Gambar

5, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 6.

Gambar 5 Contoh dokumen pertanian

Gambar 6 Contoh dokumen tanaman obat

Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

 <

Gambar

Gambar 1 Struktur inverted index
Gambar 5 Contoh dokumen pertanian
Gambar 5 Contoh dokumen pertanian
Gambar 8 Contoh pemrosesan kueri
+7

Referensi

Dokumen terkait

Dari latar belakang yang diutarakan diatas maka penelitian ini dimaksudkan untuk mengetahui implementasi strategi pembelajaran metakognitif dalam meningkatkan

Pada intinya mutu karya seni akan lebih meningkat dengan adanya teknologi informasi karena dewasa ini masyarakat penikmat seni lebih tertarik dengan berbagai

Pertumbuhan ekonomi tidak berpengaruh secara signifikan terhadap pengangguran terdidik di Provinsi Jawa Tengah, sehingga mempunyai pengertian bahwa perubahan yang

Dalam konteks kerjasama, kebijakan pokok yang akan ditempuh dalam masa lima tahun ke depan adalah kombinasi antara perluasan jaringan hubungan kerjasama

Berdasarkan pengujian hipotesis secara simultan (uji F) yang telah dianalisis, maka dapat disimpulkan bahwa secara simultan / bersama-sama gross profit margin, return

Untuk operasional kegiatan peran dan fungsi TKPK provinsi, maka tim teknis TKPK Provinsi telah melakukan fasilitasi, koordinasi dan pengendalian terhadap TKPK Provinsi dan

• Message directory : adalah path direktori lokasi mailbox dimana E-Mail untuk suatu account disimpan. • Storage Format : merupakan format penyimpanan file di dalam folder tiap

Secara umum kriteria yang menentukan bahwa sebuah website usable (memiliki tingkat usability yang tinggi) yang dalam penelitian ini website tersebut berbentuk aplikasi