HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat yang berasal dari Laboratorium Temu-Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.

Tabel 1 Deskripsi dokumen pengujian

Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen 4.139.332 Ukuran rata-rata dokumen 4139 Ukuran dokumen terbesar 54.082 Ukuran dokumen terkecil 451 Uraian Dokumen Tanaman

Obat

Nilai (byte)

Ukuran keseluruhan dokumen 297.796 Ukuran rata-rata dokumen 3202 Ukuran dokumen terbesar 13.628 Ukuran dokumen terkecil 928 Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen pertanian dapat dilihat pada Gambar

5, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 6.

Gambar 5 Contoh dokumen pertanian

Gambar 6 Contoh dokumen tanaman obat Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

 <DATE></DATE>, menunjukkan tanggal dari berita.

 <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.

 <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

 <nama></nama>, tag ini menunjukkan nama dari tanaman obat.

 <namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.

<DOC>

<DOCNO>balaipenelitian000000-001</DOCNO>

<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum

Gaertn.)…

</TITLE>

<AUTHOR>Ireng DarwatiIreng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>

<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang

optimaldiperlukan tanah yang

sifat-sifat fisik dan kesuburannya baik….</P> </TEXT> </DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili :

Crassulaceae. Nama Lokal : Cakar itek (Sunda);

</content>

<fam>Crassulaceae</fam> <penyakit>Kulit</penyakit>

7  <content></content>, tag ini

mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.  <fam></fam>, tag ini menunjukkan

nama family dari tanaman obat.

 <penyakit></penyakit>, tag ini menunjukkan penyakit yang berkaitan dengan tanaman obat.

Pemrosesan Dokumen

Sebelum dilakukan proses pengindeksan koleksi dokumen terlebih dahulu dilakukan pembuangan tagging. Pembuangan tagging ini dilakukan karena tagging bukan merupakan penciri dari suatu dokumen. Gambar 7 menunjukkan format dokumen setelah dilakukan pembungan tagging.

Setelah proses pembuangan tagging lalu dilakukan parsing terhadap dokumen, kemudian dilakukan proses pembuangan stopword, pembuangan tanda baca dan mengubah term ke lower case. Setelah itu dilakukan pembuatan inverted index dari masing-masing kata unik dan disimpan ke dalam file.

Pembobotan dilakukan untuk masing-masing dokumen dengan pembobotan Tf-Idf dan Tf-Idf yang sudah dinormalisasi. Hasil pembobotan juga disimpan ke dalam file.

Gambar 7 Format dokumen setelah dilakukan pembuangan tagging.

Pemrosesan Kueri

Kueri yang digunakan dalam penelitian ini berupa kueri yang berbentuk Boolean. Kata dalam kueri dipisahkan oleh operator AND dan OR.

Dalam pemrosesan kueri yang pertama dilakukan adalah melakukan proses case folding. Case folding adalah membuat huruf pada teks menjadi kecil. Lalu dilakukan pengecekan apakan dalam kueri terdapat operator Boolean, jika ada maka kata akan

dijadikan index dalam array dengan nama

‘i_root’ selainnya kata akan dijadikan index

dengan nama ‘i_term’ dan jika terdapat tanda

kurung maka kata akan dijadikan index dengan

nama ‘brackets’ dan akan dilakukan proses rekursif dalam memroses kueri tersebut. Contoh pemrosesan kueri, dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 8.

Kueri ‘gagal AND panen’ sudah dalam DNF

sehingga dapat diproses untuk mendapatkan ukuran kesamaan.

Gambar 8 Contoh pemrosesan kueri Temu-Kembali dengan Boolean Model

Pada temu-kembali menggunakan Boolean Model kueri yang dimasukkan mengandung operator Boolean. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list dari index ‘i_term’ tersebut dan dilakukan proses

intersection. Jika operator adalah OR maka akan dilakukan proses merge terhadap posting list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari kueri yang diberikan. Karena dalam Boolean Model tidak ada pencocokan sebagian antara dokumen dan kueri yang diberikan. Berikut adalah penggalan contoh hasil temu-kembali menggunakan Boolean Model dengan kueri

‘gagal AND panen’. balaipenelitian000000-001

PRODUKTIVITAS SOM JAWA Ireng Darwati

Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk

menghasilkan umbi yang

optimal, diperlukan tanah

yang sifat-sifat fisik dan kesuburannya baik. Array ( [i_term] => Array ( [0] => gagal [1] => panen ) [i_root] => Array ( [0] => and ) ) Array ( [0] => gatra070203.txt [1] => gatra161002.txt [2] => gatra190802.txt [3] => gatra210704.txt [4] => gatra260803.txt [5] => gatra301002.txt [6] => indosiar031203.txt [7] => indosiar040903.txt [8] => indosiar050704-002.txt [9] => indosiar130104.txt )

8 Temu-Kembali dengan P-Norm Model

Pada temu-kembali menggunakan P-Norm Model akan ditentukan nilai p yang akan digunakan. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator adalah AND maka rumus yang digunakan adalah

( )

[ ]^⁄

Jika operator yang digunakan adalah OR maka persamaan yang digunakan adalah

( )

[

⁄

dengan

 merupakan kueri term berbobot

 merupakan bobot term A dan term B pada dokumen

 .

Pada P-Norm Model nilai p yang digunakan adalah 1, 2, 5 dan 9. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan P-Norm Model untuk nilai p=9 dengan kueri

‘gagal AND panen’.

Temu-Kembali dengan Belief Revision

Pada temu-kembali menggunakan Belief Revision kueri yang dimasukkan harus dalam bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief Revision.

Pada Gambar 9 literal merupakan himpunan kata unik dalam koleksi dokumen,

untuk model dokumen, untuk model kueri. Terdapat dua model dokumen dan dua model kueri. Hasil dari perhitungan similarity menghasilkan nilai 1, hal tersebut karena kueri yang dimasukkan dapat dipenuhi oleh model dokumen. Pada penelitian ini dokumen hanya mempunyai satu model sedangkan kueri memiliki satu atau lebih model. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan Belief Revision

pada dokumen pertanian dengan kueri ‘gagal AND panen’.

Gambar 9 Contoh perhitungan algoritma Belief Revision Array ( [kompas030704.txt]=> 0.19519 [indosiar140204.txt]=> 0.12138 [republika060804-001.txt]=>0.09549 [situshijau280404-002.txt] =>0.08724 [gatra301002.txt] => 0.08230 [indosiar040903.txt] => 0.08230 [gatra190902-02.txt] => 0.08055 [indosiar240703.txt] => 0.08055 [indosiar260803-001.txt] => 0.0776 [suarapembaruan260703-002.txt] => 0.07699 ) Array( [republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1)

9 Evaluasi Sistem Temu-Kembali Informasi

Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen dan kueri uji yang berbeda.

1.Pengujian pada Dokumen Pertanian Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 4.

Perbandingan kinerja Belief Revision

dengan P-Norm Model

Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat pada Tabel 2. Lalu untuk ilustrasi perbandingan kinerja Belief Revision dengan P-Norm dapat dilihat pada Gambar 10.

Tabel 2 Nilai AVP BR dengan P-Norm Model pada dokumen pertanian

Metode AVP

Belief Revision 0.5490

P-Norm Model 0.5489

Pada Tabel 2 dapat dilihat bahwa Belief Revision mendapat nilai AVP sebesar 0.5490. Sedangkan P-Norm medapat nilai AVP sebesar 0.5489. Dapat dilihat bahwa Belief Revision mendapat nilai AVP yang lebih besar dari P-Norm yaitu dengan selisih sebesar 0.0001. Dengan menggunakan Belief Revision maka nilai AVP meningkat sebesar 0.01%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm Model dengan average precision sekitar 54%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 54% hasil temu-kembali relevan terhadap kueri.

Gambar 10 Grafik R-P kinerja BR dengan P-Norm Model dokumen pertanian

2.Pengujian pada Dokumen Tanaman Obat Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji berikut dokumen-dokumen yang relevan (Lampiran 3). Pengujian yang dilakukan sama seperti pengujian sebelumnya yaitu mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 5.

Perbandingan kinerja Belief Revision

dengan P-Norm Model

Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat pada Tabel 3. Pada Gambar 11 dapat dilihat perbandingan kinerja Belief Revision dengan P-Norm Model.

Tabel 3 Nilai AVP BR dengan P-Norm Model pada dokumen tanaman obat

Metode AVP

Belief Revision 0.8128

P-Norm Model 0.8378

Pada Tabel 3 dapat dilihat bahwa Belief Revision mendapat nilai AVP sebesar 81,28%. Sedangkan P-Norm Model mendapat nilai AVP sebesar 83.78%. Dari data di atas dapat dilihat bahwa Belief Revision memiliki nilai AVP yang lebih besar dari P-Norm Model yaitu dengan selisih sebesar 2.5%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm Model dengan average precision sekitar 83%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 83% hasil temu-kembali relevan terhadap kueri.

Gambar 11 Grafik R-P kinerja BR dengan P-Norm Model dokumen tanaman obat

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian ini menunjukkan bahwa: 1. Belief Revision akan optimal untuk

dokumen yang homogen, sedangkan P-Norm Model akan optimal untuk dokumen yang kurang homogen.

2. Kinerja sistem yang didapatkan secara keseluruhan sudah cukup baik yaitu lebih dari 50%.

Saran

Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian ke depan seperti:

1. Menggunakan stemming untuk melihat pengaruh stemming terhadap kinerja Belief Revision dan P-Norm Model.

2. Menggunakan dokumen uji yang lebih banyak dan beragam.

3. Menggunakan pembobotan dalam Belief Revision.

Dalam dokumen Temu-Kembali Model Extended Boolean Menggunakan P-Norm Model dan Belief Revision (Halaman 29-33)