Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat yang berasal dari Laboratorium Temu-Kembali Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.
Tabel 1 Deskripsi dokumen pengujian
Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen 4.139.332 Ukuran rata-rata dokumen 4139 Ukuran dokumen terbesar 54.082 Ukuran dokumen terkecil 451 Uraian Dokumen Tanaman
Obat
Nilai (byte)
Ukuran keseluruhan dokumen 297.796 Ukuran rata-rata dokumen 3202 Ukuran dokumen terbesar 13.628 Ukuran dokumen terkecil 928 Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen pertanian dapat dilihat pada Gambar
5, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 6.
Gambar 5 Contoh dokumen pertanian
Gambar 6 Contoh dokumen tanaman obat Dokumen dikelompokkan ke dalam tag-tag sebagai berikut:
<DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.
<DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.
<DATE></DATE>, menunjukkan tanggal dari berita.
<AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.
<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.
<nama></nama>, tag ini menunjukkan nama dari tanaman obat.
<namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.
<DOC>
<DOCNO>balaipenelitian000000-001</DOCNO>
<TITLE>PRODUKTIVITAS SOM JAWA (Talinum paniculatum
Gaertn.)…
</TITLE>
<AUTHOR>Ireng DarwatiIreng Darwati, Mono Rahardjo, dan Rosita SMD </AUTHOR> <TEXT>
<P>Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk menghasilkan umbi yang
optimaldiperlukan tanah yang
sifat-sifat fisik dan kesuburannya baik….</P> </TEXT> </DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili :
Crassulaceae. Nama Lokal : Cakar itek (Sunda);
</content>
<fam>Crassulaceae</fam> <penyakit>Kulit</penyakit>
7 <content></content>, tag ini
mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya. <fam></fam>, tag ini menunjukkan
nama family dari tanaman obat.
<penyakit></penyakit>, tag ini menunjukkan penyakit yang berkaitan dengan tanaman obat.
Pemrosesan Dokumen
Sebelum dilakukan proses pengindeksan koleksi dokumen terlebih dahulu dilakukan pembuangan tagging. Pembuangan tagging ini dilakukan karena tagging bukan merupakan penciri dari suatu dokumen. Gambar 7 menunjukkan format dokumen setelah dilakukan pembungan tagging.
Setelah proses pembuangan tagging lalu dilakukan parsing terhadap dokumen, kemudian dilakukan proses pembuangan stopword, pembuangan tanda baca dan mengubah term ke lower case. Setelah itu dilakukan pembuatan inverted index dari masing-masing kata unik dan disimpan ke dalam file.
Pembobotan dilakukan untuk masing-masing dokumen dengan pembobotan Tf-Idf dan Tf-Idf yang sudah dinormalisasi. Hasil pembobotan juga disimpan ke dalam file.
Gambar 7 Format dokumen setelah dilakukan pembuangan tagging.
Pemrosesan Kueri
Kueri yang digunakan dalam penelitian ini berupa kueri yang berbentuk Boolean. Kata dalam kueri dipisahkan oleh operator AND dan OR.
Dalam pemrosesan kueri yang pertama dilakukan adalah melakukan proses case folding. Case folding adalah membuat huruf pada teks menjadi kecil. Lalu dilakukan pengecekan apakan dalam kueri terdapat operator Boolean, jika ada maka kata akan
dijadikan index dalam array dengan nama
‘i_root’ selainnya kata akan dijadikan index
dengan nama ‘i_term’ dan jika terdapat tanda
kurung maka kata akan dijadikan index dengan
nama ‘brackets’ dan akan dilakukan proses rekursif dalam memroses kueri tersebut. Contoh pemrosesan kueri, dengan kueri ‘gagal AND panen’ dapat dilihat pada Gambar 8.
Kueri ‘gagal AND panen’ sudah dalam DNF
sehingga dapat diproses untuk mendapatkan ukuran kesamaan.
Gambar 8 Contoh pemrosesan kueri Temu-Kembali dengan Boolean Model
Pada temu-kembali menggunakan Boolean Model kueri yang dimasukkan mengandung operator Boolean. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator yang digunakan adalah AND maka akan dicari posting list dari index ‘i_term’ tersebut dan dilakukan proses
intersection. Jika operator adalah OR maka akan dilakukan proses merge terhadap posting list ‘i_term’. Hasil yang dikembalikan dalam Boolean Model relevan atau tidak relevan dari kueri yang diberikan. Karena dalam Boolean Model tidak ada pencocokan sebagian antara dokumen dan kueri yang diberikan. Berikut adalah penggalan contoh hasil temu-kembali menggunakan Boolean Model dengan kueri
‘gagal AND panen’. balaipenelitian000000-001
PRODUKTIVITAS SOM JAWA Ireng Darwati
Som Jawa merupakan tanaman yang menghasilkan umbi. Untuk
menghasilkan umbi yang
optimal, diperlukan tanah
yang sifat-sifat fisik dan kesuburannya baik. Array ( [i_term] => Array ( [0] => gagal [1] => panen ) [i_root] => Array ( [0] => and ) ) Array ( [0] => gatra070203.txt [1] => gatra161002.txt [2] => gatra190802.txt [3] => gatra210704.txt [4] => gatra260803.txt [5] => gatra301002.txt [6] => indosiar031203.txt [7] => indosiar040903.txt [8] => indosiar050704-002.txt [9] => indosiar130104.txt )
8 Temu-Kembali dengan P-Norm Model
Pada temu-kembali menggunakan P-Norm Model akan ditentukan nilai p yang akan digunakan. Kueri akan diproses secara rekursif sesuai dengan operator yang digunakan. Jika operator adalah AND maka rumus yang digunakan adalah
( )
[ ] ⁄
Jika operator yang digunakan adalah OR maka persamaan yang digunakan adalah
( )
[
]
⁄
dengan
merupakan kueri term berbobot
merupakan bobot term A dan term B pada dokumen
.
Pada P-Norm Model nilai p yang digunakan adalah 1, 2, 5 dan 9. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan P-Norm Model untuk nilai p=9 dengan kueri
‘gagal AND panen’.
Temu-Kembali dengan Belief Revision
Pada temu-kembali menggunakan Belief Revision kueri yang dimasukkan harus dalam bentuk DNF. Pada Gambar 9 dapat dilihat contoh perhitungan untuk algoritma Belief Revision.
Pada Gambar 9 literal merupakan himpunan kata unik dalam koleksi dokumen,
untuk model dokumen, untuk model kueri. Terdapat dua model dokumen dan dua model kueri. Hasil dari perhitungan similarity menghasilkan nilai 1, hal tersebut karena kueri yang dimasukkan dapat dipenuhi oleh model dokumen. Pada penelitian ini dokumen hanya mempunyai satu model sedangkan kueri memiliki satu atau lebih model. Berikut adalah contoh 10 teratas hasil temu-kembali menggunakan Belief Revision
pada dokumen pertanian dengan kueri ‘gagal AND panen’.
Gambar 9 Contoh perhitungan algoritma Belief Revision Array ( [kompas030704.txt]=> 0.19519 [indosiar140204.txt]=> 0.12138 [republika060804-001.txt]=>0.09549 [situshijau280404-002.txt] =>0.08724 [gatra301002.txt] => 0.08230 [indosiar040903.txt] => 0.08230 [gatra190902-02.txt] => 0.08055 [indosiar240703.txt] => 0.08055 [indosiar260803-001.txt] => 0.0776 [suarapembaruan260703-002.txt] => 0.07699 ) Array( [republika080703.txt] => 1 [republika060804-003.txt] => 1 [republika060804-001.txt] => 1 [republika090804-01.txt] => 1 [republika120804-04.txt] => 1 [republika260604-003.txt] => 1 [republika220103.txt] => 1 [mediaindonesia240503.txt] => 1 [mediaindonesia160603.txt] => 1 [kompas031003.txt] => 1)
9 Evaluasi Sistem Temu-Kembali Informasi
Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen dan kueri uji yang berbeda.
1.Pengujian pada Dokumen Pertanian Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 4.
Perbandingan kinerja Belief Revision
dengan P-Norm Model
Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat pada Tabel 2. Lalu untuk ilustrasi perbandingan kinerja Belief Revision dengan P-Norm dapat dilihat pada Gambar 10.
Tabel 2 Nilai AVP BR dengan P-Norm Model pada dokumen pertanian
Metode AVP
Belief Revision 0.5490
P-Norm Model 0.5489
Pada Tabel 2 dapat dilihat bahwa Belief Revision mendapat nilai AVP sebesar 0.5490. Sedangkan P-Norm medapat nilai AVP sebesar 0.5489. Dapat dilihat bahwa Belief Revision mendapat nilai AVP yang lebih besar dari P-Norm yaitu dengan selisih sebesar 0.0001. Dengan menggunakan Belief Revision maka nilai AVP meningkat sebesar 0.01%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm Model dengan average precision sekitar 54%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 54% hasil temu-kembali relevan terhadap kueri.
Gambar 10 Grafik R-P kinerja BR dengan P-Norm Model dokumen pertanian
2.Pengujian pada Dokumen Tanaman Obat Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji berikut dokumen-dokumen yang relevan (Lampiran 3). Pengujian yang dilakukan sama seperti pengujian sebelumnya yaitu mendapatkan nilai recall dan precision dari sistem. Perhitungan AVP untuk Belief Revision dan P-Norm Model untuk dokumen pertanian terdapat pada Lampiran 5.
Perbandingan kinerja Belief Revision
dengan P-Norm Model
Perbandingan kinerja kinerja Belief Revision dengan P-Norm Model dapat dilihat pada Tabel 3. Pada Gambar 11 dapat dilihat perbandingan kinerja Belief Revision dengan P-Norm Model.
Tabel 3 Nilai AVP BR dengan P-Norm Model pada dokumen tanaman obat
Metode AVP
Belief Revision 0.8128
P-Norm Model 0.8378
Pada Tabel 3 dapat dilihat bahwa Belief Revision mendapat nilai AVP sebesar 81,28%. Sedangkan P-Norm Model mendapat nilai AVP sebesar 83.78%. Dari data di atas dapat dilihat bahwa Belief Revision memiliki nilai AVP yang lebih besar dari P-Norm Model yaitu dengan selisih sebesar 2.5%. Kinerja sistem menggunakan Belief Revision secara umum dapat dikatakan lebih baik daripada P-Norm Model dengan average precision sekitar 83%. Hasil tersebut menunjukkan bahwa secara rata-rata pada tiap recall point, 83% hasil temu-kembali relevan terhadap kueri.
Gambar 11 Grafik R-P kinerja BR dengan P-Norm Model dokumen tanaman obat
10
KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian ini menunjukkan bahwa: 1. Belief Revision akan optimal untuk
dokumen yang homogen, sedangkan P-Norm Model akan optimal untuk dokumen yang kurang homogen.
2. Kinerja sistem yang didapatkan secara keseluruhan sudah cukup baik yaitu lebih dari 50%.
Saran
Terdapat beberapa hal yang dapat ditambahkan atau diperbaiki untuk penelitian ke depan seperti:
1. Menggunakan stemming untuk melihat pengaruh stemming terhadap kinerja Belief Revision dan P-Norm Model.
2. Menggunakan dokumen uji yang lebih banyak dan beragam.
3. Menggunakan pembobotan dalam Belief Revision.