Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat. Dokumen-dokumen ini berasal dari Laboratorium Temu Kembali, Departemen Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.
Tabel 1 Deskripsi koleksi dokumen
Uraian Dokumen Pertanian Nilai (bytes) Ukuran keseluruhan dokumen 4 104 253
Ukuran rata-rata dokumen 4 101
Ukuran dokumen terbesar 52 755
Ukuran dokumen terkecil 243
Uraian Dokumen Tanaman Obat
Nilai (bytes)
Ukuran keseluruhan dokumen 302 977
Ukuran rata-rata dokumen 3 258
Ukuran dokumen terbesar 13 684
Ukuran dokumen terkecil 868
Dokumen-dokumen ini memiliki bentuk XML yang seragam untuk setiap dokumen. Format struktur XML dapat dilihat pada Gambar 2 untuk dokumen pertanian dan Gambar 3 untuk dokumen tanaman obat.
Dokumen pertanian dikelompokkan ke dalam tag-tag berikut:
•
<DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag yang lebih spesifik.•
<DOCNO></<DOCNO>, tag ini menunjukkan ID dari dokumen.•
<TITLE></TITLE>, tag ini menunjukkan judul dokumen yang diberitakan.•
<AUTHOR></AUTHOR>, tag ini menunjukkan nama pengarang berita tersebut.•
<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.•
<nama></nama>, tag ini menunjukkan nama dari tanaman obat.•
<namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.•
<content></content>, tag ini mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.•
<fam></fam>, tag ini menunjukkan nama family dari tanaman obat.•
<penyakit></penyakit>, tag ini menunjukkan nama penyakit yang berkaitan dengan tanaman obat.Gambar 2 Format dokumen dokumen pertanian.
Gambar 3 Format dokumen tanaman obat.
Pemrosesan Dokumen
Sebelum dilakukan proses pengindeksan koleksi, dokumen terlebih dahulu dipisahkan berdasarkan jenis tag. Dokumen pertanian dibedakan dalam tiga tagging: title, text, dan
title & text sedangkan untuk dokumen tanaman obat adalah penyakit, content, dan
content & penyakit dengan menggunakan fungsi preg_split.
Pengindeksan
Pengindeksan dokumen dimulai dengan melakukan parsing terhadap setiap file yang
dibedakan berdasarkan pemisahan tagging, kemudian dilakukan pembuangan stopwords
yang terdapat pada file “stopwords.txt”. File
ini terdiri atas 661 kata yang dipisahkan dengan newline. Selanjutnya, term diubah ke lower case dengan fungsi preg_match.
Pengindeksan 1000 dokumen pertanian dan 93 dokumen tanaman obat pada setiap tagging
menghasilkan jumlah kata unik dan frekuensi total setiap kata.
Pemrosesan Kueri
Untuk menjalankan proses evaluasi, kueri dimasukkan pada sistem mesin pencari (Lampiran 1 dan Lampiran 2). Jumlah kueri yang digunakan pada penelitian ini ialah 30 untuk dokumen pertanian (Lampiran 3) dan 13 untuk dokumen tanaman obat (Lampiran 4). Kueri-kueri ini tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer. Kueri pada sistem ini menggunakan kueri XML, yaitu berupa kueri yang dipasangkan dengan potongan tagging
XML yang bersifat terstruktur. Pada kueri XML, potongan tagging yang dipakai pada dokumen pertanian adalah
1. <title>kueri</title> 2. <text>kueri</text>
3. <title><text>kueri</text></t itle>
Tagging yang dipakai pada dokumen tanaman obat adalah
1. <penyakit>kueri</penyakit> 2. <content>kueri</content> 3. <content><penyakit>kueri</pe
nyakit></content>
Penghitungan panjang konteks pada kueri dapat dicontohkan sebagai berikut:
“<title> gagal panen</title>” Kueri tersebut diilustrasikan menjadi tree
yang digambarkan pada Gambar 4. Gambar 4 menunjukkan bahwa panjang konteks pada kueri ialah 3.
Gambar 4 Contoh tree pada kueri.
Hasil Temu Kembali
Pada penelitian ini, pembobotan yang <?xml version="1.0" encoding="utf-8"?> <DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili : Crassulaceae. Nama Lokal : Cakar itek (Sunda); dan sosor bebek....</content> <fam>Crassulaceae</fam> <penyakit>Kulit</penyakit> </DOC> title panen gagal <?xml version="1.0" encoding="utf-8"?> <DOC> <DOCNO>suaramerdeka1201 04</DOCNO>
<TITLE>Pemerintah Larang Impor Beras pada Pra dan Pascapanen Raya </TITLE>
<AUTHOR> (ant-82) </AUTHOR> <SOURCE>suaramerdeka</SOURCE> <DATE>12/1/2004</DATE>
<TEXT>JAKARTA- Pemerintah mengeluarkan ketentuan larangan melakukan impor beras pada satu bulan sebelum saat...</TEXT> </DOC>
digunakan yaitu tf-idf. Jumlah dokumen teratas yang diambil adalah 30 untuk sistem dokumen pertanian dan 20 untuk sistem dokumen tanaman obat.
Pengujian Kinerja Sistem
Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen yaitu dokumen pertanian dan dokumen, tanaman obat beserta kueri uji yang berbeda.
1 Pengujian pada Dokumen Pertanian Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen yang relevan. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan
precision untuk 30 dokumen teratas yang ditemukembalikan oleh sistem dan dilakukan perhitungan interpolasi terhadap maksimum untuk mendapatkan nilai average precision
(AVP).
Pengujian terhadap kueri XML pada dokumen pertanian terdapat tiga jenis potongan tagging dari struktur dokumen XML di koleksi, yaitu :
a Kueri XML dengan potongan tagging title
Gambar 5 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging title. Nilai average precision dari pencarian kueri XML dengan potongan tagging title
sebesar 0.5005.
Gambar 5 Grafik R-P untuk tagging title.
b Kueri XML dengan potongan tagging text
Gambar 6 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging text. Nilai average precision dari pencarian kueri XML dengan potongan tagging text
sebesar 0.6156 atau meningkat 12% dari kueri XML dengan potongan tagging title. Hal ini menyebabkan kata konteks kueri banyak yang sama dengan konteks dokumen yang menyebabkan nilai average precision
meningkat sebesar 12%.
Gambar 6 Grafik R-P untuk tagging text. c Kueri XML dengan potongan tagging title andtext
Gambar 7 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging title dan text.
Gambar 7 Grafik R-P untuk potongan tagging title & text.
Nilai average precision dari pencarian kueri XML dengan potongan tagging title and text sebesar 0.6153 atau lebih rendah 0.0003 dari kueri XML dengan potongan tagging text
dan meningkat 12% dari kueri XML dengan potongan tagging title. Average precision
masing-masing potongan tagging pada kueri XML dapat dilihat pada Tabel 2. Kinerja temu-kembali diilustrasikan dengan grafik
recall-precision yang ditunjukan pada Gambar 8. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 recall p re ci si o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 recall p re c is io n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 recall p re ci si o n
Gambar 8 Grafik R-P untuk dokumen pertanian.
Gambar 8 menunjukkan bahwa untuk perbedaan jenis potongan tagging telah memiliki perbedaan yang signifikan terhadap penambahan potongan tagging XML dan panjangnya kata pada suatu konteks di dokumen pertanian.
Tabel 2 Hasil perhitungan average precision
pada dokumen pertanian
Jenis Tagging AVP
Title 0.5005
Text 0.6156
Title & Text 0.6153
Tabel 2 menunjukkan bahwa kinerja sistem
pada pembobotan tf-idf dengan
SIMNOMERGE similarity memberikan temu-kembali lebih baik yaitu pada kueri XML dengan potongan tagging text dan tagging title and text sebesar 62%. Berarti, secara rata-rata pada tiap recall point, 62% hasil temu-kembali relevan dengan kueri dan meningkat sebesar 12% dari kueri XML dengan potongan
tagging title.
2 Pengujian pada Dokumen Tanaman Obat Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan. Pengujian yang dilakukan sama seperti sebelumnya, yaitu melakukan perhitungan recall-precision terhadap kueri XML dan dilakukan tahap perhitungan interpolasi masksimum untuk mendapakan nilai average precision (AVP) yang akan menggambarkan nilai kinerja pada sistem secara keseluruhan.
Pada pengujian sistem dilakukan untuk
pencarian dokumen dengan kueri XML dengan mengambil 20 dokumen teratas. Pengujian terhadap kueri XML pada dokumen tanaman obat terdapat tiga jenis potongan
tagging dari struktur dokumen XML di koleksi dokumen pertanian, yaitu :
a Kueri XML dengan potongan tagging
penyakit
Gambar 9 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging
penyakit. Pada pengujian sistem pada pencarian kueri XML dengan potongan
tagging penyakit, nilai average precision yang didapat sebesar 0.5968. Pengaturan skala sumbu y pada Gambar 9 dimulai dengan skala minimum 0.5750 dan skala maksimum 0.6150. Hal ini dilakukan untuk melihat grafik R-P potongan tagging penyakit telah relevan.
Gambar 9 Grafik R-P untuk tagging penyakit. b Kueri XML dengan Potongan tagging content
Gambar 10 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging content.
Gambar 10 Grafik R-P untuk tagging content. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.5750 0.5800 0.5850 0.5900 0.5950 0.6000 0.6050 0.6100 0.6150 recall p re ci si o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Recall P re ci si o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 tagging title tagging text tagging title & text recall p re ci si o n
Nilai average precision dari pencarian kueri XML dengan potongan tagging content
sebesar 0.6273 atau lebih tinggi sebesar 0.0305 dari kueri XML dengan potongan
tagging penyakit.
c Kueri XML dengan potongan tagging content dan penyakit
Gambar 11 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging content dan penyakit. Nilai average precision
dari pencarian kueri XML dengan potongan
tagging content dan penyakit sebesar 0.8589. Perbedaan kinerja sistem pada kueri potongan
tagging content dan content & penyakit di sistem tanaman obat diilustrasikan pada grafik recall-precision yang dapat dilihat Gambar 12 dan uraian masing-masing nilai
average precision terhadap kueri XML di tanaman obat dapat dilihat pada Tabel 3.
Gambar 11 Grafik R-P untuk tagging content
dan penyakit.
Gambar 12 Grafik R-P untuk dokumen tanaman obat.
Dari Gambar 12, dapat dilihat bahwa terjadi perubahan signifikan terhadap
penyatuan potongan tagging pada sistem tanaman obat, yaitu content dan penyakit. Di potongan tagging tersebut, terdapat banyak kueri yang dicari oleh pengguna sehingga banyak terambil dokumen yang relevan pada pengujian kueri XML dengan potongan
tagging content dan penyakit.
Tabel 3 Hasil perhitungan average precision
pada dokumen tanaman obat
Jenis Tagging AVP
Penyakit 0.5968
Content 0.6273
Content & Penyakit 0.8589
Hasil pada Tabel 3 menunjukkan bahwa kinerja sistem untuk tanaman obat dengan nilai average precision yang sangat baik mencapai 86% pada kueri XML dengan potongan tagging content dan penyakit. Berarti, secara rata-rata pada tiap recall point,
86% hasil temu-kembali relevan dengan kueri. Kinerja pengujian kueri XML dengan potongan tagging content dan penyakit meningkat 23% dari potongan tagging content
atau meningkat 26% dari potongan tagging
penyakit.
Hasil pengujian pada dokumen tanaman obat lebih baik daripada pengujian dokumen pertanian. Hal ini dikarenakan isi konteks dokumen banyak yang sama dengan representasi dari kueri uji yang dilakukan. Hal ini mengakibatkan sistem dapat menghasilkan dokumen yang spesifik dari kueri XML dengan potongan tagging di dokumen tanaman obat. Selain itu, dokumen tanaman obat juga bersifat berbeda antar dokumennya. Setiap dokumen pada setiap tagging memiliki penciri yang berbeda dari dokumen lainnya sehingga membuat hasil temu-kembali menjadi semakin baik.