HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Penelitian ini menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat. Dokumen-dokumen ini berasal dari Laboratorium Temu Kembali, Departemen Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1.

Tabel 1 Deskripsi koleksi dokumen

Uraian Dokumen Pertanian Nilai (bytes) Ukuran keseluruhan dokumen 4 104 253

Ukuran rata-rata dokumen 4 101

Ukuran dokumen terbesar 52 755

Ukuran dokumen terkecil 243

Uraian Dokumen Tanaman Obat

Nilai (bytes)

Ukuran keseluruhan dokumen 302 977

Ukuran rata-rata dokumen 3 258

Ukuran dokumen terbesar 13 684

Ukuran dokumen terkecil 868

Dokumen-dokumen ini memiliki bentuk XML yang seragam untuk setiap dokumen. Format struktur XML dapat dilihat pada Gambar 2 untuk dokumen pertanian dan Gambar 3 untuk dokumen tanaman obat.

Dokumen pertanian dikelompokkan ke dalam tag-tag berikut:

•

<DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag yang lebih spesifik.

•

<DOCNO></<DOCNO>, tag ini menunjukkan ID dari dokumen.

•

<TITLE></TITLE>, tag ini menunjukkan judul dokumen yang diberitakan.

•

<AUTHOR></AUTHOR>, tag ini menunjukkan nama pengarang berita tersebut.

•

<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

•

<nama></nama>, tag ini menunjukkan nama dari tanaman obat.

•

<namal></namal>, tag ini menunjukkan nama latin dari tanaman obat.

•

<content></content>, tag ini mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.

•

<fam></fam>, tag ini menunjukkan nama family dari tanaman obat.

•

<penyakit></penyakit>, tag ini menunjukkan nama penyakit yang berkaitan dengan tanaman obat.

Gambar 2 Format dokumen dokumen pertanian.

Gambar 3 Format dokumen tanaman obat.

Pemrosesan Dokumen

Sebelum dilakukan proses pengindeksan koleksi, dokumen terlebih dahulu dipisahkan berdasarkan jenis tag. Dokumen pertanian dibedakan dalam tiga tagging: title, text, dan

title & text sedangkan untuk dokumen tanaman obat adalah penyakit, content, dan

content & penyakit dengan menggunakan fungsi preg_split.

Pengindeksan

Pengindeksan dokumen dimulai dengan melakukan parsing terhadap setiap file yang

dibedakan berdasarkan pemisahan tagging, kemudian dilakukan pembuangan stopwords

yang terdapat pada file “stopwords.txt”. File

ini terdiri atas 661 kata yang dipisahkan dengan newline. Selanjutnya, term diubah ke lower case dengan fungsi preg_match.

Pengindeksan 1000 dokumen pertanian dan 93 dokumen tanaman obat pada setiap tagging

menghasilkan jumlah kata unik dan frekuensi total setiap kata.

Pemrosesan Kueri

Untuk menjalankan proses evaluasi, kueri dimasukkan pada sistem mesin pencari (Lampiran 1 dan Lampiran 2). Jumlah kueri yang digunakan pada penelitian ini ialah 30 untuk dokumen pertanian (Lampiran 3) dan 13 untuk dokumen tanaman obat (Lampiran 4). Kueri-kueri ini tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer. Kueri pada sistem ini menggunakan kueri XML, yaitu berupa kueri yang dipasangkan dengan potongan tagging

XML yang bersifat terstruktur. Pada kueri XML, potongan tagging yang dipakai pada dokumen pertanian adalah

1. <title>kueri</title> 2. <text>kueri</text>

3. <title><text>kueri</text></t itle>

Tagging yang dipakai pada dokumen tanaman obat adalah

1. <penyakit>kueri</penyakit> 2. <content>kueri</content> 3. <content><penyakit>kueri</pe

nyakit></content>

Penghitungan panjang konteks pada kueri dapat dicontohkan sebagai berikut:

“<title> gagal panen</title>” Kueri tersebut diilustrasikan menjadi tree

yang digambarkan pada Gambar 4. Gambar 4 menunjukkan bahwa panjang konteks pada kueri ialah 3.

Gambar 4 Contoh tree pada kueri.

Hasil Temu Kembali

Pada penelitian ini, pembobotan yang <?xml version="1.0" encoding="utf-8"?> <DOC> <DOCNO>017</DOCNO> <nama>Sosor Bebek</nama> <namal>Kalanchoe pinnata Lamk.</namal> <content>Famili : Crassulaceae. Nama Lokal : Cakar itek (Sunda); dan sosor bebek....</content> <fam>Crassulaceae</fam> <penyakit>Kulit</penyakit> </DOC> title panen gagal <?xml version="1.0" encoding="utf-8"?> <DOC> <DOCNO>suaramerdeka1201 04</DOCNO>

<TITLE>Pemerintah Larang Impor Beras pada Pra dan Pascapanen Raya </TITLE>

<AUTHOR> (ant-82) </AUTHOR> <SOURCE>suaramerdeka</SOURCE> <DATE>12/1/2004</DATE>

<TEXT>JAKARTA- Pemerintah mengeluarkan ketentuan larangan melakukan impor beras pada satu bulan sebelum saat...</TEXT> </DOC>

digunakan yaitu tf-idf. Jumlah dokumen teratas yang diambil adalah 30 untuk sistem dokumen pertanian dan 20 untuk sistem dokumen tanaman obat.

Pengujian Kinerja Sistem

Proses evaluasi dalam penelitian ini dilakukan pada dua koleksi dokumen yaitu dokumen pertanian dan dokumen, tanaman obat beserta kueri uji yang berbeda.

1 Pengujian pada Dokumen Pertanian Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji yang telah ada sebelumnya berikut dokumen yang relevan. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai recall dan

precision untuk 30 dokumen teratas yang ditemukembalikan oleh sistem dan dilakukan perhitungan interpolasi terhadap maksimum untuk mendapatkan nilai average precision

(AVP).

Pengujian terhadap kueri XML pada dokumen pertanian terdapat tiga jenis potongan tagging dari struktur dokumen XML di koleksi, yaitu :

a Kueri XML dengan potongan tagging title

Gambar 5 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging title. Nilai average precision dari pencarian kueri XML dengan potongan tagging title

sebesar 0.5005.

Gambar 5 Grafik R-P untuk tagging title.

b Kueri XML dengan potongan tagging text

Gambar 6 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging text. Nilai average precision dari pencarian kueri XML dengan potongan tagging text

sebesar 0.6156 atau meningkat 12% dari kueri XML dengan potongan tagging title. Hal ini menyebabkan kata konteks kueri banyak yang sama dengan konteks dokumen yang menyebabkan nilai average precision

meningkat sebesar 12%.

Gambar 6 Grafik R-P untuk tagging text. c Kueri XML dengan potongan tagging title andtext

Gambar 7 mengilustrasikan kinerja sistem pada XML kueri dengan potongan tagging title dan text.

Gambar 7 Grafik R-P untuk potongan tagging title & text.

Nilai average precision dari pencarian kueri XML dengan potongan tagging title and text sebesar 0.6153 atau lebih rendah 0.0003 dari kueri XML dengan potongan tagging text

dan meningkat 12% dari kueri XML dengan potongan tagging title. Average precision

masing-masing potongan tagging pada kueri XML dapat dilihat pada Tabel 2. Kinerja temu-kembali diilustrasikan dengan grafik

recall-precision yang ditunjukan pada Gambar 8. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 recall p re ci si o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 recall p re c is io n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 recall p re ci si o n

Gambar 8 Grafik R-P untuk dokumen pertanian.

Gambar 8 menunjukkan bahwa untuk perbedaan jenis potongan tagging telah memiliki perbedaan yang signifikan terhadap penambahan potongan tagging XML dan panjangnya kata pada suatu konteks di dokumen pertanian.

Tabel 2 Hasil perhitungan average precision

pada dokumen pertanian

Jenis Tagging AVP

Title 0.5005

Text 0.6156

Title & Text 0.6153

Tabel 2 menunjukkan bahwa kinerja sistem

pada pembobotan tf-idf dengan

SIMNOMERGE similarity memberikan temu-kembali lebih baik yaitu pada kueri XML dengan potongan tagging text dan tagging title and text sebesar 62%. Berarti, secara rata-rata pada tiap recall point, 62% hasil temu-kembali relevan dengan kueri dan meningkat sebesar 12% dari kueri XML dengan potongan

tagging title.

2 Pengujian pada Dokumen Tanaman Obat Proses evaluasi pada dokumen tanaman obat menggunakan 13 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan. Pengujian yang dilakukan sama seperti sebelumnya, yaitu melakukan perhitungan recall-precision terhadap kueri XML dan dilakukan tahap perhitungan interpolasi masksimum untuk mendapakan nilai average precision (AVP) yang akan menggambarkan nilai kinerja pada sistem secara keseluruhan.

Pada pengujian sistem dilakukan untuk

pencarian dokumen dengan kueri XML dengan mengambil 20 dokumen teratas. Pengujian terhadap kueri XML pada dokumen tanaman obat terdapat tiga jenis potongan

tagging dari struktur dokumen XML di koleksi dokumen pertanian, yaitu :

a Kueri XML dengan potongan tagging

penyakit

Gambar 9 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging

penyakit. Pada pengujian sistem pada pencarian kueri XML dengan potongan

tagging penyakit, nilai average precision yang didapat sebesar 0.5968. Pengaturan skala sumbu y pada Gambar 9 dimulai dengan skala minimum 0.5750 dan skala maksimum 0.6150. Hal ini dilakukan untuk melihat grafik R-P potongan tagging penyakit telah relevan.

Gambar 9 Grafik R-P untuk tagging penyakit. b Kueri XML dengan Potongan tagging content

Gambar 10 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging content.

Gambar 10 Grafik R-P untuk tagging content. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.5750 0.5800 0.5850 0.5900 0.5950 0.6000 0.6050 0.6100 0.6150 recall p re ci si o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Recall P re ci si o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 tagging title tagging text tagging title & text recall p re ci si o n

Nilai average precision dari pencarian kueri XML dengan potongan tagging content

sebesar 0.6273 atau lebih tinggi sebesar 0.0305 dari kueri XML dengan potongan

tagging penyakit.

c Kueri XML dengan potongan tagging content dan penyakit

Gambar 11 mengilustrasikan kinerja sistem untuk kueri XML dengan potongan tagging content dan penyakit. Nilai average precision

dari pencarian kueri XML dengan potongan

tagging content dan penyakit sebesar 0.8589. Perbedaan kinerja sistem pada kueri potongan

tagging content dan content & penyakit di sistem tanaman obat diilustrasikan pada grafik recall-precision yang dapat dilihat Gambar 12 dan uraian masing-masing nilai

average precision terhadap kueri XML di tanaman obat dapat dilihat pada Tabel 3.

Gambar 11 Grafik R-P untuk tagging content

dan penyakit.

Gambar 12 Grafik R-P untuk dokumen tanaman obat.

Dari Gambar 12, dapat dilihat bahwa terjadi perubahan signifikan terhadap

penyatuan potongan tagging pada sistem tanaman obat, yaitu content dan penyakit. Di potongan tagging tersebut, terdapat banyak kueri yang dicari oleh pengguna sehingga banyak terambil dokumen yang relevan pada pengujian kueri XML dengan potongan

tagging content dan penyakit.

Tabel 3 Hasil perhitungan average precision

pada dokumen tanaman obat

Jenis Tagging AVP

Penyakit 0.5968

Content 0.6273

Content & Penyakit 0.8589

Hasil pada Tabel 3 menunjukkan bahwa kinerja sistem untuk tanaman obat dengan nilai average precision yang sangat baik mencapai 86% pada kueri XML dengan potongan tagging content dan penyakit. Berarti, secara rata-rata pada tiap recall point,

86% hasil temu-kembali relevan dengan kueri. Kinerja pengujian kueri XML dengan potongan tagging content dan penyakit meningkat 23% dari potongan tagging content

atau meningkat 26% dari potongan tagging

penyakit.

Hasil pengujian pada dokumen tanaman obat lebih baik daripada pengujian dokumen pertanian. Hal ini dikarenakan isi konteks dokumen banyak yang sama dengan representasi dari kueri uji yang dilakukan. Hal ini mengakibatkan sistem dapat menghasilkan dokumen yang spesifik dari kueri XML dengan potongan tagging di dokumen tanaman obat. Selain itu, dokumen tanaman obat juga bersifat berbeda antar dokumennya. Setiap dokumen pada setiap tagging memiliki penciri yang berbeda dari dokumen lainnya sehingga membuat hasil temu-kembali menjadi semakin baik.

Dalam dokumen XML retrieval untuk dokumen Bahasa Indonesia (Halaman 30-34)