HASIL DAN PEMBAHASAN - XML Retrieval dokumen bahasa indonesia menggunakan algoritme simnomerge

Koleksi Dokumen Pengujian

Penelitian ini menggunakan 130 dokumen mengenai tanaman obat di Indonesia. Dokumen diperoleh dari website Sentra Informasi IPTEK. Deskripsi dari dokumen dapat dilihat pada Tabel 1.

Tabel 1 Deskripsi koleksi dokumen Keterangan Nilai (bytes) Ukuran seluruh dokumen 536576 Ukuran rata-rata dokumen 4128 Ukuran dokumen terbesar 8192 Ukuran dokumen terbesar 4096 Gambar 1 Gambaran umum XML retrieval.

Dokumen pada penelitian ini memiliki struktur tagging bersarang, tetapi pada saat pengindeksan menggunakan Sphinx Search, struktur tagging yang digunakan tidak bersarang (Lampiran 1 - 2).

Dokumen tanaman obat dikelompokkan ke dalam tag-tag berikut:

 <doc></doc>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <docno></docno>, tag ini menunjukkan ID dari dokumen.

 <nama></nama>, tag ini menunjukkan nama dari suatu jenis tanaman obat dan melingkupi tag <nama-latin> </nama-latin> dan tag <nama-lokal></nama-lokal>.

 <nama-latin></nama-latin>, tag ini menunjukkan nama latin tanaman obat

 <nama-lokal></nama-lokal>, tag ini menunjukkan nama daerah tanaman obat.

 <sinonim></sinonim>, tag ini menunjukkan nama sinonim dari tanaman obat.

 <familia></familia>, tag ini menunjukkan nama famili dari tanaman obat.

 <deskripsi></deskripsi>, tag ini menunjukkan deskripsi dari tanaman obat.

 <habitat></habitat>, tag ini menunjukkan habitat dari tanaman obat.

 <bagian></bagian>, tag ini menunjukkan bagian tanaman obat yang digunakan.

 <manfaat></manfaat>, tag ini menunjukkan manfaat dan penyakit yang dapat disembuhkan dari jenis tanaman obat.

 <sifat></sifat>, tag ini menunjukkan sifat kimiawi dan efek farmakologis dari tanaman obat.

 <komposisi></komposisi>, tag ini menunjukkan kandungan kimia dari tanaman obat.

 <penyakit></penyakit>, tag ini menunjukkan penyakit yang dapat disembuhkan dari jenis tanaman obat. Praproses Dokumen

Praproses dokumen dilakukan dengan menggunakan fungsi indexing Sphinx Search. Sphinx Search tidak dapat melakukan peng-indeksan dokumen dengan struktur tagging bersarang, sehingga digunakan struktur tagging tidak bersarang. Praproses dokumen melibatkan proses pembuangan stopwords.

Pemrosesan Query

Jumlah query yang digunakan pada penelitian ini ialah 20 query (Lampiran 3 - 5). Query pada sistem ini menggunakan query XML. Setiap query dipasangkan dengan

tagging XML pada dokumen. Struktur XML yang digunakan pada dokumen ialah struktur tagging bersarang sehingga menghasilkan kedalaman konteks XML yang berbeda-beda.

Query tanpa menggunakan potongan tagging, antara lain:

 sakit kuning

 masuk angin

 asam urat

 kulit

 kencing manis

Query yang menggunakan tagging dengan kedalaman konteks XML 1, antara lain:

 /manfaat#tekanan darah tinggi

 /manfaat#muntah darah  /manfaat#radang paru  /manfaat#infeksi ginjal  /penyakit#saluran kemih  /sifat#anti radang  /manfaat#kanker darah

 /manfaat#radang saluran napas

Query yang menggunakan tagging dengan kedalaman konteks XML 2, antara lain:

 /nama/nama-lokal#asam jawa  /nama/nama-lokal#bayam  /nama/nama-lokal#belimbing asam  /nama/nama-lokal#daun jintan  /nama/nama-lokal#sirih  /nama/nama-lokal#buah makasar  /nama/nama-lokal#ekor kucing Hasil Temu Kembali

Pada penelitian ini, pembobotan yang digunakan yaitu fungsi pembobotan BM25 yang telah disediakan oleh Sphinx Search. Jumlah dokumen teratas yang diambil adalah 30 dokumen.

Pengujian Sistem Temu Kembali

Proses pengujian dilakukan untuk mem-bandingkan kinerja sistem pada dokumen relevan dan dokumen yang tidak relevan atau yang tidak seharusnya muncul pada hasil temu kembali.

 Pengujian pada Dokumen Relevan Pengujian dilakukan pada 20 query uji. Proses temu kembali informasi dengan query uji dilakukan untuk mendapatkan nilai recall dan

precision untuk 30 dokumen teratas. Setelah itu, dilakukan perhitungan interpolasi maksimum untuk mendapatkan nilai AVP (Lampiran 6).

Pengujian terhadap query uji terbagi men-jadi tiga jenis query, yaitu:

1 Query tanpa memperhatikan struktur XML dokumen

Pengujian query tanpa memperhatikan struktur XML dokumen ini bertujuan membandingkan kinerja sistem temu kembali tidak berstruktur dengan XML retrieval.

Gambar 2 mengilustrasikan kinerja sistem temu kembali tidak terstruktur. Nilai AVP dari proses temu kembali sebesar 0.756.

2 Query XML dengan kedalaman konteks XML sebesar 1

Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 1 sebesar 0.911 atau meningkat 15.5% dari query tanpa memperhatikan struktur tagging. Gambar 3 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 1.

3 Query XML dengan kedalaman konteks XML sebesar 2

Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 2 sebesar 0,981 atau meningkat 22.5% dari query tanpa memperhatikan struktur tagging. Gambar 4 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 2.

Tabel 2 menunjukkan bahwa kinerja XML retrieval meningkat 15.5% dan 22.5% dibandingkan dengan kinerja sistem temu kembali tidak terstruktur. Hasil pengujian ini menunjukkan pembobotan BM25 dan Simnomerge similarity menghasilkan temu kembali yang lebih baik. Hal ini dikarenakan XML retrieval menggunakan query dengan potongan tagging dari koleksi dokumen XML dalam proses perhitungan, sehingga temu kembali informasi menghasilkan jawaban yang lebih spesifik dan relevan sesuai dengan kebutuhan pengguna.

Tabel 2 Hasil perhitungan AVP pada dokumen relevan

Jenis Query AVP

Tanpa tagging 0.756

Kedalaman konteks sebesar 1 0.911 Kedalaman konteks sebesar 2 0.981

Gambar 5 menunjukkan bahwa XML retrieval peningkatan kinerja yang lebih baik dibandingkan sistem temu kembali tidak terstruktur. Kedalaman konteks juga mempengaruhi kinerja sistem temu kembali informasi. Penambahan tag bersarang pada dokumen dapat meningkatkan kinerja sebesar 98.1%.

Gambar 2 Kurva recall dan precision tanpa tagging.

Gambar 3 Kurva recall dan precision dengan konteks XML 1.

Gambar 4 Kurva recall dan precision dengan konteks XML 2.

Gambar 5 Kurva recall dan precision dokumen relevan.

 Pengujian pada Dokumen Tidak Relevan Pengujian dilakukan pada 20 query uji sama seperti pengujian pada dokumen relevan. Proses temu kembali informasi dengan query uji dilakukan untuk mendapatkan nilai recall dan precision untuk 30 dokumen teratas. Selain itu, dilakukan perhitungan interpolasi maksimum untuk mendapatkan nilai AVP (Lampiran 7).

Pengujian terhadap query uji terbagi men-jadi 3 jenis query yaitu:

1 Query tanpa memerhatikan struktur XML dokumen

Gambar 6 mengilustrasikan kinerja sistem temu kembali tidak terstruktur. Nilai AVP dari proses temu kembali sebesar 0.611.

2 Query XML dengan kedalaman konteks XML sebesar 1

Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 1 sebesar 0.246 atau menurun 36.5% dari query tanpa memerhatikan struktur tagging. Gambar 7 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 1.

3 Query XML dengan kedalaman konteks XML sebesar 2

Nilai AVP dari pencarian query XML dengan kedalaman konteks XML 2 sebesar 0.329 atau menurun 28.2% dari query tanpa

memerhatikan struktur tagging. Gambar 8 mengilustrasikan hasil kinerja sistem pada query XML dengan kedalaman konteks 2.

Nilai AVP pada pengujian sistem temu kembali dengan dokumen yang tidak relevan mengalami penurunan dibandingkan dengan pengujian sistem temu kembali dengan dokumen relevan. Penurunan pada pengujian query tanpa memperhatikan struktur tagging tidak telalu signifikan dibandingkan dengan pengujian menggunakan query XML. XML retrieval dapat mengurangi kinerja sistem temu kembali dalam menemukembalikan dokumen yang tidak relevan.

Gambar 9 menunjukkan bahwa kinerja XML retrieval menurun masing-masing sebesar 36.5% dan 28.2% dibandingkan dengan kinerja sistem temu kembali tidak terstruktur. Nilai AVP masing-masing query dapat dilihat pada Tabel 3.

Tabel 3 Hasil perhitungan AVP pada dokumen tidak relevan

Jenis Query AVP

Tanpa tagging 0.611

Kedalaman konteks sebesar 1 0.246 Kedalaman konteks sebesar 2 0.329 Gambar 6 Kurva recall dan precision

tanpa tagging.

Gambar 7 Kurva recall dan precision dengan konteks XML 1.

Gambar 8 Kurva recall dan precision dengan konteks XML 2.

Gambar 9 Kurva recall dan precision dokumen tidak relevan.

Analisis Perbandingan Sistem

Analisis perbandingan sistem bertujuan membandingkan hasil temu kembali sistem yang digunakan oleh Bahi (2011) dengan sistem yang digunakan pada penelitian ini. Sistem yang digunakan oleh Bahi (2011) menggunakan 1000 dokumen pertanian dan 93 dokumen tanaman obat. Sistem yang menggunakan 1000 dokumen pertanian menggunakan 30 query uji dan hanya menemukembalikan tag title dan tag text. Sistem yang menggunakan 93 dokumen tanaman obat menggunakan 13 query uji dan hanya melakukan temu kembali pada tag content dan tag penyakit. Terdapat dua kondisi analisis perbandingan dalam penelitian ini, yaitu perbandingan sistem informasi berbasis teks analisis perbandingan XML retrieval.

 Analisis Perbandingan Sistem Temu Kembali Informasi Berbasis Teks

Analisis perbandingan sistem temu kembali informasi berbasis teks bertujuan mem-bandingkan kinerja kedua sistem sebelum menerapkan XML retrieval. Analisis per-bandingan dilakukan dengan membandingkan nilai AVP dari query uji yang dihasilkan oleh masing-masing sistem. Pada penelitian ini, sistem tidak memperhatikan struktur tagging, sedangkan pada sistem yang digunakan Bahi (2011), untuk 1000 dokumen pertanian, sistem melakukan temu kembali pada tag title dan tag text saja. Untuk 93 dokumen tanaman obat, sistem melakukan temu kembali pada tag content dan penyakit saja.

Tabel 4 menunjukkan perbandingan nilai AVP yang dihasilkan kedua sistem informasi berbasis teks.

Tabel 4 Perbandingan AVP sistem temu kembali berbasis teks

Jenis Tagging Jumlah Query

AVP Tanpa tagging 20 query 0.7560 title & text 30 query 0.6153 content & penyakit 13 query 0.8589

Dari Tabel 4 diketahui bahwa sistem yang digunakan oleh Bahi (2011) mampu memperoleh nilai AVP yang lebih baik ketika sistem tersebut menggunakan 93 dokumen tanaman obat, dengan perbedaan nilai AVP sebesar 0.1029. Namun, sistem pada penelitian ini mampu memperoleh nilai AVP yang lebih baik dibanding sistem yang digunakan oleh Bahi (2011) ketika menggunakan 1000 dokumen pertanian, dengan perbedaan nilai AVP sebesar 0.1407.

Gambar 10 menunjukkan perbandingan kinerja sistem temu kembali informasi berbasis teks.

 Analisis Perbandingan Sistem XML Retrieval

Analisis perbandingan sistem XML retrieval bertujuan membandingkan kinerja kedua sistem saat menerapkan XML retrieval. Analisis perbandingan dilakukan dengan mem-bandingkan nilai AVP dari query uji yang dihasilkan oleh masing-masing sistem dengan kedalaman konteks XML 1 dan kedalaman konteks XML 2. Tabel 5 menunjukkan perbandingan nilai AVP yang dihasilkan kedua sistem XML retrieval.

Tabel 5 Perbandingan AVP XML retrieval Jenis Tagging Jumlah

Query Uji

AVP Kedalaman konteks 2 20 query 0.9810 Kedalaman konteks 1 20 query 0.9110 Tagging title 30 query 0.5005 Tagging text 30 query 0.6156 Tagging content 13 query 0.5968 Tagging penyakit 13 query 0.6273 Dari Tabel 5, diketahui bahwa XML retrieval yang digunakan pada penelitian ini mampu memperoleh nilai AVP yang lebih baik dibandingkan sistem yang digunakan oleh Bahi (2011). Dokumen XML yang digunakan pada sistem ini memiliki struktur dengan kedalaman konteks XML hingga 2 (tag bersarang), mampu meningkatkan kinerja sistem. Faktor utama yang menyebabkan terjadinya perbedaan tersebut adalah perbedaan proses penamaan struktur tagging XML. Struktur XML yang digunakan pada sistem ini lebih lengkap dan detail sehingga hasil temu kembali informasi lebih spesifik.

Gambar 10 Perbandingan AVP sistem temu kembali informasi berbasis teks.

Gambar 11 menunjukkan perbandingan kinerja XML retrieval dengan kedalaman konteks XML 1 dan 2. Pada gambar tersebut diketahui bahwa, struktur XML dokumen dengan kedalaman konteks 2 dapat meningkatkan kinerja sistem temu kembali.

Dalam dokumen XML Retrieval dokumen bahasa indonesia menggunakan algoritme simnomerge (Halaman 30-35)