METODE PENELITIAN Penelitian ini dilakukan dalam lima tahap,

yaitu perolehan dokumen pengujian, praproses dokumen, pengambilan istilah ekspansi, pemilihan istilah ekspansi, dan evaluasi temu kembali. Gambaran umum proses temu kembali dengan ekspansi kueri dapat dilihat pada Gambar 1.

Perolehan Dokumen Pengujian

Penelitian ini menggunakan 2095 dokumen pertanian. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 95 dokumen tambahan yang dikumpulkan dari beberapa sumber di internet. Contoh dokumen pengujian dapat dilihat pada Lampiran 1. Praproses Dokumen

Tahap awal dari praproses dokumen ialah tokenisasi. Tokenisasi adalah proses untuk mendapatkan seluruh karakter dari seluruh koleksi dokumen yang sudah dibersihkan dari tanda baca pemisah, seperti titik, koma, dan whitespace. Proses tokenisasi diikuti dengan proses pembuangan kata yang tidak layak untuk dijadikan penciri atau stopwords. Kemudian, tahapan terakhir adalah proses pembobotan untuk menentukan tingkat kepentingan seluruh kata unik hasil tokenisasi.

Pengambilan Istilah Ekspansi

Pengambilan isitilah ekspansi bertujuan mendapatkan istilah sinonim dan antonim dari setiap kata pada kueri. Istilah sinonim dan antonim ini diperoleh dari tesaurus berbahasa Indonesia.

Pemilihan Istilah Ekspansi

Pemilihan istilah ekspansi bertujuan memilih istilah sinonim atau antonim yang akan digunakan untuk ekspansi kueri. Pemilihan istilah dilakukan menggunakan metode bobot irisan yang terdiri atas dua tahap. Tahap awal pada metode bobot irisan ialah membandingkan similiarity antara kueri awal dan kueri awal yang sudah ditambah istilah sinonim atau antonim, berdasarkan hasil temu kembalinya. Jika qa adalah kueri awal dan qbadalah kueri awal yang sudah ditambah istilah, sim(qa, qb) dapat dihitung dengan menjumlahkan nilai similarity dokumen-dokumen hasil temu kembali qb yang merupakan komplemen dari hasil temu kembali (qa ∩ qb), dan dibagi dengan total nilai similarity semua dokumen hasil temu kembali qb. Mengacu dari persamaan di atas, perhitungan awal bobot irisan dapat dirumuskan sebagai berikut: sim(qa,qb) = sim di, qb di∈Tb∁ (Ta ∩Tb) sim dj, qb dj∈ Tb .(1) dengan:

Ta :.adalah hasil temu kembali qa Tb :.adalah hasil temu kembali qb (Ta ∩ Tb) :.dokumen irisan hasil temu

:.kembali qa dan qb

Tb ∁ (Ta∩Tb) :.dokumen Tb yang merupakan

:.komplemen dari irisan Ta dan

:.Tb

sim(di, qb) :.nilai similarity dokumen ke-i

:.pada Tbyang merupakan

:.anggota irisan Ta dan Tb sim(di, qb) :.similarity dokumen ke-j dari Tb

Persamaan (1) akan menghasilkan nilai sim(qa, qb) dengan rentang nilai sama dengan nol dan kurang dari satu. Nilai sim(qa, qb) tidak mungkin bernilai satu karena penelitian ini menggunakan operator OR untuk setiap kata pada kueri. Penggunaan operator OR membuat hasil temu kembali kueri awal yang sudah ditambahkan suatu istilah pasti juga memiliki dokumen-dokumen hasil temu kembali dari kueri awal sebelum ditambahkan istilah.

Sementara itu, nilai sim(qa, qb) sama dengan nol menandakan bahwa kueri yang sudah ditambahkan dengan suatu istilah menghasilkan dokumen yang benar-benar sama dengan hasil

Kueri Awal Dokumen Pengambilan Istilah Ekspansi Praproses Dokumen Pemilihan Istilah Ekspansi Inverted Index Kueri Baru Temu Kembali Dokumen Hasil Temu Kembali Evaluasi Temu Kembali Ekspansi Kueri

Gambar 1 Gambaran umum proses temu kembali dengan ekspansi kueri.

temu kembali kueri awal. Oleh karena itu, istilah yang dipilih untuk ekspansi kueri adalah istilah yang memiliki nilai similarity terendah atau istilah dengan nilai dissimilarity terbesar. Proses untuk mencari istilah dengan nilai dissimilarity terbesar ini merupakan tahap akhir metode bobot irisan yang dapat dihitung dengan persamaan (2).

dissim (qa, qb) = 1 - sim(qa, qb)...(2) dengan:

sim(qa, qb): adalah nilai similarity qa dan qb Tingginya nilai dissimilarity menunjukkan bahwa penggunaan istilah tambahan dapat memberikan banyak perbedaan pada hasil temu kembali awal. Perbedaan-perbedaan tersebut diharapkan dapat meningkatkan peluang terambilnya dokumen relevan. Tabel 1 menunjukkan hasil perhitungan bobot irisan dengan persamaan (1) dan (2) untuk Gambar 2. Tabel 1 Contoh perhitungan bobot irisan

Ta ^Tb (similarity) Ta ∩ Tb dissim(qa,qb) da dg (1) da (0.9) da db db (0.8) db 0.6 de (0.7) de de dr (0.6)

Metode bobot irisan memerlukan nilai similarity antara dokumen dan kueri. Nilai similarity dokumen dan kueri ini diperoleh dari hasil pemeringkatan BM25 dan Proximity BM25 yang terdapat pada framework Sphinx, yang sama-sama menggunakanfaktor BM25 dalam proses perhitungannya. Adapun pseudo-code untuk memperoleh faktor BM25 adalah:

1 BM25=0 2 foreach(inmatching_keywords){ 3 n=total_matching_docs(keyword) 4 N=total_documents_collection 5 k1=1.2 6 TF=occurrence_count(keyword) 9 IDF=log((N-n+1)/n)/log(1+N) 10 BM25= BM25 + TF*IDF/(TF+k1) 11 } 12 Normalization: 13 BM25=0.5+BM25 /(2*num_keywords(query))

Pseudo-code pemeringkatan BM25 adalah: 1 SPH_BM25 Ranker: 2 field_weights = 0 3 foreach(field inmatching_fields) 4 field_weights +=user_weight (field) 5 weight=field_weights*1000 +integer(BM25*999)

Berbeda dengan metode pemeringkatan BM25, metode pemeringkatan Proximity BM25 adalah metode pemeringkatan yang menggabungkan faktor Proximity dan faktor BM25. Proximity hanya memperhatikan urutan kata yang terdapat pada kueri dan dokumen sehingga semakin mirip urutan kata-kata yang dalam kueri dengan urutan kata-kata yang ada dalam dokumen maka nilai Proximity-nya menjadi lebih besar. Adapun pseudo-code metode pemeringkatan Proximity BM25 adalah:

1 Proximity Value: 2 doc_phrase_weight = 0 2 foreach (field in matching_fields) 3 { 4 field_phrase_weight = max_common_subsequence_length (query, field) 5 doc_phrase_weight += user_weight (field) * field_phrase_weight 6 } 7 SPH_RANK_PROXIMITY_BM25: weight = doc_phrase_weight*1000 + integer(doc_bm25*999)

Evaluasi Temu Kembali

Metode evaluasi yang digunakan ialah recall dan precision. Recall merupakan rasio dari jumlah dokumen relevan yang ditemu-kembalikan terhadap jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen. Precision adalah rasio dari jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemu-kembalikan. Perhitungan recall dan precision dapat diilustrasikan pada Tabel 2.

Tabel 2 Perhitungan recall dan precision Relevant Non Relevant

Retrieved tp fp

Non Retrieved fn tn

dengan: Gambar 2 Dua buah hasil temu kembali

yang beririsan. da db de dg dr

R= ^|tp|

tp+ |fn|^...(3) P = ^|tp|

tp+ |fp|^...(4) Evaluasi dilakukan dengan 20 pasang kueri dan dokumen relevan yang dibuat khusus untuk penelitian ini. Daftar pasangan kueri uji dan dokumen relevan dapat dilihat pada Lampiran 2, sedangkan Lampiran 3 berisikan deskripsi dari kueri uji. Nilai recall dan precision yang diperoleh dari seluruh kueri uji kemudian diinterpolasi maksimum dengan 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0,4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Hasil interpolasi maksimum kemudian dirata-ratakan untuk mendapatkan nilai average precision sistem. Adapun 5 jenis evaluasi yang dilakukan pada penelitian ini adalah:

 QE0, yaitu evaluasi temu kembali tanpa menggunakan ekspansi kueri.

 QES1, yaitu evaluasi temu kembali dengan menambahkan satu istilah sinonim dengan nilai bobot irisan terendah.

 QES2, yaitu evaluasi temu kembali dengan menambahkan dua istilah sinonim dengan nilai bobot irisan terendah.

 QES3, yaitu evaluasi temu kembali dengan menambahkan tiga istilah sinonim dengan nilai bobot irisan terendah.

 QEA, yaitu evaluasi temu kembali dengan menambahkan satu istilah antonim dengan nilai bobot irisan terendah.

Selain melakukan evaluasi terhadap hasil temu kembali dengan ekspansi kueri, pada penelitian ini juga dilakukan analisis perbandingan metode pemilihan istilah ekspansi kueri Rahayuni (2011) yang menggunakan cosine similarity atau IDF dengan metode bobot irisan.

Lingkungan Pengembangan

Perangkat lunak yang digunakan dalam penelitian ialah:

 Windows 7 Ultimate sebagai sistem operasi.

 XAMPP-win32-1.7.2 sebagai web server.

 Notepad ++ 5.7 sebagai text editor.

 Sphinx search 2.0.1 sebagai framework search engine.

 Microsoft Excel 2007, sebagai aplikasi untuk evaluasi sistem.

Perangkat keras yang digunakan dalam penelitian ialah:

 AMD Turion-X2 2.2 GHz.

 RAM 3 GB.

 Harddisk dengan kapasitas 250 GB.

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Koleksi dokumen yang digunakan dalam penelitian ini sebanyak 2095 dokumen pertanian. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 95 dokumen lainnya dikumpulkan dari berbagai sumber di internet. Tabel 3 merupakan deskripsi koleksi dokumen uji.

Tabel 3 Deskripsi koleksi dokumen

Keterangan Ukuran (byte) Ukuran seluruh dokumen 6 894 430 Ukuran rata-rata dokumen 3 290.89 Ukuran dokumen terbesar 138 539

Ukuran dokumen terkecil 412

Koleksi dokumen yang digunakan berformat teks (.txt) dengan struktur tag XML pada setiap dokumennya. Tag XML yang terdapat dalam koleksi dokumen pengujian ialah:

 <DOC> </DOC>, mewakili keseluruhan dokumen. Di dalamnya juga terdapat beberapa tag lain yang mendeskripsikan isi dokumen secara lebih jelas.

 <DOCNO> </DOCNO>, mewakili ID dokumen. ID yang dipakai merupakan kombinasi dari sumber berita, tanggal, dan urutan berita dari tanggal yang sama.

 <TITLE> </TITLE>, mewakili judul dokumen.

 <AUTHOR> </AUTHOR>, mewakili penulis dokumen.

 <DATE> </DATE>, mewakili tanggal penulisan atau tanggal terbit dokumen.

 <TEXT> </TEXT>, mewakili isi dokumen. Praproses Dokumen

Praproses dokumen melibatkan beberapa proses yaitu tokenisasi, pembuangan stopwords, dan pembobotan. Praproses dokumen dilakukan secara otomatis menggunakan fungsi indexing Sphinx. Proses tokenisasi bertujuan mendapatkan token atau kata unik dari seluruh koleksi dokumen yang sudah dipisahkan dari karakter pemisah, seperti titik, koma, dan whitespace. Praproses dokumen hanya dilakukan pada bagian dokumen yang diapit oleh tag <DOCNO> </DOCNO>,<TITLE> </TITLE>, dan <TEXT> </TEXT>.

Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan. Proses pembuangan stopwords dilakukan dengan cara mencocokan token hasil tokenisasi dengan kata-kata yang ada dalam stoplist. Apabila token tersebut ada dalam stoplist, token akan dihapus. Hasil proses tokenisasi dan pembuangan stopwords adalah sejumlah token dan frekuensi kemunculannya (tf) pada tiap-tiap dokumen serta jumlah dokumen yang mengandung token tersebut (df). Nilai (df) kemudian digunakan untuk menghasilkan nilai (idf). Nilai (tf) maupun (idf) dari masing-masing token digunakan sebagai komponen pembobot pada pembobotan BM25. Ekspansi Kueri

Proses ekspansi kueri yang diterapkan pada penelitian ini terdiri atas dua tahap, yaitu pengambilan istilah ekspansi dan pemilihan istilah ekspansi.

 Pengambilan Istilah Ekspansi

Pengambilan istilah ekspansi bertujuan untuk mendapatkan istilah sinonim atau antonim dari tesaurus. Terdapat dua kondisi pengambilan istilah ekspansi yaitu pengambilan istilah sinonim dan pengambilan istilah antonim. Pengambilan istilah sinonim dilakukan dengan mengikuti Algoritme 1.

Algoritme 1.

1 for each (term_in_query){

2 get synonym(term)from_thesaurus 3 if(!synonym(term)in_stoplist)) 4 synonym_list=synonym(term) 5 }

Algoritme 1 menerangkan bahwa istilah sinonim diperoleh dari setiap kata pada kueri awal. Istilah sinonim yang digunakan adalah istilah yang tidak ada dalam stoplist. Istilah sinonim yang terpilih kemudian diapit dengan tanda kutip agar istilah sinonim yang terdiri dari dua kata dianggap menjadi satu kata. Sementara itu, proses pengambilan istilah antonim dilakukan dengan mengikuti Algoritme 2. Algoritme 2.

1 for each (term_in_query){ 2 get synonym(term)from_thesaurus 3 get antonym(synonym(term)) from_thesaurus 4 if(!antonim(term)in_stoplist)) 5 antonym_list = tidak .antonym(term) 6 }

Algoritme 2 menerangkan bahwa istilah antonim diperoleh dari semua istilah sinonim yang diperoleh dari setiap kata pada kueri awal. Istilah antonim yang digunakan adalah istilah yang tidak terdapat dalam stoplist. Istilah antonim yang terpilih kemudian dimodifikasi

dengan menambahkan kata “tidak” sebelum

setiap antonim. Kemudian, istilah antonim yang

sudah ditambahkan kata “tidak” ini diapit

dengan tanda kutip agar istilah tersebut dianggap menjadi satu kata. Penambahan kata “tidak” sebelum istilah antonim ini bertujuan agar istilah antonim memiliki makna yang sama dengan kata yang ada pada kueri awal sehingga tidak mengubah konteks pencarian.

 Pemilihan Istilah Ekspansi

Istilah-istilah yang sudah diperoleh pada tahap pengambilan istilah ekspansi digunakan untuk membentuk beberapa kueri baru. Kueri baru dibentuk dengan cara menambahkan istilah sinonim atau antonim ke dalam kueri awal. Kemudian, dilakukan proses temu kembali dengan semua kueri baru tersebut untuk memperoleh dokumen-dokumen yang digunakan dalam proses perhitungan bobot irisan dengan persamaan (1) dan (2). Gambar 3 adalah contoh hasil pembentukan kueri baru dan Gambar 4 adalah contoh hasil perhitungan bobot irisan.

Istilah yang dipilih adalah istilah yang memiliki nilai dissimilarity terbesar yang berada dalam rentang nilai sama dengan nol dan kurang dari satu. Nilai dissimilarity yang rendah menandakan bahwa istilah tersebut tidak dapat memberikan banyak perbedaan pada hasil temu kembali awal. Sementara itu, nilai dissimilarity yang tinggi menandakan bahwa istilah tersebut mampu menghasilkan beberapa dokumen baru yang sebelumnya tidak ditemukan.

Evaluasi Temu Kembali

Evaluasi temu kembali bertujuan mengetahui kinerja sistem temu kembali sebelum dan setelah menerapkan ekspansi kueri. Evaluasi juga bertujuan membandingkan hasil temu kembali yang menggunakan metode

Gambar 3 Hasil pembentukan kueri baru.

Kueri awal: sawah rusak berat Kueri baru dengan sinonim:

Kueri baru dengan antonim:

pemeringkatan BM25 dan Proximity BM25.

 Evaluasi Tanpa Ekspansi Kueri

Evaluasi tanpa ekspansi kueri (QE0) dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 20 kueri uji. Hasil evaluasi QE0 ditunjukkan pada Tabel 4.

Tabel 4 Nilai recall dan AVP QE0

Metode Recall AVP

QE0 (BM25) 0.89 0.168 QE0 (Proximity BM25) 0.89 0.175

Dari Tabel 4, dapat diketahui bahwa sistem temu kembali tanpa ekspansi yang digunakan pada penelitian ini mampu menghasilkan nilai recall sebesar 0.89. Hal ini menunjukkan bahwa sistem mampu mengembalikan 89% dokumen relevan dari seluruh dokumen relevan yang ada dalam koleksi. Dari Tabel 4, juga dapat diketahui bahwa nilai AVP yang dihasilkan oleh pemeringkatan Proximity BM25 lebih tinggi 4.41% dari AVP yang dihasilkan oleh pemeringkatan BM25.

Proximity BM25 akan menghasilkan bobot atau nilai similarity yang lebih tinggi untuk kueri-kueri yang memiliki pola urutan kata yang sama dengan urutan kata yang ada dalam koleksi dokumen. Untuk beberapa kueri uji, Proximity BM25 mampu mengembalikan dokumen relevan dengan peringkat yang lebih baik daripada pemeringkatan BM25, sehingga nilai AVP yang dihasilkan oleh pemeringkatan Proximity BM25 menjadi sedikit lebih baik dari

pemeringkatan BM25. Gambar 5 adalah kurva recall dan precision dari QE0.

 Evaluasi Ekspansi Kueri dengan Sinonim Evaluasi ekspansi kueri dengan 1 sinonim (QES1), 2 sinonim (QES2), dan 3 sinonim (QES3) dilakukan untuk melihat pengaruh penggunaan istilah sinonim untuk ekspansi kueri. Evaluasi dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 20 kueri uji. Hasil evaluasi QES1, QES2, dan QES3 ditunjukkan pada Tabel 5.

Tabel 5 Nilai recall dan AVP QES1, QES2, dan QES3

Metode Recall AVP

QES1 (BM25) 0.945 0.225 QES2 (BM25) 0.981 0.230 QES3 (BM25) 0.985 0.220 QES1 (Proximity BM25) 0.945 0.212 QES2 (Proximity BM25) 0.981 0.224 QES3 (Proximity BM25) 0.985 0.233

Dari Tabel 5, dapat diketahui bahwa semakin banyak istilah sinonim yang ditambahkan dalam kueri awal, akan semakin meningkatkan recall. Peningkatan recall ini disebabkan oleh adanya dokumen-dokumen relevan yang baru ditemukan setelah menggunakan istilah ekspansi. Jika dibandingkan dengan hasil temu kembali QE0, peningkatan nilai recall untuk QES1 ialah sebesar 6.60%, 10.66% untuk QES2, dan 11.05% untuk QES3. Selain meningkatkan recall, ekspansi kueri dengan istilah sinonim juga mampu meningkatkan nilai AVP. Jika dibandingkan dengan nilai AVP QE0 dari masing-masing metode pemeringkatan,

Gambar 5 Kurva recall dan precision QE0.

Gambar 4 Contoh hasil perhitungan bobot irisan. Array ( [0] => Array( [bobot] => 0.87401129 [istilah] => lahan ) [1] => Array( [bobot] => 0.96099290 [istilah] => sulit ) [2] => Array( [bobot] => 0.97240143 [istilah] => hancur ) [3] => Array( [bobot] => 1 [istilah] => ladang ) ) P r e c i s i o n 0 0.1 0.2 0.3 0.40.5 0.6 0.7 0.8 0.9 1 R e c a l l 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 QE0-BM25 QE0-Proximity BM25

peningkatan AVP untuk metode pemeringkatan BM25 ialah sebesar 34.01% untuk QES1, 36.71% untuk QES2, dan 31.30% untuk QES3. Sementara itu, peningkatan AVP untuk metode pemeringkatan Proximity BM25 ialah sebesar 20.74% untuk QES1, 27.79% untuk QES2, dan 32.75% untuk QES3.

Peningkatan AVP yang terjadi pada ketiga tipe ekspansi kueri sinonim ini disebabkan oleh adanya istilah-istilah ekspansi yang mampu memperbaiki peringkat dokumen relevan untuk menempati peringkat yang lebih tinggi dari peringkat sebelumnya. Dari Tabel 5, juga diketahui bahwa QES3 dari metode pemeringkatan BM25 memiliki nilai recall yang paling tinggi jika dibandingkan dengan QES1 dan QES2, namun nilai AVP yang dihasilkan QES3 justru lebih rendah dari nilai AVP QES2. Hal ini disebabkan oleh jumlah dokumen tidak relevan yang ikut terambil dalam proses temu kembali QES3 lebih banyak dan di antaranya juga menempati peringkat yang lebih tinggi dari dokumen relevan.

Pada metode pemeringkatan Proximity BM25, diketahui bahwa semakin banyak jumlah istilah ekspansi ternyata dapat semakin meningkatkan nilai AVP. Hal ini disebabkan oleh adanya istilah-istilah ekspansi yang mampu meningkatkan nilai Proximity sehingga dapat memperbaiki peringkat dokumen relevan untuk menempati peringkat yang lebih tinggi.

Berdasarkan pada peningkatan AVP yang terjadi pada kedua metode pemeringkatan ini, metode pemeringkatan BM25 dapat dikatakan sedikit lebih baik daripada metode pemeringkatan Proximity BM25. Metode pemeringkatan BM25 mampu meningkatkan nilai AVP sampai dengan 36.71% (QES2), sedangkan metode Proximity BM25 hanya

mampu meningkatkan nilai AVP sampai dengan 32.75% (QES3). Gambar 6 adalah kurva recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan BM25. Gambar 7 adalah kurva recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan Proximity BM25.

 Evaluasi Ekspansi Kueri dengan Antonim Evaluasi ekspansi kueri dengan istilah antonim (QEA) dilakukan dengan membandingkan nilai recall dan AVP dari metode pemeringkatan BM25 dan Proximity BM25 dengan menggunakan 16 kueri uji. Istilah antonim yang digunakan adalah istilah antonim yang sudah ditambahkan kata “tidak” pada awalan antonim. Penambahan kata “tidak” pada setiap awalan antonim bertujuan agar istilah tersebut memiliki makna yang sama dengan kata pada kueri awal sehingga tidak merubah konteks pencarian. Tabel 6 menunjukkan hasil evaluasi QE0 dan QEA dengan 16 kueri uji. Tabel 6 Nilai recall dan AVP QE0 dan QEA

Metode Recall AVP

QE0 (BM25) 0.867 0.173 QEA (BM25) 0.869 0.173 QE0 (Proximity BM25) 0.867 0.177 QEA (Proximity BM25) 0.869 0.165

Dari Tabel 6, dapat diketahui bahwa penambahan istilah antonim untuk ekspansi kueri hanya mampu meningkatkan recall sebesar 0.21%. Dari Tabel 6, juga dapat diketahui bahwa penggunaan Proximity BM25 pada ekspansi kueri antonim justru menurunkan nilai AVP sebesar 4.59%. Hal ini disebabkan oleh adanya dokumen-dokumen tidak relevan yang memiliki nilai similarity yang lebih tinggi sehingga dokumen-dokumen tersebut

Gambar 6 Kurva recall dan precision QES1, QES2, dan QES3 dengan BM25.

Gambar 7 Kurva recall dan precision QES1, QES2, dan QES3 dengan Proximity BM25. QE1-BM25 QE2-BM25 QE3-BM25 R e c a l l P r e c i s i o n P r e c i s i o n 0 0.1 0.20.3 0.40.5 0.6 0.7 0.80.9 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.20.3 0.4 0.5 0.60.7 0.8 0.9 1 R e c a l l 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 QE1- Proximity BM25 QE2- Proximity BM25 QE3- Proximity BM25

menempati peringkat yang lebih tinggi dari dokumen relevan. Gambar 8 adalah kurva recall dan precision QEA dengan pemeringkatan BM25 dan Proximity BM25.

 Evaluasi Perbandingan Ekspansi Kueri dengan Sinonim dan Antonim

Evaluasi perbandingan ekspansi kueri bertujuan mengetahui penggunaan istilah sinonim atau antonim yang lebih baik digunakan untuk ekspansi kueri. Tipe ekspansi sinonim dan antonim yang dibandingkan adalah QES2 dan QEA dengan metode pemeringkatan BM25. Evaluasi perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 16 kueri uji. Perbandingan nilai recall dan AVP dari hasil evaluasi ekspansi sinonim dan antonim ditunjukkan pada Tabel 7.

Tabel 7 Nilai recall dan AVP QES2, dan QEA

Metode Recall AVP

QES2 0.981 0.252

QEA 0.869 0.173

Dari Tabel 7, dapat diketahui bahwa penggunaan dua istilah sinonim (QES2) untuk ekspansi kueri lebih baik daripada penggunaan istilah antonim (QEA). Jika dibandingkan dengan hasil evaluasi QE0, QES2 dapat meningkatkan nilai recall dan juga AVP masing-masing sebesar 13.12% dan 45.93%, sedangkan QEA hanya dapat meningkatkan nilai recall sebesar 0.21%. Perbedaan tersebut disebabkan oleh jumlah dokumen yang dihasilkan oleh QES2 dan QEA tidak sama. Pada umumnya, koleksi dokumen lebih banyak mengandung istilah sinonim daripada istilah antonim yang sudah ditambahkan kata „tidak‟ di awal antonim. Hal tersebut membuat jumlah dokumen tambahan yang dihasilkan oleh istilah

sinonim menjadi lebih banyak. Hasil temu kembali yang lebih banyak inilah yang membuat metode ekspansi kueri dengan istilah sinonim memiliki peluang yang lebih besar untuk mendapatkan dokumen relevan lebih banyak. Gambar 9 adalah kurva recall dan precision QEA dan QES2.

Analisis Perbandingan Sistem

Analisis perbandingan sistem bertujuan membandingkan hasil temu kembali dari sistem yang digunakan Rahayuni (2011) dengan sistem yang digunakan pada penelitian ini. Terdapat dua kondisi analisis perbandingan, yaitu perbandingan sistem tanpa ekspansi kueri dan perbandingan sistem dengan ekspansi kueri.

 Analisis Perbandingan Sistem Tanpa Ekspansi Kueri

Analisis perbandingan sistem tanpa ekspansi kueri bertujuan membandingkan kinerja kedua sistem sebelum menerapkan ekspansi kueri. Analisis perbandingan dilakukan dengan membandingkan nilai recall dan AVP dari 20 kueri uji yang dihasilkan oleh masing-masing sistem. Tabel 8 menunjukkan perbandingan nilai recall dan AVP yang dihasilkan oleh kedua sistem tanpa ekspansi kueri.

Tabel 8 Perbandingan recall dan AVP sistem temu kembali tanpa ekspansi

Metode Recall AVP

Tanpa ekspansi

cosine atau IDF ^0.176 ^0.081 Tanpa ekspansi

bobot irisan ^0.89 ^0.168 Dari Tabel 8, dapat diketahui bahwa sistem temu kembali tanpa ekspansi yang digunakan pada penelitian ini mampu memperoleh nilai

Gambar 9 Kurva recall dan precision QEA dan QES2.

Gambar 8 Kurva recall dan precision

QEA. R e c a l l P r e c i s i o n 0 0.1 0.2 0.3 0.4 0.5 0.60.7 0.8 0.9 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 R e c a l l P r e c i s i o n 0 0.1 0.20.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 QEA-BM25 QEA-Proximity BM25 QEA QES2

recall dan AVP yang lebih baik daripada sistem yang digunakan Rahayuni (2011), dengan perbedaan nilai recall sebesar 0.714 dan AVP sebesar 0.087. Faktor utama yang menyebabkan terjadinya perbedaan tersebut ialah pemrosesan kueri.

Dalam dokumen Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot Irisan (Halaman 31-40)