ANITA
DIRECT TERM FEEDBACK
UNTUK TEMU-KEMBALI
INFORMASI BAHASA INDONESIA MENGGUNAKAN
MODEL BAHASA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ANITA
DIRECT TERM FEEDBACK
UNTUK TEMU-KEMBALI
INFORMASI BAHASA INDONESIA MENGGUNAKAN
MODEL BAHASA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
ABSTRACT
ANITA. Direct Term Feedback for Information Retrieval in Indonesian Language with Language Models. Supervised by JULIO ADISANTOSO.
The large amount of information has triggered the development of search engines to help the users in finding the required information. To retrieve information which is relevant to the users’ needs, the queries should be formulated correctly. Direct term feedback is a method that can help a user to directly judge the relevance of individual terms without interaction with feedback documents, taking a full control of the whole query expansion process. This technique uses Pseudo-relevance feedback which takes the top n-ranked documents and takes the top x-ranked terms from the relevant documents to get term feedback for users’ judgement. The purpose of this research is to implement query expansion with direct term feedback for information retrieval in Indonesian language with language models. This research uses 2095 documents and 20 testing queries. The result shows that direct term feedback is a good method to help the users in finding their required information. The performance of direct term feedback for information retrieval with language models gives a good result with around 35% of AVP value.
Judul Skripsi : Direct Term Feedback pada Temu-Kembali Informasi Bahasa Indonesia Menggunakan Model Bahasa
Nama : Anita NRP : G64080061
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom NIP 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom NIP 19660702 199302 1 001
PRAKATA
Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan kepada Allah atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Direct Term Feedback
pada Temu-Kembali Informasi Menggunakan Model Bahasa.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
1 Orang tua tercinta, Bapak Muhamad Nuh dan Ibu Sahara, ketiga kakak yang saya sayangi Chairul Anwar, Sahmiwita dan Syariful Anwar, serta ketiga adik yang saya sayangi Yusnaida Daulay, Septiana, dan Wilda Daulay yang selalu memberikan doa, nasihat, semangat, dukungan, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.
2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
3 Teman-teman satu bimbingan Meriska Defriani, Susi Handayani, Nofel Saputra, Putri Dewi P, Fania Rahmanawati Karimah, Mery Marlina, Alfa Nugraha, Rizky Utama, dan Hafidzhia Dzikrul A terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
4 Sahabat-sahabat dan senior, Mutiara Wide, Dewi Sekar, Aninta Saraswati, Dwi Puji Astuti, Tira Mutiara, Woro Indriyani, Agus Umriadi, dan Elenur Dwi Anbiana, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini.
5 Fulsi Wiyata yang senantiasa memberikan semangat dan doa kepada penulis.
6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Juli 2012
RIWAYAT HIDUP
DAFTAR ISI
Halaman
DAFTAR TABEL... 2
DAFTAR GAMBAR ... 2
DAFTAR LAMPIRAN ... 2
PENDAHULUAN
Latar Belakang ... 1Tujuan ... 1
Ruang Lingkup ... 1
METODE PENELITIAN
Indexing ... 1Ukuran Kemiripan (similarity) ... 2
Top N Dokumen... 2
Pemilihan Kata ... 2
Hitung Relevansi Kata ... 3
Formulasi Kueri ... 3
Evaluasi Hasil ... 3
Lingkungan Implementasi ... 3
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian ... 3Pemrosesan Dokumen ... 4
Indexing ... 4
Ukuran Kesamaan (Similarity) ... 5
Pemilihan Kata ... 5
Formulasi Kueri ... 5
Pengujian Kinerja Sistem ... 5
SIMPULAN DAN SARAN
Simpulan ... 8Saran ... 8
DAFTAR PUSTAKA ... 8
DAFTAR TABEL
Halaman
1 Perhitungan recall-precision ... 3
2 Deskripsi dokumen pengujian ... 4
3 Perbandingan nilai AVP untuk setiap panjang kueri ... 7
4 Perbandingan nilai AVP untuk kedua jenis operator ... 7
DAFTAR GAMBAR
Halaman 1 Metode penelitian. ... 22 Contoh dokumen pertanian. ... 4
3 Konfigurasi dokumen pertanian pada Sphinx. ... 4
4 Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian. ... 6
5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian... 6
6 Grafik R-P untuk pengambilan tiga dokumen teratas pada dokumen pertanian. ... 6
7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi. ... 7
DAFTAR LAMPIRAN
Halaman 1 Antarmuka implementasi ... 102 Gugus kueri dan jawaban untuk dokumen pertanian ... 11
3 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat satu teratas ... 17
4 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat dua teratas ... 18
5 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat tiga teratas ... 19
6 Tabel kinerja perluasan kueri satu kata ... 20
7 Tabel kinerja perluasan kueri dua kata ... 22
8 Tabel lima term yang dipilih setiap kueri uji ... 24
9 Tabel kinerja sistem DTF menggunakan formulasi OR ... 25
PENDAHULUAN
Latar Belakang
Sistem temu-kembali informasi merupakan suatu sistem yang dapat membantu seseorang dalam menemukan informasi yang dibutuhkan. Tidak semua pengguna dapat memberikan kueri yang tepat pada saat mencari sebuah informasi yang dibutuhkan. Hal ini terjadi karena pengguna tidak pernah mengetahui isi dari korpus pada mesin pencari, sebaliknya mesin pencari juga tidak pernah mengetahui kebutuhan dari pengguna. Oleh karena itu, digunakan teknik untuk merekonstruksi kueri yaitu pseudo-relevance feedback. Kueri yang diberikan pengguna selanjutnya dimodifikasi untuk meningkatkan kinerja mesin pencari.
Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal secara otomatis (teknik relevance feedback tanpa
input eksplisit pengguna). Teknik ini mengekstrak terms dari dokumen peringkat teratas (diasumsikan bahwa dokumen peringkat teratas dianggap relevan) untuk memformulasikan sebuah kueri baru pada temu-kembali selanjutnya.
Anbiana (2009) telah melakukan penelitian menggunakan segmentasi dokumen untuk memperbaiki kueri. Akan tetapi karena ukuran segmen yang relatif besar maka terlalu banyak kata yang dipilih untuk memperbaiki kueri sehingga kinerja sistem kurang baik. Indriyani (2011) menyempurnakan penelitian Anbiana (2009) dengan menggunakan segmentasi kalimat. Hal ini dilakukan untuk memperkecil ukuran segmen yang besar pada penelitian Anbiana untuk meningkatkan kinerja sistem. Metode ekspansi kueri lain yang diharapkan bisa lebih meningkatkan kinerja sistem temu kembali adalah ekspansi kueri yang telah dilakukan oleh Pancawan (2012) mengenai ekspansi kueri dengan tesaurus dan bobot irisan. Tesaurus merupakan kumpulan kata-kata yang memiliki keterkaitan makna satu dengan lainnya seperti sinonim dan antonim.
Hal ini menunjukkan bahwa metode ekspansi kueri yang telah dilakukan sebelumnya belum melibatkan pengguna secara langsung dalam menentukan formulasi kueri baru yang memuaskan pengguna. Tan et al.(2007) mengimplementasikan metode
direct term feedback menggunakan model
bahasa untuk mengekspansi kueri. Direct term feedback (DTF) dilakukan dengan melibatkan pengguna secara langsung untuk memilih beberapa term/kata relevan atau tidak relevan dari daftar kandidat kata kueri yang sesuai dengan tujuan dapat meningkatkan tingkat relevansi suatu dokumen yang diperoleh.
Oleh karena itu, penelitian ini mengimplementasikan metode Direct Term Feedback untuk melakukan ekspansi kueri pada mesin pencari kueri dokumen berbahasa Indonesia.
Tujuan
Tujuan dari penelitian ini adalah mengimplementasikan ekspansi kueri dengan metode direct term feedback menggunakan model bahasa.
Ruang Lingkup
Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. Kesalahan pengetikan di dalam korpus tidak diperhatikan. Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di laboratorium TKI. Pemilihan kata yang digunakan pada pengujian dilakukan berdasarkan justifikasi penulis.
METODE PENELITIAN
Penelitian ini dilaksanakan dalam beberapa tahap seperti yang diilustrasikan pada Gambar 1.Indexing
Pada tahap ini, korpus yang ada akan melalui proses indexing, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Pemrosesan indexing dilakukan secara otomatis menggunakan Sphinx. Proses tokenisasi bertujuan mendapatkan token atau kata unik dari seluruh koleksi dokumen yang sudah dipisahkan dari karakter pemisah, seperti titik, koma, dan whitespace. Proses tokenisasi diikuti dengan proses pembuangan
stopwords. Proses pembuangan stopwords
dilakukan dengan cara mencocokkan token
hasil tokenisasi dengan kata-kata yang ada dalam stoplist. Apabila token tersebut ada di dalam stoplist, token akan dihapus. Proses
indexing akan menghasilkan matriks term -dokumen. Kueri yang dimasukkan oleh pengguna juga akan melalui proses indexing
hasil dari matriks term-dokumen dan matriks kueri tersebut akan digunakan pada proses ukuran kemiripan.
Ukuran Kemiripan (similarity)
Setelah dilakukan proses ekstraksi ciri pada tahap indexing, tahap selanjutnya ialah mengukur kemiripan suatu dokumen terhadap kueri yang dimasukkan. Ukuran kemiripan dokumen dengan kueri menggunakan ukuran kemiripan default Sphinx, yaitu SPH_RANK_PROXIMITY_BM25. Adapun
pseudocode metode pemeringkatan proximity
BM25 ialah sebagai berikut: 1 doc_phrase_weight = 0
2 foreach ( field in matching_fields)
3 {
4 field_phrase_weight =
5 max_common_subsequence_length
6 (query, field )
7 doc_phrase_weight += user_weight
8 ( field ) * field_phrase_weight
9 }
10
11 BM25 = 0
12 foreach (keyword in matching_keywords )
13 {
14 n =
total_matching_documents(keyword)
15 N = total_documents_in_collection
16 k1 = 1.2
17 TF =
current_document_occurrence_count( keyword )
18 IDF = log((N-n+1)/n) / log(1+N)
19 BM25 = BM25 + TF*IDF/(TF+k1)
20 }
21 // normalize to 0..1 range
22 BM25 = 0.5 + BM25 /( 2*num_keywords ( query ) )
23 //SPH_RANK_PROXIMITY_BM25
24 weight = doc_phrase_weight*1000 + integer(doc_bm25*999)
Hasil similarity yang semakin tinggi menunjukkan bahwa dokumen tersebut memiliki tingkat kemiripan yang besar dari kueri yang dimasukkan, sedangkan hasil
ukuran similarity yang rendah menunjukkan bahwa kemiripan suatu dokumen terhadap kueri adalah kecil.
Top N Dokumen
Pada tahap ini, top N dokumen diperoleh setelah proses ukuran kemiripan yang dilakukan pada tahap sebelumnya. Top N
dokumen dianggap sebagai dokumen yang relevan dan selainnya dianggap tidak relevan.
Pemilihan Kata
Pada top N dokumen yang telah terpilih, selanjutnya dilakukan proses pemilihan kata untuk ditampilkan kepada pengguna agar dinilai relevansinya.
Proses pemilihan kata yang ditampilkan dilakukan dengan menggunakan formula:
i|qj =
dokumen men andun i dan qj
dokumen an men andun qj …(1)
Information Retrieval Indexing dokumen Direct Term Pemrosesan Kueri kueri Similarity formulasi kueri Evaluasi Pemilihan Kata Hitung relevansi kata Top N Dokumen
DTF tidak korpus Ekstraksi ciri ya Ekstraksi ciri
p i|qj adalah peluang kata i dalam dokumen setelah qj diketahui (Adisantoso 1996).
Hitung Relevansi Kata
Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan oleh pengguna. Pada setiap kata, akan dilakukan penilaian dengan menggunakan formula sebagai berikut:
p q ∑ c q
q … 2) q adalah model kueri perbaikan, R
={ }: adalah variabel indikator, nilai yang digunakan pada penelitian ini bernilai 1, ∑ adalah total kata yang dinilai relevan.
Setiap kata yang dinilai relevan akan diberikan penilaian menggunakan formula(2) dengan memberikan nilai adalah 1 dan setiap kata yang dianggap tidak relevan diberikan nilai adalah 0. Hasil perhitungan tersebut akan digunakan untuk modifikasi kueri awal.
Formulasi Kueri
Formulasi kueri baru dilakukan untuk memperbaiki hasil temu-kembali, yaitu dapat menggeser dokumen relevan ke atas dan dokumen yang tidak relevan ke bawah.
Kata dengan peluang tertinggi yang merupakan term dari hasil feedback pengguna digunakan untuk merumuskan kueri baru yang diformulasikan sebagai berikut:
q q A q … 3)
adalah formulasi kueri baru, q adalah formulasi kueri awal, dan q adalah kueri dari perhitungan peluang term feedback dari penilaian pengguna. Kueri baru yang telah diformulasikan digunakan dalam proses temu kembali selanjutnya.
Evaluasi Hasil
Pada proses evaluasi hasil similarity, dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision pada Tabel 1 untuk menentukan tingkat keefektifan proses temu-kembali. Average precision
(AVP) dihitung berdasarkan 11 standard recalllevels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza-Yates & Ribeiro-Neto 1999).
Tabel 1 Perhitungan recall-precision
Recall-precision didefinisikan sebagai berikut:
Precision = P = tp/(tp + fp)…. 4)
Recall = R = tp/(tp+fn) ….. 5) Perhitungan AVP dapat diformulasikan sebagai berikut:
̅(rj) ∑ i r q q
i …. 6)
̅(rj) adalah AVP pada level recall r, Nq
adalah jumlah kueri yang digunakan, dan Pi(r)
adalah precision pada level recall r untuk kueri ke-i.
Lingkungan Implementasi
Lingkungan implementasi yang digunakan adalah sebagai berikut:
Perangkat lunak:
Sistem operasi Windows 7 Ultimate sebagai sistem operasi,
PHP sebagai bahasa pemrograman.
Sphinx Search sebagai platform untuk pencarian berbasis teks,
Wamp Server Apache version 2.5 sebagai
web server,
Notepad++ sebagai editor, dan
Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras:
Processor Intel Core 2 Duo 1,66GHz
RAM 2 GB
Harddisk dengan kapasitas 120 GB
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 2095 dokumen yang ada di Laboratorium Temu Kembali. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2.
Relevant Not Relevant
Retrieved tp fp
Not
Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen 6 568 124 Ukuran rata-rata dokumen 3 135 Ukuran dokumen terbesar 52 955 Ukuran dokumen terkecil 412
Dokumen pertanian tersebut dikelompokkan ke dalam tag-tag sebagai berikut:
<DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.
<DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.
<TITLE></TITLE>, menunjukkan judul berita.
<AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.
<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.
Contoh salah satu dokumen pertanian yang digunakan tercantum pada Gambar 2.
Gambar 2 Contoh dokumen pertanian.
Pemrosesan Dokumen
Tahapan awal yang dilakukan pada penelitian ini adalah tahap pemrosesan dokumen dengan Sphinx. Pada tahap awal dilakukan proses konfigurasi dokumen. Cuplikan konfigurasi untuk dokumen pertanian tercantum pada Gambar 3.
Penjelasan untuk konfigurasi yang digunakan pada Sphinx yaitu:
source = srcxml, konfigurasi untuk menandakan bahwa sumber yang
digunakan atau file yang akan diindeks berupa file dengan format XML.
path=c:/DTF/data/test2, konfigurasi untuk mengatur lokasi file hasil indexing
disimpan.
Gambar 3 Konfigurasi dokumen pertanian pada Sphinx.
docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini, konfigurasi extern menunjukkan bahwa hasil indexing akan disimpan dalam file terpisah dengan nama
file yang sama.
min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks, yaitu minimal 3 karakter.
charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan, yaitu utf-8.
enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks.
html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag.
Stopwords=c:/DTF/data/StopWords.txt, konfigurasi untuk eliminasi kata buangan. Indexing
Proses indexing dilakukan dengan beberapa proses, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Proses tokenisasi dilakukan untuk mendapatkan kata token atau kata unik dari seluruh dokumen. Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk <DOC>
<DOCNO> situshijau07</DOCNO> <TITLE Temulawak untuk Gangguan Hati </TITLE>
<AUTHOR> dtk</AUTHOR> <TEXT>
Gunakan ramuan temulawak untuk mengobati gangguan pada hati.
…… </TEXT> </DOC>
index test2 {
source = srcxml
path = c:/DTF/data/test2 docinfo = extern min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0 stopwords =
dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan.
Hasil proses indexing menghasilkan matriks term-dokumen dan proses indexing
juga dilakukan pada kueri yang dimasukkan oleh pengguna yang menghasilkan matriks kueri yang akan digunakan pada tahap ukuran kesamaan.
Ukuran Kesamaan (Similarity)
Pada tahap ini, setelah terbentuknya matriks term-dokumen dan matriks term -kueri, dilakukan ukuran kesamaan antara kueri dokumen untuk mengetahui dokumen yang memiliki similarity tertinggi terhadap kueri yang dimasukkan. Dokumen yang memiliki similarity tertinggi akan berada pada peringkat teratas. Ukuran kesamaan yang digunakan pada penelitian ini ialah ukuran kesamaan default SpinxSearch, yaitu SPH_RANK_PROXIMITY_BM25. Urutan dokumen yang ditampilkan sesuai dengan kemiripan antara suatu dokumen dan kueri yang diberikan menggunakan mode SPH_SORT_RELEVANCE pada Sphinx yang merupakan urutan dokumen default pada Sphinx.
Pada tahap ini, diperoleh n dokumen teratas dari hasil pencarian dan diambil konten/isi dari dokumen format XML yang merupakan dokumen dengan kemiripan tertinggi dengan kueri. Informasi lain dalam dokumen tersebut seperti id dokumen, tanggal, judul, dan nama pengarang tidak disertakan.
Pemilihan Kata
Hasil top n tersebut kemudian diambil dan digunakan untuk proses pemilihan kata yang akan ditampilkan kepada pengguna untuk dinilai relevansinya. Top n dokumen yang didapat kemudian dipecah menjadi term/kata yang sudah dilakukan pembuangan stopword. Untuk setiap term tersebut, kemudian dilakukan perhitungan peluang kata pada dokumen menggunakan formula (1).
Proses perhitungan tersebut dilakukan untuk melihat peluang kemunculan kata pada dokumen. Setelah diperoleh nilai dari setiap
term, term tersebut diurutkan dari peluang terbesar ke peluang terkecil. N term peluang terbesar akan ditampilkan kepada pengguna untuk dinilai relevansinya.
Formulasi Kueri
Proses formulasi kueri ini dilakukan dengan melihat term yang dinilai relevan dan tidak relevan oleh pengguna. Pada hasil dari proses penilaian relevansi tersebut, kemudian dilakukan perhitungan dengan menggunakan metode DTF persamaan (2) untuk setiap term
yang dinilai relevan dan tidak relevan oleh pengguna.
Hasil yang diperoleh dari masing-masing
term akan diurutkan dari nilai terbesar ke terkecil dan term dengan nilai terbesar digunakan untuk formulasi kueri baru menggunakan operator AND persamaan (3).
Pengujian Kinerja Sistem
Proses evaluasi dalam penelitian ini dilakukan pada koleksi dokumen pertanian. Proses evaluasi pada dokumen pertanian menggunakan 20 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Metode pemilihan kata yang digunakan untuk pengujian sistem dilakukan secara acak dan sesuai menurut penulis berdasrkan kueri yang dimasukkan. Proses evaluasi dilakukan dengan menghitung
recall-precision dari masing-masing kueri uji menggunakan source code yang telah dibuat oleh Rahayuni (2011) dan dimodifikasi oleh penulis.
Dokumen Relevan
Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal yang menganggap n dokumen teratas sebagai dokumen yang relevan. Evaluasi PRF dengan mengambil dokumen peringkat 1, 2, dan 3 teratas dilakukan untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas. Gambar 4 mengilustrasikan pengambilan satu dokumen teratas (Lampiran 3). Kondisi pengambilan satu dokumen teratas menghasilkan nilai average precision (AVP) sebesar 0.3214. Hal ini menunjukkan bahwa kondisi pencarian dengan satu dokumen teratas memiliki tingkat relevansi sebesar 32%.
Gambar 4 Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian.
Gambar 5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian.
Gambar 6 Grafik R-P untuk pengambilan tiga dokumen teratas pada
dokumen pertanian.
Gambar 6 menunjukkan kinerja pencarian dengan pengambilan tiga dokumen teratas (Lampiran 5). Pada kondisi pencarian dengan pengambilan tiga dokumen teratas, didapatkan nilai AVP yang lebih besar dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas, yaitu sebesar 0.3582 atau sebesar 35%.
Hasil pengujian menunjukkan bahwa pengambilan top n tertinggi diperoleh pada pengambilan tiga dokumen teratas. Hal ini disebabkan pengambilan tiga dokumen teratas memiliki dokumen dengan kata yang lebih beragam dan memiliki kata yang lebih relevan untuk dinilai relevansinya oleh pengguna jika dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas. Pengambilan tiga dokumen teratas memiliki nilai AVP lebih lebih tinggi dibandingkan dengan dokumen satu teratas dan dua dokumen teratas yaitu sebesar 35%. Hal ini disebabkan banyaknya dokumen yang terambil menyebabkan banyaknya kata-kata yang lebih beragam dan lebih relevan untuk dinilai relevansinya oleh pengguna sehingga nilai AVP pada tiga dokumen teratas lebih baik jika dibandingkan dengan dua dokumen teratas lainnya.
Panjang Kueri
Panjang kueri diduga akan mempengaruhi kinerja perluasan kueri. Dalam penelitian ini, digunakan dua kelompok kueri, yaitu kueri dengan panjang tiga dan empat kata. Kueri uji yang berjumlah dua puluh dipisahkan menjadi dua kelompok sesuai dengan panjang kata. Kelompok pertama untuk kueri dengan panjang tiga kata sebanyak sepuluh kueri dan kelompok kedua untuk kueri dengan panjang empat kata sebanyak sepuluh kueri. Kedua kelompok kueri tersebut selanjutnya diekspansi atau diperluas dengan menambahkan satu kata ekspansi dan dua kata ekspansi. Pemilihan kata yang digunakan untuk masing-masing kueri uji dilakukan secara acak dengan memperhatikan kesesuaian kata dengan kueri berdasarkan kesesuaian menurut penulis.
Tabel 3 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok kueri yang diperluas dengan satu kata (Lampiran 6) dan dua kata (Lampiran 7). Ekspansi kueri untuk setiap kelompok dilakukan dengan mengambil tiga dokumen teratas.
Tabel 3 Perbandingan nilai AVP untuk setiap panjang kueri Panjang Kueri Ekspansi Satu Kata Ekspansi Dua Kata
3 Kata 0.19378 0.18195
4 Kata 0.49274 0.46042
Pada Tabel 3, terlihat bahwa nilai AVP tertinggi untuk ekspansi kueri berada pada saat ekspansi kueri satu kata untuk masing-masing panjang kueri. Hal ini menyatakan bahwa perluasan kueri satu kata membuat kinerja sistem lebih baik dibanding perluasan kueri dua kata karena perluasan kueri yang semakin banyak akan membuat kueri menjadi tidak lebih baik untuk dilakukan proses ekspansi. Pada Tabel 3, terlihat bahwa nilai AVP tertinggi berada pada saat ekspansi kueri satu kata dengan panjang kueri empat kata yaitu sebesar 49%.
Pemilihan Term
Pada pengukuran kinerja sistem ini, pemilihan term untuk masing-masing kueri uji dilakukan secara acak dan banyaknya term
yang dipilih untuk setiap kueri uji sebanyak lima term (Lampiran 8). Hal ini disebabkan kinerja sistem pada DTF menghasilkan nilai ekspansi paling bagus untuk ekspansi penambahan satu kata yang menyebabkan berapapun banyaknya term yang dipilih maka untuk proses ekspansi kueri hanya dilakukan perluasan ekspansi satu kata untuk masing-masing kueri. Kelima kata tersebut dipilih secara acak dan dilakukan dengan mempertimbangkan sesuai atau tidaknya kata tersebut menurut penulis. Semakin kata tersebut relevan terhadap kueri, hasil ekspansi kueri akan semakin lebih baik. Pada kinerja sistem ini, kandidat kata yang memiliki kesesuaian yang baik dengan kueri uji adalah pada saat pengambilan tiga dokumen teratas. Hal ini terlihat pada nilai AVP yang lebih besar dibandingkan dengan satu dokumen dan dua dokumen teratas.
Formulasi Kueri
Pengukuran formulasi kueri pada kinerja sistem dibagi menjadi dua kelompok, yaitu pengujian dengan melakukan formulasi kueri menggunakan operator AND (Lampiran 1) dan pengujian dengan melakukan formulasi kueri menggunakan operator OR (Lampiran 9). Tabel 4 mengilustrasikan perbandingan
nilai AVP untuk setiap kelompok formulasi kueri yang digunakan.
Tabel 4 Perbandingan nilai AVP untuk kedua jenis operator
Top n dokumen OR AND
top 1 0.1418 0.3214
top 2 0.1498 0.3230
top 3 0.1568 0.3582
Pada Tabel 4, terlihat bahwa nilai AVP terbesar untuk setiap pengambilan top n
dokumen pada formulasi kueri menggunakan operator AND dengan nilai tertinggi berada pada pengambilan tiga dokumen teratas. Formulasi kueri menggunakan operator AND menemukembalikan dokumen dalam jumlah yang lebih sedikit dibandingkan dengan formulasi kueri menggunakan operator OR.
Akan tetapi, dokumen yang
ditemukembalikan pada formulasi operator AND lebih relevan, sedangkan untuk operator OR meskipun menemukembalikan dokumen lebih banyak, tidak semua dokumen yang di temukembalikan adalah relevan sehingga nilai AVP menggunakan formulasi AND lebih baik dibandingkan dengan formulasi OR.
Kinerja DTF
Gambar 7 menunjukkan perbandingan kinerja sistem DTF dengan ekspansi kueri dan DTF tanpa ekspansi.
Gambar 7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi.
Nilai AVP untuk sistem DTF tanpa ekspansi kueri yaitu 0.3033 (Lampiran 10), sedangkan sistem DTF dengan ekspansi kueri memiliki nilai AVP yang lebih besar, yaitu
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 0 .0 0 0 .1 0 0 .2 0 0 .3 0 0 .4 0 0 .5 0 0 .6 0 0 .7 0 0 .8 0 0 .9 0 1 .0 0 p rec is io n recall
0.3582. Hasil uji menunjukkan kinerja sistem DTF dengan ekspansi kueri lebih baik dengan DTF tanpa ekspansi. Hal ini disebabkan oleh adanya keterlibatan pengguna dalam menentukan kata yang akan digunakan untuk perluasan kueri sehingga menghasilkan dokumen yang lebih relevan dan menunjukkan kinerja sistem DTF dengan ekspansi lebih baik dibanding tanpa ekspansi.
SIMPULAN DAN SARAN
Simpulan
Hasil penelitian ini menunjukkan bahwa: 1 Ekspansi kueri pada dokumen yang
homogen kemungkinan kandidat kata yang ditampilkan untuk proses ekspansi cenderung sama.
2 Ekspansi kueri menemukembalikan dokumen yang lebih relevan.
3 Kinerja perluasan kueri optimal pada kondisi pengambilan tiga dokumen teratas. 4 Keterlibatan pengguna dalam ekspansi kueri membuat hasil temu kembali menjadi lebih relevan.
5 Kinerja sistem dengan DTF ekspansi lebih baik dibandingkan dengan kinerja DTF tanpa ekspansi kueri.
6 Kinerja sistem yang didapat sudah cukup baik, yaitu 35%.
Saran
Saran pada penelitian ini yaitu:
1 Penghilangan kesalahan penulisan pada dokumen uji diperbaiki sehingga kinerja dari ekspansi kueri menjadi lebih baik. 2 Perlunya penentuan stopword yang
dilakukan secara otomatis, sehingga term
yang ditampilkan untuk dinilai relevansinya menjadi lebih baik.
3 Penggunaan koleksi dokumen yang lebih banyak dan topiknya bervariasi akan memberikan perbedaan pada saat memilih kandidat kata.
DAFTAR PUSTAKA
Adisantoso J. 1996. Pendekatan kuantitatif untuk penelusuran informasi. Forum Statistika dan Komputasi 2(1):24-29. Anbiana ED. 2009. Pseudo-relevance
feedback pada temu-kembali menggunakan segmentasi dokumen [skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. New York: Addison Wesley.
Indriyani W. 2011. Pseudo-relevance feedback pada temu-kembali menggunakan segmentasi kalimat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Pancawan MR. 2012. Ekspansi kueri pada sistem temu kembali informasi dengan tesaurus dan bobot irisan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Rahayuni N. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa indonesia menggunakan Thesaurus
[skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Tan B, Velivelli A, Fang H, Zhai CX. 2007. Term feedback for information retrieval with language models. Di dalam:
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Dokumen Relavan
nilai jual komoditas rendah
balipost030608, BisnisIndonesia22022001, gatra030408, indosiar071103, indosiar190504-002, indosiar240604, indosiar300304, indosiar300703-002, jurnalHorti113, kompas030502-indosiar300703-002, kompas031100, kompas101004, kompas161000, kompas171002, kompas200803, kompas240803,
kompas250901, kompas270203-001, kompas270502-001,
kompas300502-001, mediaindonesia060803, mediaindonesia170303, mediaindonesia250304, mediaindonesia310503, okezone20022008, panturanews220611, pertaniansehat21042008, pertaniansehat31122007-03, pikiranrakyat21042010, pikiranrakyat240404, pikiranrakyat300604, poskota000000-003, republika020804, republika05052010,
republika060503, republika060804-001, republika060804-003, republika140503, republika211208-049, republika240604-005, republika241008-042, republika300704-002, situshijau15, situshijau181103-001, situshijau280203, situshijau280404-001, situshijau280404-002, situshijau280404-003, suarakarya000000-021, suarakarya000000-025, suaramerdeka000000-001, suaramerdeka290303, suarapembaruan110903, suarapembaruan290802-001
persediaan padi memadai
antarajawabarat211211, beritasore080711, bisnis_jabar191211, bisnisindonesia140911, deptan28052008, eksposnews161211,
gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911, harian_aceh291011, incestordaily310711,
indosiar221003, indosiar240703, kbrh211111, kompas160704,
kompas221011, kompas260711, korankaltim260811, malukunews090811, mediaindonesia231111, menkokesra71211, okezone080711,
okezone130711, okezone31701, poskota000000-001, radarbangka040811, republika061102, republika100704-003, republika180504-002,
republika210704-001, republika290604-007, sinartani1075,
suaramerdeka090911, suaramerdeka170602, tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711, vivanews122111, vivanews190911
sawah hancur terendam air
gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104, indosiar021203-001, indosiar031203, indosiar050704-002,
indosiar130104, indosiar130504, indosiar140204, indosiar160304, indosiar180304, kompas170504, kompas210403, mediaindonesia050604-001, mediaindonesia130210, mediaindonesia140203,
mediaindonesia170209, mediaindonesia180110, mediaindonesia200110, okezone03032010, okezone12112007, okezone17012008,
okezone20022008, pertaniansehat21042008, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat21052010-02,
pikiranrakyat23042010, radarbogor020110, situshijau280404-002, suarakarya000000-011, suarakarya000000-015, suaramerdeka251001, surabayapost29010, tempointeraktif160209-060
sawah kering kekurangan air
deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704, gatra270709, gatra301002, gatra301002-01, gatra310709, indosiar010903, indosiar040903, indosiar170603, indosiar180304, indosiar220503, indosiar240703, indosiar260803-001, indosiar260803-003,
indosiar310504, kompas030704, korantempo3, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603,
mediaindonesia210709, mediaindonesia240503, mediaindonesia300909, mediaindonesia310503, okezone01062008, okezone13062008,
Lanjutan
Kueri Dokumen Relavan
republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika230903, republika270503, republika270704-002, republika290604-007,
002-01, 002-02, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suaramerdeka290901, suarapembaruan110903, suarapembaruan190809, suarapembaruan260703-001, suarapembaruan260703-002, tempointeraktif081008-061
area pertanian semakin berkurang
balipost050908, balipost301208, deptan28052008-1, deptan31072007, gatra100509, gatra230503, jurnal000000-004, kompas020603, kompas030403, kompas031100, kompas101001, kompas120702, kompas130603-001, kompas150104, kompas170504, kompas170903, kompas171002, kompas180303, kompas181202, kompas220399, kompas230899, kompas240503, kompas260203, kompas270203-002, kompas270502-001, kompas290404, kompas290508, kompas290803, kompas310703, korantempo3, mediaindonesia010310,
mediaindonesia021109-2, mediaindonesia050104, mediaindonesia050709, mediaindonesia120609, mediaindonesia170210, mediaindonesia180210, mediaindonesia180210-2, mediaindonesia191209, mediaindonesia230104, mediaindonesia281109, mediaindonesia301009, okezone16092009, okezone24012008, okezone24012010, republika030304, republika060804-004, republika080703, republika090902, republika110604-002,
republika120803, republika130804-02, republika150704-004, republika170604-003, republika170704-004, republika190309-011, republika230704-003, republika240604-005, republika241203, republika291008-040, satudunia21102009, situshijau281003-004, suarakarya000000-002-02, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan040603, suarapembaruan060602, sumutpos26052010, tempo251211, tempointeraktif110210-030, tempointeraktif120707-050, tempointeraktif160207-025, tempointeraktif181108-065,
tempointeraktif231203-029, tempointeraktif231203-078, tempointeraktif240804-017
tarif humus tinggi
harianhaluan291111, indosiar060204, indosiar240604, indosiar270504, indosiar290604, kbr68h041211, kompas100901, kompas110302, kompas210504, kompas211211, kompas241203, kompas270502-002, kompas300502-001, liputan6_100611, mamorema01, metrotvnews221111, okezone27112008, panturanews220611, pertaniansehat09072008,
pikiranrakyat010504-003, pikiranrakyat05042010, pikiranrakyat05052010, republika160703, situshijau15, suarakarya000000-001-02,
suarakarya000000-002, suarakarya000000-025, suarakarya000000-029, suarakarya000000-030, suaramerdeka161101, waspada120611
upaya peningkatan produksi pertanian
deptan11062008, deptan14082007, deptan14112007, deptan18022010, deptan22022008, deptan25022008, deptan25022008-1, deptan29072009, deptan31032008, deptan31072007, gatra050508, gatra060206, gatra080102, gatra121108, gatra200103, gatra220604, gatra240203, gatra260408, indosiar030304, indosiar150104-002, indosiar180304, jurnalHorti210, jurnal000000-005, jurnal000000-013, jurnalHorti1, jurnalHorti87, kompas031100, kompas160704, kompas200802, kompas210502, kompas230209, kompas240103, kompas240302, kompas280502, kompas300502-002, kompas310703, kompas311203, kompas311203-2, mediaindonesia020809, mediaindonesia021209, mediaindonesia080210, mediaindonesia091109, mediaindonesia120604-002,
Lanjutan
Kueri Dokumen Relavan
okezone12072009, okezone26042008, okezone27112008,
pertaniansehat09012008, pertaniansehat21042008, pertaniansehat31122007, republika010704-003, republika040303, republika050803,
republika050903, republika09042010, republika100210-001, republika100210-030, republika100309-031, republika100902, republika110604-003, republika120804-02, republika120804-03, republika140109-047, republika140703, republika150703, republika150903, republika151202, republika170704-006, republika230704-08, republika230902-001, republika230902-002, republika230903, republika240604-005, republika241203, republika260604-001, republika260803, republika290604-007, republika301002, republika310109-017, republika311002-001, republika311002-002, situshijau070103-002, situshijau070503, situshijau140103-001, situshijau180803-001, situshijau200103-001, situshijau281003-004, situshijau290403-002, situshijau310303-No, suarakarya000000-011, suarakarya000000-016, suarakarya000000-028, suarakarya000000-037, suaramerdeka071102, suaramerdeka120104, suaramerdeka190903, suarapembaruan130103, suarapembaruan140303, suarapembaruan220802, suarapembaruan290802-001, surabayapost020210, surabayapost070110, tempointeraktif051103-021, tempointeraktif160209-060, tempointeraktif160210-020, tempointeraktif160210-075,
tempointeraktif2000608-026, tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609-055, wartapenelitian000000-003
produk asing murah
analisdaiy211011, indosiar300703-002, kompas100702, kompas101002, kompas131211, kompas170104, kompas180502, kompas250901, kompas270203-002, kompas280602, lampungpost201011, mediaindonesia060803, mediaindonesia170303, okezone210111, poskota000000-003, republika060503, suaramerdeka130104, suarapembaruan100903, suarapembaruan110903, tempo141011
produksi pertanian menurun
deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103, gatra220802, gatra220802-01, gatra240203, indosiar010504,
indosiar010803, indosiar270504, kompas030403, kompas050303, kompas060503, kompas120102, kompas170402, kompas171002, kompas180303, kompas211211, kompas240103, kompas260902, kompas270203-001, kompas270401, kompas270502-001,
mediaindonesia050709, mediaindonesia090409, mediaindonesia131209-2, mediaindonesia281109, mediaindonesia300909, okezone09012008, pikiranrakyat020804-001, pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002, republika010704-005, republika030903-002,
republika110604-002, republika130804-02, republika170908-027, republika201102, republika231202-001, republika241203, republika281202, situshijau030603-002, situshijau140503-001, situshijau180603-001, situshijau280203, suarakarya000000-001-01, suaramerdeka290901, suarapembaruan290803, surabayapost020310, tempointeraktif081008-061, tempointeraktif110210-030,
Lanjutan
Kueri Dokumen Relavan
produktivitas pertanian rendah
balipost301208, deptan18042007, deptan22022008, deptan23072008, gatra010307, gatra180103, gatra240203, indosiar180304, jurnal000000-001, jurnal000000-013, kompas030403, kompas091003, kompas101004,
kompas110302, kompas140802, kompas171208, kompas180701,
kompas220399, kompas270203-001, kompas270203-002, kompas270401, kompas280602, mediaindonesia050709, mediaindonesia090409,
mediaindonesia190210, mediaindonesia220303, mediaindonesia250304, mediaindonesia250809, mediaindonesia301009, okezone09012008, okezone24012008, okezone24012010, okezone280111,
pertaniansehat12062008, pertaniansehat28022008-01,
pikiranrakyat09052010, republika020604-001, republika140109-047, republika150703, republika151202, republika220604-003,
republika241008-042, republika311002-001, republika311002-002, seputarindonesia16052010, situshijau070103-002, situshijau101103-004, situshijau130203-002, situshijau130303-001, situshijau180803-001, situshijau190303-002, situshijau200103-001, situshijau240203-001, situshijau280203, situshijau281003-004, situshijau281003-005,
situshijau310303-No, suarakarya000000-028, tempointeraktif300108-022
petani sulit mendapatkan humus
banjarmasinpost181211, gatra230609, harianhaluan291111,
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar290604, kompas210504, kompas211211, kompas300502-001, liputan6_100611, mamorema01, mediaindonesia211211,
metrotvnews221111, okezone27112008, pertaniansehat09072008, pertaniansehat30032008, pikiranrakyat010504-003, republika050604, republika160604-001, republika190504-002, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-031, suarakarya000000-038, suaramerdeka161101, surya121111, tribunnews51011, waspada120611
sawah rusak berat
gatra030706, gatra040108, gatra060907, gatra070203, gatra120210, gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002, gatra301002-01, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar240703, indosiar260803-001, kompas170504, kompas260902, mediaindonesia030603, mediaindonesia050204, mediaindonesia050604-001, mediaindonesia110309,
mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2, mediaindonesia140203, mediaindonesia160603, mediaindonesia170209, mediaindonesia190503, okezone01062008, okezone12112007,
okezone17012008, okezone20022008, okezone26052009,
pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat23042010, pikiranrakyat25052010, radarbogor050608, republika010704-005, republika030903-001,
republika030903-002, republika07052010, republika130804-02, republika200603, republika230903, republika25052010-01, republika29042010, situshijau110303-002, situshijau280404-002, suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suaramerdeka190903, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002, surabayapost100210,
Lanjutan
Kueri Dokumen Relavan
mutu hasil pertanian rendah
Deptan04122009, gatra011102, gatra180103, indosiar150104-002, jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303, kompas100702, kompas101002, kompas161000, kompas180502, kompas220801, kompas290404, mediaindonesia030104,
mediaindonesia170403, pikiranrakyat21042010, republika05052010, republika140109-047, republika150604-001, republika211208-049, situshijau01, situshijau030203-002, situshijau070103-002,
situshijau080503-004, situshijau110603-001, situshijau15,
situshijau240203-002, situshijau280404-002, situshijau281003-005, suarakarya000000-013, suaramerdeka000000-001, suarapembaruan100903
produksi pertanian meningkat
deptan01072008, deptan01092008, deptan03112009, deptan04032008, deptan04082008, deptan04112008, deptan14072008, deptan14112007, deptan19012009, deptan20102008, deptan25022008-1, deptan27032010, deptan28052008-1, detikfinance27122009, gatra010307, gatra100509, gatra121108, gatra230802, gatra310807, indosiar021203-002, kompas060503, kompas150104, kompas160704, kompas180701, mediaindonesia020809, mediaindonesia080210, mediaindonesia210210, mediaindonesia250809, mediaindonesia291209, pikiranrakyat10042010, pikiranrakyat23052010, republika080703, republika09042010,
republika100704-003, republika110309-021, republika120804-03, republika130209-045, republika281202, republika300704-002, suarakarya000000-037, surabayapost020310, surabayapost070110, surabayapost110210, surabayapost250110, tempointeraktif130107-064
kesejahteraan petani rendah
balipost030608, gatra230109, jurnal000000-027, kompas030403, kompas031003, kompas110504, kompas120204, kompas161000, kompas170903, kompas220399, kompas240803, kompas290404, mediaindonesia120209, panturanews220611, pertaniansehat16052008, poskota270411, republika100804, republika110604-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, suarapembaruan100903, suarapembaruan190809, tempointeraktif200696-016,
tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif300108-022
wereng serang lahan pertanian
balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210, gatra190902, gatra190902-02, indosiar010504, indosiar010803,
indosiar070504, indosiar150104-002, indosiar240604, indosiar270504, indosiar310304, kompas170903, kompas200803, kompas211211, mediaindonesia020310, mediaindonesia030603, mediaindonesia050204, mediaindonesia050309, mediaindonesia050604-001,
mediaindonesia090409, mediaindonesia110309, mediaindonesia120110, mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503, mediaindonesia221209, mediaindonesia240110, okezone09012008, okezone23022008, okezone26052008, pikiranrakyat020804-001, pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat21042010, pikiranrakyat25052010, pikiranrakyat26052010, radarbogor050608, republika07052010, republika170908-027,
republika19052010, republika19052010-01, republika240604-003, republika25052010-01, republika260604-003, republika29042010, situshijau030203-002, situshijau030603-002, situshijau110303-002, situshijau14, situshijau180603-001, suarakarya000000-011,
Lanjutan
Kueri Dokumen Relavan
bidang pertanian belum berkembang
balipost030608, balipost050908, balipost301208, gatra230109, gatra290903, jurnal000000-027, kompas030403, kompas031003, kompas050303, kompas091003, kompas120204, kompas150304-002, kompas170104, kompas171002, kompas180504, kompas220399, kompas240803, kompas270502-001, mediaindonesia050604-002, mediaindonesia100203, mediaindonesia180504, mediaindonesia250803, metrotvnews17112009, okezone280111, poskota270411, republika080210-002, republika080210-033, republika091009-016, republika190504-republika080210-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, tempointeraktif160209-060, tempointeraktif200696-016,
tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif260607-008
angsuran pertanian sedikit
ahmadheryawan251211, antaranews031110, beritadaerah081111,
bisnisindonesia101211, bisnisjabar080911, detik100211, inilahjabar221211, kabarbisnis291211, kompas110201, kompas120204, kompas140209, kompas170911, kompas220901-001, korankaltim001, medanbisnis060911, mediaindonesia170712, mediaindonesia260711, metrotvnews181211, pikiranrakyat161211, republika110504, republika110604-003,
seputarsulawesi081111, suaramerdeka090707, tempointeraktif180809-028, theglobejurnal290709, tribunnews151211, ujungpadangekspres091111, wartakota0001, wsp_agro01, yiela120910
dana bidang pertanian rendah
antaranews211111, banjarmasinpost180711, bataviase070710, gatra131011, kompas040111, kompas210502, lampungpost081211,
mediaindonesia090903, metrotvnews261211, neraca180811,
okezone280111, panturanews220611, partaimerdeka01, poskota270411, prakarsa_rakyat190811, republika110504, republika110604-003, republika290704-001, seputarindonesia051011, seputarindonesia271211, sinartani00002, sinartani291211, sinartani291211, tempo251211, tribunnews061211, waspada101011
permintaan humus naik
Lampiran 3 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat satu teratas
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29
persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
sawah kering kekurangan air 1.00 0.70 0.70 0.70 0.70 0.70 0.70 0.70 0.70 0.70 0.70
area pertanian semakin berkurang 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
upaya peningkatan produksi pertanian 0.33 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25
produk asing murah 1.00 1.00 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
produksi pertanian menurun 0.32 0.32 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27
produktivitas pertanian rendah 0.50 0.26 0.17 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15
petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sawah rusak berat 1.00 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86
mutu hasil pertanian rendah 1.00 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86
produksi pertanian meningkat 0.07 0.07 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06
kesejahteraan petani rendah 0.44 0.44 0.26 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16
wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
bidang pertanian belum berkembang 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05
angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dana bidang pertanian rendah 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Lampiran 4 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat dua teratas
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29
persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
sawah kering kekurangan air 1.00 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80
area pertanian semakin berkurang 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
upaya peningkatan produksi pertanian 0.43 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27
produk asing murah 1.00 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
produksi pertanian menurun 0.19 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17
produktivitas pertanian rendah 0.67 0.25 0.21 0.21 0.21 0.21 0.21 0.21 0.21 0.21 0.21
petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sawah rusak berat 1.00 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75
mutu hasil pertanian rendah 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07
produksi pertanian meningkat 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04
kesejahteraan petani rendah 0.22 0.22 0.22 0.22 0.18 0.18 0.18 0.18 0.18 0.18 0.18
wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
bidang pertanian belum berkembang 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dana bidang pertanian rendah 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Lampiran 5 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat tiga teratas
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
sawah kering kekurangan air 1.00 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60
area pertanian semakin berkurang 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
upaya peningkatan produksi pertanian 0.25 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15
produk asing murah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
produksi pertanian menurun 0.25 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24
produktivitas pertanian rendah 0.23 0.21 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16
petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sawah rusak berat 1.00 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75
mutu hasil pertanian rendah 1.00 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67
produksi pertanian meningkat 0.07 0.07 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06
kesejahteraan petani rendah 0.31 0.31 0.22 0.22 0.14 0.14 0.14 0.14 0.14 0.14 0.14
wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
bidang pertanian belum berkembang 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07
angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dana bidang pertanian rendah 0.50 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14
permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Lampiran 6 Tabel kinerja perluasan kueri satu kata
Kinerja perluasan kueri satu kata dengan panjang kueri asli tiga kata
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
produk asing murah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
produksi pertanian menurun 0.25 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24
produktivitas pertanian rendah 0.23 0.21 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16
sawah rusak berat 1.00 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75
produksi pertanian meningkat 0.07 0.07 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06
kesejahteraan petani rendah 0.31 0.31 0.22 0.22 0.14 0.14 0.14 0.14 0.14 0.14 0.14
angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Lanjutan
Kinerja perluasan kueri satu kata dengan panjang kueri asli empat kata
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
sawah kering kekurangan air 1.00 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60
area pertanian semakin berkurang 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
upaya peningkatan produksi pertanian 0.25 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15
petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
mutu hasil pertanian rendah 1.00 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67
wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
bidang pertanian belum berkembang 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07
dana bidang pertanian rendah 0.50 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14
Lampiran 7 Tabel kinerja perluasan kueri dua kata
Kinerja perluasan kueri dua kata dengan panjang kueri asli tiga kata
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
produk asing murah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
produksi pertanian menurun 0.25 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17
produktivitas pertanian rendah 0.40 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16
sawah rusak berat 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75
produksi pertanian meningkat 0.07 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03
kesejahteraan petani rendah 0.32 0.32 0.32 0.32 0.31 0.31 0.31 0.31 0.31 0.31 0.31
angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Lanjutan
Tabel kinerja perluasan kueri dua kata dengan panjang kueri asli empat kata
Topik Recall
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
sawah kering kekurangan air 1.00 0.71 0.71