PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA
UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS
LOKAL
FANIA RAHMANAWATI KARIMAH
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA
UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS
LOKAL
FANIA RAHMANAWATI KARIMAH
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
ABSTRACT
FANIA RAHMANAWATI KARIMAH. RIDF Weighting for Query Expansion on Information Retrieval System for Documents in Indonesian Using Lokal Context Analysis. Supervised by JULIO ADISANTOSO.
Automatic query expansion is a technique for dealing with the fundamental issue of word mismatch between queries and documents in information retrieval. A number of approaches on query expansion have been studied, especially on techniques that analyze the corpus to discover word relationships (global technique) and those that analyze documents retrieved by initial query (local technique). Both techniques have their own advantages and limitations. Local context analysis is an automatic query expansion which is a combination of global and local techniques. The purpose of this research is to implement query expansion with local context analysis using TF (Term Frequency) RIDF (Residual Inverse Document Frequency) weighting method, a variation of IDF (Inverse Document Frequency) that assigns weights to terms according to the difference between the logs of the actual IDF and its prediction by Poisson model. The obtained performance of information retrieval was 15% average precision. The results also showed that the number of top-ranked documents and passages did not significantly affect the average precision. The more influential factor was the number of query expansions.
Judul Skripsi : Pembobotan RIDF pada Mesin Pencari Bahasa Indonesia untuk Ekspansi Kueri Menggunakan Analisis Konteks Lokal
Nama : Fania Rahmanawati Karimah
NRP : G64080029
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer,
Dr. Ir. Agus Buono, M.Si, M.Kom NIP. 19660702 199302 1 001
PRAKATA
Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan ke hadirat Allah subhanahu wata’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpan bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1 Orang tua tercinta, bapak Muhamad Rasyid dan ibu Mindarwati, adik yang saya sayangi Fatharani Kurniawati yang selalu memberikan doa, nasihat, semangat, dukungan dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.
2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
3 Teman-teman satu bimbingan Meriska Defriani, Susi Handayani, Nofel Saputra, Putri Dewi P, Anita, Mery Marlina, Alfa Nugraha, Risky Utama dan Hafidzhia Dzikrul A terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
4 Sahabat-sahabat Mitha Rachmawati, Siska Susanti, Brenda Kristi, Chichi, dan Ardini. 5 Teman-teman Ilkomerz 45.
6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, April 2013
RIWAYAT HIDUP
DAFTAR ISI
Halaman
DAFTAR TABEL ... v
DAFTAR GAMBAR ... vi
DAFTAR LAMPIRAN ... vi
PENDAHULUAN ... 1
Latar Belakang ... 1
Tujuan Penelitian ... 1
Ruang Lingkup Penelitian ... 1
METODE PENELITIAN ... 1
Koleksi Dokumen... 2
Praproses Dokumen ... 2
Temu Kembali Awal ... 2
Pembentukan Passages ... 3
Temu Kembali Passages ... 3
Ekspansi Kueri ... 3
Analisis Konteks Lokal ... 4
Evaluasi ... 4
Lingkungan Pengembangan Sistem ... 4
HASIL DAN PEMBAHASAN... 5
Koleksi Dokumen Pengujian ... 5
Praproses Dokumen ... 5
Pembentukan Passages ... 5
Temu Kembali Passages ... 6
Pemilihan Konsep Ekspansi ... 6
Formulasi Kueri Baru ... 6
Pengujian Kinerja Sistem ... 6
KESIMPULAN DAN SARAN... 7
Kesimpulan ... 7
Saran ... 7
DAFTAR PUSTAKA ... 7
vi
DAFTAR TABEL
Halaman
1 Tabel contingensi recall-precision... 4
2 Koleksi dokumen pengujian. ... 5
3 Contoh istilah konsep. ... 6
4 Nilai AVP pada penambahan konsep. ... 7
5 Nilai AVP pada penambahan jumlah passages. ... 7
DAFTAR GAMBAR
Halaman 1 Metode penelitian. ... 12 Contoh dokumen XML. ... 5
3 Contoh pembentukan passages. ... 6
4 Grafik recall precision. ... 7
DAFTAR LAMPIRAN
Halaman 1 Contoh dokumen pengujian ... 102 Gugus kueri dan jawaban untuk dokumen pertanian ... 11
1
PENDAHULUAN
Latar Belakang
Tujuan sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan sesuai kebutuhan informasi pengguna. Pengguna akan merepresentasikan kebutuhan informasi dalam bentuk kueri. Menurut Rahayuni (2011) salah satu masalah yang sering dihadapi adalah pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan dalam bentuk kueri . Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dangan database dalam koleksi. Hal ini dapat diatasi dengan relevance feedback dan teknik ekspansi kueri. Dengan menggunakan teknik ekspansi kueri pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Diharapkan dari hasil ekspansi kueri dokumen yang relevan akan berada di posisi atas dan lebih banyak ditemukembalikan.
Metode yang diharapkan bisa lebih meningkatkan kinerja sistem dalam ekspansi kueri adalah analisis konteks lokal. Metode ini merupakan penggabungan antara pendekatan global dan pendekatan lokal dalam memperluas kueri awal (Xu & Croft 2000).
Penelitian juga dilakukan oleh Rahayuni (2011) menggunakan pendekatan global berbasis pemilihan kata untuk ekspansi kueri menggunakan ukuran kesamaan antar kata dengan istilah yang ada dalam thesaurus. Hal ini menyebabkan nilai Average Precision (AVP) sistem menjadi 0.596. Rusidi (2008) melakukan penelitian menggunakan peluang bersyarat dan mengaplikasikan ekspansi kueri dalam sistem temu kembali informasi. Ekspansi kueri yang dilakukan yaitu menggunakan analisis lokal.
Diva (2011) melakukan penelitian ekspansi kueri menggunakan teknik analisis konsep lokal. Dalam penelitian ini digunakan pembobotan BM25. Hal ini menyebabkan kinerja sistem kurang baik dengan nilai Average Precision (AVP) sebesar 0.60122. Oleh karena itu, penelitian ini akan menggunakan pembobotan RIDFdan memilihan kata berbasis konsep untuk ekspansi kueri pada mesin pencari bahasa Indonesia.
Tujuan Penelitian
Penelitian ini bertujuan
mengimplementasikan teknik analisis konteks lokal pada ekspansi kueri di mesin pencari bahasa Indonesia.
Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini antara lain:
1 Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. 2 Kesalahan dalam pengetikan di dalam
korpus tidak diperhatikan.
3 Dokumen yang relevan dengan kueri uji ditentukan berdasarkan koleksi yang ada di Laboratorium Information Retrieval.
METODE PENELITIAN
Tahapan penelitian ini dapat dilihat pada Gambar 1.
Dokumen
Praproses Dokumen dengan pembobotan BM25
Temu Kembali Awal
Ekspansi Kueri? Pembentukan Passages Ya Evaluasi Tidak
Passages Peringkat P Teratas
Daftar Konsep Dokumen Peringkat N
Teratas Konsep Peringkat c Teratas Kueri Formulasi Kueri Praproses Passages
dengan Pembobotan Tf Ridf
Temu Kembali Passages menggunakan
Cosine Similarity
2
Koleksi Dokumen
Dokumen yang digunakan dalam penelitian ini berasal dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Contoh dokumen XML yang digunakan dapat dilihat pada Lampiran 1. Koleksi Dokumen terdiri atas 2095 dokumen pertanian merupakan artikel media umum. Evaluasi kinerja sistem menggunakan 20 kueri dan tersedia himpunan dokumen yang relevan dengan kueri (Lampiran 2).
Praproses Dokumen
Pada tahap ini dilakukan pemrosesan dokumen melalui proses indexing menggunakan Sphinx. Proses indexing diawali dengan proses tokenisasi yang bertujuan mengidentifikasi kata di dalam teks dengan cara membedakan karakter-karakter yang bersifat separator. Pembuangan stopword dilakukan untuk membuang kata-kata yang tidak diperlukan atau tidak memiliki makna dan terakhir adalah pembobotan dengan BM25 yang bertujuan menentukan tingkat kepentingan suatu istilah dalam dokumen.
Pembobotan BM25 merupakan pembobotan yang menggabungkan bobot inverse document frequency dengan pengskalaan khusus untuk dokumen dan kueri. Pembobotan BM25 antara dokumen dan kueri yang diberikan terlihat pada persamaan berikut:
dengan
R : jumlah dokumen yang relevan dalam koleksi
rt : jumlah dokumen relevan dalam koleksi yang mengandung istilah t R – rt : jumlah dokumen relevan dalam
koleksi yang tidak mengandung istilah t
dft – rt : jumlah dokumen yang tidak relevan dalam koleksi yang mengandung istilah t
N – dft – R+ r : jumlah dokumen yang tidak relevan dalam koleksi yang tidak mengandung istilah t.
Fungsi pembobotan tersebut diubah sehingga menjadi bobot inverse collection frequency tanpa informasi relevansi (R = r = 0)
yang berfungsi seperti inverse document frequency:
Selanjutnya fungsi tersebut digunakan untuk menentukan kesamaan kueri Q dan dokumen Di dengan formula: ∑ ( ( )) dengan
N : banyaknya dokumen pada koleksi : jumlah dokumen yang mengandung
term t
: frekuensi term kueri t pada dokumen i
: frekuensi term kueri t pada kueri Q : panjang dokumen Di
: rata-rata panjang dokumen dalam koleksi
K : faktor normalisasi
b : parameter-parameter pengskalaan terhadap tf term dalam dokumen dan panjang dokumen.
Nilai parameter yang digunakan adalah k1 = 1.2 dan b = 0.75(Manning et al. 2009). Temu Kembali Awal
Setelah dilakukan praproses dokumen kemudian dilakukan proses temu kembali awal yang diimplementasikan dengan Sphinx Search. Dengan Sphinx, sebelum proses temu kembali awal diimplementasikan, proses yang terlebih dahulu dilakukan adalah pengindeksan pada dokumen XML hasil praproses. Pengindeksan menggunakan file konfigurasi yang sesuai.
3
Pembentukan Passages
Passage merupakan bagian yang lebih kecil dari suatu dokumen. Menurut Callan (1994), passage dapat dibagi dalam tiga kelas:
1 Discourse passage merupakan passage yang dibentuk berdasarkan bagian-bagian dari suatu dokumen, dapat berupa kalimat atau paragraf.
2 Semantic passage merupakan passage yang dibentuk berdasarkan subjek atau konten dari dokumen.
3 Windows passage merupakan passage yang dibentuk berdasarkan jumlah kata yang digunakan.
Pada penelitian ini passage yang digunakan adalah Discourse passage. Passage dibentuk dari kumpulan dua kalimat yang saling overlapping, yakni kalimat pertama digabung dengan kalimat kedua menjadi satu passage, kalimat kedua dan kalimat ketiga menjadi satu passage juga, dan begitu seterusnya untuk setiap dokumen peringkat teratas.
Temu Kembali Passages
Proses temu kembali passages dilakukan dengan tahap awal indexing dengan pembobotan TF-RIDF dan pemeringkatan passages menggunakan cosine similiarity. Bobot dalam term t di dalam sistem temu kembali informasi dihitung menggunakan ukuran TF-RIDF, dengan formula:
Wt,i=ridft x tft,i
dengan Wt,I adalah bobot kata t pada passagesi. Residual idf (RIDF) merupakan variasi dari idf yaitu menggunakan rasio observasi empiris dan estimasi. Nanas et al. (2004) mengungkapkan RIDF merupakan variasi dari IDF yang memberikan bobot untuk term berdasarkan perbedaan logaritma yang sesuai dengan IDF sebelumnya memakai model Poisson.
……… (1)
dengan Y = 0,1,2,3, …, dan µ adalah mean distribusi Poisson, mean, dan variansinya adalalah E[y] = var[y] = µ
Peluang banyaknya peubah acak Y dalam periode waktu t diberikan oleh:
………. (2) Persamaan 2 digunakan untuk menghitung peluang peubah acak Y. Cara yang paling umum menghitung RIDF adalah dengan dua
persamaan. Persamaan pertama adalah nilai rata-rata kemunculan term per dokumen
⁄ dan persamaan kedua yaitu 1-
p(0;µt). Dengan demikian nilai RIDF kata t adalah
RIDFt =obeserved idft predicted idft RIDFt = idft + log2(1-p(0;µ))
= (1+ log2 (N/ dft)) + log2 (1- p (0; µ)) = (1+ log2 (N/ dft)) + log2 (1- exp(-cft/N))
sedangkan N adalah jumlah dokumen dalam korpus.
Ukuran kemiripan cosine similiarity digunakan untuk memeringkat passages dalam koleksi dengan kueri awal yang diberikan pengguna. Cosine similarity merupakan salah satu metode yang digunakan untuk mengukur kemiripan antara dokumen dan kueri. Metode ini mengukur kemiripan berdasarkan vektor istilah kueri (q) dan vektor istilah dokumen (d). Rumus cosine similarity adalah:
‖ ‖ ‖ ‖
dengan ‖ ‖ adalah panjang vektor (Manning et al. 2009).
Ekspansi Kueri
Dalam relevance feedback pengguna memberikan input tambahan pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki kueri yang telah diberikan pengguna. Pada ekspansi kueri pengguna memberi input tambahan pada kueri awal berupa kata atau frasa (Manning et al. 2009). Terdapat tiga jenis ekspansi kueri yaitu:
1 Manual Query Expansion (MQE)
Dalam metode ini pengguna memodifikasi kueri secara manual tanpa bantuan sistem. 2 Automatic Query Expansion (AQE)
Metode ini akan memodifikasi kueri tanpa bantuan pengguna, melainkan dilakukan otomatis melalui sistem. Menurut Baeza-Yates dan Ribeiro-Neto (1999) terdapat beberapa teknik dalam AQE, yaitu: Analisis Global yang prinsip dasarnya memanfaatkan konteks suatu kata untuk menentukan kesamaannya dengan kata yang lain, Analisis Lokal menggunakan dokumen yang ditemukembalikan pengguna untuk mendapat kueri baru, dan analisis konteks lokal yang merupakan gabungan teknik analisis global dan lokal.
4
Metode ini membutuhkan interaksi antara pengguna dengan sistem untuk melakukan proses ekspansi kueri. Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Salah satunya adalah memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) atau memasukkan seluruh istilah indeks koleksi. Analisis Konteks Lokal
Menurut Xu & Croft (2000) analisis konsep lokal adalah teknik yang mengombinasikan analisis lokal dan analisis global pada ekspansi kueri. Langkah-langkahnya adalah:
1 Gunakan sistem temu kembali informasi standar untuk me-retrieved n passagess peringkat teratas menggunakan kueri awal dengan cara memecah dokumen ke dalam passages, kemudian passages diberi peringkat dengan cara yang sama ketika memberi peringkat pada dokumen (Analisis Lokal).
2 Selanjutnya konsep pada passages peringkat n teratas juga diberi peringkat (Analisis Global) menggunakan formula bel(Q,c) yaitu: bel(Q,c)=∏ ∑
sedangkan c adalah konsep, ftij adalah jumlah kemunculan ti pada pj dan fcij adalah jumlah kemunculan c pada pj, N adalah jumlah passages pada koleksi dan Ni adalah jumlah passages yang memiliki ti dan Nc adalah jumlah passages yang memiliki c dan
adalah 0.1 untuk menghindari zero bel value.
3 Semua konsep pada peringkat m teratas berdasarkan bel(Q, c) ditambahkan pada kueri awal.
Evaluasi
Manning et al. (2009) menyatakan terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif adalah recall dan precision (R-P).
Perhitungan recall-precision didasarkan pada tabulasi silang seperti pada Tabel 1.
Tabel 1 Tabel kontingensi recall-precision
Relevant Nonrelevant
Retrieved true positives (tp) false positives (fp) Non retrieved false negatives (fn) true negatives (tn) Oleh karena itu recall-precision didefinisikan sebagai:
P = tp/(tp+fp) R = tp/(tp+fn)
Menurut Baeza-Yates dan Ribeiro-Neto (1999) algoritma temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall, yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut:
̅( ) ∑
̅( ) adalah AVP pada level recall r. Nq adalah jumlah kueri yang digunakan dan Pi(r) adalah precision pada level recall r untuk kueri ke-i. Lingkungan Pengembangan Sistem
Lingkungan implementasi yang digunakan adalah sebagai berikut:
Perangkat lunak dan bahasa pemrograman:
Windows 7 Professional 64-bit sebagai sistem operasi.
C# sebagai bahasa pemrograman untuk pembuatan library.
ASP.NET MVC sebagai web framework untuk pembuatan aplikasi website.
Visual Studio 2010 sebagai IDE (Integrated Development Environment).
SQL Server 2008 R2 sebagai database penyimpanan data.
Notepad++ v8.5 sebagai editor.
Sphinx 2.0.3 sebagai platform temu kembali informasi.
Spesifikasi perangkat keras:
Processor Intel Core i3-2330 2.20 GHz.
RAM 6 GB.
5
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Dokumen yang digunakan dalam pengujian pada penelitian ini berasal dari Laboratorium Temu Kembali Informasi, Ilmu Komputer IPB dengan jumlah 2095 dokumen. Dokumen tersebut merupakan kumpulan berita tentang pertanian dari surat kabar online. Deskripsi dari dokumen dapat dilihat pada Tabel 2. Contoh salah satu dokumen pertanian yang digunakan dalam penelitian ini seperti yang tercantum pada Gambar 2.
Tabel 2 Koleksi dokumen pengujian
Keterangan Ukuran (byte) Ukuran seluruh dokumen 6 894 430 Ukuran rata-rata dokumen 3 290.89 Ukuran dokumen terbesar 138 539
Ukuran dokumen terkecil 412
Gambar 2 Contoh dokumen XML. Dokumen ditandai dengan tag-tag sebagai berikut:
<DOC></DOC>,tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik
<DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen
<TITLE></TITLE>, tag ini menunjukkan judul dari dokumen
<DATE></DATE>, tag ini menunjukkan tanggal dari berita atau penulisan
<AUTHOR></AUTHOR>, tag ini me- nunjukkan penulis dari berita tersebut.
<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.
Praproses Dokumen
Pemrosesan dokumen dilakukan melalui beberapa tahapan yaitu: tokenisasi, pembuangan
stopword, dan pembobotan menggunakan rumus TF RIDF. Sebelum dilakukan tokenisasi, seluruh huruf pada koleksi dokumen diubah menjadi huruf kecil dengan menggunakan fungsi strtolower.
Dokumen koleksi diproses secara sekuensial per karakter dari awal hinga menghasilkan sebuah token. Tahapan untuk memperoleh token adalah sebagai berikut:
1 Sistem menggolongkan karakter menjadi empat jenis, yaitu :
a whitespace, berarti karakter ini merupakan karakter pemisah token. b alpha, berarti karakter ini merupakan
huruf.
c numeric, berarti karakter ini merupakan angka.
d other, berarti karakter ini tidak termasuk jenis-jenis di atas.
2 Sistem mengubah jenis karakter numeric dan other menjadi whitespace.
3 Sistem melakukan pemisahan kata berdasarkan whitespace.
4 Kata yang dianggap token adalah yang mempunyai panjang lebih dari dua.
Kenudian dilakukan pembuangan sejumlah kata umum yang tidak berpotensi mencirikan suatu dokumen (stopword). Daftar kata buangan (stopword) menggunakan hasil penelitian Rahayuni (2011).
Pembentukan Passages
Dokumen XML hasil praproses koleksi seluruh dokumen kemudian diindeks pada Sphinx. Pengindeksan dilakukan sesuai dengan file konfigurasi yang telah dibuat. Pada file konfigurasi, dokumen XML hasil praproses dokumen disimpan dengan nama Corpus2095.xml yang selanjutnya diindeks menggunakan Sphinx Search dan disimpan dalam file bernama IndexingCorpus2095. Pada file konfigurasi Sphinx, xmlpipe_field
berfungsi mendefinisikan tag-tag yang terdapat pada file XML. Hal tersebut dapat mempermudah pengaksesantag tertentu. Tahap indexing menggunakan Sphinx Search. Kemudian setelah tahap temu kembali selesai akan diambil dokumen-dokumen peringkat teratas untuk dijadikan passages.
Bagian dokumen yang diambil untuk dijadikan passages terdiri atas bagian judul (ditandai dengan tag title) dan paragraf (ditandai dengan tag content). Pada Gambar 3 dapat terlihat contoh pembentukan passages.
<DOC>
<DOCNO>gatra011102</DOCNO>
<TITLE>Agroindustri</TITLE>
<AUTHOR>Ani, Anti</AUTHOR>
<DATE> 1 November 2002 </DATE>
<TEXT >Selain industry argowisata yang telah…
</ TEXT>
6
Gambar 3 Contoh pembentukan passages. Temu Kembali Passages
Passages yang telah terbentuk kemudian akan ditemu kembalikan. Top p passages hasil temu kembali akan menjadi sebuah dokumen untuk menentukan konsep pada formulasi kueri yang baru. Untuk itu dilakukan tokenisasi kembali untuk mendapatkan semua term unik pada semua passages. Setelah didapatkan term unik, dicari frekuensi kemunculan term unik tersebut di semua passages kemudian term diberi bobot sesuai dengan TF RIDF.
Berikutnya dengan menggunakan pembobotan TF RIDF dan fungsi kesamaannya dicari nilai kemiripan antara passages dan kueri pengguna sehingga didapatkan passages peringkat m teratas.
Pemilihan Konsep Ekspansi
Dari passages peringkat teratas diambil kata benda disebut konsep (calon kueri perluasan). Term kueri yang diberikan pengguna dihitung kemunculannya pada setiap passage peringkat teratas dengan semua konsep yang ada menggunakan persamaan bel value.
Kemudian dilakukan pencarian nilai kemiripan konsep dengan semua term yang ada pada kueri menggunakan persamaan bel(Q,c). Hasil dari tahap ini berupa konsep-konsep yang telah terurut berdasarkan kemiripannya dengan keseluruhan kueri, yang nanti digunakan sebagai term kueri perluasan. Tabel 3 menunjukkan contoh istilah konsep yang akan digunakan dalam ekspansi kueri.
Tabel 3 Contoh istilah konsep
Kueri 7 Istilah Ekspansi
persediaan padi memadai
*mentan, *optimis, *Indonesia, *ekspor, *beras, *jakarta, *apriyantono nilai jual
komoditas rendah
*agraris, *harga, *produsen, *buah, *tani, *produk, *jajar
upaya peningkatan produksi pertanian
*tsunami, *kosong, *susilo, *tingkat, *presiden, *komitmen, *bencana
sawah rusak berat
*kira, *tanam, *pimpin, *asal, *mundur, *luas, *lingkung
dana bidang pertanian rendah
*sektor, *universitas, *pakar, *gantung, *bicara, *satu, *kecil
Formulasi Kueri Baru
Kueri perluasan yang didapatkan pada tahap sebelumnya digabungkan dengan kueri awal yang diberikan oleh pengguna. Pada penelitian ini, banyak konsep yang ditambahkan sehingga mendapatkan hasil yang optimal adalah 4 konsep. Hasil dari tahap ini adalah kueri baru sebagai hasil ekspansi.
Pengujian Kinerja Sistem
Pengaruh jumlah konsep yang ditambahkan pada kueri awal diuji pada sistem dengan menggunakan pasangan kueri dan dokumen relevan yang telah disiapkan. Banyaknya konsep yang ditambahkan pada kueri awal diduga mempengaruhi kinerja hasil temu kembali. Dalam penelitian ini digunakan penambahan konsep untuk kemudian dilihat nilai AVP dari setiap penambahan konsep.
Dari tabel 4 terlihat bahwa untuk penambahan konsep semakin banyak jumlahnya maka akan menghasilkan nilai AVP yang semakin tinggi. Nilai AVP tertinggi ketika jumlah konsep adalah 4 dan 5. Ketika jumlah konsep yang ditambahkan lebih dari 7 maka nilai AVP sistem akan cenderung tetap.
Passages 1
Akibat banjir tersebut, para petani gagal tanam. Ratusan hektar tanaman jeruk petani yang puso akibat banjir Desember 2003 lalu tidak bisa ditanami kembali karena areal kebun jeruk tersebut tergenang air.
Passages 2
7
Tabel 4 Nilai AVP pada penambahan konsep Penambahan Jumlah
Konsep
Nilai AVP
1 0.15465
2 0.15346
3 0.15346
4 0.15782
5 0.15782
6 0.15554
7 0.15554
Pengaruh penambahan jumlah passages dapat dilihat pada Tabel 5. Dapat terlihat bahwa penambahan passages tidak mempengaruhi nilai AVP sistem secara signifikan. Untuk nilai AVP hasil pengujian sistem pada berbagai kombinasi jumlah penambahan dokumen peringkat teratas, jumlah passages, dan jumlah konsep dapat dilihat pada Lampiran 3.
Tabel 5 Nilai AVP pada penambahan jumlah passages
Penambahan Jumlah Passages
AVP
1 0.15465
2 0.14615
3 0.14618
4 0.14455
5 0.13862
Gambar 4 Grafik recall precision. Pada Gambar 4 terlihat perbedaan antar hasil pengujian sistem saat belum menggunakan ekspansi kueri dan setelah ekspansi kueri. Nilai AVP untuk sistem tanpa ekspansi adalah 0.099 dengan recall 0.231 sedangkan nilai AVP
sistem setelah ekspansi kueri adalah 0.158 dengan recall 0.466. Berdasarkan evaluasi yang dilakukan untuk nilai AVP optimal didapatkan dari kombinasi jumlah dokumen peringkat teratas sebanyak satu, jumlah konsep yang ditambahkan sebanyak empat dan jumlah passages sebanyak satu.
KESIMPULAN DAN SARAN
Kesimpulan
Penelitian ini menganalisis ekspansi kueri menggunakan metode analisis konteks lokal dengan menggunakan pembobotan TF RIDF. Berdasarkan hasil penelitian yang diperoleh dapat disimpulkan bahwa:
1 Ekspansi kueri menggunakan analisis konteks lokal dengan menggunakan pembobotan TF RIDF dapat meningkatkan kinerja sistem temu kembali, yakni dokumen yang relevan berada pada urutan awal pada penemukembalian.
2 Jumlah ekspansi kueri yang ditambahkan mempengaruhi kinerja sistem temu kembali. Semakin banyak konsep yang ditambahkan maka semakin bagus kinerja sistem sampai pada batas tertentu yaitu 4 konsep nilainya cenderung tetap. Jumlah dokumen dan passages peringkat teratas yang diambil tidak memberikan banyak perbedaan pada hasil kinerja sistem temu kembali.
Saran
Pada penelitian selanjutnya disarankan untuk menggunakan koleksi yang lebih besar untuk lebih mendekati penggunaan sesungguhnya. Penambahan frasa dan kata kerja sebagai kata yang akan digunakan untuk ekspansi untuk mengatasi keambiguan kata.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York: Addison-Wesley.
Callan JP. 1994. Passage-level evidence in document retrieval. Di dalam: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval; Dublin, July 1994. New York: Springer-Verlag New York, Inc. hlm 302-310.
8
[Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Manning Christopher D, Raghavan Prabhakar, Schutze Hinrich. 2009. An Introduction to Information Retrieval. Cambridge: Cambridge University Press.
Nanas N, Uren V, Roeck AD. 2004. A Comparative Study of Term Weighting Methods for Information Filtering. U.K: The Open University Knowledge Media Institute Milton Keynes.
Rahayuni. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan thesaurus. [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
10
Lampiran 1 Contoh dokumen pengujian <DOC>
<DOCNO>kompas031100</DOCNO>
<TITLE>Pertanian Tak Menjanjikan Petani Jepara Beralih ke Sektor Industri </TITLE> <AUTHOR>(son)</AUTHOR>
<DATE>Jumat, 3 November 2000</DATE> <TEXT>
<P>Jepara, Kompas</P>
<P>Akibat harga gabah dan hasil pertanian lain tidak pernah sesuai dengan harapan, sementara upah buruh tani rendah, ribuan petani di Kabupaten Jepara, Jawa Tengah (Jateng) beralih ke sektor industri. Bahkan 60.000 tenaga kerja industri mebel ukir Jepara yang ada saat ini, hampir semuanya berasal dari petani. Secara keseluruhan jumlah petani di Jepara berkisar 240.000 orang.</P>
<P>Tidak hanya itu, lahan pertanian di beberapa tempat terutama di Kota Jepara dan sekitarnya kini mulai terancam berkurang, karena dialihfungsikan menjadi tempat industri mebel ukir. Kondisi ini terjadi sejak lima tahun terakhir, yakni tahun 1995 hingga saat ini.</P>
<P>Bupati Jepara Drs Soenarto, didampingi Kepala Kanwil (Kakanwil) Departemen Pertanian (Deptan) Jateng Ir Triyono, mengemukakan ini kepada wartawan yang mengikuti press tour bersama Sekretariat Pengendali Bimbingan Massal (Bimas), Deptan dan Kehutanan, Rabu (1/11) di Jepara.</P>
<P>"Bagi sejumlah petani Jepara, sektor pertanian kini tidak lagi menjanjikan. Mereka kini lebih memilih bekerja di sektor industri mebel ketimbang menjadi petani. Apalagi sejak krisis ekonomi, ekspor mebel di Jepara meningkat," jelas Soenarto.</P>
<P>Selama ini, kata Soenarto, produksi pertanian terutama padi selalu mengecewakan. Bahkan, antara biaya dan tenaga yang dikeluarkan petani dengan hasil yang diperoleh, selalu saja tidak sebanding. "Biaya yang dikeluarkan petani mulai dari tenaga kerja, bibit, pupuk dan obat-obatan terlalu besar, sementara ketika panen nilai jualnya rendah. Gabah kering panen (GKP) misalnya, tidak pernah lebih dari Rp 800 per kilogram atau jauh dari harga patokan pemerintah," katanya.</P>
<P>Oleh karena itu, perlahan-lahan minat petani beralih bekerja di sektor industri. Apalagi, beberapa tahun terakhir terutama saat krisis ekonomi berlangsung, industri mebel ukir Jepara menjadi andalan ekspor Jateng. "Saat ini Jepara memiliki 2.500 pengusaha mebel, 200 di antaranya eksportir. Ini menyebabkan, banyak tenaga kerja di sektor agraris ditarik ke sektor industri," tandasnya.</P> <P>Diakuinya, dorongan petani beralih ke sektor industri cukup besar. Sebab, bekerja di sektor pertanian membutuhkan waktu, tenaga dan biaya yang cukup besar, hasilnya pun tidak bisa diprediksi. Bekerja di sektor industri, hasilnya bisa dinikmati dalam waktu tidak terlalu panjang. Dia mencontohkan, untuk mengampelas (menghaluskan) mebel saja, sehari mendapat bayaran Rp 10.000 per orang.</P>
<P>Krida Pertanian</P>
<P>Mengatasi persoalan ini, Soenarto menyatakan, sejak tahun 1997 pemerintah Jepara melaksanakan Gerakan Krida Pertanian. Salah satu gebrakan yang dilakukan adalah pencanangan gerakan pisangisasi (penanaman tananan pisang) di seluruh Jepara.</P>
<P>"Saat ini Jepara sudah menghasilkan pisang, termasuk jenis chavendis. Kini sedang dipikirkan pemasarannya," katanya.</P>
<P>Tekad Pemda Jepara menggerakkan sektor pertanian di Jepara didukung Satpel Bimas Deptan. "Tugas Satpel Bimas menggerakkan sektor pertanian di Jepara cukup berat karena pergeseran struktur ekonomi dari agrobisnis ke industri," jelas Soenarto.</P>
<P>Sedangkan untuk mencegah supaya luas lahan pertanian tidak semakin banyak dialihfungsikan ke sektor industri, Bupati Jepara menginstruksikan pejabat terkait agar menyeleksi ketat izin pembangunan kawasan industri. "Selain proses per</P>
<P>izinannya dipersulit, harus ada uji kelayakan," tandasnya.</P> </TEXT>
11
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
nilai jual
komoditas rendah
balipost030608, BisnisIndonesia22022001, gatra030408, indosiar071103, indosiar190504-002, indosiar240604, indosiar300304, indosiar300703-002, jurnalHorti113, kompas030502-002, kompas031100, kompas101004, kompas161000, kompas171002, kompas200803, kompas240803,
kompas250901, kompas270203-001, kompas270502-001, kompas300502-001, mediaindonesia060803, mediaindonesia170303, mediaindonesia250304, mediaindonesia310503, okezone20022008, panturanews220611,
pertaniansehat21042008, pertaniansehat31122007-03, pikiranrakyat21042010, pikiranrakyat240404, pikiranrakyat300604, poskota000000-003,
republika020804, republika05052010, republika060503, republika060804-001, republika060804-003, republika140503, republika211208-049, republika240604-005, republika241008-042, republika300704-002, situshijau15, situshijau181103-001, situshijau280203, situshijau280404-situshijau181103-001, situshijau280404-002,
situshijau280404-003, suarakarya000000-021, suarakarya000000-025, suaramerdeka000000-001, suaramerdeka290303, suarapembaruan110903, suarapembaruan290802-001
persediaan padi memadai
antarajawabarat211211, beritasore080711, bisnis_jabar191211,
bisnisindonesia140911, deptan28052008, eksposnews161211, gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911, harian_aceh291011, incestordaily310711, indosiar221003, indosiar240703, kbrh211111, kompas160704, kompas221011, kompas260711,
korankaltim260811, malukunews090811, mediaindonesia231111, menkokesra71211, okezone080711, okezone130711, okezone31701,
poskota000000-001, radarbangka040811, republika061102, republika100704-003, republika180504-002, republika210704-001, republika290604-007, sinartani1075, suaramerdeka090911, suaramerdeka170602,
tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711, vivanews122111, vivanews190911
sawah kering kekurangan air
deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704, gatra270709, gatra301002, gatra301002-01, gatra310709, indosiar010903, indosiar040903, indosiar170603, indosiar180304, indosiar220503,
indosiar240703, indosiar260803-001, indosiar260803-003, indosiar310504, kompas030704, korantempo3, mediaindonesia050604-001,
mediaindonesia110703, mediaindonesia160603, mediaindonesia210709, mediaindonesia240503, mediaindonesia300909, mediaindonesia310503, okezone01062008, okezone13062008, okezone13062008-01, okezone14072009, okezone19052008, okezone26042008-01, okezone26052009, radarbogor050608, radarbogor14082008, republika030903-001, republika030903-002,
republika120804-01, republika120804-04, republika130804-02,
republika200603, republika210704-004, republika230903, republika270503, republika270704-002, republika290604-007, suarakarya000000-002-01, suarakarya000000-002-02, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suaramerdeka290901, suarapembaruan110903,
12
Lanjutan
Kueri Gugus Jawaban
upaya peningkatan produksi pertanian
deptan11062008, deptan14082007, deptan14112007, deptan18022010, deptan22022008, deptan25022008, deptan25022008-1, deptan29072009, deptan31032008, deptan31072007, gatra050508, gatra060206, gatra080102, gatra121108, gatra200103, gatra220604, gatra240203, gatra260408, indosiar030304, indosiar150104-002, indosiar180304, jurnalHorti210, jurnal000000-005, jurnal000000-013, jurnalHorti1, jurnalHorti87, kompas031100, kompas160704, kompas200802, kompas210502, kompas230209, kompas240103, kompas240302, kompas280502, kompas300502-002, kompas310703, kompas311203, kompas311203-2, mediaindonesia020809, mediaindonesia021209, mediaindonesia080210, mediaindonesia091109, mediaindonesia120604-002, mediaindonesia120609, mediaindonesia131209-2, mediaindonesia190210, mediaindonesia210210, mediaindonesia270309, mediaindonesia270809, okezone12072009, okezone26042008, okezone27112008, pertaniansehat09012008,
pertaniansehat21042008, pertaniansehat31122007, republika010704-003, republika040303, republika050803, republika050903, republika09042010, republika100210-001, republika100210-030, republika100309-031,
republika100902, republika110604-003, 02, republika120804-03, republika140109-047, republika1407republika120804-03, republika1507republika120804-03, republika1509republika120804-03, republika151202, republika170704-006, republika230704-08, republika230902-001, republika230902-002, republika230903, republika240604-005,
republika241203, republika260604-001, republika260803, republika290604-007, republika301002, republika310109-017, 001, republika311002-002, situshijau070103-republika311002-002, situshijau070503, situshijau140103-001,
situshijau180803-001, situshijau200103-001, situshijau281003-004, situshijau290403-002, situshijau310303-No, suarakarya000000-011, suarakarya000000-016, suarakarya000000-028, suarakarya000000-037, suaramerdeka071102, suaramerdeka120104, suaramerdeka190903, suarapembaruan130103, suarapembaruan140303, suarapembaruan220802, suarapembaruan290802-001, surabayapost020210, surabayapost070110, tempointeraktif051103-021, tempointeraktif160209-060, tempointeraktif160210-020, tempointeraktif160210-075, tempointeraktif2000608-026,
tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609-055, wartapenelitian000000-003
produk asing murah
analisdaiy211011, indosiar300703-002, kompas100702, kompas101002, kompas131211, kompas170104, kompas180502, kompas250901, kompas270203-002, kompas280602, lampungpost201011, mediaindonesia060803, mediaindonesia170303, okezone210111, poskota000000-003, republika060503, suaramerdeka130104, suarapembaruan100903, suarapembaruan110903, tempo141011
produksi pertanian menurun
deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103, gatra220802, gatra220802-01, gatra240203, indosiar010504, indosiar010803, indosiar270504, kompas030403, kompas050303, kompas060503,
kompas120102, kompas170402, kompas171002, kompas180303, kompas211211, kompas240103, kompas260902, kompas270203-001, kompas270401, kompas270502-001, mediaindonesia050709,
mediaindonesia090409, mediaindonesia131209-2, mediaindonesia281109, mediaindonesia300909, okezone09012008, pikiranrakyat020804-001, pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002, republika010704-005, republika030903-002, republika110604-002,
republika130804-02, republika170908-027, republika201102, republika231202-001, republika241203, republika281202, situshijau030603-002,
tempointeraktif160209-060, situshijau140503-001, situshijau180603-001, situshijau280203, vivanews122111, suarakarya000000-001-01,
13
Lanjutan
Kueri Gugus Jawaban
produksi pertanian menurun
tempointeraktif081008-061, tempointeraktif110210-030
petani sulit mendapatkan humus
banjarmasinpost181211, gatra230609, harianhaluan291111,
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar290604, kompas210504, kompas211211, kompas300502-001, liputan6_100611, mamorema01, mediaindonesia211211,
metrotvnews221111, okezone27112008, pertaniansehat09072008, pertaniansehat30032008, pikiranrakyat010504-003, republika050604, republika160604-001, republika190504-002, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-031, suarakarya000000-038, suaramerdeka161101, surya121111, tribunnews51011, waspada120611
sawah rusak berat
gatra030706, gatra040108, gatra060907, gatra070203, gatra120210, gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002, gatra301002-01, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar240703, indosiar260803-001, kompas170504, kompas260902, mediaindonesia030603, mediaindonesia050204, mediaindonesia050604-001, mediaindonesia110309,
mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2, mediaindonesia140203, mediaindonesia160603, mediaindonesia170209, mediaindonesia190503, okezone01062008, okezone12112007,
okezone17012008, okezone20022008, okezone26052009,
pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat23042010,
pikiranrakyat25052010, radarbogor050608, republika010704-005, republika030903-001, republika030903-002, republika07052010, republika130804-02, republika200603, republika230903,
republika25052010-01, republika29042010, situshijau110303-002, situshijau280404-002, suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suaramerdeka190903, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002,
surabayapost100210, tempointeraktif050205-006, tempointeraktif160209-060
mutu hasil pertanian rendah
Deptan04122009, gatra011102, gatra180103, indosiar150104-002, jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303, kompas100702, kompas101002, kompas161000, kompas180502, kompas220801, kompas290404, mediaindonesia030104,
mediaindonesia170403, pikiranrakyat21042010, republika05052010, republika140109-047, republika150604-001, republika211208-049, situshijau01, situshijau030203-002, situshijau070103-002,
situshijau080503-004, situshijau110603-001, situshijau15,
14
Lanjutan
Kueri Gugus Jawaban
produksi pertanian meningkat
deptan01072008, deptan01092008, deptan03112009, deptan04032008, deptan04082008, deptan04112008, deptan14072008, deptan14112007, deptan19012009, deptan20102008, deptan25022008-1, deptan27032010, deptan28052008-1, detikfinance27122009, gatra010307, gatra100509, gatra121108, gatra230802, gatra310807, indosiar021203-002, kompas060503, kompas150104, kompas160704, kompas180701, mediaindonesia020809, mediaindonesia080210, mediaindonesia210210, mediaindonesia250809, mediaindonesia291209, pikiranrakyat10042010, pikiranrakyat23052010, republika080703, republika09042010,
republika100704-003, republika110309-021, republika120804-03, republika130209-045, republika281202, republika300704-002, suarakarya000000-037, surabayapost020310, surabayapost070110, surabayapost110210, surabayapost250110, tempointeraktif130107-064
kesejahteraan petani rendah
balipost030608, gatra230109, jurnal000000-027, kompas030403, kompas031003, kompas110504, kompas120204, kompas161000, kompas170903, kompas220399, kompas240803, kompas290404, mediaindonesia120209, panturanews220611, pertaniansehat16052008, poskota270411, republika100804, republika110604-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021,
suarapembaruan100903, suarapembaruan190809, tempointeraktif200696-016, tempointeraktif211003-001, tempointeraktif211003-003,
tempointeraktif300108-022
wereng serang lahan pertanian
balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210, gatra190902, gatra190902-02, indosiar010504, indosiar010803,
indosiar070504, indosiar150104-002, indosiar240604, indosiar270504, indosiar310304, kompas170903, kompas200803, kompas211211, mediaindonesia020310, mediaindonesia030603, mediaindonesia050204, mediaindonesia050309, mediaindonesia050604-001,
mediaindonesia090409, mediaindonesia110309, mediaindonesia120110, mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503, mediaindonesia221209, mediaindonesia240110, okezone09012008, okezone23022008, okezone26052008, pikiranrakyat020804-001, pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat21042010, pikiranrakyat25052010, pikiranrakyat26052010, radarbogor050608, republika07052010, republika170908-027,
republika19052010, republika19052010-01, republika240604-003, republika25052010-01, republika260604-003, republika29042010, situshijau030203-002, situshijau030603-002, situshijau110303-002, situshijau14, situshijau180603-001, suarakarya000000-011,
suarakarya000000-033, suaramerdeka131001, suarapembaruan120104, surabayapost100210, surabayapost231209, tempointeraktif090609-076, tempointeraktif130107-064
bidang pertanian belum berkembang
balipost030608, balipost050908, balipost301208, gatra230109, gatra290903, jurnal000000-027, kompas030403, kompas031003, kompas050303,
kompas091003, kompas120204, kompas150304-002, kompas170104, kompas171002, kompas180504, kompas220399, kompas240803, kompas270502-001, mediaindonesia050604-002, mediaindonesia100203, mediaindonesia180504, mediaindonesia250803, metrotvnews17112009, okezone280111, poskota270411, 002, republika080210-033, republika091009-016, republika190504-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, tempointeraktif160209-060, tempointeraktif200696-016, tempointeraktif211003-001,
15
Lanjutan
Kueri Gugus Jawaban
angsuran pertanian sedikit
ahmadheryawan251211, antaranews031110, beritadaerah081111,
bisnisindonesia101211, bisnisjabar080911, detik100211, inilahjabar221211,
kabarbisnis291211, kompas110201, kompas120204, kompas140209, kompas170911, kompas220901-001, korankaltim001, medanbisnis060911, mediaindonesia170712, mediaindonesia260711, metrotvnews181211, pikiranrakyat161211, republika110504, republika110604-003, seputarsulawesi081111, suaramerdeka090707,
tempointeraktif180809-028, theglobejurnal290709, tribunnews151211, ujungpadangekspres091111, wartakota0001, wsp_agro01, yiela120910
dana bidang pertanian rendah
antaranews211111, banjarmasinpost180711, bataviase070710, gatra131011, kompas040111, kompas210502, lampungpost081211, mediaindonesia090903, metrotvnews261211, neraca180811, okezone280111, panturanews220611, partaimerdeka01, poskota270411, prakarsa_rakyat190811, republika110504, republika110604-003, republika290704-001, seputarindonesia051011, seputarindonesia271211, sinartani00002, sinartani291211, sinartani291211, tempo251211, tribunnews061211, waspada101011
permintaan humus naik
bataviase200511, gatra230609, kbr68h041211, kompas151211, kompas210504, kompas211211, kompas230209, kompas300502-001, lampungpost121111, metrotvnews221111, pertaniansehat30032008, pikiranrakyat010504-003, pikiranrakyat07052010, pikiranrakyat100310, pikiranrakyat16042010,
16
L
a
m
p
ir
an
3
Nilai
A
VP
s
is
te
m
p
ad
a
b
er
b
ag
ai
ju
m
lah
d
o
k
u
m
e
n
,
p
a
ss
a
g
es
, d
an
k
o
n
sep
ter
atas
Top
Top
Top
document passages
concept
0
0
0
0,5458
0,2813
0,1251
0,0739
0,0349
0,0211
0,0116
0
0
0
0
0,0994
1
1
1
0,5396
0,3304
0,2476
0,1826
0,1361
0,1042
0,0742
0,0287
0,0125
0
0
0,1547
1
1
2
0,535
0,3673
0,246
0,1919
0,1404
0,1024
0,077
0,0287
0,0125
0
0
0,1535
1
1
3
0,5361
0,3638
0,2357
0,192
0,1389
0,103
0,0774
0,0287
0,0125
0
0
0,1535
1
1
4
0,5777
0,3673
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1578
1
1
5
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1578
1
1
6
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1
1
7
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1
2
1
0,5351
0,3023
0,2366
0,1775
0,1359
0,1045
0,0746
0,0287
0,0125
0
0
0,1462
1
2
2
0,5767
0,3399
0,2443
0,1911
0,1403
0,1025
0,077
0,0287
0,0125
0
0
0,1557
1
2
3
0,5408
0,3513
0,236
0,1924
0,1393
0,1035
0,0777
0,0287
0,0125
0
0
0,1529
1
2
4
0,5432
0,3556
0,2373
0,1929
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1537
1
2
5
0,5727
0,3323
0,2375
0,1929
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1543
1
2
6
0,5763
0,3408
0,2393
0,1931
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1556
1
2
7
0,5763
0,3408
0,2393
0,1931
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1556
1
3
1
0,5351
0,3026
0,2366
0,1775
0,1359
0,1045
0,0746
0,0287
0,0125
0
0
0,1462
1
3
2
0,5719
0,3447
0,2437
0,19
0,1417
0,1028
0,077
0,0287
0,0125
0
0
0,1557
1
3
3
0,5602
0,3452
0,235
0,1917
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,154
1
3
4
0,5665
0,352
0,2358
0,1925
0,1394
0,1035
0,0777
0,0287
0,0125
0
0
0,1553
1
3
5
0,5527
0,3406
0,2364
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1531
1
3
6
0,5527
0,3421
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1533
1
3
7
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
17
L
a
n
ju
tan
Top
Top
Top
document passages
concept
1
4
1
0,564
0,3371
0,2425
0,1895
0,1426
0,1086
0,0772
0,0287
0,0125
0
0
0,1548
1
4
2
0,5574
0,3447
0,2349
0,1917
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1537
1
4
3
0,57
0,3594
0,2376
0,1928
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1565
1
4
4
0,5777
0,3408
0,2364
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1554
1
4
5
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1
4
6
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1
4
7
0,5134
0,2727
0,2087
0,1753
0,1353
0,1039
0,0743
0,0287
0,0125
0
0
0,1386
1
5
1
0,5569
0,3016
0,2391
0,1899
0,1411
0,1083
0,0772
0,0287
0,0125
0
0
0,1505
1
5
2
0,5678
0,3168
0,2349
0,1917
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1521
1
5
3
0,57
0,3346
0,2376
0,1928
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1543
1
5
4
0,5763
0,3408
0,2364
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1553
1
5
5
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1
5
6
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1
5
7
0,5396
0,3304
0,2476
0,1826
0,1361
0,1042
0,0742
0,0287
0,0125
0
0
0,1505
2
1
1
0,535
0,3673
0,246
0,1919
0,1404
0,1024
0,077
0,0287
0,0125
0
0
0,1547
2
1
2
0,5361
0,3638
0,2357
0,192
0,1389
0,103
0,0774
0,0287
0,0125
0
0
0,1535
2
1
3
0,5777
0,3673
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1578
2
1
4
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
2
1
5
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
2
1
6
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
1.0
avp
0.4
0.5
0.6
0.7
0.8
0.9
18
L
a
n
ju
tan
Top
Top
Top
document passages
concept
2
1
7
0,5777
0,3442
0,2452
0,192
0,1393
0,1035
0,0777
0,0287
0,0125
0
0
0,1564
2
2
2
0,5763
0,3408
0,2393
0,1931
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1556
2
2
6
0,5763
0,3408
0,2393
0,1931
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1556
2
2
7
0,57
0,3594
0,2376
0,1928
0,1395
0,1035
0,0777
0,0287
0,0125
0
0
0,1565
2
3
2
0,5777
0,3673
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1578
2
4
4
0,5777
0,3423
0,2366
0,1928
0,1393
0,1034
0,0777
0,0287
0,0125
0
0
0,1555
3
1
4
0,5188
0,2708
0,1839
0,1075
0,0648
0,0253
0,0042
0
0
0
0
0,1068
3
6
7
0,5458
0,2813
0,1251
0,0739
0,0349
0,0211
0,0116
0
0
0
0
0,0994
avp
0.5
0.6
0.7
0.8
0.9
1.0