• Tidak ada hasil yang ditemukan

Direct Term Feedback pada Temu-Kembali Informasi Bahasa Indonesia Menggunakan Model Bahasa

N/A
N/A
Protected

Academic year: 2017

Membagikan "Direct Term Feedback pada Temu-Kembali Informasi Bahasa Indonesia Menggunakan Model Bahasa"

Copied!
69
0
0

Teks penuh

(1)

ANITA

DIRECT TERM FEEDBACK

UNTUK TEMU-KEMBALI

INFORMASI BAHASA INDONESIA MENGGUNAKAN

MODEL BAHASA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

ANITA

DIRECT TERM FEEDBACK

UNTUK TEMU-KEMBALI

INFORMASI BAHASA INDONESIA MENGGUNAKAN

MODEL BAHASA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

(3)

ABSTRACT

ANITA. Direct Term Feedback for Information Retrieval in Indonesian Language with Language Models. Supervised by JULIO ADISANTOSO.

The large amount of information has triggered the development of search engines to help the users in finding the required information. To retrieve information which is relevant to the users’ needs, the queries should be formulated correctly. Direct term feedback is a method that can help a user to directly judge the relevance of individual terms without interaction with feedback documents, taking a full control of the whole query expansion process. This technique uses Pseudo-relevance feedback which takes the top n-ranked documents and takes the top x-ranked terms from the relevant documents to get term feedback for users’ judgement. The purpose of this research is to implement query expansion with direct term feedback for information retrieval in Indonesian language with language models. This research uses 2095 documents and 20 testing queries. The result shows that direct term feedback is a good method to help the users in finding their required information. The performance of direct term feedback for information retrieval with language models gives a good result with around 35% of AVP value.

(4)

Judul Skripsi : Direct Term Feedback pada Temu-Kembali Informasi Bahasa Indonesia Menggunakan Model Bahasa

Nama : Anita NRP : G64080061

Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom NIP 19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom NIP 19660702 199302 1 001

(5)

PRAKATA

Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan kepada Allah atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Direct Term Feedback

pada Temu-Kembali Informasi Menggunakan Model Bahasa.

Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:

1 Orang tua tercinta, Bapak Muhamad Nuh dan Ibu Sahara, ketiga kakak yang saya sayangi Chairul Anwar, Sahmiwita dan Syariful Anwar, serta ketiga adik yang saya sayangi Yusnaida Daulay, Septiana, dan Wilda Daulay yang selalu memberikan doa, nasihat, semangat, dukungan, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.

2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.

3 Teman-teman satu bimbingan Meriska Defriani, Susi Handayani, Nofel Saputra, Putri Dewi P, Fania Rahmanawati Karimah, Mery Marlina, Alfa Nugraha, Rizky Utama, dan Hafidzhia Dzikrul A terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.

4 Sahabat-sahabat dan senior, Mutiara Wide, Dewi Sekar, Aninta Saraswati, Dwi Puji Astuti, Tira Mutiara, Woro Indriyani, Agus Umriadi, dan Elenur Dwi Anbiana, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini.

5 Fulsi Wiyata yang senantiasa memberikan semangat dan doa kepada penulis.

6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Juli 2012

(6)

RIWAYAT HIDUP

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL... 2

DAFTAR GAMBAR ... 2

DAFTAR LAMPIRAN ... 2

PENDAHULUAN

Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

METODE PENELITIAN

Indexing ... 1

Ukuran Kemiripan (similarity) ... 2

Top N Dokumen... 2

Pemilihan Kata ... 2

Hitung Relevansi Kata ... 3

Formulasi Kueri ... 3

Evaluasi Hasil ... 3

Lingkungan Implementasi ... 3

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian ... 3

Pemrosesan Dokumen ... 4

Indexing ... 4

Ukuran Kesamaan (Similarity) ... 5

Pemilihan Kata ... 5

Formulasi Kueri ... 5

Pengujian Kinerja Sistem ... 5

SIMPULAN DAN SARAN

Simpulan ... 8

Saran ... 8

DAFTAR PUSTAKA ... 8

(8)

DAFTAR TABEL

Halaman

1 Perhitungan recall-precision ... 3

2 Deskripsi dokumen pengujian ... 4

3 Perbandingan nilai AVP untuk setiap panjang kueri ... 7

4 Perbandingan nilai AVP untuk kedua jenis operator ... 7

DAFTAR GAMBAR

Halaman 1 Metode penelitian. ... 2

2 Contoh dokumen pertanian. ... 4

3 Konfigurasi dokumen pertanian pada Sphinx. ... 4

4 Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian. ... 6

5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian... 6

6 Grafik R-P untuk pengambilan tiga dokumen teratas pada dokumen pertanian. ... 6

7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi. ... 7

DAFTAR LAMPIRAN

Halaman 1 Antarmuka implementasi ... 10

2 Gugus kueri dan jawaban untuk dokumen pertanian ... 11

3 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat satu teratas ... 17

4 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat dua teratas ... 18

5 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat tiga teratas ... 19

6 Tabel kinerja perluasan kueri satu kata ... 20

7 Tabel kinerja perluasan kueri dua kata ... 22

8 Tabel lima term yang dipilih setiap kueri uji ... 24

9 Tabel kinerja sistem DTF menggunakan formulasi OR ... 25

(9)

PENDAHULUAN

Latar Belakang

Sistem temu-kembali informasi merupakan suatu sistem yang dapat membantu seseorang dalam menemukan informasi yang dibutuhkan. Tidak semua pengguna dapat memberikan kueri yang tepat pada saat mencari sebuah informasi yang dibutuhkan. Hal ini terjadi karena pengguna tidak pernah mengetahui isi dari korpus pada mesin pencari, sebaliknya mesin pencari juga tidak pernah mengetahui kebutuhan dari pengguna. Oleh karena itu, digunakan teknik untuk merekonstruksi kueri yaitu pseudo-relevance feedback. Kueri yang diberikan pengguna selanjutnya dimodifikasi untuk meningkatkan kinerja mesin pencari.

Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal secara otomatis (teknik relevance feedback tanpa

input eksplisit pengguna). Teknik ini mengekstrak terms dari dokumen peringkat teratas (diasumsikan bahwa dokumen peringkat teratas dianggap relevan) untuk memformulasikan sebuah kueri baru pada temu-kembali selanjutnya.

Anbiana (2009) telah melakukan penelitian menggunakan segmentasi dokumen untuk memperbaiki kueri. Akan tetapi karena ukuran segmen yang relatif besar maka terlalu banyak kata yang dipilih untuk memperbaiki kueri sehingga kinerja sistem kurang baik. Indriyani (2011) menyempurnakan penelitian Anbiana (2009) dengan menggunakan segmentasi kalimat. Hal ini dilakukan untuk memperkecil ukuran segmen yang besar pada penelitian Anbiana untuk meningkatkan kinerja sistem. Metode ekspansi kueri lain yang diharapkan bisa lebih meningkatkan kinerja sistem temu kembali adalah ekspansi kueri yang telah dilakukan oleh Pancawan (2012) mengenai ekspansi kueri dengan tesaurus dan bobot irisan. Tesaurus merupakan kumpulan kata-kata yang memiliki keterkaitan makna satu dengan lainnya seperti sinonim dan antonim.

Hal ini menunjukkan bahwa metode ekspansi kueri yang telah dilakukan sebelumnya belum melibatkan pengguna secara langsung dalam menentukan formulasi kueri baru yang memuaskan pengguna. Tan et al.(2007) mengimplementasikan metode

direct term feedback menggunakan model

bahasa untuk mengekspansi kueri. Direct term feedback (DTF) dilakukan dengan melibatkan pengguna secara langsung untuk memilih beberapa term/kata relevan atau tidak relevan dari daftar kandidat kata kueri yang sesuai dengan tujuan dapat meningkatkan tingkat relevansi suatu dokumen yang diperoleh.

Oleh karena itu, penelitian ini mengimplementasikan metode Direct Term Feedback untuk melakukan ekspansi kueri pada mesin pencari kueri dokumen berbahasa Indonesia.

Tujuan

Tujuan dari penelitian ini adalah mengimplementasikan ekspansi kueri dengan metode direct term feedback menggunakan model bahasa.

Ruang Lingkup

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. Kesalahan pengetikan di dalam korpus tidak diperhatikan. Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di laboratorium TKI. Pemilihan kata yang digunakan pada pengujian dilakukan berdasarkan justifikasi penulis.

METODE PENELITIAN

Penelitian ini dilaksanakan dalam beberapa tahap seperti yang diilustrasikan pada Gambar 1.

Indexing

Pada tahap ini, korpus yang ada akan melalui proses indexing, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Pemrosesan indexing dilakukan secara otomatis menggunakan Sphinx. Proses tokenisasi bertujuan mendapatkan token atau kata unik dari seluruh koleksi dokumen yang sudah dipisahkan dari karakter pemisah, seperti titik, koma, dan whitespace. Proses tokenisasi diikuti dengan proses pembuangan

stopwords. Proses pembuangan stopwords

dilakukan dengan cara mencocokkan token

hasil tokenisasi dengan kata-kata yang ada dalam stoplist. Apabila token tersebut ada di dalam stoplist, token akan dihapus. Proses

indexing akan menghasilkan matriks term -dokumen. Kueri yang dimasukkan oleh pengguna juga akan melalui proses indexing

(10)

hasil dari matriks term-dokumen dan matriks kueri tersebut akan digunakan pada proses ukuran kemiripan.

Ukuran Kemiripan (similarity)

Setelah dilakukan proses ekstraksi ciri pada tahap indexing, tahap selanjutnya ialah mengukur kemiripan suatu dokumen terhadap kueri yang dimasukkan. Ukuran kemiripan dokumen dengan kueri menggunakan ukuran kemiripan default Sphinx, yaitu SPH_RANK_PROXIMITY_BM25. Adapun

pseudocode metode pemeringkatan proximity

BM25 ialah sebagai berikut: 1 doc_phrase_weight = 0

2 foreach ( field in matching_fields)

3 {

4 field_phrase_weight =

5 max_common_subsequence_length

6 (query, field )

7 doc_phrase_weight += user_weight

8 ( field ) * field_phrase_weight

9 }

10

11 BM25 = 0

12 foreach (keyword in matching_keywords )

13 {

14 n =

total_matching_documents(keyword)

15 N = total_documents_in_collection

16 k1 = 1.2

17 TF =

current_document_occurrence_count( keyword )

18 IDF = log((N-n+1)/n) / log(1+N)

19 BM25 = BM25 + TF*IDF/(TF+k1)

20 }

21 // normalize to 0..1 range

22 BM25 = 0.5 + BM25 /( 2*num_keywords ( query ) )

23 //SPH_RANK_PROXIMITY_BM25

24 weight = doc_phrase_weight*1000 + integer(doc_bm25*999)

Hasil similarity yang semakin tinggi menunjukkan bahwa dokumen tersebut memiliki tingkat kemiripan yang besar dari kueri yang dimasukkan, sedangkan hasil

ukuran similarity yang rendah menunjukkan bahwa kemiripan suatu dokumen terhadap kueri adalah kecil.

Top N Dokumen

Pada tahap ini, top N dokumen diperoleh setelah proses ukuran kemiripan yang dilakukan pada tahap sebelumnya. Top N

dokumen dianggap sebagai dokumen yang relevan dan selainnya dianggap tidak relevan.

Pemilihan Kata

Pada top N dokumen yang telah terpilih, selanjutnya dilakukan proses pemilihan kata untuk ditampilkan kepada pengguna agar dinilai relevansinya.

Proses pemilihan kata yang ditampilkan dilakukan dengan menggunakan formula:

i|qj =

dokumen men andun i dan qj

dokumen an men andun qj …(1)

Information Retrieval Indexing dokumen Direct Term Pemrosesan Kueri kueri Similarity formulasi kueri Evaluasi Pemilihan Kata Hitung relevansi kata Top N Dokumen

DTF tidak korpus Ekstraksi ciri ya Ekstraksi ciri

(11)

p i|qj adalah peluang kata i dalam dokumen setelah qj diketahui (Adisantoso 1996).

Hitung Relevansi Kata

Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan oleh pengguna. Pada setiap kata, akan dilakukan penilaian dengan menggunakan formula sebagai berikut:

p q c q

q … 2) q adalah model kueri perbaikan, R

={ }: adalah variabel indikator, nilai yang digunakan pada penelitian ini bernilai 1, ∑ adalah total kata yang dinilai relevan.

Setiap kata yang dinilai relevan akan diberikan penilaian menggunakan formula(2) dengan memberikan nilai adalah 1 dan setiap kata yang dianggap tidak relevan diberikan nilai adalah 0. Hasil perhitungan tersebut akan digunakan untuk modifikasi kueri awal.

Formulasi Kueri

Formulasi kueri baru dilakukan untuk memperbaiki hasil temu-kembali, yaitu dapat menggeser dokumen relevan ke atas dan dokumen yang tidak relevan ke bawah.

Kata dengan peluang tertinggi yang merupakan term dari hasil feedback pengguna digunakan untuk merumuskan kueri baru yang diformulasikan sebagai berikut:

q q A q … 3)

adalah formulasi kueri baru, q adalah formulasi kueri awal, dan q adalah kueri dari perhitungan peluang term feedback dari penilaian pengguna. Kueri baru yang telah diformulasikan digunakan dalam proses temu kembali selanjutnya.

Evaluasi Hasil

Pada proses evaluasi hasil similarity, dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision pada Tabel 1 untuk menentukan tingkat keefektifan proses temu-kembali. Average precision

(AVP) dihitung berdasarkan 11 standard recalllevels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza-Yates & Ribeiro-Neto 1999).

Tabel 1 Perhitungan recall-precision

Recall-precision didefinisikan sebagai berikut:

Precision = P = tp/(tp + fp)…. 4)

Recall = R = tp/(tp+fn) ….. 5) Perhitungan AVP dapat diformulasikan sebagai berikut:

̅(rj) ∑ i r q q

i …. 6)

̅(rj) adalah AVP pada level recall r, Nq

adalah jumlah kueri yang digunakan, dan Pi(r)

adalah precision pada level recall r untuk kueri ke-i.

Lingkungan Implementasi

Lingkungan implementasi yang digunakan adalah sebagai berikut:

Perangkat lunak:

 Sistem operasi Windows 7 Ultimate sebagai sistem operasi,

 PHP sebagai bahasa pemrograman.

Sphinx Search sebagai platform untuk pencarian berbasis teks,

 Wamp Server Apache version 2.5 sebagai

web server,

Notepad++ sebagai editor, dan

 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras:

Processor Intel Core 2 Duo 1,66GHz

 RAM 2 GB

Harddisk dengan kapasitas 120 GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Penelitian ini menggunakan 2095 dokumen yang ada di Laboratorium Temu Kembali. Deskripsi dari dokumen ini dapat dilihat pada Tabel 2.

Relevant Not Relevant

Retrieved tp fp

Not

(12)

Tabel 2 Deskripsi dokumen pengujian Uraian Dokumen Pertanian Nilai (byte) Ukuran keseluruhan dokumen 6 568 124 Ukuran rata-rata dokumen 3 135 Ukuran dokumen terbesar 52 955 Ukuran dokumen terkecil 412

Dokumen pertanian tersebut dikelompokkan ke dalam tag-tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

 <TITLE></TITLE>, menunjukkan judul berita.

 <AUTHOR></AUTHOR>, menunjukkan penulis dari berita tersebut.

 <TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

Contoh salah satu dokumen pertanian yang digunakan tercantum pada Gambar 2.

Gambar 2 Contoh dokumen pertanian.

Pemrosesan Dokumen

Tahapan awal yang dilakukan pada penelitian ini adalah tahap pemrosesan dokumen dengan Sphinx. Pada tahap awal dilakukan proses konfigurasi dokumen. Cuplikan konfigurasi untuk dokumen pertanian tercantum pada Gambar 3.

Penjelasan untuk konfigurasi yang digunakan pada Sphinx yaitu:

 source = srcxml, konfigurasi untuk menandakan bahwa sumber yang

digunakan atau file yang akan diindeks berupa file dengan format XML.

 path=c:/DTF/data/test2, konfigurasi untuk mengatur lokasi file hasil indexing

disimpan.

Gambar 3 Konfigurasi dokumen pertanian pada Sphinx.

 docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini, konfigurasi extern menunjukkan bahwa hasil indexing akan disimpan dalam file terpisah dengan nama

file yang sama.

 min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks, yaitu minimal 3 karakter.

 charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan, yaitu utf-8.

 enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks.

 html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag.

 Stopwords=c:/DTF/data/StopWords.txt, konfigurasi untuk eliminasi kata buangan. Indexing

Proses indexing dilakukan dengan beberapa proses, yaitu tokenisasi, pembuangan stopwords, dan pembobotan kata. Proses tokenisasi dilakukan untuk mendapatkan kata token atau kata unik dari seluruh dokumen. Proses tokenisasi diikuti dengan proses pembuangan stopwords. Pembuangan stopwords adalah proses untuk membuang token atau kata yang dianggap kurang memiliki arti dan tidak tepat untuk <DOC>

<DOCNO> situshijau07</DOCNO> <TITLE Temulawak untuk Gangguan Hati </TITLE>

<AUTHOR> dtk</AUTHOR> <TEXT>

Gunakan ramuan temulawak untuk mengobati gangguan pada hati.

…… </TEXT> </DOC>

index test2 {

source = srcxml

path = c:/DTF/data/test2 docinfo = extern min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0 stopwords =

(13)

dijadikan penciri suatu dokumen, seperti kata sambung, kata depan, atau kata singkatan.

Hasil proses indexing menghasilkan matriks term-dokumen dan proses indexing

juga dilakukan pada kueri yang dimasukkan oleh pengguna yang menghasilkan matriks kueri yang akan digunakan pada tahap ukuran kesamaan.

Ukuran Kesamaan (Similarity)

Pada tahap ini, setelah terbentuknya matriks term-dokumen dan matriks term -kueri, dilakukan ukuran kesamaan antara kueri dokumen untuk mengetahui dokumen yang memiliki similarity tertinggi terhadap kueri yang dimasukkan. Dokumen yang memiliki similarity tertinggi akan berada pada peringkat teratas. Ukuran kesamaan yang digunakan pada penelitian ini ialah ukuran kesamaan default SpinxSearch, yaitu SPH_RANK_PROXIMITY_BM25. Urutan dokumen yang ditampilkan sesuai dengan kemiripan antara suatu dokumen dan kueri yang diberikan menggunakan mode SPH_SORT_RELEVANCE pada Sphinx yang merupakan urutan dokumen default pada Sphinx.

Pada tahap ini, diperoleh n dokumen teratas dari hasil pencarian dan diambil konten/isi dari dokumen format XML yang merupakan dokumen dengan kemiripan tertinggi dengan kueri. Informasi lain dalam dokumen tersebut seperti id dokumen, tanggal, judul, dan nama pengarang tidak disertakan.

Pemilihan Kata

Hasil top n tersebut kemudian diambil dan digunakan untuk proses pemilihan kata yang akan ditampilkan kepada pengguna untuk dinilai relevansinya. Top n dokumen yang didapat kemudian dipecah menjadi term/kata yang sudah dilakukan pembuangan stopword. Untuk setiap term tersebut, kemudian dilakukan perhitungan peluang kata pada dokumen menggunakan formula (1).

Proses perhitungan tersebut dilakukan untuk melihat peluang kemunculan kata pada dokumen. Setelah diperoleh nilai dari setiap

term, term tersebut diurutkan dari peluang terbesar ke peluang terkecil. N term peluang terbesar akan ditampilkan kepada pengguna untuk dinilai relevansinya.

Formulasi Kueri

Proses formulasi kueri ini dilakukan dengan melihat term yang dinilai relevan dan tidak relevan oleh pengguna. Pada hasil dari proses penilaian relevansi tersebut, kemudian dilakukan perhitungan dengan menggunakan metode DTF persamaan (2) untuk setiap term

yang dinilai relevan dan tidak relevan oleh pengguna.

Hasil yang diperoleh dari masing-masing

term akan diurutkan dari nilai terbesar ke terkecil dan term dengan nilai terbesar digunakan untuk formulasi kueri baru menggunakan operator AND persamaan (3).

Pengujian Kinerja Sistem

Proses evaluasi dalam penelitian ini dilakukan pada koleksi dokumen pertanian. Proses evaluasi pada dokumen pertanian menggunakan 20 kueri uji yang telah ada sebelumnya berikut dokumen-dokumen yang relevan (Lampiran 2). Metode pemilihan kata yang digunakan untuk pengujian sistem dilakukan secara acak dan sesuai menurut penulis berdasrkan kueri yang dimasukkan. Proses evaluasi dilakukan dengan menghitung

recall-precision dari masing-masing kueri uji menggunakan source code yang telah dibuat oleh Rahayuni (2011) dan dimodifikasi oleh penulis.

Dokumen Relevan

Pseudo-relevance feedback (PRF) merupakan teknik analisis lokal yang menganggap n dokumen teratas sebagai dokumen yang relevan. Evaluasi PRF dengan mengambil dokumen peringkat 1, 2, dan 3 teratas dilakukan untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas. Gambar 4 mengilustrasikan pengambilan satu dokumen teratas (Lampiran 3). Kondisi pengambilan satu dokumen teratas menghasilkan nilai average precision (AVP) sebesar 0.3214. Hal ini menunjukkan bahwa kondisi pencarian dengan satu dokumen teratas memiliki tingkat relevansi sebesar 32%.

(14)

Gambar 4 Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian.

Gambar 5 Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian.

Gambar 6 Grafik R-P untuk pengambilan tiga dokumen teratas pada

dokumen pertanian.

Gambar 6 menunjukkan kinerja pencarian dengan pengambilan tiga dokumen teratas (Lampiran 5). Pada kondisi pencarian dengan pengambilan tiga dokumen teratas, didapatkan nilai AVP yang lebih besar dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas, yaitu sebesar 0.3582 atau sebesar 35%.

Hasil pengujian menunjukkan bahwa pengambilan top n tertinggi diperoleh pada pengambilan tiga dokumen teratas. Hal ini disebabkan pengambilan tiga dokumen teratas memiliki dokumen dengan kata yang lebih beragam dan memiliki kata yang lebih relevan untuk dinilai relevansinya oleh pengguna jika dibandingkan dengan pengambilan satu dokumen teratas dan dua dokumen teratas. Pengambilan tiga dokumen teratas memiliki nilai AVP lebih lebih tinggi dibandingkan dengan dokumen satu teratas dan dua dokumen teratas yaitu sebesar 35%. Hal ini disebabkan banyaknya dokumen yang terambil menyebabkan banyaknya kata-kata yang lebih beragam dan lebih relevan untuk dinilai relevansinya oleh pengguna sehingga nilai AVP pada tiga dokumen teratas lebih baik jika dibandingkan dengan dua dokumen teratas lainnya.

Panjang Kueri

Panjang kueri diduga akan mempengaruhi kinerja perluasan kueri. Dalam penelitian ini, digunakan dua kelompok kueri, yaitu kueri dengan panjang tiga dan empat kata. Kueri uji yang berjumlah dua puluh dipisahkan menjadi dua kelompok sesuai dengan panjang kata. Kelompok pertama untuk kueri dengan panjang tiga kata sebanyak sepuluh kueri dan kelompok kedua untuk kueri dengan panjang empat kata sebanyak sepuluh kueri. Kedua kelompok kueri tersebut selanjutnya diekspansi atau diperluas dengan menambahkan satu kata ekspansi dan dua kata ekspansi. Pemilihan kata yang digunakan untuk masing-masing kueri uji dilakukan secara acak dengan memperhatikan kesesuaian kata dengan kueri berdasarkan kesesuaian menurut penulis.

Tabel 3 mengilustrasikan perbandingan nilai AVP untuk setiap kelompok kueri yang diperluas dengan satu kata (Lampiran 6) dan dua kata (Lampiran 7). Ekspansi kueri untuk setiap kelompok dilakukan dengan mengambil tiga dokumen teratas.

(15)

Tabel 3 Perbandingan nilai AVP untuk setiap panjang kueri Panjang Kueri Ekspansi Satu Kata Ekspansi Dua Kata

3 Kata 0.19378 0.18195

4 Kata 0.49274 0.46042

Pada Tabel 3, terlihat bahwa nilai AVP tertinggi untuk ekspansi kueri berada pada saat ekspansi kueri satu kata untuk masing-masing panjang kueri. Hal ini menyatakan bahwa perluasan kueri satu kata membuat kinerja sistem lebih baik dibanding perluasan kueri dua kata karena perluasan kueri yang semakin banyak akan membuat kueri menjadi tidak lebih baik untuk dilakukan proses ekspansi. Pada Tabel 3, terlihat bahwa nilai AVP tertinggi berada pada saat ekspansi kueri satu kata dengan panjang kueri empat kata yaitu sebesar 49%.

Pemilihan Term

Pada pengukuran kinerja sistem ini, pemilihan term untuk masing-masing kueri uji dilakukan secara acak dan banyaknya term

yang dipilih untuk setiap kueri uji sebanyak lima term (Lampiran 8). Hal ini disebabkan kinerja sistem pada DTF menghasilkan nilai ekspansi paling bagus untuk ekspansi penambahan satu kata yang menyebabkan berapapun banyaknya term yang dipilih maka untuk proses ekspansi kueri hanya dilakukan perluasan ekspansi satu kata untuk masing-masing kueri. Kelima kata tersebut dipilih secara acak dan dilakukan dengan mempertimbangkan sesuai atau tidaknya kata tersebut menurut penulis. Semakin kata tersebut relevan terhadap kueri, hasil ekspansi kueri akan semakin lebih baik. Pada kinerja sistem ini, kandidat kata yang memiliki kesesuaian yang baik dengan kueri uji adalah pada saat pengambilan tiga dokumen teratas. Hal ini terlihat pada nilai AVP yang lebih besar dibandingkan dengan satu dokumen dan dua dokumen teratas.

Formulasi Kueri

Pengukuran formulasi kueri pada kinerja sistem dibagi menjadi dua kelompok, yaitu pengujian dengan melakukan formulasi kueri menggunakan operator AND (Lampiran 1) dan pengujian dengan melakukan formulasi kueri menggunakan operator OR (Lampiran 9). Tabel 4 mengilustrasikan perbandingan

nilai AVP untuk setiap kelompok formulasi kueri yang digunakan.

Tabel 4 Perbandingan nilai AVP untuk kedua jenis operator

Top n dokumen OR AND

top 1 0.1418 0.3214

top 2 0.1498 0.3230

top 3 0.1568 0.3582

Pada Tabel 4, terlihat bahwa nilai AVP terbesar untuk setiap pengambilan top n

dokumen pada formulasi kueri menggunakan operator AND dengan nilai tertinggi berada pada pengambilan tiga dokumen teratas. Formulasi kueri menggunakan operator AND menemukembalikan dokumen dalam jumlah yang lebih sedikit dibandingkan dengan formulasi kueri menggunakan operator OR.

Akan tetapi, dokumen yang

ditemukembalikan pada formulasi operator AND lebih relevan, sedangkan untuk operator OR meskipun menemukembalikan dokumen lebih banyak, tidak semua dokumen yang di temukembalikan adalah relevan sehingga nilai AVP menggunakan formulasi AND lebih baik dibandingkan dengan formulasi OR.

Kinerja DTF

Gambar 7 menunjukkan perbandingan kinerja sistem DTF dengan ekspansi kueri dan DTF tanpa ekspansi.

Gambar 7 Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi.

Nilai AVP untuk sistem DTF tanpa ekspansi kueri yaitu 0.3033 (Lampiran 10), sedangkan sistem DTF dengan ekspansi kueri memiliki nilai AVP yang lebih besar, yaitu

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 0 .0 0 0 .1 0 0 .2 0 0 .3 0 0 .4 0 0 .5 0 0 .6 0 0 .7 0 0 .8 0 0 .9 0 1 .0 0 p rec is io n recall

(16)

0.3582. Hasil uji menunjukkan kinerja sistem DTF dengan ekspansi kueri lebih baik dengan DTF tanpa ekspansi. Hal ini disebabkan oleh adanya keterlibatan pengguna dalam menentukan kata yang akan digunakan untuk perluasan kueri sehingga menghasilkan dokumen yang lebih relevan dan menunjukkan kinerja sistem DTF dengan ekspansi lebih baik dibanding tanpa ekspansi.

SIMPULAN DAN SARAN

Simpulan

Hasil penelitian ini menunjukkan bahwa: 1 Ekspansi kueri pada dokumen yang

homogen kemungkinan kandidat kata yang ditampilkan untuk proses ekspansi cenderung sama.

2 Ekspansi kueri menemukembalikan dokumen yang lebih relevan.

3 Kinerja perluasan kueri optimal pada kondisi pengambilan tiga dokumen teratas. 4 Keterlibatan pengguna dalam ekspansi kueri membuat hasil temu kembali menjadi lebih relevan.

5 Kinerja sistem dengan DTF ekspansi lebih baik dibandingkan dengan kinerja DTF tanpa ekspansi kueri.

6 Kinerja sistem yang didapat sudah cukup baik, yaitu 35%.

Saran

Saran pada penelitian ini yaitu:

1 Penghilangan kesalahan penulisan pada dokumen uji diperbaiki sehingga kinerja dari ekspansi kueri menjadi lebih baik. 2 Perlunya penentuan stopword yang

dilakukan secara otomatis, sehingga term

yang ditampilkan untuk dinilai relevansinya menjadi lebih baik.

3 Penggunaan koleksi dokumen yang lebih banyak dan topiknya bervariasi akan memberikan perbedaan pada saat memilih kandidat kata.

DAFTAR PUSTAKA

Adisantoso J. 1996. Pendekatan kuantitatif untuk penelusuran informasi. Forum Statistika dan Komputasi 2(1):24-29. Anbiana ED. 2009. Pseudo-relevance

feedback pada temu-kembali menggunakan segmentasi dokumen [skripsi]. Bogor: Fakultas Matematika dan

Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. New York: Addison Wesley.

Indriyani W. 2011. Pseudo-relevance feedback pada temu-kembali menggunakan segmentasi kalimat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Pancawan MR. 2012. Ekspansi kueri pada sistem temu kembali informasi dengan tesaurus dan bobot irisan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Rahayuni N. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa indonesia menggunakan Thesaurus

[skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Tan B, Velivelli A, Fang H, Zhai CX. 2007. Term feedback for information retrieval with language models. Di dalam:

(17)
(18)
(19)

Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian

Kueri Dokumen Relavan

nilai jual komoditas rendah

balipost030608, BisnisIndonesia22022001, gatra030408, indosiar071103, indosiar190504-002, indosiar240604, indosiar300304, indosiar300703-002, jurnalHorti113, kompas030502-indosiar300703-002, kompas031100, kompas101004, kompas161000, kompas171002, kompas200803, kompas240803,

kompas250901, kompas270203-001, kompas270502-001,

kompas300502-001, mediaindonesia060803, mediaindonesia170303, mediaindonesia250304, mediaindonesia310503, okezone20022008, panturanews220611, pertaniansehat21042008, pertaniansehat31122007-03, pikiranrakyat21042010, pikiranrakyat240404, pikiranrakyat300604, poskota000000-003, republika020804, republika05052010,

republika060503, republika060804-001, republika060804-003, republika140503, republika211208-049, republika240604-005, republika241008-042, republika300704-002, situshijau15, situshijau181103-001, situshijau280203, situshijau280404-001, situshijau280404-002, situshijau280404-003, suarakarya000000-021, suarakarya000000-025, suaramerdeka000000-001, suaramerdeka290303, suarapembaruan110903, suarapembaruan290802-001

persediaan padi memadai

antarajawabarat211211, beritasore080711, bisnis_jabar191211, bisnisindonesia140911, deptan28052008, eksposnews161211,

gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911, harian_aceh291011, incestordaily310711,

indosiar221003, indosiar240703, kbrh211111, kompas160704,

kompas221011, kompas260711, korankaltim260811, malukunews090811, mediaindonesia231111, menkokesra71211, okezone080711,

okezone130711, okezone31701, poskota000000-001, radarbangka040811, republika061102, republika100704-003, republika180504-002,

republika210704-001, republika290604-007, sinartani1075,

suaramerdeka090911, suaramerdeka170602, tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711, vivanews122111, vivanews190911

sawah hancur terendam air

gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104, indosiar021203-001, indosiar031203, indosiar050704-002,

indosiar130104, indosiar130504, indosiar140204, indosiar160304, indosiar180304, kompas170504, kompas210403, mediaindonesia050604-001, mediaindonesia130210, mediaindonesia140203,

mediaindonesia170209, mediaindonesia180110, mediaindonesia200110, okezone03032010, okezone12112007, okezone17012008,

okezone20022008, pertaniansehat21042008, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat21052010-02,

pikiranrakyat23042010, radarbogor020110, situshijau280404-002, suarakarya000000-011, suarakarya000000-015, suaramerdeka251001, surabayapost29010, tempointeraktif160209-060

sawah kering kekurangan air

deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704, gatra270709, gatra301002, gatra301002-01, gatra310709, indosiar010903, indosiar040903, indosiar170603, indosiar180304, indosiar220503, indosiar240703, indosiar260803-001, indosiar260803-003,

indosiar310504, kompas030704, korantempo3, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603,

mediaindonesia210709, mediaindonesia240503, mediaindonesia300909, mediaindonesia310503, okezone01062008, okezone13062008,

(20)

Lanjutan

Kueri Dokumen Relavan

republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika230903, republika270503, republika270704-002, republika290604-007,

002-01, 002-02, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suaramerdeka290901, suarapembaruan110903, suarapembaruan190809, suarapembaruan260703-001, suarapembaruan260703-002, tempointeraktif081008-061

area pertanian semakin berkurang

balipost050908, balipost301208, deptan28052008-1, deptan31072007, gatra100509, gatra230503, jurnal000000-004, kompas020603, kompas030403, kompas031100, kompas101001, kompas120702, kompas130603-001, kompas150104, kompas170504, kompas170903, kompas171002, kompas180303, kompas181202, kompas220399, kompas230899, kompas240503, kompas260203, kompas270203-002, kompas270502-001, kompas290404, kompas290508, kompas290803, kompas310703, korantempo3, mediaindonesia010310,

mediaindonesia021109-2, mediaindonesia050104, mediaindonesia050709, mediaindonesia120609, mediaindonesia170210, mediaindonesia180210, mediaindonesia180210-2, mediaindonesia191209, mediaindonesia230104, mediaindonesia281109, mediaindonesia301009, okezone16092009, okezone24012008, okezone24012010, republika030304, republika060804-004, republika080703, republika090902, republika110604-002,

republika120803, republika130804-02, republika150704-004, republika170604-003, republika170704-004, republika190309-011, republika230704-003, republika240604-005, republika241203, republika291008-040, satudunia21102009, situshijau281003-004, suarakarya000000-002-02, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan040603, suarapembaruan060602, sumutpos26052010, tempo251211, tempointeraktif110210-030, tempointeraktif120707-050, tempointeraktif160207-025, tempointeraktif181108-065,

tempointeraktif231203-029, tempointeraktif231203-078, tempointeraktif240804-017

tarif humus tinggi

harianhaluan291111, indosiar060204, indosiar240604, indosiar270504, indosiar290604, kbr68h041211, kompas100901, kompas110302, kompas210504, kompas211211, kompas241203, kompas270502-002, kompas300502-001, liputan6_100611, mamorema01, metrotvnews221111, okezone27112008, panturanews220611, pertaniansehat09072008,

pikiranrakyat010504-003, pikiranrakyat05042010, pikiranrakyat05052010, republika160703, situshijau15, suarakarya000000-001-02,

suarakarya000000-002, suarakarya000000-025, suarakarya000000-029, suarakarya000000-030, suaramerdeka161101, waspada120611

upaya peningkatan produksi pertanian

deptan11062008, deptan14082007, deptan14112007, deptan18022010, deptan22022008, deptan25022008, deptan25022008-1, deptan29072009, deptan31032008, deptan31072007, gatra050508, gatra060206, gatra080102, gatra121108, gatra200103, gatra220604, gatra240203, gatra260408, indosiar030304, indosiar150104-002, indosiar180304, jurnalHorti210, jurnal000000-005, jurnal000000-013, jurnalHorti1, jurnalHorti87, kompas031100, kompas160704, kompas200802, kompas210502, kompas230209, kompas240103, kompas240302, kompas280502, kompas300502-002, kompas310703, kompas311203, kompas311203-2, mediaindonesia020809, mediaindonesia021209, mediaindonesia080210, mediaindonesia091109, mediaindonesia120604-002,

(21)

Lanjutan

Kueri Dokumen Relavan

okezone12072009, okezone26042008, okezone27112008,

pertaniansehat09012008, pertaniansehat21042008, pertaniansehat31122007, republika010704-003, republika040303, republika050803,

republika050903, republika09042010, republika100210-001, republika100210-030, republika100309-031, republika100902, republika110604-003, republika120804-02, republika120804-03, republika140109-047, republika140703, republika150703, republika150903, republika151202, republika170704-006, republika230704-08, republika230902-001, republika230902-002, republika230903, republika240604-005, republika241203, republika260604-001, republika260803, republika290604-007, republika301002, republika310109-017, republika311002-001, republika311002-002, situshijau070103-002, situshijau070503, situshijau140103-001, situshijau180803-001, situshijau200103-001, situshijau281003-004, situshijau290403-002, situshijau310303-No, suarakarya000000-011, suarakarya000000-016, suarakarya000000-028, suarakarya000000-037, suaramerdeka071102, suaramerdeka120104, suaramerdeka190903, suarapembaruan130103, suarapembaruan140303, suarapembaruan220802, suarapembaruan290802-001, surabayapost020210, surabayapost070110, tempointeraktif051103-021, tempointeraktif160209-060, tempointeraktif160210-020, tempointeraktif160210-075,

tempointeraktif2000608-026, tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609-055, wartapenelitian000000-003

produk asing murah

analisdaiy211011, indosiar300703-002, kompas100702, kompas101002, kompas131211, kompas170104, kompas180502, kompas250901, kompas270203-002, kompas280602, lampungpost201011, mediaindonesia060803, mediaindonesia170303, okezone210111, poskota000000-003, republika060503, suaramerdeka130104, suarapembaruan100903, suarapembaruan110903, tempo141011

produksi pertanian menurun

deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103, gatra220802, gatra220802-01, gatra240203, indosiar010504,

indosiar010803, indosiar270504, kompas030403, kompas050303, kompas060503, kompas120102, kompas170402, kompas171002, kompas180303, kompas211211, kompas240103, kompas260902, kompas270203-001, kompas270401, kompas270502-001,

mediaindonesia050709, mediaindonesia090409, mediaindonesia131209-2, mediaindonesia281109, mediaindonesia300909, okezone09012008, pikiranrakyat020804-001, pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002, republika010704-005, republika030903-002,

republika110604-002, republika130804-02, republika170908-027, republika201102, republika231202-001, republika241203, republika281202, situshijau030603-002, situshijau140503-001, situshijau180603-001, situshijau280203, suarakarya000000-001-01, suaramerdeka290901, suarapembaruan290803, surabayapost020310, tempointeraktif081008-061, tempointeraktif110210-030,

(22)

Lanjutan

Kueri Dokumen Relavan

produktivitas pertanian rendah

balipost301208, deptan18042007, deptan22022008, deptan23072008, gatra010307, gatra180103, gatra240203, indosiar180304, jurnal000000-001, jurnal000000-013, kompas030403, kompas091003, kompas101004,

kompas110302, kompas140802, kompas171208, kompas180701,

kompas220399, kompas270203-001, kompas270203-002, kompas270401, kompas280602, mediaindonesia050709, mediaindonesia090409,

mediaindonesia190210, mediaindonesia220303, mediaindonesia250304, mediaindonesia250809, mediaindonesia301009, okezone09012008, okezone24012008, okezone24012010, okezone280111,

pertaniansehat12062008, pertaniansehat28022008-01,

pikiranrakyat09052010, republika020604-001, republika140109-047, republika150703, republika151202, republika220604-003,

republika241008-042, republika311002-001, republika311002-002, seputarindonesia16052010, situshijau070103-002, situshijau101103-004, situshijau130203-002, situshijau130303-001, situshijau180803-001, situshijau190303-002, situshijau200103-001, situshijau240203-001, situshijau280203, situshijau281003-004, situshijau281003-005,

situshijau310303-No, suarakarya000000-028, tempointeraktif300108-022

petani sulit mendapatkan humus

banjarmasinpost181211, gatra230609, harianhaluan291111,

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar290604, kompas210504, kompas211211, kompas300502-001, liputan6_100611, mamorema01, mediaindonesia211211,

metrotvnews221111, okezone27112008, pertaniansehat09072008, pertaniansehat30032008, pikiranrakyat010504-003, republika050604, republika160604-001, republika190504-002, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-031, suarakarya000000-038, suaramerdeka161101, surya121111, tribunnews51011, waspada120611

sawah rusak berat

gatra030706, gatra040108, gatra060907, gatra070203, gatra120210, gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002, gatra301002-01, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar240703, indosiar260803-001, kompas170504, kompas260902, mediaindonesia030603, mediaindonesia050204, mediaindonesia050604-001, mediaindonesia110309,

mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2, mediaindonesia140203, mediaindonesia160603, mediaindonesia170209, mediaindonesia190503, okezone01062008, okezone12112007,

okezone17012008, okezone20022008, okezone26052009,

pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010, pikiranrakyat21052010-01, pikiranrakyat23042010, pikiranrakyat25052010, radarbogor050608, republika010704-005, republika030903-001,

republika030903-002, republika07052010, republika130804-02, republika200603, republika230903, republika25052010-01, republika29042010, situshijau110303-002, situshijau280404-002, suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suaramerdeka190903, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002, surabayapost100210,

(23)

Lanjutan

Kueri Dokumen Relavan

mutu hasil pertanian rendah

Deptan04122009, gatra011102, gatra180103, indosiar150104-002, jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303, kompas100702, kompas101002, kompas161000, kompas180502, kompas220801, kompas290404, mediaindonesia030104,

mediaindonesia170403, pikiranrakyat21042010, republika05052010, republika140109-047, republika150604-001, republika211208-049, situshijau01, situshijau030203-002, situshijau070103-002,

situshijau080503-004, situshijau110603-001, situshijau15,

situshijau240203-002, situshijau280404-002, situshijau281003-005, suarakarya000000-013, suaramerdeka000000-001, suarapembaruan100903

produksi pertanian meningkat

deptan01072008, deptan01092008, deptan03112009, deptan04032008, deptan04082008, deptan04112008, deptan14072008, deptan14112007, deptan19012009, deptan20102008, deptan25022008-1, deptan27032010, deptan28052008-1, detikfinance27122009, gatra010307, gatra100509, gatra121108, gatra230802, gatra310807, indosiar021203-002, kompas060503, kompas150104, kompas160704, kompas180701, mediaindonesia020809, mediaindonesia080210, mediaindonesia210210, mediaindonesia250809, mediaindonesia291209, pikiranrakyat10042010, pikiranrakyat23052010, republika080703, republika09042010,

republika100704-003, republika110309-021, republika120804-03, republika130209-045, republika281202, republika300704-002, suarakarya000000-037, surabayapost020310, surabayapost070110, surabayapost110210, surabayapost250110, tempointeraktif130107-064

kesejahteraan petani rendah

balipost030608, gatra230109, jurnal000000-027, kompas030403, kompas031003, kompas110504, kompas120204, kompas161000, kompas170903, kompas220399, kompas240803, kompas290404, mediaindonesia120209, panturanews220611, pertaniansehat16052008, poskota270411, republika100804, republika110604-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, suarapembaruan100903, suarapembaruan190809, tempointeraktif200696-016,

tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif300108-022

wereng serang lahan pertanian

balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210, gatra190902, gatra190902-02, indosiar010504, indosiar010803,

indosiar070504, indosiar150104-002, indosiar240604, indosiar270504, indosiar310304, kompas170903, kompas200803, kompas211211, mediaindonesia020310, mediaindonesia030603, mediaindonesia050204, mediaindonesia050309, mediaindonesia050604-001,

mediaindonesia090409, mediaindonesia110309, mediaindonesia120110, mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503, mediaindonesia221209, mediaindonesia240110, okezone09012008, okezone23022008, okezone26052008, pikiranrakyat020804-001, pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat21042010, pikiranrakyat25052010, pikiranrakyat26052010, radarbogor050608, republika07052010, republika170908-027,

republika19052010, republika19052010-01, republika240604-003, republika25052010-01, republika260604-003, republika29042010, situshijau030203-002, situshijau030603-002, situshijau110303-002, situshijau14, situshijau180603-001, suarakarya000000-011,

(24)

Lanjutan

Kueri Dokumen Relavan

bidang pertanian belum berkembang

balipost030608, balipost050908, balipost301208, gatra230109, gatra290903, jurnal000000-027, kompas030403, kompas031003, kompas050303, kompas091003, kompas120204, kompas150304-002, kompas170104, kompas171002, kompas180504, kompas220399, kompas240803, kompas270502-001, mediaindonesia050604-002, mediaindonesia100203, mediaindonesia180504, mediaindonesia250803, metrotvnews17112009, okezone280111, poskota270411, republika080210-002, republika080210-033, republika091009-016, republika190504-republika080210-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021, tempointeraktif160209-060, tempointeraktif200696-016,

tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif260607-008

angsuran pertanian sedikit

ahmadheryawan251211, antaranews031110, beritadaerah081111,

bisnisindonesia101211, bisnisjabar080911, detik100211, inilahjabar221211, kabarbisnis291211, kompas110201, kompas120204, kompas140209, kompas170911, kompas220901-001, korankaltim001, medanbisnis060911, mediaindonesia170712, mediaindonesia260711, metrotvnews181211, pikiranrakyat161211, republika110504, republika110604-003,

seputarsulawesi081111, suaramerdeka090707, tempointeraktif180809-028, theglobejurnal290709, tribunnews151211, ujungpadangekspres091111, wartakota0001, wsp_agro01, yiela120910

dana bidang pertanian rendah

antaranews211111, banjarmasinpost180711, bataviase070710, gatra131011, kompas040111, kompas210502, lampungpost081211,

mediaindonesia090903, metrotvnews261211, neraca180811,

okezone280111, panturanews220611, partaimerdeka01, poskota270411, prakarsa_rakyat190811, republika110504, republika110604-003, republika290704-001, seputarindonesia051011, seputarindonesia271211, sinartani00002, sinartani291211, sinartani291211, tempo251211, tribunnews061211, waspada101011

permintaan humus naik

(25)

Lampiran 3 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat satu teratas

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29

persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

sawah kering kekurangan air 1.00 0.70 0.70 0.70 0.70 0.70 0.70 0.70 0.70 0.70 0.70

area pertanian semakin berkurang 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

upaya peningkatan produksi pertanian 0.33 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25

produk asing murah 1.00 1.00 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

produksi pertanian menurun 0.32 0.32 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27

produktivitas pertanian rendah 0.50 0.26 0.17 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15

petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sawah rusak berat 1.00 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86

mutu hasil pertanian rendah 1.00 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86 0.86

produksi pertanian meningkat 0.07 0.07 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06

kesejahteraan petani rendah 0.44 0.44 0.26 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16

wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

bidang pertanian belum berkembang 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05

angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

dana bidang pertanian rendah 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

(26)

Lampiran 4 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat dua teratas

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29 0.29

persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

sawah kering kekurangan air 1.00 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80 0.80

area pertanian semakin berkurang 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

upaya peningkatan produksi pertanian 0.43 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27

produk asing murah 1.00 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

produksi pertanian menurun 0.19 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17

produktivitas pertanian rendah 0.67 0.25 0.21 0.21 0.21 0.21 0.21 0.21 0.21 0.21 0.21

petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sawah rusak berat 1.00 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75

mutu hasil pertanian rendah 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07

produksi pertanian meningkat 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04

kesejahteraan petani rendah 0.22 0.22 0.22 0.22 0.18 0.18 0.18 0.18 0.18 0.18 0.18

wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

bidang pertanian belum berkembang 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

dana bidang pertanian rendah 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

(27)

Lampiran 5 Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat tiga teratas

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

sawah kering kekurangan air 1.00 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60

area pertanian semakin berkurang 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

upaya peningkatan produksi pertanian 0.25 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15

produk asing murah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

produksi pertanian menurun 0.25 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24

produktivitas pertanian rendah 0.23 0.21 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16

petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sawah rusak berat 1.00 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75

mutu hasil pertanian rendah 1.00 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67

produksi pertanian meningkat 0.07 0.07 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06

kesejahteraan petani rendah 0.31 0.31 0.22 0.22 0.14 0.14 0.14 0.14 0.14 0.14 0.14

wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

bidang pertanian belum berkembang 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07

angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

dana bidang pertanian rendah 0.50 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14

permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

(28)

Lampiran 6 Tabel kinerja perluasan kueri satu kata

Kinerja perluasan kueri satu kata dengan panjang kueri asli tiga kata

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

produk asing murah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

produksi pertanian menurun 0.25 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24 0.24

produktivitas pertanian rendah 0.23 0.21 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16

sawah rusak berat 1.00 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75

produksi pertanian meningkat 0.07 0.07 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06

kesejahteraan petani rendah 0.31 0.31 0.22 0.22 0.14 0.14 0.14 0.14 0.14 0.14 0.14

angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

(29)

Lanjutan

Kinerja perluasan kueri satu kata dengan panjang kueri asli empat kata

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

sawah kering kekurangan air 1.00 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60 0.60

area pertanian semakin berkurang 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

upaya peningkatan produksi pertanian 0.25 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15 0.15

petani sulit mendapatkan humus 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

mutu hasil pertanian rendah 1.00 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67

wereng serang lahan pertanian 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

bidang pertanian belum berkembang 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07

dana bidang pertanian rendah 0.50 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14

(30)

Lampiran 7 Tabel kinerja perluasan kueri dua kata

Kinerja perluasan kueri dua kata dengan panjang kueri asli tiga kata

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 persediaan padi memadai 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

tarif humus tinggi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

produk asing murah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

produksi pertanian menurun 0.25 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17

produktivitas pertanian rendah 0.40 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16 0.16

sawah rusak berat 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75 0.75

produksi pertanian meningkat 0.07 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03

kesejahteraan petani rendah 0.32 0.32 0.32 0.32 0.31 0.31 0.31 0.31 0.31 0.31 0.31

angsuran pertanian sedikit 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

permintaan humus naik 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

(31)
[image:31.842.62.758.102.300.2]

Lanjutan

Tabel kinerja perluasan kueri dua kata dengan panjang kueri asli empat kata

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 nilai jual komoditas rendah 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50

sawah hancur terendam air 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

sawah kering kekurangan air 1.00 0.71 0.71

Gambar

Gambar 1   Metode penelitian.
Tabel 1  Perhitungan recall-precision
Gambar 3  Konfigurasi dokumen pertanian pada Sphinx.
Gambar 6 menunjukkan kinerja pencarian
+7

Referensi

Dokumen terkait

(Suatu hal yang dapat diterapkan secara umum untuk semua persaingan tidak jujur atau curang dalam perdagangan dan bisnis, tetapi terutama diterapkan pada praktik berusaha

Dari keempat faktor penyebab terhambatnya keterwakilan politik perempuan seperti faktor sistem politik, sosial budaya, ekonomi, psikologis, penulis menyimpulkan bahwa faktor

Hasil penelitian tersebut menyebutkan bahwa frekuensi nafas, suhu tubuh dan saturasi oksigen lebih baik pada bayi yang menjalani perawatan metode kanguru

Semakin yakinlah bahwa era Industri 4.0 ini menyediakan peluang berlimpah bagi lulusan dengan pendidikan STEM/STEAM di bidang rekayasa, sains dan teknologi, dimana

3RQGRN :LVDWD SDGD RE\HN ZLVDWD 3DQWDL 6DUL 5LQJJXQJ 'DUL KDVLO ZDZDQFDUD GHQJDQ SHQJHOROD GLNHWDKXL EDKZD SDGD RE\HN ZLVDWD 3DQWDL 6DUL 5LQJJXQJ WHODK GLVHGLDNDQ SRQGRN ZLVDWD

Berdasarkan hasil skrining fitokimia yang telah dilakukan, diperoleh hasil bahwa ekstrak etanol daun ketapang mengandung senyawa alkaloid dan flavonoid, di Fraksi Heksana

Faktor-faktor yang mempengaruhi terjadinya bencana longsor lahan di Kecamatan Cikoneng adalah: 1) Lereng yang curam dengan kemiringan lebih dari 25%, 2) Jenis batuan

Kevakuman Terminal Regional Bingkuang (TRB) di Aia Pacah, By Pass, Kota Padang selama 10 tahun yang dibangun tahun 1996 senilai Rp 15 miliar tersebut menuai