• Tidak ada hasil yang ditemukan

Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular

N/A
N/A
Protected

Academic year: 2017

Membagikan "Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular"

Copied!
61
0
0

Teks penuh

(1)

DAN

IDE-REGULAR

Oleh:

Andika Wahyu Agusetyawan

G64101007

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

DAN

IDE-REGULAR

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh:

Andika Wahyu Agusetyawan

G64101007

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ANDIKA WAHYU AGUSETYAWAN. Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular. Dibimbing oleh JULIO ADISANTOSO dan AHMAD RIDHA.

Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja perluasan kueri dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa Indonesia. Metode relevance feedback yang digunakan adalah Ide-Dec-Hi dan Ide-Regular. Untuk kepentingan pengujian, penelitian ini juga melengkapi corpus yang digunakan dengan 30 kueri disertai gugus jawabannya. Evaluasi kinerja relevance feedback dilakukan menggunakan testand control group. Masing-masing group terdiri atas 500 dokumen yang berupa artikel-artikel pertanian berbahasa Indonesia dari berbagai situs media massa. Sistem dasar yang digunakan adalah sistem temu kembali berbasis vector space model hasil penelitian Ridha (2002). Sistem ini melakukan rule-based stemming sekaligus memakai stoplist untuk bahasa Indonesia. Variasi jumlah dokumen yang diperiksa yakni lima dan sepuluh.

Hasil penelitian menunjukkan bahwa relevance feedback secara keseluruhan meningkatkan kinerja sistem temu kembali. Siklus relevance feedback dalam penelitian ini telah menunjukkan hasil memuaskanpada iterasi pertama. Peningkatan kinerja terbesar diperoleh ketika menggunakan formula Ide-Dec-Hi. Hasil ini sesuai dengan hasil penelitian Ruthven & Lalmas (2003). Kinerja sistem tanpa relevance feedback adalah 0.447 sedangkan dengan Ide-Dec-Hi mencapai 0.516, meningkat 15.44%. Sementara menggunakan Ide-Regular peningkatan yang diperoleh adalah 14.54%, menjadi 0.512. Dari perbandingan query-by-query dapat disimpulkan bahwa penggunaan relevance feeback tidak terlalu membantu pada kueri yang kinerja awalnya memang sudah tinggi. Sebaliknya, untuk kueri-kueri yang memberikan hasil buruk pada pencarian awal, relevance feedback sangat cocok untuk digunakan dan menjanjikan peningkatan kinerja yang cukup tinggi.

(4)

NRP

: G64101007

Menyetujui:

Pembimbing I,

Ir. Julio Adisantoso, M.Kom

NIP 131578807

Pembimbing II,

Ahmad Ridha, S.Kom

NIP 132311931

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Ir. Yonny Koesmaryono, MS

NIP 131473999

(5)

Penulis dilahirkan di Kendal pada tanggal 14 Agustus 1983 dari ayah Sugeng dan ibu Sri Wahyuni. Penulis merupakan putra kedua dari dua bersaudara. Tahun 2001 penulis lulus dari SMU Negeri 1 Kendal dan pada tahun yang sama diterima di IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(6)

Shalawat serta salam selalu untuk Nabi Muhammad Shallalahu ‘alaihi wasallam beserta seluruh sahabat dan umatnya hingga akhir zaman. Tema yang dipilih pada penelitian ini adalah temu kembali informasi, dengan judul Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia Dengan Metode Ide-Dec-Hi dan Ide-Regular.

Penulis sampaikan terima kasih kepada semua pihak yang telah membantu dan memberikan pengalaman yang menyenangkan selama melakukan penelitian ini. Khususnya kepada Bapak Ir. Julio Adisantoso, M.Kom dan Bapak Ahmad Ridha, S.Kom serta Ibu Yeni Herdiyeni, S.Si, M.Kom yang telah memberikan begitu banyak masukan, bimbingan dan pelajaran berharga selama menjadi pembimbing dan penguji. Selanjutnya penulis juga ingin mengucapkan terima kasih kepada:

1. Keluarga tercinta, khususnya kedua orang tua penulis atas rasa cinta, kasih sayang, kesabaran, dukungan dan doa yang tak pernah berhenti, yang selalu meringankan langkah penulis bahkan di saat-saat terberat sekalipun. Terima kasih juga kepada Mas A’an yang selalu memberi inspirasi, semangat dan ide-ide baru.

2. Ratna Purnama Sari, yang dengan kesabarannya dan keceriaannya semakin memantapkan langkah penulis di setiap harinya.

3. Sahabat-sahabat Ilkom angkatan 38, terimakasih atas persahabatan kita yang penuh gelak tawa selama ini.

4. Sahabat-sahabat ‘serumah’ di Pakuan.

5. Departemen Ilmu Komputer, staf dan dosen yang telah begitu banyak membantu baik selama pelaksanaan skripsi ini maupun sebelumnya.

Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, terima kasih.

Semoga penelitian ini dapat memberikan manfaat.

Bogor, Januari 2006

(7)

Halaman

DAFTAR TABEL ... viii

DAFTAR GAMBAR ... ix

DAFTAR LAMPIRAN ... x

PENDAHULUAN ... Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA Information Retrieval System (Sistem Temu Kembali Informasi) ... 1

Query (Kueri)... 2

Daftar Kata Buang... 2

Stemming... 2

Vector Space Model (VSM) ... 2

Pembobotan Istilah... 2

Query Expansion (Perluasan Kueri) dan Relevance Feedback... 3

Pembobotan dan Pemilihan Istilah ... 3

Corpus... 4

Recall Precision... 4

Average Precision (AVP)... 4

Algoritma RF... 4

METODOLOGI Algoritma RF ... 5

Sistem Temu Kembali dan Evaluasinya ... 5

Evaluasi RF... 5

Corpus... 6

Asumsi-asumsi... 6

Lingkungan Pengembangan... 7

HASIL DAN PEMBAHASAN Gugus Kueri dan Gugus Jawaban ... 6

Evaluasi RF... 6

KESIMPULAN DAN SARAN Kesimpulan ... 9

Saran ... 10

(8)

Halaman

1. Deskripsi koleksi pengujian ... 7

2. Contoh hasil pooling beberapa kueri... 7

3. Perbandingan nilai average precision sebelum dan setelah menggunakan RF ... 8

(9)

Halaman

1. Kurva recall-precision RG5 dan DH5 pada iterasi ke-1 ... 9

2. Kurva recall-precision RG10 dan DH10 pada iterasi ke-1 ... 9

3. Kurva recall-precision RG5 dan DH5 pada iterasi ke-2 ... 9

(10)

Halaman

1. Proses penemukembalian informasi (Baeza-Yates & Ribeiro-Neto 1999) ... 13

2. Antarmuka implementasi ... 14

3. Contoh dokumen dalam koleksi... 15

4. Contoh kueri dan deskripsinya... 16

5. Gugus kueri dan gugus jawaban ... 17

(11)

PENDAHULUAN

Latar Belakang

Sejalan dengan semakin populernya penggunaan Internet dan Perpustakaan Digital, informasi dalam jumlah yang luar biasa besar kini bisa diakses secara luas oleh masyarakat, suatu hal yang tidak tersedia di masa lalu. Akan tetapi bersamaan dengan itu, muncul masalah baru. Pengguna kini harus menyaring seluruh kumpulan informasi tersebut untuk menemukan kebutuhan informasinya. Bahkan setelah melalui bantuan search engine pun, yang rata-rata kini telah mengindeks milyaran halaman Web dari beragam kategori, setelah disaring melalui penggunaan kata kunci, pengguna seringkali belum bisa menemukan dokumen yang relevan dengan informasi yang dicarinya.

Dalam temu kembali informasi, jumlah dokumen relevan yang ditemukembalikan akan dipengaruhi oleh jumlah kata kunci yang digunakan untuk pencarian. Dalam Web, pencarian pada umumnya dilakukan menggunakan kueri pendek, hanya kurang dari tiga kata (Spink et al. 2000). Hal ini cukup menyulitkan karena kueri pendek hanya menyediakan sedikit informasi bagi sistem temu kembali mengenai kebutuhan pencarian pengguna. Sebagai hasilnya adalah meskipun jumlah dokumen yang ditemukembalikan banyak akan tetapi hanya sedikit yang dianggap relevan oleh pengguna.

Masalah lain yang sering terjadi dalam Web dan Perpustakaan Digital adalah pilihan kata yang digunakan pengguna dalam kueri seringkali berbeda dengan pilihan kata yang yang digunakan penulis dalam dokumen. Bahkan ketika beberapa pengguna memiliki kebutuhan informasi yang sama, jarang mereka menggunakan pilihan kata yang sama untuk menggambarkannya dalam kueri (Xu & Croft 2005). Beberapa pendekatan dalam temu kembali informasi telah dilakukan untuk menangani perbedaan ini.

Salah satu pendekatannya adalah penggunaan relevance feedback. Dalam pendekatan ini sistem menemukembalikan dokumen-dokumen yang mungkin relevan bagi kueri pengguna, selanjutnya pengguna memeriksa beberapa dokumen tersebut dan menandai dokumen yang dianggap relevan. Informasi ini digunakan oleh sistem untuk memodifikasi atau menambahkan kata dalam kueri dan diharapkan meningkatkan hasil pencarian. Siklus ini bisa terus diulang sampai

pengguna merasa kebutuhan informasinya telah terpenuhi.

Tujuan

Penelitian ini bertujuan mengimplementasikan dan menganalisis kinerja perluasan kueri dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa Indonesia.

Ruang Lingkup

Penelitian ini dibatasi pada analisis kinerja relevance feedback pada sistem temu kembali informasi berbahasa Indonesia menggunakan formula Ide-Dec-Hi dan Ide-Regular. Model sistem temu kembali yang digunakan adalah vector space model.

TINJAUAN PUSTAKA

Information Retrieval System (Sistem Temu

Kembali Informasi)

Tujuan utama sebuah information retrieval system (IRS) adalah menemukembalikan informasi yang mungkin berguna atau relevan bagi pengguna sesuai dengan kueri yang telah dimasukkannya. Penekanannya adalah pada penemukembalian informasi, bukan data (Baeza-Yates & Ribeiro-Neto 1999). Kerangka proses penemukembalian informasi dapat dilihat pada Lampiran 1.

IRS memberikan pengguna kemampuan untuk bisa mengakses informasi elektronik dalam jumlah yang sangat besar dalam waktu yang relatif singkat. Informasi tersebut bisa berupa dokumen teks, halaman web, gambar, audio atau video.

(12)

Query (Kueri)

Menurut Baeza-Yates & Ribeiro-Neto (1999), kueri adalah pernyataan kebutuhan informasi pengguna dalam bentuk masukan berupa bahasa yang dikenali oleh sistem informasi. Jenis bahasa masukan sederhana yang paling banyak digunakan adalah kata kunci dan beberapa penghubung berupa ekspresi Boolean.

Daftar Kata Buang

Salah satu langkah dalam pengindeksan adalah menghilangkan istilah-istilah yang sangat sering muncul dalam koleksi dan yang tidak membantu penemukembalian dokumen relevan. Daftar istilah-istilah yang dihilangkan ini disebut daftar kata buang (stoplist). Daftar kata buang dapat berupa daftar yang dibuat secara umum yang bisa digunakan pada kebanyakan jenis koleksi atau daftar yang khusus dibuat untuk satu koleksi tertentu. (Ruthven & Lalmas 2003). Daftar kata buang biasanya kebanyakan terdiri dari kata sandang dan kata penghubung (Selberg 1997). Semisal “sang”, ”si”, ”namun”, dan “tetapi”.

Stemming

Istilah bisa muncul dalam berbagai variasi linguistik dari kata yang sama. Sebagai contoh, kata “petani” dan “bertani” sebenarnya berasal dari satu bentuk dasar yaitu “tani”. Dalam sistem temu kembali hal ini akan cukup menyulitkan pengguna karena ketika pengguna memasukkan kueri ”bertani”, sistem akan menemukembalikan semua dokumen yang mengadung kata “bertani” tapi tidak yang mengandung kata “petani”.

Untuk menghindari kesulitan tersebut sehingga pengguna tidak perlu mencoba semua kemungkinan variasi untuk setiap kata dalam kueri, banyak sistem temu kembali yang mengubah istilah-istilahnya ke bentuk dasarnya. Proses ini disebut stemming (Ruthven & Lalmas 2003).

Vector Space Model (VSM)

Vector space model merupakan model temu kembali yang paling populer sekaligus sederhana (Baeza-Yates & Ribeiro-Neto 1999). Berikut adalah beberapa definisi matematika yang digunakan dalam VSM (Selberg 1997):

1. D={d0, d1, ..., dN} adalah himpunan N

dokumen dalam koleksi. d mengacu pada sembarang dokumen di

D.

2. T={t0, t1, ..., tm } adalah himpunan m

istilah yang terindeks dalam D. tmengacu pada sembarang istilah ti

T.

3. wi adalah bobot dari istilah ti. Bobot bisa

diartikan sebagai suatu nilai numerik yang menyatakan tingkat kepentingan sebuah istilah.

4. di adalah sebuah dokumen tunggal,

direpresentasikan sebagai vektor berdimensi m, di=[wi1, wi2, ..., wim] dengan

wij adalah bobot istilah tj dalam dokumen

di. Dalam kasus paling sederhana, wij

bernilai 1 jika istilah tj muncul dalam

dokumen di, dan wij bernilai 0 jika

sebaliknya.

5. Q adalah kueri yang direpresentasikan sebagai sebuah vektor berdimensi m, mirip dengan dokumen, Q=[w1, w2, ...,wm]

dengan wi adalah bobot istilah ti dalam Q.

Hasil penemukembalian ditampilkan berupa daftar dokumen yang telah teranking berdasar tingkat kesamaan dokumen dengan kueri. Ukuran kesamaan sim(dj,q) antara

dokumen di dan kueri Q dihitung

menggunakan kosinus sudut antara di dan Q

sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999):

(

)

||

||

||

||

,

Q

d

Q

d

Q

d

sim

i i i

×

=

. Pembobotan Istilah

Pembobotan dilakukan terhadap istilah-istilah yang berada dalam dokumen koleksi. Sistem temu kembali yang paling sederhana memboboti dengan bobot biner, 1 jika istilah itu muncul di dokumen dan 0 jika sebaliknya. Semakin canggih suatu sistem temu kembali, semakin kompleks skema pembobotannya. Berbagai macam penelitian dalam temu kembali informasi selama bertahun-tahun telah menunjukkan bahwa pembobotan yang optimal didapatkan melalui penggunaan fungsi tf*idf (Liddy 2001). Pada fungsi tf*idf bobot istilah ke-i pada dokumen ke-j dihitung dari perkalian term frequency dan inverse document frequency yang dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999):

idf

tf

w

i,j

=

*

,

selanjutnya

(

l,j

)

l j i

freq

max

freq

(13)

dengan freqi,j merupakan frekuensi

kemunculan istilah ke-i dalam dokumen ke-j, maxl(freql,j) sebagai frekuensi maksimum

istilah-istilah yang berada dalam dokumen ke-jdan

i

n

N

log

idf

=

,

dengan N adalah jumlah total dokumen dalam koleksi serta ni merupakan jumlah dokumen

yang mengandung istilah ke-i.

Query Expansion (Perluasan Kueri) dan

Relevance Feedback

Menurut Selberg (1997), perluasan kueri adalah sekumpulan teknik untuk memodifikasi kueri dengan tujuan untuk memenuhi sebuah kebutuhan informasi. Seringnya modifikasi dilakukan dengan penambahan istilah ke dalam kueri, meskipun sebenarnya perluasan kueri juga meliputi penyesuaian bobot dan penghapusan istilah kueri.

Perluasan kueri bisa dilakukan dengan salah satu dari dari tiga metode berikut: 1. Manual Query Expansion (MQE)

Menggunakan metode ini pengguna memodifikasi kueri secara manual. Sistem tidak memberikan bantuan sama sekali kepada pengguna.

2. Automatic Query Expansion (AQE)

Dalam metode ini sistem akan memodifikasi kueri secara otomatis tanpa perlu bantuan kendali dari pengguna. Beberapa teknik yang biasa digunakan antara lain:

a. Global Analysis (GA)

GA beroperasi dengan cara memeriksa seluruh dokumen yang ada dalam koleksi untuk membangun suatu struktur yang mirip dengan tesaurus. Menggunakan tesaurus ini, kueri akan diperluas dengan istilah-istilah yang dianggap berhubungan erat dengan istilah kueri dalam ruang lingkup koleksi (Baeza-Yates & Ribeiro-Neto 1999).

b. Local Analysis (LA)

Dalam LA, sistem menemu-kembalikan dokumen dengan sebuah kueri awal, memilih dan memeriksa sejumlah dokumen dengan ranking teratas, mengasumsikan bahwa dokumen-dokumen teratas tersebut relevan, untuk kemudian

membangkitkan sebuah kueri baru (Baeza-Yates & Ribeiro-Neto 1999). c. Local Context Analysis (LCA)

LCA merupakan sebuah teknik baru yang mengkombinasikan GA dan LA. Berdasar penelitian Xu dan Croft (1996), LCA mampu mengalahkan efektifitas dan konsistensi dari GA dan LA.

3. Interactive Query Expansion (IQE) IQE mencakup metode-metode yang di dalamnya pengguna melakukan interaksi dengan sistem dalam proses perluasan kueri. Teknik yang tercakup di dalamnya adalah relevance feedback dan teknik inilah yang menjadi topik dalam penelitian ini.

Relevance feedback (RF) adalah metode yang sudah diterima secara luas untuk meningkatkan keefektifan penemu-kembalian secara interaktif. Sebuah pencarian awal dilakukan oleh sistem menggunakan kueri yang diberikan oleh pengguna dan sebagai hasilnya menemu-kembalikan sejumlah dokumen. Pengguna memeriksa dokumen-dokumen tersebut dan menandai dokumen yang dianggap relevan. Sistem kemudian secara otomatis memodifikasi kueri berdasar penilaian relevansi pengguna tadi. Kueri baru dijalankan untuk menemukembalikan kumpulan dokumen yang lebih relevan. Proses ini dapat berulang hingga pengguna merasa kebutuhan informasinya terpenuhi (Buckley et al. 1994 ).

Penelitian yang dilakukan Ruthven dan Lalmas (2003) melalui simulasi yang dilakukan pada pengguna berpengalaman, menyimpulkan bahwa IQE memberikan peningkatan kinerja yang lebih stabil daripada AQE. Sementara Belkin et al. (1997) menunjukkan bahwa kinerja RF tidak lebih buruk dibandingkan LCA.

Pembobotan dan Pemilihan Istilah

Teknik RF biasanya berfokus pada salah satu dari dua pendekatan berikut:

1. Pembobotan Istilah, adalah sebuah proses yang di dalamnya istilah-istilah kueri diboboti atau disesuaikan bobotnya. Bobot masing-masing istilah akan berbeda, bergantung pada tingkat kepentingan istilah tersebut untuk menemukembalikan tambahan dokumen relevan.

(14)

pemilihan istilah diimplementasikan dengan menggunakan sebuah formula perankingan untuk mengurutkan seluruh istilah yang menjadi kandidat, dan kemudian memilih x kandidat teratas (Selberg 1997).

Corpus

Istilah corpus terutama dikenal dalam bidang linguistik yang pada prinsipnya bermakna koleksi yang memiliki lebih dari satu teks. Suatu corpus modern memiliki beberapa karakteristik yakni (McEnery & Wilson 2001):

1. Sampling & representativeness 2. Finite size

3. Machine-readable form 4. A standard reference

Menurut Hiemstra & Leeuwen (2001), suatu corpus pengujian sistem temu kembali informasi terdiri dari koleksi dokumen, topik-topik, yang dapat digunakan sebagai kueri, dan penilaian relevansi sebagai daftar dokumen yang relevan dengan topik-topik yang tersedia.

Corpus dapat menyediakan pendekatan yang seragam dalam evaluasi kinerja sistem temu kembali informasi. Teknik evaluasi ini juga digunakan dalam Text Retrieval Conference (TREC).

Dalam TREC, daftar dokumen relevan untuk setiap topik/kueri didapat melalui sebuah kumpulan dokumen yang dimungkinkan relevan yang disebut pool. Pool ini dibentuk dari K dokumen teratas (biasanya K=100) dari hasil perankingan oleh beberapa sistem temu kembali informasi yang telah teruji kinerjanya. Dokumen-dokumen dalam pool kemudian diperlihatkan pada penguji untuk memberikan penilaian relevansi untuk tiap dokumen.

Teknik mendapatkan daftar dokumen relevan ini disebut metode pooling dan berdasar pada dua asumsi. Pertama, nyaris seluruh dokumen relevan berhasil dikumpulkan ke dalam pool. Kedua, dokumen-dokumen yang tidak termasuk dalam pool dianggap tidak relevan. Kedua asumsi ini telah terbukti akurat dalam pengujian yang dilakukan pada konferensi TREC (Baeza-Yates & Ribeiro-Neto 1999).

Recall –Precision

Recall dan precision dapat dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999):

||

||

||

||

R

Ra

call

Re

=

,

||

||

||

||

A

Ra

n

Precisio

=

,

dengan Ra adalah jumlah dokumen relevan yang ditemukembalikan, R adalah jumlah dokumen relevan dalam koleksi dan A adalah jumlah dokumen yang ditemukembalikan.

Average Precision (AVP)

Average Precision adalah suatu ukuran evaluasi IRS yang diperoleh dengan menghitung rata-rata tingkat precision pada berbagai tingkat recall, yang. biasanya digunakan adalah sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.

Adakalanya tingkat recall yang bisa didapat untuk tiap kueri kurang dari sebelas tingkat recall standar yang ada. Untuk kasus seperti ini digunakan prosedur interpolasi. Misalkan rj, j

{0, 1, 2,. . . ,10} adalah tingkat recall

standar ke-j maka

( )

r

max

r r r

P

( )r

P

j j

j

=

≤≤ +1 ,

sehingga precision terinterpolasi pada tingkat recall standar ke-j adalah precison tertinggi pada setiap tingkat recall antara j hingga (j+1) (Baeza-Yates & Ribeiro-Neto 1999).

Algoritme RF

Teknik RF ditemukan pertama kali oleh Rocchio dan diterapkan dalam vector space model. Rocchio memandang temu kembali sebagai permasalahan mencari sebuah kueri optimal, yaitu kueri yang memaksimalkan selisih antara vektor rataan dokumen relevan dengan vektor rataan dokumen tak-relevan.

RF berguna untuk mendekatkan vektor kueri ke vektor rataan dokumen relevan dan menjauhkan dari vektor rataan dokumen tak-relevan. Ini bisa dilakukan melalui penambahan istilah kueri dan penyesuaian bobot istilah kueri sehingga sesuai dengan kegunaan istilah tersebut dalam fungsinya membedakan dokumen relevan dan tak-relevan (Ruthven & Lalmas 2003).

Formula awal Rocchio adalah sebagai berikut:

= =

+

=

1 2
(15)

dengan Q0=vektor kueri awal, Q1=vektor

kueri baru, n1=jumlah dokumen relevan,

n2=jumlah dokumen tak-relevan, Ri=vektor

dokumen relevan ke-i, Si=vektor dokumen

tak-relevan ke-i. Kueri yang telah termodifikasi akan memiliki istilah-istilah baru (dari dokumen-dokumen relevan). Selain itu penyesuaian bobot diterapkan terhadap istilah-istilah kueri. Jika bobot istilah kueri turun hingga nol atau di bawah nol, istilah tersebut dihilangkan dari kueri.

Ide (1971), diacu dalam Ruthven & Lalmas (2003), kemudian melakukan modifikasi terhadap formula Rocchio, dinamakan Ide-Dec-Hi, dengan menggunakan hanya dokumen tak-relevan pertama yang ditemukembalikan. Formula tersebut adalah sebagai berikut: i n i i

s

r

Q

Q

r

+

=

0

1 ,

dengan nr=jumlah dokumen relevan ,

ri=vektor dokumen relevan ke-i, si=vektor

dokumen tak-relevan pertama.

Modifikasi lain yang lazim dilakukan adalah dengan memboboti kontribusi relatif kueri awal, dokumen relevan dan dokumen tak-relevan terhadap proses RF. Dalam persamaan di bawah ini, nilai α, β dan γ merupakan derajat pengaruh tiap komponen dalam RF.

= =

+

=

1 2

1 2 1 1 0 1

.

n i i n i i

S

n

R

n

Q

Q

α

β

γ

,

Versi yang lebih baru lagi dari skema Ide adalah Ide-regular, yang menggunakan semua dokumen non-relevan yang ditemu-kembalikan. Ide-regular juga berdasar formula Rocchio namun tidak melakukan normalisasi terhadap vektor-vektor dokumen. Berikut adalah formula Ide-regular:

= =

+

=

2 1 1 0 1 1 n i i n i i

S

R

Q

Q

.

METODOLOGI

Algoritme RF

Penelitian ini akan menginvestigasi kinerja relatif dua algoritme RF yaitu Ide-Dec-Hi dan Ide-Regular. Keduanya dipilih karena meskipun formula Ide-Dec-Hi dan Ide-Regular tidak memberikan peningkatan kinerja yang signifikan namun lebih konsisten

dibanding formula Rocchio (Ruthven & Lalmas 2003).

Sistem Temu Kembali dan Evaluasinya

Sistem dasar yang digunakan untuk pengujian RF adalah sistem temu kembali hasil penelitian Ridha (2002). Sistem yang dihasilkan menggunakan vector space model dengan pembobotan tf*idf. Dalam penelitian ini diterapkan rule-based stemming dan penggunaan daftar kata buang dalam Bahasa Indonesia.

Cara yang paling umum untuk mengevaluasi sistem temu kembali adalah dengan menentukan kinerjanya dalam recall dan precision. Hal ini dilakukan dengan menggunakan koleksi pengujian yang terdiri dari kumpulan dokumen yang disertai gugus kueri dan penilaian relevansinya (gugus jawaban).

Dari hasil penemukembalian yang dilakukan sistem, dihitung precision pada berbagai tingkat recall. Tingkat recall yang digunakan adalah sebelas tingkat recall standar terinterpolasi. Hasilnya kemudian dirata-rata untuk mendapatkan average precision (AVP).

Evaluasi RF

Chang et al. (1971),diacu dalam Ruthven & Lalmas (2003) menunjukkan bahwa evaluasi algoritme RF memiliki beberapa masalah berkaitan dengan recall dan precision. RF bertujuan untuk meningkatkan recall dan precision berdasar informasi dari dokumen-dokumen relevan yang diidentifikasi pengguna, hal ini biasanya akan membuat dokumen-dokumen relevan yang telah diidentifikasi (yaitu dokumen relevan yang digunakan oleh RF) terdorong menempati ranking teratas. Ranking effect ini seolah-olah membuat kurva recall-precision meningkat tajam karena sistem meranking ulang dokumen relevan yang telah diidentifikasi. Seberapa banyak RF meningkatkan penemukembalian dokumen relevan yang belum teridentifikasi, feedback effect-nya, justru tidak terdeteksi.

(16)

control group sehingga tidak terjadi ranking effect. Test and control pada dasarnya mengukur kinerja relatif kueri baru pada tiap iterasi (Ruthven & Lalmas 2003).

Dalam penelitian ini pembagian koleksi untuk test dan control group dilakukan dengan cara sebagai berikut:

1. Dokumen-dokumen dikelompokkan ber-dasar sumbernya

2. Pada masing-masing kelompok, dokumen diurutkan berdasar ID dokumen

3. Untuk setiap kelompok, separuh dokumen teratas dimasukkan ke dalam test group dan sisanya masuk ke control group

Untuk melihat pengaruh penggunaan RF terhadap kinerja sistem dilakukan pengukuran average precision pada lima jenis penemukembalian, yakni:

1. NoRF: penemukembalian awal pada control group

2. DH5: menggunakan Ide-Dec-Hi dengan memeriksa 5 dokumen teratas

3. DH10: menggunakan Ide-Dec-Hi dengan memeriksa 10 dokumen teratas

4. RG5: menggunakan Ide-Regular dengan memeriksa 5 dokumen teratas

5. RG10: menggunakan Ide-Regular dengan memeriksa 10 dokumen teratas

Perbandingan query-by-query juga dilakukan untuk melihat secara lebih detail pengaruh RF pada tiap kueri. Selanjutnya dilakukan pengujian statistik uji Wilcoxon Signed Rank Test dengan selang kepercayaan 95% terhadap:

1. DH5 - NORF dan DH10 - NORF: untuk pengaruh formula Ide-Dec-Hi

2. RG5 - NORF dan RG10 - NORF: untuk pengaruh formula Ide-Regular

3. RG10 - RG5 dan DH10 - DH5: untuk pengaruh jumlah dokumen yang diperiksa. 4. DH10 - RG5, DH5 - RG10, DH5 - RG5

dan DH10 - RG10: untuk perbedaan kinerja Ide-Dec-Hi dan Ide-Regular.

Pengujian dilakukan oleh dua mahasiswa Fakultas Pertanian dengan skenario sebagai berikut:

1. Penguji mengeksekusi kueri yang telah disediakan pada gugus kueri pada test group.

2. Dari hasil penemukembalian diperiksa dokumen-dokumen teratas. Dokumen yang dianggap relevan ditandai dan seluruh dokumen yang tidak ditandai akan dianggap tidak relevan.

3. RF kemudian dilakukan untuk memodifikasi kueri.

4. Kueri yang telah dimodifikasi lalu dijalankan pada control group.

Antarmuka implementasi diberikan pada Lampiran 2.

Pengujian RF dilakukan pada kedua formula, Ide-Dec-Hi dan Ide-Regular. Untuk masing-masing formula dilakukan dua kali iterasi dan untuk setiap kali iterasi variasi jumlah dokumen yang diperiksa adalah lima dan sepuluh.

Corpus

Penelitian ini menggunakan corpus yang merupakan hasil penelitian Adisantoso & Ridha (2004). Koleksi dokumen yang dimiliki corpus ini terdiri dari 1000 artikel berbahasa Indonesia yang seluruhnya mempunyai domain yang sama, yaitu pertanian. Artikel-artikel ini dikumpulkan dari berbagai situs web Indonesia, yang sebagian besar merupakan situs-situs media massa. Sumber-sumber tersebut antara lain:

1. Gatra 2. Indosiar 3. Kompas 4. Media Indonesia 5. Republika 6. Situs Hijau 7. Suara Karya 8. Suara Merdeka

Sebagian besar dokumen yang terkumpul bersifat artikel media umum sedangkan hanya 22 dokumen yang merupakan tulisan ilmiah. Seluruh sumber artikel menggunakan Bahasa Indonesia semi-formal/formal (Adisantoso & Ridha 2004). Contoh dokumen dapat dilihat pada Lampiran 3.

Untuk kepentingan evaluasi RF koleksi dokumen dibagi dua secara acak menjadi test dan control group. Langkah berikutnya adalah pembentukan gugus kueri untuk pengujian beserta gugus jawabannya karena keduanya belum tersedia dalam corpus. Pembentukan gugus kueri dan gugus jawaban dilakukan oleh dua mahasiswa Fakultas Pertanian yang dianggap kompeten untuk menentukan penilaian relevansi dokumen-dokumen dengan domain pertanian.

Asumsi-asumsi

Asumsi-asumsi yang digunakan dalam penelitian ini adalah sebagai berikut:

1. Jumlah dokumen yang diperiksa untuk feedback dalam setiap iterasi adalah tetap. 2. Jumlah dokumen relevan untuk tiap kueri

(17)

3. Penilaian relevansi yang dilakukan akurat.

Lingkungan Pengembangan

Lingkungan pengembangan yang digunakan adalah sebagai berikut:

1. Perangkat lunak: Windows XP Professional, Visual Basic 6.0, Microsoft Access 2004.

2. Perangkat keras: Duron 1.2 GHz, 256 MB RAM.

HASIL DAN PEMBAHASAN

Gugus Kueri dan Gugus Jawaban

Kueri yang dibuat untuk pengujian penelitian ini berjumlah 30. Sebagian besar berupa frasa, seperti “gagal panen” atau “tanaman obat” , yang panjangnya kurang dari lima kata. Hal ini dilakukan untuk mensimulasikan keadaan di dunia nyata yang pada umumnya pengguna jarang menggunakan kueri panjang. Contoh kueri pengujian dan deskripsinya dapat dilihat pada Lampiran 4.

Setelah kueri tersedia, hal selanjutnya yang harus dilakukan adalah pembentukan gugus jawaban pada test dan control group. Pembentukan gugus jawaban merupakan proses yang penting dan sangat mempengaruhi hasil evaluasi RF sekaligus sistem temu kembali pada umumnya. Jika gugus jawaban yang dibentuk tidak akurat maka kinerja sistem akan tampak buruk karena ada dokumen-dokumen yang ditemukembalikan sistem, yang sebenarnya relevan, akan dianggap tidak relevan sebab tidak ada dalam gugus jawaban dan berakibat mengurangi nilai recall dan precision.

Pembentukan gugus jawaban menggunakan metode pooling dan dilakukan sebanyak dua kali. Pada kali pertama, sistem-temu kembali yang digunakan untuk mendapatkan pool adalah Google Desktop Search 20050325 dan Copernic Desktop Search versi 1.63. Keduanya merupakan perangkat lunak freeware yang dikenal luas sebagai mesin pencari dengan kinerja yang cukup baik. Hasil pool yang didapat ternyata tidak terlalu akurat karena setelah diperiksa masih cukup banyak dokumen-dokumen yang sebenarnya relevan namun tidak termasuk dalam pool. Alasannya adalah karena memang kedua sistem temu kembali tersebut tidak dikhususkan untuk mencari dokumen-dokumen berbahasa Indonesia. Keduanya

tidak menggunakan stemming terhadap kueri maupun dokumen-dokumen berbahasa Indonesia yang terindeks.

Pada kali kedua, sistem temu kembali hasil penelitian Ridha (2002) diikutsertakan untuk mendapatkan calon dokumen relevan tambahan. Karena sistem ini memang dikhususkan untuk Bahasa Indonesia, hasil yang didapat cukup memuaskan dengan didapatkannya tambahan dokumen relevan hampir untuk setiap kueri yang diujikan. Pada Lampiran 5 tertera daftar lengkap kueri beserta gugus jawabannya. Tabel 1 menunjukkan deskripsi corpus yang digunakan sedangkan di Tabel 2 dapat dilihat contoh hasil pooling beberapa kueri menggunakan ketiga sistem yakni Google Desktop Search (GDS), Copernic Desktop Search (CDS) dan sistem temu kembali hasil penelitian Ridha (2002) (R2002).

Tabel 1Deskripsi koleksi pengujian

Koleksi Test Control

Jumlah kueri 30 30

Ukuran (KB) 16.048 23.972

Jumlah dokumen 500 500

Rataan kata tiap kueri 2,6 2,6 Rataan kata tiap dokumen 166 177 Rataan dokumen relevan tiap kueri

13 18,8

Tabel 2 Contoh hasil pooling beberapa kueri

Tingkat Recall * ID

GDS CDS R2002

1 28/48 (8) 21/48 (4) 25/48 (8) 5 21/39 (6) 17/39 (2) 26/39 (9) 11 34/57 (7) 30/57 (5) 41/57 (9) *Angka di dalam tanda kurung menunjukkan jumlah dokumen unik yang hanya ditemukan pada sistem tersebut dan tidak ditemukan di kedua sistem lainnya.

Evaluasi RF

Hasil pengujian RF dengan perhitungan average precision dapat dilihat pada Tabel 3 sedangkan hasil Wilcoxon Signed Rank Test dirinci pada Tabel 4.

(18)

signifikan (Sig. < 0.05). Pada Ide-Regular, peningkatan juga signifikan, RG5 mencapai 14.54%, akan tetapi kemudian turun pada RG10 tinggal 12.75%. Ini menunjukkan bahwa meskipun secara statistik tidak ada perbedaan signifikan antara Ide-Dec-Hi dan Ide-Regular (Sig. > 0.05), Ide-Dec-Hi mampu memberikan hasil yang lebih konsisten daripada Ide-Regular. Hal ini sesuai dengan hasil penelitian Ruthven dan Lalmas (2003). Kekonsistenan ini karena Ide-Dec-Hi hanya menggunakan satu dokumen tak-relevan teratas. Sehingga meskipun terjadi ketidakakuratan penilaian relevansi saat pengguna memberikan feedback, yaitu dokumen relevan tidak ditandai oleh pengguna dan dihitung sebagai dokumen tak-relevan, hal itu tidak akan terlalu memperburuk kueri yang baru.

Tabel 3 Perbandingan nilai average precision sebelum dan setelah menggunakan RF

Metode NoRF Iterasi I Iterasi II

DH5 0.447 0.516 0.492

% ∗ 0 15.44% 10.07%

DH10 0.447 0.516 0.492

%∗ 0 15.44% 10.07%

RG5 0.447 0.512 0.477

%∗ 0 14.54% 6.71%

RG10 0.447 0.504 0.437

%∗ 0 12.75% -2.24%

Persentase perubahan kinerja dibandingkan dengan NoRF

Tabel 4 Daftar nilai Sig. pada Wilcoxon Signed Ranks Test (α=0.05)

Pair Iterasi I Iterasi II

RG5 - NORF 0.008∗ 0.220 RG10 - NORF 0.008∗ 0.876 DH5 - NORF 0.009∗ 0.102 DH10 - NORF 0.009∗ 0.102

RG10 - RG5 0.157 0.088

DH10 - DH5 1.000 1.000

DH10 - RG5 0.553 0.987

DH5 - RG10 0.078 0.020∗

DH5 - RG5 0.553 0.987

DH10 - RG10 0.078 0.020∗ ∗

Sig. < 0.05

Pada iterasi ke-2, DH5 dan DH10 keduanya hanya memberikan peningkatan masing-masing sebesar 10.07%, lebih kecil dari iterasi ke-1. RG5 juga mengalami penurunan kinerja dibanding iterasi ke-1 menjadi 6.71%. RG10 bahkan menurun hingga -2.24%. Pada iterasi kali ini, DH5 dan

DH10 secara signifikan lebih baik bila dibandingkan RG10 namun tidak jika dibandingkan RG5. Melalui pemeriksaan lebih lanjut, alasan penurunan kinerja ini adalah karena pada iterasi ke-1 RF sudah bekerja dengan sangat baik sehingga pada hampir semua kueri, seluruh dokumen relevan untuk kueri tersebut telah ditemukan oleh sistem. Lebih jauh lagi untuk kueri-kueri yang belum seluruh dokumen relevannya ditemukan tingkat recall-nya sudah mencapai di atas 90%. Hal lain yang berkaitan erat dengan penurunan ini adalah kinerja sistem dasar yang ternyata sudah cukup tinggi.

Melalui hasil perbandingan query-by-query, ditemukan pula bahwa kueri yang tidak berhasil ditingkatkan kinerjanya adalah kueri-kueri yang seluruh atau setidaknya nyaris seluruh dokumen relevannya telah muncul di penemukembalian awal. Hal ini mengindikasikan bahwa pada keadaan-keadaan seperti ini RF sudah tidak cocok lagi digunakan untuk membantu menemukan tambahan dokumen relevan. Perbandingan query-by-query secara lengkap tertera pada Lampiran 6.

Pada lampiran tersebut terlihat bahwa kueri ke-27 yakni “upaya peningkatan pendapatan petani” menunjukkan nilai AVP nol pada NoRF. Ini terjadi karena memang tidak ada satu pun dokumen relevan yang ditemukan. Ketiga stem istilah dalam kueri, yaitu “upaya”, “peningkatan” dan “pendapatan” hanya muncul di tiga dokumen di control group, semuanya tidak relevan. Di lain pihak, stem istilah “petani” muncul di semua dokumen sehingga nilai idf-nya nol, akibatnya bobotnya juga nol. Setelah menggunakan RF nilai AVP kueri ini bisa ditingkatkan mencapai di atas 0.3. Penambahan istilah-istilah dari test group terlihat sangat membantu kinerja kueri ini.

(19)

koleksi pengujian dalam penelitian ini. Hal ini sangat dipengaruhi oleh ukuran koleksi dan gugus jawaban yang relatif kecil.

Selain menunjukkan kinerja yang sangat baik, secara komputasional Ide-Dec-Hi juga lebih efektif daripada Ide-Regular karena hanya menggunakan satu dokumen tak-relevan teratas untuk perhitungan, berbeda dengan Ide-Regular yang menggunakan seluruh dokumen tak-relevan.

0.0 0.2 0.4 0.6 0.8 1.0

0 0.2 0.4 0.6 0.8 1

Recall

Pr

e

s

ic

io

n

Ide-Dec-Hi Ide-Regular NoRF

Gambar 1Kurva recall-precision RG5 dan DH5 pada iterasi ke-1.

0.0 0.2 0.4 0.6 0.8 1.0

0 0.2 0.4 0.6 0.8 1

Recall

P

re

s

ic

io

n

Ide-Dec-Hi Ide-Regular NoRF

Gambar 2 Kurva recall-precision RG10 dan DH10 pada iterasi ke-1.

RF umumnya dipandang sebagai suatu mekanisme untuk meningkatkan recall. Akan tetapi melalui penelitian ini, terlihat dari kurva recall-precision pada Gambar 1-4, precision

setelah menggunakan RF ternyata lebih tinggi pada hampir semua tingkat recall dibanding sebelum menggunakan RF. Ini mengindikasikan bahwa RF juga bisa menjadi mekanisme untuk memperbaiki precision.

0.0 0.2 0.4 0.6 0.8 1.0

0 0.2 0.4 0.6 0.8 1

Recall

P

resi

ci

o

n

Ide-Dec-Hi Ide-Regular NoRF

Gambar 3 Kurva recall-precision RG5 dan DH5 pada iterasi ke-2.

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0

Recall

P

re

s

ic

io

n

Ide-Dec-Hi Ide-Regular NoRF

Gambar 4 Kurva recall-precision RG10 dan DH10 pada iterasi ke-2.

KESIMPULAN DAN SARAN

Kesimpulan

Melalui penelitian ini dapat ditarik kesimpulan sebagai berikut:

(20)

meningkatkan kinerja sistem temu kembali informasi. Pengguna juga cukup dimudahkan karena hanya perlu mengenali dokumen yang dianggapnya relevan, tanpa perlu mendeskripsikannya.

2. Pada kasus kali ini, peningkatan kinerja yang optimal dicapai melalui penggunaan formula Ide-Dec-Hi dan cukup melalui pemeriksaan lima dokumen teratas. Iterasi ke-2 juga tidak perlu dilakukan karena pada iterasi ke-1, RF telah memberikan hasil yang sangat baik dengan tingkat recall mendekati 100%.

3. Penggunaan relevance feeback tidak terlalu membantu pada kueri yang kinerja awalnya memang sudah tinggi. Sebaliknya, untuk kueri-kueri yang memberikan hasil buruk pada pencarian awal, RF sangat cocok untuk digunakan dan menjanjikan peningkatan kinerja yang cukup tinggi.

Saran

Untuk pengembangan penelitian disarankan hal-hal sebagai berikut:

1. Penggunaan koleksi pengujian dan gugus jawaban dengan ukuran maupun jumlah lebih besar sehingga bisa memberikan gambaran yang lebih akurat mengenai kinerja RF pada umumnya.

2. Penggabungan formula Ide-Dec-Hi dengan teknik pemilihan istilah diperkirakan akan memberikan peningkatan kinerja yang cukup signifikan(Selberg EW 1997).

3. Penggunaan teknik Automatic Query Expansion, seperti Local Analysis dan Local Context Analysis. Hasilnya kemudian bisa diperbandingkan dengan RF yang merupakan teknik Interactive Query Expansion.

DAFTAR PUSTAKA

Adisantoso J, Ridha A. 2004. Corpus

Dokumen Teks Bahasa Indonesia untuk Pengujian Efektivitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4. Departemen Ilmu Komputer FMIPA IPB, Bogor.

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information System. Addison-Wesley.

Belkin NJ et al. 2000. Relevance Feedback

versus Local Context Analysis as Term Suggestion Devices. Rutgers' TREC-8 Interactive Track Experience.

Buckley C, Salton G, Allan J. 1994. The

Effect of Adding Relevance Information in a Relevance Feedback Environment Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval.

Chang YK, Cicirillo C, Razon J. 1971.

Evaluation of Feedback Retrieval using Modified Freezing, Residual Collection &Test and Control Groups. The SMART Retreival System - Experiments In Automatic Document Processing 17: 355-370.

Hiemstra D, Leeuwen D.van. 2001.Creating

a Dutch Information Retrieval Test Corpus.

Ide E. 1971. New Experiments in Relevance

Feedback. The SMART Retrieval System - Experiments In Automatic Document Processing 16:337-354.

Liddy E.2001. How a Search Engine Works.

Searcher 9(5). Information Today, Inc.

McEnery T, Wilson A. 2001. Corpus

Linguistic 2nd Edition. Edinburgh University Press.

Ridha A. 2002. Pengindeksan Otomatis

dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. Skripsi. Departemen Ilmu Komputer FMIPA IPB, Bogor.

Ruthven I, Lalmas M. 2003.A Survey on the

Use of Relevance Feedback for Information Access Systems. Knowledge Engineering Review 18(2): 95-145.

Selberg EW. 1997. Information Retrieval

Advances Using Relevance Feedback. Department of Computer Science and Engineering University of Washington, Seattle.

Spink A, Jansen BJ, Ozmultu HC. 2000.

Use of Query Reformulation and Relevance Feedback by Excite Users. Internet Research:Electronic Networking Applications and Policy 10(4):317-328.

Xu J, Croft WB. 1996. Query Expansion

(21)

Research and Development in Information Retrieval.

Xu J, Croft WB. 2000. Improving the

(22)
(23)

Lampiran 1 Proses penemukembalian informasi (Baeza-Yates & Ribeiro-Neto 1999)

User Interface

Operasi Teks

DBModule

Manager

Pengindeksan Operasi Kueri

Pencarian

Perankingan

Indeks

Basisdata Teks

teks

t eks kebut uhan

pengguna

logical view

logical view

inverted file kueri

dokumen yang dit emukan

dokumen teranking

feedback

(24)
(25)

Lampiran 3 Contoh dokumen dalam koleksi

<DOC>

<DOCNO>situshijau051103-001</DOCNO>

<TITLE>Nilai Tukar Petani pada Agustus Naik Setelah Enam Bulan Anjlok</TITLE> <AUTHOR>(MAR/boy/eta)</AUTHOR>

<DATE>05/11/2003</DATE> <TEXT>

Nilai tukar petani (NTP) pada bulan Agustus mengalami kenaikan 1,35 persen dibanding dengan bulan Juli 2003. Kenaikan ini memperbaiki nilai tukar petani yang sejak enam bulan sebelumnya terus anjlok.

Deputi Bidang Statistik Ekonomi Badan Pusat Statistik (BPS) Slamet Mukeno dalam jumpa pers di Jakarta, Senin (3/11), mengatakan, kenaikan NTP disebabkan oleh kemampuan petani tanaman pangan dan tanaman perkebunan rakyat mampu menjual hasil produksinya sebesar 1,96 persen lebih tinggi dibanding dengan bulan Juli. Sementara itu, harga rata-rata barang dan jasa konsumsi rumah tangga pedesaan untuk keperluan produksi pertanian hanya naik 0,60 persen.

Kenaikan itu merupakan kenaikan pertama kalinya sejak bulan Februari tahun ini. Dari laporan BPS sebelumnya, sejak bulan Februari hingga Juli NTP selalu mengalami penurunan. NTP tertinggi terjadi pada bulan Februari. Namun, setelah itu terus turun.

NTP diperoleh dari perbandingan indeks harga yang diterima petani terhadap indeks harga yang dibayar petani. NTP merupakan indikator relatif tingkat kesejahteraan petani. Semakin tinggi NTP, berarti semakin tinggi pula kesejahteraan petani. Pengukuran NTP berdasarkan hasil pemantauan harga-harga di 16 provinsi di Indonesia.

Dari provinsi yang diamati itu, kenaikan NTP bulan Agustus yang tertinggi terjadi di Jawa Tengah, yaitu sebesar 3,39 persen. Hal ini diakibatkan harga cabai merah di Jawa Tengah naik 23,59 persen. Adapun penurunan NTP terendah terjadi di Jawa Timur sebesar 5,44 persen akibat harga tembakau rajangan turun 32,32 persen.

Meskipun demikian, dibanding dengan NTP Agustus 2002, NTP Agustus tahun ini naik 5,66 persen. </TEXT>

(26)

Lampiran 4 Contoh kueri dan deskripsinya

ID : 25

Kata kunci : Institut Pertanian Bogor

Deskripsi : Dokumen dianggap relevan jika memuat informasi hasil penelitian atau laporan kegiatan Institut Pertanian Bogor. Dokumen yang hanya memuat informasi tentang orang atau jabatan tertentu di Institut Pertanian Bogor tanpa menyinggungnya sebagai suatu institusi tidak dianggap relevan.

Contoh dokumen relevan :

<DOC>

<DOCNO>republika100704-002</DOCNO> <TITLE>IPB Benahi Program Penelitian</TITLE> <AUTHOR>ant</AUTHOR>

<DATE>10 juli 2004</DATE>

<TEXT>

BOGOR – Institut Pertanian Bogor (IPB) terus melakukan pembenahan guna menuju research based university. Sebagai perguruan tinggi pertanian di Asia Tenggara, IPB terus memperkuat kegiatan riset."Sudah cukup lama IPB mencita-citakan payung penelitian ini, namun hingga kini hal tersebut masih belum dapat terealisasi karena keinginan dan pola pikir yang terlalu melebar," kata Kepala Lembaga Penelitian dan Pemberdayaan Masyarakat (LPPM) IPB, Prof Dr Rizal Syarief, DESS di Bogor, Jumat pagi.

Lebih lanjut ia menjelaskan bahwa untuk bisa membuat payung penelitian perlu semacam portofolio dan roadmap penelitian. Hal itu diperlukan untuk menganalisis kekuatan, kelemahan, peluang, dan ancaman atau lebih dikenal dengan "Analisis SWOT". "Saat ini IPB mencoba terus menelusuri judul-judul penelitian apa saja yang kita miliki, baik yang dilakukan lembaga pusat, fakultas maupun departemen," katanya.

Ia mengemukakan, tercetusnya payung penelitian ini bermula dari banyaknya penelitian di IPB yang arahnya tersebar. "Kadang-kadang penelitian hanya sebagai karya penelitian dan belum membantu di dalam pemecahan masalah, juga belum memberikan kontribusi dalam konsep, dan barangkali juga belum memberikan kontribusi dalam pengembangan Iptek itu sendiri," katanya.

Oleh karena itu, menurut dia, perlu payung penelitian yang skenario pertamanya adalah bahwa payung itu tidak hanya satu melainkan bisa lebih dari satu, tetapi tidak terlalu banyak. "Dan bentuk payung itu betul-betul mengerucut, bukan terbalik yang tidak menghasilkan apa-apa," katanya.

Dengan adanya payung penelitian ini, diharapkan penelitian IPB benar-benar jelas sasaran dan target yang diinginkan serta hasilnya. Adapun target yang ingin dihasilkan adalah dalam rangka memperkuat pendidikan, perkuliahan, dan pengajaran di IPB, sehingga dari berbagai penelitian di IPB akan keluar paket-paket teknologi yang bisa diterapkan dalam rangka pemberdayaan masyarakat.

Dengan melakukan analisis SWOT, IPB akan mengevaluasi diri untuk melihat kekuatan dan kelemahannya. Hal tersebut nantinya baru akan dibahas pada forum pimpinan IPB sesuai skala prioritas. Dalam upaya memperkuat penelitian itu, maka IPB perlu mencari sumber dana.

Salah satu yang tengah dipikirkan adalah mencoba mengembangkan kembali apa yang disebut livy grant: dana riset dicari dan dialokasikan berdasarkan komoditas. "Tetapi hal ini perlu dipikirkan kembali seperti apa sistemnya," kata Dr Rizal Syarief.

(27)

Lampiran 5 Gugus kueri dan gugus jawaban

No. Kueri Gugus Jawaban

1 gagal panen gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika030903-002, republika060804-001, republika080703, republika090804-01, republika120804-04, republika130704-001, republika130804-02, republika200603, republika230704-005, republika260604-003, situshijau091203-002, situshijau100603-003, situshijau110303-002, situshijau280404-002, suarakarya000000-002-02, suarakarya000000-011, suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002

2 petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901, kompas310702, republika010704-003, republika020804, republika100902, republika140704-004, republika150604-002, republika200704-001, republika220604-002, republika280704-002, republika310704-001, situshijau280203, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

3 industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

4 perdagangan hasil

pertanian

gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006

5 penerapan teknologi pertanian

republika201102, situshijau080103, situshijau270703-005, jurnal000000-001, jurnal000000-011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099, kompas290402, republika131203-001, republika140604-001, republika180504-001, republika220604-003, republika230704-08, suarapembaruan020603-No, suarapembaruan160702, situshijau181103-002, mediaindonesia170403, situshijau281003-003, kompas251003, suarapembaruan060602, wartapenelitian000000-009, situshijau100603-003, situshijau270503-002, indosiar250204-001, situshijau290503-003, wartapenelitian000000-003, republika050903, republika260803, situshijau030603-001, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau270303-004, suarakarya000000-034, wartapenelitian000000-007

6 pupuk organik

balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802,

wartapenelitian000000-002, wartapenelitian000000-008

7 penyakit hewan ternak

gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01

8 penerapan bioteknologi di indonesia

(28)

Lanjutan

No. Kueri Gugus Jawaban

9 laboratorium pertanian

balaipenelitian000000-010, gatra100203, indobic130504-002, indosiar010704, jurnal000000-027, kompas220801, kompas241203, kompas300502-002, mediaindonesia290903-002, republika050804-007, republika120704-005, republika230704-004, republika300604-002, situshijau040603, situshijau051103-02, situshijau100603-001, situshijau140503-001-01, situshijau150403-002, situshijau180603-003, suarakarya000000-003, suaramerdeka031101

10 riset pertanian

situshijau130503-002, situshijau080503-001, gatra270104-002, indobic130504-001, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, republika070604-002, republika140104, republika210704-001, wartapenelitian000000-009, republika210704-003, situshijau040603, situshijau091203-003, situshijau140903-001, situshijau150403-002, situshijau300403, situshijau250203, suarakarya000000-019, suarakarya000000-034, suaramerdeka270601, suarapembaruan020603, suarapembaruan241003, republika100704-002, 018, puslitbang000000-001, 008, jurnal000000-015, republika220604-003, situshijau130103-001, republika190604-001, suarakarya000000-027, situshijau290503-001, situshijau180803-002, suarapembaruan290802-001, situshijau270303-004, suarapembaruan160702, suarakarya000000-001-02, suarapembaruan060602, republika260803, republika190604-002, situshijau140903-003, wartapenelitian000000-007, situshijau140103-002, situshijau201003-002, situshijau210503-001, suarapembaruan110702-01, suarapembaruan110702, suarakarya000000-037, suarapembaruan000000-002, situshijau070503, situshijau181103-002, situshijau210103-003, suarakarya000000-010, republika300604-003, situshijau200103-001, suarapembaruan151102, situshijau200103-001-No, republika280703, republika170604-001, situshijau310303, republika030903-002, republika241203, balaipenelitian000000-012, jurnal000000-019, situshijau101103-004

11 harga komoditas pertanian

kompas270401, indosiar071103, kompas311203, kompas030502-001, suaramerdeka290802, republika140704-004, indosiar180603, pikiranrakyat300604, mediaindonesia060803, indosiar300304, poskota000000-002, kompas180504, poskota000000-003, indosiar240604, jurnal000000-027, kompas030502-002, kompas100399, kompas101004, kompas111099, kompas140802, kompas160304, kompas170104, kompas171002, kompas230603, kompas250901, kompas270502-001, republika090902, wartapenelitian000000-002, situshijau070503, republika060804-001, situshijau280404-003, republika060804-003, mediaindonesia310503, situshijau280404-002, indosiar221003, kompas180502, suarapembaruan220403, kompas 170402, suarapembaruan100903, trubus000004, situshijau280404-001, jurnal000000-022, kompas080702 , kompas270203-001, kompas280602, pikiranrakyat240404, republika030804-002, republika060503 , republika061102, situshijau050703-002, situshijau130203-002, situshijau240203-002, situshijau280203 , suarakarya000000-002-02 , suarakarya000000-021 , suaramerdeka170602-001 , suaramerdeka311003

12 tanaman pangan

bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, republika220604-003, indosiar130104 , mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603 , republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002

13 kelompok masyarakat tani

bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas211103, kompas250901, kompas260304, kompas270502-002, kompas300502-001, replubika110804, republika110604-004, republika131203-001, republika140703, kompas180502, kompas260902, kompas270203-002, republika030304, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103

14 musim panen

(29)

Lanjutan

No. Kueri Gugus Jawaban

15 tanaman obat

indosiar010704, situshijau070103-004, balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar260803-002, republika020604-003, republika270604, republika290604-001, situshijau030203-republika290604-001, situshijau041203, situshijau060503, situshijau101103-003, republika030804-002, situshijau070103-005, situshijau100603-002, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-002, situshijau201003-002, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001, situshijau180203-001, situshijau270303-001

16 gabah kering giling

indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika210704-001, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104

17 impor beras Indonesia

gAtra220802, indosiar200304, republika240604-001, gatra180103, kompas101002, kompas310702, indosiar180603, kompas 170402, kompas050602, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia250304, republika090902, republika210704-001, suaramerdeka130104, republika100704-003, indosiar180703, indosiar300703-002, suarapembaruan100903, republika060804-001, suaramerdeka270601, kompas 170402, republika231202-002, republika231202-001, mediaindonesia160603, republika020604-001, republika100703, republika180504-002, republika230704-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan110903

18 pertanian organik

republika150303, indosiar250204-002, situshijau091203-001, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, situshijau091203-004, republika180303, situshijau070503, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702

19 swasembada pangan

indosiar021203-002, kompas170104, kompas230603, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas230899, kompas270401, kompas270502-002, republika220604-003, republika220604-003, republika060503, mediaindonesia160603, kompas270203-001, suarakarya000000-021, suarakarya000000-002-02, suarapembaruan110903, republika030304, republika061003, republika080703, republika100704-005, republika230902-001, republika230902-002, republika231202-republika230902-001, republika231202-002, suarakarya000000-001-02, suarakarya000000-016, suaramerdeka170602-001, suarapembaruan221102

20 penyuluhan pertanian

bitraindonesia000000-001, gatra190902-02, indosiar310504, 005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, republika200203, republika180303, republika220604-003, situshijau201003-002, republika171003, situshijau270703-001, wartapenelitian000000-007, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika210504-001, republika260604-003, republika300604-003, situshijau230103-001, suaramerdeka271102, wartapenelitian000000-002

21 tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004

22 bencana kekeringan

(30)

Lanjutan

No. Kueri Gugus Jawaban

23 peternak unggas

gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802

24 flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604,

republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104

25 Institut Pertanian Bogor

mediaindonesia290903-002, republika140704-002, republika160604-002, kompas100399, gatra300404, kompas200704, kompas121099, gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, kompas111099, kompas150304-001, kompas200799, mediaindonesia080704, mediaindonesia090704, republika010704-001, republika070604-002, republika230704-08, suarapembaruan260703-001, republika180303, republika100704-002, republika061003, republika100604-002, kompas230704, republika170604-001, situshijau281003-003, republika180604, mediaindonesia101003, republika110604-002, republika190604-001, republika190604-002, republika211002, republika220604-001, situshijau070503, situshijau101103-004, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903

26 pembangunan untuk sektor pertanian

gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas290404, republika131203-001, kompas280602, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika150604-003, republika150903, republika190803, republika251002-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303

27 upaya peningkatan pendapatan petani

indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003, kompas100399, kompas170903, kompas210502, kompas260702, kompas300402, kompas300502-002, kompas200802, kompas270203-001, pembaruan110903, poskota110703, republika030804-002, republika030903-001, republika060804-001, republika060804-003, republika230404, republika231202-001, republika231202-002, republika240604-005, republika241203, republika281202, republika300704-002, situshijau140503-001, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau280203, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602, suarapembaruan290802-001, wartapenelitian000000-005

28 produk usaha peternakan rakyat

jurnal000000-003, kompas120101, kompas150201, mediaindonesia090204, republika150303, mediaindonesia010304, republika100604-002, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102

29 kelangkaan pupuk

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, suarakarya000000-032, suarakarya000000-001-02, suarakarya000000-038, republika050604, republika160604-001, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suaramerdeka161101

30 dukungan pemerintah pada pertanian

(31)

NoRF DH5 Iterasi I RG5 Iterasi I DH10 Iterasi I RG10 Iterasi I

QID Kueri Panjang

Dok. Rel. di

Test Group

Dok. Rel. di Control

Group

AVP AVP

%

Perubahan AVP

%

Perubahan AVP

%

Perubahan AVP

% Perubahan

1 gagal panen 2 24 24 0.401 0.454 13.22% 0.453 12.97% 0.454 13.22% 0.411 2.49%

2 petani tebu 2 10 10 0.526 0.831 57.98% 0.807 53.42% 0.831 57.98% 0.831 57.98%

3 industri gula 2 9 10 0.958 0.958 0.00% 0.958 0.00% 0.958 0.00% 0.983 2.61%

4 perdagangan hasil pertanian 3 14 16 0.045 0.153 240.00% 0.167 271.11% 0.153 240.00% 0.121 168.89% 5 penerapan teknologi pertanian 3 15 24 0.280 0.325 16.07% 0.338 20.71% 0.325 16.07% 0.329 17.50%

6 pupuk organik 2 10 10 0.214 0.261 21.96% 0.261 21.96% 0.261 21.96% 0.212 -0.93%

7 penyakit hewan ternak 3 6 7 0.386 0.515 33.42% 0.499 29.27% 0.515 33.42% 0.453 17.36%

8 penerapan bioteknologi di

indonesia 4 5 37 0.311 0.500 60.77% 0.500 60.77% 0.500 60.77% 0.527 69.45%

9 laboratorium pertanian 2 10 11 0.582 0.456 -21.65% 0.477 -18.04% 0.456 -21.65% 0.621 6.70%

10 riset pertanian 2 13 56 0.169 0.307 81.66% 0.313 85.21% 0.307 81.66% 0.257 52.07%

11 harga komoditas pertanian 3 27 30 0.463 0.347 -25.05% 0.325 -29.81% 0.347 -25.05% 0.313 -32.40%

12 tanaman pangan 2 17 26 0.161 0.184 14.29% 0.184 14.29% 0.184 14.29% 0.152 -5.59%

13 kelompok masyarakat tani 3 12 20 0.265 0.388 46.42% 0.388 46.42% 0.388 46.42% 0.339 27.92%

14 musim panen 2 19 21 0.274 0.238 -13.14% 0.209 -23.72% 0.238 -13.14% 0.244 -10.95%

15 tanaman obat 2 12 17 0.604 0.594 -1.66% 0.593 -1.82% 0.594 -1.66% 0.575 -4.80%

16 gabah kering giling 3 11 13 0.314 0.323 2.87% 0.321 2.23% 0.323 2.87% 0.330 5.10%

17 Impor Beras Indonesia 3 21 22 0.838 0.846 0.95% 0.836 -0.24% 0.846 0.95% 0.841 0.36%

18 pertanian organik 2 16 8 0.580 0.512 -11.72% 0.496 -14.48% 0.512 -11.72% 0.512 -11.72%

19 swasembada pangan 2 11 19 0.530 0.494 -6.79% 0.516 -2.64% 0.494 -6.79% 0.465 -12.26%

20 penyuluhan pertanian 2 9 18 0.343 0.340 -0.87% 0.374 9.04% 0.340 -0.87% 0.328 -4.37%

(32)

NoRF DH5 Iterasi I RG5 Iterasi I DH10 Iterasi I RG10 Iterasi I

QID Kueri Panjang

Dok. Rel. di

Test Group

Dok. Rel. di Control

Group

AVP AVP

%

Perubahan AVP

%

Perubahan AVP

%

Perubahan AVP

% Perubahan

22 bencana kekeringan 2 17 22 0.748 0.860 14.97% 0.863 15.37% 0.860 14.97% 0.867 15.91%

23 peternak unggas 2 10 10 0.597 0.693 16.08% 0.695 16.42% 0.693 16.08% 0.696 16.58%

24 flu burung 2 10 11 0.890 0.873 -1.91% 0.868 -2.47% 0.873 -1.91% 0.873 -1.91%

25 Institut Pertanian Bogor 3 20 20 0.715 0.711 -0.56% 0.703 -1.68% 0.711 -0.56% 0.706 -1.26% 26 pembangunan untuk sektor

pertanian 4 23 23 0.337 0.359 6.53% 0.375 11.28% 0.359 6.53% 0.361 7.12%

27 upaya peningkatan pendapatan

petani 4 10 25 0.000 0.369 n/a* 0.318 n/a* 0.369 n/a* 0.232 n/a*

28 produk usaha peternakan

rakyat 4 5 14 0.308 0.617 100.32% 0.572 85.71% 0.617 100.32% 0.568 84.42%

29 kelangkaan pupuk 2 9 11 0.891 0.894 0.34% 0.884 -0.79% 0.894 0.34% 0.906 1.68%

30 dukungan pemerintah pada

pertanian 4 11 18 0.136 0.476 250.00% 0.466 242.65% 0.476 250.00% 0.425 212.50%

Rataan 2.6 13.06 18.83 0.447 0.516 15.44% 0.512 14.54% 0.516 15.44% 0.504 12.75%

*

(33)

DAN

IDE-REGULAR

Oleh:

Andika Wahyu Agusetyawan

G64101007

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(34)

ANDIKA WAHYU AGUSETYAWAN. Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular. Dibimbing oleh JULIO ADISANTOSO dan AHMAD RIDHA.

Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja perluasan kueri dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa Indonesia. Metode relevance feedback yang digunakan adalah Ide-Dec-Hi dan Ide-Regular. Untuk kepentingan pengujian, penelitian ini juga melengkapi corpus yang digunakan dengan 30 kueri disertai gugus jawabannya. Evaluasi kinerja relevance feedback dilakukan menggunakan testand control group. Masing-masing group terdiri atas 500 dokumen yang berupa artikel-artikel pertanian berbahasa Indonesia dari berbagai situs media massa. Sistem dasar yang digunakan adalah sistem temu kembali berbasis vector space model hasil penelitian Ridha (2002). Sistem ini melakukan rule-based stemming sekaligus memakai stoplist untuk bahasa Indonesia. Variasi jumlah dokumen yang diperiksa yakni lima dan sepuluh.

Hasil penelitian menunjukkan bahwa relevance feedback secara keseluruhan meningkatkan kinerja sistem temu kembali. Siklus relevance feedback dalam penelitian ini telah menunjukkan hasil memuaskanpada iterasi pertama. Peningkatan kinerja terbesar diperoleh ketika menggunakan formula Ide-Dec-Hi. Hasil ini sesuai dengan hasil penelitian Ruthven & Lalmas (2003). Kinerja sist

Gambar

Tabel 3 Perbandingan nilai average precision     sebelum dan setelah menggunakan RF
Gambar 4 Kurva recall-precision  RG10 dan     DH10 pada iterasi ke-2.
Tabel 3 Perbandingan nilai average precision     sebelum dan setelah menggunakan RF
Gambar 4 Kurva recall-precision  RG10 dan     DH10 pada iterasi ke-2.
+2

Referensi

Dokumen terkait

Pemerintah daerah setempat (local authority). Besar-kecilnya dampak terhadap arus lalu lintas dipengaruhi oleh hal-hal sebagai berikut ini. Menarik-tidaknya suatu

KPRI “Bina Tani” Kab Lombok Barat 624/BH/XXII Komp Kantor Bupati Lobar Giri Menang Gerung Koperasi Jasa Berkualitas 358.. Koperasi “Beriuk Sadar” Dsn Dopang Tengah Ds Dopang

Kompetensi linguistik tersebut memungkinkan peneliti dalam membuat penelitian intuitif apakah suatu kalimat di dalam bahasa Bali berterima (gramatikal) atau tidak. Sementara

Faktor-faktor yang mempengaruhi terjadinya bencana longsor lahan di Kecamatan Cikoneng adalah: 1) Lereng yang curam dengan kemiringan lebih dari 25%, 2) Jenis batuan

Jalan kabupaten sebagaimana dimaksud pada ayat (1) merupakan jalan local dalam sistem jaringan jalan primer yang tidak termasuk pada ayat (2) dan ayat (3), yang

3 Untuk mengetahui konsep dari sistem bilangan dan Agar mahasiswa dapat mengetahui dan lebih Pengenalan.. Konsep Dasar Sistem

Catchment Scale Modelling of Point Source and Non-point Source Pollution Loads Using Pollutant Export Coefficients Determined from Long-term in-stream Monitoring

Laporan Keterangan Pertanggungjawaban Bupati Pekalongan Akhir Tahun Anggaran 2016 II - 9 Untuk melaksanakan Misi 3 : Memantapkan Kondisi Sosial Budaya yang Berbasis