• Tidak ada hasil yang ditemukan

Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia

N/A
N/A
Protected

Academic year: 2017

Membagikan "Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia"

Copied!
44
0
0

Teks penuh

(1)

POSITIONAL RELEVANCE MODEL

UNTUK

PSEUDO RELEVANCE FEEDBACK

PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA

SAPARIANSYAH

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

SAPARIANSYAH. Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia. Dibimbing oleh SONY HARTONO WIJAYA.

Dalam pencarian suatu dokumen, pengguna terkadang sulit untuk menentukan kueri yang tepat dalam menemukan informasi yang relevan. Salah satu cara untuk mengatasi masalah tersebut adalah dengan cara memperbaiki kueri yang digunakan oleh pengguna. Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja penggunaan positional relevance model (PRM) sebagai pseudo relevance feedback (PRF) untuk meningkatkan relevansi hasil pencarian dokumen pada sistem temu kembali. Penelitian ini menggunakan metode PRM berdasarkan pada aspek kedekatan dan posisi suatu kata di dalam dokumen. Evaluasi dilakukan dengan menghitung recall dan precision. Hasil pengujian dan analisis sistem terlihat bahwa terjadi peningkatan precision sebesar 4.38% dan recall sebesar 11%.

Kata kunci: feedback, positional relevance model, pseudo relevance feedback

ABSTRACT

SAPARIANSYAH. Positional Relevance Model for Pseudo Relevance Feedback on Indonesian Language Retrieval System. Supervised by SONY HARTONO WIJAYA.

In document retrieval, it is difficult to user to choose a proper query in order to get relevant information. This problem can be solved by reformulating the query. This research tried to improve the relevance of retrieval result by implementing positional relevance model (PRM) for pseudo relevance feedback (PRF) based on the proximity aspect and the position of a word in the document. The evaluation was conducted by calculating recall and precision. The results show that an 4.38% increase in precision and an 11% increase in recall have been obtained.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada

Departemen Ilmu Komputer

POSITIONAL RELEVANCE MODEL

UNTUK

PSEUDO RELEVANCE FEEDBACK

PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA

SAPARIANSYAH

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

Penguji:

(7)

Judul Skripsi : Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia

Nama : Sapariansyah NIM : G64090031

Disetujui oleh

Sony Hartono Wijaya, SKom MKom Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini. Shalawat serta salam selalu tercurah kepada Nabi Muhammad Shallallahu ‘alaihi wa sallam beserta para sahabatnya. Judul tugas akhir yang dipilih dalam penelitian ini adalah Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia. Penulis menyadari bahwa penelitian ini tidak akan selesai tanpa bantuan beberapa pihak. Penulis ingin menyampaikan ucapan terima kasih kepada:

1 Orang tua tercinta, Bapak Salim dan Ibu Sugiyem, yang selalu memberikan doa, nasihat, semangat, dukungan, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini,

2 Bapak Sony Hartono Wijaya, SKom MKom selaku dosen pembimbing. Terima kasih atas kesabaran, arahan, bimbingan serta dukungan dalam penyelesaian tugas akhir ini,

3 Bapak Ir Julio Adisantoso, MKom dan Bapak Aziz Kustiyo, SSi MKom selaku dosen penguji yang telah memberikan masukan terhadap tugas akhir yang penulis kerjakan,

4 Sahabat-sahabat kontrakan Berly’s House. Terima kasih atas kebersamaannya, semangat, dan dukungan. Semoga kita dapat bertemu kembali menjadi orang-orang yang sukses,

5 Teman-teman satu bimbingan Ozi Priawadi, Fadilla Andre Mulyanto, M Ginanjar Ramadhan, dan Yuzar Marsyah serta Ilkomerz46 atas kebersamaan, bantuan, dukungan, dan semangat baik dalam masa kuliah maupun dalam menyelesaikan tugas akhir ini, dan

6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun perkuliahan.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya saran ataupun kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Agustus 2013

(9)

DAFTAR ISI

DAFTAR TABEL vii

DAFTAR GAMBAR vii

DAFTAR LAMPIRAN vii

PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 1

Tujuan Penelitian 1

Manfaat Penelitian 2

Ruang Lingkup Penelitian 2

METODE 2

Koleksi Dokumen/Korpus 3

Indexing 3

Temu Kembali Awal 4

Dokumen Peringkat n Teratas 4

Praproses PRM 4

Penghitungan PRM 4

Formulasi Kueri Baru 6

Evaluasi 6

Lingkungan Implementasi 7

HASIL DAN PEMBAHASAN 7

Koleksi Dokumen/korpus 7

Indexing 8

Temu Kembali Awal 8

Dokumen Peringkat n Teratas 9

Praproses PRM 9

Perhitungan PRM 9

Formulasi Kueri Baru 10

Evaluasi 10

SIMPULAN DAN SARAN 14

(10)

Saran 14

DAFTAR PUSTAKA 15

(11)

DAFTAR TABEL

1 Pengaruh jumlah pengambilan dokumen n teratas terhadap nilai AVP

pada sistem menggunakan PRF (PRM) 11

2 Pengaruh parameter  terhadap nilai AVP pada sistem temu kembali

menggunakan PRF (PRM) 11

3 Pengaruh perluasan kueri terhadap nilai AVP pada sistem temu

kembali menggunakan PRF (PRM) 12

4 Pengaruh parameter  terhadap nilai AVP pada sistem temu kembali

menggunakan PRM 13

DAFTAR GAMBAR

1 Metodologi penelitian 2

2 Contoh dokumen XML 3

3 Konfigurasi indexing pada Sphinx 3

4 Hasil indexing menggunakan Sphinx. Jumlah dokumen yang diindeks berjumlah 2095 dokumen dengan kapasitas 6.3 MB 8

5 Contoh stopwords disusun secara alfabetis 8

6 Contoh 5 dokumen teratas yang disimpan ke dalam basis data 8 7 Contoh array token yang sudah dilakukan tahapan praproses PRM 9 8 Contoh array dari term unik yang diurutkan secara alfabetis 9 9 Contoh isi fail hasil penghitungan PRM yang diurutkan berdasarkan

nilainya secara menurun 10

10 Grafik R-P untuk temu kembali menggunakan PRF (PRM) dan tanpa

PRF 13

DAFTAR LAMPIRAN

1 Contoh dokumen pertanian 17

2 Daftar stopword 18

3 Kandidat term ekspansi (kiri ke kanan, nilai PRM menurun,  = 5,  =

0.8, 1 feedback) 21

4 Gugus kueri dan jawaban pada dokumen pertanian 22 5 Tabel hasil pengujian analisis kinerja sistem yang optimal

menggunakan PRF (PRM). Paramater  = 5, jumlah dokumen feedback = 1, parameter  = 0.8, dan penambahan term sebanyak 1

term 28

6 Tabel hasil pengujian analisis kinerja sistem tanpa menggunakan PRF 29 7 Tabel perbandingan nilai AVP sistem tanpa menggunakan PRM dan

menggunakan PRM* untuk masing-masing kueri pengujian 30

(12)
(13)

PENDAHULUAN

Latar Belakang

Masalah utama pencarian suatu dokumen di dalam koleksi dokumen digital yang sangat besar adalah pengguna tidak memiliki pengetahuan mengenai koleksi dokumen. Hal ini menyebabkan pengguna sulit memformulasikan informasi yang dicari dalam bentuk kueri. Selain itu, pengguna juga membutuhkan waktu yang cukup lama untuk memformulasikan ulang kueri sebelumnya untuk menemu-kembalikan dokumen yang relevan (Baeza-Yates dan Ribeiro-Neto 1999). Dalam temu kembali informasi, salah satu pendekatan untuk mengatasi masalah ini yaitu dengan menggunakan metode lokal (Manning et al. 2008). Metode lokal merupakan teknik untuk menyesuaikan kueri terhadap dokumen yang berasal dari inisialisasi awal kueri sebelumnya. Salah satu metode lokal yang digunakan adalah pseudo relevance feedback (PRF). PRF menggunakan dokumen n teratas saat inisialisasi awal yang diasumsikan relevan untuk membentuk kueri yang baru. Pengguna dapat memperbaiki kueri awal tanpa memperluas interaksi dengan sistem temu kembali. Berbeda dengan relevance feedback yang mengharuskan pengguna untuk melakukan interaksi lebih banyak terhadap sistem temu kembali, terutama saat pemilihan dokumen yang dianggap relevan.

Penelitian terkait sebelumnya yang menggunakan metode secara lokal yaitu penelitian yang dilakukan oleh Anbiana (2009). Penelitian tersebut menggunakan teknik pseudo relevance feedback dengan menggunakan segmentasi dokumen. Kinerja sistem yang dihasilkan mengalami penurunan nilai AVP sebesar 0.0002. Hal ini disebabkan oleh terambilnya dokumen yang tidak relevan sehingga kueri perluasan bukan merupakan kata penciri dokumen.

Penelitian terkait yang lain dilakukan oleh Lv dan Zhai (2010) adalah menggunakan positional relevance model (PRM) untuk teknik PRF pada dokumen berbahasa Inggris. Pengujian penelitian ini menunjukkan bahwa penggunaan PRM untuk PRF dapat meningkatkan hasil pencarian dalam temu kembali dokumen dibandingkan tanpa menggunakan PRM.

Oleh karena itu, penelitian ini menggunakan PRM pada teknik PRF untuk diterapkan pada dokumen teks berbahasa Indonesia.

Perumusan Masalah

Adapun yang menjadi rumusan masalah dalam penelitian ini adalah apakah penggunaan PRM pada PRF dapat diimplementasikan untuk meningkatkan relevansi hasil pencarian sistem temu kembali pada dokumen berbahasa Indonesia.

Tujuan Penelitian

(14)

2

Manfaat Penelitian

Penelitian ini diharapkan dapat meningkatkan hasil pencarian dokumen yang relevan pada sistem pencari (search engine). Di samping itu, peningkatan relevansi dokumen akan memberikan informasi yang akurat kepada para pengguna mesin pencari.

Ruang Lingkup Penelitian

Dokumen yang digunakan adalah dokumen teks berbahasa Indonesia dengan format XML. Dokumen yang diteliti berisi tentang pertanian. Iterasi yang dilakukan dalam proses PRF pada penelitian ini yaitu satu kali dan proses indexing tanpa menggunakan stemming.

METODE

Penelitian ini dilakukan dalam beberapa tahapan, yaitu: pengumpulan dokumen/korpus, indexing, temu kembali awal, pengambilan dokumen n teratas praproses PRM, perhitungan PRM, formulasi kueri baru, dan evaluasi hasil temu kembali (Gambar 1).

Gambar 1 Metodologi penelitian Koleksi

dokumen/korpus

Indexing

Temu kembali awal Kueri

PRF Evaluasi

Dokumen peringkat n teratas

Praproses PRM

Formulasi kueri baru

Perhitungan PRM Tidak

(15)

3 Koleksi Dokumen/Korpus

Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumen-dokumen teks berbahasa Indonesia. Dokumen tersebut merupakan kumpulan berita-berita di bidang pertanian yang berasal dari surat kabar online. Dokumen tersebut tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer FMIPA IPB. Dokumen yang digunakan sudah tersegmentasi dalam format XML (Gambar 2).

Indexing

Tahapan pengindeksan terdiri atas tokenisasi dan pembuangan stopword, tanpa proses stemming. Tokenisasi merupakan proses pembentukan token yang berasal dari dokumen. Token merupakan serangkaian karakter di dalam dokumen yang dikelompokkan secara bersamaan sebagai unit semantik (Manning et al. 2008). Tahap selanjutnya adalah pembuangan stopword. Stopword merupakan kata yang memiliki frekuensi kemunculan paling tinggi di dalam koleksi dokumen (Manning et al. 2008).

Kedua tahapan tersebut diimplementasikan dengan menggunakan Sphinx. Pengaturan parameter indexing dapat dilihat pada Gambar 3.

index prm {

source = srcxml

path = c:/sphinx_xml/data/prm docinfo = extern

min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0

stopwords = c:/sphinx_xml/stopword.txt }

Gambar 3 Konfigurasi indexing pada Sphinx <DOC>

<DOCNO>....</DOCNO> <TITLE>....</TITLE> <AUTHOR>....</AUTHOR> <TEXT>....</TEXT> </DOC>

(16)

4

Temu Kembali Awal

Langkah selanjutnya adalah pencarian dokumen untuk suatu kueri tertentu. Sebelum dilakukan proses pencarian, ada beberapa konfigurasi yang harus dilakukan pada Sphinx antara lain:

1 SetMatchMode: ekspresi pencocokan kueri. Penelitian ini menggunakan

SPH_MATCH_ANY yaitu minimal satu kata pada kueri terdapat di dalam

dokumen hasil pencarian,

2 SetRankingMode: metode pembobotan (ranking) dokumen yang telah

ditemu-kembalikan. Nilai bobot diurut secara menaik. Penelitian ini menggunakan SPH_RANK_BM25 dalam proses pembobotan dokumen.

Dokumen hasil temu kembali dari Sphinx kemudian disimpan dalam basis data untuk dijadikan masukan pada pembuatan PRM.

Dokumen Peringkat n Teratas

Hasil temu kembali dari Sphinx diambil dokumen n teratas untuk dilakukan tahapan praproses PRM. Jumlah dokumen teratas yang diambil di antaranya 1, 2, 3, 4, dan 5 dokumen. Selanjutnya, dokumen ini akan disebut dokumen feedback.

Praproses PRM

Dokumen n teratas (dokumen feedback) dilakukan tahapan tokenisasi sebagai berikut:

 penghapusan tanda baca dan simbol (. , ~`!@#$%^&*()+-=[]{};:"< > / ? \|''), serta angka (0 - 9),

 setiap term diubah menjadi cetak kecil,  tokenisasi,

 pemilihan kandidat term dengan dibatasi 3 karakter,  pembuangan stopword pada kandidat term, dan

 pembentukan term unik (vocabulary) untuk seluruh dokumen feedback.

Penghitungan PRM

(17)

5

| , , ∑ ∑ , i ,i

i

(1)

dengan:

D : dokumen ke-n

|D| : jumlah term pada dokumen ke-n w : term unik

Q : kueri

i : posisi term ke-i di dalam suatu dokumen F : jumlah dokumen feedback

P(w|D,i) merupakan peluang term w pada posisi term ke-i di dalam dokumen D. P(w|D,i) bernilai sama dengan 1, jika term w terdapat di posisi ke-i di dalam dokumen D, selainnya bernilai 0. Sedangkan, P(Q|D,i) adalah peluang kueri Q pada posisi term ke-i pada dokumen D. Berikut perhitungan untuk P(Q|D,i):

| , i ∏ [ , i | ]

(2)

dengan:

: parameter smoothing [0, 1] qj : kueri ke-j

m : panjang kueri

C : model bahasa koleksi.

Metode smoothing yang digunakan adalah Jelinek-Mercer (Lv dan Zhai 2010). Penggunaan metode smoothing untuk mengatasi peluang term yang bernilai 0. P(qj|C) merupakan peluang term kueri ke-j di dalam koleksi dokumen.

Perhitungan P(qj|C) dilakukan dengan cara membagi jumlah frekuensi term kueri

ke-j di dalam koleksi dokumen dengan jumlah token yang terdapat di koleksi dokumen.

P(qj|D,i) dihitung menggunakan kernel Gaussian. Persamaan untuk

menghitung P(qj|D,i) adalah:

( | , i) ∑ ( ,)e (

i

)

c(qk, j) bernilai 1 jika term qk terdapat pada posisi j di dalam dokumen,

(18)

6

Formulasi Kueri Baru

Hasil akhir dari PRM adalah nilai peluang untuk tiap term yang diurutkan secara menurun. Term yang ditambahkan ke kueri awal adalah term yang berada pada urutan teratas dan bukan merupakan term yang terdapat pada kueri awal. Semakin besar nilai peluang sebuah term, maka term tersebut semakin dekat dengan kueri awal. Hasil kueri ekspansi tersebut kemudian digunakan dalam proses temu kembali selanjutnya. Formulasi kueri baru bertujuan untuk memperbaiki kueri yang diberikan pengguna sehingga menemukembalikan dokumen-dokumen relevan yang lebih baik.

Evaluasi

Tahap akhir proses temu kembali dilakukan evaluasi melalui pengukuran recall-precision untuk mengukur tingkat keefektifan sistem-temu kembali. Recall adalah fraksi dokumen-dokumen relevan yang ditemu-kembalikan, sedangkan precision adalah fraksi dari dokumen yang berhasil ditemu-kembalikan dan dianggap relevan (Manning et al. 2008). Persamaan untuk menghitung recall dan precision:

1 Recall

2 Precision

dengan:

tp : true positives merupakan jumlah dokumen yang ditemu-kembalikan dan relevan,

fp : false positives merupakan jumlah dokumen yang ditemu-kembalikan dan tidak relevan, dan

fn : false negatives merupakan jumlah dokumen yang tidak ditemu-kembalikan dan relevan.

Hasil penghitungan recall dan precision untuk tiap recall dihitung menggunakan interpolasi maksimum pada setiap titik recall 0.0 hingga 1.0. Baeza-Yates dan Ribeiro-Neto (1999) menyatakan bahwa evaluasi pada sistem temu kembali biasanya menggunakan beberapa kueri, sehingga untuk kueri yang berbeda akan menghasilkan nilai recall dan precision yang berbeda pula. Average Precision (AVP) digunakan untuk mengevaluasi kinerja sistem temu-kembali untuk seluruh kueri yang diuji dengan menghitung rata-rata nilai precision pada tiap level recall yang dirumuskan sebagai berikut:

̅ i i dengan:

̅(r) : nilai rata-rata precision pada level recall r, Nq : jumlah kueri yang diuji,

(19)

7 Evaluasi dilakukan untuk mengetahui pengaruh jumlah pengambilan dokumen peringkat n teratas, pengaruh parameter  terhadap hasil temu kembali, pengaruh penambahan term pada kueri awal terhadap hasil temu kembali, pengaruh nilai  terhadap hasil temu kembali, dan kinerja sistem menggunakan PRF (PRM) dan tanpa PRF.

Lingkungan Implementasi

Lingkungan implementasi yang digunakan dalam penelitian ini adalah: Perangkat lunak:

 Windows 7 Ultimate 64-bit sebagai sistem operasi,  XAMPP 1.7.4 sebagai web service,

 PHP 5.3.5 sebagai bahasa pemrograman pembuatan library,

 HTML dan CSS sebagai bahasa pemrograman pembuatan user interface,  MySQL sebagai DBMS,

 Sublime Text 2 sebagai text editor dalam penulisan kode program, dan  Sphinx 2.0.5 sebagai platform temu kembali informasi.

Perangkat keras:

 Prosesor Intel Core i7 2.0 GHz,  RAM 8 GB, dan

 HDD 640 GB.

HASIL DAN PEMBAHASAN

Koleksi Dokumen/Korpus

Penelitian ini menggunakan koleksi dokumen yang berjumlah 2095 dokumen tentang pertanian dan berbahasa Indonesia. Dua ribu dokumen diperoleh dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer dan 95 dokumen merupakan dokumen tambahan dari penelitian Pancawan (2012). Dokumen tersebut berasal dari situs web Indonesia, antara lain:

1 Gatra, 2 Indosiar, 3 Kompas,

4 Media Indonesia, 5 Republika, 6 Situs Hijau, 7 Suara Karya,

8 Suara Merdeka, dan lain-lain.

(20)

8

Indexing

Proses indexing dilakukan menggunakan Sphinx untuk temu kembali awal. Sumber dokumen yang dilakukan indexing adalah fail berformat XML. Hasil indexing menggunakan Sphinx dapat dilihat pada Gambar 4.

Jumlah karakter yang diindeks minimal 3 karakter. Kata-kata pada dokumen dilakukan pembuangan stopword yang terdapat pada stopword.txt. Stopword yang digunakan berjumlah 732 kata yang berasal dari penelitian Diva (2012). Contoh stopword dapat dilihat pada Gambar 5. Daftar stopword lebih detil dapat dilihat pada Lampiran 2.

Temu Kembali Awal

Temu kembali awal menggunakan pembobotan BM25 untuk mendapatkan dokumen-dokumen yang sesuai dengan kueri yang diberikan. Dokumen hasil temu kembali diurutkan berdasarkan tingkat relevansinya. Kemudian, 20 dokumen teratas disimpan ke dalam basis data sebagai masukan pada proses selanjutnya (Gambar 6).

Gambar 6 Contoh 5 dokumen teratas yang disimpan ke dalam basis data acapkali ada adakah adakan adalah

adanya adapun aduh agak agaknya ....

Gambar 5 Contoh stopwords disusun secara alfabetis

(21)

9 Dokumen Peringkat n Teratas

Penentuan dokumen peringkat n teratas diambil dari basis data. Pengambilan dokumen tersebut menggunakan SQL dengan kueri SELECT text

FROM retrieve ORDER BY id ASC LIMIT {jumlah_feedback}. Hasil

kueri tersebut bertujuan untuk mengambil n dokumen teratas.

Praproses PRM

Hasil pengambilan dokumen dari n teratas terlebih dahulu dilakukan tahapan praproses PRM, yaitu melakukan penghapusan tanda baca, simbol, dan angka serta mengubah term menjadi cetak kecil menggunakan fungsi

preg_replace dengan bentuk eks resi reguler ‘/[\d\W\s]+/’. roses

tokenisasi menggunakan fungsi preg_split dengan bentuk ekspresi reguler

‘/[\s]/’ di mana tia term akan dipisahkan berdasarkan spasi. Hasil tokenisasi

berupa token-token berbentuk array (Gambar 7).

Term hasil tokenisasi dilakukan penghapusan stopword menggunakan fungsi array_diff. Hasil akhir berupa array token tanpa stopword. Term unik (vocabulary) berasal dari gabungan token dari beberapa dokumen feedback menggunakan fungsi array_count_values. Contoh array dari term unik dapat dilihat pada Gambar 8.

Perhitungan PRM

Term unik yang berasal dari tahapan sebelumnya kemudian dihitung nilai PRM-nya dengan menggunakan rumus pada Persamaan 1 dan 2. Hasil penghitungan nilai PRM untuk tiap term disimpan ke dalam fail berformat plain text. Hasil percobaan menunjukkan bahwa nilai PRM yang lebih dekat posisinya dengan kueri, nilai peluangnya lebih besar dibandingkan dengan term yang jauh posisinya dari kueri. Contoh isi fail hasil perhitungan PRM untuk kueri

“kesejahteraan petani rendah” da at dilihat ada Gambar 9.

abdul abiotik abiotis acid acuan adiwilaga agama agustus ahli aktivitas akurat alat alfa alfred ...

Gambar 8 Contoh array dari term unik yang diurutkan secara alfabetis

Teks awal: “Institut ertanian Bogor I B ”

Array ( [0] => institut [1] => pertanian [2] => bogor [3] => ipb ) Gambar 7 Contoh array token yang sudah dilakukan tahapan

(22)

10

Formulasi Kueri Baru

Formulasi kueri baru diambil dari term yang memiliki nilai PRM teratas.

Misal kueri awal adalah “kese ahteraan etani rendah”, 5 term teratas yang

diurutkan se ara menurun berdasarkan nilai RM kiri ke kanan adalah “ etani -indonesia-kesejahteraan-memprihatinkan-tingkat”. Selan utnya, term tersebut ditambahkan pada kueri awal. Contoh kueri awal yang diekspansi:

 Ekspansi 1 term: “kese ahteraan etani rendah indonesia”,

 Ekspansi 2 term: “kese ahteraan etani rendah indonesia mem rihatinkan”. Detil 5 term teratas untuk tiap kueri dapat dilihat di Lampiran 3. Kueri baru tersebut kemudian ditemu-kembalikan menggunakan Sphinx sebagai hasil dari temu kembali akhir.

Evaluasi

Evaluasi sistem dilakukan dengan cara membandingkan hasil keluaran dari Sphinx tanpa PRF dan menggunakan PRF (PRM). Hasil evaluasi dilakukan dengan menggunakan 20 kueri beserta gugus jawabannya (Lampiran 4). Panjang kueri yang diberikan adalah 3 dan 4 kata yang masing-masing berjumlah 10 kueri.

Evaluasi dilakukan untuk mendapatkan nilai recall dan precision dari sistem terhadap pengujian pasangan kueri dan dokumen relevan. Kemudian dihitung interpolasi maksimum untuk mencari nilai AVP dari sistem.

Pengaruh jumlah pengambilan dokumen n teratas terhadap hasil temu kembali

Pada tahap awal pengujian dilakukan penentuan jumlah dokumen feedback yang optimal. Oleh karena itu, parameter  dan panjang kata yang ditambahkan pada kueri awal dijadikan konstan, yaitu 0.1 dan 1 term, serta paramater  diantaranya: 5, 10, 15, 20, dan 25. Sedangkan jumlah pengambilan dokumen teratas diantaranya 1, 2, 3, 4, dan 5 dokumen.

Berdasarkan batasan pengambilan dokumen n teratas saat pengujian sistem, nilai AVP tertinggi lebih banyak terjadi saat jumlah dokumen feedback yang digunakan hanya 1 dokumen (Tabel 1) untuk setiap parameter  yang diuji. Hal ini menunjukkan bahwa 1 dokumen teratas hasil temu kembali awal mampu merepresentasikan topik yang terdapat pada kueri awal. Selain itu, semakin banyak dokumen feedback, nilai AVP semakin menurun. Selanjutnya, jumlah

petani>>4.5202351197762E-5 indonesia>>4.2301096426082E-5 kesejahteraan>>3.7453711337863E-5 memprihatinkan>>3.6343394818252E-5 tingkat>>3.3356617725631E-5

....

(23)

11 dokumen feedback tersebut ditetapkan sebagai nilai konstan dalam pengujian sistem temu kembali berikutnya.

Pengaruh paramater  (sigma) terhadap hasil temu kembali

Untuk mengetahui pengaruh nilai sigma terhadap kinerja sistem temu kembali menggunakan PRF (PRM), maka dilakukan evaluasi terhadap nilai  diantaranya: 5, 10, 15, 20, dan 25. Agar terlihat pengaruh pada parameter , maka jumlah dokumen feedback dibuat tetap yaitu 1 dokumen, paramater  dari 0.1 sampai 0.9 dengan interval sebesar 0.1, dan jumlah term yang ditambahkan hanya 1 term. Pengaruh parameter  terhadap kinerja sistem temu kembali menggunakan PRF (PRM) dapat dilihat pada Tabel 2.

Sebagian besar nilai AVP terbesar diperoleh saat parameter  bernilai 5 untuk setiap parameter  yang diuji. Nilai tersebut menyatakan bahwa pengambilan term yang menjadi kandidat untuk ekspansi kueri yang baru merupakan term yang posisinya sangat dekat dengan term pada kueri. Dengan memperkecil paramater  tersebut, jangkauan term yang terambil terhadap posisi kueri (titik pusat) menjadi semakin mengecil. Sehingga term-term yang berada di luar daerah jangkauan tersebut memiliki nilai peluang yang kecil dibandingkan term yang terletak di dalam daerah jangkauan. Di samping itu, kenaikan parameter  mengakibatkan nilai AVP semakin menurun. Dengan memperbesar parameter , jangkauan term yang terambil sebagai kandidat untuk ekspansi kueri menjadi semakin melebar. Sehingga term-term yang tidak berhubungan dengan topik pada Tabel 2 Pengaruh parameter  terhadap nilai AVP pada sistem temu kembali

menggunakan PRF (PRM)

 

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 5 0.172 0.172 0.182 0.188 0.188 0.190 0.196 0.199 0.197 10 0.181 0.181 0.181 0.181 0.181 0.186 0.186 0.184 0.184 15 0.181 0.181 0.181 0.181 0.181 0.180 0.177 0.181 0.180 20 0.175 0.173 0.173 0.173 0.173 0.173 0.173 0.173 0.177 25 0.176 0.176 0.176 0.176 0.175 0.175 0.175 0.173 0.177

Tabel 1 Pengaruh jumlah pengambilan dokumen n teratas terhadap nilai AVP pada sistem menggunakan PRF (PRM)

Dokumen feedback

Sigma ()

5 10 15 20 25

(24)

12

kueri ikut terambil. Reformulasi kueri baru yang berasal dari term-term tersebut mengakibatkan terambilnya dokumen-dokumen yang tidak relevan, sehingga dapat menurunkan nilai recall dan precision.

Pengaruh perluasan kueri baru terhadap hasil temu kembali

Perluasan kueri baru yang dihasilkan pada sistem-temu kembali menggunakan PRF (PRM) dapat memengaruhi nilai AVP. Oleh karena itu, parameter  dibuat tetap yaitu 5, 10, dan 15, parameter  sebesar 0.1, jumlah dokumen feedback menjadi 1 dokumen, dan jumlah term yang ditambahkan pada kueri awal diantaranya: 1, 2, 3, 4, dan 5 term. Pengaruh jumlah term yang ditambahkan pada kueri awal dapat dilihat pada Tabel 3.

Tabel 3 menunjukkan bahwa penambahan term baru terhadap kueri awal mengakibatkan nilai AVP semakin menurun. Hal ini disebabkan oleh adanya term yang tidak berhubungan dengan topik yang terdapat pada kueri awal. Penambahan term tersebut menyebabkan posisi dokumen yang relevan menjadi turun dan dokumen yang dianggap tidak relevan menempati posisi atas.

Pengaruh parameter  terhadap hasil temu kembali

Untuk mengetahui pengaruh parameter  terhadap sistem temu kembali, maka jumlah dokumen feedback dibuat tetap yaitu 1 dokumen, parameter  bernilai 5, dan jumlah term yang ditambahkan pada kueri awal sebanyak 1 dan 2 term. Pengujian dilakukan dengan mengatur parameter  dari 0.0 (minimum) sampai 1.0 (maksimum) dengan interval sebesar 0.1. Pengaruh parameter  dapat dilihat pada Tabel 4 .

Saat parameter  bernilai 0.0, perhitungan model bahasa koleksi diabaikan atau dengan kata lain perhitungan PRM lebih ditekankan pada posisi term tertentu di dalam suatu dokumen. Tetapi, saat parameter  bernilai 1.0, perhitungan posisi term di dalam dokumen diabaikan. Tabel 4 menunjukkan bahwa perhitungan PRM yang lebih menekankan posisi term di dalam dokumen memiliki hasil yang kurang baik dibandingkan dengan menekankan perhitungan PRM pada model bahasa koleksi. Namun, saat parameter  berada di antara batas minimum dan maksimum, nilai AVP mencapai nilai tertinggi.

Tabel 3 Pengaruh perluasan kueri terhadap nilai AVP pada sistem temu kembali menggunakan PRF (PRM)

Ekspansi Sigma

Term 5 10 15

1 0.1715 0.1809 0.1809

2 0.1835 0.1698 0.1746

3 0.1805 0.1717 0.1770

4 0.1822 0.1681 0.1771

(25)

13

Kinerja sistem temu kembali menggunakan PRF (PRM) dan tanpa PRF Hasil pengujian menunjukkan bahwa kinerja optimal sistem temu kembali menggunakan PRF (PRM) terjadi saat jumlah dokumen feedback yang digunakan sebesar 1 dokumen, parameter  dan  masing-masing bernilai 5 dan 0.8, dan jumlah penambahan term pada kueri awal sebanyak 1 term. Untuk mengetahui kinerja sistem temu kembali, pengujian dilakukan dengan membandingkan sistem temu kembali menggunakan PRF (PRM) dengan sistem temu kembali tanpa menggunakan PRF. Hasil pengujian menggunakan PRF (PRM) dan tanpa PRF dapat dilihat pada Gambar 10 yang menunjukkan bahwa kinerja sistem menggunakan PRF (PRM) lebih baik dibandingkan dengan tanpa PRF.

Gambar 10 Grafik R-P untuk temu kembali menggunakan PRF (PRM) dan tanpa PRF

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

P

re

ci

si

on

Recall

PRF (PRM) Tanpa PRF Tabel 4 Pengaruh parameter  terhadap nilai AVP

pada sistem temu kembali menggunakan PRM

 Ekspansi

1 term 2 term

0.0 0.1549 0.1554

0.1 0.1715 0.1835

0.2 0.1715 0.1835

0.3 0.1816 0.1912

0.4 0.1879 0.1901

0.5 0.1879 0.1890

0.6 0.1900 0.1893

0.7 0.1958 0.1893

0.8 0.1993 0.1950

0.9 0.1973 0.1876

(26)

14

Kinerja sistem temu kembali menggunakan PRF (Lampiran 5) menghasilkan nilai AVP sebesar 0.1993 (+0.0438) dan nilai recall sebesar 0.96 (+0.11). Hal ini menunjukkan bahwa pencarian dokumen menggunakan PRF (PRM) mampu menemukembalikan 96% dokumen relevan di dalam koleksi dengan tingkat relevansi sebesar 20%. Namun, 7 dari 20 kueri yang dilakukan pengujian mengalami penurunan nilai AVP, 1 kueri memiliki nilai yang tetap, dan kueri lainnya mengalami kenaikan nilai AVP (Lampiran 7). Rata-rata penurunan nilai AVP adalah sebesar 0.0131 dan kenaikan sebesar 0.0806. Penurunan nilai AVP terjadi pada kueri awal dengan panjang 4 kata.

Sedangkan kinerja sistem temu kembali tanpa menggunakan PRF (Lampiran 6) menghasilkan nilai AVP sebesar 0.1555 dan nilai recall yang dihasilkan sebesar 0.85. Hal ini menunjukkan bahwa pencarian dokumen tanpa menggunakan PRF (PRM) rata-rata menemukembalikan 85% dokumen relevan dengan tingkat relevansi sebesar 16%.

SIMPULAN DAN SARAN

Simpulan

Hasil penelitian menunjukkan bahwa penggunaan PRM untuk PRF dapat meningkatkan kinerja sistem temu kembali. Peningkatan kinerja sistem menggunakan PRM sebesar 4.38%.

Saran

Penelitian ini dapat dikembangkan lebih lanjut dalam beberapa perbaikan, yaitu:

(27)

15

DAFTAR PUSTAKA

Anbiana ED. 2009. Pseudo-relevance feedback pada temu kembali menggunakan segmentasi dokumen [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York (US): Addison Wesley.

Diva LM. 2012. Ekspansi kueri pada sistem temu kembali informasi berbahasa indonesia menggunakan analisis konteks lokal [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Manning CD, Raghavan P, Schütze H. 2008. An Introduction to Information Retrieval. Cambridge (GB): Cambridge Univ Pr.

Pancawan MR. 2012. Ekspansi kueri pada sistem temu kembali informasi dengan tesaurus dan bobot irisan [skripsi]. Bogor (ID): Institut Pertanian Bogor. Lv Y, Zhai CX. 2009. Positional language models for information retrieval. Di

dalam: Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval; 2009 Jul 19-23; Boston, Amerika Serikat. Boston (US): ACM. hlm 299-306.

(28)

16

(29)

17 Lampiran 1 Contoh dokumen pertanian

<DOC>

<DOCNO>ahmadheryawan251211</DOCNO>

<TITLE>Pemprov Jabar Dorong Pembentukan Bank Pertanian</TITLE> <AUTHOR></AUTHOR>

<DATE></DATE> <TEXT>

Pemerintah Provinsi Jawa Barat akan mendorong pemerintah pusat untuk mendirikan bank yang khusus mengelola sektor pertanian. Pasalnya, penyaluran kredit perbankan terhadap sektor pertanian sangat rendah. "Kami mendorong agar pemerintah pusat pusat membangun bank khusus pertanian," ujar Gubernur Jawa Barat Ahmad Heryawan usai acara Bankers Dinner di Kantor BI Bandung, Jalan Braga Kota Bandung, Rabu (21/12/2011) malam.

Menurutnya, pendirian bank pertanian sudah sangat mendesak. Dia mencotohkan, Vietnam telah memiliki bank pertanian sehingga sektor pertanian di negara tersebut maju dan berkembang. "Memang harus ada bank yang khusus memberikan keberpihakan kepada sektor pertanian. Jadi, bank pertanian nantinya tidak

hitung-hitungan keuntungan seperti bank-bank konvensional

lainnya," paparnya.

Dia menjelaskan sektor pertanian kurang mendapat kucuran bantuan kredit dari perbankan karena para pelaku usaha kerap terbentur dengan suku bunga yang tinggi. Selain itu, para pelaku sekot pertanian sering terbentur masalah agunan. "Di seluruh Indonesia, penyaluran terhadap sektor pertanian sangat rendah karena suku bunga tinggi dan pemakaian sistem agunan," pungkasnya.

Penyaluran Kredit Pertanian Jabar Masih Rendah

Pangsa pasar kredit pertanian hanya sebesar Rp2,3 triliun atau sekitar 3% dari total kredit. Padahal kontribusi sektor pertanian terhadap perekonomian Jawa Barat mencapai 12%. "Memang penyaluran kreditnya masih rendah hanya sekitar Rp2,3 triliun," ujar ujar Pemimpin BI Bandung Lucky Fathul Aziz Hadibrata usai acara Bankers' Dinner di Kantor BI Bandung, Jalan Braga Kota Bandung, Rabu (21/12/2011) malam.

Meski begitu, Lucky menjelaskan penyaluran kredit sektor pertanian di Jabar pada tahun ini sekitar 3% dari total kredit, lebih tinggi dibandingkan tahun lalu yang hanya 2%. Untuk itu, pihaknya akan terus mendorong perbankan agar memberikan keberpihakan terhadap sektor pertanian. "Kita akan minta komitmen terhadap perbankan agar mempunyai strategi riil terhadap pertanian," jelasnya.

Selain itu, pihaknya juga menargetkan peningkatan pertumbuhan pertanian yang saat ini 23% menjadi 28% pada 2012. Tidak hanya itu, BI Bandung juga berharap penyaluran kredit terhadap pertanian meningkat menjadi Rp5 triliun. "Target kita kedepan, pertumbuhan pertanian mencapai 28% dan penyaluran kreditnya double, sekitar Rp5 triliun," pungkasnya.

(30)

18

Lampiran 2 Daftar stopword

(31)

19 Lampiran 2 Lanjutan

(32)

20

Lampiran 2 Lanjutan

terkait terkecuali terlalu terlebih termasuk ternyata tersebut tertentu

terus tetap tetapi tiap tiba tidak tidaklah tidaknya

tiga tinggi tutur tuturnya ucap ucapan ucapannya ucapkan

ucapnya ujar ujarnya umpamanya umum umumnya ungkap ungkapan

ungkapkan ungkapnya untuk usah usahlah usai usianya waktu

(33)

21 Lampiran 3 Kandidat term ekspansi (kiri ke kanan, nilai PRM menurun,  = 5, 

= 0.8, 1 feedback)

Topik Daftar term

Angsuran pertanian sedikti Pertanian wilayah kelompok kegiatan petani Area pertanian semakin

berkurang

Pertanian hektare area luas bali Bidang pertanian belum

berkembang

Pertanian agatho organis hijau revolusi Dana bidang pertanian rendah Sektor pertanian dana satu indonesia Kesejahteraan petani rendah

Petani indonesia kesejahteraan memprihatinkan tingkat

Mutu hasil pertanian rendah Hasil laut pertanian ekonomi produk Nilai jual komoditas rendah Komoditas harga pertanian jual sendiri Permintaan humus naik Pupuk permintaan petani distribusi sukabumi Persediaan padi memadai Beras dunia indonesia impor persediaan Petani sulit mendapatkan

humus

Bogor menteri petani pro pembangunan Produk asing murah Produk harga sisi asing pertanian Produksi pertanian meningkat Produksi pertanian ton indonesia turun Produksi pertanian menurun Produksi pertanian ton indonesia turun Produktivitas pertanian

rendah

Pertanian produktivitas cisadane tahun cidurian Sawah hancur terendam air Terendam sawah air tanahnya bagian

Sawah kering kekurangan air Kecamatan air sukabumi petani kekurangan Sawah rusak berat Berat rusak puso air bencana

Tarif humus tinggi Pertanian tarif non ekspor tujuan Upaya peningkatan produksi

pertanian

Produksi pertanian peningkatan pendukung komoditas

Wereng serang lahan pertanian

(34)

22

Lampiran 4 Gugus kueri dan jawaban pada dokumen pertanian

Kueri Gugus jawaban

nilai jual komoditas rendah

balipost030608, BisnisIndonesia22022001, gatra030408,

indosiar071103, indosiar190504-002, indosiar240604, indosiar300304, indosiar300703-002, jurnalHorti113, kompas030502-002,

kompas031100, kompas101004, kompas161000, kompas171002, kompas200803, kompas240803, kompas250901, kompas270203-001, kompas270502-001, kompas300502-001, mediaindonesia060803, mediaindonesia170303, mediaindonesia250304, mediaindonesia310503, okezone20022008, panturanews220611, pertaniansehat21042008, pertaniansehat31122007-03, pikiranrakyat21042010,

pikiranrakyat240404, pikiranrakyat300604, poskota000000-003, republika020804, republika05052010, republika060503, republika060804-001, republika060804-003, republika140503, republika211208-049, republika240604-005, republika241008-042, republika300704-002, situshijau15, situshijau181103-001,

situshijau280203, situshijau280404-001, situshijau280404-002, situshijau280404-003, suarakarya000000-021, suarakarya000000-025, suaramerdeka000000-001, suaramerdeka290303,

suarapembaruan110903, suarapembaruan290802-001 persediaan padi

memadai

antarajawabarat211211, beritasore080711, bisnis_jabar191211, bisnisindonesia140911, deptan28052008, eksposnews161211,

gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911, harian_aceh291011, incestordaily310711,

indosiar221003, indosiar240703, kbrh211111, kompas160704, kompas221011, kompas260711, korankaltim260811,

malukunews090811, mediaindonesia231111, menkokesra71211, okezone080711, okezone130711, okezone31701, poskota000000-001, radarbangka040811, republika061102, republika100704-003,

republika180504-002, republika210704-001, republika290604-007, sinartani1075, suaramerdeka090911, suaramerdeka170602, tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711, vivanews122111, vivanews190911 sawah hancur

terendam air

gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104, indosiar021203-001, indosiar031203, indosiar050704-002,

indosiar130104, indosiar130504, indosiar140204, indosiar160304, indosiar180304, kompas170504, kompas210403,

mediaindonesia050604-001, mediaindonesia130210,

mediaindonesia140203, mediaindonesia170209, mediaindonesia180110, mediaindonesia200110, okezone03032010, okezone12112007,

okezone17012008, okezone20022008, pertaniansehat21042008, pikiranrakyat18052010, pikiranrakyat21052010-01,

pikiranrakyat21052010-02, pikiranrakyat23042010, radarbogor020110, situshijau280404-002, suarakarya000000-011, suarakarya000000-015, suaramerdeka251001, surabayapost29010, tempointeraktif160209-060 sawah kering

kekurangan air

deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704, gatra270709, gatra301002, gatra301002-01, gatra310709,

indosiar010903, indosiar040903, indosiar170603, indosiar180304, indosiar220503, indosiar240703, 001, indosiar260803-003, indosiar310504, kompas030704, korantempo3,

mediaindonesia050604-001, mediaindonesia110703,

(35)

23 Lampiran 4 Lanjutan

Kueri Gugus jawaban

republika030903-002, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika230903, republika270503, republika270704-002,

republika290604-007, 002-01, suarakarya000000-002-02, suarakarya000000-021, suaramerdeka130602,

suaramerdeka190903, suaramerdeka290901, suarapembaruan110903, suarapembaruan190809, suarapembaruan260703-001,

suarapembaruan260703-002, tempointeraktif081008-061 area pertanian

semakin berkurang

balipost050908, balipost301208, deptan28052008-1, deptan31072007, gatra100509, gatra230503, jurnal000000-004, kompas020603, kompas030403, kompas031100, kompas101001, kompas120702, kompas130603-001, kompas150104, kompas170504, kompas170903, kompas171002, kompas180303, kompas181202, kompas220399, kompas230899, kompas240503, kompas260203, kompas270203-002, kompas270502-001, kompas290404, kompas290508, kompas290803, kompas310703, korantempo3, mediaindonesia010310,

mediaindonesia021109-2, mediaindonesia050104,

mediaindonesia050709, mediaindonesia120609, mediaindonesia170210, mediaindonesia180210, mediaindonesia180210-2,

mediaindonesia191209, mediaindonesia230104, mediaindonesia281109, mediaindonesia301009, okezone16092009, okezone24012008,

okezone24012010, republika030304, republika060804-004, republika080703, republika090902, republika110604-002, republika120803, republika130804-02, republika150704-004, republika170604-003, republika170704-004, republika190309-011, republika230704-003, republika240604-005, republika241203, republika291008-040, satudunia21102009, situshijau281003-004, suarakarya000000-002-02, suarakarya000000-021,

suaramerdeka170602-001, suarapembaruan040603,

suarapembaruan060602, sumutpos26052010, tempo251211, tempointeraktif110210-030, tempointeraktif120707-050, tempointeraktif160207-025, tempointeraktif181108-065, tempointeraktif231203-029, tempointeraktif231203-078, tempointeraktif240804-017

tarif humus tinggi harianhaluan291111, indosiar060204, indosiar240604, indosiar270504,

indosiar290604, kbr68h041211, kompas100901, kompas110302, kompas210504, kompas211211, kompas241203, kompas270502-002, kompas300502-001, liputan6_100611, mamorema01,

metrotvnews221111, okezone27112008, panturanews220611, pertaniansehat09072008, pikiranrakyat010504-003,

pikiranrakyat05042010, pikiranrakyat05052010, republika160703, situshijau15, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-025, suarakarya000000-029, suarakarya000000-030, suaramerdeka161101, waspada120611

upaya peningkatan produksi pertanian

deptan11062008, deptan14082007, deptan14112007, deptan18022010, deptan22022008, deptan25022008, deptan25022008-1, deptan29072009, deptan31032008, deptan31072007, gatra050508, gatra060206,

(36)

24

Lampiran 4 Lanjutan

Kueri Gugus jawaban

mediaindonesia080210, mediaindonesia091109, mediaindonesia120604-002, mediaindonesia120609, mediaindonesia131209-2,

mediaindonesia190210, mediaindonesia210210, mediaindonesia270309, mediaindonesia270809, okezone12072009, okezone26042008,

okezone27112008, pertaniansehat09012008, pertaniansehat21042008, pertaniansehat31122007, republika010704-003, republika040303, republika050803, republika050903, republika09042010,

republika100210-001, republika100210-030, republika100309-031, republika100902, republika110604-003, republika120804-02, republika120804-03, republika140109-047, republika140703,

republika150703, republika150903, republika151202, republika170704-006, republika230704-08, republika230902-001, republika230902-002, republika230903, republika240604-005, republika241203,

republika260604-001, republika260803, republika290604-007, republika301002, republika310109-017, republika311002-001, republika311002-002, situshijau070103-002, situshijau070503, situshijau140103-001, situshijau180803-001, situshijau200103-001, situshijau281003-004, situshijau290403-002, situshijau310303-No, suarakarya000000-011, suarakarya000000-016, suarakarya000000-028, suarakarya000000-037, suaramerdeka071102, suaramerdeka120104, suaramerdeka190903, suarapembaruan130103, suarapembaruan140303, suarapembaruan220802, suarapembaruan290802-001,

surabayapost020210, surabayapost070110, tempointeraktif051103-021, tempointeraktif160209-060, tempointeraktif160210-020,

tempointeraktif160210-075, tempointeraktif2000608-026, tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609-055, wartapenelitian000000-003 produk asing

murah

analisdaiy211011, indosiar300703-002, kompas100702, kompas101002, kompas131211, kompas170104, kompas180502, kompas250901, kompas270203-002, kompas280602, lampungpost201011, mediaindonesia060803, mediaindonesia170303, okezone210111, poskota000000-003, republika060503, suaramerdeka130104, suarapembaruan100903, suarapembaruan110903, tempo141011 produksi pertanian

menurun

deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103, gatra220802, gatra220802-01, gatra240203,

indosiar010504, indosiar010803, indosiar270504, kompas030403, kompas050303, kompas060503, kompas120102, kompas170402, kompas171002, kompas180303, kompas211211, kompas240103, kompas260902, kompas270203-001, kompas270401, kompas270502-001, mediaindonesia050709, mediaindonesia090409,

mediaindonesia131209-2, mediaindonesia281109,

mediaindonesia300909, okezone09012008, pikiranrakyat020804-001, pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002, republika010704-005, republika030903-002, republika110604-002, republika130804-02, republika170908-027, republika201102, republika231202-001, republika241203, republika281202,

(37)

25 Lampiran 4 Lanjutan

Kueri Gugus jawaban

produktivitas pertanian rendah

balipost301208, deptan18042007, deptan22022008, deptan23072008, gatra010307, gatra180103, gatra240203, indosiar180304, jurnal000000-001, jurnal000000-013, kompas030403, kompas091003, kompas101004, kompas110302, kompas140802, kompas171208, kompas180701, kompas220399, kompas270203-001, kompas270203-002, kompas270401, kompas280602, mediaindonesia050709,

mediaindonesia090409, mediaindonesia190210, mediaindonesia220303, mediaindonesia250304, mediaindonesia250809, mediaindonesia301009, okezone09012008, okezone24012008, okezone24012010,

okezone280111, pertaniansehat12062008, pertaniansehat28022008-01, pikiranrakyat09052010, republika020604-001, republika140109-047, republika150703, republika151202, republika220604-003,

republika241008-042, republika311002-001, republika311002-002, seputarindonesia16052010, situshijau070103-002, situshijau101103-004, situshijau130203-002, situshijau130303-001, situshijau180803-001, situshijau190303-002, situshijau200103-001, situshijau240203-001, situshijau280203, situshijau281003-004, situshijau281003-005, situshijau310303-No, suarakarya000000-028, tempointeraktif300108-022

petani sulit mendapatkan humus

banjarmasinpost181211, gatra230609, harianhaluan291111,

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar290604, kompas210504, kompas211211, kompas300502-001, liputan6_100611, mamorema01, mediaindonesia211211,

metrotvnews221111, okezone27112008, pertaniansehat09072008, pertaniansehat30032008, pikiranrakyat010504-003, republika050604, republika160604-001, republika190504-002, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-031, suarakarya000000-038, suaramerdeka161101, surya121111, tribunnews51011, waspada120611

sawah rusak berat gatra030706, gatra040108, gatra060907, gatra070203, gatra120210,

gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002, gatra301002-01, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar240703, indosiar260803-001, kompas170504, kompas260902, mediaindonesia030603, mediaindonesia050204, mediaindonesia050604-001, mediaindonesia110309,

mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2, mediaindonesia140203, mediaindonesia160603,

mediaindonesia170209, mediaindonesia190503, okezone01062008, okezone12112007, okezone17012008, okezone20022008,

okezone26052009, pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010, pikiranrakyat21052010-01,

pikiranrakyat23042010, pikiranrakyat25052010, radarbogor050608, republika010704-005, republika030903-001, republika030903-002, republika07052010, republika130804-02, republika200603, republika230903, republika25052010-01, republika29042010, situshijau110303-002, situshijau280404-002, suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suaramerdeka190903, suarapembaruan120104, suarapembaruan260703-001,

suarapembaruan260703-002, surabayapost100210, tempointeraktif050205-006,

(38)

26

Lampiran 4 Lanjutan

Kueri Gugus jawaban

mutu hasil pertanian rendah

Deptan04122009, gatra011102, gatra180103, indosiar150104-002, jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303, kompas100702, kompas101002, kompas161000, kompas180502, kompas220801, kompas290404, mediaindonesia030104,

mediaindonesia170403, pikiranrakyat21042010, republika05052010, republika140109-047, republika150604-001, republika211208-049, situshijau01, situshijau030203-002, situshijau070103-002,

situshijau080503-004, situshijau110603-001, situshijau15,

situshijau240203-002, situshijau280404-002, situshijau281003-005, suarakarya000000-013, suaramerdeka000000-001,

suarapembaruan100903250403-004, situshijau270503-002,

situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002

produksi pertanian meningkat

deptan01072008, deptan01092008, deptan03112009, deptan04032008, deptan04082008, deptan04112008, deptan14072008, deptan14112007, deptan19012009, deptan20102008, deptan25022008-1,

deptan27032010, deptan28052008-1, detikfinance27122009, gatra010307, gatra100509, gatra121108, gatra230802, gatra310807, indosiar021203-002, kompas060503, kompas150104, kompas160704, kompas180701, mediaindonesia020809, mediaindonesia080210, mediaindonesia210210, mediaindonesia250809,

mediaindonesia291209, pikiranrakyat10042010,

pikiranrakyat23052010, republika080703, republika09042010, republika100704-003, republika110309-021, republika120804-03, republika130209-045, republika281202, republika300704-002, suarakarya000000-037, surabayapost020310, surabayapost070110, surabayapost110210, surabayapost250110, tempointer aktif130107-064 kesejahteraan

petani rendah

balipost030608, gatra230109, jurnal000000-027, kompas030403, kompas031003, kompas110504, kompas120204, kompas161000, kompas170903, kompas220399, kompas240803, kompas290404, mediaindonesia120209, panturanews220611, pertaniansehat16052008, poskota270411, republika100804, republika110604-002,

sinartani291211, suarakarya000000-002-02, suarakarya000000-021, suarapembaruan100903, suarapembaruan190809,

tempointeraktif200696-016, tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif300108-022 wereng serang

lahan pertanian

balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210, gatra190902, gatra190902-02, indosiar010504,

indosiar010803, indosiar070504, indosiar150104-002, indosiar240604, indosiar270504, indosiar310304, kompas170903, kompas200803, kompas211211, mediaindonesia020310, mediaindonesia030603, mediaindonesia050204, mediaindonesia050309,

mediaindonesia050604-001, mediaindonesia090409, mediaindonesia110309, mediaindonesia120110, mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503, mediaindonesia221209,

mediaindonesia240110, okezone09012008, okezone23022008, okezone26052008, pikiranrakyat020804-001, pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010,

pikiranrakyat21042010, pikiranrakyat25052010,

(39)

27 Lampiran 4 Lanjutan

Kueri Gugus jawaban

republika29042010, situshijau030203-002, situshijau030603-002, situshijau110303-002, situshijau14, situshijau180603-001,

suarakarya000000-011, suarakarya000000-033, suaramerdeka131001, suarapembaruan120104, surabayapost100210, surabayapost231209, tempointeraktif090609-076, tempointeraktif130107-064

bidang pertanian belum berkembang

balipost030608, balipost050908, balipost301208, gatra230109, gatra290903, jurnal000000-027, kompas030403, kompas031003, kompas050303, kompas091003, kompas120204, kompas150304-002, kompas170104, kompas171002, kompas180504, kompas220399, kompas240803, kompas270502-001, mediaindonesia050604-002, mediaindonesia100203, mediaindonesia180504,

mediaindonesia250803, metrotvnews17112009, okezone280111, poskota270411, republika080210-002, republika080210-033, republika091009-016, republika190504-002, sinartani291211, suarakarya000000-002-02, suarakarya000000-021,

tempointeraktif160209-060, tempointeraktif200696-016, tempointeraktif211003-001, tempointeraktif211003-003, tempointeraktif260607-008

angsuran pertanian sedikit

ahmadheryawan251211, antaranews031110, beritadaerah081111, bisnisindonesia101211, bisnisjabar080911, detik100211,

inilahjabar221211, kabarbisnis291211, kompas110201,

kompas120204, kompas140209, kompas170911, kompas220901-001, korankaltim001, medanbisnis060911, mediaindonesia170712, mediaindonesia260711, metrotvnews181211, pikiranrakyat161211, republika110504, republika110604-003, seputarsulawesi081111, suaramerdeka090707, tempointeraktif180809-028,

theglobejurnal290709, tribunnews151211, ujungpadangekspres091111, wartakota0001, wsp_agro01, yiela120910

dana bidang pertanian rendah

antaranews211111, banjarmasinpost180711, bataviase070710, gatra131011, kompas040111, kompas210502, lampungpost081211, mediaindonesia090903, metrotvnews261211, neraca180811, okezone280111, panturanews220611, partaimerdeka01, poskota270411, prakarsa_rakyat190811, republika110504,

republika110604-003, republika290704-001, seputarindonesia051011, seputarindonesia271211, sinartani00002, sinartani291211,

sinartani291211, tempo251211, tribunnews061211, waspada101011 permintaan humus

naik

bataviase200511, gatra230609, kbr68h041211, kompas151211, kompas210504, kompas211211, kompas230209, kompas300502-001, lampungpost121111, metrotvnews221111, pertaniansehat30032008, pikiranrakyat010504-003, pikiranrakyat07052010,

pikiranrakyat100310, pikiranrakyat16042010,

(40)

28

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

angsuran pertanian sedikit 1.00 0.27 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.02

area pertanian semakin berkurang 1.00 0.60 0.50 0.37 0.25 0.18 0.17 0.14 0.10 0.08 0.05

bidang pertanian belum berkembang 0.23 0.11 0.10 0.07 0.07 0.07 0.07 0.06 0.05 0.05 0.02

dana bidang pertanian rendah 0.17 0.11 0.09 0.07 0.07 0.07 0.07 0.07 0.04 0.03 0.00

kesejahteraan petani rendah 1.00 0.44 0.23 0.15 0.15 0.10 0.08 0.07 0.05 0.04 0.02

mutu hasil pertanian rendah 0.13 0.13 0.13 0.10 0.09 0.06 0.05 0.03 0.02 0.02 0.00

nilai jual komoditas rendah 0.40 0.39 0.33 0.29 0.29 0.19 0.18 0.14 0.13 0.11 0.08

permintaan humus naik 0.60 0.60 0.60 0.56 0.56 0.55 0.55 0.55 0.13 0.11 0.05

persediaan padi memadai 0.50 0.36 0.36 0.20 0.20 0.19 0.12 0.12 0.12 0.12 0.00

petani sulit mendapatkan humus 0.05 0.05 0.05 0.05 0.05 0.04 0.04 0.04 0.04 0.03 0.03

produk asing murah 0.42 0.42 0.42 0.42 0.42 0.42 0.31 0.14 0.11 0.07 0.05

produksi pertanian meningkat 0.11 0.11 0.11 0.11 0.11 0.11 0.09 0.08 0.08 0.07 0.04

produksi pertanian menurun 1.00 0.30 0.11 0.11 0.11 0.11 0.11 0.09 0.07 0.05 0.00

produktivitas pertanian rendah 0.50 0.26 0.19 0.14 0.13 0.10 0.07 0.05 0.04 0.03 0.00

sawah hancur terendam air 1.00 0.75 0.41 0.38 0.38 0.26 0.22 0.12 0.05 0.00 0.00

sawah kering kekurangan air 0.56 0.55 0.36 0.36 0.33 0.30 0.24 0.21 0.18 0.13 0.00

sawah rusak berat 1.00 1.00 0.71 0.56 0.52 0.52 0.38 0.31 0.23 0.16 0.00

tarif humus tinggi 0.03 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.00 0.00

upaya peningkatan produksi pertanian 0.44 0.30 0.29 0.21 0.19 0.15 0.13 0.13 0.11 0.10 0.00

wereng serang lahan pertanian 1.00 0.16 0.09 0.09 0.09 0.07 0.05 0.05 0.04 0.04 0.00

(41)

29

Topik Recall

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

angsuran pertanian sedikit 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.06 0.02

area pertanian semakin berkurang 1.00 0.67 0.43 0.21 0.19 0.12 0.11 0.10 0.08 0.07 0.05

bidang pertanian belum berkembang 0.23 0.11 0.10 0.07 0.07 0.07 0.07 0.06 0.05 0.05 0.02

dana bidang pertanian rendah 1.00 0.06 0.06 0.06 0.06 0.06 0.06 0.04 0.03 0.02 0.00

kesejahteraan petani rendah 1.00 0.50 0.22 0.12 0.10 0.07 0.05 0.05 0.03 0.02 0.02

mutu hasil pertanian rendah 0.15 0.15 0.15 0.11 0.10 0.07 0.05 0.03 0.02 0.02 0.00

nilai jual komoditas rendah 0.33 0.14 0.14 0.14 0.10 0.09 0.00 0.00 0.00 0.00 0.00

permintaan humus naik 1.00 0.44 0.18 0.18 0.12 0.11 0.09 0.06 0.00 0.00 0.00

persediaan padi memadai 0.40 0.08 0.08 0.05 0.04 0.04 0.00 0.00 0.00 0.00 0.00

petani sulit mendapatkan humus 0.07 0.07 0.07 0.07 0.07 0.05 0.05 0.05 0.05 0.03 0.03

produk asing murah 0.42 0.42 0.42 0.37 0.33 0.21 0.09 0.09 0.04 0.00 0.00

produksi pertanian meningkat 0.08 0.08 0.08 0.08 0.08 0.08 0.07 0.05 0.05 0.04 0.03

produksi pertanian menurun 1.00 0.12 0.12 0.12 0.10 0.08 0.08 0.07 0.06 0.03 0.00

produktivitas pertanian rendah 0.50 0.26 0.19 0.14 0.10 0.10 0.08 0.06 0.04 0.03 0.00

sawah hancur terendam air 1.00 0.75 0.41 0.41 0.41 0.29 0.23 0.13 0.05 0.00 0.00

sawah kering kekurangan air 0.50 0.50 0.38 0.38 0.38 0.33 0.26 0.22 0.17 0.10 0.00

sawah rusak berat 1.00 0.78 0.52 0.51 0.30 0.24 0.17 0.13 0.12 0.00 0.00

tarif humus tinggi 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

upaya peningkatan produksi pertanian 0.44 0.31 0.30 0.21 0.19 0.15 0.14 0.13 0.11 0.10 0.00

wereng serang lahan pertanian 1.00 0.16 0.09 0.09 0.09 0.07 0.05 0.05 0.04 0.04 0.00

L

am

pi

ra

n

6

T

ab

el

h

as

il

pe

nguj

ia

n a

na

lis

is

ki

ne

rj

a

si

st

em

ta

npa

m

enggun

aka

n

P

RF

(42)

30

Lampiran 7 Tabel perbandingan nilai AVP sistem tanpa menggunakan PRM dan menggunakan PRM* untuk masing-masing kueri pengujian

Topik

AVP

Selisih Tanpa

PRF

PRF (PRM)

angsuran pertanian sedikit 0.0522 0.1440 0.0918 area pertanian semakin berkurang 0.2752 0.3126 0.0373 bidang pertanian belum berkembang 0.0833 0.0833 0.0000 dana bidang pertanian rendah 0.1328 0.0730 -0.0599 kesejahteraan petani rendah 0.1994 0.2122 0.0128 mutu hasil pertanian rendah 0.0750 0.0693 -0.0057 nilai jual komoditas rendah 0.0868 0.2295 0.1427

permintaan humus naik 0.1993 0.4410 0.2417

persediaan padi memadai 0.0621 0.2098 0.1477

petani sulit mendapatkan humus 0.0535 0.0415 -0.0120

produk asing murah 0.2161 0.2894 0.0734

produksi pertanian meningkat 0.0660 0.0928 0.0268 produksi pertanian menurun 0.1615 0.1869 0.0254 produktivitas pertanian rendah 0.1351 0.1387 0.0036 sawah hancur terendam air 0.3340 0.3257 -0.0083 sawah kering kekurangan air 0.2934 0.2915 -0.0019

sawah rusak berat 0.3424 0.4897 0.1473

tarif humus tinggi 0.0019 0.0187 0.0168

upaya peningkatan produksi pertanian 0.1886 0.1851 -0.0035 wereng serang lahan pertanian 0.1521 0.1519 -0.0002

Keterangan:

: mengalami penurunan nilai AVP

* Pengujian dilakukan dengan parameter  dan  masing-masing bernilai 0.8 dan 5, jumlah

(43)
(44)

32

RIWAYAT HIDUP

Penulis dilahirkan di kabupaten Berau (Kalimantan Timur) pada tanggal 7 September 1989 dari ayah Salim dan ibu Sugiyem. Penulis merupakan anak keempat dari lima bersaudara.

Pada tahun 2009 penulis lulus SMAN 4 Berau dan di tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Tahun 2010, penulis diterima di mayor Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

Gambar

Gambar 1  Metodologi penelitian
Gambar 4  Hasil indexing menggunakan Sphinx. Jumlah dokumen
Gambar 9 Contoh isi fail hasil penghitungan PRM
Tabel 4 Pengaruh parameter  terhadap nilai AVP pada sistem temu kembali menggunakan PRM

Referensi

Dokumen terkait

Berdasarkan hasil skrining fitokimia yang telah dilakukan, diperoleh hasil bahwa ekstrak etanol daun ketapang mengandung senyawa alkaloid dan flavonoid, di Fraksi Heksana

Pemerintah daerah setempat (local authority). Besar-kecilnya dampak terhadap arus lalu lintas dipengaruhi oleh hal-hal sebagai berikut ini. Menarik-tidaknya suatu

Jalan kabupaten sebagaimana dimaksud pada ayat (1) merupakan jalan local dalam sistem jaringan jalan primer yang tidak termasuk pada ayat (2) dan ayat (3), yang

Laporan Keterangan Pertanggungjawaban Bupati Pekalongan Akhir Tahun Anggaran 2016 II - 9 Untuk melaksanakan Misi 3 : Memantapkan Kondisi Sosial Budaya yang Berbasis

[r]

Berdasarkan temuan penelitian, dapat disimpulkan bahwa perangkat pembelajaran berbasis learner autonomy yang dikembangkan dinyatakan layak untuk meningkatkan

Menurut  Hanafiah,  Syafi’iyah  dan  Hanabilah,  tasarruf  oleh  rahin  terhadap  jaminan  sebelum  barang  diserahkan  (diterima)  hukumnya  boleh  dilangsungkan 

Faktor-faktor yang mempengaruhi terjadinya bencana longsor lahan di Kecamatan Cikoneng adalah: 1) Lereng yang curam dengan kemiringan lebih dari 25%, 2) Jenis batuan