• Tidak ada hasil yang ditemukan

Pseudo-Relevance Feedback on Retrieval Using Document Segmentation.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Pseudo-Relevance Feedback on Retrieval Using Document Segmentation."

Copied!
58
0
0

Teks penuh

(1)

ABSTRACT

ELENUR DWI ANBIANA. Pseudo-Relevance Feedback on Retrieval Using Document Segmentation. Supervised by JULIO ADISANTOSO.

(2)

PSEUDO-RELEVANCE FEEDBACK

PADA TEMU-KEMBALI

MENGGUNAKAN SEGMENTASI DOKUMEN

ELENUR DWI ANBIANA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

PSEUDO-RELEVANCE FEEDBACK

PADA TEMU-KEMBALI

MENGGUNAKAN SEGMENTASI DOKUMEN

ELENUR DWI ANBIANA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(4)

PSEUDO-RELEVANCE FEEDBACK

PADA TEMU-KEMBALI

MENGGUNAKAN SEGMENTASI DOKUMEN

ELENUR DWI ANBIANA

Skripsi

Sebagai salah satu syarat untuk memperoleh

gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(5)

ABSTRACT

ELENUR DWI ANBIANA. Pseudo-Relevance Feedback on Retrieval Using Document Segmentation. Supervised by JULIO ADISANTOSO.

(6)

Judul : Pseudo-Relevance Feedback pada Temu-kembali menggunakan Segmentasi Dokumen Nama : Elenur Dwi Anbiana

NRP : G64050873

Menyetujui:

Pembimbing

Ir. Julio Adisantoso, M.Kom NIP 196207141986011002

Mengetahui:

Dekan Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. drh. Hasim, DEA NIP 196103281986011002

(7)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 24 Pebruari 1988 dari ayah Bambang Subekti, S. Sos. dan ibu Siti Rohaya. Penulis merupakan anak kedua dari tiga bersaudara.

Pada tahun 2005 penulis lulus dari SMAN 55 Jakarta dan di tahun yang sama lulus seleksi masuk IPB melalui jalur Seleksi Penerimaan Mahasiswa Baru. Tahun 2006, penulis diterima di mayor Ilmu Komputer, Fakultas Matematika dan Pengetahuan Alam.

(8)

PRAKATA

Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan kehadirat Allah SWT atas segala

karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir yang dipilih dalam penelitian dan dilaksanakan sejak bulan Pebruari 2009 adalah Pseudo-Relevance Feedback pada Temu-kembali menggunakan segmentasi dokumen.

Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso, M. Kom selaku dosen pembimbing, ibu Yeni Herdiyeni S. Si, M. Kom dan Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta staf Departemen Ilmu Komputer FMIPA IPB. Disamping itu, terima kasih penulis ucapkan kepada orangtua tercinta Bambang Subekti S.Sos dan Siti Rohaya, Agetya Wibriani S.Sos, Sri Nur Wulan Sari, Syarif Ubaidillah, Christina Eka Wardhani S. Kom, Mega Wirna Yulianti S.Kom, Noviana Pramitasari S. Kom, atas doa, perhatian dan dukungannya, Netty Laora Sitohang, Muthia Aziza, Dewa Ayu Tenara K.C., Utis Sutisna, teman-teman Program Studi Ilmu Komputer angkatan 42, pengurus Badan Eksekutif Mahasiswa FMIPA IPB, pengurus KAMMI Komisariat IPB dan seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Agustus 2009

(9)

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... v

DAFTAR LAMPIRAN ... v

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA ... 1

Relevance Feedback... 1

Pseudo – Relevance Feedback... 1

Vector Space Model ... 2

Algoritme VIPS ... 3

METODOLOGI PENELITIAN ... 3

Inisialisasi Temu-kembali ... 3

Segmentasi Dokumen ... 3

Penyeleksian Segmen ... 3

Penyeleksian Expansion Terms ... 4

Temu-kembali Final ... 4

Evaluasi Hasil Temu-kembali... 4

HASIL DAN PEMBAHASAN... 4

Temu-kembali Informasi Klasik ... 4

Evaluasi Pseudo-Relevance Feedback Berdasarkan segmentasi Dokumen... 5

KESIMPULAN DAN SARAN... 7

Kesimpulan ... 7

Saran ... 7

DAFTAR PUSTAKA ... 7

(10)

DAFTAR GAMBAR

Halaman

1 Ukuran kemiripan sebagai nilai kosinus dari sudut θ. ... 2

2 Algoritme ekstraksi blok visual. ... 3

3 Metodologi Penelitian. ... 3

4 Tahapan dalam praproses dokumen. ... 4

5 Perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas. ... 5

6 Perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat y teratas. ... 6

7 Perbandingan kinerja sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen... 6

DAFTAR LAMPIRAN Halaman 1 Antarmuka implementasi. ... 9

2 Contoh dokumen XML dalam koleksi pengujian. ... 10

3 Gugus Kueri dan Jawaban. ... 11

4 Tabel hasil analisis kinerja sistem tanpa PRF. ... 17

5 Tabel hasil analisis kinerja sistem PRF. ... 18

(11)

PENDAHULUAN

Latar Belakang

Web merupakan sumber informasi terbesar di dunia, namun penyimpanan dan temu-kembali informasi yang efektif di dalam web masih menjadi permasalahan pada saat ini. Sejumlah besar informasi akurat dan dapat diakses secara cepat dan tepat belum dapat terwujud.

Bentuk sederhana dari penemuan dokumen adalah komputer melakukan pengurutan dokumen yang ada. Proses pengurutan dokumen berarti memproses koleksi besar dokumen digital (korpus) dengan memberikan nilai bobot ke dalam tiap-tiap dokumen berdasarkan kueri pengguna. Namun, dokumen digital yang diproses ini selalu bertambah dan korpus tersebut dapat memiliki milyaran, bahkan trilyunan istilah. Dengan demikian, diperlukan operasi pencocokan yang fleksibel untuk kueri pengguna dengan semua istilah di korpus.

Pseudo-relevance feedback merupakan teknik analisis lokal secara otomatis (teknik relevance-feedback tanpa input eksplisit pengguna). Teknik ini mengekstrak terms dari dokumen peringkat teratas (dalam pseudo-relevance feedback, dokumen peringkat teratas dianggap relevan) untuk memformulasikan sebuah kueri baru pada temu-kembali selanjutnya. Pada dasarnya, sebuah dokumen terdiri atas berbagai topik, sehingga dokumen dapat digantikan oleh segmen yang mewakili sebuah topik dalam dokumen peringkat teratas. Pada penelitian, digunakan tahap ekstraksi blok visual (tahap pertama VIsion based Page Segmentation algorithm) untuk mensegmentasi dokumen peringkat teratas.

Menurut Yu, Cai, Wen dan Ma (2003), teknik pseudo-relevance feedback berdasarkan segmentasi dokumen cukup baik diterapkan dalam pengambilan kueri perluasan baru. Kueri perluasan baru ini diambil dari segmen yang terkait dengan dokumen peringkat teratas. Dengan demikian, teknik pseudo-relevance feedback berdasarkan segmentasi dokumen dapat digunakan dalam meningkatkan kinerja temu-kembali informasi.

Tujuan

Penelitian ini bertujuan mengimplementasi dan menganalisis kinerja kueri perluasan dengan teknik pseudo-relevance feedback berdasarkan segmentasi dokumen.

Ruang Lingkup

Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia. Dokumen ini merupakan berita-berita dari surat kabar online yang tersedia di Laboratorium Temu-kembali Informasi dan berjumlah 1000 dokumen.

TINJAUAN PUSTAKA

Relevance Feedback

Menurut Baeza-Yates dan Ribeiro-Neto (1999), relevance feedback (RF) adalah teknik yang terkenal dalam merekonstruksi kueri. Pada siklus RF, pengguna diminta memberi tanda pada dokumen hasil temu-kembali yang dianggap relevan. Ide dasarnya, penyeleksian expansion terms diambil dari dokumen yang diidentifikasi relavan oleh pengguna, expansion terms peringkat x teratas ditambah kueri pengguna digunakan sebagai formulasi kueri baru. Formulasi kueri baru ini diharapkan menggeser dokumen relevan ke atas dan dokumen tidak relevan ke bawah.

RF memiliki kelebihan dari teknik rekonstruksi kueri lain, yaitu:

1. Membantu pengguna untuk menghindari proses detil reformulasi kueri, karena pengguna telah memberikan keputusan untuk dokumen yang dianggap relevan. 2. Meringkas tahap pencarian yang

dilakukan.

3. Menyediakan proses yang kontrol yang dibuat untuk mengambil expansion terms relevan (penciri dokumen) dan membuang selainnya.

Berdasarkan buku Risjbergen (1979), permasalahan teknik relevance feedback adalah cara pengguna dalam menentukan dokumen yang relevan dan tidak relevan dalam hasil temu-kembali. Secara operasional, pengguna perlu menelusuri lebih lanjut isi dokumen hasil temu-kembali, agar diketahui kerelevanan sebuah dokumen, kemudian dirumuskan ulang kueri baru untuk temu-kembali selanjutnya. Pseudo Relevance Feedback

(12)

documents (dianggap sebagai dokumen relevan) untuk merumuskan sebuah kueri baru yang akan digunakan dalam proses temu-kembali selanjutnya. Melalui ekspansi kueri, beberapa dokumen relevan yang hilang pada proses inisialisasi temu-kembali ditemukembalikan dalam proses selanjutnya, sehingga kinerja temu-kembali dapat ditingkatkan secara menyeluruh. Intinya, teknik ini sangat bergantung pada kualitas expansion terms yang dipilih. Pada pseudo-relevance feedback, kualitas expansion terms sangat dipengaruhi oleh dokumen-dokumen peringkat teratas.

Berdasarkan buku Baeza-Yates dan Ribeiro-Neto (1999), teknik ini menganggap sistem yang mengambil top-n documents sebagai dokumen relevan lebih baik daripada pengguna memilih top-k relevant documents. Artinya, pengguna dapat memperbaiki hasil temu-kembali tanpa harus memperluas interaksi. Teknik ini akan efektif dalam beberapa pengaturan, kemungkinan besar saat kueri asli bersifat panjang dan tepat. Perluasan yang menarik untuk teknik ini ialah menggunakan output dari hasil temu-kembali clustering sebagai input mekanisme relevance feedback, melalui pengguna atau sistem yang memilih kluster yang digunakan, akan tetapi ide ini belum dievaluasi.

Vector Space Model

Vector space model dalam buku Baeza-Yates dan Ribeiro-Neto (1999) menyatakan kegunaan pembobotan dalam bilangan biner sangat membatasi, sehingga digunakan bobot tak biner untuk pembobotan indeks istilah didalam kueri dan dokumen. Bobot istilah ini digunakan untuk mengkomputasi kemiripan kosinus di antara setiap dokumen yang digunakan oleh sistem dan kueri dari pengguna. Jarak di antara tiap vektor dokumen diambil berdasarkan nilai kosinus dari sudut θ yang terdefinisi di antara dua buah vektor dokumen, diilustrasikan pada Gambar 1.

Menurut Manning (2008), perhitungan kemiripan nilai kosinus diformulasikan sebagai berikut: dokumen merupakan pembobotan indeks istilah menggunakan pendekatan tf.idf. Perhitungan

bobot indeks istilah tf.idf dengan pendekatan diformulasikan sebagai berikut:

Wt,d = tft,d . idftWt,d = tft . log(N/dft) Diasumsikan, Wt,d adalah bobot istilah t dalam dokumen d, tft,d adalah frekuensi istilah t dalam dokumen d, idft adalah frekuensi dokumen inverse istilah t (idft = log(N/dft)), N adalah jumlah dokumen di dalam korpus dan dft adalah jumlah dokumen yang mengandung istilah t.

Gambar 1 Ukuran kemiripan sebagai nilai kosinus dari sudut θ.

Manning (2008) menyatakan penilaian kinerja metode vector space model, menggunakan pengukuran recall-precision (R-P). Perhitungan recall-precision diformulasikan sebagai berikut:

Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritme temu-kembali dievaluasi dengan menggunakan beberapa kueri berbeda, pastinya nilai R-P masing-masing kueri akan berbeda pula. Average precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall. Umumnya digunakan sebelas tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1.0. Perhitungan AVP diformulasikan sebagai berikut:

(13)

Algoritme VIPS

Dalam penelitian Yu, Cai Wen dan Ma (2003), algoritme VIPS – VIsion based Page Segmentation mensegmentasi dokumen (web) dalam tiga tahapan, yaitu: ekstraksi blok visual, pendeteksian pemisah visual dan konstruksi struktur isi. Pertama-tama, dokumen disegmentasi ke dalam beberapa blok besar. Untuk setiap blok besar, proses segmentasi yang sama dilakukan berulang-ulang sampai cukup mendapatkan blok kecil yang dapat mewakili sebuah topik dalam sebuah dokumen.

Ekstraksi blok visual bertujuan untuk menemukan semua blok visual yang terdapat dalam dokumen. Algoritme ekstraksi blok visual direpresentasikan pada Gambar 2.

Algoritme DivideDomtree(pNode, nLevel) {

IF (Divideable(pNode, nLevel) == TRUE)

FOR EACH child OF pNode DivideDomtree(child,

Gambar 2 Algoritme ekstraksi blok visual.

METODOLOGI PENELITIAN

Penelitian ini dilaksanakan dalam enam tahap, yaitu: (1) temu-kembali awal, (2) segmentasi dokumen, (3) penyeleksian segmen, (4) peyeleksian expansion terms, (5) kembali akhir dan (6) evaluasi hasil temu-kembali. Tahap-tahap di atas diilustrasikan pada Gambar 3.

Temu-kembali Awal

Pada tahap ini diterapkan proses temu-kembali informasi klasik yang diimplementasikan teknik vector space model (VSM). Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan. Dengan demikian, sebelum mengimplementasikan proses temu-kembali informasi klasik, harus dilakukan pemrosesan teks atau yang biasa disebut praproses dokumen. Praproses dokumen diilustrasikan pada Gambar 4. Praproses yang dilakukan dalam penelitian dapat dibagi ke dalam tiga tahap pengoperasian teks:

Lexical analysis of the text atau tokenisasi, bertujuan identifikasi kata di dalam teks. Tokenisasi adalah proses yang mengubah sekumpulan karakter (teks dari dokumen) ke dalam sekumpulan kata (kandidat kata yang digunakan sebagai indeks istilah). Eliminasi kata buangan, bertujuan meminimumkan kata yang digunakan sebagai istilah yang diindeks dalam proses temu-kembali. Pengindeksan teks dalam dokumen, bertujuan mengomputasi frekuensi kata yang berada dalam sebuah dokumen, yang akan digunakan dalam pembobotan kata dalam dokumen.

Segmentasi Dokumen

Dalam proses segmentasi, tahap ekstraksi blok visual (tahap pertama algoritme VIPS) diimplementasikan ke dalam setiap dokumen peringkat k teratas. Dokumen XML yang digunakan memiliki tag <DOC>, <DOCNO>, <TITLE>, <AUTHOR>, <DATE>, <TEXT> dan <P>. Contoh dokumen XML yang digunakan digambarkan pada Lampiran 2. Dalam penelitian ini, teks dalam tag <TITLE>, <AUTHOR> dan <P> akan merepresentasikan potongan-potongan segmen dari setiap dokumen peringkat k teratas.

Penyeleksian Segmen

(14)

space model untuk mengurutkan segmen-segmen tersebut. Dengan demikian, didapatkanlah segmen peringkat x teratas yang digunakan untuk proses penyeleksian expansion terms.

Penyeleksian Expansion Terms

Dalam penelitian, teknik yang mirip pseudo-relevance feedback diimplementasikan untuk menyeleksi expansion terms. Perbedaannya adalah expansion terms terseleksi dari segmen peringkat x teratas bukan dokumen peringkat k teratas. Semua expansion terms kecuali yang sama dengan kueri asli pada segmen peringkat x teratas diberikan bobot berdasarkan nilai TSV- term selection value (Yu, Cai, Wen & Ma 2003), dengan formula sebagai berikut:

TSV = w(1 )* r/R.

Asumsi, w(1 ) adalah idf (inverse document frequency) yang dihasilkan dari proses temu-kembali awal, R adalah jumlah segmen terseleksi dan r adalah jumlah segmen terseleksi dan mengandung expansion terms t. Dengan demikian, didapatkan expansion terms peringkat y teratas.

Gambar 4 Tahapan dalam praproses dokumen. Temu-kembali Final

Menurut Yu, Wen & Ma. (2003), bobot istilah untuk kueri yang diperluas akan diatur menurut aturan sebagai berikut:

Bobot baru kueri asli adalah (tf*2) * idf, tf adalah frekuensi istilah pada kueri. Bobot baru kueri perluasan adalah 1-(r-1)/n* idf. Asumsi, jika kueri perluasan berada di peringkat ke-r dari n expansion terms yang terseleksi.

Kueri yang diperluas digunakan untuk memproses korpus dokumen XML dengan proses yang sama dengan temu-kembali awal. Hasil dari proses ini akan menjadi hasil akhir proses temu-kembali informasi.

Evaluasi Hasil Temu-kembali

Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temu-kembali. Recall adalah rasio dokumen relevan yang ditemukembalikan. Precision adalah dokumen yang ditemukembalikan, dokumen tersebut relevan. Average precision (AVP) dilakukan karena digunakan beberapa kueri pada tahap evaluasi ini. AVP dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%. Pada saat level recall 0%, precision diperoleh dengan cara interpolasi (Baeza-Yates & Ribeiro-Neto 1999).

Pengaruh pengunaan PRF berdasarkan segmentasi dokumen diukur dengan cara membandingkan kinerja temu-kembali tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Pengujian kinerja dilakukan menurut gugus kueri dan jawaban (lihat Lampiran 3).

HASIL DAN PEMBAHASAN

Penelitian dilakukan dengan menggunakan koleksi pengujian yang tersedia di Laboratorium Temu-kembali Informasi sejak bulan Pebruari 2009 dan dijalankan menggunakan bahasa pemrograman PHP. Dalam sistem temu-kembali informasi, penentuan koleksi pengujian sangat penting dilakukan, karena dengan adanya perbedaan dari koleksi pengujian maka hasil akhir temu-kembali akan berbeda juga. Koleksi pengujian ini terdiri atas koleksi dokumen, daftar karakter dan kata buangan yang telah dimodifikasi, gugus kueri dan jawaban.

Temu-kembali Informasi Klasik

(15)

pengoperasian teks, yaitu: tokenisasi, eliminasi kata buangan dan pengindeksan teks dalam dokumen.

Sebelum melakukan tokenisasi, dilakukan proses pembentukan id dan isi dokumen. Semua huruf pada koleksi dokumen diubah menjadi huruf kecil dengan menggunakan fungsi strtolower, kemudian tag XML dieliminasi dan dibentuk segmen berdasarkan tag <TITLE>, <AUTHOR> dan <P>. Potongan-potongan segmen yang didapat berikut asal dokumen

dikumpulkan ke dalam file

“SegmentCollection.txt”. Setiap segmen didalam file “SegmentCollection.txt” digabungkan menurut asal dokumennya. Gambar 5 menjelaskan pembentukan id dan isi dokumen dari koleksi dokumen.

Isi dokumen diproses secara sekuensial per karakter dan menghasilkan indeks istilah beserta posisinya dalam dokumen. Tokenisasi diterapkan sebagai berikut:

1. Isi dokumen dibedakan menurut jenis karakter, yaitu:

a.whitespace, yaitu karakter pemisah indeks istilah

b.alpha, yaitu karakter huruf c.numeric, yaitu karakter angka

d.other, yaitu karakter yang tidak termasuk tiga jenis karakter di atas. 2. Jika karakter yang ditemukan merupakan

karakter alpha, maka karakter tersebut menjadi indeks istilah, selainnya dibuang. Proses pembuangan karakter yang tidak diperlukan dibantu oleh fungsi preg_split. Hasil dari fungsi preg_split ini juga menerapkan tahap pengindeksan teks dalam dokumen. 3. Hitung panjang dari hasil indeks istilah

yang didapat. Jika panjang indeks istilah

lebih besar sama dengan tiga, maka indeks istilah tersebut menjadi input untuk tahap eliminasi kata buangan. 4. Hasil dari proses tokenisasi berupa id

dokumen berikut hasil indeks istilah yang didapat.

Output dari tokenisasi dijadikan input pada tahap eliminasi kata buangan. Pada tahap ini, hasil indeks istilah dibandingkan dengan kata-kata buangan (biasanya kata-kata hubung). Jika indeks istilah yang didapat tidak termasuk dalam kata buangan, maka indeks istilah tersebut dijadikan input untuk metode vector space model,selainnya dibuang.

Indeks istilah tersebut diproses menggunakan metode vector space model, metode ini dapat diuraikan sebagai berikut:

Menghitung bobot untuk setiap indeks istilah menggunakan pendekatan tf.idf. Menghitung kemiripan nilai kosinus. Dokumen akan diurutkan berdasarkan nilai kemiripan kosinus, pengurutan dilakukan dari nilai kemiripan kosinus terbesar sampai dengan terkecil. Dengan demikian, didapatkanlah dokumen peringkat k teratas.

Implementasi antarmuka sistem digambarkan pada Lampiran 1.

Evaluasi Pseudo-Relevance Feedback Berdasarkan segmentasi Dokumen

Untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas, dilakukan evaluasi PRF dengan mengambil dokumen peringkat 5, 10 dan 20 teratas. Gambar 5 mengilustrasikan perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas (lihat Lampiran 5).

(16)

Pada Gambar 5 terlihat bahwa kinerja kueri perluasan optimal saat pengambilan dokumen peringkat 5 teratas. Pengambilan dokumen peringkat 20 teratas memiliki kinerja kueri paling kecil. Hal ini disebabkan banyaknya dokumen tidak relevan dalam dokumen peringkat 20 teratas, sehingga kueri perluasan yang diambil juga kebanyakan dari topik yang tidak relevan.

Untuk mengetahui pengaruh pengambilan segmen peringkat y teratas, dilakukan evaluasi PRF berdasarkan segmentasi dokumen dengan mengambil segmen peringkat 5, 10 dan 20 teratas. Gambar 6 mengilustrasikan perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat y teratas (lihat Lampiran 6).

Pada Gambar 6 terlihat bahwa kinerja kueri perluasan optimal saat pengambilan segmen peringkat 5 teratas. Pengambilan segmen peringkat 20 teratas memiliki kinerja kueri paling kecil. Hal ini disebabkan banyaknya segmen tidak relevan dalam segmen peringkat 20 teratas, sehingga kueri perluasan yang diambil kebanyakan dari topik tidak relevan.

Perbandingan kinerja sistem dilakukan dengan membandingkan sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Gambar 7 mengilustrasikan perbandingan kinerja sistem tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Perbandingan nilai average precision yang didapat untuk ketiga perlakuan sistem tersebut ditunjukkan pada Tabel 2(lihat Lampiran 4, 5 dan 6).

Gambar 7 Perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat y teratas.

(17)

Tabel 2 Perbandingan nilai average precision Perlakuan Sistem AVP

Tanpa PRF 0.5216

PRF 0.4887

PRF berdasarkan

segmentasi dokumen 0.5214

Hasil uji menunjukkan bahwa kinerja sistem yang didapat cukup baik, yaitu senilai 0.5214. Kinerja hasil temu-kembali PRF berdasarkan segmentasi dokumen dan tanpa PRF tidak ditemukan perbedaan yang signifikan, meskipun hasil tanpa PRF menghasilkan kinerja sistem paling baik. Hal ini dikarenakan terambilnya dokumen, segmen tidak relevan, kueri perluasan bukan merupakan kata penciri segmen, dokumen yang digunakan relatif sedikit, yaitu 1000 dokumen.

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian menunjukkan bahwa: 1. Kinerja sistem yang didapat cukup baik,

yaitu lebih dari 50 %.

2. Kinerja hasil temu-kembali PRF berdasarkan segmentasi dokumen dan tanpa PRF tidak ditemukan perbedaan yang signifikan. Hal ini dikarenakan terambilnya dokumen dan segmen yang tidak relevan, kueri perluasan yang terambil bukan merupakan kata penciri segmen, jumlah dokumen yang

digunakan relatif sedikit yaitu 1000 dokumen.

Saran

Hasil temu-kembali awal diperbaiki terlebih dahulu dengan cara menghilangkan kesalahan penulisan pada koleksi dokumen, daftar kata buangan yang belum tereliminasi perlu dihilangkan dan menambah tahap stemming pada praproses dokumen. Teknik RF dapat dilakukan untuk penelitian selanjutnya sehingga dokumen yang digunakan dalam perluasan kueri merupakan dokumen relevan.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. England: Addison Wesley.

Rijsbergen C J V, 1979. Information Retrieval. Butterworths: University of Glasgow. Manning C D, Raghavan P, Schütze H. 2008.

Introduction to Information Retrieval. Cambridge: Cambridge University Press. Yu S, Cai D, Wen J-R, Ma W-Y. 2003.

Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation. In The Fifth Asia Pacific Web Conference.

(18)
(19)
(20)

Lampiran 2 Contoh dokumen XML dalam koleksi pengujian <DOC>

<DOCNO>gatra180702</DOCNO>

<TITLE>Kiemas dan Lima Menteri akan Bahas Agenda Pembangunan Pro Petani</TITLE> <AUTHOR>Tma dan Ant</AUTHOR>

<DATE> 18 Juli 2002</DATE> <TEXT>

<P>

Suami Presiden Megawati Soekarnoputri, Taufik Kiemas disertai lima menteri kabinet gotong royong, Kamis, dijadwalkan datang ke Bogor untuk membahas agenda pembangunan yang pro-petani. Para menteri yang menyertai Taufik Kiemas itu adalah Mensritek Hatta Radjasa, Menperindag Rini Suwandi, Menhut Prakosa, Menteri Kelautan dan Perikanan Rokhmin Dahuri serta Menteri Pertanian Bungaran Saragih.

</P> <P>

Menurut informasi dari berbagai pihak di Bogor, agenda yang akan dibahas dalam kunjungan ke Kota Hujan itu terkait dengan soal-soal pembangunan yang pro-petani. Hal ini karena di kota Bogor terdapat sejumlah perguruan tinggi baik negeri maupun swasta punya fakultas, jurusan maupun program studi pada ilmu-ilmu pertanian. Di Bogor juga terdapat Institut Pertanian Bogor (IPB) yang disebut sebagai institusi pendidikan tinggi terbesar kedua di Asia untuk pertanian tropika.

(21)

Lampiran 3 Gugus Kueri dan Jawaban

Kueri Gugus Jawaban

Bencana kekeringan

gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002, situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.

Dukungan pemerintah pada pertanian

indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028, suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,

indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.

Gabah kering giling

indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104.

(22)

Lanjutan

Kueri Gugus Jawaban

Impor beras indonesia

gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001, republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903

Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

Institut pertanian bogor

gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001, kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-002, republika110604-002, republika140704-002, republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001

Kelangkaan pupuk

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101

Kelompok masyarakat tani/kelompok tani

bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103

Laboratorium pertanian

(23)

Lanjutan

Kueri Gugus Jawaban

Musim panen gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001, mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika060804-001, republika060804-003, republika100704-003, republika151202, republika171102, republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002

Pembangunan untuk sektor pertanian

gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003, republika150903, republika190803, republika251002-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303

Penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia

(24)

Lanjutan

Kueri Gugus Jawaban

Penerapan teknologi pertanian

indosiar250204-001, 001, 011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009

Penyakit hewan ternak/penyakit ternak

gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01 Penyuluhan pertanian bitraindonesia000000-001, gatra190902-02, indosiar310504,

jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007

Perdagangan hasil pertanian

gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006

Pertanian organik/sistem pertanian organik

indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303, situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702

(25)

Lanjutan

Kueri Gugus Jawaban

Peternak unggas/peternak ayam/peternak burung

gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802 Produk usaha peternakan

rakyat/produk peternakan

jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102

Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202,

suarapembaruan130103, suarapembaruan160702,

suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008

Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001, 008, 015, 018, jurnal000000-019, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang000000-001, republika030903-002, republika070604-002, republika100704-002, republika140104, republika170604-001, republika190604-001, republika190604-002, republika210704-001, republika210704-003, republika220604-003, republika241203, republika260803, republika280703, republika300604-003, situshijau040603, situshijau070503, situshijau080503-001, situshijau091203-003, situshijau101103-004, situshijau130103-001, situshijau130503-002, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau150403-002, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau200103-001-No, situshijau201003-002, situshijau210103-003, situshijau210503-001, situshijau250203, situshijau270303-004, situshijau290503-001, situshijau300403, situshijau310303, suarakarya000000-001-02, suarakarya000000-010, suarakarya000000-019, suarakarya000000-027, suarakarya000000-034, suarakarya000000-037, suaramerdeka270601, suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602, suarapembaruan110702, suarapembaruan110702-01,

suarapembaruan151102, suarapembaruan160702,

(26)

Lanjutan

Kueri Gugus Jawaban

Swasembada pangan indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899, kompas270203-001, kompas270401, kompas270502-002, mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005, republika220604-003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, 001-02, 002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan110903, suarapembaruan221102

Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004

Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003, republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001

Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002

Upaya peningkatan pendapatan petani/peningkatan pendapatan petani

(27)

Lampiran 4 Tabel hasil analisis kinerja sistem tanpa PRF

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 1.00 0.80 0.86 0.89 0.83 0.80 0.74 0.73 0.56 0.00

dukungan pemerintah pada pertanian 1.00 0.50 0.43 0.39 0.31 0.33 0.31 0.21 0.19 0.09 0.00

flu burung 1.00 1.00 1.00 0.88 0.90 0.92 0.93 0.94 0.89 0.86 0.84

gabah kering giling 1.00 0.75 0.83 0.67 0.50 0.50 0.39 0.41 0.38 0.37 0.32

gagal panen/puso 1.00 1.00 1.00 1.00 1.00 0.96 0.71 0.62 0.58 0.46 0.31

harga komoditas pertanian 1.00 1.00 0.80 0.82 0.82 0.81 0.78 0.77 0.66 0.36 0.00

impor beras indonesia 1.00 1.00 1.00 1.00 0.95 0.88 0.62 0.49 0.40 0.32 0.00

industri gula 1.00 1.00 0.80 0.75 0.80 0.71 0.67 0.67 0.57 0.19 0.13

institut pertanian bogor 1.00 1.00 0.73 0.72 0.62 0.63 0.62 0.64 0.63 0.46 0.00

kelangkaan pupuk 1.00 1.00 1.00 1.00 1.00 0.91 0.86 0.82 0.73 0.72 0.43

kelompok masyarakat tani/kelompok tani 0.00 0.80 0.50 0.50 0.34 0.28 0.26 0.25 0.26 0.18 0.00

laboratorium pertanian 1.00 0.75 0.63 0.70 0.69 0.65 0.59 0.44 0.39 0.38 0.38

musim panen 0.00 0.67 0.80 0.50 0.47 0.43 0.32 0.30 0.27 0.24 0.00

pembangunan untuk sektor pertanian 1.00 0.63 0.67 0.56 0.50 0.50 0.38 0.34 0.23 0.22 0.17 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di

indonesia 1.00 0.83 0.64 0.48 0.44 0.27 0.00 0.00 0.00 0.00 0.00

penerapan teknologi pertanian 1.00 1.00 0.57 0.67 0.59 0.53 0.48 0.32 0.00 0.00 0.00 penyakit hewan ternak/penyakit ternak 0.00 0.50 0.38 0.31 0.26 0.29 0.31 0.21 0.18 0.15 0.15

penyuluhan pertanian 1.00 1.00 0.86 0.82 0.73 0.74 0.71 0.66 0.00 0.00 0.00

perdagangan hasil pertanian 0.00 0.17 0.24 0.17 0.20 0.20 0.15 0.11 0.12 0.07 0.06 pertanian organik/sistem pertanian organik 1.00 0.75 0.63 0.67 0.67 0.71 0.71 0.63 0.63 0.54 0.00

petani tebu 1.00 0.67 0.67 0.58 0.62 0.59 0.63 0.67 0.62 0.60 0.49

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 1.00 1.00 0.91 0.92 0.93 0.64 0.62 0.59 produk usaha peternakan rakyat/produk peternakan 1.00 0.50 0.57 0.27 0.22 0.23 0.18 0.19 0.16 0.09 0.08

pupuk organik 1.00 1.00 0.29 0.41 0.44 0.48 0.41 0.25 0.19 0.19 0.17

riset pertanian 1.00 0.64 0.61 0.58 0.00 0.00 0.00 0.00 0.00 0.00 0.00

swasembada pangan 1.00 0.50 0.67 0.63 0.67 0.63 0.67 0.43 0.39 0.24 0.00

tadah hujan 0.00 0.67 0.80 0.55 0.53 0.53 0.48 0.43 0.44 0.34 0.20

tanaman obat 1.00 1.00 1.00 1.00 0.80 0.56 0.38 0.30 0.20 0.17 0.13

tanaman pangan 0.00 0.25 0.25 0.26 0.26 0.15 0.16 0.17 0.13 0.14 0.13

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 1.00 1.00 0.28 0.25 0.16 0.17 0.16 0.12 0.11 0.00 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 0.96 0.93 0.94 0.89 0.86 0.84

Minimum 0.00 0.17 0.24 0.17 0.00 0.00 0.00 0.00 0.00 0.00 0.00

(28)

Lampiran 5 Tabel hasil analisis kinerja sistem PRF

Tabel kinerja sistem PRF dalam pengambilan dokumen peringkat 5 teratas

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 1.00 0.89 0.8 0.76 0.74 0.71 0.7 0.68 0.63 0.28

dukungan pemerintah pada pertanian 0.00 0.50 0.32 0.33 0.31 0.2 0.19 0.16 0.13 0.13 0.06

flu burung 1.00 1.00 1.00 0.88 0.9 0.92 0.93 0.88 0.89 0.83 0.81

gabah kering giling 1.00 1.00 0.83 0.57 0.63 0.46 0.45 0.40 0.41 0.35 0.32

gagal panen/puso 1.00 1.00 1.00 1.00 1.00 0.96 0.71 0.59 0.57 0.47 0.29

harga komoditas pertanian 1.00 0.67 0.63 0.64 0.68 0.69 0.66 0.68 0.59 0.34 0.00

impor beras indonesia 1.00 1.00 1.00 1.00 0.82 0.81 0.52 0.42 0.38 0.29 0.00

industri gula 1.00 1.00 0.67 0.67 0.62 0.63 0.67 0.64 0.57 0.24 0.19

institut pertanian bogor 1.00 0.57 0.57 0.68 0.73 0.77 0.77 0.68 0.7 0.64 0.22

kelangkaan pupuk 1.00 1.00 1.00 1.00 1.00 1.00 0.92 0.82 0.73 0.67 0.42

kelompok masyarakat tani/kelompok tani 0.00 0.80 0.54 0.45 0.45 0.32 0.26 0.27 0.26 0.19 0.00

laboratorium pertanian 1.00 0.60 0.18 0.23 0.26 0.27 0.28 0.29 0.24 0.19 0.19

musim panen 0.00 0.40 0.4 0.36 0.37 0.35 0.28 0.26 0.24 0.22 0.00

pembangunan untuk sektor pertanian 1.00 0.50 0.53 0.54 0.54 0.45 0.33 0.33 0.29 0.23 0.17 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 1.00 0.83 0.64 0.48 0.43 0.26 0.00 0.00 0.00 0.00 0.00 penerapan teknologi pertanian 1.00 0.80 0.5 0.55 0.53 0.49 0.38 0.25 0.11 0.00 0.00 penyakit hewan ternak/penyakit ternak 0.00 0.40 0.38 0.31 0.25 0.28 0.30 0.19 0.17 0.15 0.15

penyuluhan pertanian 1.00 1.00 1.00 0.75 0.73 0.64 0.55 0.43 0.33 0.00 0.00

perdagangan hasil pertanian 0.00 0.18 0.13 0.17 0.17 0.13 0.13 0.11 0.08 0.06 0.05 pertanian organik/sistem pertanian organik 1.00 0.5 0.63 0.67 0.67 0.71 0.71 0.63 0.61 0.61 0.09

petani tebu 1.00 1.00 0.80 0.58 0.62 0.63 0.55 0.54 0.57 0.55 0.41

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 1.00 0.89 0.91 0.92 0.78 0.67 0.64 0.57 produk usaha peternakan rakyat/produk peternakan 1.00 0.40 0.40 0.50 0.53 0.53 0.29 0.24 0.18 0.15 0.07

pupuk organik 0.00 0.40 0.29 0.39 0.42 0.48 0.46 0.45 0.16 0.16 0.13

riset pertanian 1.00 0.70 0.67 0.51 0.47 0.00 0.00 0.00 0.00 0.00 0.00

swasembada pangan 0.00 0.50 0.43 0.38 0.38 0.35 0.38 0.33 0.22 0.23 0.00

tadah hujan 1.00 1.00 0.8 0.46 0.50 0.39 0.38 0.37 0.33 0.25 0.15

tanaman obat 1.00 1.00 1.00 1.00 0.80 0.75 0.38 0.34 0.19 0.15 0.12

tanaman pangan 0.00 0.24 0.18 0.19 0.21 0.11 0.12 0.13 0.13 0.11 0.1

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 1.00 0.67 0.37 0.33 0.15 0.15 0.15 0.12 0.11 0.09 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 1.00 0.93 0.88 0.89 0.83 0.81

Minimum 0.00 0.18 0.13 0.17 0.15 0.00 0.00 0.00 0.00 0.00 0.00

(29)

Lanjutan

Tabel kinerja sistem PRF dalam pengambilan dokumen peringkat 10 teratas

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 0.67 0.80 0.86 0.84 0.87 0.80 0.67 0.63 0.47 0.00

dukungan pemerintah pada pertanian 0.00 0.21 0.26 0.20 0.15 0.17 0.16 0.17 0.14 0.09 0.00

flu burung 1.00 0.75 0.83 0.88 0.90 0.92 0.93 0.94 0.94 0.79 0.72

gabah kering giling 1.00 1.00 0.71 0.47 0.53 0.55 0.52 0.37 0.33 0.28 0.26

gagal panen/puso 1.00 1.00 1.00 1.00 1.00 0.83 0.73 0.64 0.58 0.51 0.25

harga komoditas pertanian 1.00 0.86 0.75 0.72 0.62 0.63 0.58 0.54 0.47 0.39 0.00

impor beras indonesia 1.00 1.00 1.00 0.93 0.90 0.76 0.49 0.47 0.35 0.30 0.00

industri gula 1.00 0.67 0.67 0.67 0.62 0.59 0.63 0.61 0.57 0.23 0.24

institut pertanian bogor 0.00 0.50 0.67 0.68 0.73 0.74 0.77 0.76 0.71 0.56 0.21

kelangkaan pupuk 1.00 1.00 1.00 0.88 0.89 0.83 0.86 0.82 0.67 0.69 0.37

kelompok masyarakat tani/kelompok tani 0.00 0.57 0.39 0.38 0.28 0.23 0.22 0.20 0.20 0.15 0.00

laboratorium pertanian 1.00 1.00 0.63 0.58 0.47 0.42 0.37 0.32 0.29 0.27 0.21

musim panen 0.00 0.57 0.36 0.31 0.33 0.32 0.28 0.23 0.22 0.21 0.00

pembangunan untuk sektor pertanian 0.00 0.56 0.50 0.52 0.48 0.39 0.35 0.31 0.28 0.19 0.15 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 1.00 0.83 0.64 0.59 0.52 0.38 0.23 0.19 0.15 0.11 0.00 penerapan teknologi pertanian 1.00 0.67 0.50 0.52 0.48 0.48 0.47 0.25 0.00 0.00 0.00 penyakit hewan ternak/penyakit ternak 0.00 0.40 0.43 0.31 0.26 0.29 0.30 0.19 0.16 0.17 0.15

penyuluhan pertanian 1.00 1.00 0.75 0.69 0.58 0.61 0.50 0.40 0.27 0.06 0.00

perdagangan hasil pertanian 0.00 0.19 0.17 0.18 0.16 0.18 0.13 0.10 0.10 0.08 0.05 pertanian organik/sistem pertanian organik 0.00 0.60 0.71 0.73 0.67 0.71 0.71 0.61 0.61 0.52 0.06

petani tebu 1.00 0.67 0.80 0.78 0.80 0.83 0.86 0.56 0.57 0.56 0.26

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 0.88 0.89 0.91 0.92 0.78 0.62 0.64 0.57 produk usaha peternakan rakyat/produk peternakan 1.00 1.00 0.80 0.67 0.67 0.63 0.36 0.22 0.16 0.14 0.08

pupuk organik 0.00 0.40 0.33 0.39 0.42 0.48 0.44 0.36 0.16 0.15 0.13

riset pertanian 1.00 0.64 0.50 0.39 0.39 0.28 0.21 0.18 0.00 0.00 0.00

swasembada pangan 1.00 0.75 0.67 0.34 0.39 0.43 0.47 0.46 0.29 0.15 0.00

tadah hujan 1.00 1.00 0.57 0.50 0.42 0.39 0.35 0.32 0.31 0.22 0.15

tanaman obat 1.00 1.00 0.86 0.75 0.80 0.71 0.60 0.58 0.40 0.19 0.19

tanaman pangan 0.00 0.16 0.17 0.15 0.15 0.11 0.10 0.11 0.11 0.10 0.09

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 0.00 0.80 0.21 0.24 0.20 0.19 0.19 0.14 0.11 0.00 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 0.92 0.93 0.94 0.94 0.79 0.72

(30)

Lanjutan

Tabel kinerja sistem PRF dalam pengambilan dokumen peringkat 20 teratas

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 1.00 1.00 0.80 0.70 0.71 0.73 0.68 0.68 0.56 0.43

dukungan pemerintah pada pertanian 0.00 0.11 0.11 0.11 0.10 0.12 0.13 0.13 0.10 0.04 0.00

flu burung 1.00 1.00 0.83 0.88 0.90 0.92 0.93 0.94 0.94 0.83 0.72

gabah kering giling 1.00 1.00 0.83 0.57 0.53 0.57 0.48 0.40 0.29 0.26 0.24

gagal panen/puso 1.00 1.00 1.00 0.88 0.80 0.75 0.73 0.63 0.51 0.42 0.19

harga komoditas pertanian 1.00 0.75 0.75 0.64 0.56 0.60 0.48 0.45 0.39 0.27 0.00

impor beras indonesia 1.00 1.00 1.00 0.93 0.90 0.67 0.55 0.43 0.36 0.27 0.00

industri gula 0.00 0.40 0.57 0.60 0.62 0.56 0.60 0.58 0.57 0.20 0.18

institut pertanian bogor 0.00 0.67 0.67 0.68 0.73 0.71 0.75 0.76 0.70 0.67 0.19

kelangkaan pupuk 1.00 1.00 1.00 1.00 1.00 0.91 0.86 0.78 0.76 0.69 0.36

kelompok masyarakat tani/kelompok tani 1.00 0.67 0.54 0.36 0.41 0.37 0.33 0.29 0.26 0.16 0.00

laboratorium pertanian 1.00 1.00 0.71 0.44 0.41 0.37 0.30 0.24 0.21 0.19 0.10

musim panen 0.00 0.16 0.15 0.20 0.22 0.25 0.18 0.16 0.17 0.17 0.00

pembangunan untuk sektor pertanian 0.00 0.50 0.53 0.44 0.41 0.40 0.28 0.26 0.25 0.17 0.13 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 1.00 0.83 0.69 0.54 0.49 0.39 0.29 0.25 0.18 0.15 0.00 penerapan teknologi pertanian 0.00 0.67 0.50 0.55 0.50 0.53 0.44 0.22 0.20 0.10 0.00 penyakit hewan ternak/penyakit ternak 0.00 0.40 0.43 0.50 0.30 0.30 0.26 0.21 0.22 0.16 0.16

penyuluhan pertanian 1.00 0.60 0.75 0.75 0.73 0.74 0.68 0.42 0.26 0.17 0.06

perdagangan hasil pertanian 0.00 0.21 0.16 0.17 0.18 0.17 0.14 0.10 0.08 0.08 0.04 pertanian organik/sistem pertanian organik 0.00 0.50 0.63 0.73 0.71 0.71 0.71 0.59 0.59 0.46 0.06

petani tebu 1.00 1.00 1.00 0.88 0.89 0.71 0.71 0.74 0.70 0.50 0.19

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 0.88 0.89 0.91 0.86 0.78 0.62 0.62 0.54 produk usaha peternakan rakyat/produk peternakan 1.00 0.67 0.67 0.43 0.44 0.42 0.17 0.15 0.12 0.10 0.06

pupuk organik 1.00 1.00 0.67 0.47 0.47 0.50 0.52 0.47 0.14 0.14 0.14

riset pertanian 1.00 0.54 0.48 0.40 0.42 0.38 0.36 0.25 0.20 0.18 0.00

swasembada pangan 1.00 0.75 0.55 0.40 0.32 0.25 0.26 0.29 0.19 0.20 0.00

tadah hujan 1.00 1.00 1.00 0.50 0.47 0.47 0.44 0.31 0.23 0.18 0.13

tanaman obat 1.00 1.00 1.00 0.90 0.80 0.75 0.53 0.46 0.42 0.20 0.13

tanaman pangan 0.00 0.14 0.12 0.10 0.09 0.10 0.08 0.09 0.08 0.09 0.07

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 0.00 0.44 0.26 0.29 0.25 0.16 0.13 0.12 0.12 0.08 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 0.92 0.93 0.94 0.94 0.83 0.72

Minimum 0.00 0.11 0.11 0.10 0.09 0.10 0.08 0.09 0.08 0.04 0.00

(31)

Lampiran 6 Tabel hasil analisis kinerja sistem PRF berdasarkan segmentasi dokumen.

Tabel kinerja sistem PRF berdasarkan segmentasi dokumen dalam pengambilan segmen peringkat 5 teratas

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 0.67 0.80 0.86 0.89 0.87 0.80 0.74 0.73 0.56 0.00

dukungan pemerintah pada pertanian 1.00 0.50 0.43 0.39 0.31 0.33 0.31 0.21 0.19 0.09 0.00

flu burung 1.00 1.00 1.00 0.88 0.90 0.92 0.93 0.94 0.89 0.86 0.84

gabah kering giling 1.00 1.00 0.83 0.57 0.63 0.43 0.41 0.40 0.36 0.36 0.30

gagal panen/puso 1.00 1.00 1.00 1.00 1.00 0.96 0.71 0.62 0.58 0.45 0.31

harga komoditas pertanian 1.00 1.00 0.80 0.82 0.82 0.81 0.78 0.77 0.66 0.36 0.00

impor beras indonesia 1.00 1.00 1.00 1.00 0.95 0.88 0.62 0.49 0.40 0.32 0.00

industri gula 1.00 1.00 0.80 0.75 0.80 0.71 0.67 0.67 0.57 0.19 0.13

institut pertanian bogor 1.00 1.00 0.73 0.72 0.67 0.63 0.62 0.64 0.63 0.46 0.00

kelangkaan pupuk 1.00 1.00 1.00 1.00 1.00 0.91 0.86 0.82 0.73 0.72 0.43

kelompok masyarakat tani/kelompok tani 0.00 0.80 0.50 0.50 0.33 0.27 0.25 0.24 0.25 0.18 0.00

laboratorium pertanian 1.00 0.75 0.63 0.70 0.69 0.65 0.59 0.44 0.39 0.38 0.38

musim panen 1.00 0.21 0.35 0.33 0.35 0.34 0.28 0.26 0.25 0.23 0.00

pembangunan untuk sektor pertanian 0.00 0.63 0.59 0.56 0.56 0.47 0.37 0.30 0.21 0.20 0.16 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 1.00 0.83 0.64 0.50 0.41 0.25 0.00 0.00 0.00 0.00 0.00 penerapan teknologi pertanian 1.00 1.00 0.50 0.57 0.48 0.48 0.41 0.27 0.00 0.00 0.00 penyakit hewan ternak/penyakit ternak 1.00 0.50 0.43 0.31 0.25 0.27 0.29 0.20 0.18 0.15 0.15

penyuluhan pertanian 1.00 1.00 1.00 0.90 0.92 0.82 0.74 0.63 0.44 0.00 0.00

perdagangan hasil pertanian 0.00 0.23 0.18 0.19 0.19 0.17 0.14 0.11 0.12 0.07 0.06 pertanian organik/sistem pertanian organik 1.00 0.75 0.63 0.67 0.67 0.71 0.71 0.63 0.63 0.54 0.00

petani tebu 1.00 1.00 0.80 0.58 0.62 0.56 0.55 0.58 0.55 0.53 0.45

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 1.00 1.00 0.91 0.92 0.93 0.64 0.62 0.59 produk usaha peternakan rakyat/produk peternakan 1.00 0.67 0.57 0.60 0.67 0.50 0.26 0.22 0.19 0.16 0.08

pupuk organik 1.00 0.67 0.80 0.41 0.44 0.50 0.41 0.25 0.19 0.19 0.17

riset pertanian 1.00 0.70 0.56 0.55 0.60 0.00 0.00 0.00 0.00 0.00 0.00

swasembada pangan 0.00 0.50 0.67 0.63 0.67 0.63 0.67 0.43 0.39 0.24 0.00

tadah hujan 0.00 0.67 0.80 0.86 0.53 0.53 0.48 0.42 0.44 0.34 0.17

tanaman obat 1.00 1.00 1.00 1.00 0.80 0.56 0.36 0.32 0.21 0.17 0.13

tanaman pangan 0.00 0.25 0.25 0.26 0.26 0.15 0.16 0.17 0.13 0.14 0.13

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 1.00 1.00 0.28 0.25 0.16 0.17 0.16 0.12 0.11 0.00 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 0.96 0.93 0.94 0.89 0.86 0.84

(32)

Lanjutan

Tabel kinerja sistem PRF berdasarkan segmentasi dokumen dalam pengambilan segmen peringkat 10 teratas

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 0.67 0.80 0.86 0.89 0.87 0.80 0.74 0.73 0.56 0.00

dukungan pemerintah pada pertanian 0.00 0.30 0.24 0.30 0.27 0.24 0.26 0.28 0.15 0.11 0.00

flu burung 1.00 0.75 0.83 0.88 0.90 0.92 0.93 0.88 0.89 0.86 0.84

gabah kering giling 1.00 1.00 0.63 0.67 0.56 0.50 0.50 0.43 0.43 0.41 0.37

gagal panen/puso 1.00 1.00 1.00 1.00 1.00 0.96 0.64 0.52 0.49 0.40 0.28

harga komoditas pertanian 1.00 1.00 0.92 0.82 0.79 0.78 0.76 0.74 0.64 0.47 0.00

impor beras indonesia 1.00 1.00 1.00 1.00 0.95 0.85 0.60 0.48 0.40 0.35 0.00

industri gula 1.00 1.00 0.80 0.86 0.89 0.71 0.71 0.74 0.59 0.34 0.32

institut pertanian bogor 1.00 1.00 0.73 0.65 0.70 0.74 0.73 0.74 0.64 0.64 0.26

kelangkaan pupuk 1.00 1.00 1.00 1.00 1.00 0.91 0.86 0.82 0.73 0.72 0.43

kelompok masyarakat tani/kelompok tani 0.00 0.80 0.50 0.45 0.38 0.26 0.24 0.24 0.25 0.18 0.00

laboratorium pertanian 1.00 0.75 0.63 0.70 0.69 0.65 0.57 0.43 0.38 0.37 0.37

musim panen 0.00 0.27 0.36 0.30 0.33 0.33 0.28 0.26 0.24 0.22 0.00

pembangunan untuk sektor pertanian 1.00 0.56 0.67 0.56 0.49 0.47 0.42 0.32 0.30 0.20 0.15 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 1.00 0.83 0.64 0.48 0.44 0.27 0.00 0.00 0.00 0.00 0.00 penerapan teknologi pertanian 1.00 0.80 0.47 0.52 0.55 0.53 0.41 0.29 0.00 0.00 0.00 penyakit hewan ternak/penyakit ternak 1.00 0.50 0.50 0.31 0.25 0.27 0.29 0.21 0.17 0.14 0.15

penyuluhan pertanian 1.00 1.00 0.86 0.75 0.69 0.70 0.68 0.63 0.00 0.00 0.00

perdagangan hasil pertanian 0.00 0.23 0.17 0.21 0.19 0.18 0.13 0.11 0.11 0.07 0.06 pertanian organik/sistem pertanian organik 0.00 0.75 0.63 0.67 0.67 0.71 0.71 0.63 0.63 0.54 0.00

petani tebu 0.00 0.67 0.67 0.54 0.57 0.56 0.60 0.61 0.55 0.56 0.45

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 1.00 0.89 0.91 0.86 0.78 0.62 0.62 0.57 produk usaha peternakan rakyat/produk peternakan 1.00 0.67 0.57 0.60 0.62 0.67 0.24 0.24 0.18 0.16 0.08

pupuk organik 0.00 0.50 0.31 0.41 0.44 0.48 0.43 0.28 0.16 0.17 0.14

riset pertanian 1.00 0.70 0.56 0.55 0.60 0.00 0.00 0.00 0.00 0.00 0.00

swasembada pangan 0.00 0.50 0.67 0.59 0.63 0.58 0.60 0.38 0.32 0.21 0.00

tadah hujan 1.00 1.00 0.57 0.55 0.50 0.45 0.35 0.34 0.32 0.24 0.16

tanaman obat 1.00 1.00 1.00 0.90 0.75 0.54 0.37 0.29 0.20 0.17 0.13

tanaman pangan 0.00 0.25 0.22 0.22 0.23 0.14 0.15 0.16 0.13 0.13 0.12

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 0.00 0.80 0.39 0.26 0.24 0.16 0.17 0.11 0.10 0.00 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 0.96 0.93 0.88 0.89 0.86 0.84

Minimum 0.00 0.23 0.17 0.21 0.19 0.00 0.00 0.00 0.00 0.00 0.00

(33)

Lanjutan

Tabel kinerja sistem PRF berdasarkan segmentasi dokumen dalam pengambilan segmen peringkat 20 teratas

Topik Recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.00 1.00 0.80 0.86 0.89 0.87 0.80 0.76 0.70 0.58 0.00

dukungan pemerintah pada pertanian 0.00 0.19 0.21 0.21 0.23 0.20 0.21 0.23 0.13 0.14 0.00

flu burung 1.00 1.00 1.00 0.88 0.90 0.92 0.93 0.94 0.85 0.83 0.84

gabah kering giling 1.00 1.00 0.83 0.57 0.59 0.43 0.41 0.40 0.39 0.36 0.29

gagal panen/puso 1.00 1.00 1.00 1.00 1.00 0.92 0.63 0.52 0.49 0.40 0.28

harga komoditas pertanian 1.00 1.00 0.92 0.82 0.79 0.78 0.78 0.74 0.67 0.46 0.00

impor beras indonesia 1.00 1.00 1.00 0.93 0.82 0.76 0.58 0.55 0.38 0.34 0.00

industri gula 1.00 1.00 0.67 0.75 0.67 0.67 0.71 0.61 0.55 0.27 0.24

institut pertanian bogor 1.00 1.00 0.73 0.68 0.73 0.71 0.71 0.70 0.64 0.56 0.26

kelangkaan pupuk 1.00 1.00 1.00 0.88 0.89 0.91 0.92 0.88 0.73 0.67 0.40

kelompok masyarakat tani/kelompok tani 1.00 0.80 0.50 0.50 0.34 0.28 0.26 0.25 0.26 0.18 0.00

laboratorium pertanian 0.00 0.38 0.42 0.50 0.53 0.52 0.50 0.38 0.34 0.34 0.34

musim panen 0.00 0.27 0.36 0.30 0.33 0.33 0.28 0.26 0.24 0.22 0.00

pembangunan untuk sektor pertanian 0.00 0.56 0.56 0.58 0.40 0.38 0.33 0.28 0.26 0.21 0.15 penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 1.00 0.83 0.64 0.48 0.44 0.27 0.00 0.00 0.00 0.00 0.00 penerapan teknologi pertanian 1.00 1.00 0.62 0.63 0.59 0.56 0.44 0.24 0.12 0.00 0.00 penyakit hewan ternak/penyakit ternak 1.00 0.67 0.38 0.31 0.25 0.27 0.29 0.21 0.18 0.15 0.15

penyuluhan pertanian 1.00 1.00 1.00 0.75 0.79 0.74 0.68 0.63 0.52 0.00 0.00

perdagangan hasil pertanian 0.00 0.19 0.16 0.21 0.19 0.18 0.13 0.11 0.11 0.07 0.06 pertanian organik/sistem pertanian organik 0.00 0.75 0.63 0.67 0.67 0.71 0.71 0.63 0.63 0.54 0.00

petani tebu 0.00 0.67 0.80 0.70 0.67 0.71 0.71 0.70 0.67 0.53 0.41

peternak unggas/peternak ayam/peternak burung 1.00 1.00 1.00 1.00 0.89 0.91 0.92 0.78 0.62 0.62 0.59 produk usaha peternakan rakyat/produk peternakan 1.00 0.67 0.67 0.55 0.57 0.63 0.24 0.22 0.18 0.15 0.08

pupuk organik 0.00 0.50 0.31 0.41 0.44 0.48 0.43 0.28 0.16 0.16 0.14

riset pertanian 1.00 0.70 0.52 0.46 0.47 0.00 0.00 0.00 0.00 0.00 0.00

swasembada pangan 1.00 1.00 0.50 0.33 0.38 0.43 0.44 0.42 0.29 0.24 0.00

tadah hujan 1.00 0.67 0.80 0.55 0.62 0.53 0.46 0.43 0.39 0.28 0.17

tanaman obat 1.00 1.00 1.00 0.90 0.75 0.68 0.33 0.24 0.17 0.15 0.11

tanaman pangan 0.00 0.28 0.21 0.23 0.24 0.14 0.15 0.16 0.13 0.13 0.12

upaya peningkatan pendapatan petani/peningkatan pendapatan petani 1.00 0.80 0.44 0.27 0.24 0.16 0.17 0.12 0.11 0.00 0.00

Maximum 1.00 1.00 1.00 1.00 1.00 0.92 0.93 0.94 0.85 0.83 0.84

(34)
(35)

space model untuk mengurutkan segmen-segmen tersebut. Dengan demikian, didapatkanlah segmen peringkat x teratas yang digunakan untuk proses penyeleksian expansion terms.

Penyeleksian Expansion Terms

Dalam penelitian, teknik yang mirip pseudo-relevance feedback diimplementasikan untuk menyeleksi expansion terms. Perbedaannya adalah expansion terms terseleksi dari segmen peringkat x teratas bukan dokumen peringkat k teratas. Semua expansion terms kecuali yang sama dengan kueri asli pada segmen peringkat x teratas diberikan bobot berdasarkan nilai TSV- term selection value (Yu, Cai, Wen & Ma 2003), dengan formula sebagai berikut:

TSV = w(1 )* r/R.

Asumsi, w(1 ) adalah idf (inverse document frequency) yang dihasilkan dari proses temu-kembali awal, R adalah jumlah segmen terseleksi dan r adalah jumlah segmen terseleksi dan mengandung expansion terms t. Dengan demikian, didapatkan expansion terms peringkat y teratas.

Gambar 4 Tahapan dalam praproses dokumen. Temu-kembali Final

Menurut Yu, Wen & Ma. (2003), bobot istilah untuk kueri yang diperluas akan diatur menurut aturan sebagai berikut:

Bobot baru kueri asli adalah (tf*2) * idf, tf adalah frekuensi istilah pada kueri. Bobot baru kueri perluasan adalah 1-(r-1)/n* idf. Asumsi, jika kueri perluasan berada di peringkat ke-r dari n expansion terms yang terseleksi.

Kueri yang diperluas digunakan untuk memproses korpus dokumen XML dengan proses yang sama dengan temu-kembali awal. Hasil dari proses ini akan menjadi hasil akhir proses temu-kembali informasi.

Evaluasi Hasil Temu-kembali

Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temu-kembali. Recall adalah rasio dokumen relevan yang ditemukembalikan. Precision adalah dokumen yang ditemukembalikan, dokumen tersebut relevan. Average precision (AVP) dilakukan karena digunakan beberapa kueri pada tahap evaluasi ini. AVP dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%. Pada saat level recall 0%, precision diperoleh dengan cara interpolasi (Baeza-Yates & Ribeiro-Neto 1999).

Pengaruh pengunaan PRF berdasarkan segmentasi dokumen diukur dengan cara membandingkan kinerja temu-kembali tanpa PRF, PRF dan PRF berdasarkan segmentasi dokumen. Pengujian kinerja dilakukan menurut gugus kueri dan jawaban (lihat Lampiran 3).

HASIL DAN PEMBAHASAN

Penelitian dilakukan dengan menggunakan koleksi pengujian yang tersedia di Laboratorium Temu-kembali Informasi sejak bulan Pebruari 2009 dan dijalankan menggunakan bahasa pemrograman PHP. Dalam sistem temu-kembali informasi, penentuan koleksi pengujian sangat penting dilakukan, karena dengan adanya perbedaan dari koleksi pengujian maka hasil akhir temu-kembali akan berbeda juga. Koleksi pengujian ini terdiri atas koleksi dokumen, daftar karakter dan kata buangan yang telah dimodifikasi, gugus kueri dan jawaban.

Temu-kembali Informasi Klasik

(36)

pengoperasian teks, yaitu: tokenisasi, eliminasi kata buangan dan pengindeksan teks dalam dokumen.

Sebelum melakukan tokenisasi, dilakukan proses pembentukan id dan isi dokumen. Semua huruf pada koleksi dokumen diubah menjadi huruf kecil dengan menggunakan fungsi strtolower, kemudian tag XML dieliminasi dan dibentuk segmen berdasarkan tag <TITLE>, <AUTHOR> dan <P>. Potongan-potongan segmen yang didapat berikut asal dokumen

dikumpulkan ke dalam file

“SegmentCollection.txt”. Setiap segmen didalam file “SegmentCollection.txt” digabungkan menurut asal dokumennya. Gambar 5 menjelaskan pembentukan id dan isi dokumen dari koleksi dokumen.

Isi dokumen diproses secara sekuensial per karakter dan menghasilkan indeks istilah beserta posisinya dalam dokumen. Tokenisasi diterapkan sebagai berikut:

1. Isi dokumen dibedakan menurut jenis karakter, yaitu:

a.whitespace, yaitu karakter pemisah indeks istilah

b.alpha, yaitu karakter huruf c.numeric, yaitu karakter angka

d.other, yaitu karakter yang tidak termasuk tiga jenis karakter di atas. 2. Jika karakter yang ditemukan merupakan

karakter alpha, maka karakter tersebut menjadi indeks istilah, selainnya dibuang. Proses pembuangan karakter yang tidak diperlukan dibantu oleh fungsi preg_split. Hasil dari fungsi preg_split ini juga menerapkan tahap pengindeksan teks dalam dokumen. 3. Hitung panjang dari hasil indeks istilah

yang didapat. Jika panjang indeks istilah

lebih besar sama dengan tiga, maka indeks istilah tersebut menjadi input untuk tahap eliminasi kata buangan. 4. Hasil dari proses tokenisasi berupa id

dokumen berikut hasil indeks istilah yang didapat.

Output dari tokenisasi dijadikan input pada tahap eliminasi kata buangan. Pada tahap ini, hasil indeks istilah dibandingkan dengan kata-kata buangan (biasanya kata-kata hubung). Jika indeks istilah yang didapat tidak termasuk dalam kata buangan, maka indeks istilah tersebut dijadikan input untuk metode vector space model,selainnya dibuang.

Indeks istilah tersebut diproses menggunakan metode vector space model, metode ini dapat diuraikan sebagai berikut:

Menghitung bobot untuk setiap indeks istilah menggunakan pendekatan tf.idf. Menghitung kemiripan nilai kosinus. Dokumen akan diurutkan berdasarkan nilai kemiripan kosinus, pengurutan dilakukan dari nilai kemiripan kosinus terbesar sampai dengan terkecil. Dengan demikian, didapatkanlah dokumen peringkat k teratas.

Implementasi antarmuka sistem digambarkan pada Lampiran 1.

Evaluasi Pseudo-Relevance Feedback Berdasarkan segmentasi Dokumen

Untuk mengetahui pengaruh pengambilan dokumen peringkat n teratas, dilakukan evaluasi PRF dengan mengambil dokumen peringkat 5, 10 dan 20 teratas. Gambar 5 mengilustrasikan perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas (lihat Lampiran 5).

Gambar

Gambar 3 Metodologi Penelitian.
Gambar 4 Tahapan dalam praproses dokumen.
Gambar 5 Perbandingan kinerja kueri perluasan dalam pengambilan dokumen peringkat n teratas
Gambar 7 Perbandingan kinerja kueri perluasan dalam pengambilan segmen peringkat  y teratas
+7

Referensi

Dokumen terkait

Terjadi peristiwa Cikini, yaitu peristiwa percobaan pembunuhan terhadap Presiden Sukarno di depan Perguruan Cikini pada tanggal 30 November 1957 dan menyebabkan

Jalan kabupaten sebagaimana dimaksud pada ayat (1) merupakan jalan local dalam sistem jaringan jalan primer yang tidak termasuk pada ayat (2) dan ayat (3), yang

Dengan menggunakan teknologi multimedia, masyarakat diharapkan akan tertarik untuk belajar sejarah para pahlawan karena dibuat dengan mempermudah masyarakat untuk

Ketika pemain telah menjalankan aplikasi, pemain dapat memilih bermain dengan single player, two players, melihat cara bermain, meminta bantuan untuk two players,

3 Untuk mengetahui konsep dari sistem bilangan dan Agar mahasiswa dapat mengetahui dan lebih Pengenalan.. Konsep Dasar Sistem

Penyusunan skripsi yang berjudul &#34;Perbedaan Subjective Well Being pada Ibu ditinjau dari Struktur Keluarga di Kota Denpasar&#34; ini merupakan salah satu

Tujuan dari penelitian ini adalah mengetahui formulasi terbaik dan tingkat kesukaan konsumen terhadap takoyaki substitusi tepung tapioka dengan berbagai formulasi

Hasil penelitian menunjukkan bahwa pemberian penambahan tepung biji kecipir pada pakan komersial sebanyak 5% per kg pakan dapat meningkatkan kematangan gonad ikan gurame