EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC SIMILARITY RETRIEVAL MODEL (SSRM) SRI RAHAYU ISMANI

(1)

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC

SIMILARITY RETRIEVAL MODEL (SSRM)

SRI RAHAYU ISMANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(2)

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC

SIMILARITY RETRIEVAL MODEL (SSRM)

SRI RAHAYU ISMANI

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(3)

ABSTRACT

SRI RAHAYU ISMANI. Query Expansion Method Using Semantic Similarity Retrieval Model (SSRM). Supervised by JULIO ADISANTOSO.

The main objective of this study was to applied the method of semantic similarity in the proccesed of query expansion in information retrieval systems in the Indonesian language. Selection of partners in selecting candidates expansion will be used phrase pairs that have been made In research Kartina (2010) in which the phrase pairs with the largest value of similarity between the words that will be selected. Used by 10 groups of queries not clear who obtained manually and 30 groups of queries in 2000 agricultural document, document search results will be compared with the addition one-term of expansion, two-term of expansion, and three-term of expansion.

The results of this study suggest five things. The first that the expansion of the query by added one term produces better results than the addition of two terms and three terms. The second that query expansion used by 10 groups of queries produces a higher precision values than using 30 groups of queries. The third that the used of the semantic similarity method produces better performance than the use of a thesaurus on the method of similarity retrieval Vektor Space Model (VSM). The fourth that the used of semantic similarity methods have not been able to produce better performance than the used of the method of conditional probabilities in the selection of expansion terms resulting from the translation of bilingual dictionary. The fifth that the used of the phrase paired in determining the candidate expansion terms can not maximize the search results using the method of semantic similarity of documents, because each pair selected does not necessarily have a semantic relationship with a given query.

(4)

Judul : Ekspansi Kueri Menggunakan Metode Semantic Similarity Retrieval Model (SSRM) Nama : Sri Rahayu Ismani

NRP : G64062227

Menyetujui:

Pembimbing,

Ir. Julio Adisantoso, M. Kom NIP. 19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001

(5)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta, 04 Februari 1988. Penulis merupakan anak kedua dari empat bersaudara dari pasangan Bapak Hamdi Ismani dan Ibu Rum Sari.

Penulis memulai pendidikan sekolah dasar di SD Negeri Sukatani 1 pada tahun 1994. Setelah lulus pada tahun 2000, penulis melanjutkan ke pendidikan menengah di SMP Negeri 233 Jakarta pada tahun yang sama dan kemudian dilanjutkan ke SMU Negeri 105 Jakarta pada tahun 2003. Tahun 2006 penulis lulus dari SMU dan diterima menjadi salah satu mahasiswa Institut Pertanian Bogor memalui jalur Undangan Seleksi Masuk IPB (USMI). Setahun kemudian penulis berhasil diterima menjadi salah satu mahasiswa Program Studi Ilmu Komputer IPB.

Selama mengikuti perkuliahan, penulis aktif di organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) dan bergabung dengan divisi multimedia tahun kepengurusan 2008/2009. Tahun 2009 penulis menjalankan Praktek Kerja Lapangan (PKL) di Direktorat Komunikasi dan Sistem Informasi (DKSI) Institut Pertanian Bogor selama kurang lebih dua bulan.

(6)

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah SWT atas segala rahmat dan karunia-Nya sehingga tugas akhir dengan judul Ekspansi Kueri Menggunakan Metode Semantic Similarity

Retrieval Model (SSRM) dapat diselesaikan dengan baik.

Penyelesaian tugas akhir ini tidak lepas dari bantuan berbagai pihak, untuk itu ucapan terima kasih penulis sampaikan kepada:

1. Ayah, Ibu, Kakak, Adik, serta segenap keluarga besar yang selalu mendukung, mengingkatkan dan memberikan semangat selama proses pembuatan tugas akhir ini.

2. Bapak Ir. Julio Adisantoso, M. Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan dan dukungan dalam penyelesaian tugas akhir ini.

3. Bapak Ahmad Ridha, S. Kom, MS dan Bapak Sony Hartono Wijaya, S. Kom, M. Kom selaku dosen penguji, Ibu Dr. Sri Nurdiati, M.Sc selaku Kepala Departemen Ilmu Komputer serta seluruh staf Departemen Ilmu Komputer FMIPA IPB.

4. Teman-teman satu bimbingan Ka Mutia, Hendrex, Awet, Tina, Rio, Iyam, Wildan, Eka, Adit, Devi, Nova, Dina, Woro, Isna, Agus, Yoga, dan Ade. Terima kasih atas bantuan, semangat dan kebersamaannya selama melakukan penelitian.

5. Sahabat-sahabatku Inez, Yuli, Ardan, Prames, Uut, Irawan, Roni, Wendhy dan seluruh sahabatku Ilkomerz43. Terima kasih atas motivasi, kebersamaan dan kenangan selama tiga tahun yang tak terlupakan.

6. Sahabat-sahabat baikku, Hana, Ziffy, Della, Nagi, Vely, terima kasih atas nasihat dan dukungan yang selalu diberikan.

7. Teman-teman Wisma Arini 3 Mba Titi, Uni, Aron, Tia, terima kasih atas dukungan dan candaan-candaan yang menghibur.

8. Seluruh pihak yang membantu baik secara langsung maupun tidak langsung dalam pelaksaan tugas akhir ini.

Penulis berharap tulisan ini dapat bermanfaat di masa yang akan datang.

Bogor, Januari 2012

(7)

v

DAFTAR ISI

Halaman DAFTAR GAMBAR ... vi DAFTAR TABEL ... vi DAFTAR LAMPIRAN ... vi PENDAHULUAN ... 1 Latar belakang... 1 Tujuan ... 1 Ruang Lingkup... 1 TINJAUAN PUSTAKA ... 1

Temu Kembali Informasi ... 1

Ekspansi Kueri ... 2

Semantic Similarity Retrieval Model (SSRM) ... 2

Evaluasi Sistem Temu Kembali Informasi ... 3

METODE PENELITIAN ... 3

Koleksi Dokumen... 4

Indexing ... 4

Matriks Kesamaan ... 4

Pengujian Kinerja Sistem ... 5

Analisis Pembandingan Metode Ekspansi ... 5

Asumsi-asumsi ... 5

Lingkungan Implementasi ... 5

HASIL DAN PEMBAHASAN... 6

Koleksi Dokumen... 6

Indexing ... 6

Pencarian Dokumen ... 7

Pengujian Kinerja Sistem ... 8

Analisis Pembandingan Metode Ekspansi ... 9

KESIMPULAN DAN SARAN... 10

Kesimpulan ... 10

Saran... 10

DAFTAR PUSTAKA ... 11

(8)

vi

DAFTAR GAMBAR

Halaman

1 Gambaran umum sistem temu kembali informasi ... 3

2 Grafik recall terhadap precision pada QE0 ... 8

3 Grafik recall terhadap precision pada QX0 ... 8

4 Grafik recall terhadap precision pada QE0, QE1, QE2, dan QE3 ... 8

5 Grafik recall terhadap precision pada QX0, QX1, QX2, dan QX3 ... 9

DAFTAR TABEL

Halaman 1 Ilustrasi perhitungan recall & precision ... 3

2 Deskripsi dokumen pengujian ... 6

3 Hasil proses tokenisasi ... 6

4 Contoh pasangan kata ... 7

5 Normalisasi peluang pasangan kata ... 7

6 Perbandingan nilai presisi sistem pada 1000 dan 2000 dokumen... 9

7 AVP berdasarkan penelitian Paiki (2006) ... 10

8 AVP berdasarkan penelitian Samana (2011) ... 10

DAFTAR LAMPIRAN

Halaman 1 Contoh dokumen dalam koleksi ... 13

2 Daftar 30 kueri dan jumlah dokumen relevan ... 14

(9)

1

PENDAHULUAN

Latar belakang

Search Engine atau mesin pencari adalah

salah satu contoh aplikasi dalam penggunaan sistem temu kembali informasi. Mesin pencari melakukan pencarian informasi dari sekumpulan dokumen berdasarkan kebutuhan informasi pengguna yang dimasukkan dalam bentuk kueri. Kueri tersebut bisa berupa kata atau serangkaian kata yang berkaitan dengan topik tertentu. Terdapat masalah yang sering ditemui dalam pencarian informasi tersebut, yaitu pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Untuk memecahkan masalah tersebut perlu dilakukan ekspansi kueri, yaitu kueri yang diberikan pengguna akan dimodifikasi, kemudian kueri yang baru tersebut akan digunakan untuk pencarian berikutnya (kueri akhir).

Paiki (2006) telah melakukan penelitian mengenai ekspansi kueri dengan menggunakan metode similarity thesaurus. Dalam penelitian tersebut diberikan bobot yang sama untuk setiap istilah-istilah yang berkaitan dengan kueri. Hal ini tidak dapat meningkatkan kinerja sistem khususnya pada saat ekspansi kueri. Sedangkan Rusidi (2008) melakukan ekspansi kueri dengan mengambil istilah ekspansi berdasarkan keeratan hubungan istilah dalam kueri dengan istilah lain yang berada dalam indeks. Keeratan hubungan antar istilah ini diukur dengan menggunakan metode peluang bersyarat. Hasil dalam penelitian tersebut menunjukkan jumlah istilah ekspansi yang lebih sedikit lebih baik dibandingkan dengan mengunakan jumlah istilah kueri yang lebih banyak.

Sitohang (2009) telah mengimplementasikan metode penerjemahan kueri dengan menggunakan kamus dwibahasa dalam mencari istilah ekspansi. Dalam kamus dwibahasa tersebut akan dicari istilah kata yang memiliki makna hampir sama dengan kueri yang telah diberikan dan akan dipilih istilah untuk ekspansi dengan menggunakan nilai idf istilah yang dihasilkan dari penerjemahan. Tetapi dalam penggunaan metode ini hanya dapat meningkatkan relevansi hasil temu kembali untuk beberapa kueri tertentu. Sedangkan Samana (2011) melakukan penelitian mengenai ekspansi kueri dengan berfokus pada pemilihan istilah ekspansi yang dihasilkan oleh penerjemahan dwibahasa menggunakan metode peluang bersyarat. Ekspansi kueri yang dilakukan pada penelitian tersebut mengakibat menurunnya nilai presisi.

Hliaoutakis et al. (2006) melakukan penelitian untuk membuat sistem temu kembali informasi menggunakan WordNet dengan

metode semantic similarity. WordNet

merupakan sebuah database kamus bahasa Inggris yang dikembangkan oleh Princeton University. Pada penelitian tersebut WordNet digunakan untuk mencari ekspansi kata dari kueri yang telah diberikan. Selain penelitian tersebut, penelitian yang menggunakan metode

semantic similarity juga dilakukan pada data

medis. Dalam penelitiannya, Hliaoutakis telah membuat database yang berisi hubungan kesamaan makna antara kata-kata mengenai medis dalam bahasa Inggris. Database tersebut bernama MeSH, kemudian digunakan metode

semantic similarity retrieval model (SSRM)

untuk perhitungan bobot dari kueri (Hliaoutakis

et al. 2006).

Oleh karena belum adanya database kamus bahasa Indonesia, maka pada penelitian ini akan dicari istilah yang berkaitan dengan kata dalam kueri dengan cara menghitung peluang antar kata yang terdapat dalam dokumen dengan menggunakan teknik pembentukan frase yang dihasilkan pada penelitian Kartina (2010). Tujuan

Tujuan utama dari penelitian adalah mengimplementasikan metode Semantic Similarity Retrieval Model (SSRM) dalam

proses pembobotan ekspansi kueri dalam sistem temu kembali informasi untuk koleksi dokumen teks berbahasa Indonesia.

Ruang Lingkup

Ruang lingkup penelitian ini adalah:

 Penelitian ini menggunakan dokumen serta kueri berbahasa Indonesia.

 Menggunakan frase yang terdiri atas dua kata yang dihasilkan pada penelitian Kartina (2010) sebagai kandidat istilah ekspansi.

TINJAUAN PUSTAKA

Temu Kembali Informasi

Information retrieval atau temu kembali

informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al. 2008). Untuk menemukembalikan informasi terdapat proses

indexing yang bertujuan menentukan kata mana

(10)

2 dokumen diwujudkan sebagai sebuah vektor

dengan elemen sebanyak kata yang berhasil dikenali dari proses pemisahan kata. Vektor tersebut beranggotakan bobot dari tiap kata yang dihitung berdasarkan metode tf-idf. Metode tf-idf ini merupakan metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency (tf), dan inverse document frequency (idf)

       t t d t Df N Tf W, .log [1] dengan wt,d adalah bobot dari kata t dalam dokumen d sedangkan tft adalah frekuensi kata t dalam dokumen d(tf) dengan N merupakan

ukuran data training yang digunakan untuk penghitungan idf. Adapun dft adalah jumlah dari dokumen yang di-training yang mengandung nilai t.

Ekspansi Kueri

Selberg (1997) dalam Paiki (2006) menyatakan bahwa ekspansi kueri adalah sekumpulan teknik untuk memodifikasi kueri dengan tujuan untuk memenuhi sebuah kebutuhan informasi. Ekspansi kueri dapat berarti penambahan maupun pengurangan kata pada kueri.

Terdapat tiga cara yang dapat digunakan dalam melakukan ekspansi kueri yakni: manual,

interaktif, dan automatic. Terkadang pengguna

tidak dapat memberikan informasi yang cukup untuk melakukan ekspansi kueri (manual dan

interaktif), maka dibutuhkan suatu metode

ekspansi yang tidak memerlukan keterlibatan pengguna di dalamnya (Automatic). Automatic

Queri Ekspansion (AQE) merupakan proses

penambahan istilah atau frase pada kueri asli untuk meningkatkan kinerja temu kembali tanpa intervensi dari pengguna (Imran & Sharan 2009, dalam Samana 2011).

Pada ekspansi kueri terdapat dua metode analisis yang digunakan, yaitu analisis lokal dan analisis global. Ekspansi kueri dengan analisis lokal hanya menggunakan kueri dan dokumen-dokumen yang sudah dutemukembalikan pada pencarian awal. Dalam hal ini, analisis lokal digunakan untuk menentukan istilah-istilah yang tepat untuk ekspansi kueri. Sedangkan analisis global, prinsip dasarnya adalah dengan memanfaatkan konteks suatu kata untuk menentukan kesamaannya dengan kata yang lain (Baeza-Yates & Ribeiro-Neto dalam Paiki 2006).

Semantic Similarity Retrieval Model (SSRM) Umumnya pada temu kembali informasi, sebuah dokumen direpresentasikan oleh vektor kata dan setiap kata dihitung dengan menggunakan pembobot tf-idf. SSRM bekerja dalam tiga tahap :

1 Pembobotan ulang kata

Bobot qi dari kata i pada kueri ditetapkan berdasarkan hubungannya dengan persamaan semantik kata j dalam vektor yang sama



    j i t j) sim(i, j i i q q.sim(i,j) q [2] dengan t didefinisikan sebagai threshold. Persamaan semantik antar kata yang dihitung berdasarkan persamaan cosine

) ( ) ( ) ( ). ( ) , ( j V i V j V i V j i sim  [3]

dengan merupakan dot product vektor i dan vektor j, merupakan panjang vektor kata i, dan merupakan panjang vektor kata j.

2 Ekspansi kata

Pertama-tama akan dicari pasangan kata dari setiap kata dalam kueri awal yang memiliki nilai kesamaan paling besar. Kemudian, setiap kata i dalam kueri akhir diberikan bobot sebagai berikut



     j i Q j and T j) sim(i, j i i q.sim(i,j) n 1 q q' [4]

dengan n adalah jumlah pasangan frase dari setiap kata yang yang ada dalam kueri, qi merupakan bobot kata i sebelum dilakukan ekspansi, dan Q merupakan subset dari sekumpulan kata yang asli pada kueri yang menuju ke kata baru yang akan ditambahkan ke dalam kata yang sudah diekspansi. Jika kata i tidak berada pada kueri awal, maka nilai qi = 0. 3 Kesamaan Dokumen

Persamaan antara ekspansi dan pembobotan ulang sebuah kueri q dan sebuah dokumen d dihitung dengan ukuran kesamaan dokumen sebagai berikut



 i j i j i j i j d q j i sim d q d q sim . ) , ( . . ) , ( [5]

(11)

3 dengan i dan j merupakan kata dalam kueri dan

dokumen secara berurutan dalam satu dokumen. Ukuran kesamaan pada persamaan [3] rata-rata bobotnya telah dinormalisasikan pada batas [0,1].

Evaluasi Sistem Temu Kembali Informasi Dalam sistem temu kembali informasi diperlukan suatu ukuran untuk mengevaluasi kinerja sistem dalam menemukembalikan dokumen-dokumen yang relevan. Terdapat enam jenis ukuran yang dapat digunakan untuk mengukur kinerja sistem yaitu coverage, time

lag, presentation, effort, recall, dan precision

(Cleverdon dalam Paiki 2006). Recall dan

precision merupakan salah satu ukuran yang

paling sering digunakan dalam mengevaluasi sistem.

Recall merupakan rasio jumlah dokumen

relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan dalam koleksi.

Precision merupakan rasio jumlah dokumen

relevan yang ditemukembalikan terhadap

jumlah seluruh dokumen yang

ditemukembalikan. Ilustrasi perhitungan Recall dan precision dapat dilihat pada Tabel 1 (Manning et al. 2008).

Tabel 1 Ilustrasi perhitungan recall & precision Relevant Non-relevant Retrieved tp fp Non-retrieved fn tn Sehingga: ) ( Re fp tp tp call   [6] ) ( Pr fn tp tp ecision   [7]

Average precision (AVP) adalah suatu

ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung average precision menggunakan eleven standard recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1 (Manning et al. 2008).

METODE PENELITIAN

Penelitian ini akan dilakukan melalui beberapa tahap yaitu : (1) indexing, (2) matriks kesamaan, (3) ekspansi kueri, (4) pengujian kinerja sistem, dan (5) analisis pembandingan kinerja sistem. Alur kerja dari sistem dapat dilihat pada Gambar 1.

(12)

4 Gambar 1 menunjukkan alur dari sistem yang

dilakukan secara offline (1, 2, 3) dan online (4, 5, 6, 7) dengan penjelasan sebagai berikut: Masukan: Query q, Dokumen d.

Keluaran: Top-N dokumen. 1. Menghitung frekuensi kata.

2. Menghitung bobot dari seluruh kata yang terdapat dalam dokumen dengan perhitungan tf.idf

3. Menghitung nilai sim dari pasangan kata yang nilai peluangnya ≥ 0.3

4. Mencari kandidat untuk kueri ekspansi dengan memilih pasangan kata yang memiliki nilai sim terbesar

5. Menghitung bobot baru kueri dengan perhitungan SSRM tahap 1



    j i t j) sim(i, j i i q q.sim(i,j) q

6. Menghitung bobot dari kueri ekspansi yang didapatkan dengan perhitungan SSRM tahap 2



    j i Q j and T j) sim(i, j.sim(i,j) q n 1 'i q , i adalah kueri baru



     j i Q j and T j) sim(i, j i i q.sim(i,j) n 1 q q' , i adalah kueri dalam qi

7. Menghitung nilai kesamaan dokumen dengan kueri dengan perhitungan SSRM tahap 3



 i j i j i j i j d q j i sim d q d q sim . ) , ( . . ) , ( Koleksi Dokumen

Dokumen yang digunakan adalah dokumen berita dalam bidang pertanian berbahasa Indonesia sebanyak 2000 dokumen. Dokumen berita yang digunakan merupakan koleksi berita dari beberapa sumber di Internet.

Gugus kueri dan dokumen yang digunakan dalam penelitian ini menggunakan 30 kueri yang diambil dari koleksi yang ada di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 10 kueri tidak jelas yang didapatkan secara manual.

Indexing

Tahap indexing merupakan kumpulan dari beberapa langkah awal dalam melakukan tahap pemodelan temu kembali informasi, yang diantaranya: tokenisasi, pembuangan stopwords, dan pembobotan kata dalam seluruh dokumen. Dalam penelitian ini, proses indexing dijalankan secara offline.

Pada tahap tokenisasi akan dilakukan pembacaan karakter yang bertujuan membedakan karakter-karakter yang bersifat separator dan yang bukan. Dalam penelitian ini, karakter angka akan dianggap sebagai separator, karena karakter angka dianggap kurang representatif dalam menggambarkan suatu dokumen tertentu.

Sebelum memasuki tahap pembobotan kata, masing-masing token tersebut akan diperiksa keberadaannya di dalam stopwords. Jika token tersebut terdapat dalam daftar stopwords, maka akan dibuang dan sebaliknya jika tidak, maka token tersebut akan digunakan dalam tahap pembobotan.

Setelah itu, akan dilakukan pembobotan kata, tujuan dari pembobotan ini adalah untuk menentukan tingkat kepentingan suatu token di dalam dokumen. Metode yang digunakan adalah tf-idf dan Semantic Similarity Retrieval

Model. Pembobotan tf-idf digunakan pada

proses indexing, sedangkan pembobotan menggunakan Semantic Similarity Retrieval

Model digunakan pada saat ekspansi kueri.

Matriks Kesamaan

Berdasarkan indeks yang sudah dibuat akan dihasilkan matriks kesamaan secara automatis. Ukuran kesamaan yang digunakan adalah ukuran kesamaan cosine.

Semakin besar jumlah istilah unik yang didapatkan dalam indeks, maka semakin besar pula ukuran matriks kesamaannya. Untuk mengatasi besarnya ukuran matriks kesamaan, setiap pasangan frase yang dihasilkan pada penelitian Kartina (2010) akan dihitung nilai kedekatannya dengan menggunakan persamaan [3]. Jika pasangan frase tersebut memiliki jumlah yang sedikit pada dokumen yang sama, secara otomatis akan dibuang. Dengan demikian, diharapkan jumlah pasangan frase yang digunakan sebagai kandidat kueri ekspansi akan berkurang, sehingga waktu komputasi dapat dipersingkat.

(13)

5 Ekspansi Kueri

Pemilihan kandidat kueri ekspansi pada penelitian ini akan menggunakan pasangan frase yang dihasilkan pada penelitian Kartina (2010) yang telah dihitung nilai nilai kedekatannya. Pasangan frase dengan nilai kesamaan antarkata terbesar akan dijadikan kueri ekspansi dan ditambahkan pada kueri awal yang diberikan pengguna (kueri akhir), untuk kemudian dilakukan pembobotan ulang dengan menggunakan metode Semantic Similarity

Retrieval Model.

Pengujian Kinerja Sistem

Hal utama yang akan diuji dari sistem ini yakni presisi dari hasil pencarian dokumen berdasarkan kueri masukan. Metode evaluasi yang digunakan untuk menghitung presisi dari sistem ialah metode recall-precision. nilai

recall dan precision dari setiap pencarian

dengan kueri tertentu akan dihitung dan selanjutnya diambil nilai rata-ratanya untuk mendapatkan nilai average precision dari sistem. Dengan menghitung nilai average

precision dari sistem, nilai presisi sistem secara

keseluruhan akan dapat diketahui. Terdapat delapan asumsi kondisi pengujian presisi sistem, yakni:

1. Kondisi pertama (QE0): evaluasi proses temu kembali 30 kueri tanpa menggunakan ekspansi kueri.

2. Kondisi kedua (QE1): evaluasi proses temu kembali 30 kueri dengan menambahkan satu istilah pada masing-masing kata dalam kueri.

3. Kondisi ketiga (QE2): evaluasi proses temu kembali 30 kueri dengan menambahkan dua istilah pada masing-masing kata dalam kueri.

4. Kondisi keempat (QE3): evaluasi proses temu kembali 30 kueri dengan menambahkan tiga istilah pada masing-masing kata dalam kueri.

5. Kondisi pertama (QX0): evaluasi proses temu kembali 10 kueri tanpa menggunakan ekspansi kueri.

6. Kondisi keempat (QX1): evaluasi proses temu kembali 10 kueri dengan menambahkan satu istilah pada masing-masing kata dalam kueri.

7. Kondisi keempat (QX2): evaluasi proses temu kembali 10 kueri dengan menambahkan dua istilah pada masing-masing kata dalam kueri.

8. Kondisi keempat (QX3): evaluasi proses temu kembali 10 kueri dengan

menambahkan tiga istilah pada masing-masing kata dalam kueri.

Evaluasi presisi pencarian sistem akan diuji pada dua jenis koleksi dokumen pengujian. Koleksi pertama ialah menguji sistem pada pengolah 1000 dokumen dan membandingkan hasil presisi dengan hasil penelitian Paiki (2006). Koleksi kedua ialah koleksi dokumen yang memiliki ukuran lebih yakni 2000 dokumen.

Analisis Pembandingan Metode Ekspansi Penelitian ini menggunakan metode

semantic similarity dalam proses pembobotan

pada ekspansi kueri, ekspansi kueri dengan 30 kueri akan dibandingkan dengan penelitian yang telah dilakukan oleh Paiki (2006) yang melakukan ekspansi kueri dengan menggunakan metode similarity thesaurus yang diimplementasikan pada temu kembai vektor dan ekspansi kueri dengan 10 kueri akan dibandingkan dengan penelitian yang telah dilakukan oleh Samana (2011) yang melakukan ekspansi kueri dengan menggunakan metode peluang bersyarat dalam pemilihan istilah ekspansi dalam penerjemahan kamus dwibahasa. Analisis lebih jauh diperlukan untuk mengetahui metode mana yang lebih baik digunakan dalam ekspansi kueri.

Asumsi-asumsi

Asumsi-asumsi yang digunakan dalam penelitian ini antara lain:

 Token hasil tokenizing merupakan istilah yang belum tentu bernilai benar secara bahasa

 Setiap token hasil tokenizing telah memiliki pasangan frase masing-masing

 Setiap pasangan frase yang didapatkan sebagai kandidat istilah ekspansi memiliki makna semantik yang ambigu

 Jumlah dokumen relevan untuk tiap kueri telah diketahui sebelumnya

 Pilihan istilah yang didapatkan pada hasil ekspansi kueri belum tentu bernilai benar secara bahasa

Lingkungan Implementasi

Perangkat lunak yang digunakan dalam melakukan penelitian yaitu:

 Windows 7 Starter sebagai sistem operasi

 ActivePerl-5.10.1.1007 sebagai interpreter bahasa pemrograman Perl yang digunakan

(14)

6

 Notepad++ v.5.9

 Microsoft Excel 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam mengevaluasi sistem

Perangkat keras yang digunakan untuk penelitian meliputi:

 AMD Dual-Core Processor E-350 CPU @ 1,6 GHz

 RAM 2 GB

 Harddisk dengan kapasitas 320 GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen

Tahapan pengumpulan dokumen telah menghasilkan koleksi yang terdiri atas 2000 dokumen pertanian yang seluruhnya berasal dari lab Temu Kembali Informasi dan merupakan dokumen berita dalam bidang pertanian berbahasa Indonesia. Deskripsi dari dokumen yang digunakan dapat dilihat pada Tabel 2. Tabel 2 Deskripsi dokumen pengujian

Uraian Nilai (byte) Ukuran keseluruhan dokumen

Ukuran rata-rata dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil

6438425 3219 53309 412 Seluruh isi dokumen yang dikumpulkan menggunakan Bahasa Indonesia semi-formal/formal. Jumlah stopword yang diperoleh dari 2000 dokumen adalah sebanyak 1074 kata, diantaranya adalah kata-kata umum, tetapi, tersebut, tanpa, dan setelah.

Contoh dari dokumen pengujian dapat dilihat pada Lampiran 1, dan format dokumen yang terkumpul diformat dengan susunan tag sebagai berikut :

<DOC>

<DOCNO> nomor dokumen </DOCNO> <TITLE> judul dokumen </TITLE>

<AUTHOR> nama/inisial penulis </AUTHOR> <DATE> tanggal dokumen </DATE>

<TEXT> isi teks lengkap </TEXT> </DOC>

Selain itu untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan 30 kueri yang diambil dari koleksi yang ada di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 10 kueri tidak jelas yang didapatkan oleh penulis secara manual. Daftar kueri dan jumlah dokumen relevan dapat dilihat pada Lampiran 2 dan Lampiran 3.

Indexing

Tahap indexing berjalan secara offline dan dilakukan untuk menghasilkan kata-kata yang akan digunakan sebagai penciri dokumen. Dari

indexing yang dilakukan tercatat 31454 buah

istilah unik. Berikut lima istilah dengan frekuensi tertinggi adalah :

Pertanian (1472 dokumen, 8946 kata) Petani (1091 dokumen, 5477 kata) Tanaman (954 dokumen, 3695 kata) Tahun (1148 dokumen, 3507 kata) Indonesia (921 dokumen, 3315 kata)

Tahap tokenisasi dilakukan dengan memilah kata tertentu berdasarkan frekuensi kemunculannya dalam setiap dokumen, sehingga diperoleh sebanyak 259460 kata dengan frekuensi kemunculan yang bervariasi. Penjelasan hasil tokenisasi ditunjukkan oleh Tabel 3.

Tabel 3 Hasil proses tokenisasi

Uraian Nilai

Rata-rata token tiap dokumen Jumlah token keseluruhan Jumlah token terbesar Jumlah token terkecil

130 259460 8946 1

Stopword yang diperoleh sebanyak 1074

kata sehingga menunjukkan bahwa frekuensi kemunculannya sangat banyak dalam dokumen.

Stopword merupakan daftar kata umum yang

mempunyai fungsi tapi tidak mempunyai arti yang ditemukan dalam seluruh dokumen sehingga perlu dibuang untuk efisiensi, seperti : adalah, akan, atau, dan bagi.

Setelah tahap pembuangan stopword

kemudian dilakukan pembobotan terhadap kata. Tahap ini dilakukan untuk mendapatkan hasil sejumlah kata yang sering muncul pada suatu dokumen sehingga dapat diketahui pentingnya kata tersebut untuk dokumen yang

(15)

7 bersangkutan. Pendekatan yang digunakan

adalah dengan term frequency (tf) dan inverse

document frequency (idf), dalam penelitian ini

kata yang akan dihitung bobotnya hanya kata dengan nilai idf >= 0.3, dari hasil kali terhadap keduanya sehingga diperoleh nilai bobot setiap

term t pada dokumen d.

Seluruh hasil dari tahap indexing disimpan dalam table hash frek.dat untuk kemudian dipakai dalam tahap perhitungan bobot dari seluruh kata dalam dokumen dengan menggunakan persamaan [1]. Sedangkan hasil dari perhitungan bobot kata disimpan dalam

table hash tfIdf.dat.

Ekspansi Kueri

Sejumlah 270262 pasangan kata beserta dengan masing-masing peluangnya telah didapatkan dari penelitian Kartina (2010). Pasangan kata yang akan digunakan dalam penelitian ini akan dibatasi dengan hanya mengambil pasangan kata yang memiliki nilai peluang lebih dari sama dengan 0.3, sehingga didapat 31014 pasangan kata yang akan disimpan dan dihitung kesamaan antar kata dengan menggunakan persamaan [3] untuk disimpan dalam table hash cosineKata.dat untuk kemudian dijadikan kandidat istilah pada ekspansi kueri. Contoh pasangan kata yang telah dihitung nilai kedekatannya dapat dilihat pada Tabel 4.

Tabel 4 Contoh pasangan kata Pasangan kata Ukuran Matriks Kesamaan Nilai Peluang Asam Lemak 0.0880 0.4078 Proyek Stadion 0.0774 0.4193 Pupuk Kandang 0.0267 0.6580 Jalan Tol 0.0304 0.5833 Bawang Bombai 0.0012 1

Nilai peluang dari pasangan kata yang dinormalisasikan dalam batas [0,1] dapat dilihat pada Tabel 5.

Tabel 5 Normalisasi peluang pasangan kata

Peluang Frekuensi 0 < peluang ≤ 0.1 213718 0.1 < peluang ≤ 0.2 19431 0.2 < peluang ≤ 0.3 68 0.3 < peluang ≤ 0.4 6467 0.4 < peluang ≤ 0.5 7905 0.5 < peluang ≤ 0.6 319 0.6 < peluang ≤ 0.7 812 0.7 < peluang ≤ 0.8 277 0.8 < peluang ≤ 0.9 111 0.9 < peluang ≤ 1 15055 Pencarian Dokumen

Pencarian dokumen dilakukan dengan menghitung ukuran kesamaan antara kueri yang diberikan dan tiap dokumen. Semakin tinggi nilai ukuran kesamaan dengan suatu dokumen maka dapat diartikan dokumen relevan dengan kueri yang diberikan.

Proses awal pencarian dokumen dilakukan dengan cara menghitung bobot dari kueri yang dimasukan oleh pengguna (kueri awal) dengan menggunakan rumus tfIdf. Setelah didapatkan bobot dari kueri yang diberikan, sistem akan mencari kandidat kueri ekspansi dalam table

hash cosineKata.dat untuk kemudian dipilih

yang memiliki nilai kesamaan antarkata paling besar yang akan dijadikan kueri ekspansi (kueri akhir).

Metode SSRM bekerja dalam tiga tahap yaitu: pembobotan ulang kata, ekspansi kueri, dan kesamaan dokumen. Tahap pembobotan ulang kata dimulai dengan menghitung bobot dari kueri awal dengan menambahkan jumlah dari seluruh nilai kesamaan pasangan kata yang telah dipilih dengan menggunakan persamaan [2] dengan nilai threshold 0,001.

Kueri akhir yang didapatkan akan masuk ke tahap kueri ekspansi untuk kemudian dihitung kembali bobotnya dengan menggunakan persamaan [4] dengan nilai threshold 0,001. Pasangan kata yang dipakai pada persamaan ini menggunakan pasangan kata yang telah dicari dari table hash cosineKata.dat.

Ukuran kesamaan dokumen pada metode SSRM menggunakan persamaan [5], untuk setiap i dan j (i dan j merupakan pasangan kata yang telah dicari pada tahap ekspansi kueri)

(16)

8 akan dihitung jumlah vektor kueri i dikalikan

dengan vektor dokumen yang mengandung kata

j dan dikalikan dengan ukuran kesamaan antara

kata i dan j.

Pengujian Kinerja Sistem

Proses evaluasi dilakukan untuk mengetahui seberapa baik kinerja dari suatu sistem temu kembali informasi. Proses evaluasi dalam penelitian ini menggunakan 30 macam kueri yang diambil dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB dan 10 macam kueri tidak jelas yang ditentukan secara manual oleh pengguna dan telah diketahui dokumen-dokumen relevannya, dan kinerja dari sistem pada penelitian ini akan diuji dengan menggunakan nilai recall dan precision sebagai tolok ukur yang menggambarkan seberapa baik sistem yang telah dibangun, setelah itu dilakukan interpolasi untuk mengetahui nilai Average Precision.

Tahap awal akan dilakukan pengujian untuk pencarian dokumen tanpa melakukan ekspansi kueri menggunakan pembobotan VSM. Hasil pengujian untuk QE0 dan QX0 dapat dilihat pada Gambar 2 dan Gambar 3.

Gambar 2 Grafik recall terhadap precision pada QE0.

Gambar 3 Grafik recall terhadap precision pada QX0.

Nilai recall dan precision dari pencarian tanpa ekspansi dengan menggunakan metode

Vector Space Model (VSM) akan digunakan

sebagai pembanding oleh pencarian yang menggunakan ekspansi, baik satu, dua, maupun pencarian yang menggunakan tiga buah ekspansi dari setiap kata dalam kueri awal. Nilai

average precision (AVP) dari menu pencarian

untuk gugus 30 kueri dan gugus 10 kueri masing-masing adalah sebesar 0.495 dan 0.796. Kondisi pengujian lainnya, QE1, QE2, dan QE3 yang merupakan pengujian untuk pencarian 30 kueri yang dilakukan dengan menambahkan istilah ekspansi pada kueri awal. Hasil dari pengujian tersebut akan dibandingkan dengan pencarian tanpa ekspansi (QE0).

Gambar 4 Grafik recall terhadap precision pada QE0, QE1, QE2, dan QE3. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 P r e c is io n Recall 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 P r e c is io n Recall 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 P r e c is io n Recall QE0 QE1 QE2 QE3

(17)

9 Gambar 5 Grafik recall terhadap precision

pada QX0, QX1, QX2, dan QX3. Perbandingan untuk tiga pengujian dengan ekspansi kueri dapat dilihat pada Gambar 4 dan Gambar 5. Dari grafik terlihat bahwa penggunaan metode semantic similarity dalam menghitung pembobotan kueri pada pengujian yang dilakukan untuk 30 kueri hanya mampu meningkatkan nilai precision untuk dua kueri masukan dari 30 kueri yang diujikan, dan peningkatan terjadi pada saat penambahan satu istilah ekspansi (QE1). Sedangkan pada pengujian yang dilakukan untuk 10 kueri hanya mampu meningkatkan nilai precision untuk empat kueri masukan dari 10 kueri yang diujikan, dan peningkatan terjadi pada saat penambahan satu istilah ekspansi (QX1).

Pada Tabel 6 dapat dilihat perbandingan nilai AVP dari pengujian QE0, QE1, QE2, QE3, QX0, QX1, QX2, dan QX3. Pada pengujian untuk hasil temu kembali yang menggunakan ekspansi kueri (QE1, QE2, QE3, QX1, QX2, QX3) menghasilkan nilai AVP yang lebih kecil dibandingkan tanpa menggunakan ekspansi kueri (QE0, QX0) dan nilai AVP semakin menurun dengan penambahan istilah ekspansi. Hal ini dikarenakan dalam tahap kesamaan antar dokumen, setiap kandidat pasangan kata kueri yang terpilih sangat mempengaruhi perhitungan kedekatan antara kueri ekspansi dan dokumen. Sedangkan kandidat pasangan kata yang didapatkan pada proses pemilihan pasangan ekspansi cukup banyak, dan beberapa diantaranya tidak sesuai dengan konteks pencarian dan juga belum tentu setiap kandidat pasangan kata yang terpilih berada dalam satu dokumen. Masalah tersebut mengakibatkan hasil temu kembali yang diperoleh tidak sesuai dengan yang diharapkan. Akan tetapi untuk beberapa kueri masukan, hasil pencarian menggunakan ekspansi kueri dapat menghasilkan hasil pencarian yang lebih baik.

Selain itu, hal yang menyebabkan kecilnya nilai AVP dapat dikarenakan kondisi dokumen pada korpus, dimana terdapat kesalahan penulisan isi pada koleksi dokumen. Selain itu penyebab dari kecilnya nilai AVP dikarenakan untuk setiap pasang kueri dengan dokumen relevan, terdapat banyak kueri dan pasangannya yang memiliki sedikit jumlah dokumen yang relevan sehingga jika dibandingkan dengan jumlah dokumen yang besar akan menghasilkan nilai recall dan

precision yang kecil.

Tabel 6 Perbandingan nilai presisi sistem pada 1000 dan 2000 dokumen Kondisi Pengujian Average Precision 1000 dokumen 2000 dokumen QE0 0.544 0.495 QE1 0.262 0.253 QE2 0.257 0.246 QE3 0.197 0.187 QX0 0.712 0.796 QX1 0.604 0.744 QX2 0.600 0.739 QX3 0.589 0.739

Pengujian juga dilakukan pada 1000 dokumen pertanian. Pada Tabel 6 terlihat bahwa hasil perbandingan pengujian 30 kueri pada 1000 dokumen dengan 2000 dokumen memperlihatkan penurunan presisi pencarian. Hal ini dapat dikarenakan jumlah dokumen yang dibandingkan dengan dengan dokumen yang relevan lebih sedikit. Sedangkan hasil perbandingan pengujian 10 kueri pada 1000

dokumen dengan 2000 dokumen

memperlihatkan adanya kenaikan nilai presisi. Analisis Pembandingan Metode Ekspansi

Pada penelitian sebelumnya Paiki (2006) telah menggunakan similarity thesaurus pada ekspansi kueri yang diimplementasikan pada temu kembali berbasis vektor. Pengujian untuk melihat kinerja sistem akan dilakukan dengan membandingkan antara temu kembali dengan menggunakan metode similarity thesaurus dan temu kembali dengan menggunakan metode

semantic similarity. Perbandingan dilakukan

pada dua kegiatan temu kembali, yaitu temu kembali lima istilah dan sepuluh istilah pada penggunan similarity thesaurus dan temu 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 P r e ci si o n Recall QX0 QX1 QX2 QX3

(18)

10 kembali satu istilah dan dua istilah pada

penggunaan semantic similarity. Tabel 7 menunjukkan AVP dari hasil pengujian yang dilakukan dalam penelitian sebelumnya. Tabel 7 AVP berdasarkan penelitian Paiki

(2006) Pengujian Average Precision Similarity Thesaurus Semantic Similarity TH5-1 0.201 0.253 TH10-1 0.166 0.246

Penelitian ini menunjukkan hasil yang relatif lebih baik daripada ekspansi kueri menggunakan similarity thesaurus (Paiki, 2006). Hal ini karena terdapat perbedaan saat pembobotan ulang kata yang terjadi setelah ekspansi kueri. Pembobotan ulang kata yang dilakukan dalam penelitian ini sangat dipengaruhi oleh setiap kandidat ekspansi kueri, sedangkan pada penelitian sebelum kandidat ekspansi tidak mempengaruhi pembobotan ulang. Sehingga bobot kueri pada penelitian ini lebih besar dibandingkan dengan penelitian yang dilakukan sebelumnnya.

Pengujian metode ekspansi selanjutnya akan dibandingkan dengan penelitian yang telah dilakukan oleh Samana (2011). Dalam penelitian tersebut digunakan metode peluang bersyarat dalam pemilihan istilah ekspansi yang dihasilkan dari penerjemahan kamus dwibahasa. Pengujian untuk melihat kinerja sistem akan dilakukan perbandingan antara temu kembali menggunakan peluang bersyarat dengan temu kembali 10 kueri dengan menggunakan metode

semantic similarity.

Tabel 8 menunjukkan bahwa pada pengujian penambahan satu istilah ekspansi, dua istilah ekspansi, dan penambahan tiga istilah ekspansi pada penelitian sebelumnya menghasilkan nilai AVP yang lebih besar dibandingkan dengan penelitian ini. Hal tersebut dapat terjadi karena terdapat perbedaan teknik dalam pemilihan kandidat ekspansi. Dalam penelitian sebelumnya pemilihan kandidat ekspansi dipilih dengan mengggunakan nilai peluang yang tertinggi dari penerjemahan kamu dwibahasa dan pada saat ekspansi kueri dan tidak terjadi pembobotan ulang kata. Sedangkan dalam penelitian ini terjadi pembobotan ulang kata dimana pembobotan ulang kata sangat dipengaruhi oleh kandidat ekspansi yang dipilih. Teknik pemilihan kandidat ekspansi yang digunakan dalam penelitian ini masih

kurang baik dibandingkan teknik yang dilakukan dalam penelitian sebelumnya sehingga pembobotan ulang kata menghasilkan bobot yang lebih kecil dibandingkan dengan penelitian sebelumnya.

Tabel 8 AVP berdasarkan penelitian Samana (2011) Pengujian Average Precision Peluang Bersyarat Semantic Similarity QX1 0.784 0.744 QX2 0.765 0.739 QX3 0.734 0.739

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian menunjukkan:

1. Ekspansi kueri dengan penambahan satu istilah ekspansi menghasilkan nilai AVP dengan nilai lebih tinggi daripada penambahan dua istilah dan penambahan tiga istilah.

2. Kinerja sistem yang didapatkan sudah cukup baik bila dilakukan pengujian pada 10 kueri tidak jelas karena nilai AVP yang dihasilkan masih lebih dari 50%, dibandingkan dengan pengujian pada 30 kueri yang menghasilkan nilai AVP kurang dari 50%.

3. Ekspansi kueri dengan metode semantic

Similarity mampu meningkatkan kinerja

pencarian jika dibandingkan metode

similarity thesaurus pada model temu

kembali vektor.

4. Ekspansi kueri dengan metode semantic

Similarity belum mampu meningkatkan

kinerja pencarian jika dibandingkan metode peluang bersyarat dalam pemilihan istilah ekspansi yang dihasilkan dari penerjemahan kamus dwibahasa.

5. Penggunaan pasangan frase dalam menentukan kandidat istilah ekspansi tidak dapat memaksimalkan hasil pencarian dokumen dengan metode semantic Similarity.

Saran

Untuk penelitian selanjutnya terdapat beberapa hal yang dapat ditambahkan atau diperbaharui:

1. Menggunakan koleksi dokumen yang lebih besar.

(19)

11 2. Menggunakan thesaurus dalam menentukan

istilah mana saja yang akan ditambahkan pada kueri awal.

DAFTAR PUSTAKA

Hliaoutakis A, Varelas G, Petrakis EGM, Milios E. 2006. MedSearch: A Retrieval for

Medical Information Based on Semantic Similarity. In: 10th ECDL European Conference on Research and Advanced Technology for Digital Libraries (ACDL 2006), Alicante, Spain 17-22.

Hliaoutakis A, Varelas G, Voutsakis E, Petrakis EGM, Milios E. 2006. Information

Retrieval by Semantic Similarity, Journal on

Semantic Web and Information System (IJSWIS), Special Issue of Multimedia Semantics, Vol.3, No.3, Juli/September, 2006, PP. 55-73, copyright 2006, Idea Group Inc. ww.idea-group.com. Posted by Permission of the Publisher.

Kartina. 2010. Analisis Pertanyaan Bernahasa Indonesia pada Question Answering System (QAS). [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Manning CD, Raghavan P, Schütze H. 2008.

Introduction to Information Retrieval.

America, New York.

Paiki FF. 2006. Evaluasi Penggunaan Similarity

Thesaurus Terhadap Ekspansi Kueri dalam

Sistem Temu Kembali Informasi Berbahasa Indonesia. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Rusidi. 2008. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Peluang Bersyarat. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Samana MA. 2011. Ekspansi kueri Berdasarkan Kamus Dwibahasa Menggunakan Peluang Bersayarat. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Sitohang NL. 2009. Ekspansi Kueri pada Sistem Temu Kembali Informasi Menggunakan Kamus Dwibahasa. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(20)

(21)

13 Lampiran 1 Contoh dokumen dalam koleksi

<DOC>

<DOCNO> mediaindonesia 160110 </DOCNO>

<TITLE>Lawan Produk China dengan Pertanian </TITLE> <AUTHOR>Kasriadi</AUTHOR>

<DATE> Sabtu, 16 Januari 2010 </DATE> <TEXT>

PALU--MI: Ketua Umum Himpunan Pengusaha Muda Indonesia (HIPMI) Erwin Aksa mengatakan, untuk menghadapi gempuran pasar industri produk China yang saat ini telah membanjiri pasar domestik diperlukan penguatan sektor perkebunan dan pertanian.

Erwin mengakui, tantangan terbesar yang dihadapi Indonesia pasca ditandatanganinya perjanjian perdagangan bebas Indonesia-China saat ini adalah membanjirnya produk industri dari negara itu. "Ada empat hal yang diperkuat untuk menghadapi produk dari China, yakni pertambangan, perkebunan/pertanian, properti, dan infrastruktur," kata Erwin Aksa saat menghadiri Rapat Kerja HIPMI Sulteng dan Seminar Daerah Arah dan kebijakan Perkebunan Sulawesi Tengah di Palu, Sabtu (16/1).

Erwin mengatakan, empat sektor itu perlu diperhatikan oleh pengusaha dalam negeri karena Indonesia memiliki sumber daya yang cukup besar di sektor tersebut yang tidak dimiliki China. Sektor perkebunan, misalnya, Indonesia memiliki luas lahan yang besar. Hanya, saat ini tidak ada lagi kapling lahan dalam jumlah yang luas. Lahan dalam jumlah besar telah dikapling oleh

pengusaha-pengusaha besar.

Sektor perkebunan membutuhkan keterlibatan pengusaha lokal atau daerah karena pengusaha luar negeri kurang berminat dengan lahan yang kecil. "Investor luar negeri tidak tertarik dengan lahan yang kecil. Mereka membutuhkan lahan ratusan ribu hektare untuk mengembangkan investasi perkebunan. Di sinilah perlunya keterlibatan pengusaha lokal," kata Erwin.

Pemerintah daerah perlu fokus pada pembangunan perkebunan. Soalnya, untuk bersaing di sektor industri tekstil atau alas kaki, Indonesia sudah ketinggalan. Industri tersebut sudah dikuasai China. Industri tekstil di negara itu tumbuh 10 kali lipat dari industri dalam negeri. "Perkebunan rakyat perlu dikembangkan dengan memanfaatkan pengusaha-pengusaha di daerah," kata Erwin.

</TEXT> </DOC>

(22)

14 Lampiran 2 Daftar 30 kueri dan jumlah dokumen relevan

Kueri Jumlah Dokumen Relevan gagal panen 114 petani tebu 25 industri gula 30

perdagangan hasil pertanian 56

penerapan teknologi pertanian 99

pupuk organik 66

penyakit hewan ternak 30

penerapan bioteknologi 53

laboratorium pertanian 53

riset pertanian 84

harga komoditas pertanian 65

tanaman pangan 53

kelompok tani 43

musim panen 49

tanaman obat 31

gabah kering giling 37

impor beras indonesia 50

sistem pertanian organik 28

swasembada pangan 42 penyuluhan pertanian 38 tadah hujan 29 bencana kekeringan 44 peternak ayam 30 flu burung 37

institut pertanian bogor 62

pembangunan untuk sektor pertanian 103

upaya peningkatan pendapatan petani 61

produk usaha peternakan rakyat 35

kelangkaan pupuk 35

(23)

15 Lampiran 3 Daftar 10 kueri dan jumlah dokumen relevan

Kueri Jumlah Dokumen Relevan buah 157 bunga 66 ekonomi 303 hama 118 hujan 141 impor 221 lingkungan 191 panen 280 pupuk 149 tanaman 523