• Tidak ada hasil yang ditemukan

MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI

N/A
N/A
Protected

Academic year: 2021

Membagikan "MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI"

Copied!
33
0
0

Teks penuh

(1)

MESIN PENCARI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LATENT SEMANTIC INDEXING

DENGAN PEMBOBOTAN GLOBAL

SUSI HANDAYANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(2)

MESIN PENCARI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LATENT SEMANTIC INDEXING

DENGAN PEMBOBOTAN GLOBAL

SUSI HANDAYANI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(3)

ABSTRACT

SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO.

Current users tend to like search engine based on semantic of word. This is caused by the existence of synonymy and polysemy problems in the selection of the use of the word. One technique to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant documents even if the word of the query are not written in the document. Currently, TF-IDF term weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document collection, the term with higher frequency and hypo-dispersion distribution usually contains less information. The purpose of this research is to implement LSI using Singular Value Decomposition (SVD) method with term distribution based global term weight. This research used 1000 Indonesian agricultural documents. The performance of search engine using LSI with term-distribution-based global term weight gave highest average precision around 40.47%. The test result also showed that LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF.

Keyword: Latent Semantic Indexing, Singular Value Decomposition, Term Distribution based Global Term Weighting

(4)

Judul Skripsi : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic

Indexing dengan Pembobotan Global

Nama : Susi Handayani

NRP : G64080042

Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom NIP.19620714 198601 1 002

Mengetahui:

an. Ketua Departemen Ilmu Komputer Sekretaris

Ahmad Ridha S.Kom, MS NIP. 19800507 200501 1 001

(5)

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan karunia-Nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:

 Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga penulis dapat menyelesaikan tugas akhir ini.

 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini.

 Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji.

 Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik.

 Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita, Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat diselesaikan.

 Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi.

 Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini.

 Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun selama perkuliahan.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, September 2012

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Bekasi pada tanggal 5 April 1990. Penulis merupakan anak kedua dari dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa Ilmu Komputer (Himalkom) sebagai sekretaris Komunitas PHP pada tahun 2010. Penulis juga aktif mengikuti beberapa kegiatan kepanitiaan, antara lain Dies Natalis KMB IPB 2008, FOTRANUSA 2008, MPD 2010, Pesta Sains Nasional 2010, dan IT TODAY 2010. Penulis juga melakukan Praktik Kerja Lapang di PPPTMGB “LEMIGAS” pada tahun 2011.

(7)

DAFTAR ISI

Halaman DAFTAR TABEL ... vi DAFTAR GAMBAR ... vi DAFTAR LAMPIRAN ... vi PENDAHULUAN... 1 Latar Belakang ... 1 Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

METODE PENELITIAN ... 1

Praproses ... 1

Matriks Term-Dokumen ... 3

Singular Value Decomposition (SVD) ... 3

Pengolahan Kueri ... 3

Ukuran Kemiripan ... 3

Evaluasi ... 4

Lingkungan Implementasi ... 4

HASIL DAN PEMBAHASAN ... 4

Koleksi Korpus ... 4

Praproses ... 5

Pembobotan ... 5

Matriks Term-Dokumen ... 7

Singular Value Decomposition ... 7

Pengolahan Kueri ... 7

Pengukuran Kemiripan ... 8

Pengujian Kinerja Sistem ... 8

SIMPULAN DAN SARAN ... 9

Simpulan ... 9

Saran ... 9

DAFTAR PUSTAKA ... 9

LAMPIRAN ... 11

(8)

DAFTAR TABEL

Halaman

1 Confusion matrix ... 4

2 Deskripsi dokumen uji ... 4

3 Hasil perhitungan peluang (r)... 5

4 Hasil perhitungan n, chi, dan U pada 5 term contoh ... 6

5 Hasil perhitungan p dan S pada 5 term contoh ... 6

6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) .... 6

7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) .. 6

8 Perbandingan hubungan distribusi term dengan bobot global ... 6

9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001 ... 7

10 Matriks A sebelum didekomposisi ... 7

11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 ... 7

12 Hasil perhitungan average precision pada setiap nilai k ... 9

13 Rata-rata waktu pencarian pada setiap nilai k ... 9

DAFTAR GAMBAR

Halaman 1 Metode penelitian. ... 2

2 Matriks term-dokumen. ... 3

3 Matriks A yang telah didekomposisi. ... 3

4 Matriks A yang telah didekomposisi dan direduksi. ... 3

5 Contoh dokumen pertanian. ... 5

6 Format dokumen setelah pembuangan tag. ... 5

7 Sebelas tingkat recall standar pada dokumen pertanian. ... 8

DAFTAR LAMPIRAN

Halaman 1 Antarmuka sistem ...12

2 Daftar stopwords ...13

3 Gugus kueri dan jawaban untuk dokumen pertanian ...16

4 Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 ...22

(9)

PENDAHULUAN

Latar Belakang

Mesin pencari (search engine) memegang peranan penting dalam pencarian informasi. Kebanyakan mesin pencari hanya membandingkan isi dari dokumen terhadap kueri berdasarkan kata kunci yang tersedia berupa statistik kemunculan kata. Masalah akan muncul pada saat sebuah kata yang secara statistik berbeda tetapi memiliki makna yang sama (sinonim). Hal ini mengakibatkan

recall yang rendah karena mesin pencari akan

mengembalikan dokumen yang sedikit. Masalah lain ialah apabila ada satu kata yang secara statistik sama tetapi memiliki banyak makna (polisemi) yang akan menghasilkan nilai precision yang rendah karena mesin pencari akan mengembalikan dokumen yang tidak sesuai dengan keinginan pengguna. Hal ini dapat mengakibatkan kinerja mesin pencari menjadi kurang baik karena tidak memperhatikan kata secara semantik (Deerwester et al. 1990).

Deerwester et al. (1990) mengungkapkan bahwa upaya untuk mengatasi sinonim saat ini ialah dengan ekspansi kata secara otomatis atau pembentukan tesaurus. Kekurangan dari metode ini ialah kata yang ditambahkan mungkin akan memiliki makna yang berbeda dari yang dimaksudkan oleh pengguna yang akan menyebabkan efek polisemi.

Pendekatan lainnya untuk mengatasi permasalahan ini ialah menggunakan Latent

Semantic Indexing (LSI) dengan pendekatan

ruang vektor. LSI adalah suatu teknik yang memetakan kueri dan dokumen ke dalam suatu ruang yang disebut Latent Semantic

Space. Dalam Latent Semantic Space, suatu

kueri dan suatu dokumen dapat memiliki nilai kesamaan yang tinggi walaupun kueri dan dokumen tersebut tidak memiliki term yang sama. Selama term tersebut mirip secara semantik, nilai kesamaan yang dihasilkan akan tinggi. Pada dasarnya, LSI menggunakan teknik Singular Value Decomposition (SVD) untuk mendekomposisikan matriks term-dokumen. Dengan mengurangi ruang term dan dokumen menjadi dimensi yang lebih kecil,

SVD menampakkan hubungan yang mendasari term dan dokumen dalam semua kombinasi

yang memungkinkan dan membuang noise yang ada pada ruang vektor (Deerwester et al. 1990).

Penelitian mengenai LSI yang sudah dilakukan antara lain Geiss (2006) yang

menerapkan LSI pada mesin pencari BoSSE,

dan Maulizar (2011) yang

mengimplementasikan Singular Value Decomposition (SVD) dan Semi Discrete Decomposition (SDD) pada sistem temu

kembali dokumen bahasa Indonesia.

Umumnya penelitian tersebut menggunakan TF-IDF yang memberikan bobot yang sama pada sebuah term di mana pun posisi term di dalam dokumen. Untuk meningkatkan akurasi sistem, Xia dan Chai (2011) mengungkapkan bahwa pada suatu koleksi dokumen, term yang mempunyai frekuensi tinggi dan penyebarannya luas diberi bobot lebih rendah. Oleh karena itu, penelitian ini mengimplementasikan LSI menggunakan pembobotan global dengan memperhatikan sebaran kata.

Tujuan Penelitian

Tujuan penelitian ini ialah mengimplementasikan Latent Semantic Indexing dengan pembobotan global ke dalam

mesin pencari dokumen bahasa Indonesia. Ruang Lingkup Penelitian

Ruang lingkup dalam penelitian ini antara lain:

 Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.

 Kesalahan pengetikan di dalam korpus tidak diperhatikan.

 Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di Laboratorium Temu-Kembali Informasi (TKI).

METODE PENELITIAN

Tahapan penelitian ini dapat dilihat pada Gambar 1. Tahap offline hanya dilakukan satu kali, terdiri atas pengumpulan korpus, praproses, pembuatan matriks term-dokumen, dan pengolahan SVD.

Praproses

Praproses terdiri atas tokenisasi, pembuangan stopwords, dan pembobotan kata (Manning et al. 2008).

Tokenisasi adalah suatu proses pemisahan (parsing) kalimat ke dalam unit-unit yang lebih kecil yang disebut token. Hal ini dilakukan dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada

(10)

dokumen dan mengubah kata menjadi

lowercase.

Stopwords merupakan kata-kata yang dianggap tidak memiliki makna dan akan dibuang serta tidak ikut diproses pada tahap selanjutnya. Pada umumnya, kata-kata dalam

stopwords memiliki tingkat kemunculan yang

tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen.

Pembobotan

Menurut Manning et al. (2008), pembobotan lokal atau term frequency (tf) adalah jumlah kemunculan setiap term t dalam

sebuah dokumen d dan dinotasikan dengan tft,d. Pembobotan tf memiliki kekurangan,

yaitu semua kata dianggap penting ketika dihubungkan dengan relevansi kueri. Padahal, beberapa kata cenderung tidak relevan. Untuk mengurangi pembobotan suatu kata, digunakan document frequency (df) yang dinotasikan dft, yaitu jumlah dokumen dalam

koleksi yang berisi kata t. Total seluruh dokumen dinotasikan dengan N, maka ditetapkan inverse document frequency (idf) dari sebuah kata t yang disebut juga sebagai pembobotan global yaitu:

idft = log (1)

Pada akhirnya, nilai bobot TF-IDF dari suatu kata adalah perkalian antara kedua pembobotan tersebut.

Pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu penyebaran kata dalam suatu dokumen individu (lokal) dan koleksi dokumen (global).

Setiap term yang terdistribusi secara intensif di dalam beberapa dokumen harus diberikan bobot yang tinggi, karena term tersebut cenderung mewakili topik dokumen, sedangkan term yang terdistribusi seragam dan sering digunakan dalam setiap dokumen harus diberikan bobot yang rendah.

Dari analisis ini, sebaran kata berdasarkan algoritme global term weight terdiri atas dua bagian yaitu U (Uniform Distribution Extent) dan (Spread Extension). Nilai U

menunjukkan luas keseragaman penyebaran kata ke-j dan S adalah persebaran dari kata ke-j pada koleksi (Xia & Chai 2011).

U = 1 + ∑ ( )

S = log2 (1+ ) (2) dengan

: frekuensi kata ke-j di dokumen ke-i. : frekuensi kata ke-j di koleksi.

: peluang kata ke-j ada di dokumen ke-i. : frekuensi kata ke-j di dokumen ke-i jika

kata ke-j tersebar.

p : total dokumen yang mengandung kata

ke-j

: total dokumen di koleksi. Kueri SVD A = T S DT Ranked Document Praproses Vektor Kueri

Mengukur kemiripan antara dokumen dan kueri Korpus Praproses Matriks Term-Dokumen (A) Offline Evaluasi

(11)

A T S DT = t x d t x r r x r r x d A = TSDT

Gambar 3 Matriks A yang telah didekomposisi.

𝐀𝑘 𝐓𝑘𝐒𝑘𝐃𝑘T

Gambar 4 Matriks A yang telah didekomposisi dan direduksi. A T S DT = t x d t x k k x k k x d

Nilai S menunjukkan penyebaran kata dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TF-IDF, nilai ini dapat disetarakan dengan persamaan (1). Oleh karena itu, nilai S dapat dipersamaankan sebagai

S = log2 (1+ ) (3) Berdasarkan nilai U dan S pada persamaan, persamaan untuk pembobotan global adalah:

Wg = log2 (1 + U x S ) (4)

sehingga nilai bobot dari suatu kata adalah perkalian antara pembobotan tft,d dan

pembobotan global berbasis sebaran kata. (5)

Matriks Term-Dokumen

Setelah proses indexing, akan didapatkan matriks term-dokumen. Matriks

term-dokumen berukuran M x N menyatakan matriks bobot term dalam suatu dokumen. Setiap baris M mewakili sebuah term dan setiap kolom N mewakili sebuah dokumen di dalam koleksi (Manning et al. 2008). Matriks

term-dokumen dapat dilihat pada Gambar 2.

[

]

Gambar 2 Matriks term-dokumen. Singular Value Decomposition (SVD)

SVD adalah salah satu metode dari aljabar linear untuk mendekomposisi matriks A dengan dimensi t x d menjadi tiga matriks (Gambar 3).

Matriks A merupakan matriks term-dokumen, T merupakan matriks yang kolomnya adalah orthogonal eigenvectors dari AAT, S adalah matriks diagonal singular value

dengan urutan menurun, dan D merupakan matriks yang kolomnya merupakan

orthogonal eigenvectors dari ATA. Ukuran t adalah jumlah baris dari matriks A. Ukuran d adalah jumlah kolom dari matriks A. Nilai r adalah pangkat dari matriks A dengan r ≤ (min (t, d)).

Setelah matriks A didekomposisi, hasilnya direduksi dengan nilai k sehingga menjadi

reduced SVD. Nilai k adalah jumlah dimensi

matriks yang tersisa. Tujuan dari reduksi ini adalah untuk membuang noise yang ada pada ruang vektor. Pada dasarnya, tidak ada cara khusus yang digunakan untuk menentukan nilai k, tetapi nilai k diperoleh dengan trial

and error sampai ditemukan nilai k yang

memungkinkan SVD membuang noise dan menemukan latent semantic dengan sangat baik. Nilai k yang digunakan dalam penelitian ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000. Matriks A yang telah didekomposisi dan direduksi dapat dilihat pada Gambar 4.

Pengolahan Kueri

Pengolahan kueri dilakukan secara online setiap kali kueri dimasukkan ke sistem. Kueri yang dimasukkan akan diubah menjadi vektor q yang merepresentasikan kemunculan kata-kata pada kueri dengan term yang telah didapat dari koleksi dokumen.

Untuk mencari dokumen yang mirip dengan kueri yang dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri digunakan persamaan:

q = qTTk (6)

Ukuran Kemiripan

Cosine similarity digunakan untuk mengukur kesamaan antara vektor kueri q

(12)

Tabel 2 Deskripsi dokumen uji

Dokumen Ukuran (bytes)

Ukuran rata-rata dokumen 4139 Ukuran seluruh dokumen 4139332 Ukuran dokumen terbesar 54082

Ukuran dokumen terkecil 451

dengan matriks dokumen DD dengan persamaan:

( ) ‖ ‖ ‖ ‖ (7) Matriks dokumen didapat dari persamaan: T = ( T)T T

= T T T = T = ( )T

DD = Hasil dari cosine similarity adalah ranked

document yang terurut secara menurun.

Dokumen teratas merupakan dokumen hasil pencarian yang paling mendekati dengan kueri yang diinginkan.

Evaluasi

Manning (2008) menyatakan terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif yaitu recall dan precision (R-P). Perhitungan recall-precision didasarkan pada tabulasi silang seperti pada Tabel 1.

Tabel 1 Confusion matrix

Relevant Nonrelevant

Retrieved true positives

(tp)

false positives (fp)

Not retrieved false

negatives (fn)

true negatives (tn)

Oleh karena itu, recall dan precision didefinisikan sebagai:

Precision = ( ) (8)

Recall = ( ) (9) Average precision adalah suatu ukuran

evaluasi kinerja temu-kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Biasanya, digunakan sebelas tingkat recall standar yaitu, 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average

precision dapat dipersamaankan sebagai

berikut:

̅(r) = ∑ ( ) (10) sedangkan ̅(r) adalah average precision pada tingkat recall ri. Nq adalah jumlah kueri yang

digunakan dan Pi(r) adalah nilai precision

pada tingkat recall r untuk kueri ke-i (Baeza-Yates & Ribeiro-Neto 1999).

Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan

precision seperti pada persamaan (8) dan (9).

Kemudian, dilakukan perhitungan average

precision menggunakan sebelas tingkat recall

standar seperti pada persamaan (10). Evaluasi juga dilakukan dengan membandingkan hasil penelitian dengan Maulizar (2011).

Lingkungan Implementasi

Lingkungan implementasi yang digunakan adalah sebagai berikut:

Perangkat Lunak:

 Sistem operasi Windows 7 Profesional sebagai sistem operasi,

 MATLAB R2008b untuk melakukan dekomposisi matriks SVD,

Xampp Server Apache version 2.5.8 sebagai web server,

 Notepad++ untuk pembangunan sistem dengan bahasa pemrograman PHP,

 Microsoft Excel 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan recall dan precision.

Perangkat keras:

Prosesor Intel Core i5-2450M

 RAM 4.0 GB

Harddisk 500GB

HASIL DAN PEMBAHASAN

Koleksi Korpus

Penelitian ini menggunakan 1000 dokumen pertanian yang berasal dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Tabel 2 menunjukkan deskripsi dokumen uji yang digunakan dalam penelitian ini.

Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML, yaitu setiap

file terdiri atas satu dokumen yang ditunjukkan dengan tag-tag sebagai berikut:

 <DOC></DOC>, tag ini mewakili keseluruhan dokumen dan melingkupi

tag-tag lain yang lebih spesifik.

 <DOCNO></DOCNO>, tag ini menunjukkan ID dari dokumen.

(13)

<TITLE></TITLE>, tag ini menunjukkan judul dari berita.

<DATE></DATE>, tag ini menunjukkan tanggal dari berita.

 <AUTHOR></AUTHOR>, tag ini menunjukkan penulis dari berita tersebut.

<TEXT></TEXT>, tag ini menunjukkan isi dari dokumen.

Gambar 5 menunjukkan contoh salah satu dokumen pertanian yang digunakan dalam penelitian ini.

Praproses

Praproses dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Proses awal adalah pembuangan

tag karena tag bukan merupakan penciri suatu

dokumen. Tag yang diambil untuk proses

indexing hanya <TITLE> dan <TEXT>.

Format dokumen setelah dilakukan pembuangan tag dapat dilihat pada Gambar 6.

Tahap tokenisasi dilakukan pada fungsi

get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi. Selain itu, dilakukan juga penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen.

Pembuangan stopwords dilakukan setelah proses tokenisasi pada koleksi dokumen. Teknis yang dilakukan adalah perbandingan antara token hasil tokenisasi dan stopwords yang ada. Jika token adalah stopwords, token tersebut dihapus dalam daftar token. Daftar

stopwords yang digunakan dalam penelitian

ini diperoleh dari Herdi (2010) dan dilampirkan pada Lampiran 2. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan.

Pembobotan

Pembobotan yang dilakukan dalam penelitian ini adalah pembobotan term

frequency (TF) dan pembobotan global

dengan memperhatikan sebaran kata. Pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Pembobotan global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata (U) dan perluasan penyebaran kata (S) pada koleksi dokumen.

Pembobotan global diawali dengan proses perhitungan peluang dari setiap dokumen dengan menghitung perbandingan jumlah kata yang terdapat dalam setiap dokumen dengan jumlah seluruh kata yang ada di koleksi dokumen. Tabel 3 merupakan contoh 5 dokumen hasil perhitungan peluang dengan jumlah seluruh kata di dalam koleksi dokumen adalah 297112 kata. Nilai r pada pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen jurnal000000-001 memiliki jumlah kata terbanyak, sehingga nilai r jurnal000000-001 memiliki nilai tertinggi. Sebaliknya untuk dokumen situshijau201003-002 memiliki jumlah kata terkecil sehingga nilai r dokumen situshijau201003-002 memiliki nilai terkecil. Tabel 3 Hasil perhitungan peluang (r)

Dokumen Jumlah Kata r

jurnal000000-001 3905 0.0131 jurnal000000-027 2436 0.0081 jurnal000000-002 2323 0.0078 indosiar260404 1798 0.0060 situshijau201003-002 1109 0.0037 <DOC> <DOCNO>suaramerdeka040104 </DOCNO>

<TITLE>Ribuan Bibit untuk Lahan Kritis</TITLE> <AUTHOR></AUTHOR> <DATE>Minggu, 4 Januari 2004 </DATE> <TEXT> <P>NGALIYAN-Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan 140.250 bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah

petai, durian, rambutan,

mangga, sukun, dan jati.</P> </TEXT>

</DOC>

Ribuan Bibit untuk Lahan Kritis NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan 140.250 bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati.

Gambar 5 Contoh dokumen pertanian.

Gambar 6 Format dokumen setelah pembuangan

(14)

Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen (v) dan frekuensi kata pada suatu koleksi (n). Nilai r,

v, dan n digunakan untuk menghitung nilai chi-square dari koleksi dokumen. Hasil

perhitungan v, n, dan chi-square pada 5 term contoh dapat dilihat pada Tabel 4.

Tabel 4 Hasil perhitungan n, chi, dan U pada 5 term contoh Term n chi U pertanian 5596 6915 6916 petani 3380 6457 6458 ipb 256 7078 7079 bambu 44 1107 11079 anggrek 71 16439 16440

Term petani memiliki nilai chi-square

(chi) terendah. Nilai terendah menyatakan

term petani mendekati distribusi seragam.

Artinya untuk nilai chi-square (chi) yang rendah akan mendapat nilai distribusi seragam (U) yang rendah.

Pada perhitungan perluasan penyebaran kata pada koleksi dokumen (S), harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total dokumen yang mengandung kata tersebut (p) dan total seluruh dokumen pada koleksi (N). Pada Tabel 5, term pertanian terdapat pada 877 dokumen dari total koleksi 1000 dokumen. Oleh karena itu, term pertanian memperoleh nilai S yang kecil artinya koleksi tersebut tersebar luas di koleksi dokumen. Tabel 5 Hasil perhitungan p dan S pada 5

term contoh Term p S pertanian 877 1.097 petani 569 1.463 ipb 91 3.583 bambu 12 6.398 anggrek 6 7.389

Proses terakhir tahap ini adalah perhitungan bobot kata global pada setiap kata menggunakan persamaan (4). Hasil perhitungan bobot kata global dengan S menggunakan persamaan (3) dapat dilihat pada Tabel 6. Kata anggrek mendapat nilai global lebih tinggi, artinya term anggrek merupakan kata yang lebih penting dalam koleksi dibandingkan term pertanian, petani, ipb, dan bambu. Pada Tabel 6, term pertanian yang mempunyai frekuensi tinggi dan penyebarannya luas mendapatkan hasil perhitungan bobot yang rendah sesuai dengan

teori pembobotan sebaran kata menurut Xia dan Chai (2011).

Tabel 6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) Term U S Global pertanian 6916 1.097 12.890 petani 6458 1.463 13.206 ipb 7079 3.583 14.630 bambu 11079 6.398 16.113 anggrek 16440 7.389 16.890 Tabel 7 merupakan hasil perhitungan pembobotan global dengan perhitungan S menggunakan persamaan (2). Nilai terbesar diperoleh term pertanian karena dengan persamaan (2), kata yang menyebar pada banyak dokumen di koleksi menghasilkan S yang tinggi sehingga term pertanian mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Oleh karena itu, pada tahap selanjutnya digunakan hasil pada Tabel 6, yaitu dengan perhitungan S menggunakan persamaan (3).

Tabel 7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) Term U S Global pertanian 6916 0.908 12.617 petani 6458 0.649 12.035 ipb 7079 0.125 9.798 bambu 16440 0.009 7.158 anggrek 13511 0.004 5.892

Pada Xia dan Chai (2011), hubungan antara luas distribusi seragam dan bobot kata pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada term pertanian yang memiliki luas distribusi seragam yang tinggi dan bobot global yang dihasilkan rendah. Hasil perbandingan hubungan distribusi seragam dan bobot global dapat dilihat pada Tabel 8. Tabel 8 Perbandingan hubungan distribusi

term dengan bobot global

Term n p Global pertanian 5596 877 12.890 petani 3380 569 13.206 ipb 256 91 14.630 bambu 44 12 16.113 anggrek 71 6 16.890

Tahap terakhir dalam pembobotan kata adalah perhitungan nilai keseluruhan.

(15)

Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan TF dan pembobotan global menggunakan persamaan (5). Hasil perhitungan pembobotan kata dapat diliihat pada Tabel 9.

Tabel 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001

Term TF Global Bobot pertanian 48 12.890 618.752 petani 33 13.206 435.812 ipb 0 14.630 0 bambu 1 16.113 16.113 anggrek 0 16.890 0 Matriks Term-Dokumen

Setelah hasil pembobotan didapatkan, matriks term-dokumen dibuat. Pembentukan matriks term-dokumen sangat diperlukan karena matriks term-dokumen selanjutnya akan didekomposisi. Matriks term-dokumen ini disimpan dalam format comma delimited (.CSV) dengan ukuran 47.5 MB. Jumlah baris dalam matriks term-dokumen berjumlah 24074 baris yang mewakili jumlah term yang ada di koleksi dokumen. Jumlah kolom dalam matriks term-dokumen berjumlah 1000 kolom yang mewakili jumlah dokumen di dalam koleksi dokumen.

Singular Value Decomposition

Matriks term-dokumen yang didapat selanjutnya didekomposisi menggunakan fungsi singular value decomposition pada Matlab dan akan dihasilkan tiga matriks baru yaitu matriks T, S, dan D.

[T, S, D] = svd (matriksA, 0)

Matriks hasil dekomposisi memiliki ukuran yang besar sehingga akan membutuhkan penyimpanan yang besar. Matriks T merupakan matriks yang merepresentasikan term. Ukuran matriks T dalam format .CSV adalah 265 MB. Kemudian, S merupakan matriks yang elemen diagonalnya adalah nilai singular dengan urutan menurun memiliki ukuran 1.91 MB, dan D merupakan matriks yang kolomnya merepresentasikan dokumen memiliki ukuran 11.7 MB. Ukuran matriks tersebut akan mempengaruhi waktu eksekusi kueri pada saat user melakukan proses pencarian dokumen.

Perkalian dari matriks T, S, dan DT akan mengembalikan matriks A. Apabila dilakukan perkalian matriks T, S, dan DT yang telah

direduksi dengan nilai rank k, akan didapat matriks yang nilainya mendekati matriks A.

Pada Tabel 10, dapat dilihat matriks term-dokumen A yang belum didekomposisi. Tabel 11 adalah matriks term-dokumen A hasil perkalian dari matriks T, S, dan DT.

Tabel 10 Matriks A sebelum didekomposisi

Term jurnal000000-001 jurnal000000-027 pertanian 618.752 1482.426 petani 435.812 118.857 ipb 0 0 bambu 16.113 0 anggrek 0 0

Tabel 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 Term jurnal000000-001 jurnal000000-027 pertanian 618.756 1482.430 petani 435.802 118.856 ipb -0.048 -0.006 bambu 16.123 0.006 anggrek -0.004 0.021

Dari kedua tabel, dapat dilihat bahwa setelah didekomposisi dan direduksi term yang sebelumnya memiliki bobot 0 menjadi bernilai minus atau bertambah bobotnya. Seperti pada term bambu dan anggrek pada dokumen jurnal000000-027 sebelum matriks A didekomposisi dan direduksi, kedua term ini memiliki bobot 0. Setelah matriks A didekomposisi dan direduksi, kedua term ini bertambah bobotnya. Hal ini membuktikan bahwa dengan dekomposisi dan reduksi, struktur latent semantic terungkapkan dan menunjukkan bahwa term bambu dan anggrek memiliki keterkaitan walaupun term bambu dan anggrek tidak terdapat pada kedua dokumen tersebut. Sedangkan pada term ipb yang sebelumnya memiliki bobot 0 di kedua dokumen, setelah matriks A didekomposisi dan direduksi struktur latent semantic

menunjukkan bahwa term ipb di kedua dokumen ini bernilai minus. Hal ini membuktikan bahwa term ipb tidak memiliki keterkaitan di dalam kedua dokumen ini. Pengolahan Kueri

Tahap selanjutnya adalah membuat program untuk melakukan indexing pada kueri. Indexing pada kueri juga terdiri atas tiga tahapan, yaitu: tokenisasi, pembuangan

stopwords, dan pembobotan. Untuk mencari

(16)

dimasukkan, kueri harus diubah menjadi

pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri akan digunakan persamaan (6).

Pengukuran Kemiripan

Vektor kueri yang didapat dari tahap sebelumnya akan dibandingkan kemiripannya dengan matriks dokumen. Setelah itu, vektor kueri dapat dibandingkan dengan matriks dokumen menggunakan persamaan cosine

similarity pada persamaan (7).

Pengujian Kinerja Sistem

Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji berikut dokumen-dokumen relevan yang telah ditentukan dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Daftar kueri uji beserta dokumen yang relevan dapat dilihat pada Lampiran 3. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai average precision dari sistem. Proses pencarian average precision dilakukan pada nilai k = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000}. Nilai sebelas tingkat recall standar pada dokumen pertanian dapat dilihat pada Gambar 7.

Nilai average precision setiap nilai k dapat dilihat pada Tabel 12. Dari Tabel 12, nilai k dengan nilai akurasi paling tinggi adalah k = 1000 dengan nilai average precision sebesar 0.404683 yang artinya secara rata-rata pada tiap titik recall, 40.47% hasil temu-kembali relevan dengan kueri. Nilai precision pada pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 dapat dilihat pada Lampiran 4. Nilai k adalah nilai yang penting untuk menentukan performa mesin pencari yang menggunakan LSI. Jika terlalu banyak dimensi yang disimpan, struktur latent

semantic tidak dapat diperlihatkan karena

terlalu banyak noise. Jika nilai k terlalu kecil, akan terlalu banyak kata atau dokumen yang diproyeksikan ke dalam dimensi sehingga akan menghancurkan struktur latent semantic. Hasil penelitian Maulizar (2011) menunjukkan bahwa nilai k yang optimum adalah k = 70 dengan average precision sebesar 0.301. Sedangkan hasil average

precision dalam penelitian ini dengan k = 70

adalah sebesar 0.321274. Pada Gambar 8 juga dapat dilihat bahwa pada nilai k = 20, 30, 40, 50, 60, 70, 80, 90, dan 100 nilai akurasi LSI dengan pembobotan global berbasis sebaran

lebih besar dibandingkan dengan LSI menggunakan pembobotan TF-IDF. Grafik perbandingan nilai average precision LSI TF-IDF dengan LSI Global dapat dilihat pada Lampiran 4.

Dari hasil tersebut, dapat disimpulkan bahwa Latent Semantic Indexing dengan pembobotan global berbasis sebaran menghasilkan nilai average precision yang lebih tinggi dibandingkan Latent Semantic

Indexing hanya dengan TF-IDF tanpa memperhatikan sebaran kata.

Pada Tabel 13 dapat dilihat rata-rata, maksimum, dan minimum waktu pencarian pada setiap nilai k. Untuk k = 10, rata-rata waktu yang diperlukan untuk mencari dokumen adalah 0.557 detik, sedangkan untuk

k = 1000 rata-rata waktu yang diperlukan

adalah 6.344 detik. Dari hasil tersebut dapat disimpulkan bahwa semakin besar nilai k maka semakin lama waktu pencarian dokumen karena semakin banyak pula dimensi matriks yang dihitung.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 P re cis io n Recall K=10 K=20 K=30 K=40 K=50 K=60 K=70 K=80 K=90 K=100 K=200 K=300 K=400 K=500 K=600 K=700 K=800 K=900 K=1000

Gambar 7 Sebelas tingkat recall standar pada dokumen pertanian.

(17)

Tabel 12 Hasil perhitungan average precision pada setiap nilai k

Nilai k Average Precision LSI TF-IDF LSI Global

10 0.243 0.064 20 0.206 0.258 30 0.225 0.269 40 0.209 0.290 50 0.222 0.303 60 0.256 0.320 70 0.301 0.321 80 0.297 0.323 90 0.279 0.329 100 0.275 0.332 200 - 0.357 300 - 0.369 400 - 0.379 500 - 0.387 600 - 0.389 700 - 0.395 800 - 0.399 900 - 0.401 1000 - 0.405

Tabel 13 Rata-rata waktu pencarian pada setiap nilai k Nilai k Rata-rata Waktu Pencarian (detik) Maksimum Waktu Pencarian (detik) Minimum Waktu Pencarian (detik) 10 0.557 0.654 0.430 20 0.625 0.807 0.553 30 0.690 0.946 0.506 40 0.749 0.884 0.650 50 0.884 1.138 0.763 60 0.910 1.190 0.784 70 0.953 1.286 0.823 80 0.998 1.170 0.834 90 1.050 1.317 0.961 100 1.136 1.284 1.049 200 1.696 1.952 1.085 300 2.197 2.538 1.615 400 3.477 3.743 2.164 500 3.434 3.716 3.212 600 4.210 4.673 3.969 700 4.424 4.784 4.249 800 5.023 5.367 4.390 900 5.371 5.815 5.096 1000 6.344 6.986 5.849

SIMPULAN DAN SARAN

Simpulan

Penelitian ini berhasil

mengimplementasikan metode Latent Semantic Indexing dengan pembobotan global

berbasis sebaran. Hasil penelitian ini menunjukkan bahwa nilai k yang memberikan hasil akurasi paling tinggi adalah k = 1000 dengan nilai average precision 40.47%. Akurasi hasil LSI dengan pembobotan global berbasis sebaran lebih besar dibandingkan dengan LSI dengan pembobotan TF-IDF. Saran

Jika ingin menambahkan dokumen baru maka matriks T, S, dan D perlu dihitung ulang sehingga diperlukan teknik folding-in. Folding-in adalah metode untuk memproyeksikan dokumen baru ke dalam ruang SVD sehingga matriks T, S, dan D tidak perlu dihitung ulang.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. Boston:

Addison Wesley.

Deerwester S, Dumais ST, Fumas GW, Landauer TK, Harshman R. 1990. Indexing by latent semantic analysis.

Journal of the American Society of Information Science 41(6):391-407.

Geiss J. 2006. Latent semantic indexing and information retrieval: A quest with BoSSE [tesis]. Heidelberg: Universitat Heidelberg.

Herdi, H. 2010. Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Manning CD, Raghavan P, Schutze H. 2008.

An Introduction to Information Retrieval.

Cambridge: Cambridge University Press. Maulizar N. 2011. Latent semantic indexing

pada sistem temu kembali dokumen bahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(18)

Xia T, Chai Y. 2011. An improvement to TF-IDF: term distribution based term weight

(19)
(20)
(21)

Lampiran 2 Daftar stopwords

acapkali apanya begitupula berkesempatan contohkan diberinya

ada apapun begitupun berkesimpulan contohnya dibiarkan

adakah arti belakang berlalu cukup dibiasakan

adakan artian belakangan berlalunya Cuma dibilang

adalah artinya belum berlama daerah dicontoh

adanya asalan belumlah berlangsung dahulu dicontohkan

adapun asalkan benar bermula dalam dicontohkannya

aduh asumsi benarkah bersama dan didapat

agak asumsinya benarnya bersamaan dapat didapati

agaknya atas berada bertepatan dapatkah didapatkan

agar atasnya berakhir beruntun dapatkan didapatnya

aja atau berakhirnya berupa dapatlah didasarkan

akalan ataukah berakibat besarnya dari digolongkan

akan ataupun berakibatkan beserta darinya digunakan

akankah awal beralasan besok daripada diharapkan

akhir bagai beralih besoknya dekat dijadikan

akhirnya bagaikan beralihnya betapa dekatnya dijadikannya

akibat bagaimana beranggapan biar demi dikarenakan

akibatkan bagaimanakah berapa biarlah demikian dikasih akibatnya bagaimanapun berapanya biasa demikianlah dikata

aku bagi berapapun biasanya dengan dikatakan

ala baginya berarti bicarakan dengannya dikatakannya

alangkah bagus berasumsi bicaranya depan dikategorikan

alasan bagusnya berbagai bila depannya dikembangkan

alasannya bahkan berbagi bilamana di diketahui

alih bahwa berbanding bilang dia diketahuinya

alihkan baik berbeda bisa dialah dilaksanakan

amat baiknya berdampak bisakah dialami dilakukan

amatlah balik berdasarkan bisanya dialihkan dimana

ambil banding berhadapan boleh diambil dimulai

anda bandingkan berharap boro diambilkan dimulailah

andai banyak berhubung buat diambilnya dimulainya

anggap banyaknya berhubungan buatnya dianggap dimungkinkan

anggapan barangkali beri bukan diantara dipaparkan

antar baru berikan bukankah diantaranya dipersilahkan

antara bawah berikanlah bukanlah diapakan disaat

antaranya bawahnya berikut bukannya dibagi disebabkan

apa beberapa berikutnya buktikan dibagikan disejumlah

apabila begini berjumlah cara dibeberapa diseluruh

apakah beginilah berkat cerita diberbagai disertai

apalagi begitu berkenaan ceritanya diberi disertakan

(22)

Lanjutan

disitulah itupun kemana manalagi mengaku mulanya

ditanggapi iya kemanakah manapun mengalami muncul

ditanya jadi kembali masa mengalihkan mungkin

ditanyakan jadikan kemudian masih mengambil mungkinkah

dituturkan jadilah kemungkinan masihkah mengambilnya namun diucapkan jadinya kemungkinannya masing menganggap nanti

dkk jangan kenapa masuk menganggapnya negara

dll jarang kenapakah masyarakat mengapa nilai

dsb jauh kepada mau mengatakan nyaris

dua jelaskan kepadanya maupun mengembangkan nyiakan

dulu jika kepala melainkan mengenai oleh

dulunya jikalau ketika melakukan menggunakan orang

empat juga ketimbang melalui mengungkapkan pada

enggak jumlah khususnya melihat meningkat padahal

engkau jumlahnya kini memang meningkatkan padanannya

esok justru kita memaparkan menjadi paling

gimana juta kondisi membagi menjadikan panjangnya

habis kabupaten kurang membagikan menjadikannya papar

habisan kadang lagi memberi menjelang paparan

habiskan kalau lagian memberikan menjelaskan paparkan

habisnya kalaupun lagipula memberinya menuju paparnya

hal kali lain membiarkan menunjukkan para

hampir kalian lainnya membolehkan menurut pasti

hanya kami laksana membuat menurutnya pastilah

hanyalah kamu lakukan memeperoleh menuturkan pastinya

hari kan lalu memiliki menyatakan pelak

harus kapan lalui meminta menyebabkan pelbagai

haruskah karena lama memperbolehkannya menyebutkan pemaparan

haruslah karenanya lanjut mempersilahkan menyia pembagian

harusnya kata lantaran mempunyai mereka pembagiannnya

hendak katakan lantas memungkinkan merupakan pendapat

hendaklah katakanlah lebih menanggapi meski pengalihan

hendaknya katanya lepas menanggapinya meskipun pengambil

hingga kau lewat menanyakan mesti pengambilan

how kayak lokasi mencapai mestinya pengandaian

ialah kayaknya maka mencontohkan misal per

ingin ke makin mendapat misalkan peralihan

ini kebanyakan mampu mendapati misalnya percuma

inilah kebetulan mampukah mendapatkan mudah peri

inipun kebiasaan mampunya mendapatkannya mula perihal

itu kecil mana menerus mulai perlahan

(23)

Lanjutan

pernah sebenarnya semakin sesungguhnya tentunya umum

persen seberapa semampunya setelah tepatnya umumnya

pertamanya seberat semenjak setelahnya terbagi ungkap

pinggir sebesar sementara seterusnya terbalik ungkapan

pula sebetulnya semestinya setiap terbiasa ungkapkan

pulalah sebuah semisal setidak terbilang ungkapnya

pun secara semoga setidaknya terdapat untuk

rata sedalam semua seusai terdapat usah

relevankah sedang semuanya sewaktu tergolong usahlah

rendah sedangkan semula seyogyanya terhadap usai

saat sedapat seolah sia terjadi usianya

saatnya sedemikian seorang sialnya terjadilah waktu

saatnyalah sedikit seorangpun siap terjadinya waktulah

saja sedikitnya sepadan siapa terkadang waktunya

salah segera sepanjang siapakah terkait walau

sama sehabis sepasang siapapun terkecuali walaupun

sambil seharusnya sepele silahkan terlalu warga

sambutannya seharusnyalah sependapat singkatnya terlebih yaitu

sampai sehingga seperti sini termasuk yakni

sana sehubungan sepertinya sinilah ternyata yang

sang sejak seputar situ tersebut

sangat sejauhmana seraya sosok tertentu

sangatlah sejumlah serba sosoknya terus

satunya sekalian serentak suatu tetap

saya sekaligus sering sudah tetapi

sayangnya sekalipun seringkali sulit tiap

seakan sekarang seringkalinya sungguh tiba seandainya sekata seringlah sungguhpun tidak

seantero sekedar seringnya supaya tidaklah

sebab sekeliling serta tak tidaknya

sebabkan seketika sertanya tambahnya tiga

sebabnya sekian sesaat tanggapan tinggi

sebagai sekitar sesama tanggapannya tutur

sebagaimana selagi sesamamu tanggapnya tuturnya

sebagainya selain sesedikit tanpa ucap

sebagian selalu seseorang tapi ucapan

sebaik selama sesuai tatkala ucapannya

sebaiknya selanjutnya sesuatu telah ucapkan

sebaliknya selesai sesuatunya tempat ucapnya

sebanyak selesaikah sesudah tengah ujar

sebelum seluruh sesudahnya tentang ujarnya

(24)

Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian

Kueri Gugus Jawaban

Bencana kekeringan

gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002, situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002. Dukungan

pemerintah pada pertanian

indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028, suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,

indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.

Gabah kering giling

indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104.

Gagal panen/puso

gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504, indosiar031203, indosiar040903, indosiar050704-002, indosiar070504, indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304, indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704, kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia140203, mediaindonesia160603, mediaindonesia240503, mediaindonesia310503, republika030903-002, republika060804-001, republika080703, republika090804-01, republika120804-04, republika130704-001, republika130804-02, republika200603, republika230704-005, republika260604-003, situshijau091203-002, situshijau100603-003, situshijau110303-002, situshijau280404-002, suarakarya000000-002-02, suarakarya000000-011, suaramerdeka120104, suaramerdeka130602, suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002.

(25)

Lanjutan

Kueri Gugus Jawaban

Impor beras indonesia

gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001, republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903

Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

Institut

pertanian bogor

gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001, kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-002, republika110604-002, republika140704-002, republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001

Kelangkaan pupuk

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101

Kelompok masyarakat tani/kelompok tani

bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-kompas270203-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103

Laboratorium pertanian

balaipenelitian000000-010, gatra100203, indobic130504-002, indosiar010704, jurnal000000-027, kompas220801, kompas241203, kompas300502-002, mediaindonesia290903-002, republika050804-007, republika120704-005, republika230704-004, republika300604-002, situshijau040603, situshijau051103-02, situshijau100603-001, situshijau140503-001-01, situshijau150403-002, situshijau180603-003, suarakarya000000-003, suaramerdeka031101

(26)

Lanjutan

Kueri Gugus Jawaban

Musim panen

gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001, mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika060804-001, republika060804-003, republika100704-003, republika151202, republika171102, republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002

Pembangu nan untuk sektor pertanian

gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003, republika150903, republika190803, republika251002-republika150604-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303 Penerapan bioteknolo gi di indonesia/ penerapan bioteknolo gi/biotekn ologi di indonesia

jurnal000000-018, kompas121099, puslitbang000000-001, republika220604-003, republika290704-002, situshijau000000-002, situshijau030603-001, situshijau040603, situshijau050703-001, 001, situshijau070103-002, situshijau070103-003, situshijau100603-002, situshijau100603-003, situshijau110303-002, situshijau130103-001, situshijau130503-001, situshijau130503-002, situshijau140103-002, situshijau140103-003, situshijau140503-001-01, situshijau140903-001, situshijau150403-001, situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-003, situshijau200103-001, situshijau210103-003, situshijau210503-001, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-02, suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No, suarapembaruan151102, wartapenelitian000000-009 harga komoditas pertanian indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304,jur nal000000-022,jurnal000000-027,kompas 170402,kompas030502- 001,kompas030502-002,kompas080702,kompas100399,kompas101004,kompas111099,kompas140802, kompas160304,kompas170104,kompas171002,kompas180502,kompas180504,kom pas230603,kompas250901,kompas270203-001,kompas270401,kompas270502-001,kompas280602,kompas311203,mediaindonesia060803,mediaindonesia310503, pikiranrakyat240404,pikiranrakyat300604,poskota000000-002,poskota000000- 003,republika030804-002,republika060503,republika060804-001,republika060804- 003,republika061102,republika090902,republika140704-004,situshijau050703- 002,situshijau070503,situshijau130203-002,situshijau240203- 002,situshijau280203,situshijau280404-001,situshijau280404-002,situshijau280404- 003,suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-001,suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,suarapemb aruan220403,trubus000004,wartapenelitian000000-002

(27)

Lanjutan

Kueri Gugus Jawaban

Penerapan

teknologi pertanian

indosiar250204-001, jurnal000000-001, jurnal000000-011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009

Penyakit hewan ternak/penyakit ternak

gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01

Penyuluhan pertanian

bitraindonesia000000-001, gatra190902-02, indosiar310504, jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007

Perdagangan hasil pertanian

gatra011102, indosiar070204, indosiar201103, 002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006

Pertanian organik/sistem pertanian organik

indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303, situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702

Petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901, kompas310702, republika010704-003, republika020804, republika100902, republika140704-004, republika150604-002, republika200704-001, republika220604-002, republika280704-002, republika310704-001, situshijau280203, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

(28)

Lanjutan

Kueri Gugus Jawaban

Peternak unggas/peternak ayam/peternak burung

gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802

Produk usaha peternakan

rakyat/produk peternakan

jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102

Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008 Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001,

jurnal000000-008, jurnal000000-015, jurnal000000-018, jurnal000000-019, jurnal000000-026, kompas010499, kompas170104, kompas221003, kompas230603, mediaindonesia131003, puslitbang000000-001, republika030903-002, republika070604-002, republika100704-002, republika140104, republika170604-001, republika190604-001, republika190604-002, republika210704-001, republika210704-003, republika220604-003, republika241203, republika260803, republika280703, republika300604-003, situshijau040603, situshijau070503, situshijau080503-001, situshijau091203-003, situshijau101103-004, situshijau130103-001, situshijau130503-002, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau150403-002, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau200103-001-No, situshijau201003-002, situshijau210103-003, situshijau210503-001, situshijau250203, situshijau270303-004, situshijau290503-001, situshijau300403, situshijau310303, suarakarya000000-001-02, suarakarya000000-010, suarakarya000000-019, suarakarya000000-027, suarakarya000000-034, suarakarya000000-037, suaramerdeka270601, suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602, suarapembaruan110702, suarapembaruan110702-01, suarapembaruan151102, suarapembaruan160702, suarapembaruan241003, suarapembaruan290802-001, wartapenelitian000000-007, wartapenelitian000000-009

(29)

Lanjutan

Kueri Gugus Jawaban

Swasembada pangan

indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899,

kompas270203-001, kompas270401, kompas270502-002,

mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005, 003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, suarakarya000000-001-02, suarakarya000000-002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan110903, suarapembaruan221102

Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004

Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003, republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001

Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002

Upaya peningkatan pendapatan

petani/peningkatan pendapatan petani

indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003, kompas100399, kompas170903, kompas200802, kompas210502, kompas260702, kompas270203-001, kompas300402, kompas300502-002, pembaruan110903, poskota110703, republika030804-002, republika030903-001, republika060804-001, republika060804-003, republika230404, republika231202-001, republika231202-002, republika240604-005, republika241203, republika281202, republika300704-002, situshijau140503-001, situshijau180803-002, situshijau181103-002, situshijau200103-001, situshijau280203, suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602, suarapembaruan290802-001, wartapenelitian000000-005

Gambar

Gambar 1  Metode penelitian.
Gambar 7  Sebelas tingkat recall standar   pada dokumen pertanian.

Referensi

Dokumen terkait

Parameter yang diamati meliputi sifat fisikokimia yaitu kadar air, tekstur (daya patah dan kerenyahan), warna, dan aktivitas antioksidan serta sifat organoleptik

A reasonable plan of action would be to focus attention on the basic components (Land Use Change, Forest Inventory, Tim- ber Market) initially. Once these are functioning, the

sesuatu yang tidak ada pengetahuanmu tentang itu, maka janganlah kamu mengikuti keduanya, dan pergaulilah keduanya di dunia dengan baik, dan ikutilah jalan orang

Cara bagi hasil yang dilakukan disana dengan sistem kebiasaan di masyarakat, yaitu pemilik tanah menyediakan tanah dan menyediakan biaya yang diperlukan penggarap, dan penggarap

Berdasrakan arahan program prioritas untuk RPI2JM bidang Cipta Karya, dapat diketahui bahwa program tersebar dan keterpaduan ada yang terlihat pada lingkup kecamatan dan

melakukan kemahiran guling hadapan dengan teknik yang betul. Kognitif: Tahu dan memahami cara. melakukan lakuan guling hadapan.. Afektif:

Kesimpulan yang dapat diperoleh adalah kemampuan responden yaitu mahasiswa asing (mahasiswa kelompok propinsi Thailand Selatan) dalam memahami percakapan (baik

Peserta didik dengan kemampuan penalaran matematis kategori rendah apabila peserta didik dapat melakukan manipulasi matematika dengan benar namun kurang lengkap,