MESIN PENCARI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN
LATENT SEMANTIC INDEXING
DENGAN PEMBOBOTAN GLOBAL
SUSI HANDAYANI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
MESIN PENCARI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN
LATENT SEMANTIC INDEXING
DENGAN PEMBOBOTAN GLOBAL
SUSI HANDAYANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ABSTRACT
SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO.
Current users tend to like search engine based on semantic of word. This is caused by the existence of synonymy and polysemy problems in the selection of the use of the word. One technique to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant documents even if the word of the query are not written in the document. Currently, TF-IDF term weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document collection, the term with higher frequency and hypo-dispersion distribution usually contains less information. The purpose of this research is to implement LSI using Singular Value Decomposition (SVD) method with term distribution based global term weight. This research used 1000 Indonesian agricultural documents. The performance of search engine using LSI with term-distribution-based global term weight gave highest average precision around 40.47%. The test result also showed that LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF.
Judul Skripsi : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic Indexing dengan Pembobotan Global
Nama : Susi Handayani
NRP : G64080042
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom NIP.19620714 198601 1 002
Mengetahui:
an. Ketua Departemen Ilmu Komputer Sekretaris
Ahmad Ridha S.Kom, MS NIP. 19800507 200501 1 001
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan karunia-Nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga penulis dapat menyelesaikan tugas akhir ini.
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini.
Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji. Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik.
Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita, Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat diselesaikan.
Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi.
Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini. Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang
telah banyak membantu baik selama penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, September 2012
RIWAYAT HIDUP
Penulis dilahirkan di Bekasi pada tanggal 5 April 1990. Penulis merupakan anak kedua dari dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
DAFTAR ISI
Halaman
DAFTAR TABEL ... vi
DAFTAR GAMBAR ... vi
DAFTAR LAMPIRAN ... vi
PENDAHULUAN... 1
Latar Belakang ... 1
Tujuan Penelitian ... 1
Ruang Lingkup Penelitian ... 1
METODE PENELITIAN ... 1
Praproses ... 1
Matriks Term-Dokumen ... 3
Singular Value Decomposition (SVD) ... 3
Pengolahan Kueri ... 3
Ukuran Kemiripan ... 3
Evaluasi ... 4
Lingkungan Implementasi ... 4
HASIL DAN PEMBAHASAN ... 4
Koleksi Korpus ... 4
Praproses ... 5
Pembobotan ... 5
Matriks Term-Dokumen ... 7
Singular Value Decomposition ... 7
Pengolahan Kueri ... 7
Pengukuran Kemiripan ... 8
Pengujian Kinerja Sistem ... 8
SIMPULAN DAN SARAN ... 9
Simpulan ... 9
Saran ... 9
DAFTAR PUSTAKA ... 9
LAMPIRAN ... 11
DAFTAR TABEL
Halaman
1 Confusion matrix ... 4
2 Deskripsi dokumen uji ... 4
3 Hasil perhitungan peluang (r)... 5
4 Hasil perhitungan n, chi, dan U pada 5 term contoh ... 6
5 Hasil perhitungan p dan S pada 5 term contoh ... 6
6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) .... 6
7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) .. 6
8 Perbandingan hubungan distribusi term dengan bobot global ... 6
9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001 ... 7
10 Matriks A sebelum didekomposisi ... 7
11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 ... 7
12 Hasil perhitungan average precision pada setiap nilai k ... 9
13 Rata-rata waktu pencarian pada setiap nilai k ... 9
DAFTAR GAMBAR
Halaman 1 Metode penelitian. ... 22 Matriks term-dokumen. ... 3
3 Matriks A yang telah didekomposisi. ... 3
4 Matriks A yang telah didekomposisi dan direduksi. ... 3
5 Contoh dokumen pertanian. ... 5
6 Format dokumen setelah pembuangan tag. ... 5
7 Sebelas tingkat recall standar pada dokumen pertanian. ... 8
DAFTAR LAMPIRAN
Halaman 1 Antarmuka sistem ...122 Daftar stopwords ...13
3 Gugus kueri dan jawaban untuk dokumen pertanian ...16
4 Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 ...22
PENDAHULUAN
Latar Belakang
Mesin pencari (search engine) memegang peranan penting dalam pencarian informasi. Kebanyakan mesin pencari hanya membandingkan isi dari dokumen terhadap kueri berdasarkan kata kunci yang tersedia berupa statistik kemunculan kata. Masalah akan muncul pada saat sebuah kata yang secara statistik berbeda tetapi memiliki makna yang sama (sinonim). Hal ini mengakibatkan
recall yang rendah karena mesin pencari akan mengembalikan dokumen yang sedikit. Masalah lain ialah apabila ada satu kata yang secara statistik sama tetapi memiliki banyak makna (polisemi) yang akan menghasilkan nilai precision yang rendah karena mesin pencari akan mengembalikan dokumen yang tidak sesuai dengan keinginan pengguna. Hal ini dapat mengakibatkan kinerja mesin pencari menjadi kurang baik karena tidak memperhatikan kata secara semantik (Deerwester et al. 1990).
Deerwester et al. (1990) mengungkapkan bahwa upaya untuk mengatasi sinonim saat ini ialah dengan ekspansi kata secara otomatis atau pembentukan tesaurus. Kekurangan dari metode ini ialah kata yang ditambahkan mungkin akan memiliki makna yang berbeda dari yang dimaksudkan oleh pengguna yang akan menyebabkan efek polisemi.
Pendekatan lainnya untuk mengatasi permasalahan ini ialah menggunakan Latent Semantic Indexing (LSI) dengan pendekatan ruang vektor. LSI adalah suatu teknik yang memetakan kueri dan dokumen ke dalam suatu ruang yang disebut Latent Semantic Space. Dalam Latent Semantic Space, suatu kueri dan suatu dokumen dapat memiliki nilai kesamaan yang tinggi walaupun kueri dan dokumen tersebut tidak memiliki term yang sama. Selama term tersebut mirip secara semantik, nilai kesamaan yang dihasilkan akan tinggi. Pada dasarnya, LSI menggunakan teknik Singular Value Decomposition (SVD) untuk mendekomposisikan matriks term -dokumen. Dengan mengurangi ruang term dan dokumen menjadi dimensi yang lebih kecil,
SVD menampakkan hubungan yang mendasari
term dan dokumen dalam semua kombinasi yang memungkinkan dan membuang noise
yang ada pada ruang vektor (Deerwester et al.
1990).
Penelitian mengenai LSI yang sudah dilakukan antara lain Geiss (2006) yang
menerapkan LSI pada mesin pencari BoSSE,
dan Maulizar (2011) yang
mengimplementasikan Singular Value Decomposition (SVD) dan Semi Discrete Decomposition (SDD) pada sistem temu kembali dokumen bahasa Indonesia.
Umumnya penelitian tersebut menggunakan TF-IDF yang memberikan bobot yang sama pada sebuah term di mana pun posisi term di dalam dokumen. Untuk meningkatkan akurasi sistem, Xia dan Chai (2011) mengungkapkan bahwa pada suatu koleksi dokumen, term yang mempunyai frekuensi tinggi dan penyebarannya luas diberi bobot lebih rendah. Oleh karena itu, penelitian ini mengimplementasikan LSI menggunakan pembobotan global dengan memperhatikan sebaran kata.
Tujuan Penelitian
Tujuan penelitian ini ialah mengimplementasikan Latent Semantic Indexing dengan pembobotan global ke dalam mesin pencari dokumen bahasa Indonesia. Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini antara lain:
Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.
Kesalahan pengetikan di dalam korpus tidak diperhatikan.
Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di Laboratorium Temu-Kembali Informasi (TKI).
METODE PENELITIAN
Tahapan penelitian ini dapat dilihat pada Gambar 1. Tahap offline hanya dilakukan satu kali, terdiri atas pengumpulan korpus, praproses, pembuatan matriks term-dokumen, dan pengolahan SVD.
Praproses
Praproses terdiri atas tokenisasi, pembuangan stopwords, dan pembobotan kata (Manning et al. 2008).
2
dokumen dan mengubah kata menjadi
lowercase.
Stopwords merupakan kata-kata yang dianggap tidak memiliki makna dan akan dibuang serta tidak ikut diproses pada tahap selanjutnya. Pada umumnya, kata-kata dalam
stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen.
Pembobotan
Menurut Manning et al. (2008), pembobotan lokal atau term frequency (tf) adalah jumlah kemunculan setiap term t dalam
sebuah dokumen d dan dinotasikan dengan tft,d. Pembobotan tf memiliki kekurangan,
yaitu semua kata dianggap penting ketika dihubungkan dengan relevansi kueri. Padahal, beberapa kata cenderung tidak relevan. Untuk mengurangi pembobotan suatu kata, digunakan document frequency (df) yang dinotasikan dft, yaitu jumlah dokumen dalam
koleksi yang berisi kata t. Total seluruh dokumen dinotasikan dengan N, maka ditetapkan inverse document frequency (idf) dari sebuah kata t yang disebut juga sebagai
Pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu penyebaran kata dalam suatu dokumen individu (lokal) dan koleksi dokumen (global).
Setiap term yang terdistribusi secara intensif di dalam beberapa dokumen harus diberikan bobot yang tinggi, karena term
tersebut cenderung mewakili topik dokumen, sedangkan term yang terdistribusi seragam dan sering digunakan dalam setiap dokumen harus diberikan bobot yang rendah.
Dari analisis ini, sebaran kata berdasarkan algoritme global term weight terdiri atas dua bagian yaitu U (Uniform Distribution Extent) dan (Spread Extension). Nilai U
menunjukkan luas keseragaman penyebaran kata ke-j dan S adalah persebaran dari kata
A T
Gambar 3 Matriks A yang telah didekomposisi.
T
Gambar 4 Matriks A yang telah didekomposisi dan direduksi. dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TF-IDF, nilai ini dapat disetarakan dengan persamaan (1). Oleh karena itu, nilai S dapat dipersamaankan sebagai
S = log2 (1+ ) (3) Berdasarkan nilai U dan S pada persamaan, persamaan untuk pembobotan global adalah:
Wg = log2 (1 + U x S ) (4)
sehingga nilai bobot dari suatu kata adalah perkalian antara pembobotan tft,d dan
pembobotan global berbasis sebaran kata. (5)
Matriks Term-Dokumen
Setelah proses indexing, akan didapatkan matriks term-dokumen. Matriks term -dokumen berukuran M x N menyatakan matriks bobot term dalam suatu dokumen. Setiap baris M mewakili sebuah term dan setiap kolom N mewakili sebuah dokumen di dalam koleksi (Manning et al. 2008). Matriks
term-dokumen dapat dilihat pada Gambar 2.
[
]
Gambar 2 Matriks term-dokumen. Singular Value Decomposition (SVD)
SVD adalah salah satu metode dari aljabar linear untuk mendekomposisi matriks A dengan dimensi t x d menjadi tiga matriks (Gambar 3).
Matriks A merupakan matriks term -dokumen, T merupakan matriks yang kolomnya adalah orthogonal eigenvectors dari AAT, S adalah matriks diagonal singular value
dengan urutan menurun, dan D merupakan matriks yang kolomnya merupakan
orthogonal eigenvectors dari ATA. Ukuran t
adalah jumlah baris dari matriks A. Ukuran d
adalah jumlah kolom dari matriks A. Nilai r
adalah pangkat dari matriks A dengan r ≤ (min (t, d)).
Setelah matriks A didekomposisi, hasilnya direduksi dengan nilai k sehingga menjadi
reduced SVD. Nilai k adalah jumlah dimensi matriks yang tersisa. Tujuan dari reduksi ini adalah untuk membuang noise yang ada pada ruang vektor. Pada dasarnya, tidak ada cara khusus yang digunakan untuk menentukan nilai k, tetapi nilai k diperoleh dengan trial and error sampai ditemukan nilai k yang memungkinkan SVD membuang noise dan menemukan latent semantic dengan sangat baik. Nilai k yang digunakan dalam penelitian ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000. Matriks A yang telah didekomposisi dan direduksi dapat dilihat pada Gambar 4.
Pengolahan Kueri
Pengolahan kueri dilakukan secara online
setiap kali kueri dimasukkan ke sistem. Kueri yang dimasukkan akan diubah menjadi vektor q yang merepresentasikan kemunculan kata-kata pada kueri dengan term yang telah didapat dari koleksi dokumen.
Untuk mencari dokumen yang mirip dengan kueri yang dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri digunakan persamaan:
q = qTTk (6)
Ukuran Kemiripan
4
Tabel 2 Deskripsi dokumen uji
Dokumen Ukuran (bytes)
Ukuran rata-rata dokumen 4139 Ukuran seluruh dokumen 4139332 Ukuran dokumen terbesar 54082
Ukuran dokumen terkecil 451
dengan matriks dokumen DD dengan persamaan:
‖ ‖ ‖ ‖ (7) Matriks dokumen didapat dari persamaan:
T = ( T)T T Dokumen teratas merupakan dokumen hasil pencarian yang paling mendekati dengan kueri yang diinginkan.
Evaluasi
Manning (2008) menyatakan terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif yaitu recall dan precision (R-P). Perhitungan recall-precision didasarkan pada tabulasi silang seperti pada Tabel 1.
Tabel 1 Confusion matrix
Relevant Nonrelevant
Retrieved true positives (tp)
Average precision adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Biasanya, digunakan sebelas tingkat recall standar yaitu, 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average precision dapat dipersamaankan sebagai berikut: Yates & Ribeiro-Neto 1999).
Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan
precision seperti pada persamaan (8) dan (9). Kemudian, dilakukan perhitungan average
precision menggunakan sebelas tingkat recall
standar seperti pada persamaan (10). Evaluasi juga dilakukan dengan membandingkan hasil penelitian dengan Maulizar (2011).
Lingkungan Implementasi
Lingkungan implementasi yang digunakan adalah sebagai berikut:
Notepad++ untuk pembangunan sistem dengan bahasa pemrograman PHP, Microsoft Excel 2010 sebagai aplikasi
yang digunakan untuk melakukan perhitungan recall dan precision.
Perangkat keras:
Prosesor Intel Core i5-2450M RAM 4.0 GB
Harddisk 500GB
HASIL DAN PEMBAHASAN
Koleksi Korpus
Penelitian ini menggunakan 1000 dokumen pertanian yang berasal dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Tabel 2 menunjukkan deskripsi dokumen uji yang digunakan dalam penelitian ini.
Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML, yaitu setiap
file terdiri atas satu dokumen yang ditunjukkan dengan tag-tag sebagai berikut: <DOC></DOC>, tag ini mewakili
keseluruhan dokumen dan melingkupi tag
-tag lain yang lebih spesifik.
<TITLE></TITLE>, tag ini menunjukkan judul dari berita.
<DATE></DATE>, tag ini menunjukkan tanggal dari berita.
<AUTHOR></AUTHOR>, tag ini menunjukkan penulis dari berita tersebut. <TEXT></TEXT>, tag ini menunjukkan isi
dari dokumen.
Gambar 5 menunjukkan contoh salah satu dokumen pertanian yang digunakan dalam penelitian ini.
Praproses
Praproses dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Proses awal adalah pembuangan
tag karena tag bukan merupakan penciri suatu dokumen. Tag yang diambil untuk proses
indexing hanya <TITLE> dan <TEXT>. Format dokumen setelah dilakukan pembuangan tag dapat dilihat pada Gambar 6.
Tahap tokenisasi dilakukan pada fungsi
get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi. Selain itu, dilakukan juga penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen.
Pembuangan stopwords dilakukan setelah proses tokenisasi pada koleksi dokumen. Teknis yang dilakukan adalah perbandingan antara token hasil tokenisasi dan stopwords
yang ada. Jika token adalah stopwords, token tersebut dihapus dalam daftar token. Daftar
stopwords yang digunakan dalam penelitian ini diperoleh dari Herdi (2010) dan dilampirkan pada Lampiran 2. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan.
Pembobotan
Pembobotan yang dilakukan dalam penelitian ini adalah pembobotan term frequency (TF) dan pembobotan global dengan memperhatikan sebaran kata. Pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Pembobotan global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata (U) dan perluasan penyebaran kata (S) pada koleksi dokumen.
Pembobotan global diawali dengan proses perhitungan peluang dari setiap dokumen dengan menghitung perbandingan jumlah kata yang terdapat dalam setiap dokumen dengan jumlah seluruh kata yang ada di koleksi dokumen. Tabel 3 merupakan contoh 5 dokumen hasil perhitungan peluang dengan jumlah seluruh kata di dalam koleksi dokumen adalah 297112 kata. Nilai r pada pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen jurnal000000-001 memiliki jumlah kata terbanyak, sehingga nilai r jurnal000000-001 memiliki nilai tertinggi. Sebaliknya untuk dokumen situshijau201003-002 memiliki jumlah kata terkecil sehingga nilai r dokumen situshijau201003-002 memiliki nilai terkecil. Tabel 3 Hasil perhitungan peluang (r)
Dokumen Jumlah Kata r
jurnal000000-001 3905 0.0131 jurnal000000-027 2436 0.0081 jurnal000000-002 2323 0.0078
indosiar260404 1798 0.0060
situshijau201003-<TITLE>Ribuan Bibit untuk
Lahan Kritis</TITLE> <AUTHOR></AUTHOR>
<DATE>Minggu, 4 Januari 2004 </DATE>
<TEXT>
<P>NGALIYAN-Kecamatan
Ngaliyan telah
mendistribusikan sekitar 30
ribu bibit berbagai jenis
tanaman. Sebelumnya, wilayah itu telah menerima bantuan 140.250 bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah
petai, durian, rambutan,
mangga, sukun, dan jati.</P> </TEXT>
</DOC>
Ribuan Bibit untuk Lahan Kritis NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan 140.250 bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati.
Gambar 5 Contoh dokumen pertanian.
Gambar 6 Format dokumen setelah pembuangan
6
Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen (v) dan frekuensi kata pada suatu koleksi (n). Nilai r,
v, dan n digunakan untuk menghitung nilai
chi-square dari koleksi dokumen. Hasil perhitungan v, n, dan chi-square pada 5 term
contoh dapat dilihat pada Tabel 4.
Tabel 4 Hasil perhitungan n, chi, dan U pada
(chi) terendah. Nilai terendah menyatakan
term petani mendekati distribusi seragam. Artinya untuk nilai chi-square (chi) yang rendah akan mendapat nilai distribusi seragam (U) yang rendah.
Pada perhitungan perluasan penyebaran kata pada koleksi dokumen (S), harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total memperoleh nilai S yang kecil artinya koleksi tersebut tersebar luas di koleksi dokumen. Tabel 5 Hasil perhitungan p dan S pada 5 perhitungan bobot kata global pada setiap kata menggunakan persamaan (4). Hasil perhitungan bobot kata global dengan S
menggunakan persamaan (3) dapat dilihat pada Tabel 6. Kata anggrek mendapat nilai global lebih tinggi, artinya term anggrek merupakan kata yang lebih penting dalam koleksi dibandingkan term pertanian, petani, ipb, dan bambu. Pada Tabel 6, term pertanian yang mempunyai frekuensi tinggi dan penyebarannya luas mendapatkan hasil perhitungan bobot yang rendah sesuai dengan
teori pembobotan sebaran kata menurut Xia dan Chai (2011). Tabel 7 merupakan hasil perhitungan pembobotan global dengan perhitungan S
menggunakan persamaan (2). Nilai terbesar diperoleh term pertanian karena dengan persamaan (2), kata yang menyebar pada banyak dokumen di koleksi menghasilkan S
yang tinggi sehingga term pertanian mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Oleh karena itu, pada tahap selanjutnya digunakan hasil pada Tabel 6, yaitu dengan perhitungan S menggunakan persamaan (3). pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada term pertanian yang memiliki luas distribusi seragam yang tinggi dan bobot global yang dihasilkan rendah. Hasil perbandingan hubungan distribusi seragam dan bobot global dapat dilihat pada Tabel 8. Tabel 8 Perbandingan hubungan distribusi
term dengan bobot global
Term n p Global
Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan TF dan pembobotan global menggunakan persamaan (5). Hasil perhitungan pembobotan kata dapat diliihat pada Tabel 9.
Tabel 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001
Term TF Global Bobot
Setelah hasil pembobotan didapatkan, matriks term-dokumen dibuat. Pembentukan matriks term-dokumen sangat diperlukan karena matriks term-dokumen selanjutnya akan didekomposisi. Matriks term-dokumen ini disimpan dalam format comma delimited
(.CSV) dengan ukuran 47.5 MB. Jumlah baris dalam matriks term-dokumen berjumlah 24074 baris yang mewakili jumlah term yang ada di koleksi dokumen. Jumlah kolom dalam matriks term-dokumen berjumlah 1000 kolom yang mewakili jumlah dokumen di dalam koleksi dokumen.
Singular Value Decomposition
Matriks term-dokumen yang didapat selanjutnya didekomposisi menggunakan fungsi singular value decomposition pada Matlab dan akan dihasilkan tiga matriks baru yaitu matriks T, S, dan D.
[T, S, D] = svd (matriksA, 0)
Matriks hasil dekomposisi memiliki ukuran yang besar sehingga akan membutuhkan penyimpanan yang besar. Matriks T merupakan matriks yang merepresentasikan term. Ukuran matriks T dalam format .CSV adalah 265 MB. Kemudian, S merupakan matriks yang elemen diagonalnya adalah nilai singular dengan urutan menurun memiliki ukuran 1.91 MB, dan D merupakan matriks yang kolomnya merepresentasikan dokumen memiliki ukuran 11.7 MB. Ukuran matriks tersebut akan mempengaruhi waktu eksekusi kueri pada saat user melakukan proses pencarian dokumen.
Perkalian dari matriks T, S, dan DT akan mengembalikan matriks A. Apabila dilakukan perkalian matriks T, S, dan DT yang telah
direduksi dengan nilai rank k, akan didapat matriks yang nilainya mendekati matriks A.
Pada Tabel 10, dapat dilihat matriks term -dokumen A yang belum didekomposisi. Tabel 11 adalah matriks term-dokumen A hasil perkalian dari matriks T, S, dan DT.
Tabel 10 Matriks A sebelum didekomposisi
Term jurnal000000-001
jurnal000000-027
pertanian 618.752 1482.426
petani 435.812 118.857
ipb 0 0
bambu 16.113 0
anggrek 0 0
Tabel 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900
Term jurnal000000-001
jurnal000000-027
pertanian 618.756 1482.430
petani 435.802 118.856
ipb -0.048 -0.006
bambu 16.123 0.006
anggrek -0.004 0.021
Dari kedua tabel, dapat dilihat bahwa setelah didekomposisi dan direduksi term
yang sebelumnya memiliki bobot 0 menjadi bernilai minus atau bertambah bobotnya. Seperti pada term bambu dan anggrek pada dokumen jurnal000000-027 sebelum matriks A didekomposisi dan direduksi, kedua term
ini memiliki bobot 0. Setelah matriks A didekomposisi dan direduksi, kedua term ini bertambah bobotnya. Hal ini membuktikan bahwa dengan dekomposisi dan reduksi, struktur latent semantic terungkapkan dan menunjukkan bahwa term bambu dan anggrek memiliki keterkaitan walaupun term bambu dan anggrek tidak terdapat pada kedua dokumen tersebut. Sedangkan pada term ipb yang sebelumnya memiliki bobot 0 di kedua dokumen, setelah matriks A didekomposisi dan direduksi struktur latent semantic
menunjukkan bahwa term ipb di kedua dokumen ini bernilai minus. Hal ini membuktikan bahwa term ipb tidak memiliki keterkaitan di dalam kedua dokumen ini. Pengolahan Kueri
Tahap selanjutnya adalah membuat program untuk melakukan indexing pada kueri. Indexing pada kueri juga terdiri atas tiga tahapan, yaitu: tokenisasi, pembuangan
8
dimasukkan, kueri harus diubah menjadi
pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri akan digunakan persamaan (6).
Pengukuran Kemiripan
Vektor kueri yang didapat dari tahap sebelumnya akan dibandingkan kemiripannya dengan matriks dokumen. Setelah itu, vektor kueri dapat dibandingkan dengan matriks dokumen menggunakan persamaan cosine similarity pada persamaan (7).
Pengujian Kinerja Sistem
Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji berikut dokumen-dokumen relevan yang telah ditentukan dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Daftar kueri uji beserta dokumen yang relevan dapat dilihat pada Lampiran 3. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai average precision dari sistem. Proses pencarian average precision
dilakukan pada nilai k = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000}. Nilai sebelas tingkat recall standar pada dokumen pertanian dapat dilihat pada Gambar 7.
Nilai average precision setiap nilai k dapat dilihat pada Tabel 12. Dari Tabel 12, nilai k
dengan nilai akurasi paling tinggi adalah k = 1000 dengan nilai average precision sebesar 0.404683 yang artinya secara rata-rata pada tiap titik recall, 40.47% hasil temu-kembali relevan dengan kueri. Nilai precision pada pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 dapat dilihat pada Lampiran 4. Nilai k adalah nilai yang penting untuk menentukan performa mesin pencari yang menggunakan LSI. Jika terlalu banyak dimensi yang disimpan, struktur latent semantic tidak dapat diperlihatkan karena terlalu banyak noise. Jika nilai k terlalu kecil, akan terlalu banyak kata atau dokumen yang diproyeksikan ke dalam dimensi sehingga akan menghancurkan struktur latent semantic. Hasil penelitian Maulizar (2011) menunjukkan bahwa nilai k yang optimum adalah k = 70 dengan average precision
sebesar 0.301. Sedangkan hasil average precision dalam penelitian ini dengan k = 70 adalah sebesar 0.321274. Pada Gambar 8 juga dapat dilihat bahwa pada nilai k = 20, 30, 40, 50, 60, 70, 80, 90, dan 100 nilai akurasi LSI dengan pembobotan global berbasis sebaran
lebih besar dibandingkan dengan LSI menggunakan pembobotan TF-IDF. Grafik perbandingan nilai average precision LSI TF-IDF dengan LSI Global dapat dilihat pada Lampiran 4.
Dari hasil tersebut, dapat disimpulkan bahwa Latent Semantic Indexing dengan pembobotan global berbasis sebaran menghasilkan nilai average precision yang lebih tinggi dibandingkan Latent Semantic Indexing hanya dengan TF-IDF tanpa memperhatikan sebaran kata.
Pada Tabel 13 dapat dilihat rata-rata, maksimum, dan minimum waktu pencarian pada setiap nilai k. Untuk k = 10, rata-rata waktu yang diperlukan untuk mencari dokumen adalah 0.557 detik, sedangkan untuk
k = 1000 rata-rata waktu yang diperlukan adalah 6.344 detik. Dari hasil tersebut dapat disimpulkan bahwa semakin besar nilai k
maka semakin lama waktu pencarian dokumen karena semakin banyak pula dimensi matriks yang dihitung.
0
Tabel 12 Hasil perhitungan average precision
pada setiap nilai k
Nilai k Average Precision
LSI TF-IDF LSI Global
Penelitian ini berhasil
mengimplementasikan metode Latent Semantic Indexing dengan pembobotan global berbasis sebaran. Hasil penelitian ini menunjukkan bahwa nilai k yang memberikan hasil akurasi paling tinggi adalah k = 1000 dengan nilai average precision 40.47%. Akurasi hasil LSI dengan pembobotan global berbasis sebaran lebih besar dibandingkan dengan LSI dengan pembobotan TF-IDF. Saran
Jika ingin menambahkan dokumen baru maka matriks T, S, dan D perlu dihitung ulang sehingga diperlukan teknik folding-in.
Folding-in adalah metode untuk memproyeksikan dokumen baru ke dalam ruang SVD sehingga matriks T, S, dan D tidak perlu dihitung ulang.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. Boston: Addison Wesley.
Deerwester S, Dumais ST, Fumas GW, Landauer TK, Harshman R. 1990. Indexing by latent semantic analysis.
Journal of the American Society of Information Science 41(6):391-407.
Geiss J. 2006. Latent semantic indexing and information retrieval: A quest with BoSSE [tesis]. Heidelberg: Universitat Heidelberg.
Herdi, H. 2010. Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Manning CD, Raghavan P, Schutze H. 2008.
An Introduction to Information Retrieval.
Cambridge: Cambridge University Press. Maulizar N. 2011. Latent semantic indexing
10
Xia T, Chai Y. 2011.An improvement to TF-IDF: term distribution based term weight
12
Lampiran 2 Daftar stopwords
acapkali apanya begitupula berkesempatan contohkan diberinya
ada apapun begitupun berkesimpulan contohnya dibiarkan
adakah arti belakang berlalu cukup dibiasakan
adakan artian belakangan berlalunya Cuma dibilang
adalah artinya belum berlama daerah dicontoh
adanya asalan belumlah berlangsung dahulu dicontohkan
adapun asalkan benar bermula dalam dicontohkannya
aduh asumsi benarkah bersama dan didapat
agak asumsinya benarnya bersamaan dapat didapati
agaknya atas berada bertepatan dapatkah didapatkan
agar atasnya berakhir beruntun dapatkan didapatnya
aja atau berakhirnya berupa dapatlah didasarkan
akalan ataukah berakibat besarnya dari digolongkan
akan ataupun berakibatkan beserta darinya digunakan
akankah awal beralasan besok daripada diharapkan
akhir bagai beralih besoknya dekat dijadikan
akhirnya bagaikan beralihnya betapa dekatnya dijadikannya
akibat bagaimana beranggapan biar demi dikarenakan
akibatkan bagaimanakah berapa biarlah demikian dikasih akibatnya bagaimanapun berapanya biasa demikianlah dikata
aku bagi berapapun biasanya dengan dikatakan
ala baginya berarti bicarakan dengannya dikatakannya
alangkah bagus berasumsi bicaranya depan dikategorikan
alasan bagusnya berbagai bila depannya dikembangkan
alasannya bahkan berbagi bilamana di diketahui
alih bahwa berbanding bilang dia diketahuinya
alihkan baik berbeda bisa dialah dilaksanakan
amat baiknya berdampak bisakah dialami dilakukan
amatlah balik berdasarkan bisanya dialihkan dimana
ambil banding berhadapan boleh diambil dimulai
anda bandingkan berharap boro diambilkan dimulailah
andai banyak berhubung buat diambilnya dimulainya
anggap banyaknya berhubungan buatnya dianggap dimungkinkan
anggapan barangkali beri bukan diantara dipaparkan
antar baru berikan bukankah diantaranya dipersilahkan
antara bawah berikanlah bukanlah diapakan disaat
antaranya bawahnya berikut bukannya dibagi disebabkan
apa beberapa berikutnya buktikan dibagikan disejumlah
apabila begini berjumlah cara dibeberapa diseluruh
apakah beginilah berkat cerita diberbagai disertai
apalagi begitu berkenaan ceritanya diberi disertakan
14
Lanjutan
disitulah itupun kemana manalagi mengaku mulanya
ditanggapi iya kemanakah manapun mengalami muncul
ditanya jadi kembali masa mengalihkan mungkin
ditanyakan jadikan kemudian masih mengambil mungkinkah
dituturkan jadilah kemungkinan masihkah mengambilnya namun
diucapkan jadinya kemungkinannya masing menganggap nanti
dkk jangan kenapa masuk menganggapnya negara
dll jarang kenapakah masyarakat mengapa nilai
dsb jauh kepada mau mengatakan nyaris
dua jelaskan kepadanya maupun mengembangkan nyiakan
dulu jika kepala melainkan mengenai oleh
dulunya jikalau ketika melakukan menggunakan orang
empat juga ketimbang melalui mengungkapkan pada
enggak jumlah khususnya melihat meningkat padahal
engkau jumlahnya kini memang meningkatkan padanannya
esok justru kita memaparkan menjadi paling
gimana juta kondisi membagi menjadikan panjangnya
habis kabupaten kurang membagikan menjadikannya papar
habisan kadang lagi memberi menjelang paparan
habiskan kalau lagian memberikan menjelaskan paparkan
habisnya kalaupun lagipula memberinya menuju paparnya
hal kali lain membiarkan menunjukkan para
hampir kalian lainnya membolehkan menurut pasti
hanya kami laksana membuat menurutnya pastilah
hanyalah kamu lakukan memeperoleh menuturkan pastinya
hari kan lalu memiliki menyatakan pelak
harus kapan lalui meminta menyebabkan pelbagai
haruskah karena lama memperbolehkannya menyebutkan pemaparan
haruslah karenanya lanjut mempersilahkan menyia pembagian
harusnya kata lantaran mempunyai mereka pembagiannnya
hendak katakan lantas memungkinkan merupakan pendapat
hendaklah katakanlah lebih menanggapi meski pengalihan
hendaknya katanya lepas menanggapinya meskipun pengambil
hingga kau lewat menanyakan mesti pengambilan
how kayak lokasi mencapai mestinya pengandaian
ialah kayaknya maka mencontohkan misal per
ingin ke makin mendapat misalkan peralihan
ini kebanyakan mampu mendapati misalnya percuma
inilah kebetulan mampukah mendapatkan mudah peri
inipun kebiasaan mampunya mendapatkannya mula perihal
itu kecil mana menerus mulai perlahan
Lanjutan
pernah sebenarnya semakin sesungguhnya tentunya umum
persen seberapa semampunya setelah tepatnya umumnya
pertamanya seberat semenjak setelahnya terbagi ungkap
pinggir sebesar sementara seterusnya terbalik ungkapan
pula sebetulnya semestinya setiap terbiasa ungkapkan
pulalah sebuah semisal setidak terbilang ungkapnya
pun secara semoga setidaknya terdapat untuk
rata sedalam semua seusai terdapat usah
relevankah sedang semuanya sewaktu tergolong usahlah
rendah sedangkan semula seyogyanya terhadap usai
saat sedapat seolah sia terjadi usianya
saatnya sedemikian seorang sialnya terjadilah waktu
saatnyalah sedikit seorangpun siap terjadinya waktulah
saja sedikitnya sepadan siapa terkadang waktunya
salah segera sepanjang siapakah terkait walau
sama sehabis sepasang siapapun terkecuali walaupun
sambil seharusnya sepele silahkan terlalu warga
sambutannya seharusnyalah sependapat singkatnya terlebih yaitu
sampai sehingga seperti sini termasuk yakni
sana sehubungan sepertinya sinilah ternyata yang
sang sejak seputar situ tersebut
sangat sejauhmana seraya sosok tertentu
sangatlah sejumlah serba sosoknya terus
satunya sekalian serentak suatu tetap
saya sekaligus sering sudah tetapi
sayangnya sekalipun seringkali sulit tiap
seakan sekarang seringkalinya sungguh tiba seandainya sekata seringlah sungguhpun tidak
seantero sekedar seringnya supaya tidaklah
sebab sekeliling serta tak tidaknya
sebabkan seketika sertanya tambahnya tiga
sebabnya sekian sesaat tanggapan tinggi
sebagai sekitar sesama tanggapannya tutur
sebagaimana selagi sesamamu tanggapnya tuturnya
sebagainya selain sesedikit tanpa ucap
sebagian selalu seseorang tapi ucapan
sebaik selama sesuai tatkala ucapannya
sebaiknya selanjutnya sesuatu telah ucapkan
sebaliknya selesai sesuatunya tempat ucapnya
sebanyak selesaikah sesudah tengah ujar
sebelum seluruh sesudahnya tentang ujarnya
16
Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Bencana kekeringan
gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002, situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002. Dukungan
pemerintah pada pertanian
indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028, suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,
indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.
Gabah kering giling
indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104.
Gagal panen/puso
Lanjutan
Kueri Gugus Jawaban
Impor beras indonesia
gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001, republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903
Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
Institut
pertanian bogor
gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001, kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-002, republika110604-002, republika140704-002, republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001
Kelangkaan pupuk
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101
Kelompok masyarakat tani/kelompok tani
bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-kompas270203-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103
Laboratorium pertanian
18
Lanjutan
Kueri Gugus Jawaban
Musim panen
gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001, mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika060804-001, republika060804-003, republika100704-003, republika151202, republika171102, republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002
Pembangu nan untuk sektor pertanian
gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003, republika150903, republika190803, republika251002-republika150604-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303
Lanjutan
Kueri Gugus Jawaban
Penerapan
teknologi pertanian
indosiar250204-001, jurnal000000-001, jurnal000000-011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009
Penyakit hewan ternak/penyakit ternak
gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01
Penyuluhan pertanian
bitraindonesia000000-001, gatra190902-02, indosiar310504, jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007
Perdagangan hasil pertanian
gatra011102, indosiar070204, indosiar201103, 002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006
Pertanian organik/sistem pertanian organik
indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303, situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702
20
Lanjutan
Kueri Gugus Jawaban
Peternak unggas/peternak ayam/peternak burung
gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802
Produk usaha peternakan
rakyat/produk peternakan
jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102
Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008 Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001,
Lanjutan
Kueri Gugus Jawaban
Swasembada pangan
indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899,
kompas270203-001, kompas270401, kompas270502-002,
mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005, 003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, suarakarya000000-001-02, suarakarya000000-002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan110903, suarapembaruan221102
Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004
Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003, republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001
Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002
Upaya peningkatan pendapatan
petani/peningkatan pendapatan petani
22
Lampiran 4 Hasil perhitungan precision pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000
Kueri
Nilai precision pada sebelas tingkat recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
bencana kekeringan 1.000 0.885 0.885 0.885 0.885 0.885 0.813 0.811 0.744 0.632 0.238
dukungan pemerintah pada pertanian
0.250 0.250 0.162 0.070 0.070 0.070 0.055 0.055 0.055 0.055 0.045
flu burung 1.000 1.000 1.000 1.000 0.938 0.938 0.938 0.938 0.900 0.840 0.840
gabah kering giling 1.000 1.000 0.667 0.571 0.455 0.406 0.375 0.362 0.314 0.314 0.264
gagal panen 0.700 0.700 0.611 0.517 0.417 0.397 0.267 0.239 0.207 0.107 0.052
impor beras indonesia 1.000 1.000 1.000 0.947 0.947 0.759 0.684 0.564 0.404 0.285 0.160
industri gula 1.000 1.000 1.000 1.000 0.917 0.917 0.632 0.560 0.485 0.122 0.084
institut pertanian bogor 1.000 0.857 0.600 0.317 0.227 0.133 0.097 0.095 0.095 0.088 0.079
kelangkaan pupuk 1.000 1.000 1.000 1.000 0.818 0.800 0.789 0.789 0.762 0.643 0.345
kelompok masyarakat tani 0.667 0.667 0.667 0.611 0.394 0.254 0.250 0.222 0.222 0.167 0.167
laboratorium pertanian 0.333 0.150 0.125 0.037 0.037 0.037 0.037 0.037 0.033 0.033 0.024
musim panen 0.750 0.750 0.667 0.636 0.439 0.383 0.352 0.312 0.302 0.254 0.175
pembangunan untuk sektor pertanian
1.000 0.857 0.611 0.538 0.442 0.439 0.431 0.363 0.259 0.190 0.082
penerapan bioteknologi di indonesia
1.000 0.333 0.130 0.083 0.082 0.082 0.076 0.067 0.048 0.046 0.043
penerapan teknologi pertanian
Lanjutan
Kueri Nilai precision pada sebelas tingkat recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
penyakit hewan ternak 1.000 0.500 0.500 0.444 0.333 0.318 0.296 0.222 0.200 0.167 0.144
penyuluhan pertanian 1.000 0.094 0.053 0.048 0.048 0.048 0.048 0.046 0.046 0.043 0.029
perdagangan hasil pertanian 1.000 0.263 0.171 0.165 0.165 0.159 0.139 0.106 0.087 0.050 0.047
sistem pertanian organik 1.000 0.714 0.714 0.714 0.714 0.667 0.577 0.327 0.230 0.168 0.035
petani tebu 1.000 0.300 0.217 0.113 0.073 0.060 0.060 0.058 0.058 0.058 0.052
peternak ayam 1.000 1.000 1.000 1.000 1.000 0.923 0.867 0.842 0.842 0.704 0.526
produk usaha peternakan rakyat
1.000 1.000 0.714 0.600 0.117 0.114 0.089 0.089 0.068 0.055 0.054
pupuk organik 1.000 0.667 0.636 0.636 0.293 0.293 0.236 0.205 0.200 0.194 0.165
riset pertanian 0.167 0.098 0.098 0.098 0.098 0.098 0.090 0.083 0.079 0.072 0.069
swasembada pangan 0.313 0.313 0.313 0.313 0.313 0.281 0.244 0.220 0.208 0.208 0.090
tadah hujan 0.500 0.500 0.344 0.344 0.344 0.344 0.344 0.313 0.313 0.227 0.168
tanaman obat 1.000 1.000 0.857 0.833 0.600 0.234 0.225 0.139 0.117 0.117 0.112
tanaman pangan 0.500 0.243 0.243 0.210 0.160 0.160 0.152 0.142 0.139 0.139 0.115
upaya peningkatan pendapatan petani
0.161 0.161 0.161 0.151 0.099 0.099 0.099 0.084 0.084 0.083 0.058
harga komoditas pertanian 1.000 1.000 0.813 0.514 0.500 0.413 0.372 0.288 0.253 0.185 0.096
Rata-rata interpolasi maksimum
0.811 0.620 0.537 0.485 0.402 0.361 0.326 0.289 0.262 0.210 0.147
24
Lampiran 5 Grafik perbandingan average precision LSI TF-IDF dengan LSI Global
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Pr
e
c
ison
Nilai K
Penguji: