• Tidak ada hasil yang ditemukan

Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic Indexing dengan Pembobotan Global

N/A
N/A
Protected

Academic year: 2017

Membagikan "Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic Indexing dengan Pembobotan Global"

Copied!
33
0
0

Teks penuh

(1)

MESIN PENCARI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN

LATENT SEMANTIC INDEXING

DENGAN PEMBOBOTAN GLOBAL

SUSI HANDAYANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

MESIN PENCARI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN

LATENT SEMANTIC INDEXING

DENGAN PEMBOBOTAN GLOBAL

SUSI HANDAYANI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO.

Current users tend to like search engine based on semantic of word. This is caused by the existence of synonymy and polysemy problems in the selection of the use of the word. One technique to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant documents even if the word of the query are not written in the document. Currently, TF-IDF term weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document collection, the term with higher frequency and hypo-dispersion distribution usually contains less information. The purpose of this research is to implement LSI using Singular Value Decomposition (SVD) method with term distribution based global term weight. This research used 1000 Indonesian agricultural documents. The performance of search engine using LSI with term-distribution-based global term weight gave highest average precision around 40.47%. The test result also showed that LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF.

(4)

Judul Skripsi : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic Indexing dengan Pembobotan Global

Nama : Susi Handayani

NRP : G64080042

Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom NIP.19620714 198601 1 002

Mengetahui:

an. Ketua Departemen Ilmu Komputer Sekretaris

Ahmad Ridha S.Kom, MS NIP. 19800507 200501 1 001

(5)

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan karunia-Nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:

 Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada penulis sehingga penulis dapat menyelesaikan tugas akhir ini.

 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini.

 Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji.  Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik.

 Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita, Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat diselesaikan.

 Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi.

 Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini.  Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang

telah banyak membantu baik selama penelitian maupun selama perkuliahan.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, September 2012

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Bekasi pada tanggal 5 April 1990. Penulis merupakan anak kedua dari dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN... 1

Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

METODE PENELITIAN ... 1

Praproses ... 1

Matriks Term-Dokumen ... 3

Singular Value Decomposition (SVD) ... 3

Pengolahan Kueri ... 3

Ukuran Kemiripan ... 3

Evaluasi ... 4

Lingkungan Implementasi ... 4

HASIL DAN PEMBAHASAN ... 4

Koleksi Korpus ... 4

Praproses ... 5

Pembobotan ... 5

Matriks Term-Dokumen ... 7

Singular Value Decomposition ... 7

Pengolahan Kueri ... 7

Pengukuran Kemiripan ... 8

Pengujian Kinerja Sistem ... 8

SIMPULAN DAN SARAN ... 9

Simpulan ... 9

Saran ... 9

DAFTAR PUSTAKA ... 9

LAMPIRAN ... 11

(8)

DAFTAR TABEL

Halaman

1 Confusion matrix ... 4

2 Deskripsi dokumen uji ... 4

3 Hasil perhitungan peluang (r)... 5

4 Hasil perhitungan n, chi, dan U pada 5 term contoh ... 6

5 Hasil perhitungan p dan S pada 5 term contoh ... 6

6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) .... 6

7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) .. 6

8 Perbandingan hubungan distribusi term dengan bobot global ... 6

9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001 ... 7

10 Matriks A sebelum didekomposisi ... 7

11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 ... 7

12 Hasil perhitungan average precision pada setiap nilai k ... 9

13 Rata-rata waktu pencarian pada setiap nilai k ... 9

DAFTAR GAMBAR

Halaman 1 Metode penelitian. ... 2

2 Matriks term-dokumen. ... 3

3 Matriks A yang telah didekomposisi. ... 3

4 Matriks A yang telah didekomposisi dan direduksi. ... 3

5 Contoh dokumen pertanian. ... 5

6 Format dokumen setelah pembuangan tag. ... 5

7 Sebelas tingkat recall standar pada dokumen pertanian. ... 8

DAFTAR LAMPIRAN

Halaman 1 Antarmuka sistem ...12

2 Daftar stopwords ...13

3 Gugus kueri dan jawaban untuk dokumen pertanian ...16

4 Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 ...22

(9)

PENDAHULUAN

Latar Belakang

Mesin pencari (search engine) memegang peranan penting dalam pencarian informasi. Kebanyakan mesin pencari hanya membandingkan isi dari dokumen terhadap kueri berdasarkan kata kunci yang tersedia berupa statistik kemunculan kata. Masalah akan muncul pada saat sebuah kata yang secara statistik berbeda tetapi memiliki makna yang sama (sinonim). Hal ini mengakibatkan

recall yang rendah karena mesin pencari akan mengembalikan dokumen yang sedikit. Masalah lain ialah apabila ada satu kata yang secara statistik sama tetapi memiliki banyak makna (polisemi) yang akan menghasilkan nilai precision yang rendah karena mesin pencari akan mengembalikan dokumen yang tidak sesuai dengan keinginan pengguna. Hal ini dapat mengakibatkan kinerja mesin pencari menjadi kurang baik karena tidak memperhatikan kata secara semantik (Deerwester et al. 1990).

Deerwester et al. (1990) mengungkapkan bahwa upaya untuk mengatasi sinonim saat ini ialah dengan ekspansi kata secara otomatis atau pembentukan tesaurus. Kekurangan dari metode ini ialah kata yang ditambahkan mungkin akan memiliki makna yang berbeda dari yang dimaksudkan oleh pengguna yang akan menyebabkan efek polisemi.

Pendekatan lainnya untuk mengatasi permasalahan ini ialah menggunakan Latent Semantic Indexing (LSI) dengan pendekatan ruang vektor. LSI adalah suatu teknik yang memetakan kueri dan dokumen ke dalam suatu ruang yang disebut Latent Semantic Space. Dalam Latent Semantic Space, suatu kueri dan suatu dokumen dapat memiliki nilai kesamaan yang tinggi walaupun kueri dan dokumen tersebut tidak memiliki term yang sama. Selama term tersebut mirip secara semantik, nilai kesamaan yang dihasilkan akan tinggi. Pada dasarnya, LSI menggunakan teknik Singular Value Decomposition (SVD) untuk mendekomposisikan matriks term -dokumen. Dengan mengurangi ruang term dan dokumen menjadi dimensi yang lebih kecil,

SVD menampakkan hubungan yang mendasari

term dan dokumen dalam semua kombinasi yang memungkinkan dan membuang noise

yang ada pada ruang vektor (Deerwester et al.

1990).

Penelitian mengenai LSI yang sudah dilakukan antara lain Geiss (2006) yang

menerapkan LSI pada mesin pencari BoSSE,

dan Maulizar (2011) yang

mengimplementasikan Singular Value Decomposition (SVD) dan Semi Discrete Decomposition (SDD) pada sistem temu kembali dokumen bahasa Indonesia.

Umumnya penelitian tersebut menggunakan TF-IDF yang memberikan bobot yang sama pada sebuah term di mana pun posisi term di dalam dokumen. Untuk meningkatkan akurasi sistem, Xia dan Chai (2011) mengungkapkan bahwa pada suatu koleksi dokumen, term yang mempunyai frekuensi tinggi dan penyebarannya luas diberi bobot lebih rendah. Oleh karena itu, penelitian ini mengimplementasikan LSI menggunakan pembobotan global dengan memperhatikan sebaran kata.

Tujuan Penelitian

Tujuan penelitian ini ialah mengimplementasikan Latent Semantic Indexing dengan pembobotan global ke dalam mesin pencari dokumen bahasa Indonesia. Ruang Lingkup Penelitian

Ruang lingkup dalam penelitian ini antara lain:

 Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.

 Kesalahan pengetikan di dalam korpus tidak diperhatikan.

 Dokumen yang relevan dengan kueri uji ditentukan berdasarkan pustaka yang ada di Laboratorium Temu-Kembali Informasi (TKI).

METODE PENELITIAN

Tahapan penelitian ini dapat dilihat pada Gambar 1. Tahap offline hanya dilakukan satu kali, terdiri atas pengumpulan korpus, praproses, pembuatan matriks term-dokumen, dan pengolahan SVD.

Praproses

Praproses terdiri atas tokenisasi, pembuangan stopwords, dan pembobotan kata (Manning et al. 2008).

(10)

2

dokumen dan mengubah kata menjadi

lowercase.

Stopwords merupakan kata-kata yang dianggap tidak memiliki makna dan akan dibuang serta tidak ikut diproses pada tahap selanjutnya. Pada umumnya, kata-kata dalam

stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen.

Pembobotan

Menurut Manning et al. (2008), pembobotan lokal atau term frequency (tf) adalah jumlah kemunculan setiap term t dalam

sebuah dokumen d dan dinotasikan dengan tft,d. Pembobotan tf memiliki kekurangan,

yaitu semua kata dianggap penting ketika dihubungkan dengan relevansi kueri. Padahal, beberapa kata cenderung tidak relevan. Untuk mengurangi pembobotan suatu kata, digunakan document frequency (df) yang dinotasikan dft, yaitu jumlah dokumen dalam

koleksi yang berisi kata t. Total seluruh dokumen dinotasikan dengan N, maka ditetapkan inverse document frequency (idf) dari sebuah kata t yang disebut juga sebagai

Pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu penyebaran kata dalam suatu dokumen individu (lokal) dan koleksi dokumen (global).

Setiap term yang terdistribusi secara intensif di dalam beberapa dokumen harus diberikan bobot yang tinggi, karena term

tersebut cenderung mewakili topik dokumen, sedangkan term yang terdistribusi seragam dan sering digunakan dalam setiap dokumen harus diberikan bobot yang rendah.

Dari analisis ini, sebaran kata berdasarkan algoritme global term weight terdiri atas dua bagian yaitu U (Uniform Distribution Extent) dan (Spread Extension). Nilai U

menunjukkan luas keseragaman penyebaran kata ke-j dan S adalah persebaran dari kata

(11)

A T

Gambar 3 Matriks A yang telah didekomposisi.

T

Gambar 4 Matriks A yang telah didekomposisi dan direduksi. dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TF-IDF, nilai ini dapat disetarakan dengan persamaan (1). Oleh karena itu, nilai S dapat dipersamaankan sebagai

S = log2 (1+ ) (3) Berdasarkan nilai U dan S pada persamaan, persamaan untuk pembobotan global adalah:

Wg = log2 (1 + U x S ) (4)

sehingga nilai bobot dari suatu kata adalah perkalian antara pembobotan tft,d dan

pembobotan global berbasis sebaran kata. (5)

Matriks Term-Dokumen

Setelah proses indexing, akan didapatkan matriks term-dokumen. Matriks term -dokumen berukuran M x N menyatakan matriks bobot term dalam suatu dokumen. Setiap baris M mewakili sebuah term dan setiap kolom N mewakili sebuah dokumen di dalam koleksi (Manning et al. 2008). Matriks

term-dokumen dapat dilihat pada Gambar 2.

[

]

Gambar 2 Matriks term-dokumen. Singular Value Decomposition (SVD)

SVD adalah salah satu metode dari aljabar linear untuk mendekomposisi matriks A dengan dimensi t x d menjadi tiga matriks (Gambar 3).

Matriks A merupakan matriks term -dokumen, T merupakan matriks yang kolomnya adalah orthogonal eigenvectors dari AAT, S adalah matriks diagonal singular value

dengan urutan menurun, dan D merupakan matriks yang kolomnya merupakan

orthogonal eigenvectors dari ATA. Ukuran t

adalah jumlah baris dari matriks A. Ukuran d

adalah jumlah kolom dari matriks A. Nilai r

adalah pangkat dari matriks A dengan r ≤ (min (t, d)).

Setelah matriks A didekomposisi, hasilnya direduksi dengan nilai k sehingga menjadi

reduced SVD. Nilai k adalah jumlah dimensi matriks yang tersisa. Tujuan dari reduksi ini adalah untuk membuang noise yang ada pada ruang vektor. Pada dasarnya, tidak ada cara khusus yang digunakan untuk menentukan nilai k, tetapi nilai k diperoleh dengan trial and error sampai ditemukan nilai k yang memungkinkan SVD membuang noise dan menemukan latent semantic dengan sangat baik. Nilai k yang digunakan dalam penelitian ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000. Matriks A yang telah didekomposisi dan direduksi dapat dilihat pada Gambar 4.

Pengolahan Kueri

Pengolahan kueri dilakukan secara online

setiap kali kueri dimasukkan ke sistem. Kueri yang dimasukkan akan diubah menjadi vektor q yang merepresentasikan kemunculan kata-kata pada kueri dengan term yang telah didapat dari koleksi dokumen.

Untuk mencari dokumen yang mirip dengan kueri yang dimasukkan, kueri harus diubah menjadi pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri digunakan persamaan:

q = qTTk (6)

Ukuran Kemiripan

(12)

4

Tabel 2 Deskripsi dokumen uji

Dokumen Ukuran (bytes)

Ukuran rata-rata dokumen 4139 Ukuran seluruh dokumen 4139332 Ukuran dokumen terbesar 54082

Ukuran dokumen terkecil 451

dengan matriks dokumen DD dengan persamaan:

‖ ‖ ‖ ‖ (7) Matriks dokumen didapat dari persamaan:

T = ( T)T T Dokumen teratas merupakan dokumen hasil pencarian yang paling mendekati dengan kueri yang diinginkan.

Evaluasi

Manning (2008) menyatakan terdapat dua hal mendasar yang paling sering digunakan untuk mengukur kinerja temu-kembali secara efektif yaitu recall dan precision (R-P). Perhitungan recall-precision didasarkan pada tabulasi silang seperti pada Tabel 1.

Tabel 1 Confusion matrix

Relevant Nonrelevant

Retrieved true positives (tp)

Average precision adalah suatu ukuran evaluasi kinerja temu-kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Biasanya, digunakan sebelas tingkat recall standar yaitu, 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average precision dapat dipersamaankan sebagai berikut: Yates & Ribeiro-Neto 1999).

Pengujian sistem dilakukan dengan melakukan perhitungan terhadap recall dan

precision seperti pada persamaan (8) dan (9). Kemudian, dilakukan perhitungan average

precision menggunakan sebelas tingkat recall

standar seperti pada persamaan (10). Evaluasi juga dilakukan dengan membandingkan hasil penelitian dengan Maulizar (2011).

Lingkungan Implementasi

Lingkungan implementasi yang digunakan adalah sebagai berikut:

 Notepad++ untuk pembangunan sistem dengan bahasa pemrograman PHP,  Microsoft Excel 2010 sebagai aplikasi

yang digunakan untuk melakukan perhitungan recall dan precision.

Perangkat keras:

 Prosesor Intel Core i5-2450M  RAM 4.0 GB

Harddisk 500GB

HASIL DAN PEMBAHASAN

Koleksi Korpus

Penelitian ini menggunakan 1000 dokumen pertanian yang berasal dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Tabel 2 menunjukkan deskripsi dokumen uji yang digunakan dalam penelitian ini.

Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML, yaitu setiap

file terdiri atas satu dokumen yang ditunjukkan dengan tag-tag sebagai berikut:  <DOC></DOC>, tag ini mewakili

keseluruhan dokumen dan melingkupi tag

-tag lain yang lebih spesifik.

(13)

 <TITLE></TITLE>, tag ini menunjukkan judul dari berita.

 <DATE></DATE>, tag ini menunjukkan tanggal dari berita.

 <AUTHOR></AUTHOR>, tag ini menunjukkan penulis dari berita tersebut.  <TEXT></TEXT>, tag ini menunjukkan isi

dari dokumen.

Gambar 5 menunjukkan contoh salah satu dokumen pertanian yang digunakan dalam penelitian ini.

Praproses

Praproses dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan stopwords, dan pembobotan. Proses awal adalah pembuangan

tag karena tag bukan merupakan penciri suatu dokumen. Tag yang diambil untuk proses

indexing hanya <TITLE> dan <TEXT>. Format dokumen setelah dilakukan pembuangan tag dapat dilihat pada Gambar 6.

Tahap tokenisasi dilakukan pada fungsi

get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi. Selain itu, dilakukan juga penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen.

Pembuangan stopwords dilakukan setelah proses tokenisasi pada koleksi dokumen. Teknis yang dilakukan adalah perbandingan antara token hasil tokenisasi dan stopwords

yang ada. Jika token adalah stopwords, token tersebut dihapus dalam daftar token. Daftar

stopwords yang digunakan dalam penelitian ini diperoleh dari Herdi (2010) dan dilampirkan pada Lampiran 2. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan.

Pembobotan

Pembobotan yang dilakukan dalam penelitian ini adalah pembobotan term frequency (TF) dan pembobotan global dengan memperhatikan sebaran kata. Pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Pembobotan global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata (U) dan perluasan penyebaran kata (S) pada koleksi dokumen.

Pembobotan global diawali dengan proses perhitungan peluang dari setiap dokumen dengan menghitung perbandingan jumlah kata yang terdapat dalam setiap dokumen dengan jumlah seluruh kata yang ada di koleksi dokumen. Tabel 3 merupakan contoh 5 dokumen hasil perhitungan peluang dengan jumlah seluruh kata di dalam koleksi dokumen adalah 297112 kata. Nilai r pada pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen jurnal000000-001 memiliki jumlah kata terbanyak, sehingga nilai r jurnal000000-001 memiliki nilai tertinggi. Sebaliknya untuk dokumen situshijau201003-002 memiliki jumlah kata terkecil sehingga nilai r dokumen situshijau201003-002 memiliki nilai terkecil. Tabel 3 Hasil perhitungan peluang (r)

Dokumen Jumlah Kata r

jurnal000000-001 3905 0.0131 jurnal000000-027 2436 0.0081 jurnal000000-002 2323 0.0078

indosiar260404 1798 0.0060

situshijau201003-<TITLE>Ribuan Bibit untuk

Lahan Kritis</TITLE> <AUTHOR></AUTHOR>

<DATE>Minggu, 4 Januari 2004 </DATE>

<TEXT>

<P>NGALIYAN-Kecamatan

Ngaliyan telah

mendistribusikan sekitar 30

ribu bibit berbagai jenis

tanaman. Sebelumnya, wilayah itu telah menerima bantuan 140.250 bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah

petai, durian, rambutan,

mangga, sukun, dan jati.</P> </TEXT>

</DOC>

Ribuan Bibit untuk Lahan Kritis NGALIYAN- Kecamatan Ngaliyan telah mendistribusikan sekitar 30 ribu bibit berbagai jenis tanaman. Sebelumnya, wilayah itu telah menerima bantuan 140.250 bibit tanaman dari Departemen Pertanian. Bibit tanaman yang diberikan adalah petai, durian, rambutan, mangga, sukun, dan jati.

Gambar 5 Contoh dokumen pertanian.

Gambar 6 Format dokumen setelah pembuangan

(14)

6

Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen (v) dan frekuensi kata pada suatu koleksi (n). Nilai r,

v, dan n digunakan untuk menghitung nilai

chi-square dari koleksi dokumen. Hasil perhitungan v, n, dan chi-square pada 5 term

contoh dapat dilihat pada Tabel 4.

Tabel 4 Hasil perhitungan n, chi, dan U pada

(chi) terendah. Nilai terendah menyatakan

term petani mendekati distribusi seragam. Artinya untuk nilai chi-square (chi) yang rendah akan mendapat nilai distribusi seragam (U) yang rendah.

Pada perhitungan perluasan penyebaran kata pada koleksi dokumen (S), harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total memperoleh nilai S yang kecil artinya koleksi tersebut tersebar luas di koleksi dokumen. Tabel 5 Hasil perhitungan p dan S pada 5 perhitungan bobot kata global pada setiap kata menggunakan persamaan (4). Hasil perhitungan bobot kata global dengan S

menggunakan persamaan (3) dapat dilihat pada Tabel 6. Kata anggrek mendapat nilai global lebih tinggi, artinya term anggrek merupakan kata yang lebih penting dalam koleksi dibandingkan term pertanian, petani, ipb, dan bambu. Pada Tabel 6, term pertanian yang mempunyai frekuensi tinggi dan penyebarannya luas mendapatkan hasil perhitungan bobot yang rendah sesuai dengan

teori pembobotan sebaran kata menurut Xia dan Chai (2011). Tabel 7 merupakan hasil perhitungan pembobotan global dengan perhitungan S

menggunakan persamaan (2). Nilai terbesar diperoleh term pertanian karena dengan persamaan (2), kata yang menyebar pada banyak dokumen di koleksi menghasilkan S

yang tinggi sehingga term pertanian mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011). Oleh karena itu, pada tahap selanjutnya digunakan hasil pada Tabel 6, yaitu dengan perhitungan S menggunakan persamaan (3). pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada term pertanian yang memiliki luas distribusi seragam yang tinggi dan bobot global yang dihasilkan rendah. Hasil perbandingan hubungan distribusi seragam dan bobot global dapat dilihat pada Tabel 8. Tabel 8 Perbandingan hubungan distribusi

term dengan bobot global

Term n p Global

(15)

Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan TF dan pembobotan global menggunakan persamaan (5). Hasil perhitungan pembobotan kata dapat diliihat pada Tabel 9.

Tabel 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001

Term TF Global Bobot

Setelah hasil pembobotan didapatkan, matriks term-dokumen dibuat. Pembentukan matriks term-dokumen sangat diperlukan karena matriks term-dokumen selanjutnya akan didekomposisi. Matriks term-dokumen ini disimpan dalam format comma delimited

(.CSV) dengan ukuran 47.5 MB. Jumlah baris dalam matriks term-dokumen berjumlah 24074 baris yang mewakili jumlah term yang ada di koleksi dokumen. Jumlah kolom dalam matriks term-dokumen berjumlah 1000 kolom yang mewakili jumlah dokumen di dalam koleksi dokumen.

Singular Value Decomposition

Matriks term-dokumen yang didapat selanjutnya didekomposisi menggunakan fungsi singular value decomposition pada Matlab dan akan dihasilkan tiga matriks baru yaitu matriks T, S, dan D.

[T, S, D] = svd (matriksA, 0)

Matriks hasil dekomposisi memiliki ukuran yang besar sehingga akan membutuhkan penyimpanan yang besar. Matriks T merupakan matriks yang merepresentasikan term. Ukuran matriks T dalam format .CSV adalah 265 MB. Kemudian, S merupakan matriks yang elemen diagonalnya adalah nilai singular dengan urutan menurun memiliki ukuran 1.91 MB, dan D merupakan matriks yang kolomnya merepresentasikan dokumen memiliki ukuran 11.7 MB. Ukuran matriks tersebut akan mempengaruhi waktu eksekusi kueri pada saat user melakukan proses pencarian dokumen.

Perkalian dari matriks T, S, dan DT akan mengembalikan matriks A. Apabila dilakukan perkalian matriks T, S, dan DT yang telah

direduksi dengan nilai rank k, akan didapat matriks yang nilainya mendekati matriks A.

Pada Tabel 10, dapat dilihat matriks term -dokumen A yang belum didekomposisi. Tabel 11 adalah matriks term-dokumen A hasil perkalian dari matriks T, S, dan DT.

Tabel 10 Matriks A sebelum didekomposisi

Term jurnal000000-001

jurnal000000-027

pertanian 618.752 1482.426

petani 435.812 118.857

ipb 0 0

bambu 16.113 0

anggrek 0 0

Tabel 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900

Term jurnal000000-001

jurnal000000-027

pertanian 618.756 1482.430

petani 435.802 118.856

ipb -0.048 -0.006

bambu 16.123 0.006

anggrek -0.004 0.021

Dari kedua tabel, dapat dilihat bahwa setelah didekomposisi dan direduksi term

yang sebelumnya memiliki bobot 0 menjadi bernilai minus atau bertambah bobotnya. Seperti pada term bambu dan anggrek pada dokumen jurnal000000-027 sebelum matriks A didekomposisi dan direduksi, kedua term

ini memiliki bobot 0. Setelah matriks A didekomposisi dan direduksi, kedua term ini bertambah bobotnya. Hal ini membuktikan bahwa dengan dekomposisi dan reduksi, struktur latent semantic terungkapkan dan menunjukkan bahwa term bambu dan anggrek memiliki keterkaitan walaupun term bambu dan anggrek tidak terdapat pada kedua dokumen tersebut. Sedangkan pada term ipb yang sebelumnya memiliki bobot 0 di kedua dokumen, setelah matriks A didekomposisi dan direduksi struktur latent semantic

menunjukkan bahwa term ipb di kedua dokumen ini bernilai minus. Hal ini membuktikan bahwa term ipb tidak memiliki keterkaitan di dalam kedua dokumen ini. Pengolahan Kueri

Tahap selanjutnya adalah membuat program untuk melakukan indexing pada kueri. Indexing pada kueri juga terdiri atas tiga tahapan, yaitu: tokenisasi, pembuangan

(16)

8

dimasukkan, kueri harus diubah menjadi

pseudo-document sehingga dapat dibandingkan dengan dokumen lain. Untuk mendapatkan vektor kueri akan digunakan persamaan (6).

Pengukuran Kemiripan

Vektor kueri yang didapat dari tahap sebelumnya akan dibandingkan kemiripannya dengan matriks dokumen. Setelah itu, vektor kueri dapat dibandingkan dengan matriks dokumen menggunakan persamaan cosine similarity pada persamaan (7).

Pengujian Kinerja Sistem

Proses evaluasi pada dokumen pertanian menggunakan 30 kueri uji berikut dokumen-dokumen relevan yang telah ditentukan dari Laboratorium Temu-Kembali Informasi (TKI) Departemen Ilmu Komputer IPB. Daftar kueri uji beserta dokumen yang relevan dapat dilihat pada Lampiran 3. Pencarian dengan kueri uji ini dilakukan dengan tujuan mendapatkan nilai average precision dari sistem. Proses pencarian average precision

dilakukan pada nilai k = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000}. Nilai sebelas tingkat recall standar pada dokumen pertanian dapat dilihat pada Gambar 7.

Nilai average precision setiap nilai k dapat dilihat pada Tabel 12. Dari Tabel 12, nilai k

dengan nilai akurasi paling tinggi adalah k = 1000 dengan nilai average precision sebesar 0.404683 yang artinya secara rata-rata pada tiap titik recall, 40.47% hasil temu-kembali relevan dengan kueri. Nilai precision pada pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 dapat dilihat pada Lampiran 4. Nilai k adalah nilai yang penting untuk menentukan performa mesin pencari yang menggunakan LSI. Jika terlalu banyak dimensi yang disimpan, struktur latent semantic tidak dapat diperlihatkan karena terlalu banyak noise. Jika nilai k terlalu kecil, akan terlalu banyak kata atau dokumen yang diproyeksikan ke dalam dimensi sehingga akan menghancurkan struktur latent semantic. Hasil penelitian Maulizar (2011) menunjukkan bahwa nilai k yang optimum adalah k = 70 dengan average precision

sebesar 0.301. Sedangkan hasil average precision dalam penelitian ini dengan k = 70 adalah sebesar 0.321274. Pada Gambar 8 juga dapat dilihat bahwa pada nilai k = 20, 30, 40, 50, 60, 70, 80, 90, dan 100 nilai akurasi LSI dengan pembobotan global berbasis sebaran

lebih besar dibandingkan dengan LSI menggunakan pembobotan TF-IDF. Grafik perbandingan nilai average precision LSI TF-IDF dengan LSI Global dapat dilihat pada Lampiran 4.

Dari hasil tersebut, dapat disimpulkan bahwa Latent Semantic Indexing dengan pembobotan global berbasis sebaran menghasilkan nilai average precision yang lebih tinggi dibandingkan Latent Semantic Indexing hanya dengan TF-IDF tanpa memperhatikan sebaran kata.

Pada Tabel 13 dapat dilihat rata-rata, maksimum, dan minimum waktu pencarian pada setiap nilai k. Untuk k = 10, rata-rata waktu yang diperlukan untuk mencari dokumen adalah 0.557 detik, sedangkan untuk

k = 1000 rata-rata waktu yang diperlukan adalah 6.344 detik. Dari hasil tersebut dapat disimpulkan bahwa semakin besar nilai k

maka semakin lama waktu pencarian dokumen karena semakin banyak pula dimensi matriks yang dihitung.

0

(17)

Tabel 12 Hasil perhitungan average precision

pada setiap nilai k

Nilai k Average Precision

LSI TF-IDF LSI Global

Penelitian ini berhasil

mengimplementasikan metode Latent Semantic Indexing dengan pembobotan global berbasis sebaran. Hasil penelitian ini menunjukkan bahwa nilai k yang memberikan hasil akurasi paling tinggi adalah k = 1000 dengan nilai average precision 40.47%. Akurasi hasil LSI dengan pembobotan global berbasis sebaran lebih besar dibandingkan dengan LSI dengan pembobotan TF-IDF. Saran

Jika ingin menambahkan dokumen baru maka matriks T, S, dan D perlu dihitung ulang sehingga diperlukan teknik folding-in.

Folding-in adalah metode untuk memproyeksikan dokumen baru ke dalam ruang SVD sehingga matriks T, S, dan D tidak perlu dihitung ulang.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. Boston: Addison Wesley.

Deerwester S, Dumais ST, Fumas GW, Landauer TK, Harshman R. 1990. Indexing by latent semantic analysis.

Journal of the American Society of Information Science 41(6):391-407.

Geiss J. 2006. Latent semantic indexing and information retrieval: A quest with BoSSE [tesis]. Heidelberg: Universitat Heidelberg.

Herdi, H. 2010. Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Manning CD, Raghavan P, Schutze H. 2008.

An Introduction to Information Retrieval.

Cambridge: Cambridge University Press. Maulizar N. 2011. Latent semantic indexing

(18)

10

Xia T, Chai Y. 2011.An improvement to TF-IDF: term distribution based term weight

(19)
(20)

12

(21)

Lampiran 2 Daftar stopwords

acapkali apanya begitupula berkesempatan contohkan diberinya

ada apapun begitupun berkesimpulan contohnya dibiarkan

adakah arti belakang berlalu cukup dibiasakan

adakan artian belakangan berlalunya Cuma dibilang

adalah artinya belum berlama daerah dicontoh

adanya asalan belumlah berlangsung dahulu dicontohkan

adapun asalkan benar bermula dalam dicontohkannya

aduh asumsi benarkah bersama dan didapat

agak asumsinya benarnya bersamaan dapat didapati

agaknya atas berada bertepatan dapatkah didapatkan

agar atasnya berakhir beruntun dapatkan didapatnya

aja atau berakhirnya berupa dapatlah didasarkan

akalan ataukah berakibat besarnya dari digolongkan

akan ataupun berakibatkan beserta darinya digunakan

akankah awal beralasan besok daripada diharapkan

akhir bagai beralih besoknya dekat dijadikan

akhirnya bagaikan beralihnya betapa dekatnya dijadikannya

akibat bagaimana beranggapan biar demi dikarenakan

akibatkan bagaimanakah berapa biarlah demikian dikasih akibatnya bagaimanapun berapanya biasa demikianlah dikata

aku bagi berapapun biasanya dengan dikatakan

ala baginya berarti bicarakan dengannya dikatakannya

alangkah bagus berasumsi bicaranya depan dikategorikan

alasan bagusnya berbagai bila depannya dikembangkan

alasannya bahkan berbagi bilamana di diketahui

alih bahwa berbanding bilang dia diketahuinya

alihkan baik berbeda bisa dialah dilaksanakan

amat baiknya berdampak bisakah dialami dilakukan

amatlah balik berdasarkan bisanya dialihkan dimana

ambil banding berhadapan boleh diambil dimulai

anda bandingkan berharap boro diambilkan dimulailah

andai banyak berhubung buat diambilnya dimulainya

anggap banyaknya berhubungan buatnya dianggap dimungkinkan

anggapan barangkali beri bukan diantara dipaparkan

antar baru berikan bukankah diantaranya dipersilahkan

antara bawah berikanlah bukanlah diapakan disaat

antaranya bawahnya berikut bukannya dibagi disebabkan

apa beberapa berikutnya buktikan dibagikan disejumlah

apabila begini berjumlah cara dibeberapa diseluruh

apakah beginilah berkat cerita diberbagai disertai

apalagi begitu berkenaan ceritanya diberi disertakan

(22)

14

Lanjutan

disitulah itupun kemana manalagi mengaku mulanya

ditanggapi iya kemanakah manapun mengalami muncul

ditanya jadi kembali masa mengalihkan mungkin

ditanyakan jadikan kemudian masih mengambil mungkinkah

dituturkan jadilah kemungkinan masihkah mengambilnya namun

diucapkan jadinya kemungkinannya masing menganggap nanti

dkk jangan kenapa masuk menganggapnya negara

dll jarang kenapakah masyarakat mengapa nilai

dsb jauh kepada mau mengatakan nyaris

dua jelaskan kepadanya maupun mengembangkan nyiakan

dulu jika kepala melainkan mengenai oleh

dulunya jikalau ketika melakukan menggunakan orang

empat juga ketimbang melalui mengungkapkan pada

enggak jumlah khususnya melihat meningkat padahal

engkau jumlahnya kini memang meningkatkan padanannya

esok justru kita memaparkan menjadi paling

gimana juta kondisi membagi menjadikan panjangnya

habis kabupaten kurang membagikan menjadikannya papar

habisan kadang lagi memberi menjelang paparan

habiskan kalau lagian memberikan menjelaskan paparkan

habisnya kalaupun lagipula memberinya menuju paparnya

hal kali lain membiarkan menunjukkan para

hampir kalian lainnya membolehkan menurut pasti

hanya kami laksana membuat menurutnya pastilah

hanyalah kamu lakukan memeperoleh menuturkan pastinya

hari kan lalu memiliki menyatakan pelak

harus kapan lalui meminta menyebabkan pelbagai

haruskah karena lama memperbolehkannya menyebutkan pemaparan

haruslah karenanya lanjut mempersilahkan menyia pembagian

harusnya kata lantaran mempunyai mereka pembagiannnya

hendak katakan lantas memungkinkan merupakan pendapat

hendaklah katakanlah lebih menanggapi meski pengalihan

hendaknya katanya lepas menanggapinya meskipun pengambil

hingga kau lewat menanyakan mesti pengambilan

how kayak lokasi mencapai mestinya pengandaian

ialah kayaknya maka mencontohkan misal per

ingin ke makin mendapat misalkan peralihan

ini kebanyakan mampu mendapati misalnya percuma

inilah kebetulan mampukah mendapatkan mudah peri

inipun kebiasaan mampunya mendapatkannya mula perihal

itu kecil mana menerus mulai perlahan

(23)

Lanjutan

pernah sebenarnya semakin sesungguhnya tentunya umum

persen seberapa semampunya setelah tepatnya umumnya

pertamanya seberat semenjak setelahnya terbagi ungkap

pinggir sebesar sementara seterusnya terbalik ungkapan

pula sebetulnya semestinya setiap terbiasa ungkapkan

pulalah sebuah semisal setidak terbilang ungkapnya

pun secara semoga setidaknya terdapat untuk

rata sedalam semua seusai terdapat usah

relevankah sedang semuanya sewaktu tergolong usahlah

rendah sedangkan semula seyogyanya terhadap usai

saat sedapat seolah sia terjadi usianya

saatnya sedemikian seorang sialnya terjadilah waktu

saatnyalah sedikit seorangpun siap terjadinya waktulah

saja sedikitnya sepadan siapa terkadang waktunya

salah segera sepanjang siapakah terkait walau

sama sehabis sepasang siapapun terkecuali walaupun

sambil seharusnya sepele silahkan terlalu warga

sambutannya seharusnyalah sependapat singkatnya terlebih yaitu

sampai sehingga seperti sini termasuk yakni

sana sehubungan sepertinya sinilah ternyata yang

sang sejak seputar situ tersebut

sangat sejauhmana seraya sosok tertentu

sangatlah sejumlah serba sosoknya terus

satunya sekalian serentak suatu tetap

saya sekaligus sering sudah tetapi

sayangnya sekalipun seringkali sulit tiap

seakan sekarang seringkalinya sungguh tiba seandainya sekata seringlah sungguhpun tidak

seantero sekedar seringnya supaya tidaklah

sebab sekeliling serta tak tidaknya

sebabkan seketika sertanya tambahnya tiga

sebabnya sekian sesaat tanggapan tinggi

sebagai sekitar sesama tanggapannya tutur

sebagaimana selagi sesamamu tanggapnya tuturnya

sebagainya selain sesedikit tanpa ucap

sebagian selalu seseorang tapi ucapan

sebaik selama sesuai tatkala ucapannya

sebaiknya selanjutnya sesuatu telah ucapkan

sebaliknya selesai sesuatunya tempat ucapnya

sebanyak selesaikah sesudah tengah ujar

sebelum seluruh sesudahnya tentang ujarnya

(24)

16

Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian

Kueri Gugus Jawaban

Bencana kekeringan

gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903, indosiar170603, indosiar220503, indosiar260803-003, indosiar310504, kompas210504, kompas250803, mediaindonesia050604-001, mediaindonesia110703, mediaindonesia160603, mediaindonesia240503, mediaindonesia260803, mediaindonesia270803, mediaindonesia310503, pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-001, republika090804-01, republika120804-01, republika120804-04, republika130804-02, republika200603, republika210704-004, republika250604, republika270503, republika270704-002, situshijau181103-001, suarakarya000000-002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903, suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002. Dukungan

pemerintah pada pertanian

indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503, kompas071100, kompas150201, kompas200802, kompas300402, mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804, republika100903, republika180303, republika210902, republika230903, republika251102-001, republika251102-002, republika300604-001, situshijau150504-002, situshijau190303-002, situshijau200103-002, situshijau201003-001, situshijau281003-002, suarakarya000000-028, suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007. Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,

indosiar240204, mediaindonesia090204, mediaindonesia140704, mediaindonesia200204, republika090604, republika120704-005, republika190504-001, republika190604-005, republika210504-001, republika290704-002, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.

Gabah kering giling

indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604, republika040303, republika060804-003, republika100704-003, republika100804, republika120804-01, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika290604-003, republika290604-007, situshijau281003-004, suarakarya000000-007, suaramerdeka090104.

Gagal panen/puso

(25)

Lanjutan

Kueri Gugus Jawaban

Impor beras indonesia

gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304, indosiar300703-002, kompas 170402, kompas 170402, kompas050602, kompas101002, kompas101004, kompas160704, kompas180504, kompas270401, kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803, mediaindonesia100203, mediaindonesia131003, mediaindonesia160603, mediaindonesia250304, republika020604-001, republika060804-001, republika090902, republika100703, republika100704-003, republika180504-002, republika210704-001, republika230704-001, republika231202-001, republika231202-002, republika240604-001, republika300704-002, situshijau281003-004, suarakarya000000-007, suarakarya000000-023, suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001, suaramerdeka270601, suarapembaruan100903, suarapembaruan110903

Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002, pikiranrakyat300704-002, republika010704-003, republika020804, republika090902, republika100902, republika220604-002, republika280704-002, republika301002, situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007, suarakarya000000-028, suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

Institut

pertanian bogor

gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404, kompas100399, kompas111099, kompas121099, kompas150304-001, kompas200704, kompas200799, kompas230704, mediaindonesia080704, mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002, republika010704-001, republika061003, republika070604-002, republika100604-002, republika100704-002, republika110604-002, republika140704-002, republika160604-002, republika170604-001, republika180303, republika180604, republika190604-001, republika190604-002, republika211002, republika220604-001, republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003, suarakarya000000-005, suarakarya000000-010, suarapembaruan150903, suarapembaruan260703-001

Kelangkaan pupuk

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104, indosiar260504, indosiar290604, kompas210504, kompas300502-001, pikiranrakyat010504-003, republika050604, republika160604-001, suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006, suarakarya000000-026, suarakarya000000-029, suarakarya000000-030, suarakarya000000-032, suarakarya000000-038, suaramerdeka161101

Kelompok masyarakat tani/kelompok tani

bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502, kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-002, kompas270502-kompas270203-002, kompas300502-001, replubika110804, republika030304, republika110604-004, republika131203-001, republika140703, republika151202, republika180303, republika270704-001, republika280703, republika300704-001, situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka260902, suarapembaruan090202, suarapembaruan130103

Laboratorium pertanian

(26)

18

Lanjutan

Kueri Gugus Jawaban

Musim panen

gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-002, indosiar060204, indosiar071103, indosiar110304, indosiar240604, indosiar300304, kompas030502-001, kompas041103, kompas220901-001, kompas240103, kompas300502-001, mediaindonesia131203-001, mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202, republika060804-001, republika060804-003, republika100704-003, republika151202, republika171102, republika240604-005, republika290604-007, republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-004, situshijau250403-004, situshijau270503-002, situshijau280404-002, suarakarya000000-007, suarakarya000000-023, suarakarya000000-028, suaramerdeka120104, suaramerdeka290901, suarapembaruan031002

Pembangu nan untuk sektor pertanian

gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203, kompas060503, kompas100399, kompas101004, kompas110201, kompas111099, kompas121099, kompas150304-002, kompas190802, kompas191099, kompas200799, kompas210502, kompas220901-002, kompas230603, kompas240803, kompas260203, kompas270204, kompas280602, kompas290404, mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903, mediaindonesia160903, pembaruan110903, poskota110703, republika060903, republika070104, republika080703, republika100804, republika100903, republika101203, republika110604-002, republika131203-001, republika150604-003, republika150903, republika190803, republika251002-republika150604-003, republika290704-003, republika300604-001, situshijau091203-002, situshijau280203, suarapembaruan140303

(27)

Lanjutan

Kueri Gugus Jawaban

Penerapan

teknologi pertanian

indosiar250204-001, jurnal000000-001, jurnal000000-011, jurnal000000-013, jurnal000000-017, jurnal000000-024, kompas121099, kompas251003, kompas290402, mediaindonesia170403, republika050903, republika131203-001, republika140604-001, republika180504-001, republika201102, republika220604-003, republika230704-08, republika260803, situshijau030603-001, situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-001, situshijau140903-003, situshijau180603-003, situshijau180803-002, situshijau181103-002, situshijau270303-004, situshijau270503-002, situshijau270703-005, situshijau281003-003, situshijau290503-003, suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602, suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007, wartapenelitian000000-009

Penyakit hewan ternak/penyakit ternak

gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204, republika150103, republika160704-003, republika260704-004, republika300604-002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suaramerdeka260302-01

Penyuluhan pertanian

bitraindonesia000000-001, gatra190902-02, indosiar310504, jurnal000000-005, jurnal000000-014, kompas050802, kompas130699, kompas170104, kompas200503-002, mediaindonesia160603, poskota110703, republika030903-002, republika050804-001, republika061003, republika171003, republika180303, republika200203, republika210504-001, republika220604-003, republika260604-003, republika300604-003, situshijau201003-002, situshijau230103-001, situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002, wartapenelitian000000-007

Perdagangan hasil pertanian

gatra011102, indosiar070204, indosiar201103, 002, jurnal000000-027, kompas031003, kompas041102, kompas101002, kompas140802, kompas160304, kompas270401, kompas270502-001, kompas271103, kompas311203, mediaindonesia030104, mediaindonesia101003, mediaindonesia150903, mediaindonesia170303, republika020604-001, republika041102, republika281202, situshijau130303-001, situshijau191103, situshijau240203-002, suarakarya000000-013, suaramerdeka120104, suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002, wartapenelitian000000-006

Pertanian organik/sistem pertanian organik

indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002, kompas050802, kompas081203, kompas181099, kompas221001, kompas241203, kompas260304, kompas270502-002, kompas300502-001, republika131203-001, republika150303, republika180303, situshijau070503, situshijau091203-001, situshijau091203-004, situshijau290503-003, suarakarya000000-001-02, suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-01, suarapembaruan160702

(28)

20

Lanjutan

Kueri Gugus Jawaban

Peternak unggas/peternak ayam/peternak burung

gatra270104-001, gatra270104-002, gatra300104, indosiar020304, indosiar161203, indosiar240204, jurnal000000-009, kompas051103, kompas120101, mediaindonesia090204, republika061003, republika100604-002, republika190504-001, republika210504-001, situshijau280404-004, suarakarya000000-001, suarakarya000000-008, suarakarya000000-014, suarakarya000000-017, suarapembaruan220802

Produk usaha peternakan

rakyat/produk peternakan

jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304, mediaindonesia090204, republika100604-002, republika150303, republika170704-007, republika210504-001, republika220704-003, republika260604-001, republika290704-002, republika300604-002, situshijau190303-001, suarakarya000000-001, suarakarya000000-008, suarakarya000000-013, suarakarya000000-014, suarapembaruan151102

Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-001, republika050804-007, republika190104, republika201102, republika270604, situshijau091203-004, situshijau140103-001, suarakarya000000-001-02, suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002, suarapembaruan090202, suarapembaruan130103, suarapembaruan160702, suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008 Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001,

(29)

Lanjutan

Kueri Gugus Jawaban

Swasembada pangan

indosiar021203-002, kompas060503, kompas100901, kompas110201, kompas150304-002, kompas170104, kompas230603, kompas230899,

kompas270203-001, kompas270401, kompas270502-002,

mediaindonesia160603, republika030304, republika060503, republika061003, republika080703, republika100704-005, 003, republika220604-003, republika230902-001, republika230902-002, republika231202-001, republika231202-002, suarakarya000000-001-02, suarakarya000000-002-02, suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001, suarapembaruan110903, suarapembaruan221102

Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-001, kompas270502-002, mediaindonesia160603, mediaindonesia310503, republika090804-01, republika210704-004, republika230704-005, republika240604-005, republika290604-007, suarakarya000000-001-02, suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002, wartapenelitian000000-004

Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504, indosiar010704, indosiar260803-002, republika020604-003, republika030804-002, republika270604, republika290604-001, situshijau030203-001, situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005, situshijau100603-002, situshijau101103-003, situshijau120303-004, situshijau130103-002, situshijau130503-001, situshijau140103-003, situshijau140903-004, situshijau180203-001, situshijau180203-002, situshijau201003-002, situshijau270303-001, situshijau270303-003, situshijau270503-002, situshijau270703-002, situshijau290503-001

Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-002, indosiar130104, indosiar130504, indosiar160304, indosiar180304, indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002, kompas180701, kompas240302, kompas260203, kompas311203, mediaindonesia030104, mediaindonesia160603, mediaindonesia170303, mediaindonesia220303, republika030304, republika050903, republika080604-004, republika150903, republika200603, republika220604-003, republika230704-006, republika241203, republika260604-001, republika271003, situshijau070103-003, situshijau140903-001, situshijau181103-001, situshijau290403-002, suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013, suarakarya000000-031, suaramerdeka160703, suaramerdeka250302, suarapembaruan151102, suarapembaruan260703-002

Upaya peningkatan pendapatan

petani/peningkatan pendapatan petani

(30)

22

Lampiran 4 Hasil perhitungan precision pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000

Kueri

Nilai precision pada sebelas tingkat recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.000 0.885 0.885 0.885 0.885 0.885 0.813 0.811 0.744 0.632 0.238

dukungan pemerintah pada pertanian

0.250 0.250 0.162 0.070 0.070 0.070 0.055 0.055 0.055 0.055 0.045

flu burung 1.000 1.000 1.000 1.000 0.938 0.938 0.938 0.938 0.900 0.840 0.840

gabah kering giling 1.000 1.000 0.667 0.571 0.455 0.406 0.375 0.362 0.314 0.314 0.264

gagal panen 0.700 0.700 0.611 0.517 0.417 0.397 0.267 0.239 0.207 0.107 0.052

impor beras indonesia 1.000 1.000 1.000 0.947 0.947 0.759 0.684 0.564 0.404 0.285 0.160

industri gula 1.000 1.000 1.000 1.000 0.917 0.917 0.632 0.560 0.485 0.122 0.084

institut pertanian bogor 1.000 0.857 0.600 0.317 0.227 0.133 0.097 0.095 0.095 0.088 0.079

kelangkaan pupuk 1.000 1.000 1.000 1.000 0.818 0.800 0.789 0.789 0.762 0.643 0.345

kelompok masyarakat tani 0.667 0.667 0.667 0.611 0.394 0.254 0.250 0.222 0.222 0.167 0.167

laboratorium pertanian 0.333 0.150 0.125 0.037 0.037 0.037 0.037 0.037 0.033 0.033 0.024

musim panen 0.750 0.750 0.667 0.636 0.439 0.383 0.352 0.312 0.302 0.254 0.175

pembangunan untuk sektor pertanian

1.000 0.857 0.611 0.538 0.442 0.439 0.431 0.363 0.259 0.190 0.082

penerapan bioteknologi di indonesia

1.000 0.333 0.130 0.083 0.082 0.082 0.076 0.067 0.048 0.046 0.043

penerapan teknologi pertanian

(31)

Lanjutan

Kueri Nilai precision pada sebelas tingkat recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

penyakit hewan ternak 1.000 0.500 0.500 0.444 0.333 0.318 0.296 0.222 0.200 0.167 0.144

penyuluhan pertanian 1.000 0.094 0.053 0.048 0.048 0.048 0.048 0.046 0.046 0.043 0.029

perdagangan hasil pertanian 1.000 0.263 0.171 0.165 0.165 0.159 0.139 0.106 0.087 0.050 0.047

sistem pertanian organik 1.000 0.714 0.714 0.714 0.714 0.667 0.577 0.327 0.230 0.168 0.035

petani tebu 1.000 0.300 0.217 0.113 0.073 0.060 0.060 0.058 0.058 0.058 0.052

peternak ayam 1.000 1.000 1.000 1.000 1.000 0.923 0.867 0.842 0.842 0.704 0.526

produk usaha peternakan rakyat

1.000 1.000 0.714 0.600 0.117 0.114 0.089 0.089 0.068 0.055 0.054

pupuk organik 1.000 0.667 0.636 0.636 0.293 0.293 0.236 0.205 0.200 0.194 0.165

riset pertanian 0.167 0.098 0.098 0.098 0.098 0.098 0.090 0.083 0.079 0.072 0.069

swasembada pangan 0.313 0.313 0.313 0.313 0.313 0.281 0.244 0.220 0.208 0.208 0.090

tadah hujan 0.500 0.500 0.344 0.344 0.344 0.344 0.344 0.313 0.313 0.227 0.168

tanaman obat 1.000 1.000 0.857 0.833 0.600 0.234 0.225 0.139 0.117 0.117 0.112

tanaman pangan 0.500 0.243 0.243 0.210 0.160 0.160 0.152 0.142 0.139 0.139 0.115

upaya peningkatan pendapatan petani

0.161 0.161 0.161 0.151 0.099 0.099 0.099 0.084 0.084 0.083 0.058

harga komoditas pertanian 1.000 1.000 0.813 0.514 0.500 0.413 0.372 0.288 0.253 0.185 0.096

Rata-rata interpolasi maksimum

0.811 0.620 0.537 0.485 0.402 0.361 0.326 0.289 0.262 0.210 0.147

(32)

24

Lampiran 5 Grafik perbandingan average precision LSI TF-IDF dengan LSI Global

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Pr

e

c

ison

Nilai K

(33)

Penguji:

Gambar

Gambar 1  Metode penelitian.
Gambar 2  Matriks term-dokumen.
Tabel 1  Confusion matrix
Gambar 6  Format dokumen setelah pembuangan
+5

Referensi

Dokumen terkait

Cara bagi hasil yang dilakukan disana dengan sistem kebiasaan di masyarakat, yaitu pemilik tanah menyediakan tanah dan menyediakan biaya yang diperlukan penggarap, dan penggarap

Berdasrakan arahan program prioritas untuk RPI2JM bidang Cipta Karya, dapat diketahui bahwa program tersebar dan keterpaduan ada yang terlihat pada lingkup kecamatan dan

Kesimpulan yang dapat diperoleh adalah kemampuan responden yaitu mahasiswa asing (mahasiswa kelompok propinsi Thailand Selatan) dalam memahami percakapan (baik

Peserta didik dengan kemampuan penalaran matematis kategori rendah apabila peserta didik dapat melakukan manipulasi matematika dengan benar namun kurang lengkap,

dapat dilihat kerutan pada kaki yang diolesi krim nanopartikel murni lebih banyak dibandingkan kaki yang diolesi dengan krim yang ditambah dengan bahan aktif

Parameter yang diamati meliputi sifat fisikokimia yaitu kadar air, tekstur (daya patah dan kerenyahan), warna, dan aktivitas antioksidan serta sifat organoleptik

A reasonable plan of action would be to focus attention on the basic components (Land Use Change, Forest Inventory, Tim- ber Market) initially. Once these are functioning, the

sesuatu yang tidak ada pengetahuanmu tentang itu, maka janganlah kamu mengikuti keduanya, dan pergaulilah keduanya di dunia dengan baik, dan ikutilah jalan orang