PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR
PADA SISTEM TEMU KEMBALI INFORMASI
ARI ALKAUTSAR
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR
PADA SISTEM TEMU KEMBALI INFORMASI
ARI ALKAUTSAR
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
ARI ALKAUTSAR Comparison of Efficiency Vector Space Model on Information Retrieval System. Supervised by SONY HARTONO WIJAYA.
Information retrieval system is a system to represent, store, organize, and process informations. Discovered documents were ranked by vector space model . Normalization of the vector space models similarity consist of cosine, Jaccard, and Dice. This research aims to compare efficiency of three vector space models based on recall and average precision (AVP), computation time, and algorithm complexcity. A thousand document were used in this research. The result showed that each coefficient of vector space model yield equal value for recall and AVP. The measure of similarity in cosine coefficient vector space model better than Jaccard coefficient and Dice coefficient, in terms of algorithms complexity and 3.1% faster than Jaccard coefficient and 9.4% than Dice coefficient, in terms of computation time.
Judul Skripsi : Perbandingan Efisiensi Model Ruang Vektor pada Sistem Temu Kembali Informasi
Nama : Ari Alkautsar NRP : G64096011
Disetujui Pembimbing
Sony Hartono Wijaya, S.Kom, M.Kom
NIP 198108092008121002
Diketahui
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom NIP 196607021993021001
PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa karena berkat rahmat dan karunia-Nya penulis dapat menyelesaikan skripsi ini. Skripsi ini merupakan hasil penelitian yang dilakukan dari bulan September sampai bulan Februari dengan bidang kajian Perbandingan Efisiensi Model Ruang Vektor pada Sistem Temu Kembali Informasi.
Pembuatan skripsi ini tak lepas dari dukungan dan bantuan dari berbagai pihak. Oleh karena itu, penulis menyampaikan rasa terima kasih kepada:
1 Tuhan Yang Maha Esa atas rahmat dan karunia-Nya.
2 Bapa, Mamah, Ira, Teteh, A Iwan, dan Rafi yang selalu memberikan dukungan, motivasi, kasih sayang, serta doanya.
3 Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
4 Bapak Ir. Julio Adisantoso, M.Kom dan Bapak Ahmad Ridha, S.Kom, MS selaku dosen penguji.
5 Teman-teman satu bimbingan, Selamat Subu dan Debi, terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini
6 Teman-teman seperjuangan Ekstensi Departemen Ilmu Komputer angkatan 4. 7 Teman-teman seperjuangan Manajemen Informatika angkatan 43.
8 Teman-teman kosan White House beserta Dell Inspiron-ku.
9 Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.
Semoga hasil penelitian ini dapat bermanfaat dan dapat terus dikembangkan di masa mendatang.
Bogor, April 2012
RIWAYAT HIDUP
Penulis yang dilahirkan di Serang pada tanggal 10 November 1988 merupakan anak kedua dari tiga bersaudara dengan ayah bernama Dedi Cunyadi Atmadipraja dan ibu bernama Mei Heryati. Pada tahun 2006 penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 1 Serang dan diterima di Diploma Tiga Program Keahlian Manajemen Informatika, Institut Pertanian Bogor (IPB) setelah lulus pada tahun 2009, kemudian melanjutkan kuliah untuk gelar sarjana pada tahun 2009 di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.
Pada tahun 2009 penulis berkerja di perusahaan Property Manajemen Mall (PT. Bogor Anggana Cendekia) sebagai IT Support dan pada tahun 2011 penulis bergabung dengan Team Rainvolution untuk mengerjakan project system.
DAFTAR ISI Halaman DAFTAR TABEL ... vi DAFTAR GAMBAR ... vi DAFTAR LAMPIRAN ... vi PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat ... 1 TINJAUAN PUSTAKA Sistem Temu Kembali Informasi ... 1
Pembobotan tf-idf ... 1
Model Ruang Vektor... 2
Kompleksitas Algoritme ... 2
Evaluasi Sistem Temu Kembali Informasi ... 2
METODE PENELITIAN Koleksi Dokumen Pengujian ... 3
Praproses ... 3
Pemrosesan Dokumen ... 3
Evaluasi ... 4
Lingkungan Pengembangan ... 4
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian ... 4
Praproses ... 4
Pemrosesan Dokumen ... 4
Waktu Komputasi ... 5
Kompleksitas Algoritme ... 5
Evaluasi ... 7
KESIMPULAN DAN SARAN Kesimpulan ... 8
Saran ... 8
DAFTAR PUSTAKA ... 8
DAFTAR TABEL
Halaman
1 Ilustrasi Recall dan Precision ... 3
2 Kompleksitas algoritme koefisien cosine. ... 5
3 Kompleksitas algoritme koefisien Jaccard. ... 6
4 Kompleksitas algoritme koefisien Dice ... 6
5 Nilai rata-rata waktu komputasi untuk masing-masing koefisien. ... 7
6 Nilai perbandingan kompleksitas Algoritme ... 8
DAFTAR GAMBAR Halaman 1 Diagram Alur Metode Penelitian ... 3
2 Grafik recall precision... 7
DAFTAR LAMPIRAN Halaman 1 Contoh Koleksi Dokumen ...11
2 Daftar Kueri dan Dokumen yang Relevan ...12
3 Tampilan Sistem ...19
4 Tabel Recall dan Preccision untuk Semua Ukuran Kesamaan...20
5 Grafik Waktu Komputasi ...21
PENDAHULUAN
Latar Belakang
Semakin populernya penggunaan internet memengaruhi jumlah sumber daya informasi yang semakin besar keragamannya. Informasi yang jumlahnya sedikit dapat dicari secara manual dengan mudah, namun untuk informasi yang jumlahnya besar dibutuhkan suatu sistem yang dapat mencari dengan cepat informasi tersebut. Masalah lain yang dihadapi adalah sistem tidak mampu memeringkat dokumen relevan yang diinginkan pengguna berdasarkan urutan awal hasil pencarian. Untuk memecahkan masalah tersebut, salah satu pendekatan yang digunakan adalah sistem temu kembali informasi. Sistem temu kembali informasi digunakan untuk menemukembalikan informasi yang dianggap relevan terhadap kebutuhan pengguna. Temu kembali informasi yang baik menghasilkan dokumen relevan pada urutan awal hasil pencarian.
Banyak model yang dapat digunakan untuk memeringkat dokumen hasil temu kembali informasi, salah satunya adalah model ruang vektor. Idenya adalah memeringkat dokumen hasil temu kembali informasi berdasarkan tingkat relevansi suatu dokumen. Dalam ukuran kesamaan model ruang vektor, terdapat tiga buah koefisien, yaitu koefisien cosine, koefisien Jaccard, dan koefisien Dice.
Penelitian model ruang vektor umumnya menggunakan koefisien cosine, seperti Paiki (2006), Rusidi (2008), dan Rahayuni (2011) untuk memeringkat dokumen hasil pencarian. Intan & Defeng (2006) menggabungkan metode tf-idf dan koefisien Jaccard dalam memperkenalkan suatu algoritme search
engine berdasarkan konsep High Accuracy
Retrieval from Documents (HARD).
Nurhanifah (2001) menggunakan metode trigram dengan ukuran kesamaan Dice dalam bentuk hypertext. Penelitian-penelitian tersebut hanya menggunakan satu koefisien model dalam penelitiannya dan tidak ada yang membandingkan kinerja dari model model ruang vektornya.
Tujuan
Penelitian ini bertujuan membandingkan efisiensi ukuran koefisien kesamaan model ruang vektor berdasarkan recall dan average
precision, waktu komputasi, dan
kompleksitas algoritme. Ruang Lingkup
Ruang lingkup penelitian ini ialah: 1 Model sistem temu kembali informasi
yang digunakan adalah model ruang vektor.
2 Terbatas pada perbandingan koefisien model ruang vektor yang dilihat berdasarkan recall dan average precision, waktu komputasi, dan kompleksitas algoritme.
Manfaat
Kinerja mesin pencari dapat dikembangkan berdasarkan berbagai macam model. Dari penelitian ini, diharapkan dapat diketahui hasil perbandingan pemeringkatan model ruang vektor dan dapat menjadi pembanding kinerja model lain.
TINJAUAN PUSTAKA
Sistem Temu Kembali Informasi
Temu kembali informasi mempelajari algoritme dan model untuk memperoleh informasi dari koleksi dokumen. Sistem temu kembali informasi merupakan sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).
Pembobotan tf-idf
Metode tf-idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Menurut Robertson (2005) dalam Intan & Defeng (2006), metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan inverse
dokumen frekuensi yang mengandung kata tersebut.
Persamaan metode tf-idf secara umum sebagai berikut: Wij = tfij × (log( 𝑁 𝑛)) dengan:
Wij : bobot kata/term tj terhadap
dokumen di
tfij : jumlah kemunculan kata/term tj
dalam di
N : jumlah semua dokumen yang ada dalam pangkalan data
n : jumlah dokumen yang mengandung kata/term tj
(minimal ada satu kata yaitu term
tj)
Model Ruang Vektor
Pengukuran kesamaan (similarity
measure) model ruang vektor digunakan
untuk memeringkat dokumen hasil temu kembali informasi. Salton (1989) dalam Adisantoso (1996) melakukan normalisasi ukuran koefisien kesamaan ini menjadi tiga, yaitu:
1 Koefisien cosine merupakan metode ukuran kesamaan yang paling popular, yaitu dengan menghitung sudut antara vektor dokumen dengan vektor kueri. Persamaannya sebagai berikut:
similarity d ,q j = |d ∙q j | d x q j dengan: dj: vektor dokumen q : vektor kueri
2 Koefisien Jaccard adalah salah satu metode yang dipakai untuk menghitung
similarity antara dua obyek. Ditemukan
oleh Paul Jaccard yang merupakan metode ukuran kesamaan yang digunakan untuk membandingkan kesamaan dan keragaman set sampel. Persamaannya sebagai berikut: similarity d ,q j = |d ∙q j | d x q j -|d ∙q j | dengan: dj: vektor dokumen q : vektor kueri
3 Koefisien Dice ditemukan oleh Lee Raymond Dice yang merupakan metode ukuran kesamaan yaang berhubungan dengan koefisien Jaccard. Persamaannya sebagai berikut: similarity d ,q j = 2|d ∙q j | d x q j dengan: dj: vektor dokumen q : vektor kueri Kompleksitas Algoritme
Untuk menyelesaikan suatu masalah pemrograman, terdapat berbagai algoritme yang dapat digunakan. Dalam algoritme, harus ada parameter yang bisa dibandingkan agar dapat diselesaikan secara efektif.
Dalam aplikasinya, setiap algoritme memiliki dua buah ciri khas yang dapat digunakan sebagai parameter pembanding, yaitu jumlah proses yang dilakukan dan jumlah memori yang digunakan untuk melakukan proses. Jumlah proses ini dikenal sebagai kompleksitas waktu yang disimbolkan dengan T(n), sedangkan jumlah memori ini dikenal sebagai kompleksitas ruang yang disimbolkan dengan S(n).
Kompleksitas waktu diukur berdasarkan jumlah proses khas suatu algoritme, bukan berdasarkan run-time secara nyata ketika aplikasi dilakukan. Hal ini disebabkan oleh arsitektur komputer dan kompilator yang berbeda-beda sehingga suatu algoritme yang sama akan menghasilkan waktu eksekusi yang berbeda, pada komputer dan penyusun yang berbeda (Rheinadi 2009).
Evaluasi Sistem Temu Kembali Informasi Terdapat banyak jenis ukuran yang dapat digunakan untuk mengevaluasi kinerja suatu sistem temu kembali informasi. Pengukuran yang paling umum menggunakan recall dan
precision.
Recall adalah rasio jumlah dokumen
relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan, sedangkan precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukembalikan (Manning et al. 2008). Ilustrasi recall dan precision dapat dilihat di Tabel 1.
Tabel 1 Ilustrasi recall dan precision Relevan Non relevan
Retrieved tp fp Non retrieved fn tn Recall= |tp| (|tp|+|fn|) Precision= |tp| (|tp|+|fp|)
Pengukuran kinerja pemeringkatan dapat dilakukan dengan interpolasi average precision. Interpolasi average precision
adalah suatu ukuran evaluasi kinerja temukembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Standar yang digunakan adalah standar tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Average
precision diformulasikan sebagai berikut:
𝑃 𝑟 = 𝑃𝑖(𝑟) 𝑁𝑞 𝑁𝑞
𝑖=1
𝑃 𝑟 adalah average precision pada level
recall r, Nq adalah jumlah kueri yang
digunakan, dan Pi(r) adalah precision pada
level recall r untuk kueri ke-i (Baeza-Yates & Ribeiro-Neto 1999).
METODE PENELITIAN
Tahapan yang akan dilakukan pada penelitian secara umum terdiri atas tiga tahap, yaitu:
1 praproses,
2 pemrosesan dokumen, dan 3 evaluasi.
Koleksi Dokumen Pengujian
Data didapat dari 1000 dokumen pertanian yang ada di pangkalan data Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer, Institut Pertanian Bogor hasil penelitian Adisantoso & Ridha (2004).
Praproses
Pada praproses akan dilakukan tiga tahap, yaitu:
1 Proses tokenisasi (tokenizing) yang membagi teks input menjadi unit-unit kecil yang disebut token, yang dapat berupa suatu kata, suatu angka, atau suatu tanda baca.
2 Proses pembuangan kata yang tidak perlu digunakan (stopwords) seperti “dan” atau “yang”.
3 Proses indexing menggunakan pembobotan tf-idf.
Gambaran sistem dalam penelitian ini dapat dilihat pada Gambar 1.
Gambar 1 Diagram alur metode penelitian. Pemrosesan Dokumen
Pengukuran kesamaan yang dibandingkan menggunakan metode dari model ruang vektor yaitu koefisien cosine, Jaccard, dan
Dice.
Hasil temu kembali dari masing-masing ukuran koefisien kesamaan akan dibandingkan berdasarkan 3 hal yaitu recall dan average precision, waktu komputasi dan kompleksitas algoritme. Pemrosesan Dokumen Evaluasi Hasil Ukuran kesamaan koefisien Jaccard Ukuran kesamaan koefisien Dice Ukuran kesamaan koefisien cosine Dokumen Praproses Praproses Kueri
Evaluasi
Pengukuran yang digunakan untuk mengevaluasi kinerja suatu sistem temu kembali informasi dalam penelitian ini adalah
recall dan precision. Hasil perhitungan recall
dan precision untuk masing-masing
pembobotan akan digambarkan dalam bentuk grafik, kemudian dilakukan perhitungan interpolasi maksimum untuk mendapatkan nilai average precision yang akan digambarkan melalui tabel. Dihitung juga nilai kompleksitas algoritme dan waktu komputasi, kemudian dibandingkan untuk masing-masing koefisien.
Lingkungan Pengembangan
Penelitian ini dilakukan dengan menggunakan bantuan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut:
Perangkat lunak: Microsoft Windows 7 Ultimate, xampp sebagai web server. Perangkat keras: AMD E-350 Processor
1.6 GHz, 2 GB RAM, Hard disk 300 GB. HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Koleksi dokumen yang digunakan untuk menguji sistem berasal dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. Koleksi terdiri atas 1000 dokumen dengan format teks (.txt) dengan struktur tag XML pada masing-masing dokumen. Contoh dokumen uji dapat dilihat di Lampiran 1. Tag yang digunakan dalam dokumen, yaitu :
<doc></doc> mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen lebih jelas.
<docno></docno> mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal, dan urutan berita pada tanggal yang sama.
<title></title> mewakili judul dokumen.
<author></author> mewakili penulis dokumen.
<text></text> mewakili isi dokumen. Jumlah kueri uji yang akan digunakan dalam penelitian ini adalah 30 kueri uji dokumen pertanian yang berasal dari
Laboratorium Temu Kembali Informasi. Daftar kueri uji yang digunakan dalam penelitian ini dapat dilihat pada Lampiran 2. Praproses
Praproses dilakukan dengan tahapan tokenisasi, pembuangan kata yang tidak perlu, dan pembobotan. Tahap tokenisasi dilakukan dengan pembacaan karakter per karakter. Tujuannya untuk membedakan karakter-karakter yang bersifat separator.
Separator yang dihilangkan, yaitu: karakter
pemisah indeks istilah (whitespace), karakter angka, titik, koma, dan karakter lainnya yang dianggap kurang representasif dalam mencirikan suatu dokumen.
Tahap pembuangan stopword dilakukan setelah hasil tokenisasi dokumen didapatkan. Hasil tokenisasi dibandingkan dengan
stopword. Jika token berada di dalam stopword, token tersebut harus dihilangkan.
Pembuangan token juga dilakukan untuk token yang terdiri atas dua huruf karena token tersebut kurang representatif dalam mencirikan suatu dokumen.
Pembobotan dimulai dengan mendapatkan frekuensi tiap token di dalam setiap dokumen (tf), setelah itu dihitung jumlah dokumen yang mengandung token tertentu (df). Hasil dari df akan digunakan untuk mendapatkan nilai idf (Inverse
document frequency) dari setiap token. Hasil idf ini disimpan dalam file “Idf.txt”.
Pembobotan tf-idf didapatkan dari hasil perkalian antara tf dan idf. Hasil perhitungan
tf-idf juga disimpan ke dalam file “tf-idf.txt”
untuk mempermudah proses perhitungan selanjutnya. Hasil pemrosesan dokumen digunakan untuk menghitung kesamaan kueri dengan dokumen menggunakan tiga koefisien model ruang vektor.
Pemrosesan Dokumen
Ukuran kesamaan yang digunakan untuk Menghitung bobot antara dokumen dan kueri yang pertama adalah koefisien cosine. Hasil dari koefisien cosine akan diurutkan berdasarkan dokumen yang memunyai kesamaan terbesar sampai terkecil. Di bawah ini adalah 10 hasil teratas dari dokumen koefisien cosine dengan kueri “bencana kekeringan”.
5
Ukuran kesamaan kedua adalah koefisien
Jaccard, dengan urutan yang tidak berbeda
jika dibandingkan dengan cosine. Di bawah ini adalah 10 hasil teratas dari koefisien
Jaccard.
Begitu juga dengan koefisien Dice tidak terlihat perbedaan urutan dalam pemeringkatan hasil temu kembali informasi. Di bawah ini adalah 10 hasil teratas dari koefisien Dice.
Waktu Komputasi
Waktu komputasi dalam ukuran detik, diambil sebanyak 5 kali, kemudian dibuat nilai rata-rata dari masing-masing nilai berdasarkan kueri. Grafik waktu komputasi dapat dilihat di Lampiran 5 dan tabel waktu komputasi dapat dilihat di Lampiran 6.
Kompleksitas Algoritme
Kompleksitas algoritme diambil dari masing-masing nilai koefisien. Setiap proses dihitung kompleksitasnya, kemudian dibuat nilai notasi O untuk hasilnya. Notai Big-O yang digunakan karena notasi ini mendeskripsikan kinerja kasus terburuk (worst-case) dari suatu algoritme, sehingga
Big-O dapat menjamin bahwa suatu algoritme
tidak akan lebih buruk dari worst-case. Tabel 2, 3, dan 4 menunjukkan hasil perhitungan kompleksitas untuk masing-masing koefisien model ruang vektor.
Tabel 2 Kompleksitas algoritme koefisien
cosine. Algoritme T(n) procedure cosine() cosine <- 0 1 ids <- '' 1 data <- array() 1 Idf <- idf in procedure idf
1 for each idf in array
to length(id) do: 3*n = 3n for each array in
termFreq to length(term) do: 3*n*n = 3 n2 if term <- q1 or term <- q2 do: 4 n 2 termFreq_q <- 1 2 n2 Else termFreq_q <- 0 2 n2 end if tfidf_d <- termFreq*idf[term] 4 n 2 tfidf_q <- termFreq_q*idf[term] 4 n 2 if ids <- id do 2 n2 atas += tfidf_d*tfidf_q 3 n2 bawah1 += tfidf_d*tfidf_d 3 n 2 bawah2 += tfidf_q*tfidf_q 3 n2 else atas <- 0 n2 atas += tfidf_d*tfidf_q 3 n2 hasilbawah1 <- sqrt(bawah1) 3 n 2 hasilbawah2 <- sqrt(bawah2) 3 n 2 hasilbawah <- hasilbawah1 * hasilbawah2 3 n2 bawah1 <- 0 n2 bawah2 <- 0 n2 mediaindonesia110703 => 0.14686 gatra070203 => 0.1260200519299 indosiar310504 => 0.11737558600 mediaindonesia160603 => 0.1130521579 kompas250803 => 0.10169930497365 mediaindonesia260803 => 0.0963119982 indosiar170603 => 0.0863044 mediaindonesia050604-001 => 0.080123 indosiar010903 => 0.078978547799479 republika030903-002 => 0.07173908795 kompas250803 => 0.11321298707296 mediaindonesia260803 => 0.1065766039005 indosiar170603 => 0.094456514765376 mediaindonesia050604-001 => 0.087102324 indosiar010903 => 0.085751040446215 republika030903-002 => 0.077283323063621 mediaindonesia110703 => 0.17214 gatra070203 => 0.144191010 indosiar310504 => 0.1329847 mediaindonesia160603 => 0.127462013 kompas250803 => 0.11321298707296 mediaindonesia260803 => 0.106576603 indosiar170603 => 0.094456514765376 mediaindonesia050604-001 => 0.087102 indosiar010903 => 0.085751040446215 republika030903-002 => 0.07728332306 mediaindonesia110703 => 0.18368283 gatra070203 => 0.1765258240 indosiar310504 => 0.146857896 mediaindonesia160603 => 0.13315907 kompas250803 => 0.1203722 mediaindonesia260803 => 0.11458805 indosiar170603 => 0.105969455 mediaindonesia050604-001 => 0.09603 indosiar010903 => 0.08789476 republika030903-002 => 0.083524681
Algoritme T(n) bawah1 += $tfidf_d*$tfidf_d 3 n 2 bawah2 += $tfidf_q*$tfidf_q 3 n 2 end if ids <- id 2 n2 end for hasilbawah1 <- sqrt(bawah1) 3 n hasilbawah2 <- sqrt(bawah2) 3 n hasilbawah <- hasilbawah1 * hasilbawah2 3 n cosine <- atas/hasilbawah 3 n end for end procedure Total T(n) 53 n2 + 12 n + 4 Tabel 3 Kompleksitas algoritme koefisien
Jaccard. Algoritme T(n) procedure Jaccard() Jaccard <- 0 1 ids <- '' 1 data <- array() 1 Idf <- idf in procedure idf 1 for each idf in array
to length(id) do: 3*n = 3n for each array in
termFreq to length(term) do: 3*n*n = 3 n2 if term <- q1 or term <- q2 do: 4 n 2 termFreq_q <- 1 2 n2 else termFreq_q <- 0 2 n2 end if tfidf_d <- termFreq*idf[term] 4 n 2 tfidf_q <- termFreq_q*idf[term] 4 n 2 if ids <- id do 2 n2 atas += tfidf_d*tfidf_q 3 n 2 bawah1 += tfidf_d*tfidf_d 3 n 2 bawah2 += tfidf_q*tfidf_q 3 n 2 else atas <- 0 n2 Algoritme T(n) atas += tfidf_d*tfidf_q 3 n 2 hasilbawah1 <- sqrt(bawah1) 3 n 2 hasilbawah2 <- sqrt(bawah2) 3 n 2 hasilbawah <- hasilbawah1 * hasilbawah2 3 n2 bawah1 <- 0 n2 bawah2 <- 0 n2 bawah1 += $tfidf_d*$tfidf_d 3 n 2 bawah2 += $tfidf_q*$tfidf_q 3 n 2 end if ids <- id 2 n2 end for hasilbawah1 <- sqrt(bawah1) 3 n hasilbawah2 <- sqrt(bawah2) 3 n hasilbawah <- hasilbawah1 * hasilbawah2 3 n hasilbawah_Jaccard <- hasilbawah-atas 3 n jacard <- atas/ hasilbawah-atas 4 n end for end procedure Total T(n) 53 n2 + 16 n + 4 Tabel 4 Kompleksitas algoritme koefisien
Dice. Algoritme T(n) procedure Dice() Dice <- 0 1 ids <- '' 1 data <- array() 1 Idf <- idf in procedure
idf 1
for each idf in array
to length(id) do: 3*n = 3n for each array in
termFreq to length(term) do: 3*n*n = 3 n2 if term <- q1 or term <- q2 do: 4 n 2 termFreq_q <- 1 2 n2 else termFreq_q <- 0 2 n2 end if
Algoritme T(n) tfidf_d <- termFreq*idf[term] 4 n 2 tfidf_q <- termFreq_q*idf[term] 4 n 2 if ids <- id do 2 n2 atas += tfidf_d*tfidf_q 3 n 2 bawah1 += tfidf_d*tfidf_d 3 n 2 bawah2 += tfidf_q*tfidf_q 3 n 2 else atas <- 0 n2 atas += tfidf_d*tfidf_q 3 n2 hasilbawah1 <- sqrt(bawah1) 3 n 2 hasilbawah2 <- sqrt(bawah2) 3 n 2 hasilbawah <- hasilbawah1 * hasilbawah2 3 n2 bawah1 <- 0 n2 bawah2 <- 0 n2 bawah1 += $tfidf_d*$tfidf_d 3 n 2 bawah2 += $tfidf_q*$tfidf_q 3 n 2 end if ids <- id 2 n2 end for hasilbawah1 <- sqrt(bawah1) 3 n hasilbawah2 <- sqrt(bawah2) 3 n hasilbawah <- hasilbawah1 * hasilbawah2 3 n atas_Dice = 2 * atas 2 n Dice = atas_Dice/hasilbawah 3 n end for end procedure Total T(n) 56 n2 + 14 n + 4 Kompleksitas algoritme cosine adalah 53 n2 + 12 n + 4, Jaccard 53 n2 + 16 n + 4, dan
Dice 56 n2 + 14 n + 4 sehingga semua
koefisien memiliki notasi Big-O yang sama yaitu O(n2).
Evaluasi
Proses evaluasi dokumen menggunakan 30 pasangan kueri dengan dokumen relevan.
Evaluasi ini menggunakan nilai recall
precision.
Hasil evaluasi recall precision dari masing-masing kueri diinterpolasi maksimum untuk mencari nilai average precision dan digambarkan dalam bentuk grafik serta tabel di Gambar 2.
Gambar 2 Grafik recall precision Gambar 2 menggambarkan bahwa temu kembali menghasilkan nilai average precision (AVP) sebesar 0.6284 dengan
recall rata-rata 0.5821. Dari ketiga
perhitungan koefisien di atas, tidak dapat disimpulkan mana yang terbaik karena masing-masing koefisien memiliki nilai keterurutan yang sama.
Dalam waktu komputasi, diperoleh perbandingan nilai rata-rata koefisien cosine 15.2378 detik, Jaccard 16.7311 detik, dan
Dice 16.8261 detik. Tabel 5 akan
menunjukkan perbandingan nilai rata-rata waktu komputasi.
Tabel 5 Nilai rata-rata waktu komputasi masing-masing koefisien.
Koefisien Waktu Komputasi
Cosine 15.2378
Jaccard 15.7311
Dice 16.8261
Nilai rata-rata koefisien cosine 3.1% lebih cepat dari koefisien Jaccard dan 9.4% lebih cepat dari koefisien Dice.
Kompleksitas algoritme cosine 53 n2 + 12 n + 4, Jaccard 53 n2 + 16 n + 4, dan Dice 56 n2 + 14 n + 4. Tabel 6 akan menunjukkan perbandingan nilai kompleksitas algoritme dari masing-masing koefisien.
Tabel 6 Nilai perbandingan kompleksitas algoritme.
Koefisien Kompleksitas Alg
Cosine 53 n2 + 12 n + 4
Jaccard 53 n2 + 16 n + 4
Dice 56 n2 + 14 n + 4
Dari ketiga koefisien di Tabel 6, disimpulkan bahwa nilai notasi Big-O adalah O(n2). Koefisien cosine memiliki kompleksitas terbaik dengan tingkat kompleksitas yang lebih rendah dibanding koefisien lain.
KESIMPULAN DAN SARAN Kesimpulan
Penelitian ini membandingkan efisiensi model ruang vektor pada sistem temu kembali informasi. Dari hasil yang didapat, dapat disimpulkan bahwa:
1 Masing-masing koefisien dalam ukuran kesamaan model ruang vektor memiliki nilai yang sama untuk recall dan AVP. 2 Ukuran kesamaan model ruang vektor
koefisien cosine lebih baik dibanding dengan koefisien Jaccard dan koefisien
Dice dalam hal kompleksitas algoritme
dan waktu komputasi. Saran
Beberapa hal yang perlu dikembangkan dalam penelitian selanjutnya ialah:
1 Penggunaan variant lain dari pembobotan
tf-idf.
2 Perlu diujicoba dengan menggunakan dokumen yang jumlahnya lebih banyak dan ukuran dokumen yang sama, seperti berita.
DAFTAR PUSTAKA
Adisantoso J. 1996. Pendekatan kuantitatif untuk penelusuran informasi. Forum
Statistika dan Komputasi 2(1): 24-29.
Adisantoso J, Ridha A. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektivitas Temu Kembali Informasi. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Istitut Pertanian Bogor.
Aly AA. 2008. Using a query technique to improve document retrieval. Information
Technologies and Knowledge 2:343-348.
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. New
York: Addison-Wesley.
Intan R, Defeng A. 2006. Hard: subject-based search engine menggunakan tf-idf dan Jaccard’s coefficient. Jurnal Teknik Industri 8(1): 61-72.
Manning CD, Raghavan P, Schütze H. 2008.
Introduction to Information Retrieval.
Cambridge: Cambridge University Press. Nurhanifah S. 2001. Pencarian informasi
dengan metode trigram [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Paiki FF. 2006. Evaluasi penggunaan
similarity thesaurus terhadap ekspansi
kueri dalam sistem temu kembali informasi berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Rahayuni N. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan thesaurus
[skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Rheinadi R. 2009. Analisis algoritme bubble sort [skripsi]. Bandung: Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung.
Ridha A. 2002. Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Robertson S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF: Journal of Documentation 60(5): 503-520.
Rusidi. 2008 Ekspansi kueri dalam sistem temu kembali informasi berbhasa Indonesia menggunakan peluang bersyarat [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Salton, G. 1989. Automatic Text Processing:
The Transformation, Analysis, and
Retrieval of Information by Computer.
New York: Addison-Wesley.
Sitohang NL. 2009. Ekspansi kueri pada sistem temu kembali informasi berbahasa Indonesia menggunakan kamus dwibahasa [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Telaumbanua P. 2011. Analisis perbandingan algoritme kompresi Lempel Ziv Welch, Arithmetic Coding, dan Run-Length Encoding pada file teks [skripsi]. Universitas Sumatera Utara.
Lampiran 1 Contoh koleksi dokumen <DOC>
<DOCNO>gatra011102</DOCNO>
<TITLE>Banten Kembangkan Agroindustri </TITLE> <AUTHOR>Ark, Ant</AUTHOR>
<TEXT>
<P>Selain industri kimia dan parawisata, provinsi Banten juga melirik agroindustri. Provinsi pecahan Jawa Barat ini akan mengembangkan `Agroindustrial Park`, yaitu sebuah kawasan indutri pengolahan hasil pertanian, di Cilegon itu diungkapkan Gubernur Banten, Dr Djoko Munandar, di Serang, Jumat.</P>
<P>"Nantinya kawasan ini akan menjadi pusat pengolahan berbagai produk pertanian, walaupun bahan bakunya tidak hanya dipasok dari Banten, tetapi akan makin memacu kemajuan pertanian di provinsi ini," katanya, seusai acara gelar wicara tentang upaya peningkatan produk olahan dan pemasaran hasil pertanian, di Aula Kantor Gubernuran.</P>
<P>Program itu menurut Djoko merupakan program makro pengembangan pertanian Banten dengan konsep `Banten Sebagai Bagian Dari Agroindustri Nasional`.</P>
<P>Sementara itu, program mikro berupa pemberdayaan petani kecil tetap berjalan dan menjadi prioritas.</P>
<P>Djoko menjelaskan Banten mempunyai posisi yang strategis karena berada di lintasan Jawa-Sumatera, mempunyai prasarana yang lengkap mulai dari Pelabuhan, Bandara, jaringan jalan tol, serta dekat dengan akses pasar dalam negeri seperti Jakarta dan Jawa Barat.</P>
<P>Untuk mendukung kawasan tersebut, maka Pemprov Banten juga merencanakan membangun Terminal Agribisnis di Cilegon serta Sub Terminal yang ada di ibukota kabupaten, sehingga akses pasar petani akan semakin mudah.</P>
<P>Pada acara itu, Dekan Fakultas Pertanian Untirta Ir Mukhtar mengatakan, Banten ke depan perlu mengembangkan pertanian berbasis teknologi, dan tidak sekedar tergantung pada lahan seperti pengembangan pertanian hidroponik dan rekayasa genetik.</P>
<P>"Saat ini saya perkirakan baru 60 persen saja petani yang benar-benar menggarap tanaman padi sesuai panca usaha tani," ujarnya.</P>
<P>Selain itu, ia mengungkapkan keberadaan beberapa pabrik makanan ternak skala besar di Banten belum mampu menggairahkan petani untuk berlomba memasok bahan baku seperti jagung dan kedele, karena produk mereka sering ditolak oleh pabrik, karena alasan tidak memenuhi standar mutu.</P>
<P>"Oleh karena itu, perlu peningkatan pengetahuan petani tentang mutu produksi dan pasca panen, sehingga hasil pertanian mereka tidak lagi ditolak," katanya.</P>
<P>Sementara itu, Kepala Dinas Pertanian dan Peternakan Banten Ir Hilman mengatakan, pengembangan pabrik pakan ternak rakyat perlu ditumbuhkan untuk menampung bahan baku yang ditolak pabrik hanya karena kadar air yang masih tinggi.</P>
<P>"Di daerah lain ternyata berhasil membangun pabrik skala kecil yang dikelola dengan sistem kemitraan dengan para peternaknya seperti di Pangalengan, Bandung dan di Bogor," ujarnya.</P> </TEXT>
Lampiran 2 Tabel daftar istilah kueri dan dokumen yang relevan No Kueri Gugus Jawaban 1 bencana
kekeringan
gatra070203.txt, gatra161002.txt, gatra210704.txt, gatra301002.txt,
indosiar010903.txt, indosiar170603.txt, indosiar220503.txt, indosiar260803-003.txt, indosiar310504.txt, kompas210504.txt, kompas250803.txt,
mediaindonesia050604-001.txt, mediaindonesia110703.txt, mediaindonesia160603.txt, mediaindonesia240503.txt, mediaindonesia260803.txt, mediaindonesia270803.txt,
mediaindonesia310503.txt, pikiranrakyat020704.txt, republika030903-001.txt, republika030903-002.txt, republika070604-republika030903-001.txt,
republika090804-01.txt, republika120804-01.txt, republika120804-04.txt, republika130804-02.txt, republika200603.txt, republika210704-004.txt, republika250604.txt, republika270503.txt, republika270704-002.txt, situshijau181103-001.txt, 002-01.txt, suarakarya000000-021.txt, suaramerdeka130602.txt, suaramerdeka190903.txt, suarapembaruan150903.txt, suarapembaruan180303.txt, suarapembaruan260703-002.txt. 2 dukungan pemerintah pada pertanian
indosiar070504.txt, jurnal000000-026.txt, kompas030401.txt, kompas050303.txt, kompas060503.txt, kompas071100.txt, kompas150201.txt, kompas200802.txt, kompas300402.txt, mediaindonesia130204.txt, mediaindonesia220303.txt,
pembaruan110903.txt, poskota040804.txt, republika100903.txt, republika180303.txt, republika210902.txt, republika230903.txt,
republika251102-001.txt, republika251102-002.txt, republika300604-001.txt, situshijau150504-002.txt, situshijau190303-002.txt, situshijau200103-002.txt, situshijau201003-001.txt, situshijau281003-situshijau200103-002.txt,
suarakarya000000-028.txt, suaramerdeka130902.txt, wartapenelitian000000-002.txt, wartapenelitian000000-007.txt.
3 flu burung gatra220604.txt, gatra270104-001.txt, gatra270104-002.txt, gatra300104.txt, indosiar020304.txt, indosiar240204.txt, mediaindonesia090204.txt,
mediaindonesia140704.txt, mediaindonesia200204.txt, republika090604.txt, republika120704-005.txt, republika190504-001.txt, republika190604-005.txt, republika210504-001.txt, republika290704-002.txt, situshijau280404-004.txt, 001.txt, 008.txt, suarakarya000000-014.txt, suaramerdeka160204.txt, suaramerdeka200104.txt.
4 gabah kering giling
indosiar180603.txt, indosiar240703.txt, indosiar300304.txt, kompas 170402.txt, kompas030502-001.txt, kompas160704.txt, kompas170903.txt, mediaindonesia250304.txt, pikiranrakyat300604.txt, republika040303.txt, republika060804-003.txt, republika100704-003.txt, republika100804.txt, republika120804-01.txt, republika180504-002.txt, republika210704-001.txt, republika230704-001.txt, republika231202-001.txt, republika231202-002.txt, republika290604-003.txt, republika290604-007.txt, situshijau281003-004.txt, suarakarya000000-007.txt, suaramerdeka090104.txt.
5 gagal panen
gatra070203.txt, gatra190802.txt, gatra190902-02.txt, gatra301002.txt, indosiar010504.txt, indosiar031203.txt, indosiar040903.txt, indosiar050704-002.txt, indosiar070504.txt, indosiar130504.txt, indosiar140204.txt, indosiar160304.txt, indosiar170603.txt, indosiar180304.txt,
indosiar240703.txt, indosiar260803-001.txt, indosiar260803-003.txt, kompas030704.txt, kompas031003.txt, kompas170504.txt,
mediaindonesia030603.txt, mediaindonesia050604-001.txt, mediaindonesia110703.txt, mediaindonesia140203.txt, mediaindonesia160603.txt, mediaindonesia240503.txt, mediaindonesia310503.txt,
Lampiran 2 Lanjutan
No Kueri Gugus Jawaban
republika030903-002.txt, republika060804-001.txt, republika080703.txt, republika090804-01.txt, republika120804-04.txt, republika130704-001.txt, republika130804-02.txt, republika200603.txt, republika230704-005.txt, republika260604-003.txt, situshijau091203-002.txt, situshijau100603-003.txt, situshijau110303-002.txt, situshijau280404-002.txt, suarakarya000000-002-02.txt, suarakarya000000-011.txt, suaramerdeka120104.txt, suaramerdeka130602.txt, suarapembaruan120104.txt, suarapembaruan260703-001.txt, suarapembaruan260703-002.txt. 6 harga komoditas pertanian
indosiar071103.txt, indosiar180603.txt, indosiar221003.txt, indosiar240604.txt, indosiar300304.txt, jurnal000000-027.txt, kompas030502-001.txt, kompas030502-002.txt, kompas080702.txt, kompas100399.txt, kompas101004.txt, kompas111099.txt,
kompas140802.txt, kompas160304.txt, kompas170104.txt, kompas171002.txt, kompas180502.txt, kompas180504.txt, kompas230603.txt, kompas250901.txt, kompas270203-001.txt, kompas270401.txt, kompas270502-001.txt, kompas280602.txt,
kompas311203.txt, mediaindonesia060803.txt, mediaindonesia310503.txt, pikiranrakyat240404.txt, pikiranrakyat300604.txt, poskota000000-002.txt, poskota000000-003.txt, republika030804-002.txt, republika060503.txt, republika060804-001.txt, republika060804-003.txt, republika061102.txt, republika090902.txt, republika140704-004.txt, situshijau050703-002.txt, situshijau070503.txt, situshijau130203-002.txt, situshijau240203-002.txt, situshijau280203.txt, situshijau280404-001.txt, situshijau280404-002.txt, situshijau280404-003.txt, 002-02.txt, suarakarya000000-021.txt, suaramerdeka170602-001.txt, suaramerdeka290802.txt,
suaramerdeka311003.txt, suarapembaruan100903.txt,
suarapembaruan220403.txt, trubus000004.txt, wartapenelitian000000-002.txt.
7 impor beras indonesia
gatra180103.txt, gatra220802.txt, indosiar180603.txt, indosiar180703.txt, indosiar200304.txt, indosiar300703-002.txt, kompas 170402.txt, kompas 170402.txt, kompas050602.txt, kompas101002.txt, kompas101004.txt, kompas160704.txt, kompas180504.txt, kompas270401.txt, kompas270502-002.txt, kompas310702.txt, mediaindonesia050104.txt,
mediaindonesia060803.txt, mediaindonesia100203.txt, mediaindonesia131003.txt, mediaindonesia160603.txt,
mediaindonesia250304.txt, republika020604-001.txt, republika060804-001.txt, republika090902.txt, republika100703.txt, republika100704-003.txt, republika180504-002.txt, republika210704-001.txt, republika230704-001.txt, republika231202-001.txt, republika231202-002.txt, republika240604-001.txt, republika300704-002.txt, situshijau281003-004.txt, suarakarya000000-007.txt, suarakarya000000-023.txt, suaramerdeka120104.txt, suaramerdeka130104.txt, suaramerdeka170602-001.txt, suaramerdeka270601.txt, suarapembaruan100903.txt, suarapembaruan110903.txt. 8 industri gula
gatra200103.txt, kompas031003.txt, kompas250901.txt, mediaindonesia120604-002.txt, pikiranrakyat300704-002.txt, republika010704-003.txt, republika020804.txt, republika090902.txt, republika100902.txt, republika220604-002.txt, republika280704-002.txt, republika301002.txt, situshijau210103-001.txt, suarakarya000000-001-01.txt, suarakarya000000-007.txt, suarakarya000000-028.txt,
suaramerdeka130902.txt, suarapembaruan100903.txt, suarapembaruan220403.txt.
Lampiran 2 Lanjutan
No Kueri Gugus Jawaban 9 institut
pertanian bogor
gatra020804.txt, gatra180304.txt, gatra180702.txt, gatra220704.txt, gatra290903.txt, gatra300404.txt, kompas100399.txt, kompas111099.txt, kompas121099.txt, kompas150304-001.txt, kompas200704.txt,
kompas200799.txt, kompas230704.txt, mediaindonesia080704.txt, mediaindonesia090704.txt, mediaindonesia101003.txt,
mediaindonesia290903-002.txt, republika010704-001.txt,
republika061003.txt, republika070604-002.txt, republika100604-002.txt, republika100704-002.txt, republika110604-002.txt, republika140704-002.txt, republika160604-002.txt, republika170604-001.txt, republika180303.txt, republika180604.txt, republika190604-001.txt, republika190604-002.txt, republika211002.txt, republika220604-001.txt, republika230704-08.txt, situshijau070503.txt, situshijau101103-004.txt, situshijau281003-003.txt, suarakarya000000-005.txt, suarakarya000000-010.txt,
suarapembaruan150903.txt, suarapembaruan260703-001.txt. 10 kelangkaan
pupuk
indosiar010704.txt, indosiar060204.txt, indosiar190504-001.txt, indosiar200104.txt, indosiar260504.txt, indosiar290604.txt,
kompas210504.txt, kompas300502-001.txt, pikiranrakyat010504-003.txt, republika050604.txt, republika160604-001.txt, suarakarya000000-001-02.txt, 002.txt, 006.txt, suarakarya000000-026.txt, suarakarya000000-029.txt, suarakarya000000-030.txt, suarakarya000000-032.txt, suarakarya000000-038.txt, suaramerdeka161101.txt. 11 kelompok masyarakat tani
bitraindonesia000000-001.txt, indosiar021203-002.txt, jurnal000000-017.txt, kompas180502.txt, kompas211103.txt, kompas250901.txt,
kompas260304.txt, kompas260902.txt, kompas270203-002.txt, kompas270502-002.txt, kompas300502-001.txt, replubika110804.txt, republika030304.txt, republika110604-004.txt, republika131203-001.txt, republika140703.txt, republika151202.txt, republika180303.txt,
republika270704-001.txt, republika280703.txt, republika300704-001.txt, situshijau070503.txt, situshijau120303-003.txt, situshijau130303-001.txt, situshijau190303-002.txt, situshijau200103-002.txt, situshijau281003-004.txt, suarakarya000000-001-02.txt, suarakarya000000-037.txt, suaramerdeka260902.txt, suarapembaruan090202.txt,
suarapembaruan130103.txt. 12 laboratoriu
m pertanian
balaipenelitian000000-010.txt, gatra100203.txt, indobic130504-002.txt, indosiar010704.txt, jurnal000000-027.txt, kompas220801.txt,
kompas241203.txt, kompas300502-002.txt, mediaindonesia290903-002.txt, republika050804-007.txt, republika120704-005.txt, republika230704-004.txt, republika300604-002.txt, situshijau040603.txt, situshijau051103-02.txt, situshijau100603-001.txt, situshijau140503-001-01.txt, situshijau150403-002.txt, situshijau180603-003.txt, suarakarya000000-003.txt,
suaramerdeka031101.txt. 13 musim
panen
gatra190902-02.txt, gatra230103-001.txt, gatra240203.txt, indosiar010504.txt, indosiar021203-002.txt, indosiar060204.txt, indosiar071103.txt, indosiar110304.txt, indosiar240604.txt, indosiar300304.txt, kompas030502-001.txt, kompas041103.txt, kompas220901-001.txt, kompas240103.txt, kompas300502-001.txt, mediaindonesia131203-001.txt, mediaindonesia230604.txt,
pikiranrakyat240404.txt, pikiranrakyat300604.txt, poskota261202.txt, republika060804-001.txt, republika060804-003.txt, republika100704-003.txt, republika151202.txt, republika171102.txt, republika240604-005.txt,
republika290604-007.txt, republika300704-002.txt, situshijau000000-001.txt, situshijau040603.txt, situshijau080503-004.txt, situshijau250403-004.txt,
Lampiran 2 Lanjutan
No Kueri Gugus Jawaban
situshijau270503-002.txt, situshijau280404-002.txt, suarakarya000000-007.txt, suarakarya000000-023.txt, suarakarya000000-028.txt, suaramerdeka120104.txt, suaramerdeka290901.txt, suarapembaruan031002.txt. 14 pembangun an untuk sektor pertanian
gatra180304.txt, jurnal000000-002.txt, kompas020803.txt, kompas031003.txt, kompas060203.txt, kompas060503.txt, kompas100399.txt, kompas101004.txt, kompas110201.txt, kompas111099.txt, kompas121099.txt, kompas150304-002.txt, kompas190802.txt, kompas191099.txt, kompas200799.txt, kompas210502.txt, kompas220901-002.txt, kompas230603.txt, kompas240803.txt, kompas260203.txt, kompas270204.txt,
kompas280602.txt, kompas290404.txt, mediaindonesia050604-002.txt, mediaindonesia060903.txt, mediaindonesia090903.txt,
mediaindonesia160903.txt, pembaruan110903.txt, poskota110703.txt, republika060903.txt, republika070104.txt, republika080703.txt, republika100804.txt, republika100903.txt, republika101203.txt,
republika110604-002.txt, republika131203-001.txt, republika150604-003.txt, republika150903.txt, republika190803.txt, republika251002-003.txt,
republika290704-003.txt, republika300604-001.txt, situshijau091203-002.txt, situshijau280203.txt, suarapembaruan140303.txt.
15 penerapan bioteknolo gi di indonesia
jurnal000000-018.txt, kompas121099.txt, puslitbang000000-001.txt,
republika220604-003.txt, republika290704-002.txt, situshijau000000-002.txt, situshijau030603-001.txt, situshijau040603.txt, situshijau050703-001.txt, 001.txt, 002.txt, situshijau070103-003.txt, situshijau100603-002.txt, situshijau100603-situshijau070103-003.txt,
situshijau110303-002.txt, situshijau130103-001.txt, situshijau130503-001.txt, situshijau130503-002.txt, situshijau140103-002.txt,
situshijau140103-003.txt, situshijau140503-001-01.txt, situshijau140903-001.txt, situshijau150403-situshijau140903-001.txt, situshijau150403-002.txt,
situshijau160103.txt, situshijau180603-003.txt, situshijau180803-003.txt, situshijau200103-001.txt, situshijau210103-003.txt, situshijau210503-001.txt, situshijau270303-004.txt, situshijau270503-002.txt,
situshijau270703-005.txt, situshijau300403.txt, situshijau310303.txt, situshijau310303-No.txt, 001-02.txt, suarakarya000000-014.txt, suarapembaruan020603.txt, suarapembaruan020603-No.txt, suarapembaruan151102.txt, wartapenelitian000000-009.txt.
16 penerapan teknologi pertanian
indosiar250204-001.txt, jurnal000000-001.txt, jurnal000000-011.txt, jurnal000000-013.txt, jurnal000000-017.txt, jurnal000000-024.txt, kompas121099.txt, kompas251003.txt, kompas290402.txt,
mediaindonesia170403.txt, republika050903.txt, republika131203-001.txt, republika140604-001.txt, republika180504-001.txt, republika201102.txt, republika220604-003.txt, republika230704-08.txt, republika260803.txt, situshijau030603-001.txt, situshijau080103.txt, situshijau100603-003.txt, situshijau140103-002.txt, 001.txt, situshijau140903-003.txt, situshijau180603-situshijau140903-003.txt, situshijau180803-002.txt,
situshijau181103-002.txt, situshijau270303-004.txt, situshijau270503-002.txt, situshijau270703-005.txt, situshijau281003-003.txt,
situshijau290503-003.txt, suarakarya000000-034.txt, suarapembaruan020603-No.txt, suarapembaruan060602.txt, suarapembaruan160702.txt, wartapenelitian000000-003.txt, wartapenelitian000000-007.txt, wartapenelitian000000-009.txt.
Lampiran 2 Lanjutan
No Kueri Gugus Jawaban 17 peningkata
n
pendapatan petani
indosiar150104-001.txt, jurnal000000-017.txt, kompas030502-001.txt, kompas031003.txt, kompas100399.txt, kompas170903.txt,
kompas200802.txt, kompas210502.txt, kompas260702.txt, kompas270203-001.txt, kompas300402.txt, kompas300502-002.txt, pembaruan110903.txt, poskota110703.txt, republika030804-002.txt, republika030903-001.txt, republika060804-001.txt, republika060804-003.txt, republika230404.txt, republika231202-001.txt, republika231202-002.txt, republika240604-005.txt, republika241203.txt, republika281202.txt, republika300704-002.txt,
situshijau140503-001.txt, situshijau180803-002.txt, situshijau181103-002.txt, situshijau200103-001.txt, situshijau280203.txt, suaramerdeka120104.txt, suaramerdeka170602-001.txt, suarapembaruan060602.txt, suarapembaruan290802-001.txt, wartapenelitian000000-005.txt. 18 penyakit hewan ternak
gatra270104-002.txt, gatra270104-003.txt, gatra300104.txt,
mediaindonesia090204.txt, republika150103.txt, republika160704-003.txt, republika260704-004.txt, republika300604-002.txt, suarakarya000000-004.txt, suarakarya000000-008.txt, suarakarya000000-014.txt, suarakarya000000-017.txt, suaramerdeka260302-01.txt. 19 penyuluhan
pertanian
bitraindonesia000000-001.txt, gatra190902-02.txt, indosiar310504.txt, jurnal000000-005.txt, jurnal000000-014.txt, kompas050802.txt, kompas130699.txt, kompas170104.txt, kompas200503-002.txt,
mediaindonesia160603.txt, poskota110703.txt, republika030903-002.txt, republika050804-001.txt, republika061003.txt, republika171003.txt, republika180303.txt, republika200203.txt, republika210504-001.txt,
republika220604-003.txt, republika260604-003.txt, republika300604-003.txt, situshijau201003-002.txt, situshijau230103-001.txt, situshijau270703-001.txt, suaramerdeka271102.txt, wartapenelitian000000-002.txt, wartapenelitian000000-007.txt.
20 perdaganga n hasil pertanian
gatra011102.txt, indosiar070204.txt, indosiar201103.txt, jurnal000000-002.txt, jurnal000000-027.txt, kompas031003.txt, kompas041102.txt, kompas101002.txt, kompas140802.txt, kompas160304.txt,
kompas270401.txt, kompas270502-001.txt, kompas271103.txt,
kompas311203.txt, mediaindonesia030104.txt, mediaindonesia101003.txt, mediaindonesia150903.txt, mediaindonesia170303.txt, republika020604-001.txt, republika041102.txt, republika281202.txt, situshijau130303-republika020604-001.txt, situshijau191103.txt, situshijau240203-002.txt, suarakarya000000-013.txt, suaramerdeka120104.txt, suaramerdeka270601.txt, suarapembaruan080903-001.txt, suarapembaruan080903-002.txt, wartapenelitian000000-006.txt. 21 pertanian
organik
indosiar250204-002.txt, jurnal000000-017.txt, kompas010499.txt, kompas030502-002.txt, kompas050802.txt, kompas081203.txt, kompas181099.txt, kompas221001.txt, kompas241203.txt,
kompas260304.txt, kompas270502-002.txt, kompas300502-001.txt, republika131203-001.txt, republika150303.txt, republika180303.txt, situshijau070503.txt, situshijau091203-001.txt, situshijau091203-004.txt, situshijau290503-003.txt, suarakarya000000-001-02.txt,
suarapembaruan000000-002.txt, suarapembaruan090202.txt, suarapembaruan110702-01.txt, suarapembaruan160702.txt. 22 petani tebu indosiar190504-002.txt, indosiar290604.txt, kompas031003.txt,
kompas250901.txt, kompas310702.txt, republika010704-003.txt, republika020804.txt, republika100902.txt, republika140704-004.txt,
republika150604-002.txt, republika200704-001.txt, republika220604-002.txt, republika280704-002.txt, republika310704-001.txt, situshijau280203.txt, suarakarya000000-007.txt, suarakarya000000-028.txt,
Lampiran 2 Lanjutan
No Kueri Gugus Jawaban suaramerdeka130902.txt, suarapembaruan100903.txt, suarapembaruan220403.txt.
23 peternak unggas
gatra270104-001.txt, gatra270104-002.txt, gatra300104.txt,
indosiar020304.txt, indosiar161203.txt, indosiar240204.txt, jurnal000000-009.txt, kompas051103.txt, kompas120101.txt, mediaindonesia090204.txt, republika061003.txt, republika100604-002.txt, republika190504-001.txt, republika210504-001.txt, situshijau280404-004.txt, suarakarya000000-001.txt, suarakarya000000-008.txt, suarakarya000000-014.txt, suarakarya000000-017.txt, suarapembaruan220802.txt. 24 produk usaha peternakan rakyat
jurnal000000-003.txt, kompas120101.txt, kompas150201.txt,
mediaindonesia010304.txt, mediaindonesia090204.txt, republika100604-002.txt, republika150303.txt, republika170704-007.txt, republika210504-001.txt, republika220704-003.txt, republika260604-republika210504-001.txt,
republika290704-002.txt, republika300604-002.txt, situshijau190303-001.txt, 001.txt, 008.txt, suarakarya000000-013.txt, suarakarya000000-014.txt, suarapembaruan151102.txt.
25 pupuk organik
balaipenelitian000000-001.txt, kompas270502-002.txt, kompas280502.txt, kompas300502-001.txt, republika050804-007.txt, republika190104.txt, republika201102.txt, republika270604.txt, situshijau091203-004.txt, situshijau140103-001.txt, 001-02.txt, suarakarya000000-037.txt, suaramerdeka031101.txt, suaramerdeka170602-002.txt, suarapembaruan090202.txt, suarapembaruan130103.txt, suarapembaruan160702.txt, suarapembaruan220802.txt, wartapenelitian000000-002.txt, wartapenelitian000000-008.txt. 26 riset pertanian
balaipenelitian000000-012.txt, gatra270104-002.txt, indobic130504-001.txt, jurnal000000-008.txt, jurnal000000-015.txt, jurnal000000-018.txt,
jurnal000000-019.txt, jurnal000000-026.txt, kompas010499.txt, kompas170104.txt, kompas221003.txt, kompas230603.txt,
mediaindonesia131003.txt, puslitbang000000-001.txt, republika030903-002.txt, republika070604-republika030903-002.txt, republika100704-republika030903-002.txt,
republika140104.txt, republika170604-001.txt, republika190604-001.txt, republika190604-002.txt, republika210704-001.txt, republika210704-003.txt, republika220604-003.txt, republika241203.txt, republika260803.txt,
republika280703.txt, republika300604-003.txt, situshijau040603.txt, situshijau070503.txt, situshijau080503-001.txt, situshijau091203-003.txt, situshijau101103-004.txt, situshijau130103-001.txt, situshijau130503-002.txt, situshijau140103-situshijau130503-002.txt, situshijau140903-001.txt,
situshijau140903-003.txt, situshijau150403-002.txt, situshijau180803-002.txt, situshijau181103-situshijau180803-002.txt, situshijau200103-001.txt,
situshijau200103-001-No.txt, situshijau201003-002.txt, situshijau210103-003.txt, situshijau210503-001.txt, situshijau250203.txt, situshijau270303-004.txt, situshijau290503-001.txt, situshijau300403.txt, situshijau310303.txt, 001-02.txt, 010.txt, suarakarya000000-019.txt, suarakarya000000-027.txt, suarakarya000000-034.txt, suarakarya000000-037.txt, suaramerdeka270601.txt, suarapembaruan000000-002.txt, suarapembaruan020603.txt, suarapembaruan060602.txt, suarapembaruan110702.txt, suarapembaruan110702-01.txt, suarapembaruan151102.txt, suarapembaruan160702.txt, suarapembaruan241003.txt, suarapembaruan290802-001.txt, wartapenelitian000000-007.txt, wartapenelitian000000-009.txt.
Lampiran 2 Lanjutan
No Kueri Gugus Jawaban 27 swasembad
a pangan
indosiar021203-002.txt, kompas060503.txt, kompas100901.txt, kompas110201.txt, kompas150304-002.txt, kompas170104.txt, kompas230603.txt, kompas230899.txt, kompas270203-001.txt, kompas270401.txt, kompas270502-002.txt, mediaindonesia160603.txt, republika030304.txt, republika060503.txt, republika061003.txt,
republika080703.txt, republika100704-005.txt, republika220604-003.txt, republika230902-001.txt, republika230902-002.txt, republika231202-001.txt, republika231202-002.txt, 001-02.txt, suarakarya000000-002-02.txt, suarakarya000000-016.txt, suarakarya000000-021.txt,
suaramerdeka170602-001.txt, suarapembaruan110903.txt, suarapembaruan221102.txt.
28 tadah hujan gatra210704.txt, gatra301002.txt, indosiar260803-001.txt, indosiar310504.txt, jurnal000000-001.txt, kompas270502-002.txt, mediaindonesia160603.txt, mediaindonesia310503.txt, republika090804-01.txt, republika210704-004.txt, republika230704-005.txt, republika240604-005.txt, republika290604-007.txt, suarakarya000000-001-02.txt, suarakarya000000-030.txt, suaramerdeka130602.txt, suarapembaruan260703-002.txt, wartapenelitian000000-004.txt. 29 tanaman obat balaipenelitian000000-008.txt, balaipenelitian000000-009.txt, indobic120504.txt, indosiar010704.txt, indosiar260803-002.txt,
republika020604-003.txt, republika030804-002.txt, republika270604.txt, republika290604-001.txt, situshijau030203-001.txt, situshijau041203.txt, situshijau060503.txt, situshijau070103-004.txt, situshijau070103-005.txt, situshijau100603-002.txt, situshijau101103-003.txt, situshijau120303-004.txt, situshijau130103-002.txt, situshijau130503-001.txt,
situshijau140103-003.txt, situshijau140903-004.txt, situshijau180203-001.txt, situshijau180203-002.txt, situshijau201003-002.txt,
situshijau270303-001.txt, situshijau270303-003.txt, situshijau270503-002.txt, situshijau270703-situshijau270503-002.txt, situshijau290503-001.txt.
30 tanaman pangan
bitraindonesia000000-001.txt, indosiar021203-001.txt, indosiar030304.txt, indosiar050704-002.txt, indosiar130104.txt, indosiar130504.txt,
indosiar160304.txt, indosiar180304.txt, indosiar310504.txt, kompas020603.txt, kompas120102.txt, kompas120702.txt, kompas171002.txt, kompas180701.txt, kompas240302.txt, kompas260203.txt, kompas311203.txt, mediaindonesia030104.txt, mediaindonesia160603.txt, mediaindonesia170303.txt,
mediaindonesia220303.txt, republika030304.txt, republika050903.txt, republika080604-004.txt, republika150903.txt, republika200603.txt, republika220604-003.txt, republika230704-006.txt, republika241203.txt, republika260604-001.txt, republika271003.txt, situshijau070103-003.txt, situshijau140903-001.txt, situshijau181103-001.txt, situshijau290403-002.txt, suarakarya000000-001-02.txt, suarakarya000000-011.txt, suarakarya000000-013.txt, suarakarya000000-031.txt,
suaramerdeka160703.txt, suaramerdeka250302.txt,
Lampiran 4 Tabel recall dan precision untuk semua ukuran kesamaan Kueri Recall 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 bencana kekeringan 1.00 1.00 1.00 1.00 1.00 0.79 0.79 0. 79 0. 79 0. 79 0. 79 dukungan pemerintah pada pertanian 0.33 0.25 0.25 0.25 0.23 0.22 0.22 0. 22 0. 22 0. 22 0. 22 flu burung 1.00 1.00 1.00 1.00 0.94 0.94 0.94 0.94 0.91 0.91 0.91 gabah kering giling 1.00 1.00 0.71 0.61 0.55 0.54 0.53 0.53 0.52 0.50 0.47 gagal panen 1.00 1.00 0.88 0. 88 0.86 0.84 0.82 0.75 0. 75 0. 75 0. 75 harga komoditas pertanian 1.00 0.76 0. 76 0. 76 0.67 0.51 0.50 0. 50 0. 50 0. 50 0. 50 impor beras indonesia 1.00 1.00 1.00 0.87 0.79 0.70 0.60 0.54 0.47 0. 47 0. 47 industri gula 1.00 1.00 1.00 1.00 1.00 1.00 0.80 0.45 0.39 0. 39 0. 39 institut pertanian bogor 1.00 0.61 0.61 0.49 0. 49 0. 49 0. 49 0. 49 0. 49 0.45 0.45 kelangkaan pupuk 1.00 1.00 1.00 1.00 0.92 0.92 0.90 0.90 0.90 0.90 0.86 kelompok masyarakat tani 0.83 0.83 0.70 0.68 0.48 0.46 0. 46 0. 46 0.43 0.40 0.40 laboratorium pertanian 1.00 0.75 0.71 0.66 0.52 0.42 0. 42 0. 42 0. 42 0. 42 0. 42 musim panen 1.00 0.85 0.69 0.48 0.48 0.36 0.36 0.34 0.32 0.32 0.32 pembangunan untuk sektor pertanian 1.00 0.71 0.58 0.54 0.54 0.54 0.51 0.48 0.47 0.46 0.36 penerapan bioteknologi di indonesia 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 penerapan teknologi pertanian 1.00 0.77 0.76 0.72 0.69 0.65 0.65 0. 65 0. 65 0. 65 0. 65 peningkatan pendapatan petani 0.31 0.31 0.22 0. 22 0. 22 0. 22 0. 22 0. 22 0. 22 0. 22 0. 22 penyakit hewan ternak 0.00 0. 00 0.00 0. 00 0. 00 0. 00 0. 00 0. 00 0. 00 0. 00 0.00 penyuluhan pertanian 1.00 0.60 0.59 0. 59 0. 59 0. 59 0. 59 0. 59 0.57 0. 57 0. 57 perdagangan hasil pertanian 1.00 0.63 0. 63 0.48 0.48 0.35 0.28 0. 28 0. 28 0. 28 0. 28 pertanian organik 0.83 0. 83 0. 83 0. 83 0. 83 0. 83 0. 83 0. 66 0. 64 0. 63 0. 63 petani tebu 1.00 1.00 0.91 0. 91 0. 91 0. 91 0.68 0.68 0.65 0.64 0.61 peternak unggas 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 produk usaha peternakan rakyat 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 pupuk organik 1.00 0.71 0.71 0.70 0.58 0.58 0.57 0.55 0.46 0.45 0.43 riset pertanian 1.00 0.75 0.64 0.56 0.56 0. 56 0. 56 0. 56 0. 56 0. 56 0. 56 swasembada pangan 1.00 1.00 0.88 0.85 0. 85 0. 85 0. 85 0.75 0. 75 0. 75 0. 75 tadah hujan 0.90 0.90 0. 90 0. 90 0. 90 0. 90 0.80 0.73 0.75 0.63 0.56 tanaman obat 1.00 1.00 0.87 0.84 0.72 0.60 0.45 0.41 0.41 0.41 0.40 tanaman pangan 0.50 0.42 0.42 0.35 0.26 0.26 0.26 0.23 0.23 0.22 0.22 Nilai rata-rata 0.85 0.75 0.71 0.67 0.63 0.60 0.57 0.54 0.53 0.52 0.51
Lampiran 6 Tabel waktu komputasi
Dokumen Cosine Jaccard Dice
bencana kekeringan 3.732 4.278 4.28 dukungan pemerintah pada pertanian 17.816 21.594 22.23
flu burung 3.534 3.918 4.124
gabah kering giling 9.36 9.564 10.332
gagal panen 6.942 7.54 7.842
harga komoditas pertanian 29.782 41.216 46.424 impor beras indonesia 32.454 43.414 42.762 industri gula 13.24 15.898 14.488 institut pertanian bogor 18.164 17.648 19.012 kelangkaan pupuk 3.652 3.746 3.788 kelompok masyarakat tani 16.756 19.26 18.974 laboratorium pertanian 11.294 12.134 12.296 musim panen 23.47 24.868 24.506 pembangunan untuk sektor pertanian 35.56 40.148 36.566 penerapan bioteknologi di indonesia 3.866 4.228 3.874 penerapan teknologi pertanian 11.336 12.894 13.486 peningkatan pendapatan petani 12.52 13.186 13.568 penyakit hewan ternak 3.772 3.99 3.892 penyuluhan pertanian 10.154 11.17 10.714 perdagangan hasil pertanian 26.17 30.94 30.888 pertanian organik 20.608 26.196 32.314 petani tebu 18.24 23.024 23.358 peternak unggas 2.346 2.458 2.596 produk usaha peternakan rakyat 4.534 4.844 4.326 pupuk organik 13.762 14.544 16.278 riset pertanian 12.588 15.63 16.872 swasembada pangan 19.552 24.376 24.44 tadah hujan 7.166 7.708 7.536 tanaman obat 19.566 35.678 33.562 tanaman pangan 41.52 50.532 52.05 Rata-rata 15.2378 15.7311 16.8261