Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri
Pengukuran kemiripan
Pengukuran kemiripan dilakukan untuk menentukan nilai kesamaan antara dokumen yang dihasilkan pada praproses dan kueri. Pengukuran kemiripan dilakukan dengan menggunakan kueri awal dan juga kueri perluasan. Pengukuran kemiripan dilakukan dengan menggunakan cosine similarity,
seperti pada persamaan (8).
sim(dj,dk) = ). *
+ )+, *, ………... (8) Dengan dj adalah vektor dokumen dan dk sebagai vektor kueri. Hasil dari pengukuran kemiripan digunakan sebagai dasar untuk
menentukan dokumen yang akan
ditemukembalikan.
Evaluasi
Metode evaluasi yang digunakan recall
dan precision. Untuk setiap setiap kueri yang digunakan telah ditentukan dokumen apa saja yang relevan. Dari setiap hasil temu kembali dilakukan penghitungan nilai precision untuk sebelas tingkat nilai recall. Hasil nilai
precision untuk masing-masing kueri
kemudian dirata-ratakan untuk mendapatkan nilai average precision (AVP). Untuk melihat pengaruh dari penggunaan teknik ekspansi kueri dilakukan dengan penentuan nilai recall precision terhadap empat jenis proses temu-kembali, yaitu:
• QE0, yaitu proses temu kembali tanpa ekspansi kueri
• QE1, yaitu proses temu kembali dengan mengambil satu istilah teratas sebagai istilah ekspansi
• QE2, yaitu proses temu kembali dengan mengambil dua istilah teratas sebagai istilah ekspansi
• QE3, yaitu proses temu kembali dengan mengambil tiga istilah teratas sebagai istilah ekspansi.
Perangkat keras dan perangkat lunak
Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut:
• Perangkat keras: Processor Intel Pentium Dual-Core, memori DDR RAM 384 MB dan harddisk 70 GB.
• Perangkat lunak: Microsoft Windows XP Service Pack 2, PHP 5.1.6, Apache 2.2.3, MySQL 5.0.24.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian
Koleksi dokumen yang digunakan untuk menguji sistem yang telah dibuat diambil dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Koleksi terdiri dari 1000
Pemilihan istilah ekspansi
Pemilihan istilah ekspansi dilakukan untuk menentukkan istilah hasil terjemahan yang akan digunakan untuk ekspansi. Pemilihan dilakukan berdasarkan nilai idf yang dimiliki oleh masing-masing istilah. Nilai idf yang telah diperoleh melalui tahap praproses, digunakan sebagai dasar untuk menentukan bobot istilah dari istilah hasil terjemahan.
Nilai idf yang diperoleh oleh setiap istilah menunjukkan tingkat kepentingan dari sitilah tersebut, yaitu dengan menghitung banyaknya dokumen yang mengandung istilah tertentu. Nilai idf untuk setiap istilah dapat dihitung dengan menggunakan Persamaan 2.
Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri
Pengukuran kemiripan
Pengukuran kemiripan dilakukan untuk menentukan nilai kesamaan antara dokumen yang dihasilkan pada praproses dan kueri. Pengukuran kemiripan dilakukan dengan menggunakan kueri awal dan juga kueri perluasan. Pengukuran kemiripan dilakukan dengan menggunakan cosine similarity,
seperti pada persamaan (8).
sim(dj,dk) = ). *
+ )+, *, ………... (8) Dengan dj adalah vektor dokumen dan dk sebagai vektor kueri. Hasil dari pengukuran kemiripan digunakan sebagai dasar untuk
menentukan dokumen yang akan
ditemukembalikan.
Evaluasi
Metode evaluasi yang digunakan recall
dan precision. Untuk setiap setiap kueri yang digunakan telah ditentukan dokumen apa saja yang relevan. Dari setiap hasil temu kembali dilakukan penghitungan nilai precision untuk sebelas tingkat nilai recall. Hasil nilai
precision untuk masing-masing kueri
kemudian dirata-ratakan untuk mendapatkan nilai average precision (AVP). Untuk melihat pengaruh dari penggunaan teknik ekspansi kueri dilakukan dengan penentuan nilai recall precision terhadap empat jenis proses temu-kembali, yaitu:
• QE0, yaitu proses temu kembali tanpa ekspansi kueri
• QE1, yaitu proses temu kembali dengan mengambil satu istilah teratas sebagai istilah ekspansi
• QE2, yaitu proses temu kembali dengan mengambil dua istilah teratas sebagai istilah ekspansi
• QE3, yaitu proses temu kembali dengan mengambil tiga istilah teratas sebagai istilah ekspansi.
Perangkat keras dan perangkat lunak
Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut:
• Perangkat keras: Processor Intel Pentium Dual-Core, memori DDR RAM 384 MB dan harddisk 70 GB.
• Perangkat lunak: Microsoft Windows XP Service Pack 2, PHP 5.1.6, Apache 2.2.3, MySQL 5.0.24.
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian
Koleksi dokumen yang digunakan untuk menguji sistem yang telah dibuat diambil dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Koleksi terdiri dari 1000
dokumen dengan format teks (.txt) dengan struktur tag XML pada masing-masing dokumen. Contoh dokumen pengujian yang digunakan dapat dilihat di Lampiran 1. Tag
yang digunakan dalam koleksi dokumen yang digunakan, yaitu:
• <doc></doc>, mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih jelas.
• <docno></docno>, mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal berita, dan urutan berita pada tanggal yang sama.
• <title></title>, mewakili judul dokumen.
• <author></author>, mewakili penulis dokumen.
• <date></date>, mewakili tanggal penulisan.
• <text></text>, mewakili isi dokumen. Selain itu untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan pasangan kueri-dokumen relevan yang diambil dari Laboratorium Temu Kembali Informasi. Daftar kueri dan jumlah dokumen relevan dapat dilihat di Lampiran 2. Untuk memperoleh istilah sebagai perluasan dari kueri digunakan kamus Indonesia-Inggris dan Inggris-Indonesia yang sudah tersedia. Daftar istilah kueri dan istiah hasil terjemahan dapat dilihat di Lampiran 3.
Pengolahan Dokumen
Tahap awal dari pemrosesan dokumen adalah tokenisasi. Pada tahapan ini diambil setiap kata unik dari masing-masing dokumen. Selanjutnya dalam tahapan ini juga dilakukan pembuangan sejumlah kata umum yang dianggap tidak berpotensi untuk digunakan sebagai penciri dokumen. Daftar kata buangan menggunakan hasil penelitian (Ridha 2002) seperti pada Lampiran 4. Hasil dari tahap tokenisasi berupa daftar kata unik beserta frekuensi kemunculan kata (tf) tersebut pada masing-masing dokumen. Selain itu juga diperoleh banyaknya dokumen yang mengandung kata unik penciri dokumen (df).
Teknik pembobotan (weighting) yang digunakan adalah pembobotan tf.idf. Dengan menggunkan nilai (tf) dan (df) pada tahapan sebelumnya diperoleh bobot setiap kata unik. Hasil dari tahap pengindeksan disampan dalam file teks tersendiri, hal ini bertujuan
untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.
Ekspansi Kueri
Proses ekspansi kueri dengan metode penerjemahan dilakukan tanpa sepengetahuan pengguna (Automatic Query Expansion). Pada tampilan pengguna (user interface) diberikan dua pilihan untuk menjalankan sistem. Pencarian dengan menggunakan temu kembali klasik atau dengan menggunakan ekspansi kueri. Jika yang dipilih adalah dengan menggunakan ekspansi kueri maka dilakukan proses penerjemahan untuk memodifikasi kueri.
Ekspansi kueri dilakukan dengan menerjemahkan setiap kueri dengan menggunakan kamus dwibahasa. Untuk setiap kueri yang masuk diproses sehingga dihasilkan token kueri, selanjutnya untuk setiap token kueri yang ada akan dicari
padanannya dalam Bahasa Inggris.
Selanjutnya kata dalam Bahasa Inggris diterjemahkan kembali ke dalam Bahasa Indonesia, sehingga diperoleh beberapa istilah baru yang digunakan sebagai istilah untuk ekspansi kueri.
Proses penerjemahan menghasilkan sejumlah istilah baru dalam Bahasa Indonesia. Untuk menentukan istilah yang digunakan pada ekspansi kueri dilakukan pemilihan berdasarkan nilai idf dari masing-masing istilah hasil penerjemahan.
Evaluasi Sistem Temu Kembali Informasi
Proses evaluasi dilakukan setelah hasil temu kembali infomasi diperoleh. Perbandingan dilakukan antara hasil temu kembali tanpa menggunakan ekspansi kueri dan hasil temu kembali dengan menggunkan ekspansi kueri. Untuk evaluasi digunakan nilai recall dan precision dari hasil pengujian terhadap 30 pasangan kueri dan dokumen relevan.
Awal dari tahap pengujian adalah melakukan kegiatan temu kembali dengan menggunakan metode klasik. Kegiatan temu kembali dilakukan terhadap 30 kueri yang sudah disediakan. Selanjutnya untuk masing-masing hasil temu kembali dari setiap kueri dihitung nilai recall dan precision. Gambar 3 menunjukkan hasil dari interpolasi dengan menggunakan nilai rata-rata terhadap nilai
recall dan precision pada hasil temu kembali tanpa menggunakan ekspansi kueri.
Proses selanjutnya ad dengan menggunakan ekspa yang digunakan untuk m diperoleh dengan metode pe untuk setiap kueri Bahasa padanan katanya dalam Bah selanjutnya istilah dalam ditrjemahkan kembali ke Indonesia. Sehingga akh beberapa istilah baru yang untuk ekspansi kueri. Penen akan ditambahkan pada dengan menggunakan nilai masing istilah. Setiap istilah berdasarkan nilai idf
Selanjutnya istilah dengan ni tinggi dipilih menjadi istilah Dalam tahapan pengujian kueri dilakukan percobaan se yaitu dengan mengambil sa dua istilah (QE2), dan tiga is posisi urutan teratas.
Selanjutnya untuk baha
dilakukan kegiatan t
menggunakan ekspansi kuer istilah baru yang sudah diten nilai recall dan precision
masing-masing pengujian pengaruh dari penggunaan digunakan.
Gambar 3 Grafik recall
kembali Kurva recall dan p
pengujian QE1 yaitu ekspan menggunkan jumlah istilah dapat dilihat pada Gamba menggunakan satu istilah maka istilah yang diambil ad memiliki nilai idf tertinggi. tinggi menunjukkan bahwa memiliki peluang kemuncu pada koleksi dokumen.
adalah pengujian pansi kueri. Istilah memperluas kueri penerjemahan. Jadi a Indonesia dicari ahasa Inggris, dan Bahasa Inggris e dalam Bahasa khirnya diperoleh g akan digunakan entuan istilah yang kueri dilakukan i idf dari masing-lah baru diurutkan
yang dimiliki. nilai idf yang lebih h untuk ekspansi. an dengan ekspansi sebanyak tiga kali, satu istilah (QE1), istilah (QE3) pada han perbandingan
temu kembali
eri dengan jumlah entukan. Penentuan
n dilakukan pada n untuk melihat an metode yang
all precision temu
precision untuk
pansi kueri dengan lah sebanyak satu bar 4. Pada saat h untuk ekspansi adalah istilah yang gi. Nilai idf yang a istilah tersebut culan yang tinggi
Pengujian QE2 dengan mengg istilah untuk ekspansi menghas
recall precision seperti pada Gam pengujian ini digunakan dua i ekspansi kueri. Istilah yang dipili istilah yang memiliki nilai idf terti Pengujian QE3 dengan mengg istilah untuk ekspansi menghas
recall precision seperti pada Gam pengujian ini digunakan tiga i ekspansi kueri. Istilah yang dipilih istilah yang memiliki nilai idf terti
Gambar 4 Grafik QE1
Gambar 5 Grafik QE2
Gambar 6 Grafik QE3
nggunakan dua asilkan grafik ambar 5. Pada istilah untuk ilih adalah dua rtinggi.
ggunakan tiga asilkan grafik ambar 6. Pada istilah untuk ilih adalah tiga
Penggunaan metode pen dengan kamus dwibahasa da istilah ekspansi kueri pada dilakukan hanya mampu me
precision untuk dua kueri m kueri yang diujikan, dan pe pada saat penambahan satu Tabel 2 dan Tabel 3 men istilah ekspansi yang m terjemahan.
Perbandingan untuk tiga p ekspansi kueri dapat dilihat Dari grafik terlihat ba kembali yang lebih baik QE1. Pada penggunaan sa ekspansi kueri, ini berarti memiliki nilai idf yang menunjukkan bahwa istila memiliki peluang kemuncu pada koleksi dokumen. Tabel 2 Contoh istilah
terjemahan y meningkatkan ni
Istilah Hasil terj
impor
mendatangkan, d mengimpor, bara kepentingan, per impor, luar, nege beras nasi, gabah, bera penyakit Sakit, keadaan, p hewan binatang, piaraan ternak ternak, peternaka
Tabel 3 Contoh istilah terjemahan yang meningkatkan ni
Istilah Hasil t
flu pingsan, pilek, b angin, tertarik, m gula manisan, sayang,
bersifat, gula harga hadiah, mengharg
ongkos, dihargai,
Pada Tabel 4 dapat dilih nilai AVP dari proses temu k dengan dan tanpa menggu kueri. Nilai yang dihasi dikatakan cukup kecil, hal
enerjemahan kueri dalam menentukan da pengujian yang meningkatkan nilai i masukan dari 30 peningkatan terjadi tu istilah ekspansi. enunjukkan contoh merupakan hasil a pengujian dengan at pada Gambar 7. bahwa hasil temu ditunjukkan oleh satu istilah untuk rti istilah tersebut ng tertinggi. Ini ilah yang terpilih culan yang tinggi kueri dan hasil
yang berhasil nilai precision erjemahan , diimpor, rang, erdagangan, geri ras, padi , penyakit an, hewan kan
kueri dan hasil ang tidak berhasil nilai precision
l terjemahan berdarah, dingin, mata, masuk
g, enak, manis, hati, argai, berharga, ganti, ai, menilai, nilai, harga
ilihat perbandingan kembali informasi gunakan ekspansi silkan ini dapat al ini dikarenakan
kondisi dokumen pada korp terdapat kesalahan penulisan isi dokumen. Selain itu penyebab d nilai AVP dikarenakan untuk se kueri dengan dokumen releva banyak kueri yang memiliki se dokumen relevan. Sehingga jika d
dengan jumlah dokumen y
menghasilkan nilai recall dan pre
kecil.
Gambar 7 Grafik perbandin
precision pada te dengan ekspansi k Tabel 4 Perbandingan nilai AVP
Metode Nilai AVP
Tanpa QE 0.524
QE1 0.461
QE2 0.429
QE3 0.407
Pada Gambar 8 dapat dilihat p hasil nilai recall dan precision
kembali informasi dengan menggunakan ekspansi kueri. D bahwa hasil temu kembali deng kueri tidak lebih baik jika d dengan proses temu kembali tan kueri. Pada grafik precision untu kembali yang menggunakan ek (QE1, QE2, QE3) malah mengh yang lebih kecil dibanding menggunkan ekspansi kueri (QE dikarenakan istilah yang meru terjemahan kueri cukup banyak d diantaranya tidak sesuai deng pencarian. Masalah tersebut me hasil temu kembali yang dipe tidak sesuai dengan yang dihara
rpus, dimana i pada koleksi dari kecilnya setiap pasang van, terdapat sedikit jumlah a dibandingkan yang besar precision yang ingan recall temu kembali i kueri P t perbandingan on hasil temu dan tanpa Dapat dilihat ngan ekspansi dibandingkan tanpa ekspansi tuk hasil temu ekspansi kueri ghasilkan nilai ingkan tanpa QE0). Hal ini rupakan hasil dan beberapa ngan konteks mengakibatkan peroleh malah arapkan. Akan
tetapi untuk beberapa kuer cakupan khusus di bidang menghasilkan hasil pencarian
Gambar 8 Grafik perba
precision ant kembali den ekspansi kuer
Perbandingan Metode Eksp
Pada penelitan seb berhubungan dengan ekspa dibahas penggunaan simil
(Paiki 2006) dan peluang b 2008). Untuk dua pene pengujian untuk melihat dilakukan dengan melakuk terhadap tiga kegiatan temu temu kembali tanpa ekspans kembali dengan 5 istilahdan dari penelitian sebelumnya ak dengan penggunaan metod kueri dengan kamus dwibah kembali tanpa ekspansi k kembali dengan 1 istilah dan
Dari Gambar 9 dapat dili hasil temu kembali tanp ekspansi (QE0, IRX0, NoT
idf). Dari Gambar 9 terlih
precision yang dihasilkan QE grafik similiarity thesaurus, recall 0 sampai dengan 0.4 g di atas grafik peluang bers pada nilai recall 0 nilai dihasilkan QE0 berada dib
thesaurus, tapi untuk nilai r
QE0 selalu berada di atas
thesaurus. Dari grafik yan perbandingan hasil temu
eri yang memiliki ng pertanian bisa an yang lebih baik.
rbandingan recall
antara proses temu engan dan tanpa eri
spansi
ebelumnya yang spansi kueri telah
ilarity thesaurus bersyarat (Rusidi nelitian terdahulu t kinerja sistem ukan perbandingan mu kembali, yaitu nsi kueri, dan temu an 10 istilah. Hasil akan dibandingkan ode penerjemahan ahasa dengan temu kueri dan temu n 2 istilah. ilihat perbandingan npa menggunakan TH-1, dan NoTH-lihat bahwa grafik
QE0 berada di atas
us, dan pada nilai grafik QE0 berada ersyarat. Walaupun ai precision yang ibawah similiarity recall selanjutnya s grafik similiarity ang menunjukkan u kembali dapat
dikatakan bahwa temu kem memberikan hasil yang l dibandingkan similarity thesaurus
tidak selalu lebih baik jika d dengan hasil temu kembali m peluang bersyarat. Peningkatan ni yang dihasilkan pada temu kemb terjadi karena penggunaan kolek yang lebih besar yaitu 1000, seda proses temu kembali pada du sebelumnya hanya menggun dokumen.
Gambar 9 Ekspansi kueri dengan istilah 0 model pelu
similarity thesaur penerjemahan kueri. Gambar 10 Ekspansi ku penambahan 5 model pelua similarity thes istilah hasil p kueri. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 P re c is io n Recall 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 Pre ci si o n Recall embali QE0 lebih baik
us, tetapi QE0 dibandingkan menggunakan nilai precision
bali QE0 bisa leksi dokumen dangkan untuk dua penelitian unakan 700 n penambahan eluang, model urus dan kueri dengan 5 istilah pada uang, model esaurus dan 1 penerjemahan 0.7 0.8 0.9 1 0.7 0.8 0.9 1
Perbandingan hasil temu menggunakan ekspansi k terhadap pengujian dengan istilah ekspansi pada model p dan similarity thesaurus
penerjemahan kueri mengg ekspansi. Proses perbanding karena pada metode ekspan hasil terjemahan 1 is memberikan hasil yang lebi dua pengujian lainnya, yaitu tiga istilah ekspansi. Pada G bahwa grafik QE1 berada di TH5-1 dan TH5-idf pada nil untuk nilai recall selanjut selalu berada di atas g
thesaurus (TH5-1 dan TH5-id Gambar 11 Ekspansi penambaha model p similarity t istilah has kueri. Hasil perbandingan men proses temu kembali denga dengan menggunakan pen memberikan hasil yang dibandingkan similiarity
Perbandingan antara ekspan penerjemahan kueri dan bersyarat menunjukkan ba
recall 0 model pelu
menghasilkan nilai precision
dibandingkan dengan metod kueri. Tetapi untuk nilai re
nilai precision yang dihas berbeda.
Perbandingan selanjut terhadap ekspansi kueri bersyarat dan similarity thes
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0 0.1 0.2 0.3 0.4 0.5 Pre ci si o n Reca u kembali dengan kueri dilakukan n menggunakan 5 l peluang bersyarat dengan teknik ggunakan 1 istilah ngan ini dilakukan ansi kueri dengan istilah ekspansi bih baik dibanding itu dengan dua dan Gambar 10 terlihat di bawah dua grafik nilai recall 0, tetapi utnya grafik QE1 grafik similiarity idf).
kueri dengan han 10 istilah pada peluang, model
thesaurus dan 2 asil penerjemahan enunjukkan bahwa gan ekspansi kueri enerjemahan kueri ng lebih baik
rity thesaurus.
ansi kueri dengan model peluang bahwa pada nilai eluang bersyarat
n yang lebih tinggi tode penerjemahan
recall selanjutnya asilkan tidak jauh jutnya dilakukan dengan peluang
esaurus dengan 10
istilah ekspansi dan penerjem dengan dua istilah ekspansi (G Pada nilai recall 0 nilai pre
dihasilkan metode penerjemahan kecil dibandingkan dengan hasi
thesaurus, tetapi untuk nilai recal
(sampai dengan 0.9) nilai prec
lebih tinggi. Untuk perbanding model peluang bersyarat pada n nilai precision yang dihasil penerjemahan kueri lebih kecil, nilai recall selanjutnya nilai pre
dihasilkan teknik penerjemahan lebih tinggi daripada yang dihas peluang bersyarat.
Dari hasil perbandingan ekspansi kueri terlihat bahwa ki ekspansi dengan menggunka penerjemahan kueri memiliki has baik jika dibandingkan dengan model peluang bersyarat dan
thesaurus. Hal ini ditunjukkan
precision yang dihasilkan o
penerjemahan yang lebih tinggi semua tingkat nilai recall. Penin
precision yang terjadi diakibat koleksi dokumen pengujian yang sehingga jumlah dokumen re ditemukembalikan juga menjadi le