• Tidak ada hasil yang ditemukan

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri

Pengukuran kemiripan

Pengukuran kemiripan dilakukan untuk menentukan nilai kesamaan antara dokumen yang dihasilkan pada praproses dan kueri. Pengukuran kemiripan dilakukan dengan menggunakan kueri awal dan juga kueri perluasan. Pengukuran kemiripan dilakukan dengan menggunakan cosine similarity,

seperti pada persamaan (8).

sim(dj,dk) = ). *

+ )+, *, ………... (8) Dengan dj adalah vektor dokumen dan dk sebagai vektor kueri. Hasil dari pengukuran kemiripan digunakan sebagai dasar untuk

menentukan dokumen yang akan

ditemukembalikan.

Evaluasi

Metode evaluasi yang digunakan recall

dan precision. Untuk setiap setiap kueri yang digunakan telah ditentukan dokumen apa saja yang relevan. Dari setiap hasil temu kembali dilakukan penghitungan nilai precision untuk sebelas tingkat nilai recall. Hasil nilai

precision untuk masing-masing kueri

kemudian dirata-ratakan untuk mendapatkan nilai average precision (AVP). Untuk melihat pengaruh dari penggunaan teknik ekspansi kueri dilakukan dengan penentuan nilai recall precision terhadap empat jenis proses temu-kembali, yaitu:

• QE0, yaitu proses temu kembali tanpa ekspansi kueri

• QE1, yaitu proses temu kembali dengan mengambil satu istilah teratas sebagai istilah ekspansi

• QE2, yaitu proses temu kembali dengan mengambil dua istilah teratas sebagai istilah ekspansi

• QE3, yaitu proses temu kembali dengan mengambil tiga istilah teratas sebagai istilah ekspansi.

Perangkat keras dan perangkat lunak

Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut:

• Perangkat keras: Processor Intel Pentium Dual-Core, memori DDR RAM 384 MB dan harddisk 70 GB.

• Perangkat lunak: Microsoft Windows XP Service Pack 2, PHP 5.1.6, Apache 2.2.3, MySQL 5.0.24.

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Koleksi dokumen yang digunakan untuk menguji sistem yang telah dibuat diambil dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Koleksi terdiri dari 1000

Pemilihan istilah ekspansi

Pemilihan istilah ekspansi dilakukan untuk menentukkan istilah hasil terjemahan yang akan digunakan untuk ekspansi. Pemilihan dilakukan berdasarkan nilai idf yang dimiliki oleh masing-masing istilah. Nilai idf yang telah diperoleh melalui tahap praproses, digunakan sebagai dasar untuk menentukan bobot istilah dari istilah hasil terjemahan.

Nilai idf yang diperoleh oleh setiap istilah menunjukkan tingkat kepentingan dari sitilah tersebut, yaitu dengan menghitung banyaknya dokumen yang mengandung istilah tertentu. Nilai idf untuk setiap istilah dapat dihitung dengan menggunakan Persamaan 2.

Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri

Pengukuran kemiripan

Pengukuran kemiripan dilakukan untuk menentukan nilai kesamaan antara dokumen yang dihasilkan pada praproses dan kueri. Pengukuran kemiripan dilakukan dengan menggunakan kueri awal dan juga kueri perluasan. Pengukuran kemiripan dilakukan dengan menggunakan cosine similarity,

seperti pada persamaan (8).

sim(dj,dk) = ). *

+ )+, *, ………... (8) Dengan dj adalah vektor dokumen dan dk sebagai vektor kueri. Hasil dari pengukuran kemiripan digunakan sebagai dasar untuk

menentukan dokumen yang akan

ditemukembalikan.

Evaluasi

Metode evaluasi yang digunakan recall

dan precision. Untuk setiap setiap kueri yang digunakan telah ditentukan dokumen apa saja yang relevan. Dari setiap hasil temu kembali dilakukan penghitungan nilai precision untuk sebelas tingkat nilai recall. Hasil nilai

precision untuk masing-masing kueri

kemudian dirata-ratakan untuk mendapatkan nilai average precision (AVP). Untuk melihat pengaruh dari penggunaan teknik ekspansi kueri dilakukan dengan penentuan nilai recall precision terhadap empat jenis proses temu-kembali, yaitu:

• QE0, yaitu proses temu kembali tanpa ekspansi kueri

• QE1, yaitu proses temu kembali dengan mengambil satu istilah teratas sebagai istilah ekspansi

• QE2, yaitu proses temu kembali dengan mengambil dua istilah teratas sebagai istilah ekspansi

• QE3, yaitu proses temu kembali dengan mengambil tiga istilah teratas sebagai istilah ekspansi.

Perangkat keras dan perangkat lunak

Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut:

• Perangkat keras: Processor Intel Pentium Dual-Core, memori DDR RAM 384 MB dan harddisk 70 GB.

• Perangkat lunak: Microsoft Windows XP Service Pack 2, PHP 5.1.6, Apache 2.2.3, MySQL 5.0.24.

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Koleksi dokumen yang digunakan untuk menguji sistem yang telah dibuat diambil dari korpus yang sudah tersedia di Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Koleksi terdiri dari 1000

dokumen dengan format teks (.txt) dengan struktur tag XML pada masing-masing dokumen. Contoh dokumen pengujian yang digunakan dapat dilihat di Lampiran 1. Tag

yang digunakan dalam koleksi dokumen yang digunakan, yaitu:

<doc></doc>, mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih jelas.

<docno></docno>, mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal berita, dan urutan berita pada tanggal yang sama.

<title></title>, mewakili judul dokumen.

<author></author>, mewakili penulis dokumen.

<date></date>, mewakili tanggal penulisan.

<text></text>, mewakili isi dokumen. Selain itu untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan pasangan kueri-dokumen relevan yang diambil dari Laboratorium Temu Kembali Informasi. Daftar kueri dan jumlah dokumen relevan dapat dilihat di Lampiran 2. Untuk memperoleh istilah sebagai perluasan dari kueri digunakan kamus Indonesia-Inggris dan Inggris-Indonesia yang sudah tersedia. Daftar istilah kueri dan istiah hasil terjemahan dapat dilihat di Lampiran 3.

Pengolahan Dokumen

Tahap awal dari pemrosesan dokumen adalah tokenisasi. Pada tahapan ini diambil setiap kata unik dari masing-masing dokumen. Selanjutnya dalam tahapan ini juga dilakukan pembuangan sejumlah kata umum yang dianggap tidak berpotensi untuk digunakan sebagai penciri dokumen. Daftar kata buangan menggunakan hasil penelitian (Ridha 2002) seperti pada Lampiran 4. Hasil dari tahap tokenisasi berupa daftar kata unik beserta frekuensi kemunculan kata (tf) tersebut pada masing-masing dokumen. Selain itu juga diperoleh banyaknya dokumen yang mengandung kata unik penciri dokumen (df).

Teknik pembobotan (weighting) yang digunakan adalah pembobotan tf.idf. Dengan menggunkan nilai (tf) dan (df) pada tahapan sebelumnya diperoleh bobot setiap kata unik. Hasil dari tahap pengindeksan disampan dalam file teks tersendiri, hal ini bertujuan

untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.

Ekspansi Kueri

Proses ekspansi kueri dengan metode penerjemahan dilakukan tanpa sepengetahuan pengguna (Automatic Query Expansion). Pada tampilan pengguna (user interface) diberikan dua pilihan untuk menjalankan sistem. Pencarian dengan menggunakan temu kembali klasik atau dengan menggunakan ekspansi kueri. Jika yang dipilih adalah dengan menggunakan ekspansi kueri maka dilakukan proses penerjemahan untuk memodifikasi kueri.

Ekspansi kueri dilakukan dengan menerjemahkan setiap kueri dengan menggunakan kamus dwibahasa. Untuk setiap kueri yang masuk diproses sehingga dihasilkan token kueri, selanjutnya untuk setiap token kueri yang ada akan dicari

padanannya dalam Bahasa Inggris.

Selanjutnya kata dalam Bahasa Inggris diterjemahkan kembali ke dalam Bahasa Indonesia, sehingga diperoleh beberapa istilah baru yang digunakan sebagai istilah untuk ekspansi kueri.

Proses penerjemahan menghasilkan sejumlah istilah baru dalam Bahasa Indonesia. Untuk menentukan istilah yang digunakan pada ekspansi kueri dilakukan pemilihan berdasarkan nilai idf dari masing-masing istilah hasil penerjemahan.

Evaluasi Sistem Temu Kembali Informasi

Proses evaluasi dilakukan setelah hasil temu kembali infomasi diperoleh. Perbandingan dilakukan antara hasil temu kembali tanpa menggunakan ekspansi kueri dan hasil temu kembali dengan menggunkan ekspansi kueri. Untuk evaluasi digunakan nilai recall dan precision dari hasil pengujian terhadap 30 pasangan kueri dan dokumen relevan.

Awal dari tahap pengujian adalah melakukan kegiatan temu kembali dengan menggunakan metode klasik. Kegiatan temu kembali dilakukan terhadap 30 kueri yang sudah disediakan. Selanjutnya untuk masing-masing hasil temu kembali dari setiap kueri dihitung nilai recall dan precision. Gambar 3 menunjukkan hasil dari interpolasi dengan menggunakan nilai rata-rata terhadap nilai

recall dan precision pada hasil temu kembali tanpa menggunakan ekspansi kueri.

Proses selanjutnya ad dengan menggunakan ekspa yang digunakan untuk m diperoleh dengan metode pe untuk setiap kueri Bahasa padanan katanya dalam Bah selanjutnya istilah dalam ditrjemahkan kembali ke Indonesia. Sehingga akh beberapa istilah baru yang untuk ekspansi kueri. Penen akan ditambahkan pada dengan menggunakan nilai masing istilah. Setiap istilah berdasarkan nilai idf

Selanjutnya istilah dengan ni tinggi dipilih menjadi istilah Dalam tahapan pengujian kueri dilakukan percobaan se yaitu dengan mengambil sa dua istilah (QE2), dan tiga is posisi urutan teratas.

Selanjutnya untuk baha

dilakukan kegiatan t

menggunakan ekspansi kuer istilah baru yang sudah diten nilai recall dan precision

masing-masing pengujian pengaruh dari penggunaan digunakan.

Gambar 3 Grafik recall

kembali Kurva recall dan p

pengujian QE1 yaitu ekspan menggunkan jumlah istilah dapat dilihat pada Gamba menggunakan satu istilah maka istilah yang diambil ad memiliki nilai idf tertinggi. tinggi menunjukkan bahwa memiliki peluang kemuncu pada koleksi dokumen.

adalah pengujian pansi kueri. Istilah memperluas kueri penerjemahan. Jadi a Indonesia dicari ahasa Inggris, dan Bahasa Inggris e dalam Bahasa khirnya diperoleh g akan digunakan entuan istilah yang kueri dilakukan i idf dari masing-lah baru diurutkan

yang dimiliki. nilai idf yang lebih h untuk ekspansi. an dengan ekspansi sebanyak tiga kali, satu istilah (QE1), istilah (QE3) pada han perbandingan

temu kembali

eri dengan jumlah entukan. Penentuan

n dilakukan pada n untuk melihat an metode yang

all precision temu

precision untuk

pansi kueri dengan lah sebanyak satu bar 4. Pada saat h untuk ekspansi adalah istilah yang gi. Nilai idf yang a istilah tersebut culan yang tinggi

Pengujian QE2 dengan mengg istilah untuk ekspansi menghas

recall precision seperti pada Gam pengujian ini digunakan dua i ekspansi kueri. Istilah yang dipili istilah yang memiliki nilai idf terti Pengujian QE3 dengan mengg istilah untuk ekspansi menghas

recall precision seperti pada Gam pengujian ini digunakan tiga i ekspansi kueri. Istilah yang dipilih istilah yang memiliki nilai idf terti

Gambar 4 Grafik QE1

Gambar 5 Grafik QE2

Gambar 6 Grafik QE3

nggunakan dua asilkan grafik ambar 5. Pada istilah untuk ilih adalah dua rtinggi.

ggunakan tiga asilkan grafik ambar 6. Pada istilah untuk ilih adalah tiga

Penggunaan metode pen dengan kamus dwibahasa da istilah ekspansi kueri pada dilakukan hanya mampu me

precision untuk dua kueri m kueri yang diujikan, dan pe pada saat penambahan satu Tabel 2 dan Tabel 3 men istilah ekspansi yang m terjemahan.

Perbandingan untuk tiga p ekspansi kueri dapat dilihat Dari grafik terlihat ba kembali yang lebih baik QE1. Pada penggunaan sa ekspansi kueri, ini berarti memiliki nilai idf yang menunjukkan bahwa istila memiliki peluang kemuncu pada koleksi dokumen. Tabel 2 Contoh istilah

terjemahan y meningkatkan ni

Istilah Hasil terj

impor

mendatangkan, d mengimpor, bara kepentingan, per impor, luar, nege beras nasi, gabah, bera penyakit Sakit, keadaan, p hewan binatang, piaraan ternak ternak, peternaka

Tabel 3 Contoh istilah terjemahan yang meningkatkan ni

Istilah Hasil t

flu pingsan, pilek, b angin, tertarik, m gula manisan, sayang,

bersifat, gula harga hadiah, mengharg

ongkos, dihargai,

Pada Tabel 4 dapat dilih nilai AVP dari proses temu k dengan dan tanpa menggu kueri. Nilai yang dihasi dikatakan cukup kecil, hal

enerjemahan kueri dalam menentukan da pengujian yang meningkatkan nilai i masukan dari 30 peningkatan terjadi tu istilah ekspansi. enunjukkan contoh merupakan hasil a pengujian dengan at pada Gambar 7. bahwa hasil temu ditunjukkan oleh satu istilah untuk rti istilah tersebut ng tertinggi. Ini ilah yang terpilih culan yang tinggi kueri dan hasil

yang berhasil nilai precision erjemahan , diimpor, rang, erdagangan, geri ras, padi , penyakit an, hewan kan

kueri dan hasil ang tidak berhasil nilai precision

l terjemahan berdarah, dingin, mata, masuk

g, enak, manis, hati, argai, berharga, ganti, ai, menilai, nilai, harga

ilihat perbandingan kembali informasi gunakan ekspansi silkan ini dapat al ini dikarenakan

kondisi dokumen pada korp terdapat kesalahan penulisan isi dokumen. Selain itu penyebab d nilai AVP dikarenakan untuk se kueri dengan dokumen releva banyak kueri yang memiliki se dokumen relevan. Sehingga jika d

dengan jumlah dokumen y

menghasilkan nilai recall dan pre

kecil.

Gambar 7 Grafik perbandin

precision pada te dengan ekspansi k Tabel 4 Perbandingan nilai AVP

Metode Nilai AVP

Tanpa QE 0.524

QE1 0.461

QE2 0.429

QE3 0.407

Pada Gambar 8 dapat dilihat p hasil nilai recall dan precision

kembali informasi dengan menggunakan ekspansi kueri. D bahwa hasil temu kembali deng kueri tidak lebih baik jika d dengan proses temu kembali tan kueri. Pada grafik precision untu kembali yang menggunakan ek (QE1, QE2, QE3) malah mengh yang lebih kecil dibanding menggunkan ekspansi kueri (QE dikarenakan istilah yang meru terjemahan kueri cukup banyak d diantaranya tidak sesuai deng pencarian. Masalah tersebut me hasil temu kembali yang dipe tidak sesuai dengan yang dihara

rpus, dimana i pada koleksi dari kecilnya setiap pasang van, terdapat sedikit jumlah a dibandingkan yang besar precision yang ingan recall temu kembali i kueri P t perbandingan on hasil temu dan tanpa Dapat dilihat ngan ekspansi dibandingkan tanpa ekspansi tuk hasil temu ekspansi kueri ghasilkan nilai ingkan tanpa QE0). Hal ini rupakan hasil dan beberapa ngan konteks mengakibatkan peroleh malah arapkan. Akan

tetapi untuk beberapa kuer cakupan khusus di bidang menghasilkan hasil pencarian

Gambar 8 Grafik perba

precision ant kembali den ekspansi kuer

Perbandingan Metode Eksp

Pada penelitan seb berhubungan dengan ekspa dibahas penggunaan simil

(Paiki 2006) dan peluang b 2008). Untuk dua pene pengujian untuk melihat dilakukan dengan melakuk terhadap tiga kegiatan temu temu kembali tanpa ekspans kembali dengan 5 istilahdan dari penelitian sebelumnya ak dengan penggunaan metod kueri dengan kamus dwibah kembali tanpa ekspansi k kembali dengan 1 istilah dan

Dari Gambar 9 dapat dili hasil temu kembali tanp ekspansi (QE0, IRX0, NoT

idf). Dari Gambar 9 terlih

precision yang dihasilkan QE grafik similiarity thesaurus, recall 0 sampai dengan 0.4 g di atas grafik peluang bers pada nilai recall 0 nilai dihasilkan QE0 berada dib

thesaurus, tapi untuk nilai r

QE0 selalu berada di atas

thesaurus. Dari grafik yan perbandingan hasil temu

eri yang memiliki ng pertanian bisa an yang lebih baik.

rbandingan recall

antara proses temu engan dan tanpa eri

spansi

ebelumnya yang spansi kueri telah

ilarity thesaurus bersyarat (Rusidi nelitian terdahulu t kinerja sistem ukan perbandingan mu kembali, yaitu nsi kueri, dan temu an 10 istilah. Hasil akan dibandingkan ode penerjemahan ahasa dengan temu kueri dan temu n 2 istilah. ilihat perbandingan npa menggunakan TH-1, dan NoTH-lihat bahwa grafik

QE0 berada di atas

us, dan pada nilai grafik QE0 berada ersyarat. Walaupun ai precision yang ibawah similiarity recall selanjutnya s grafik similiarity ang menunjukkan u kembali dapat

dikatakan bahwa temu kem memberikan hasil yang l dibandingkan similarity thesaurus

tidak selalu lebih baik jika d dengan hasil temu kembali m peluang bersyarat. Peningkatan ni yang dihasilkan pada temu kemb terjadi karena penggunaan kolek yang lebih besar yaitu 1000, seda proses temu kembali pada du sebelumnya hanya menggun dokumen.

Gambar 9 Ekspansi kueri dengan istilah 0 model pelu

similarity thesaur penerjemahan kueri. Gambar 10 Ekspansi ku penambahan 5 model pelua similarity thes istilah hasil p kueri. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 P re c is io n Recall 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 Pre ci si o n Recall embali QE0 lebih baik

us, tetapi QE0 dibandingkan menggunakan nilai precision

bali QE0 bisa leksi dokumen dangkan untuk dua penelitian unakan 700 n penambahan eluang, model urus dan kueri dengan 5 istilah pada uang, model esaurus dan 1 penerjemahan 0.7 0.8 0.9 1 0.7 0.8 0.9 1

Perbandingan hasil temu menggunakan ekspansi k terhadap pengujian dengan istilah ekspansi pada model p dan similarity thesaurus

penerjemahan kueri mengg ekspansi. Proses perbanding karena pada metode ekspan hasil terjemahan 1 is memberikan hasil yang lebi dua pengujian lainnya, yaitu tiga istilah ekspansi. Pada G bahwa grafik QE1 berada di TH5-1 dan TH5-idf pada nil untuk nilai recall selanjut selalu berada di atas g

thesaurus (TH5-1 dan TH5-id Gambar 11 Ekspansi penambaha model p similarity t istilah has kueri. Hasil perbandingan men proses temu kembali denga dengan menggunakan pen memberikan hasil yang dibandingkan similiarity

Perbandingan antara ekspan penerjemahan kueri dan bersyarat menunjukkan ba

recall 0 model pelu

menghasilkan nilai precision

dibandingkan dengan metod kueri. Tetapi untuk nilai re

nilai precision yang dihas berbeda.

Perbandingan selanjut terhadap ekspansi kueri bersyarat dan similarity thes

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0 0.1 0.2 0.3 0.4 0.5 Pre ci si o n Reca u kembali dengan kueri dilakukan n menggunakan 5 l peluang bersyarat dengan teknik ggunakan 1 istilah ngan ini dilakukan ansi kueri dengan istilah ekspansi bih baik dibanding itu dengan dua dan Gambar 10 terlihat di bawah dua grafik nilai recall 0, tetapi utnya grafik QE1 grafik similiarity idf).

kueri dengan han 10 istilah pada peluang, model

thesaurus dan 2 asil penerjemahan enunjukkan bahwa gan ekspansi kueri enerjemahan kueri ng lebih baik

rity thesaurus.

ansi kueri dengan model peluang bahwa pada nilai eluang bersyarat

n yang lebih tinggi tode penerjemahan

recall selanjutnya asilkan tidak jauh jutnya dilakukan dengan peluang

esaurus dengan 10

istilah ekspansi dan penerjem dengan dua istilah ekspansi (G Pada nilai recall 0 nilai pre

dihasilkan metode penerjemahan kecil dibandingkan dengan hasi

thesaurus, tetapi untuk nilai recal

(sampai dengan 0.9) nilai prec

lebih tinggi. Untuk perbanding model peluang bersyarat pada n nilai precision yang dihasil penerjemahan kueri lebih kecil, nilai recall selanjutnya nilai pre

dihasilkan teknik penerjemahan lebih tinggi daripada yang dihas peluang bersyarat.

Dari hasil perbandingan ekspansi kueri terlihat bahwa ki ekspansi dengan menggunka penerjemahan kueri memiliki has baik jika dibandingkan dengan model peluang bersyarat dan

thesaurus. Hal ini ditunjukkan

precision yang dihasilkan o

penerjemahan yang lebih tinggi semua tingkat nilai recall. Penin

precision yang terjadi diakibat koleksi dokumen pengujian yang sehingga jumlah dokumen re ditemukembalikan juga menjadi le

Dokumen terkait