KULLBACK LEIBLER DIVERGENCE DENGAN LINEAR INTEPOLATION METHOD PADA INFORMATION RETRIEVAL
Riris Grace Karolina Simarmata¹, Yanuar Firdaus A.w.², Retno Novi Dayawati³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Kebutuhan akan informasi yang semakin meningkat menuntut adanya suatu cara untuk
memberikan informasi yang tepat dan tepat. Sistem temu kembali dibangun untuk menyelesaikan masalah tersebut.
Indexing dan matching adalah dua proses utama dalam Information retrieval, yang akan
mengolah kata kunci dan sumber dokumen untuk selanjutnya mengembalikan dokumen-dokumen yang relevan. KL-Divergence adalah salah satu metode yang diterapkan pada proses matching atau retrieve dokumen. Metode ini menghitung kedekatan antara tiap dokumen terhadap query atau kata kunci, sehingga diperoleh score tiap-tiap dokumen yang relevan. Dari hasil
indexingnya, KLDivergence menghitung nilai kedekatan dokumen terhadap query yang telah dibangun dengan term model dan dependency language model yang mengandung adanya ketergantungan term dalam kalimat. Dari dua nilai kedekatan dokumen terhadap query ini , hasilnya akan diakumulasikan dengan linear interpolation method, sehingga akan diperoleh score total dokumen.
Dengan mengimplementasikan KL-Divergence dengan linear interpolation method, dapat diperoleh nilai precision yang semakin tinggi pada jumlah dokumen yang semakin rendah. Nilai precision tertinggi terdapat pada jumlah dokumen 100, yaitu 13.57%, dan memberikan nilai recall yang semakin tinggi pada jumlah dokumen yang semakin tinggi. Nilai recall tertinggi pada dokumen 1033, yaitu 93.30%. Nilai IAP semakin tinggi pada nilai λ yang semakin rendah, yaitu pada λ=0.1 memiliki nilai IAP 61.42%.
Kata Kunci : information retrieval, KL-divergence, dependency language model.
Abstract
The increasing of information needs insist the way to get the fast and exact information. The information retrieval system was assisted to solve these problem.
document collection in order to give the exact return hits. KL-divergence is a methode that could be used in matching or retrieve process. This method counts the closeness between document and query, therefore the system could give the relevance documents for the user. From the result of indexing process, KL-divergence counts the closeness between document and query that have been indexed by term model and dependency language model. From these two score of the closeness, the result would be accumulated with linear interpolation method, therefore the total score could be retrieve.
By implemented KL-divergence with linear interpolation method, the higher precision could be reached from the lowest amount of document collection. The highest precision is in 100
document collection, that is 13.57%, and higher recall could be reached from the highest amount of document collection. The highest recall is in 1033 document collection, that is 93,30%. Higher IAP could get from the lowext amount of λ, that is λ=0.1 , IAP = 61.42%.
Keywords : information retrieval, KL-divergence, dependency language model.
Powered by TCPDF (www.tcpdf.org)
1. Pendahuluan
1.1. Latar belakang masalah
Kebutuhan akan berbagai informasi dari berbagai sumber , seperti informasi non visual saat ini semakin meningkat dan sudah menjadi kebutuhan sehari-hari. Untuk itu dibutuhkan suatu sistem yang dapat membantu menemukan dokumen- dokumen yang berisi data sesuai dengan kebutuhan pengguna. Caranya yaitu dengan
Information retrieval. Information retrieval merupakan proses menemukan kembali
dokumen yang sesuai dengan kebutuhan user pada suatu koleksi dokumen. Dengan adanya sistem temu kembali informasi, pengguna dapat mendapatkan informasi yang relevan dengan kebutuhannya. Pengguna dapat memberikan inputan berupa kata kunci (query) dan pencarian dilakukan terhadap koleksi dokumen, serta menghasilkan dokumen –dokumen yang memiliki kesesuaian dengan kata kunci yang dimasukkan oleh pengguna.
Ketepatan hasil pencarian menjadi aspek yang sangat diperhatikan, oleh karena itu dibutuhkan proses indexing dan retrieve yang dapat menghasilkan dokumen yang relevan. Kullback-Leibler Divergence merupakan perhitungan dalam statistika (Cover and Thomas, 1991) yang menjumlahkan kedekatan distribusi probabilitas kepada distribusi sebuah model (atau candidate). Dalam Information retrieval, Divergence dapat diimplementasikan untuk meretrieve dokumen. Metode KL-Divergence, dalam penelitian sebelumnya, telah dibuktikan mampu memberikan performansi yang lebih baik dari metode tradisional sebelumnya yaitu TF/IDF[4].
Pada umumnya, proses indexing dalam Information retrieval dilakukan dengan melibatkan tiap term yang mewakili query dan dokumen, di mana tiap term dianggap
independent, seperti term model. Namun beberapa penelitian telah menunjukkan
bahwa term yang dianggap saling berdiri sendiri atau independent merupakan suatu anggapan yang tidak benar [4],[5]. Oleh karena itu, dalam tugas akhir ini, melibatkan
language model yang dilakukan pada proses indexing. Salah satunya adalah dependency language model, yang menggambarkan ketergantungan antar term dalam
kalimat secara sintaksis. Karena itu, dalam tugas akhir ini, digunakan dokumen hasil
indexing yang diproses dengan term model dan dependency language model. Adapun dependency language model ini dibangun dengan menggunakan English Parser.
Untuk mengukur kerelevanan dokumen hasil pencarian dengan query yang diberikan pengguna, diukur dengan precision, recall, dan IAP.
2
1.2. Rumusan masalah
Berdasarkan latar belakang di atas, permasalahan yang menjadi fokus pada tugas akhir ini diantaranya yaitu :
a. Bagaimana menerapkan KL-Divergence dengan linear interpolation
method pada proses retrieve dokumen Information retrieval untuk
menghasilkan dokumen yang relevan sesuai dengan query yang ada. b. Bagaimana menganalisis performansi dari penerapan KL-Divergence
dengan linear interpolation method pada Information retrieval. Batasan masalah dalam penelitian ini adalah:
a. Dokumen yang digunakan adalah dokumen berbahasa Inggris yang telah melalui penelitian oleh Cornell University, yang diambil dari ftp://ftp.cs.cornel.co.uk/smart.
b. Query yang dapat ditangani adalah query yang berupa satu kalimat ,
minimal dua term dengan term-term yang berbeda.
c. Pembangunan dependency parse tree dilakukan dengan menggunakan
tools English dependency parser yang sudah ada.
1.3. Tujuan
Hal-hal yang ingin dicapai dalam penelitian kali ini adalah:
a. Merancang Information retrieval system dengan mengimplementasikan KL-Divergence dengan linear interpolation method pada Information
retrieval.
b. Menganalisis performansi hasil penerapan KL-Divergence dengan linear
interpolation method pada Information retrieval dengan menghitung nilai precision, recall, dan IAP nya.
1.4. Metodologi penyelesaian masalah
Pendekatan sistematis/metodologi yang digunakan dalam merealisasikan tujuan dan pemecahan masalah di atas adalah dengan menggunakan langkah-langkah sebagai berikut:
Penyusunan tugas akhir ini menggunakan metodologi sebagai berikut: 1. Studi Literatur
Pada tahap ini dilakukan pendalaman materi melalui studi pustaka dan referensi dari berbagai sumber seperti buku dan jurnal, identifikasi masalah, dan metodologi pemecahan masalah.
2. Perancangan
Mengumpulkan data yang diperlukan, melakukan analisa dan perancangan untuk tahap implementasi.
3. Implementasi
Pada tahapan ini dibangun sistem yang dapat menangani proses retrieval dengan melakukan pendekatan dependency languange modeling dan term model pada
proses indexing , serta menerapkan metoda KL-Divergence pada proses matching dokumen yang relevan terhadap query.
4. Pengujian dan Analisis Hasil
Pengujian dilakukan terhadap aplikasi yang telah dibangun pada tahap implementasi. Pengujian dilakukan untuk memperhatikan pengaruh dependency
language model dan term model serta KL-Divergence dalam Information retrieval
dengan menghitung nilai precision, recall, dan IAP. 5. Penyusunan Laporan Tugas Akhir
Adapun model perancangan pengimplementasian yang dilakukan , seperti pada Gambar 1.1.
Gambar 1.1-1 Skema KL-Divergence dengan linear interpolation method pada Information
40
5. Penutup
Pada bab ini disimpulkan hasil pengerjaan Tugas Akhir ini dan beberapa saran yang dapat mengembangkan Tugas Akhir ini.
5.1. Kesimpulan
Berdasarkan analisis terhadap hasil pengujian aplikasi dalam Tugas Akhir ini dapat dihasilkan beberapa kesimpulan, yakni:
1. Penggunaan KL-Divergence dengan linear interpolation method dapat diterapkan pada retrieve dokumen di information retrieval.
2. Penerapan KL-Divergence dengan linear interpolation method menghasilkan kesimpulan bahwa semakin tinggi jumlah dokumen, maka nilai precision rendah, hal ini disebabkan karena :
• Semakin banyaknya jumlah dokumen uji, mengakibatkan jumlah dokumen yang berhasil diretrieve dan relevan semakin tinggi, namun memiliki perbandingan yang jauh lebih kecil dari dokumen yang diretrieve.
• Term-term hasil indexing tersebar tidak hanya pada dokumen relevan saja. Hal ini mengakibatkan jumlah dokumen yang ditretrieve semakin tinggi.
3. Penerapan KL-Divergence dengan linear interpolation method menghasilkan kesimpulan bahwa semakin tinggi jumlah dokumen, maka nilai recall semakin tinggi, hal ini disebabkan karena:
• Pada koleksi dokumen uji MED, semakin banyaknya jumlah dokumen uji, maka jumlah dokumen yang relevan semakin tinggi.
• Semakin banyak jumlah dokumen uji, mengakibatkan jumlah dokumen yang berhasil diretrieve dan relevan semakin tinggi.
4. Penerapan KL-Divergence dengan linear interpolation method menghasilkan kesimpulan bahwa semakin tinggi nilai λ, maka nilai IAP semakin tinggi, karena penggunaan metode KL-Divergence dengan
indexing term model, score wi(D,Q) memberikan nilai score dokumen retrieve yang jauh lebih tinggi dibandingkan dengan indexing dependency language model, scoreDP(D,Q). Sehingga semakin tinggi nilai score wi(D,Q) memberikan nilai IAP yang semakin tinggi. Maka, nilai yang
semakin rendah memberikan nilai ) semakin tinggi dan nilai
(1-).score wi(D,Q) semakin tinggi juga, sehingga nilai IAP semakin tinggi.
5.2. Saran
Untuk mengembangkan Tugas Akhir ini, maka berikut beberapa saran yang dapat diperhatikan.
1. Sumber pencarian atau koleksi dokumen yang digunakan agar tidak hanya dokumen file teks berformat.txt.
2. Dalam proses indexing dapat digunakan tools yang mampu menghasilkan ketergantungan antar term dengan waktu yang lebih cepat.
3. Jika pada aplikasi ini, indexing dilakukan dengan dua model, term model dan dependency language model, dalam penelitian selanjutnya dapat ditambahkan dengan menggunakan model lain seperti bigram dan trigram.
42
DAFTAR PUSTAKA
[1] Baeza-Yates,Ricardo and Ribeiro-Neto,Berthier.1999. Modern Information
retrieval. England.
[2] Bao,Shenghua dkk. LSM:Language Sense Model for Information retrieval.
Shanghai Jiao Tong University, Shanghai , P.R.China.
[3] Berry, Michael W and Murray Browne.1999. Understanding Search Engines. University of Tennessee, Knoxville, Tennessee.
[4] Ke-ke,CAI dkk. 2007. A novel dependency language model for information
retrieval. School of Computer Science and Technology, Zhejiang University,
Hangzou 310027,China.
[5] Lee,Changki dkk. 2006. Dependency Structure Applied to Language Modeling
for Information retrieval. Korea.
[6] Lu,James J dkk. 1996. Hybrid Knowledge Bases. Member, IEEE Computer Society.
[7] Marneffe,Marie-Catherine de,dkk. Generating Typed Dependency Parses from Phrase Structure Parses. Computer Science Department, Standford University,
USA. http://nlp.stanford.edu/manning/papers/LREC_2.pdf , diakses tanggal 13 Desember 2008.
[8] Lafferty,Zhai. A study of Smoothing Methods for Language Models Applied to Ad Hoc Information retrieval. Carnegie Mellon University, Pittsburgh, PA.
http http://ciir.cs.umass.edu/irchallenges/smooth.pdf, diakses tanggal 3 Juli 2009.
[9] Srikanth, Munirathnam and Rohini Srihari. 2003. Incorporating Query Term
Dependencies in Language Models for Document Retrieval. State University
of New York at Buffalo, Buffalo, NY.
[10] Velivelli,Atulya and Thomas S.Huang. 2006. Dirichlet Aspect Weighting : A
Generalized EM algorithm for Integrating External Data Fields with Semantically Structured Queries by using Gradient Projection Method.
University of Illinois at Urbana-Champaign,Urbana,IL 61801, U.S.A.
Powered by TCPDF (www.tcpdf.org)