TINJAUAN PUSTAKA Temu Kembali Informas - Implementation of Question Answering System for Docume

Temu kembali informasi berkaitan dengan merepresentasi, menyimpan, mengorganisasi, dan mengakses informasi.Merepresentasi dan mengorganisasi suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya.Dalam pencarian suatu informasi pengguna harus menerjemahkan kebutuhan informasinya dalam bentuk query. Berdasarkan query tersebut, sistem temu kembali informasi akan mengembalikan informasi yang relevan dengan query yang diberikan oleh pengguna (Baeza-Yates & Ribeiro-Neto 1999).

Question Answering

Question Answering system merupakan aplikasi yang menggabungkan konsepInformation Retrieval (IR) dengan

Natural Languange Processing (NLP). Perbedaan mendasar antara QA dan IR terletak pada masukan (query) dan keluaran yang dihasilkan.Query yang dimasukkan pada IR berupa kata atau kalimat pernyataan dan

PENDAHULUAN Latar Belakang

Sistem temu kembali informasi memiliki kaitan yang sangat erat dengan sistem pencarian(searchengine).Untuk memperoleh suatu informasi sistem pencarian membutuhkan masukan yang dikenal dengan

query yang biasanya berbentuk kata kunci. Saat ini sudah dikembangkan sistem pencarian menggunakan pertanyaan sebagai

query yang dikenal dengan Question Answering System(QAS). Dengan menggunakan pertanyaan sebagai query

diharapkan informasi yang diperoleh oleh pengguna selain relevan juga lebih spesifik.

Ballesteros dan Xiayoan-Li (2007) mengimplementasikan Question Answering

yang digunakan untuk monolingual English

dan Chinesse. Dalam mengembalikan kalimat jawaban atau informasi yang relevan, pemberian skor pada koleksi dokumen secara

heuristic dan bergantung pada syntactic factor yang didefinisikan sebagai aturan- aturan untuk mengidentifikasi kandidat kalimat relevan atau kalimat jawaban.

Hui Yang dan Tat-Seng Chua (2004) mengimplementasikan Web-Based List Question Answeringdimana kandidat jawaban diperoleh dari dua sumber utama yaitu

collection pages dandistinct

topic.Ikhsani(2006) telah

mengimplementasikan QAS untuk menemukan jawaban dari query pertanyaan hanya dengan menggunakan satu dokumen bacaan yang menggunakan kalimat baku.

Anggraeini (2007) menyusun QAS untuk surat Al-Baqarah yang terdiri atas beberapa ayat sebagai dokumen. Sianturi (2008) menyempurnakan penelitian Ikhsani (2006) dengan menggunakan metode Rule-Based

pada banyak dokumen bahasa

Indonesia.Selanjutnya, Cidhy (2009)mengimplementasikan Question

Answering System dengan pembobotan

heuristic dan Panggudi (2009) membuatNamed Entity Taggeruntuk dokumen bahasa Indonesia menggunakan metode berbasis aturan. Kartina (2010) menganalisis pertanyaan untukQuestion Answering System pada dokumen bahasa Indonesia dan Herdi (2010) menggunakan

framework INDRI untuk melakukan pembobotan dalam proses pengindeksandokumen bahasa Indonesia.

Semua QAS yang telah dikembangkan hanya dapat mengakomodasi pertanyaan bersifat factoid.Pertanyaan ini hanya membutuhkan satu entitas jawaban.Penelitian ini mengimplementasikan QAS dengan jenis pertanyaan bersifatlistyang dapat menghasilkan banyak jawaban.

Tujuan

Tujuan dari penelitian ini adalah mengimplementasikan sistem temu kembali informasi (Question Answering System) menggunakan query pertanyaan bersifat list

untuk dokumen bahasa Indonesia. Ruang Lingkup

Ruang lingkup penelitian ini adalah : 1. Korpus dokumen bahasa Indonesia dan

kata tanya yaitu siapa, dimana, kapan, dan berapa.

2. Pasangan pertanyaan dan jawaban sudah ditentukan oleh penulis dari koleksi dokumen yang ada.

TINJAUAN PUSTAKA Temu Kembali Informasi

Question Answering

Question Answering system merupakan aplikasi yang menggabungkan konsepInformation Retrieval (IR) dengan

keluaran yang dihasilkan adalah dokumen yang dianggap relevan oleh sistem. Sedangkan pada QA, query berupa kalimat tanya dan keluarannya berupa jawaban (entitas) yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun (Strzalkowski & Harabagiu 2008).QA memiliki ide dasar sebagai berikut (Lin 2004) :

 Menentukan tipe semantik dari jawaban yang diharapkan.

 Menentukan dokumen-dokumen yang mengandung kata-kata yang terdapat dalam pertanyaan (query).

 Mencari entitas jawaban dengan tipe yang sesuai dengan pertanyaan, dan memiliki kedekatan yang tinggi dengan query.

Gambar 1 menunjukkan proses pada

Question Answering System (QAS). Dalam tahapan offline atau indexing dilakukan analisis terhadap teks dokumen. Teks dokumen yang digunakan sudah memiliki

named entity tag didalamnya. Hasil dari proses indexing digunakan untuk tahapan QAS selanjutnya, yaitu tahapan online yang terdiri atas analisis pertanyaan, document preselection, seleksi, dan pembobotan.

Modul analisis pertanyaan mengklasifikasi pertanyaan dan menentukan tipe dari jawaban yang diharapkan. Hasil dari modul ini terdiri atas kata tanya dan kata-kata yang akan digunakan dalam pembobotan

heuristic (scoring). Kata-kata yang digunakan untuk pembobotan heuristic juga digunakan dalam document preselection.

Document preselection menghasilkann dokumen tertinggi. Kata tanya digunakan untuk mengidentifikasi tipe named entity dari pertanyaan. Perolehan named entity digunakan untuk menyeleksinpassages

yang mengandung kandidat jawaban. Contohnya adalah kata tanya “Dimana”mengidentifikasi keterangan tempat, yang diwakili oleh named entity tag LOCATION. Perolehan entitas kandidat jawaban dilakukan pada npassages dengan bobot tertinggi (Molla 2003).

Faktor Heuristic

QAS memiliki tiga modul utama yaitu modul pemrosesan query, modul sistem pencarian, dan modul ekstraksi jawaban (Ballesteros & Xiaoyan-Li 2007).

Gambar 1 Arsitektur umum

QuestionAnswering System(Molla 2003) 1. Pemrosesan Query

Langkah-langkah dalam pemrosesan

query adalah sebagai berikut :

a. Sebagai langkah awal dilakukan pendefinisian kembali tipe pertanyaan yang memiliki hubungan dengan NE (named entity) yang baku. Mengacu pada penelitian (Ballesteros &Xiaoyan-Li 2007), ada tujuh tipe pertanyaan yang terdiri atas NAME, LOCATION, ORGANIZATION, DATE, TIME, CURRENCY dan NUMBER. Dalam bahasa Indonesia akan diwakili dengan SIAPA, DIMANA, KAPAN, dan BERAPA. Setiap pertanyaan akan mengalami proses parsing terlebih dahulu.

b. Kata tanya seperti “APAKAH” dan “APA” tidak diperhitungkan karena hanya akan menambahkan informasi yang tidak berguna.

c. Stopwordsdihilangkan.

Setelah dilakukan pemrosesan, query

2. RetrievalEngine

Banyak fungsi kesamaan yang digunakan padaretrieval engine untuk melakukan pemeringkatan dokumen yang mengadung informasi yang berkaitan dengan

query.Fungsi yang sering digunakan untukmengukur kesamaan antara query dan dokumen yaitu denganmenggunakan kesamaan cosine (Manning 2008). Terdapat juga Pembobotan BM25 yang dikenal denganpembobotan Okapi.Pembobotan BM25 menggabungkan bobot idf dengan koleksi pengskalaan khusus untuk dokumen dan query(Kontostathis 2008 dalam Herdi 2010). Dokumen yang ditemukembalikan akan digunakan dalam proses ekstraksi jawaban.

3. Modul Ekstraksi Jawaban

Pada tahap ini dilakukan identifikasi terhadap jawaban. Setiap n dokumen teratas yang terambil dianalisis kembali untuk mengidentifikasi kandidat jawaban dengan cara sebagai berikut (Ballesteros & Xiaoyan- Li 2007):

1. Dilakukan identifikasi named entity yang terdiri atas orang, organisasi, lokasi, ekspresi waktu, tanggal, ekspresi numerik dan uang.

2. Dokumen dibagi menjadi passage.

Passage terdiri atas beberapa kalimat yang berdampingan. Antarpassage memiliki kalimat yang overlap.

3. Dilakukan pembobotan heuristic pada setiap passage. Pertama-tama didefinisikan count_query adalah jumlah kata yang terdapat pada query (kalimat tanya), count_match adalah jumlah hasil pencocokan antara kata yang terdapat pada query dan passage (wordmatch) dan

score adalah bobot dari passage. Proses pembobotan adalah sebagai berikut: i. Jika tidak ada named entity yang

ditampilkan,passage menerima nilai 0. Jika named entity ditampilkan pada

passage namun tidak memilki tipe yang sama dengan pertanyaan, named entity diabaikan.

ii. Dilakukan pencocokan kata-kata pada

query dengan kata-kata pada passage

(proses wordmatch). Jika nilai

count_match kurang dari threshold (t),

score = 0. Selain itu, score =

count_match. Nilai threshold(t), didefinisikan dengan cara sebagai berikut:

a. Jika count_query kurang dari 4, t = count_query. Dengan kata lain, paragraf apapun yang tidak mengandung kata-kata yang terdapat pada query tidak diperhitungkan.

b. Jika count_query antara 4 dan 8, t = (count_query/2.0 ) + 1.0.

c. Jika lebih besar dari 8, t = (count_query/3.0) + 2.0.

iii. Kata yang berdekatan memiliki hubungan keterkaitan informasi yang lebih tinggi. Jika seluruh kata yang cocok dengan query terdapat pada satu kalimat Sm = 1, selainituSm= 0. Maka

score = score + (Sm*0.5).

iv.Seperti diketahui urutan kata dapat mempengaruhi arti. Maka diberikan bobot yang lebih tinggi (Ord = 1) terhadap passage jika kata-kata yang cocok dengan query memiliki urutan yang sama seperti pada pertanyaan. Selain itu Ord = 0. Maka score = score

+ ( Ord*0.5).

v. Score = score + (count_match/W),

dimana Wadalah panjang

passagedengan

nilaicount_matchterbesar.

4. Pembobotan terakhir yaitu menghitung total perolehan nilai. Heuristic_score =

count_match + 0.5*Sm + 0.5*Ord +

count_match/W. Dilakukan pengurutan terhadap seluruh passage dari setiap 10 dokumen teratas. Pengurutan dilakukan berdasarkan bobot yang dimiliki oleh setiap passage.

5. Ekstraksi kandidat jawaban daripassage

peringkat teratas. Jarak antara kandidat jawaban dan posisi dari setiap query yang cocok dalam passage dihitung.Kandidat jawaban yang memiliki jarak kurang dari

threshold dipilih menjadi entitas jawaban terakhir.

METODE PENELITIAN

Dalam dokumen Implementation of Question Answering System for Document in Bahasa Indonesia with List Question (Halaman 33-36)