TINJAUAN PUSTAKA Temu Kembali Informas - Implementasi Question Answering System Dengan Metode R

Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi. Sistem temu kembali informasi berbeda dengan sistem temu kembali data dalam beberapa segi, antara lain spesifikasi kueri yang tidak lengkap dan tingkat toleransi kesalahan yang tidak peka. Sistem temu kembali informasi berhubungan dengan teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto 1999).

Question Answering

Question Answering (QA) adalah proses interaktif antara manusia-komputer yang meliputi pemahaman terhadap kebutuhan informasi pengguna, menampilkan, dan memaparkan respon yang efektif. Kebutuhan informasi pengguna meliputi kueri dalam bentuk bahasa alami, pengembalian dokumen relevan (data atau knowledge dari sumber tertentu), mengekstraksi, menyaring, dan mengutamakan jawaban dari sumber (Maybury 2004).

Dari definisi di atas, QA menggabungkan banyak komponen teknologi, misalnya natural language processing dan information retrieval. Tujuan utama dari QA yaitu menampilkan jawaban atas pertanyaan yang diberikan pengguna (Lin 2004).

Quarc (Question Answering for Reading Comprehension)

Quarc adalah suatu sistem yang dikembangkan oleh Riloff dan Thelen (2000). Cara kerja sistem tersebut yaitu suatu dokumen diberikan kueri pertanyaan, kemudian sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut.

Pemberian nilai berdasarkan pada jumlah nilai hasil perbandingan kata yang sama antara kueri dengan kalimat dan nilai pada masing-masing rule berdasarkan tipe pertanyaan. Suatu rule dapat memberikan empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20). Menurut Riloff dan Thelen (2000), nilai yang digunakan hanya berdasarkan intuisi yang bertujuan untuk memperkirakan seberapa pentingnya rule yang digunakan dalam menemukembalikan

jawaban berdasarkan tipe pertanyaan kueri. Kalimat yang memiliki nilai tertinggi akan dikembalikan sebagai jawaban atas kueri yang diberikan.

Dalam sistem ini digunakan beberapa kamus sehingga kata-katanya dapat didefinisikan dengan menggunakan kelas semantik. Kelas semantik yang digunakan yaitu:

• HUMAN: terdiri dari 2608 kata, meliputi nama depan, nama akhir, titel, dan nama pekerjaan.

• LOCATION: terdiri dari 344 kata, meliputi nama negara dan lima puluh negara bagian di Inggris.

• MONTH: terdiri dari nama bulan dalam setahun.

• TIME: terdiri dari 667 kata, meliputi tahun antara 1400-1999, ekpresi waktu umum, dan nama bulan dalam setahun. Quarc juga menggunakan dua tipe entitas semantik, yaitu proper nouns dan names. PROPER_NOUN didefinisikan sebagai frase kata benda yang ditulis dengan huruf kapital. NAME didefinisikan sebagai PROPER_NOUN yang minimal mengandung satu kata dalam HUMAN.

Riloff dan Thelen (2000) membagi rule menjadi enam rule, yaitu WHO rule, WHAT rule, WHEN rule, WHERE rule, WHY rule, dan Dateline rule. Dateline rule adalah rule yang dapat digunakan dalam membantu menemukembalikan jawaban atas tipe pertanyaan “WHEN” dan “WHERE”. Rule tersebut digunakan karena jawaban untuk tipe pertanyaan “WHEN” dan “WHERE” lebih banyak ditemukan pada dateline daripada bacaan itu sendiri. Variabel S pada rule menandakan kalimat dokumen, sedangkan variabel Q menandakan kalimat kueri. Menurut Riloff dan Thelen (2000), sistem Quarc yang dikembangkan belum menggunakan pemahaman bahasa yang mendalam dan tidak menggunakan teknik yang rumit, sehingga sistem tersebut hanya mampu mencapai nilai akurasi 40%.

Algoritma rule yang digunakan dalam Quarc adalah sebagai berikut:

1 “WHO”

Score(S) += WordMatch(Q,S)

If ~contains(Q,NAME) and contains(S,NAME)

Then Score(S) += confident If ~contains(Q,NAME) and

contains(S,name)

Then Score(S) += good_clue If contains(S,{NAME,HUMAN})

Then Score(S) += good_clue

2 “WHAT”

Score(S) += WordMatch(Q,S)

If contains(Q,MONTH) and

contains(S,{today,yesterday, tomorrow,last night}) Then Score(S) += clue If contains(Q,kind) and

contains (S,{call,from}) Then Score(S) += good_clue If contains(Q,name)

and contains(S,{name,call, known})

Then Score += slam_dunk If contains(Q,name+PP)

and contains(S,PROPER_NOUN)and contains(PROPER_NOUN,head(PP)) Then Score(S) += slam_dunk

3 “WHEN”

If contains(S,TIME)

Then Score(S) += good_clue Score(S) += WordMatch(Q,S) If contains(Q,the last) and

contains(S,{first,last,since, ago})

Then Score(S) += slam_dunk If contains( Q,{start,begin})and

contains

(S,{start,begin,since,year})

Then Score(S) += slam_dunk

4 “WHERE”

Score(S) += WordMatch(Q,S)

If contains(S,LocationPrep) Then Score(S) += good_clue If contains(S,LOCATION)

Then Score(S) += confident

5 “WHY”

If S є BEST

Then Score(S) += clue

If S immed, precedes member of BEST Then Score(S) += clue

If S immed, follows member of BEST Then Score(S) += good_clue If contains(S,want)

Then Score(S) += good_clue If contains(S,{so,because})

Then Score(S) += good_clue

6 “Dateline”

If contains(Q,happen)

Then Score(DATELINE) +- = good_clue

If contains(Q,take) and contains(Q,place) Then Score(DATELINE) +- = good_clue If contains(Q,this) Then Score(DATELINE) +- = slam_dunk If contains(Q,story) Then Score(DATELINE) +- = slam_dunk Parsing

Parsing adalah proses pengenalan token yang terdapat dalam rangkaian teks (Grossman 2007). Dalam pembuatan indeks istilah, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Bagian dasar dalam parsing adalah algoritma pengambilan token dari teks yang disebut tokenizer. Dalam hal ini sering kali spasi digunakan sebagai pemisah antar token (Jackson & Moulinier 2002). Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus serta menentukan batasan satuan unit dalam dokumen.

Parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya. Dalam proses ini juga digunakan sebuah daftar kata buang (stopwords), yakni daftar kata-kata yang tidak digunakan karena tidak signifikan dalam membedakan dokumen atau kueri, misalnya kata-kata tugas seperti yang, hingga, dan dengan (Ridha 2002).

Stemming

Menurut Grossman (2007), stemming adalah proses pemotongan imbuhan dari kata untuk mendapatkan kata dasarnya. Stemming merupakan bagian penting dalam proses normalisasi yang biasanya dilakukan ketika membangun sistem temu kembali informasi.

Penggunaan stemming prefiks dan sufiks penting dalam sistem temu kembali berbahasa Indonesia karena tingginya penggunaan prefiks walaupun dari segi kinerja temu kembali tidak signifikan. Dengan stemming, kata mencanangkan akan dipotong menjadi men-canang-kan, sehingga didapatkan kata dasarnya canang. Stemming berperan untuk memperkecil ukuran indeks sehingga meningkatkan efisiensi operasi temu kembali (Ridha 2002).

4 Dokumen-Dokumen Parsing Kalimat-kalimat Kueri Parsing Stemming Token-token kalimat Token-token kueri WordMatch Rules Kalimat Jawaban data nama dokumen data kalimat data token Penghilangan stopwords Kalimat

Kalimat adalah satuan bahasa terkecil, dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh (Alwi et al. 2003). Dalam wujud tulisan berhuruf Latin, kalimat dimulai dengan huruf kapital dan diakhiri oleh tanda titik (.), tanda tanya (?), atau tanda seru (!).

METODE PENELITIAN

Dalam dokumen Implementasi Question Answering System Dengan Metode Rule-Based Pada Terjemahan Al Qur’an Surat Al Baqarah (Halaman 41-43)