• Tidak ada hasil yang ditemukan

QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI

N/A
N/A
Protected

Academic year: 2021

Membagikan "QUESTION ANSWERING SYSTEM MENGGUNAKAN N-GRAM TERM WEIGHT MODEL DEBBY PUSPA BAHRI"

Copied!
25
0
0

Teks penuh

(1)

QUESTION ANSWERING SYSTEM MENGGUNAKAN

N-GRAM TERM WEIGHT MODEL

DEBBY PUSPA BAHRI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

(2)

QUESTION ANSWERING SYSTEM MENGGUNAKAN

N-GRAM TERM WEIGHT MODEL

DEBBY PUSPA BAHRI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

(3)

i

ABSTRACT

DEBBY PUSPA BAHRI. Question Answering System Using N-Gram Term Weight Model. Supervised by SONY HARTONO WIJAYA.

Currently, search engine has been widely developed having question query feature known as the query answering system. The information provided by the system must fit a specific user requirement. This research will apply the passage selection method using n-gram term weighting model. The evaluation of the method is measured based on the set of questions and documents, and the accuracy for each answer. One thousand documents and 40 queries are used in this research. The result of the research indicates the accuracy for WHO questions is 90%, for WHEN questions is 80%, for WHERE questions is 80%, and for HOW MUCH/MANY questions is 40%.

Keywords: N-Gram, N-Gram Term Weight Model, QAS, Question Answering

(4)

vi Judul Skripsi : Question Answering System Menggunakan N-Gram Term Weight Model Nama : Debby Puspa Bahri

NRP : G64096017

Menyetujui: Pembimbing,

Sony Hartono Wijaya S.Kom., M.Kom NIP 198108092008121002

Mengetahui

Ketua Departemen Ilmu Komputer,

Dr. Ir. Agus Buono M.Si., M.Kom NIP 196607021993021001

(5)

vi

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah subhanahuwata’ala atas segala curahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Question

Answering System Menggunakan N-Gram Term Weight Model.

Penulis sadar bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:

1 Orang tua tercinta Bapak Syamsul Bahri dan Ibu Darmini Piliang atas segala doa, dukungan, dan kasih sayang yang tiada henti.

2 Bapak Sony Hartono Wijaya SKom MKom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini.

3 BapakFirman Ardiansyah SKom MSi dan Ahmad Ridha SKom MS selaku dosen penguji, Dr Ir Agus Buono MSi MKom selaku Ketua Departemen Ilmu Komputer IPB serta seluruh dosen dan staf Departemen Ilmu Komputer FMIPA IPB.

4 Mochammad Sudharmono atas segala bantuan, dukungan, dan doa.

5 Sahabat-sahabatku Mameto, Nina Maria, Anisah, Canma, Ai, dan seluruh teman-teman Ilmu Komputer angkatan IV. Terima kasih atas semangat dan kebersamaan selama penyelesaian tugas akhir ini.

6 Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran dan kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Juli 2013

Debby Puspa Bahri

(6)

vi

RIWAYAT HIDUP

Penulis dilahirkan di Kabanjahe pada tanggal 24 Agustus 1985. Penulis merupakan anak keenam dari enam bersaudara dari pasangan Bapak Syamsul Bahri dan Ibu Darmini Piliang. Penulis lulus dari SMU Negeri 1 Kabanjahe pada tahun 2003. Setahun kemudian, penulis melanjutkan pendidikannya di D3 Teknik Informatika, Departemen Ilmu Komputer, Institut Pertanian Bogor melalui program reguler. Tahun 2007 penulis lulus dari D3 Institut Pertanian Bogor. Penulis pernah melakukan praktik lapang di Biro Perencanaan dan Umum, Badan Koordinasi Survei dan Pemetaan Nasional (Bakosurtanal) dengan topik Sistem Informasi.

Pada tahun 2008 sampai 2011, penulis bekerja di sebuah perusahaan asing PT ExsaMap Asia sebagai 3D Edit Technician, Quality Control 3D Edit Technician, dan 3D Road Technician. Pada tahun 2009, penulis melanjutkan pendidikan di Program Sarjana Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(7)

vi

DAFTAR ISI

Halaman DAFTAR TABEL ... vi DAFTAR GAMBAR ... vi DAFTAR LAMPIRAN ... vi PENDAHULUAN ... 1 Latar Belakang ... 1 Tujuan Penelitian ... 1 Ruang Lingkup ... 1 TINJAUAN PUSTAKA ... 1

Temu Kembali Informasi ... 1

Question Answering System ... 2

Pembobotan ... 2

Metode N-gram ... 2

Passage N-Gram Term Weight Model ... 3

METODE PENELITIAN ... 3

Pemrosesan Offline ... 3

Pemrosesan Online ... 4

Evaluasi Hasil Percobaan... 5

Lingkungan Pengembangan ... 5

HASIL DAN PEMBAHASAN ... 5

Koleksi Dokumen Pengujian... 5

Pemrosesan Dokumen ... 6

Indexing ... 6

Perhitungan tf-idf ... 6

Pembentukan Passages ... 6

Pemrosesan Query ... 6

Perolehan Dokumen Teratas ... 7

Perolehan Passages Top Documents ... 7

Ekstraksi dan Pembobotan N-gram pada Query ... 7

Pembobotan Passage ... 7

Ekstraksi Jawaban ... 7

Evaluasi Hasil Percobaan... 7

Hasil Percobaan Untuk Kata Tanya SIAPA ... 8

Hasil Percobaan Untuk Kata Tanya KAPAN ... 8

Hasil Percobaan Untuk Kata Tanya DI MANA ... 9

Hasil Percobaan Untuk Kata Tanya BERAPA ... 9

Hasil Percobaan Keseluruhan Kata Tanya Menggunakan Lima Dokumen Teratas ... 9

KESIMPULAN DAN SARAN ... 10

Kesimpulan ... 10

Saran ... 10

DAFTAR PUSTAKA ... 10

LAMPIRAN ... 12

(8)

vi

DAFTAR TABEL

Halaman

1 Ilustrasi matriks inverted index ... 2

2 Rangkaian hasil n-gram ... 3

3 Daftar pasangan kata tanya dan named entity ... 7

4 Perolehan bobot query n-gram ... 7

DAFTAR GAMBAR

Halaman 1 Kedekatan dokumen dalam ruang vektor (Manning 2008). ... 2

2 Alur pemrosesan offline... 3

3 Alur pemrosesan online. ... 4

4 Grafik hasil percobaan untuk kata tanya SIAPA... 8

5 Grafik hasil percobaan untuk kata tanya KAPAN. ... 8

6 Grafik hasil percobaan untuk kata tanya DI MANA. ... 9

7 Grafik hasil percobaan untuk kata tanya BERAPA... 9

8 Grafik hasil percobaan untuk semua kata tanya. ... 10

DAFTAR LAMPIRAN

Halaman 1 Antarmuka implementasi ... 13

2 Hasil percobaan untuk kata tanya „SIAPA‟ ... 14

3 Hasil percobaan untuk kata tanya „KAPAN‟ ... 15

4 Hasil percobaan untuk kata tanya „DI MANA‟ ... 16

(9)

PENDAHULUAN

Latar Belakang

Information Retrieval System (Sistem

Temu Kembali Informasi) memiliki kaitan yang sangat erat dengan search engine (sistem pencarian). Saat ini sudah banyak dikembangkan search engine yang memiliki fitur query berupa pertanyaan atau yang sering dikenal dengan Question Answering System misalnya www.ask.com. Pengguna memasukkan query berupa pertanyaan, bukan berupa kata atau kalimat saja. Informasi yang diperoleh pengguna diharapkan selain relevan juga lebih spesifik sesuai kebutuhan pengguna.

Penelitian tentang Question Answering

System dalam perkembangannya sudah diimplementasikan oleh Ballesteros dan Xiaoyan-Li (2007) berupa Question Answering yang digunakan untuk bahasa

Inggris dan Mandarin. Penelitian tersebut menggunakan pembobotan heuristic dan

syntactic untuk mengidentifikasi kandidat

kalimat yang relevan. Cidhy (2009) mengimplementasikan penggunaan pembobotan heuristic yang dilakukan Ballesteros dan Xiaoyan-Li (2007) ke dalam dokumen berbahasa Indonesia.

Pada umumnya, passage retrieval hanya mengambil kata kunci utama pada pertanyaan dengan menghilangkan stopwords, sedangkan pada N-gram Term Weight Model,

pengembalian passage berdasarkan pencarian struktur pertanyaan tanpa menghilangkan

stopwords pada query yang diberikan, tetapi

memberikan bobot terkecil pada stopwords tersebut, yaitu sebesar 0.001 (Buscaldi et al. 2009).

Penelitian tentang Question Answering

System yang menggunakan pembobotan n-gram dalam pemilihan passage telah diimplementasikan Buscaldi et al. (2009). Penelitian tersebut membahas mengenai

Question Answering System berdasarkan

redudansi dan metode Passage Retrieval. Penelitian terkait mengenai n-gram juga telah dilakukan oleh Najibullah (2011). Penelitian ini membahas pencarian teks dalam berbahasa Arab dengan memanfaatkan metode n-gram untuk pengambilan kata dasarnya.

Metode n-gram juga telah digunakan dalam penelitian Rahmawan (2012). Proses

n-gram pada penelitian Rahmawan ialah dengan

menghitung skor tiap passage dan menjumlahkan semua kemungkinan x-gram yang cocok dengan query pertanyaan.

Penelitian ini akan menerapkan pemilihan

passage menggunakan metode N-gram Term Weight Model pada Question Answering System dan menjadi acuan untuk penelitian

berikutnya. Tujuan Penelitian

Penelitian ini bertujuan:

1 Menerapkan pemilihan passage dengan menggunakan metode N-gram Term Weight Model pada Question Answering System.

2 Melakukan evaluasi terhadap Question

Answering System yang menggunakan N-gram Term Weight Model.

Ruang Lingkup

Ruang lingkup dalam penelitian ini ialah: 1 Korpus terdiri atas kumpulan dokumen

berbahasa Indonesia dengan struktur tag XML diambil dari Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB.

2 Menggunakan kata tanya siapa, kapan, di mana, dan berapa.

3 Query pertanyaan yang dimasukkan dibatasi pada tipe factoid question, yaitu pertanyaan yang memiliki jawaban tunggal.

4 Query berkaitan dengan koleksi dokumen. 5 Metode N-gram Term Weight Model

diimplementasikan pada query dan

passage.

6 Pasangan pertanyaan diambil dari query uji pada penelitian Sanur (2011).

7 Pembobotan dan pemilihan kandidat jawaban pada ekstraksi jawaban mengikuti penelitian Sanur (2011).

8 Hasil dari penelitian dievaluasi menggunakan persepsi manusia.

TINJAUAN PUSTAKA

Temu Kembali Informasi

Temu kembali informasi berkaitan dengan merepresentasikan, menyimpan, meng-organisasi, dan mengakses informasi. Representasi dan organisasi suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Dalam pencarian informasi, pengguna harus menerjemahkan kebutuhan informasinya dalam bentuk query. Berdasarkan query tersebut, sistem temu kembali informasi akan mengembalikan informasi yang relevan dengan query yang diberikan oleh pengguna (Baeza-Yates & Ribeiro-Neto 1999).

(10)

Question Answering System

Question Answering System adalah sebuah

sistem yang memungkinkan pengguna untuk bertanya dalam bahasa alami (natural

language) pada koleksi dokumen yang tidak

terstruktur dalam rangka mendapatkan jawaban yang diinginkan. Question Answering

System merupakan kombinasi antara

Information Retrieval (IR) dan Natural Language Processing (NLP). Question Answering System memiliki tujuan menampilkan jawaban berdasarkan query dalam bentuk pertanyaan yang diajukan oleh pengguna. Perbedaan yang mendasar antara

Question Answering dengan IR terletak pada

masukan (query) dan keluaran yang dihasilkan.

Pada IR, query yang dimasukkan berupa kata atau kalimat pertanyaan dan keluaran yang dihasilkan ialah dokumen yang dianggap relevan oleh sistem, sedangkan pada Question

Answering System, query berupa kalimat

tanya dan keluarannya berupa jawaban (entitas) yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun.

Pembobotan

Information Retrieval pada dasarnya

adalah pembandingan kata yang ada pada

query dengan kata yang ada pada dokumen.

Perolehan kata tertentu dalam dokumen yang mengandung informasi yang berkaitan dengan

query, dilakukan dengan cara menghitung

kesamaan antara vektor dokumen dan vektor

query. Informasi yang diperlukan adalah term frequency (tf), document frequency (df), dan invers document frequency (idf).

Nilai tf menggambarkan frekuensi kemunculan suatu kata t dalam dokumen d, yang dilambangkan dengan tft,d. Nilai df

menggambarkan banyaknya dokumen di dalam koleksi yang mengandung kata tertentu. Nilai idf merupakan pembagian nilai dft

dengan total dokumen yang ada dalam koleksi menghasilkan nilai idf untuk setiap kata sebagai berikut:

lo

N merupakan notasi untuk jumlah dokumen yang ada dalam koleksi. Melalui idf, dapat diketahui kata-kata tertentu yang merupakan penciri suatu dokumen. Dengan demikian, bobot untuk masing-masing kata dalam dokumen dapat diperoleh, yaitu wt,d

yang merupakan hasil perkalian antara tft,d dan

idft.

Tabel 1 menunjukkan ilustrasi matriks

inverted index, yang berisi bobot setiap kata t

dalam suatu dokumen d.

Tabel 1 Ilustrasi matriks inverted index

d1 d2 … d3

t1 Wt1d1 Wt1d2 … Wt1dn

t2 Wt2d1 Wt2d2 … Wt2dn

… … … … …

t3 Wtkd1 Wtkd2 … Wtkdn

Ide untuk mengukur kesamaan dokumen dengan menggunakan kesamaan cosine adalah dokumen yang saling berdekatan dalam ruang vektor memiliki kecenderungan berisi informasi yang sama. Gambar 1 mengilustrasikan vektor dokumen yang terdapat dalam ruang vektor, yang diberi nilai oleh bobot kata.

Gambar 1 Kedekatan dokumen dalam ruang vektor (Manning et al. 2008). Formula untuk memperoleh kesamaan

cosine untuk dj dan dk adalah:

sim | || |

Berdasarkan formula kesamaan cosine, dj

dan dk adalah dokumen yang terdapat dalam

ruang vektor M kata, dan M merupakan vektor bobot tiap dokumen. Dalam implementasi perolehan n dokumen teratas, hal serupa dilakukan untuk mengukur kesamaan antara vektor query dan dokumen. Dokumen diurutkan berdasarkan perolehan nilai cosine dengan query. Kemudian dipilih n dokumen teratas dengan nilai cosine tertinggi.

Metode N-gram

N-gram merupakan sebuah metode yang

diaplikasikan untuk pembangkitan kata atau karakter. Sebuah karakter n-gram merupakan rangkaian dari n karakter atau n kata yang berurutan. Pada penelitian ini, n-gram yang

(11)

diaplikasikan berupa kata. Metode n-gram ini digunakan untuk mengambil potongan kata sejumlah n dari sebuah kalimat yang secara kontinu dibaca dari teks awal hingga akhir dari dokumen. Tujuan utama dibalik pendekatan ini ialah menentukan kata-kata yang mirip dengan rangkaian n-gram secara umum (Majumder et al. 2002).

Seba ai contoh, “pen olahan sa u skala industri berkemban ” menghasilkan rangkaian

n-gram yang dapat dilihat pada Tabel 2.

Tabel 2 Rangkaian hasil n-gram

N n-gram word(s) 1 Pengolahan 1 Sagu 1 Skala 1 Industri 1 Berkembang 2 pengolahan sagu 2 sagu skala 2 skala industri 2 industri berkembang 3 pengolahan sagu skala 3 sagu skala industri 3 skala industri berkembang 4 pengolahan sagu skala industri 4 sagu skala industri berkembang 5 pengolahan sagu skala industri

berkembang

Passage N-Gram Term Weight Model

Kebanyakan dari sistem passage retrieval terbaru tidak berorientasi pada masalah spesifik question answering karena question

answering hanya mempertimbangkan kata

kunci pertanyaan untuk mendapatkan bagian yang relevan, yaitu bagian yang memiliki jawaban yang benar.

Pada penelitian ini, passage akan digolongkan berdasarkan gram. Struktur

n-gram dari setiap passage diekstraksi oleh

fungsi ekstraksi n-gram. Hanya n-gram yang mengandung query yang diekstraksi.

Bobot dari tiap passage dihitung berdasarkan kesamaan antara query dan

passage n-gram term weight model. Nilai similarity dari passage dengan query ialah

lebih besar jika passage berbagi struktur

n-gram lebih panjang dengan pertanyaan.

Semakin besar nilai similarity, semakin tinggi

passage yang diperingkatkan oleh sistem.

Berdasarkan penelitian Buscaldi et al. (2009), bagian penting dalam fungsi term pada n-gram term weight model ada dua, yaitu:

1 Bobot dari term dari pertanyaan atau query yang ditentukan oleh rumus:

w - lo lo n (1)

dengan nk adalah jumlah kalimat yang

memiliki term K dan N adalah jumlah kalimat yang terdapat pada koleksi dokumen.

2 Fungsi h(x) mengukur bobot dari tiap

n-gram dan didefinisikan sebagai:

h( ) ∑ w n

dengan wk adalah bobot term dari n-gram

x.

METODE PENELITIAN

Penelitian ini dilakukan dalam tiga tahap, yaitu pemrosesan offline, pemrosesan online, dan evaluasi hasil percobaan.

Pemrosesan Offline

Pemrosesan offline terdiri atas tahap pengumpulan dokumen, praproses dokumen,

indexing dokumen, dan pembentukan

passages. Pemrosesan ini dilakukan untuk

mendapatkan nilai tf-idf dan passage yang akan digunakan pada pemrosesan online. Hal ini dimaksudkan agar pemrosesan secara

online dapat dilakukan lebih cepat. Alur

pemrosesan offline dapat dilihat pada Gambar 2.

Indexing

Praproses Dokumen

Pembentukan Passages Documents

Gambar 2 Alur pemrosesan offline. Tahapan pemrosesan secara offline ialah: 1 Pengumpulan Dokumen

Koleksi dokumen uji dan daftar stopwords diambil dari Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. 2 Praproses Dokumen

Pada tahap ini, dilakukan proses parsing terhadap koleksi dokumen uji. Stopwords pada koleksi dokumen uji tidak dihilangkan. 3 Indexing Dokumen

(12)

Proses indexing dokumen pada tahap ini menggunakan pembobotan tf-idf. Hasil

indexing berupa nilai idf dan tf-idf dari seluruh

dokumen.

4 Pembentukan Passages

Sebelum passage dibentuk, terlebih dahulu dilakukan penamaan entitas pada koleksi dokumen pengujian. Penamaan entitas atau

tagging dilakukan secara otomatis menggunakan hasil penelitian dari Citrainingputra (2009). Entitas yang digunakan yaitu NAME, ORGANIZATION, DATE, LOCATION, NUMBER, dan CURRENCY. Pembentukan passage terdiri atas dua kalimat yang saling berdampingan.

Passage yang terbentuk akan digunakan pada

pemrosesan secara online. Pemrosesan Online

Alur pemrosesan online dapat dilihat pada Gambar 3. Offline N-Gram Comparison Ekstraksi Jawaban Evaluasi Ekstraksi N-Gram Passage N-Gram Re-ranked Passages Input Query Ekstraksi N-Gram Query N-Gram Top 5 Dokumen Passages

Gambar 3 Alur pemrosesan online. Tahapan pemrosesan secara online adalah: 1 Input Query

Query berupa kalimat tanya yang diawali

dengan kata tanya SIAPA, KAPAN, DI MANA, dan BERAPA.

2 Ekstraksi N-Gram dan Query N-Gram

Query yang dimasukkan akan dilakukan

proses parsing terhadap kata tanya. Query selain kata tanya kemudian diproses dengan menggunakan metode n-gram term weight

model.

Pada tahap ini, dilakukan juga pemberian bobot terkecil pada stopwords sebesar 0.001 (Buscaldi et al. 2009). Hal ini dilakukan karena pada proses pembobotan n-gram,

stopwords tidak dihilangkan untuk menjaga

struktur dari query tersebut. Koleksi dokumen uji dan daftar stopwords diambil dari Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. Langkah selanjutnya ialah memberikan bobot per

n-gram pada query yang diberikan. Pembobotan n-gram pada query dihitung berdasarkan

persamaan 1 dan 2.

3 Perolehan Lima Dokumen Teratas

Sistem akan mengembalikan lima dokumen teratas yang memiliki nilai kesamaan cosine tertinggi.

4 Passages

Kandidat passage diperoleh dari passages yang terletak pada lima dokumen teratas. 5 N-Gram Comparison

Pada proses ini, akan dilakukan perhitungan terhadap nilai bobot kemiripan pada n-gram query dan n-gram passage yang dihasilkan oleh sistem. Passage yang diambil adalah passage yang memiliki nilai bobot kemiripan yang terbesar.

6 Ekstraksi N-Gram dan Passage N-Gram

Term Weight Model

Perhitungan bobot pada passage terhadap

query akan dilakukan parsing terhadap passage sesuai dengan jumlah n-gram pada query. Mulai dari 1-gram hingga n-gram.

Langkah selanjutnya ialah pembandingan antara kata pada query dan kata pada passage yang dilakukan berdasarkan per n-gram

(1-gram query dibandingkan dengan 1-(1-gram passage, dan seterusnya). Untuk tiap kesamaan kata yang diperoleh akan dijumlahkan nilai bobot per kata yang diperoleh pada bobot query sebelumnya yang ada pada passage sehingga masing-masing

passage akan memiliki bobot.

7 Re-ranked Passage

Hasil bobot passage yang dikembalikan pada proses n-gram comparison kemudian diperingkatkan dari yang terbesar hingga terkecil.

(13)

8 Ekstraksi Jawaban

Jawaban akhir diperoleh dengan menghitung jarak terdekat antara kandidat jawaban pada top passage dan kata-kata yang merupakan hasil pencocokkan dengan

keyword yang akan dihasilkan sebagai output.

Evaluasi Hasil Percobaan

Evaluasi Question Answering System (QAS) ini dilakukan dengan melihat banyaknya kalimat jawaban yang ditemukembalikan dan banyaknya hasil yang bernilai benar maupun salah. Semakin banyak hasil yang benar, maka kinerja sistem semakin baik. Setiap query dapat memiliki satu atau lebih kandidat jawaban. Evaluasi dilakukan menurut persepsi manusia.

Pemberian nilai dilakukan berdasarkan empat kriteria, yaitu:

1 Wrong (W): jawaban tidak benar.

2 Right (R): jawaban dan dokumen benar.

3 Null: jawaban kosong karena tidak ada

kandidat jawaban yang memiliki format yang sesuai.

4 Unsupported: jawaban benar, tapi dokumen tidak mendukung.

Lingkungan Pengembangan

Perangkat keras notebook yang digunakan pada penelitian, yaitu:

1 Processor AMD X2 1.6 GHz. 2 RAM 2 GB.

3 Hard disk kapasitas 250 GB.

Perangkat lunak yang digunakan pada penelitian, yaitu:

1 Sistem operasi Windows 7 Ultimate. 2 Netbeans IDE 6.9

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Dokumen uji yang digunakan ialah dokumen berbahasa Indonesia yang telah tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. Secara umum, dokumen diberi nama berdasarkan sumber data dan tanggal data diterbitkan dengan ditambahkan nomor urut pada akhir, seperti gatra011102.txt yang berarti data berasal dari majalah Gatra dan diterbitkan pada tanggal 01 januari bulan

November 2002. Masing-masing dokumen uji berekstensi teks (*.txt) dan struktur XML di dalamnya. Dokumen memiliki tag dengan fungsi yang berbeda-beda. Pada baris pertama terdapat tag <DOC> yang berfungsi membedakan satu dokumen dengan dokumen lainnya. Tag <DOCNO> menunjukkan nama dokumen, tag <TITLE> menunjukkan judul dari dokumen, tag <AUTHOR> menunjukkan penulis dari dokumen dan tag <TEXT> yang menunjukkan isi dari dokumen. Berikut adalah contoh format struktur dokumen yang digunakan. <DOC> <DOCNO>gatra011102</DOCNO> <TITLE>Banten Kembangkan Agroindustri </TITLE> <AUTHOR>Ark, Ant</AUTHOR> <DATE> 1 November 2002 </DATE> <TEXT>

Selain industri kimia dan

parawisata, provinsi Banten juga

melirik agroindustri. Provinsi

pecahan Jawa Barat ini akan

mengembangkan `Agroindustrial

Park`, yaitu sebuah kawasan indutri pengolahan hasil pertanian, di Cilegon itu diungkapkan Gubernur Banten, Dr Djoko Munandar, di Serang, Jumat.

"Nantinya kawasan ini akan menjadi pusat pengolahan berbagai produk pertanian, walaupun bahan bakunya tidak hanya dipasok dari Banten, tetapi akan makin memacu kemajuan

pertanian di propinsi ini,"

katanya, seusai acara gelar wicara tentang upaya peningkatan produk

olahan dan pemasaran hasil

pertanian, di Aula Kantor

Gubernuran. </TEXT> </DOC>

Pada tahap indexing, pemrosesan dokumen hanya diambil bagian yang diapit oleh tag <TITLE> dan <TEXT>, sedangkan untuk pembentukan passages, yang digunakan hanya bagian dokumen yang diapit oleh tag <TEXT>. Berikut adalah menunjukkan ilustrasi bagian dokumen yang diproses.

<DOC> <DOCNO> --- </DOCNO> <TITLE> --- </TITLE> <AUTHOR> --- </AUTHOR> <DATE> --- </DATE> <TEXT> --- </TEXT> </DOC>

(14)

Pemrosesan Dokumen

Langkah pertama pada pemrosesan dokumen ialah penamaan entitas (named

entity) yang disebut tagging pada dokumen uji

dengan menggunakan hasil penelitian dari Citrainingputra (2009). Penamaan entitas dilakukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaan. Penamaan entitas yang digunakan terdiri atas NAME, ORGANIZATION, LOCATION ,NUMBER, CURRENCY, DATE, dan TIME. Pada tahap ini, dilakukan dengan memasukkan satu per satu bagian dokumen yang diapit tag <TEXT> ke dalam sistem

name entity tagging (Citraningputra 2009).

Selanjutnya, semua dokumen hasil tagging kemudian disimpan dalam korpus. Berikut adalah contoh penggunaan tagging.

<ORGANIZATION>Ketua Umum Himpunan Kerukunan Tani Indonesia

(HKTI</ORGANIZATION>) <NAME>Siswono Yudo Husodo</NAME> menyatakan, jika bangsa

<LOCATION>Indonesia</LOCATION> tidak mampu mengelola daya saing pertanian dalam era pasar bebas <ORGANIZATION>ASEAN</ORGANIZATION> (<ORGANIZATION>AFTA</ORGANIZATION>) yang sudah berlaku per <DATE>1 Januari 2003</DATE> maka pertanian akan mengalami kehancuran bahkan jutaan petani juga kehilangan pekerjaan.

Langkah kedua ialah pembacaan terhadap isi file dari korpus. Pembacaan hanya berlaku pada isi file yang berada pada tag <TITLE> dan <TEXT>. Kemudian pada isi file tersebut dilakukan parsing dengan pemisah kata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@].\

Indexing

Proses indexing dilakukan dengan melakukan perhitungan tf-idf dengan mendapatkan nilai term frequency dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency diperoleh dari pasangan dokumen dan hasil parsing dari masing-masing file disimpan dalam suatu

array pada variabel tf. Variabel ini digunakan

untuk menghitung nilai df, idf, dan tf-idf setiap kata.

Perhitungan tf-idf

Langkah pertama melakukan perhitungan

tf-idf ialah mendapatkan nilai term frequency,

dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency

diperoleh dari pasangan dokumen dan hasil

parsing (token-token) dari masing-masing file

disimpan dalam suatu array pada variabel tf. Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata.

Langkah selanjutnya ialah mendapatkan

document frequency (df). Document frequency

adalah jumlah dokumen yang mengandung kata tertentu. Kemudian dari hasil tersebut dapat dihitung nilai invers document frequency (idf). Tujuan dari idf ialah untuk

menentukan kata-kata (term) yang merupakan penciri dari suatu dokumen. Oleh karena itu, dalam penelitian ini hanya kata dengan nilai

idf lebih besar sama dengan 0.3 yang

disimpan (Sanur 2011). Hal ini bertujuan menghapus kata-kata yang tidak termasuk dalam stopwords namun bukan penciri dari sebuah dokumen. Hasil idf disimpan dalam satu file den an men unakan tanda “>>” sebagai pemisah. Melalui idf dapat diperoleh informasi untuk menghitung nilai tf-idf yang merupakan perkalian antara nilai tf dan idf. Selanjutnya hasil tf-idf kata juga disimpan dalam satu file dengan menggunakan tanda “>>” seba ai pemisah.

Pembentukan Passages

Tahap awal pembentukan passage

dilakukan pembentukan kalimat untuk setiap dokumen dengan menggunakan tanda pemisah antar kalimat yaitu [.?!]. Setiap

passage dibentuk dari dua kalimat yang

berurutan sehingga passage yang posisinya berdekatan saling overlap.

Pemrosesan Query

Query berupa kalimat tanya yang diawali

dengan kata tanya dan diakhiri dengan tanda tanya (?). Proses parsing pada query diawali dengan proses case folding, yaitu membuat huruf pada teks menjadi kecil. Query yang memiliki kata stopwords akan diberikan bobot 0.001 (Buscaldi et al. 2009). Query tersebut juga dibersihkan dari tanda baca. Hasil dari proses parsing disimpan dalam struktur data

array pertanyaan. Pada array tersebut,

diperoleh kata tanya (pada indeks ke-0) yang akan digunakan untuk menentukan tipe jawaban yang akan dikembalikan oleh sistem. Proses selanjutnya adalah parsing terhadap kalimat tanya dengan pemisah kata yang terdiri atas tanda baca [+\/%,.\"\];()\':=`?\[!@].

Pada penelitian kali ini, kata tanya yang digunakan dibatasi dalam empat jenis, yaitu SIAPA, KAPAN, DI MANA, dan BERAPA. Tabel 3 menunjukkan daftar pasangan jenis

(15)

kata tanya dan named entity yang menjadi penciri dari jawaban yang akan ditemukembalikan.

Tabel 3 Daftar pasangan kata tanya dan

named entity

No Kata Tanya Tag Entitas 1 Siapa NAME, ORGANIZATION 2 Kapan DATE

3 Di mana LOCATION

4 Berapa NUMBER, CURRENCY

Perolehan Dokumen Teratas

Dokumen yang digunakan untuk proses perolehan jawaban ialah lima dokumen dengan bobot kesamaan cosine tertinggi. Dengan memanfaatkan nilai idf dan tf-idf, dilakukan perolehan norm dari query dan dokumen. Query dimasukkan secara manual kemudian dilakukan perhitungan terhadap

norm query, tf-idf query, dan norm untuk

setiap dokumen. Langkah selanjutnya ialah memasangkan nilai norm query dengan query setiap dokumen untuk menghasilkan nilai dot

product dan cosine. Setelah nilai cosine

diperoleh, dilakukan pengurutan nilai cosine. Dokumen yang diambil untuk memasuki langkah selanjutnya ialah lima dokumen dengan nilai cosine tertinggi.

Selanjutnya dilakukan pemilihan passage pada kamus passage yang termasuk dalam lima dokumen teratas. Hasil pemilihan

passage ini disimpan akan digunakan pada

tahap perolehan top passage.

Perolehan Passages Top Documents

Passage yang digunakan dalam proses

pembobotan ialah passage yang mengandung

tag named entity yang dibutuhkan. Misalnya

“Siapa” yan men acu pada NAME dan ORGANIZATION, “Di mana” yan men acu pada LOCATION.

Selanjutnya passage yang disimpan akan disaring untuk diambil passage yang memiliki TAG sesuai kata tanya pada query pertanyaan. Selanjutnya dilakukan pembobotan n-gram pada passage tersebut.

Ekstraksi dan Pembobotan N-gram pada

Query

Langkah pertama yang dilakukan pada ekstraksi n-gram ialah dengan mencari bobot masing-masing perkata (W) pada query menggunakan pembobotan n-gram term

weight model berdasarkan persamaan 1.

Pembobotan n-gram pada query dihitung terhadap lima dokumen teratas yang telah

ditemukembalikan. Seba ai contoh, “Siapa menteri pertanian Indonesia?”.

Langkah selanjutnya ialah menjumlahkan keseluruhan bobot tiap n-gram (h) berdasarkan persamaan 2. Sebagai contoh hasil perolehan bobot query n-gram dapat dilihat pada Tabel 4.

Tabel 4 Perolehan bobot query n-gram

n n-gram word(s) W 1 Menteri 0.679 1 Pertanian 0.541 1 Indonesia 0.569 2 Menteri pertanian 1.220 2 Pertanian Indonesia 1.110 3 Menteri pertanian Indonesia 1.789

H 6.143

Pembobotan Passage

Pembobotan terhadap passage

menggunakan metode n-gram term weight

model, sama seperti pencarian bobot pada n-gram query. Langkah yang dilakukan ialah

perhitungan perhitungan bobot kemiripan antara n-gram query dan n-gram passage yang dihasilkan oleh sistem. Passage yang diambil ialah passage yang memiliki nilai bobot kemiripan yang terbesar. Passage yang mendapatkan nilai tertinggi akan dikembalikan sebagai top passage dari query pertanyaan yang diberikan. Passage yang diambil ialah passage yang memiliki nilai bobot kemiripan yang terbesar.

Ekstraksi Jawaban

Proses selanjutnya ialah ekstraksi jawaban dari top passages yang diperoleh. Passage yang memiliki bobot tertinggi pada pembobotan passage menjadi top passage. Kata yang menjadi kandidat jawaban ialah kata yang memiliki entitas sesuai dengan kata tanya pada query pertanyaan. Dalam perolehan entitas jawaban, yang perlu diperhatikan ialah top passage dapat terdiri atas dua passage dan passage dapat memiliki satu atau lebih kandidat jawaban.

Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara setiap kandidat jawaban pada setiap passage dan masing-masing kata. Kandidat jawaban yang memiliki jarak terpendek dianggap sebagai jawaban yang paling tepat.

Evaluasi Hasil Percobaan

Tahap evaluasi dilakukan secara objektif dari segi:

(16)

1 Pasangan jawaban dan dokumen (Responsiveness).

2 Ketepatan untuk setiap jawaban dari pertanyaan yang diberikan.

Berikut pembahasan untuk masing-masing percobaan:

Hasil Percobaan Untuk Kata Tanya SIAPA Tampilan antarmuka dapat dilihat pada Lampiran 1. Berdasarkan sepuluh query pertanyaan yang diuji, diambil contoh query

Siapa Asisten Sekretaris Daerah

(Assekda) Bidang Kesejahteraan Rakyat

Provinsi DIY? Top passage yang diperoleh

pada penelitian ini:

NUSANTARA YOGYAKARTA (Media):

Pertanian di <LOCATION> Daerah

Istimewa Yogyakarta (DIY)

</LOCATION> sama sekali tidak

terpengaruh oleh kekeringan.

<ORGANIZATION> Asisten Sekretaris

Daerah (Assekda) Bidang

Kesejahteraan Rakyat

</ORGANIZATION> Provinsi <LOCATION>

DIY </LOCATION> <NAME> Bambang

Purnomo </NAME> mengatakan hal

tersebut kepada Media di <LOCATION> Yogyakarta </LOCATION>, kemarin.

Top passage di atas diperoleh dari

dokumen mediaindonesia270803.txt. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah Bambang Purnomo

dengan kriteria right.

Pembobotan n-gram term weight model untuk kata tanya SIAPA menghasilkan persentase ketepatan jawaban untuk kriteria

right sebesar 90%, wrong 0%, null 10%, unsupported 0%. Untuk kriteria null,

disebabkan karena tidak ditemukannya kandidat jawaban pada passage. Daftar query pertanyaan dan evaluasi untuk kata tanya SIAPA dapat dilihat pada Lampiran 2. Grafik hasil percobaan untuk kata tanya SIAPA dapat dilihat pada Gambar 4.

Gambar 4 Grafik hasil percobaan untuk kata tanya SIAPA.

Hasil Percobaan Untuk Kata Tanya KAPAN

Pada percobaan untuk kata tanya KAPAN, diambil contoh query Kapan dilakukan

penelitian di rumah kaca Balittro? Top

passage yang dikembalikan ialah sebagai

berikut:

Untuk itu telah dilakukan penelitian di <LOCATION> rumah kaca Balittro Bogor </LOCATION> pada tahun <DATE> 1997/1998 </DATE> dan di lanjutkan penelitian di lapang di <LOCATION> IP Sukamulya (Sukabumi) </LOCATION> pada tahun <DATE> 1998/1999 </DATE>. Pada percobaan rumah kaca, tujuh jenis bakteri antagonis baik secara sendiri-sendiri maupun gabungan yang diformulasikan dalam suatu pembawa,

yaitu bakteri antagonis P~

fluorescens (PF), P~ cepacia (PC),

Bacillus (BC), campuran PF+PC,

campuran PC+BC, campuran PF+BC, dan campuran PF+PC+BC diuji di rumah kaca pada tanaman jahe yang ditanam pada pot yang berisi tanah bekas

tanaman tomat terinfeksi P~

solanacearum.

Top passage tersebut diperoleh dari

dokumen balaipenelitian000000-009. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah 1997/1998

dengan kriteria right.

Pembobotan n-gram term weight model untuk kata tanya KAPAN menghasilkan persentase ketepatan jawaban untuk kriteria

right sebesar 80%, wrong 0%, null 20%, dan unsupported 0%. Untuk kriteria null,

dikarenakan tidak ditemukannya passage yang sesuai. Daftar query pertanyaan dan evaluasi untuk kata tanya KAPAN dapat dilihat pada Lampiran 3. Grafik hasil percobaan untuk kata tanya KAPAN dapat dilihat pada Gambar 5.

Gambar 5 Grafik hasil percobaan untuk kata tanya KAPAN.

(17)

Hasil Percobaan Untuk Kata Tanya DI MANA

Berdasarkan sepuluh query pertanyaan yang diuji, diambil contoh query pertanyaan

Di mana terjadi kekeringan dengan

jumlah terbanyak?. Hasil penelitian ini

mengembalikan top passage sebagai berikut:

Mereka yang terkena dampak kekeringan khususnya pada kebutuhan rumah tangga itu terdapat di wilayah <LOCATION> Kabupaten Gunungkidul </LOCATION>, <LOCATION> Sleman, dan Kulonprogo </LOCATION>. Jumlah yang terkena kekeringan terbanyak di wilayah <LOCATION> Kabupaten Gunungkidul </LOCATION> yang mencapai lebih dari <NUMBER> 100 ribu jiwa </NUMBER>.

Top passage tersebut diperoleh dari

dokumen mediaindonesia270803.txt. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah Sleman dan

Kulonprogo dengan kriteria wrong. Top

passage yang dikembalikan sudah benar tetapi

kesalahan terjadi pada pemillihan kandidat jawaban. Kandidat yang dipilih ialah kandidat yang memiliki jarak terdekat.

Pembobotan n-gram term weight model untuk kata tanya DI MANA menghasilkan persentase ketepatan jawaban untuk kriteria

right sebesar 80%, wrong 20%, null 0%, dan unsupported 0%. Kriteria wrong disebabkan

oleh kandidat yang dipilih tidak sesuai dengan jawaban yang benar. Kandidat yang dipilih adalah kandidat dengan jarak terdekat dengan

query pada passage. Daftar query pertanyaan

dan evaluasi untuk kata tanya DI MANA dapat dilihat pada Lampiran 4. Grafik hasil percobaan untuk kata tanya DI MANA dapat dilihat pada Gambar 6.

Gambar 6 Grafik hasil percobaan untuk kata tanya DI MANA.

Hasil Percobaan Untuk Kata Tanya BERAPA

Pada percobaan untuk kata tanya BERAPA, diambil contoh query pertanyan

Berapa harga jual untuk sapi dengan

berat 250 kg?. Top passage yang

dikembalikan adalah sebagai berikut:

Menurutnya, dengan berat sapi yang

dikembangkan hingga rata-rata

<NUMBER> 250 kg </NUMBER>, petani bisa menjualnya seharga <CURRENCY> Rp 3 juta-Rp 4 juta </CURRENCY>.

"Sementara harga standar yang

ditetapkan <ORGANIZATION> Dinas

Pertanian </ORGANIZATION>, untuk

pengembalian bantuan dana,

ditetapkan sebesar <CURRENCY> Rp 2,3 juta </CURRENCY>.

Top passage tersebut diperoleh dari

dokumen gatra230103-002.txt. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah Rp 3 juta-Rp 4

juta dengan kriteria right.

Pembobotan n-gram term weight model untuk kata tanya BERAPA menghasilkan persentase ketepatan jawaban untuk kriteria

right sebesar 40%, wrong 40%, null 20%, dan unsupported 0%. Kriteria wrong disebabkan

karena kandidat yang dipilih tidak sesuai dengan jawaban yang benar. Kandidat yang dipilih adalah kandidat dengan jarak terdekat dengan query pada passage, sedangkan untuk kriteria null, dikarenakan tidak ditemukannya

passage yang sesuai. Daftar query pertanyaan

dan evaluasi untuk kata tanya BERAPA dapat dilihat pada Lampiran 5. Grafik hasil percobaan untuk kata tanya BERAPA dapat dilihat pada Gambar 7.

Gambar 7 Grafik hasil percobaan untuk kata tanya BERAPA.

Hasil Percobaan Keseluruhan Kata Tanya Menggunakan Lima Dokumen Teratas

Persentase jawaban pada pembobotan

n-gram term weight model secara keseluruhan

(18)

MANA, dan BERAPA dapat dilihat pada Gambar 8. Hasil penelitian dengan pembobotan n-gram term weight model ini menghasilkan ketepatan jawaban untuk masing-masing kata tanya dengan kriteria

right sebesar 72.5%, wrong 15%, null 12.5%,

dan unsupported 0%.

Gambar 8 Grafik hasil percobaan untuk semua kata tanya.

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian menunjukkan metode

n-gram Term Weight Model dapat diimplementasikan dalam pembobotan

passage dalam QAS dan dapat menemukembalikan passage yang mengandung kandidat jawaban benar dengan akurasi yang cukup tinggi, yaitu 72.5% secara keseluruhan dari semua kata tanya SIAPA, KAPAN, DI MANA, dan BERAPA. Semakin mirip struktur query dengan kalimat yang ada pada passage maka kemungkinan jawaban yang benar diperoleh dari passage tersebut akan semakin besar. Pemilihan kandidat jawaban menggunakan rataan jarak terpendek namun kandidat jawaban dengan rataan jarak terpendek belum tentu memiliki jawaban yang benar.

Saran

Untuk penelitian selanjutnya yang terkait dengan question answering system dengan metode n-gram term weight model disarankan untuk melakukan penelitian dengan:

1 Perbaikan pada proses ekstraksi jawaban dengan menggunakan metode ekstraksi jawaban yang lain misalnya metode yang digunakan oleh Murata et al. (2005). 2 Menggunakan metode lain dalam proses

indexing agar kinerja pencarian diperoleh

lebih cepat.

3 Melengkapi n-gram term weight model dengan penambahan Distance Model pada pembobotan passage.

4 Perlu dilakukan perbaikan metode perolehan jawaban secara semantik dengan POS-Tagging untuk mengidentifikasi jenis kata.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. New York.

ACM Press.

Ballesteros LA, Li X. 2007. Heuristic and syntactic for cross-language question answering. Di dalam: Proceedings of

NTCIR-6 Workshop Meeting. Tokyo,

15-18 Mei 2007. Tokyo: Computer Science Departement, Mount Holyoke College. hlm 230-233.

Buscaldi D, Sanchis E, Gómez JM, Rosso P, Soriano. 2009. Answering question with n-gram based passage retrieval engine.

Intelligent Information System 34:113-134.

Chaudhuri BB, Mitra M, Majumder P. 2002. N-gram: a language independent approach to IR and NLP. Di dalam: International

conference on universal knowledge and language. Goa, India. 25-29 November

2002.

Cidhy DATK. 2009. Implementasi question

answering system dengan pembobotan

heuristic [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Citraningputra P. 2009. Entitas tagging untuk dokumen berbahasa indonesia menggunakan metode berbasis aturan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Manning CD, Raghavan P, Schütze H. 2008.

Introduction to Information Retrieval.

Cambridge: Cambridge University Press. Murata M, Utiyama M, Isahara H. 2005. Use

of multiple documents as evidence with decreased adding in japanese question answering system. Journal of Natural

(19)

Najibullah A. 2011. Implementasi n-gram dalam pencarian teks sebagai penunjang aplikasi perpustakaan kitab berbahasa Arab [skripsi]. Surabaya: Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember.

Rahmawan F. 2012. Implementasi question

answering system pada dokumen berbahasa indonesia menggunakan n-gram [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Sanur SA. 2011. Pemilihan passage dalam

question answering system untuk dokumen berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(20)
(21)
(22)

Lampiran 2 Hasil percobaan untuk kata tanya „SIAPA‟

No Query Jawaban Keterangan

1 Siapa Asisten Sekretaris Daerah (Assekda) Bidang Kesejahteraan Rakyat Provinsi DIY?

Bambang Purnomo R

2 Siapa Bambang Purnomo? Asisten Sekretaris Daerah Assekda

Bidang Kesejahteraan Rakyat R 3 Siapa Juru Bicara Departemen Luar Negeri

Republik Indonesia? Marty Natalegawa R

4 Siapa Marty Natalegawa? Juru Bicara Departemen Luar

Negeri Republik Indonesia R

5 Siapa menteri pertanian? Bungaran Saragih R

6 Siapa yang bekerja sama dengan Unibraw

untuk menangani pasca panen ikan? lembaga kimia nasional R 7 Siapa Ketua Umum Dewan Pimpinan Pusat

Himpunan Alumni Institut Pertanian Bogor? Muwardi P Simatupang R

8 Siapa Prof. Dr Ir Naik Sinukaban MSc Null N

9 Siapa Bungaran Saragih? Menteri Pertanian R

10 Siapa menghasilkan penelitian tentang budi

daya pisang dengan kultur jaringan? Unibraw R

(23)

Lampiran 3 Hasil percobaan untuk kata tanya „KAPAN‟

No Query Jawaban Keterangan

1 Kapan dilakukan penelitian di rumah kaca Balittro? 1997/1998 R 2 Kapan Malaysia menyatakan akan menindak tegas para

pekerja asing? Null N

3

Kapan Bungaran Saragih menyatakan kelangkaan pupuk diakibatkan adanya penyebaran yang terjadi secara sporadic?

Null N

4 Kapan diadakan semiloka pengelolaan ekosistem pesisir? 31 Juli 2002 R 5

Kapan dilakukan Penelitian secara on-farm adaptif pada dua lokasi di desa Nepo Kecamatan Mallusetasi, kabupaten Barru?

Agustus sampai

nopember 2000 R 6 Kapan pengaruh isu pertanian, kenaikan harga pangan,

mempengaruhi sejarah Indonesia? 1965 R

7 Kapan perkenalan Warno dengan cacing? 1998 R

8 Kapan WTO RIO DE JANERIO 20 negara dilaksanakan? 10-14 September

2003 R

9 Kapan diadakan semiloka Pengembangan Kawasan Pantai

sebagai alternative akselerator pembangunan daerah? 31-Jul-02 R 10 Kapan dilaksanakan Konpernas Ekonomi Pertanian XIV

dan Kongres XIII? senin 17/5 R

(24)

Lampiran 4 Hasil percobaan untuk kata tanya „DI MANA‟

No Query Jawaban Keterangan

1 Di mana terjadi kekeringan dengan jumlah terbanyak? Kulonprogo W 2 Di mana dilakukan pengembangan tanaman jahe gajah

secara besar-besaran?

Kabupaten Rejang

Lebong R

3 Di mana dilakukan peresmian Pencanangan Gerakan Tambahan Dua Juta Ton Jagung (Gentataton)?

Dunggalan,Tibawa,

Gorontalo R

4 Di mana Bureau of Animal and Plant Health

Inspection and Quarantine (BAPHIQ)? Taiwan R

5 Di mana Peter Allgeire menjadi deputi perwakilan

dagang? AS R

6 Di mana kegiatan bongkar muat beras import dilakukan?

Pelabuhan Tanjung

Perak Surabaya R

7 Di mana pengolahan sagu skala industry berkembang? Maluku R 8 Di mana unsure N diyakini sebagai kunci utama

peningkatan produksi padi? Sulawesi Selatan R

9

Di mana terjadi masalah sempitnya lahan pertanian, inefisiensi, produktivitas rendah, dan fluktuasi harga produk pertanian?

Indonesia R

10 Di mana terjadi penurunan produksi tanaman

tembakau? Perkebunan Inti Rakyat W

(25)

Lampiran 5 Hasil percobaan untuk kata tanya „BERAPA‟

No Query Jawaban Keterangan

1 Berapa harga jual untuk sapi dengan berat 250 kg? Rp 3 juta-Rp 4

juta R

2 Berapa harga pemesanan kursi Rafles? Rp 275 ribu/unit R 3 Berapa luas Kalimantan Timur? 24.5 juta hektar R

4 Berapa luas areal sagu Malaysia? 51.3% W

5 Berapa usia panen pertama kali lengkeng? Null N

6 Berapa luas areal sagu dunia? 51.3% W

7 Berapa harga beras dalam negri antara bulan Juni-Juli? Null N 8 Berapa luas areal sagu Indonesia? 1 128 juta ha R

9 Berapa jumlah penduduk China? 210 juta W

10 Berapa luas wilayah yang ditanami tanaman padi di Kalimantan Timur?

24.5 juta hektar

W Keterangan R: Right W: Wrong N: Null U: Unsupported

Gambar

Tabel  1  menunjukkan  ilustrasi  matriks  inverted index, yang berisi bobot setiap kata t  dalam suatu dokumen d
Tabel 2  Rangkaian hasil n-gram
Gambar 3  Alur pemrosesan online.
Tabel  3    Daftar  pasangan  kata  tanya  dan  named entity
+3

Referensi

Dokumen terkait

Contoh Tampilan Tems Investigation Pada pengamatan jaringan frekuensi radio seluler 1800 dan 2100 MHZ khususnya dalam proses refarming ini, yang diamati yaitu

Sebelum membahas mengenai etika bisnis Islam, saya akan memaparkan terlebih dahulu mengenai Ekonomi Islam. Hal tersebut saya lakukan karena etika bisnis merupakan

bahwa untuk memenuhi ketentuan dengan dirubahnya Pasal 7 Indische Comptabiliteitswet Anggaran Pendapatan dan Belanja Negara Peralihan untuk masa 1 Januari sampai dengan 31 Maret

Menimbang, bahwa berdasarkan fakta – fakta yang terungkap dipersidangan bahwa 1 (satu) unit sepeda motor Honda Vario warna pink, yang diambil oleh terdakwa bersama Rian (DPO)

Setelah kegiatan mengamati, siswa dapat menggunakan kosa kata tentang ukuran berbagai jenis benda di lingkungan sekitar pada kalimat dengan tepat.. Setelah mengamati gambar,

Konsep warna pada penelitian ini mengacu pada pendapat Wierzbicka (1990 ) yang menyatakan bahwa pengertian dari istilah warna dalam bahasa tidak bisa secara pasti merupakan

Pada kasus ini pasien dipulangkan dari RS setelah perawatan selama 5 hari dengan alasan secara klinis membaik yaitu tanda perdarahan tidak ditemukan lagi,

Berdasarkan pengertian di atas, maka dapat disimpulkan bahwa sistem informasi akuntansi adalah suatu kumpulan sumber daya yang diatur untuk memproses data dan transaksi