Implementasi question answering system dengan metode rule-based untuk temu kembali informasi berbahasa Indonesia

(1)

Oleh:

NAFI’ IKHSANI

G64102016

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

NAFI’ IKHSANI

G64102016

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

Temu Kembali Informasi Berbahasa Indonesia. Dibimbing oleh JULIO ADISANTOSO dan SRI NURDIATI.

Question Answering System (QAS) dapat diterapkan untuk membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading comprehension). Dengan memasukkan kueri berupa pertanyaan ke dalam sistem, maka sistem akan mengembalikan sebuah kalimat sebagai jawabannya.

Proses penemukembalian jawaban dimulai dengan memecah (parsing) suatu dokumen bacaan menjadi kalimat-kalimat. Kalimat-kalimat tersebut dipecah dan di-stem menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri dipecah dan di-stem menjadi token-token. Token-token dari setiap kalimat dokumen maupun kueri diproses dalam rules sesuai dengan tipe pertanyaannya. Dalam penelitian ini tipe pertanyaan yang digunakan hanya lima tipe, yaitu: APA, SIAPA, KAPAN, MANA, dan MENGAPA. Proses di dalam rules itu memberikan nilai (score) untuk masing-masing kalimat dokumen. Kalimat yang memiliki nilai tinggi akan dikembalikan sebagai jawaban.

Kalimat yang dikembalikan sebagai jawaban bisa lebih dari satu, karena ada kemungkinan beberapa kalimat yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga bergantung pada ambang batas nilai (threshold of score) yang digunakan.

Threshold of score yang digunakan dalam penelitian ini adalah 1 sampai 12.

Kinerja sistem tertinggi dicapai saat menggunakan ambang batas 7 dan 8, yang mengembalikan rata-rata tiga kalimat dan banyaknya hasil yang benar mencapai 82,5%. Dari evaluasi berdasarkan

rules, rules ”APA” mempunyai kinerja yang paling tinggi, dan akurasi rata-rata rules adalah 74,65%. Namun, akurasi yang cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan berbagai asumsi yang digunakan.

(4)

Nama : Nafi’ Ikhsani

NRP : G64102016

Menyetujui:

Pembimbing I

Ir. Julio Adisantoso, M.Kom

NIP 131578807

Pembimbing II

Dr. Ir. Sri Nurdiati, M.Sc

NIP 131578805

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP 131473999

(5)

Sudaryanto dan Mulyani. Penulis merupakan anak ketiga dari empat bersaudara.

Pendidikan formal penulis dimulai di SD Negeri II Karanganom, Klaten lulus pada tahun 1996. Tahun 1999 penulis lulus dari SLTP Negeri 1 Karanganom, Klaten. Kemudian pendidikan penulis dilanjutkan di SMU Negeri 1 Karanganom, Klaten sampai tahun 2002. Pada tahun yang sama, penulis melanjutkan studi di Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI), menjadi mahasiswa program studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(6)

segala rahmat dan karunia-Nya sehingga tugas akhir ini berhasil diselesaikan.

Tak lupa penulis juga mengucapkan terima kasih yang sebesar-besarnya kepada seluruh pihak yang telah membantu penulis dalam menyelesaikan tugas akhir ini, antara lain kepada :

1. Bapak dan Ibu tercinta serta seluruh keluarga yang senantiasa mencurahkan kasih sayangnya dan memberikan dukungan serta doa yang tulus.

2. Bapak Ir. Julio Adisantoso, M.Kom dan Ibu Dr. Ir. Sri Nurdiati, M.Sc selaku pembimbing skripsi, serta Bapak Firman Ardiansyah, S.Kom, M.Si selaku penguji. 3. Bapak Ahmad Ridha, S.Kom atas pengetahuan mengenai Information Retrieval dan

saran yang diberikan.

4. Rahman dan Onny yang banyak membantu dalam penyelesaian tugas akhir ini. 5. Teman-teman Laboratorium Temu Kembali Informasi atas bantuan dan dukungannya. 6. Tika dan Lulut yang senantiasa mendengarkan keluh kesah penulis.

7. Fajri, Kelik, dan Yudha, atas kebersamaan dan persahabatan yang terjalin selama ini. 8. Umbu Yudha Prihantoro atas dukungan dan waktu yang terluangkan.

9. Eko Susilo yang telah membantu pelaksanaan seminar dan sidang penulis. 10. Teman-teman ilkomerz 39 atas kebersamaannya selama ini.

11. Teman-teman di Wisma Teratai: Pipit, Irien, Dynna, Wiwien, Mbak Euis, Yani, Arti, Mbak Rahma, Dina Kecil, Lanjar, atas dukungan yang diberikan.

12. Dan pihak-pihak lain yang tidak dapat disebutkan satu persatu.

Semoga tulisan ini dapat bermanfaat, amin.

Bogor, Oktober 2006

Nafi’ Ikhsani

(7)

DAFTAR ISI

Halaman

DAFTAR ISI ... vi

DAFTAR GAMBAR ... vii

DAFTAR TABEL... vii

DAFTAR LAMPIRAN ... vii

PENDAHULUAN Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup... 1

TINJAUAN PUSTAKA Temu Kembali Informasi ... 1

Question Answering ...1

Quarc (Question Answering for Reading Comprehension) ... 2

Parsing...2

Stemming...3

METODE PENELITIAN Gambaran Umum Sistem ... 3

Koleksi Dokumen Pengujian... 3

Parsing dan WordMatch... 3

Identifikasi Tipe Pertanyaan ... 3

Pengelompokan Tipe Jawaban... 4

Algoritma Rules... 4

Temu Kembali Jawaban... 4

Ambang Batas Nilai (Threshold of Score) ... 5

Evaluasi Sistem Temu Kembali Informasi... 5

Asumsi-asumsi ... 5

Lingkungan Implementasi... 5

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian... 5

Parsing dan WordMatch... 5

Hasil Percobaan Berdasarkan Ambang Batas Nilai (Threshold of Score) ... 5

Evaluasi Sistem Temu Kembali Informasi Berdasarkan Ambang Batas Nilai (Threshold of Score)... 7

Evaluasi Berdasarkan Rules... 7

Kelebihan dan Kelemahan Sistem ... 9

KESIMPULAN DAN SARAN Kesimpulan ... 9

Saran ... 10

DAFTAR PUSTAKA ... 10

(8)

DAFTAR GAMBAR

Halaman

1 WHO Rules... 2

2 WHEN Rules... 2

3 WHERE Rules... 2

4 WHAT Rules... 2

5 WHY Rules... 2

6 DATELINE Rules ...2

7 Gambaran umum sistem... 3

8 Prosentase hasil yang benar ... 6

DAFTAR TABEL

Halaman 1 Evaluasi rule ”APA”... 7

2 Evaluasi rule ”SIAPA” ... 8

3 Evaluasi rule ”KAPAN” ... 8

4 Evaluasi rule ”MANA”... 8

5 Evaluasi rule ”MENGAPA” ... 9

6 Evaluasi keseluruhan rules... 9

DAFTAR LAMPIRAN

Halaman 1 Contoh dokumen dalam koleksi... 12

(9)

PENDAHULUAN

Latar Belakang

Sistem temu kembali informasi yang ada saat ini sudah banyak yang menggunakan kueri berupa pertanyaan. Hal ini disebabkan karena kueri berupa pertanyaan dapat menspesifikasikan informasi yang dicari oleh pengguna. Hal ini terbukti dengan semakin banyaknya search engine yang memiliki fitur temu kembali informasi dengan kueri pertanyaan, misalnya www.ask.com dan www.askme.com.

Dalam buku-buku mata pelajaran Bahasa Indonesia untuk siswa SD, SLTP, dan SMA, biasanya terdapat bacaan-bacaan yang disertai dengan pertanyaan-pertanyaan, yang disebut sebagai reading comprehension. Hal tersebut bertujuan untuk mengetahui kemampuan pemahaman siswa terhadap suatu bacaan. Para siswa diminta untuk menjawab pertanyaan-pertanyaan yang ada dalam suatu bacaan. Tentunya mereka harus mengetahui aspek-aspek penting dalam bacaan tersebut agar dapat menjawab pertanyaan-pertanyaan yang diberikan dengan baik.

Question AnsweringSystem (QAS) dapat diterapkan untuk membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading comprehension). Dengan memasukkan kueri berupa pertanyaan, akan diperoleh sebuah kalimat sebagai jawabannya. Misalnya dengan kueri “Apa jaringan komputer itu?”, kalimat yang mungkin akan dikembalikan sebagai jawaban adalah: “Jaringan komputer adalah sebuah sistem yang menghubungkan lebih dari satu komputer secara bersama-sama”. Tentunya sesuai dengan bacaan mana yang dipilih. Dengan bacaan yang berbeda, tentu kalimat yang dikembalikan sebagai jawaban pun akan berbeda.

Tujuan

Tujuan penelitian ini adalah mengimplementasikan sistem temu kembali informasi menggunakan kueri pertanyaan (question answering) untuk dokumen-dokumen reading comprehension berbahasa Indonesia. Metode yang digunakan adalah metode rule-based. Tujuan yang kedua adalah menganalisis akurasi sistem ini dalam menemukembalikan jawaban yang benar.

Ruang Lingkup

Ruang lingkup penelitian ini terbatas pada proses menemukan kalimat jawaban

pada suatu dokumen reading comprehension

sesuai dengan kueri pertanyaan yang diberikan. Dalam penelitian ini, pertanyaan hanya ditujukan untuk satu dokumen, seperti sistem Quarc (Question Answering for Reading Comprehension) yang telah dikembangkan oleh Riloff dan Thelen (2000).

Penelitian ini mengacu pada sistem

Quarc tersebut. Bedanya, Quarc adalah sistem yang dikembangkan untuk dokumen berbahasa Inggris, sedangkan penelitian ini dikembangkan untuk dokumen berbahasa Indonesia. Hal ini tentunya akan berpengaruh pada rules yang disusun, karena struktur bahasa Indonesia berbeda dengan struktur bahasa Inggris.

TINJAUAN PUSTAKA

Temu Kembali Informasi

Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi. Sistem temu kembali informasi seharusnya dapat menyediakan kemudahan akses informasi bagi pengguna. Namun, identifikasi kebutuhan informasi bukanlah hal yang sederhana. Pengguna harus menerjemahkan kebutuhan informasinya menjadi sebuah kueri agar dapat diproses oleh sistem temu kembali informasi. Dengan adanya kueri yang diberikan oleh pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dan sesedikit mungkin (atau bahkan tidak sama sekali) mengembalikan informasi yang tidak relevan terhadap yang diinginkan oleh pengguna (Baeza-Yates & Ribeiro-Neto, 1999).

Question Answering

Question Answering (QA) merupakan aplikasi nyata dari teknologi NLP (Natural Language Processing). Tujuan utama

Question Answering (QA) yaitu menampilkan jawaban atas pertanyaan yang diberikan pengguna. Ide utama QA adalah (Lin, 2004):

- menentukan tipe semantik jawaban yang diharapkan. Contoh: Pertanyaan ”Siapa yang memenangkan nobel perdamaian pada tahun 1991?” mencari ORANG. - mengembalikan dokumen-dokumen yang

memiliki keywords seperti pada pertanyaan. Contoh: mengembalikan dokumen yang memiliki keywords

(10)

- mencari entitas dengan tipe yang sesuai dengan pertanyaan, yang dekat dengan

keywords. Contoh: mencari ORANG yang dekat dengan keywords ”menang”, ”nobel perdamaian”, dan ”1991”.

Quarc (Question Answering for Reading Comprehension)

Quarc adalah suatu sistem yang dikembangkan oleh Riloff dan Thelen (2000). Cara kerjanya, suatu dokumen diberi kueri pertanyaan, kemudian sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut. Suatu rule dapat memberikan empat kemungkinan besarnya nilai: clue (+3), good_clue (+4), confident

(+6), dan slam_dunk (+20). Kalimat yang memiliki nilai terbanyak akan dikembalikan sebagai jawaban atas kueri pertanyaan tadi.

Gambar 4 WHAT Rules (Riloff & Thelen, 2000)

Riloff dan Thelen (2000) membagi rules

menjadi enam rules, seperti yang tercantum pada Gambar 1 sampai Gambar 6. Menurut Riloff dan Thelen (2000), sistem Quarc yang dikembangkan belum menggunakan pemahaman bahasa yang dalam. Hal ini mengakibatkan secara umum sistem tersebut hanya mampu mencapai akurasi sebesar 40%.

Gambar 5 WHY Rules (Riloff & Thelen, 2000)

Gambar 6 DATELINE Rules (Riloff & Thelen, 2000)

Gambar 1 WHO Rules (Riloff & Thelen, 2000)

Parsing

Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Bagian dasar dalam parsing adalah algoritma pengambil token dari teks yang disebut

tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Dalam proses ini biasanya juga digunakan sebuah daftar kata buang (stoplist) yakni daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau kueri, misalnya: yang, hingga, dan dengan (Ridha, 2002).

Gambar 2 WHEN Rules (Riloff & Thelen, 2000)

(11)

Stemming

Menurut Porter (1980), stemming adalah proses pemotongan imbuhan dari kata untuk mendapatkan kata dasarnya. Penggunaan utama dari stemming adalah sebagai bagian penting dalam proses normalisasi yang biasanya dilakukan ketika membangun sistem temu kembali informasi. Dengan proses stemming, kata mencanangkan akan dipotong menjadi men-canang-kan, sehingga didapatkan kata dasarnya canang.

METODE PENELITIAN

Gambaran Umum Sistem

Gambar 7 Gambaran umum sistem

Langkah pertama dalam menggunakan sistem ini adalah dengan mengambil satu buah dokumen berekstensi teks (*.txt). Kemudian, dokumen tersebut dipecah menjadi kalimat-kalimat yang dimasukkan ke dalam database. Pengguna memasukkan kueri berupa kalimat tanya. Dalam proses pencarian jawaban yang relevan, setiap kalimat dokumen dan kalimat kueri sama-sama masuk ke dalam proses

parsing dan stemming yang akan menghasilkan token-token. Token-token pada setiap kalimat dokumen dan kalimat kueri dibandingkan dalam proses WordMatch,

kemudian masuk ke dalam rules sesuai dengan tipe kueri yang diberikan. Kalimat-kalimat jawaban akan dikembalikan sesuai dengan ambang batas yang digunakan dan terurut dari yang memiliki nilai paling tinggi.

Koleksi Dokumen Pengujian

Sesuai dengan tujuan penelitian, dokumen yang digunakan dalam penelitian ini adalah dokumen-dokumen untuk reading comprehension. Penulis mengambil bacaan-bacaan yang terdapat pada buku mata pelajaran Bahasa Indonesia untuk SD kelas IV. Dokumen-dokumen tersebut dipilih karena struktur dan tata bahasa dalam bacaan mata pelajaran Bahasa Indonesia cukup sederhana dan teratur. Banyaknya dokumen yang digunakan adalah sebanyak 24 dokumen. Masing-masing dokumen tersebut nantinya akan diberi kueri berupa pertanyaan dengan lima tipe pertanyaan. Contoh dokumen yang digunakan dapat dilihat pada Lampiran 1. Dokumen

Parsing

Kueri

Stemming

Kalimat jawaban

Parsing

Kalimat-kalimat

Token-token Token-token

WordMatch

Rules

Parsing dan Wordmatch

Setiap dokumen yang diproses dalam sistem dipecah menjadi kalimat-kalimat. Pemecahan (parsing) dokumen ini hanya didasarkan pada adanya separator titik (”.”). Kemudian setiap kalimat itu akan kembali dipecah menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri akan dipecah menjadi token-token. Token-token dari setiap kalimat dokumen dan token-token dari kueri yang telah di-stem akan dibandingkan. Setiap token yang sama dari suatu kalimat dokumen dan kueri akan memberikan nilai clue (+3) pada kalimat tersebut. Pembandingan inilah yang disebut proses WordMatch.

Identifikasi Tipe Pertanyaan

Ada beberapa tipe pertanyaan yang digunakan dalam bahasa Indonesia, yaitu:

1. APA, yang menanyakan suatu definisi, tujuan, manfaat, kata benda, baik abstrak maupun kongkret (tidak termasuk di dalamnya yes/no question)

2. SIAPA, yang menanyakan orang atau makhluk hidup lain yang melakukan sesuatu.

3. KAPAN, yang menanyakan waktu terjadinya suatu peristiwa.

4. MANA, yang menanyakan tempat.

(12)

2. “SIAPA”

Dalam penelitian ini, tipe pertanyaan BAGAIMANA tidak diikutsertakan, karena jawabannya adalah suatu penjelasan. Begitu pula dengan tipe pertanyaan MANA yang menanyakan suatu pilihan. Akhiran –KAH juga tidak digunakan dalam hal ini.

Score(S) += WordMatch (Q,S)

If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk

3. “KAPAN” Pengelompokan Tipe Jawaban

Untuk dapat menemukan jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya adalah pengelompokan tipe jawaban. Tipe jawaban ini disusun dalam suatu kamus.

Score(S) += WordMatch(Q,S)

If contains (S, WAKTU) and contains (S,{saat,ketika,kala,semenjak,sejak,waktu, setelah,sebelum}) then

Score(S) += slam_dunk 1. ORANG, jawaban dari pertanyaan

SIAPA, yang dapat diidentifikasi dengan adanya titel, panggilan (misalnya Bapak), dapat pula menyatakan suatu pekerjaan (misalnya penulis). Tipe jawaban ini disimpan dalam kamus bernama

kamus_orang.txt.

If contains (S,WAKTU) then Score(S) += good_clue

If contains (S,{saat,ketika,kala,semenjak, sejak,waktu,setelah,sebelum}) then Score(S) += good_clue

4. “ MANA”

2. WAKTU, jawaban dari pertanyaan KAPAN, terdiri dari hari dan bulan. Tipe jawaban ini disimpan dalam kamus bernama kamus_waktu.txt.

If contains (S,TEMPAT) and contains (S, {dalam,dari,pada }) then

Score(S) += slam_dunk 3. TEMPAT, jawaban dari pertanyaan

MANA, terdiri dari beberapa nama kota di Indonesia dan beberapa nama negara. Tipe jawaban ini disimpan dalam kamus bernama kamus_tempat.txt.

If contains (S,{dalam,dari,pada}) then Score(S) += clue

If contains (S,TEMPAT) then Score(S) += good_clue Selain mengelompokkan tipe jawaban,

untuk memperoleh jawaban yang akurat tentu saja disertai implementasi rules yang dijelaskan pada sub bab algoritma rules. Untuk jawaban dari pertanyaan MENGAPA langsung diimplementasikan dalam sistem. Caranya adalah dengan mengidentifikasi kata ’sebab’, ’karena’, dan sejenisnya dari proses

tokenizer. Begitu pula dengan jawaban dari pertanyaan APA langsung diimplementasikan dalam sistem.

5. “MENGAPA”

If contains (S,{karena,sebab,akibat, maka}) then

Score(S) += confident

Keterangan: S = sentence (kalimat dokumen) Q = query (kalimat kueri)

Temu Kembali Jawaban

Algoritma Rules _Dalam_WordMatch_{, setiap token pada} kalimat dokumen yang sama dengan token pada kueri akan diberi nilai clue (+3). Tiap petunjuk pada kalimat dalam dokumen akan mendapatkan nilai berdasarkan rules yang ada, sesuai dengan tingkat relevansinya terhadap kueri pertanyaan yang diberikan. Dalam hal ini, ada empat tingkatan nilai, yakni (Rillof & Thelen, 2000):

1. “APA”

Score(S) += WordMatch (Q,S)

If contains (Q, {tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident

(13)

Lingkungan Implementasi

Kalimat yang mendapatkan nilai paling banyak akan ditemukembalikan sebagai jawaban dari kueri pertanyaan yang diberikan. Namun kalimat yang ditemukembalikan bisa jadi tidak hanya satu, karena ada kemungkinan beberapa kalimat yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga bergantung pada ambang batas nilai (threshold of score) yang digunakan.

Lingkungan implementasi yang digunakan adalah sebagai berikut:

• Perangkat lunak:

Sistem operasi Windows XP Professional

Microsoft Visual Basic.NET 2003

Microsoft Access 2003

• Perangkat keras:

Prosesor Intel Pentium IV 2.4 GHz

Ambang Batas Nilai (Threshold of Score) RAM 256 MB Ambang batas ini berguna untuk

membatasi nilai terendah dari kalimat-kalimat yang ditemukembalikan. Ambang batas yang digunakan dalam penelitian ini adalah 1 sampai 12. Jika menggunakan ambang batas 1, maka kalimat-kalimat jawaban yang ditemukembalikan oleh sistem adalah kalimat-kalimat yang memiliki nilai lebih dari 1, begitu pula dengan ambang batas yang lainnya.

Harddisk dengan kapasitas 40 GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Dokumen-dokumen yang terdapat dalam koleksi disimpan dalam berkas teks (*.txt) dan tidak diberi tag-tag tertentu seperti XML atau HTML, tetapi hanya teks biasa. Hal ini disebabkan karena tag-tag yang biasa digunakan dalam koleksi dokumen (corpus) untuk temu kembali tidak berpengaruh positif dalam sistem ini.

Evaluasi Sistem Temu Kembali Informasi

Metode yang digunakan untuk mengevaluasi sistem temu kembali informasi ini adalah dengan melihat banyaknya kalimat jawaban yang ditemukembalikan dan banyaknya hasil yang benar maupun yang salah. Semakin banyak hasil yang benar, tentu kinerja sistem akan semakin tinggi. Setiap kueri hanya memiliki satu kalimat jawaban atau tidak sama sekali, sehingga semakin banyak kalimat yang ditemukembalikan sebagai jawaban dari suatu kueri, justru menurunkan kinerja sistem.

Parsing dan WordMatch

Algoritma parsing dokumen menjadi kalimat-kalimat berdasarkan separator titik (”.”) dibuat sendiri oleh penulis. Namun untuk

parsing kalimat-kalimat dokumen dan kalimat kueri menjadi token-token serta algoritma

stemming, penulis memanfaatkan algoritma yang sudah ada di laboratorium temu kembali informasi. Algoritma WordMatch juga dibuat sendiri oleh penulis.

Algoritma WordMatch membandingkan token-token pada setiap kalimat dokumen dengan token-token pada kalimat kueri, yang telah melalui proses stemming. Setiap token yang sama akan menambahkan nilai clue (+3) pada kalimat dokumen tersebut.

Asumsi-asumsi

1. Kueri pertanyaan dibuat sendiri oleh penulis,

2. Kamus yang digunakan dibuat secara manual oleh penulis,

3. Rules yang digunakan dibuat sendiri berdasarkan asumsi penulis dengan mengacu pada rules yang dibuat oleh Riloff dan Thelen (2000),

Hasil Percobaan Berdasarkan Ambang Batas Nilai (Threshold of Score)

Percobaan dilakukan pada setiap dokumen. Dokumen yang digunakan sebanyak 24 dokumen, yang masing-masing diberi lima tipe kueri. Dalam satu ambang batas, percobaan dilakukan sebanyak 120 kali. Dari hasil percobaan yang diperoleh dapat disimpulkan bahwa:

4. Threshold of score yang digunakan adalah 1 sampai 12,

5. Kalimat jawaban yang relevan terhadap suatu kueri hanya satu kalimat atau tidak ada sama sekali. Daftar kueri yang digunakan dan jawaban yang benar (relevance judgement) dapat

dilihat pada Lampiran 2. _¾

untuk ambang batas 1:

(14)

- rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah 14 kalimat,

¾ untuk ambang batas 8:

- total banyaknya jawaban yang ditemukembalikan adalah 300, - banyaknya hasil yang benar adalah

93 (77,5%). - rata-rata banyaknya jawaban yang _{ditemukembalikan dalam satu kali} percobaan adalah dua kalimat,

- banyaknya hasil yang benar adalah 99 (82,5%).

- total banyaknya jawaban yang ditemukembalikan adalah 1701, - rata-rata banyaknya jawaban yang

ditemukembalikan dalam satu kali percobaan adalah 14 kalimat,

93 (77,5%). - rata-rata banyaknya jawaban yang _{ditemukembalikan dalam satu kali} percobaan adalah satu kalimat,

- banyaknya hasil yang benar adalah 84 (70%).

ditemukembalikan dalam satu kali percobaan adalah enam kalimat,

ditemukembalikan dalam satu kali percobaan adalah lima kalimat,

ditemukembalikan dalam satu kali percobaan adalah tiga kalimat,

50

threshold of score

pr

- banyaknya hasil yang benar adalah 96 (80%).

ditemukembalikan dalam satu kali percobaan adalah dua kalimat, - banyaknya hasil yang benar adalah

(15)

Yang dimaksud dengan hasil yang benar di sini adalah jika ada jawaban yang relevan dan berhasil ditemukembalikan walaupun mungkin tidak memiliki nilai tertinggi, atau jika jawaban yang relevan itu tidak ada dalam dokumen dan memang tidak ada jawaban yang ditemukembalikan. Yang dimaksud hasil yang salah adalah jika ada jawaban yang relevan tapi tidak berhasil ditemukembalikan, atau jika jawaban yang relevan tidak ada dalam dokumen namun sistem menemukembalikan jawaban yang lain.

Tabel 1 Evaluasi rules ”APA”

Ambang batas

Prosentase hasil yang benar/kali percobaan

1 100% (24/24)

Evaluasi Sistem Temu Kembali Informasi Berdasarkan Ambang Batas Nilai (Threshold of Score)

7 91,67% (22/24)

8 91,67% (22/24) Tujuan dari temu kembali informasi

yaitu menemukembalikan informasi yang relevan dan sesedikit mungkin menemukembalikan informasi yang tidak relevan. Dalam sistem ini, informasi atau jawaban yang relevan terhadap suatu kueri hanya satu kalimat saja atau tidak ada sama sekali, sedangkan kalimat-kalimat yang lain ditemukembalikan karena memiliki nilai di atas ambang batas yang telah ditentukan.

9 58,33% (14/24)

10 58,33% (14/24)

11 58,33% (14/24)

12 33,33% (8/24)

Rata-rata 81,944%

Dari Tabel 1 di atas terlihat bahwa rules ”APA” mencapai kinerja paling tinggi saat menggunakan ambang batas 1 sampai 5. Jadi, kalimat jawaban yang relevan rata-rata memiliki nilai kurang dari atau sama dengan 6 (0 < nilai jawaban ≤ 6) dan sistem relatif tidak mengembalikan kalimat jika dalam dokumen memang tidak ada jawaban yang relevan. Penurunan kinerja dari penggunaan ambang batas 9 sampai 12 yang cukup drastis disebabkan karena sebagian besar jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 9, dan tidak ditemukembalikan saat penggunaan ambang batas 9 sampai 12.

Dari Gambar 8 di atas, terlihat bahwa kinerja sistem paling tinggi tercapai saat pemakaian ambang batas 7 dan 8. Dengan ambang batas 7 dan 8, banyaknya hasil yang benar mencapai 82,5%, dan banyaknya jawaban yang dikembalikan cukup sedikit yaitu rata-rata hanya dua kalimat. Untuk pemakaian ambang batas 12, kinerja sistemnya paling rendah dalam hal banyaknya hasil yang benar yang hanya 69 (57,5%).

Pada pemakaian ambang batas 1 dan 2 mengembalikan jawaban yang paling banyak yaitu rata-rata mencapai 14 kalimat. Dari hal tersebut dapat dikatakan bahwa kinerja sistem dengan ambang batas 1 dan 2 adalah yang paling rendah dalam hal banyaknya jawaban yang tidak relevan.

Evaluasi Berdasarkan Rules

(16)

Tabel 2 Evaluasi rules ”SIAPA”

Ambang batas

1 79,17% (19/24)

Rata-rata 69,44%

Dari Tabel 2 di atas terlihat bahwa rules

”SIAPA” mencapai kinerja paling tinggi saat menggunakan ambang batas 1 dan 2, dan kinerja paling rendah pada saat menggunakan ambang batas 12. Hal ini berarti kalimat jawaban yang relevan terhadap kueri rata-rata bernilai di bawah 12 (0 < nilai jawaban ≤ 12). Penurunan kinerja dengan dinaikkannya ambang batas, terutama pada ambang batas 9 sampai 12, disebabkan karena ada sebagian jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 9, dan tidak ditemukembalikan saat penggunaan ambang batas 9 sampai 12.

Berbeda dengan rules ”APA” dan rules

”SIAPA”, rules ”KAPAN” justru mengalami peningkatan kinerja saat ambang batas dinaikkan. Hal ini disebabkan karena banyak kueri bertipe ”kapan” yang sebenarnya tidak memiliki jawaban yang relevan dalam dokumen. Sistem tetap mengembalikan kalimat-kalimat jawaban dari kueri itu karena adanya proses WordMatch, di mana setiap token dari setiap kalimat dokumen yang sama dengan token pada kueri akan menghasilkan nilai untuk kalimat dokumen tersebut sebesar 3. Jadi, jika ada satu saja token yang sama, kalimat dokumen itu akan bernilai 3. Dengan adanya ambang batas yang besar (12), maka yang ditemukembalikan oleh sistem hanya kalimat-kalimat yang memiliki nilai lebih dari

12. Jika tidak ada kalimat yang bernilai lebih dari 12, maka tidak ada kalimat jawaban yang ditemukembalikan. Hal ini menjadi hasil yang benar jika kueri yang diberikan memang tidak mempunyai jawaban yang relevan dari dokumen yang diproses.

Tabel 3 Evaluasi rules ”KAPAN”

Ambang batas

1 58,33% (14/24)

Rata-rata 70,138%

Tabel 4 Evaluasi rules ”MANA”

Ambang batas

1 79,17% (19/24)

(17)

Tabel 6 Evaluasi keseluruhan rules

Dari Tabel 4 di atas terlihat bahwa pada

rules ”MANA” mencapai kinerja paling tinggi pada penggunaan ambang batas 1 sampai 5. Hal ini berarti kalimat jawaban yang relevan rata-rata bernilai kurang atau sama dengan 6 (0 < nilai jawaban ≤ 6). Kinerja yang semakin menurun dengan dinaikkannya ambang batas, disebabkan karena ada sebagian jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 12, dan tidak ditemukembalikan saat penggunaan ambang batas 12.

Rules Akurasi

APA 81,944%

SIAPA 69,44%

KAPAN 70,138%

MANA 70,138%

MENGAPA 81,597%

Rata-rata 74,65%

Secara keseluruhan, dari tabel-tabel di atas dapat dilihat bahwa rules ”APA” mempunyai akurasi yang paling tinggi, sedangkan yang mempunyai akurasi paling rendah adalah rules ”SIAPA”. Akurasi rata-rata rules adalah 74,65%.

Tabel 5 Evaluasi rules ”MENGAPA”

Ambang batas

1 70,83% (17/24)

2 70,83% (17/24)

Kelebihan dan Kelemahan Sistem

3 70,83% (17/24) _Question_Answering_System_{(QAS) untuk} temu kembali informasi berbahasa Indonesia belum pernah dibuat sebelumnya. Oleh karena itu, sistem ini dapat digunakan sebagai langkah awal untuk membangun QAS berbahasa Indonesia yang lebih kompleks.

4 70,83% (17/24)

5 70,83% (17/24)

6 91,67% (22/24)

Kelemahan dari sistem ini adalah akurasi sistem yang cukup tinggi tersebut hanya berlaku pada penelitian ini saja. Hal ini disebabkan karena:

7 91,67% (22/24)

8 91,67% (22/24)

9 91,67% (22/24)

- Penentuan kueri yang subjektif dari penulis sendiri,

10 91,67% (22/24)

11 91,67% (22/24)

- Dokumen yang digunakan mengalami beberapa kali perbaikan seiring percobaan-percobaan yang dilakukan,

12 75% (18/24)

Rata-rata 81,6%

- Kamus dibuat secara manual oleh penulis dan berubah seiring percobaan-percobaan yang dilakukan.

Dari Tabel 5 di atas terlihat bahwa rules

”MENGAPA” mencapai kinerja paling tinggi saat penggunaan ambang batas 6 sampai 11. Hal ini berarti sebagian besar kalimat jawaban bernilai lebih dari 6 dan kurang dari atau sama dengan 12 (6 < nilai jawaban ≤ 12). Peningkatan kinerja dari pemakaian ambang batas 1 samapi 5 ke 6 sampai 11 disebabkan karena ada kueri yang tidak memiliki jawaban yang relevan namun dengan ambang batas 1 sampai 5 sistem tetap mengembalikan kalimat-kalimat jawaban (walaupun tidak relevan) karena kalimat-kalimat itu bernilai kurang atau sama dengan 6, yang tidak akan dikembalikan saat penggunaan ambang batas 6 sampai 11.

KESIMPULAN DAN SARAN

Kesimpulan

Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa metode

rule-based dapat diterapkan untuk implementasi question answering system

(18)

rata-rata rules adalah 74,65%. Namun, akurasi yang cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan berbagai asumsi yang digunakan.

Saran

Untuk penelitian-penelitian selanjutnya disarankan supaya:

- Menambahkan Part of Speech Tagging

(POS Tagging) untuk mengidentifikasi jenis kata (kata kerja, kata benda, kata sifat, dan sebagainya), agar kinerja sistem dapat ditingkatkan,

- Membuat kamus automatis agar hasil yang dicapai lebih objektif,

- Membuat sistem dengan masukan lebih dari satu dokumen (multi dokumen) dalam sekali percobaan,

- Membuat WordMatch yang tidak hanya

simple matching, misalnya dengan matriks kesamaan,

- Menyempurnakan rules agar dapat digunakan untuk dokumen-dokumen selain readingcomprehension.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. Addison-Wesley.

Lin J. 2004. An Introduction to Information Retrieval and Question Answering. College of Information Studies University of Maryland.

Porter M. 1980. The Porter Stemming Algorithm. http://www.tartarus.org/

~martin/ PorterStemmer/ [2 januari 2006].

Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Riloff E, Thelen M. 2000. A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for

(19)

(20)

Lampiran 1 Contoh dokumen dalam koleksi

Kegemaran Perlu Dikembangkan.

Semua siswa dan guru mengenal Tigor dari segi kegemarannya. Kegemaran Tigor adalah menggambar atau melukis. Kegemarannya itu sering dibicarakan oleh Pak Laode, guru Tigor, dengan orang tuanya. Pembicaraan itu berlangsung setiap pertemuan saat pengambilan rapor.

Pak Gultom amat bangga melihat melihat bakat Tigor. Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas.

Tigor sedang membaca buku di teras depan rumahnya. Tiba-tiba ia mendengar panggilan ayahnya.

"Gor, coba lihat! Apa yang Ayah bawa?" tanya Pak Gultom sambil mengangkat bawaannya.

Tigor langsung menyambut ayahnya. Lalu, ia mencium tangan ayahnya dengan sopan. "Wow! Inilah yang saya idam-idamkan selama ini. Terima kasih, Yah!" kata Tigor. Ya, Ayah memberinya seperangkat alat melukis baru.

Alat-alat melukis yang baru dibelikan Pak Gultom tidak seperti biasanya. Kualitasnya lebih baik dan harganya cukup mahal. Itulah yang membuat hati Tigor lebih senang dan gembira.

Tigor menggunakan alat-alat lukis pemberian ayahnya dengan baik. Setiap hari minggu waktu luang, Tigor selalu melukis. Akhirnya dalam waktu satu bulan, Tigor mampu menghasilkan tiga lukisan yang layak untuk dipajang. Tigor senang melukis pemandangan alam, seperti suasana pantai atau pegunungan. Semuanya ia lukis dengan cat air.

Melihat lukisan anaknya cukup bagus, Pak Gultom membelikan tiga buah bingkai. Dua hari kemudian, lukisan-lukisan Tigor sudah dibingkai. Pak Gultom lalu memajang hasil karya anaknya di ruang tamu dan ruang kerjanya. Baginya, rasa lelah hilang setelah memandang lukisan anaknya itu.

Kegemaran dan bakat yang dimiliki oleh Tigor ini dimanfaatkan oleh Pak Laode. Ia mengikutsertakan Tigor dalam lomba melukis siswa SD/MI tingkat kecamatan. Tigor sangat senang dapat kesempatan mengikuti lomba tersebut. Dalam hati berkata,"Inilah saatnya menguji kemampuanku." Sejak saat itu Tigor pun mempersiapkan diri sebaik mungkin.

Saat lomba berlangsung, Tigor hanya membawa alat-alat lukis yang diperlukan. Ia melukis dengan cepat menggunakan cat air. Hanya dalam waktu 35 menit ia mampu menyelesaikan lukisannya dengan baik.

Para juri sangat kagum dengan lukisan Tigor. Akhirya, lukisan Tigor dinyatakan sebagai lukisan terbaik. Tiga hari kemudian Tigor mengikuti lomba melukis di tingkat kabupaten. Ia pun berhasil memperoleh juara pertama. Ia mendapatkan piala, piagam, dan uang tabungan sebesar Rp.500.000,00.

Seminggu kemudian Tigor dikirim lagi ke tingkat provinsi. Di sini Tigor bersaing dengan pelukis-pelukis cilik dari berbagai kabupaten. Semangatnya untuk menang jadi kian bertambah.

Dua hari setelah perlombaan usai, Bapak Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur. Isi surat tersebut disampaikan oleh Bapak Kepala Sekolah saat upacara hari Senin.

"Anak-anak, kemarin Bapak menerima surat pemberitahuan dari kantor gubernur. Isi surat tersebut sebagai berikut: Siswa Saudara yang bernama Tigor, kelas 4, anak dari Bapak Gultom, dinyatakan sebagai juara pertama lomba melukis tingkat provinsi. Untuk itu, ia berhak mengikuti lomba melukis tingkat nasional di Jakarta."

Mendengar pengumuman tersebut, spontan anak-anak pun bersorak. "Hidup Tigor! Hidup Tigor!"

(21)

Lampiran 2 Dokumen koleksi, kueri, jawaban yang diharapkan, dan threshold of score yang digunakan

Threshold of score yang digunakan untuk mencapai hasil yang

optimal Jawaban yang

diharapkan

Apa kegemaran Tigor

Kegemaran Tigor adalah menggambar atau melukis

6-11

12

Siapa yang

membelikan Tigor alat-alat lukis

Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas

Kapan Kepala

Sekolah menerima surat

pemberitahuan dari kantor gubernur

Dua hari setelah perlombaan usai, Bapak Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur

6-12

Di mana lomba lukis nasional diadakan

Untuk itu, ia berhak mengikuti lomba melukis tingkat nasional di Jakarta

9-12

Mengapa Pak

Gultom

membelikan alat lukis untuk Tigor

Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas

12

2 bbsi-002.txt

Kemampuan apa yang dimiliki Ular Emas

Selain itu, ular itu mampu membuat kepingan emas dalam waktu singkat

6-8

Siapa yang ingin memiliki Ular Emas itu

Sang Raja sangat ingin memiliki seekor ular emas yang hidup di sebuah hutan di ujung Pulau Sulawesi

12

Kapan ular pergi dari istana

(tidak ada) 9-12

Di mana ular emas itu hidup

Sang Raja sangat ingin memiliki seekor ular emas yang hidup di sebuah hutan di ujung Pulau Sulawesi

12

Mengapa Ular itu dinamakan Ular Emas

Ular tersebut dinamakan ular emas karena kulitnya seperti emas

(22)

Lampiran 2 lanjutan

No.

Nama

File Kueri

Jawaban yang diharapkan

optimal

3 bbsi-003.txt

Apa yang

dimaksud prangko

Prangko adalah bea atau ongkos pengiriman surat tersebut

6-12

Siapa julukan

penulis

Nah, beberapa temanku yang tahu kegemaranku itu kini menjulukiku sebagai "si filetelis muda"

1-2

Kapan penulis

meraih juara pertama

Saat di sekolah diadakan lomba fileteli, aku berhasil meraih juara pertama

7-12

Prangko yang

dikumpulkan dimasukkan ke mana

Prangko-prangko tersebut lalu kukumpulkan dan kumasukkan ke dalam album khusus prangko

6-11

Mengapa kita

perlu berdisiplin

(tidak ada) 6-12

4 bbsi-004.txt

Apa tujuan pokok upacara bendera

Tujuan pokok kegiatan ini adalah melatih dan mendidik para siswa untuk disiplin, berani, dan bertanggung jawab

9-11

Siapa yang

menjadi pembina upacara

Yang terakhir memasuki lapangan upacara adalah pembina upacara, yaitu Bapak Kepala Sekolah

6-8

Kapan upacara

bendera dilaksanakan

Kegiatan rutin seluruh siswa setiap Senin pagi adalah upacara bendera

6-9

Di mana para guru berdiri saat upacara

Tampak di belakang tiang bendera, para guru yang berdiri berjajar bersama kepala sekolah

6-8

Mengapa kita

harus berperilaku sopan terhadap siapapun

Jadi, dengan berperilaku sopan terhadap siapa pun, akan terbentuk

kepribadian yang baik dalam diri kalian yang hidup di tengah masyarakat

6-12

5 bbsi-005.txt

Apa disiplin itu Disiplin adalah ketaatan pada peraturan atau tata tertib

3-8

Siapa yang harus

mematuhi tata tertib sekolah

(tidak ada) 6-12

Kapan disiplin

nasional dicanangkan

(23)

Lampiran 2 lanjutan

optimal Jawaban yang

diharapkan

harus berdisiplin

Setelah tugas-tugas yang ringan ini dilaksanakan, kita lalu disiplin pada hal-hal yang lebih luas, misalnya mengikuti semua peraturan di rumah, di sekolah, dan akhirnya peraturan di masyarakat

Mengapa semua

tindakan harus dilakukan dengan disiplin

Jika semua pekerjaan dan tindakan dilakukan dengan disiplin, pasti akan selesai dengan sukses

12

6 bbsi-006.txt

Apa tujuan okulasi jambu itu

Untuk memindahkan tunas jambu air berbuah merah ke pohon jambu air yang berbuah hijau, Pak! jawab Aziz dan Tigor

6-8

Siapa yang diajak Tigor bermain di

kebunnya

Suatu sore, Tigor

mengajak Aziz bermain di kebunnya sambil

menikmati beberapa jenis buah-buahan

6-11

Kapan tukang

kebun mulai melakukan okulasi

Setelah mendapatkan penjelasan dari Tigor dan Aziz, Bapak Tukang Kebun mulai melakukan okulasi

7-12

Di mana Tigor mengambil pisau

(tidak ada) 6-12

Mengapa mereka

pergi ke kebun

(tidak ada) 6-12

7 bbsi-007.txt

Pohon apa yang banyak tumbuh di pantai itu

Kami menikmati keindahan pantai yang banyak ditumbuhi pohon bakau itu

9-12

Siapa yang

mengambil kayu kering

Setiba di sana, Aziz mengambil dua potong kayu kering

6-8

Kapan kami pergi

memancing

Hari Minggu aku dan Aziz pergi memancing

7-9

Kami memancing

di mana

Kami memilih Pantai Tua sebagai tempat tujuan

1-2

Mengapa ikannya

banyak

(24)

Lampiran 2 lanjutan

optimal No.

Jawaban yang diharapkan Nama

File Kueri

8 bbsi-008.txt

Kincir air itu terbuat dari apa

Kincir air itu mereka buat dari barang-barang bekas yang ada di sekitar tempat tinggal mereka

9-12

Siapa nama Kakek

Aziz

Kakek Aziz yang

bernama Zaenudin adalah pelopor pembuatan kincir air di desanya

3-7

Kapan Kakek

membuat kincir

(tidak ada) 7-8

Ke mana

penduduk mencari air jika kekeringan

Penduduk harus mencari air ke sungai atau ke kaki bukit yang jaraknya jauh

6-8

Mengapa

pengairan sawah menjadi lancar

Jadi, berkat kincir air pengairan sawah menjadi lancar dan padi tumbuh subur

6-11

9 bbsi-009.txt

Dengan apa si pemuda membajak sawah

Ia membajak dengan kerbaunya yang besar dan kuat

Tak jauh dari tempat itu ada seekor ular yang sedang memperhatikan si kerbau dan si pemuda

12

Tak jauh dari tempat itu ada seekor ular yang sedang memperhatikan si kerbau dan si pemuda

6-8

Mengapa pemuda

itu memecut kerbaunya

Kadang-kadang si pemuda memecut kerbaunya jika hewan itu malas-malasan dalam bekerja

9-11

10 bbsi-010.txt

Dengan cara apa Aziz membeli buku

Akhirnya, Aziz dapat membeli buku dengan mencicil pembayarannya di koperasi sekolah

9-11

Siapa nama

petugas koperasi

Tigor pun menghubungi Bu Indah, petugas koperasi

3-5

Kapan Aziz

membeli buku

(tidak ada) 9-12

Di mana Aziz membeli buku

Akhirnya, Aziz dapat membeli buku dengan mencicil pembayarannya di koperasi sekolah

(25)

Lampiran 2 lanjutan

optimal No.

File Kueri

Mengapa Aziz

berangkat lebih pagi

Hari itu Aziz berangkat lebih pagi karena ingin meminjam buku Bahasa Indonesia pada Tigor

9-12

11 bbsi-011.txt

Apa yang terbawa ke dalam jaring

Pada waktu mereka mengangkat jaring untuk kesekian kalinya, dalam jaring itu terlihat sebutir telur yang amat besar

6-8

Siapa yang

berubah menjadi buaya besar

Kedua suami istri itu perlahan-lahan berganti rupa menjadi dua ekor buaya besar

6-8

Kapan tanda pesan itu muncul

Tanda itu akan terlihat bila hujan turun pada saat hari panas dan ada pelangi di langit

7-9

Di mana Zaidin menunggu tanda dari orang tuanya

Zaidin termenung di tepi danau menunggu tanda dari kedua orang tuanya

12

Mengapa

kampung itu dinamakan Kampung Nelayan

Kampung itu bernama Kampung Nelayan karena sebagian besar warganya adalah nelayan

9-12

12 bbsi-012.txt

Tempat apa saja yang kami kunjungi saat di Yogya

Tempat-tempat yang kami kunjungi selama di Yogya adalah keraton, Museum Yogya Kembali, Jalan Malioboro, dan pusat kerajinan perak di Kota Gede

9-12

Siapa yang

menjelaskan tempat yang dikunjungi

Pemandu wisata pun menjelaskan tiap tempat yang kami lalui

6-8

Kapan ayah

mengambil cuti

Saat libur semester ayahku mengambil cuti dari kantornya

6-12

Di mana kami bergabung dengan keluarga besar ayah

Dari Medan kami lalu bergabung dengan rombongan keluarga besar ayahku

10-12

Mengapa kami ke

gunung Bromo

(26)

Lampiran 2 lanjutan

No.

Nama

File Kueri

optimal

13 bbsi-013.txt

Aziz dan Tigor pernah menang dalam lomba bidang apa

Sebelumnya, Aziz dan Tigor telah memenangkan lomba di tingkat

kelurahan untuk bidang studi Matematika dan Sains

12

Siapa yang

membuka lomba

Kepala Seksi Pendidikan Dasar membuka lomba

3-5

Kapan kita

memperingati Hari Pendidikan Nasional

Setiap tanggal 2 Mei kita memperingati Hari Pendidikan Nasional

4-12

Keduanya gembira dan terharu karena mereka berhasil

3-11

14 bbsi-014.txt

Apa yang diperiksa dengan tensimeter

Mulut, mata, perut, dan dadaku diperiksa dengan tensimeter

3-8

Siapa yang

menjengukku

Guru dan teman-teman menjengukku

3-12

Kapan aku sakit (tidak ada) 7-12

Orang tuaku

membawaku ke mana

Orang tuaku membawaku ke klinik yang tidak jauh dari rumah

6-11

Mengapa aku

jatuh sakit

(tidak ada) 6-12

15 bbsi-015.txt

Apa pekerjaan Paman Toni

Paman Toni adalah seorang dokter

9-11

Siapa yang

menemani Tigor

Tigor hanya ditemani Paman Toni yang datang dari Medan tadi siang

6-8

Kapan mereka

berbincang-bincang

Seusai makan, mereka berbincang-bincang di ruang tamu

4-8

Orang tua Tigor pergi ke mana

Malam itu rumah Tigor tampak sepi, karena orang tua Tigor sedang bertugas ke luar kota

4-8

Mengapa rumah

Tigor sepi

Malam itu rumah Tigor tampak sepi, karena orang tua Tigor sedang bertugas ke luar kota

6-12

16 bbsi-016.txt

Untuk apa mereka mencari kayu bakar

Untuk makan sehari-hari saja, mereka harus mencari kayu bakar di hutan

(27)

Lampiran 2 lanjutan

No.

Nama

File Kueri

optimal

Siapa nama gadis

itu

Wari, demikian nama gadis tersebut

3-5

Kapan Wari

berpisah dengan ayahnya

(tidak ada) 7-12

Di mana Wari

mendengar suara yang menakutkan

Ketika Wari sedang berada di hutan, tiba-tiba ia mendengar suara yang menakutkan

7-12

Mengapa mereka

tinggal di pinggir hutan

(tidak ada) 9-12

17 lks-001.txt

Apa keuntungan rajin membaca

Jika kita rajin membaca kita akan menjadi orang yang pintar kita juga akan menjadi orang yang berhasil dan berguna untuk masa depan kita

3-5

Paman Handoko

tinggal dengan siapa

(tidak ada) 6-12

Kapan Paman

Handoko datang

Pada saat liburan semester ganjil lalu Paman

Handoko datang

7-12

Di mana paman Handoko tinggal

(tidak ada) 10-12

Mengapa orang

yang malas membaca tergolong orang merugi

Sebaliknya, orang yang malas membaca tergolong orang yang merugi, tertinggal oleh zaman dan menjadi orang yang buta ilmu pengetahuan," nasihat paman kepadaku

9-12

18 lks-002.txt

Semboyan apa yang perlu diingat pemakai jalan

ada semboyan yang harus diingat oleh pemakai jalan berbunyi,"Lebih baik terlambat tiba di tempat tujuan daripada cepat sampai di rumah sakit"

9-12

Siapa yang

mengatur kendaraan

Pak polisi tampak sibuk mengatur kendaraan

3-12

Kapan semua

orang tampak sibuk

Pagi hari semua orang tampak sibuk

6-12

Di mana bus kota berhenti

Bus kota harus berhenti di halte dan masih banyak lagi disiplin lain yang harus kita patuhi

(28)

Lampiran 2 lanjutan

optimal No.

File Kueri

Mengapa warga

harus memiliki disiplin di jalan

Jika semua warga sudah memiliki disiplin yang tinggi, kemacetan dan kecelakaan dapat dihindari

6-8

19 lks-003.txt

Pak Madi beternak apa

Di samping itu, Pak Madi juga beternak kambing dan ayam kampung

6-8

Siapa yang tinggal di pedesaan

Pak Madi sekeluarga tinggal di pedesaan

3-12

Kapan Dodo

berulang tahun

(tidak ada) 9-12

Ayam-ayam tidur

di mana

Pada malam hari ayam-ayam tersebut tidur di atas pohon di belakang rumah

3-5

Mengapa ayam

jadi kebingungan

Ayam kebingungan karena matanya tertutup oleh contong

6-11

20 lks-004.txt

Kapas dan padi menggambarkan apa

Kapas dan padi menggambarkan kemakmuran

9-11

Siapa pembuat

lambang koperasi

(tidak ada) 6-12 lambang itu terbentuk

(tidak ada) 9-12

Mengapa manusia

wajib berusaha

Dalam memenuhi

kebutuhan hidup, manusia wajib berusaha

6-8

21 lks-005.txt

Apa ajaran Ki Hajar Dewantara yang terkenal

Beliau mewariskan ajarannya yang terkenal yaitu Ing ngarso sung tulodho, Ing madya mangun karso, Tut wuri handayani

6-8

Siapa yang

membuka perguruan Taman Siswa

Setelah kembali ke tanah air pada tahun 1919, tanpa rasa takut, beliau

melaksanakan niatnya membuka sebuah perguruan yang diberi nama Taman Siswa pada tanggal 3 Juli 1922

(29)

Lampiran 2 lanjutan

optimal No.

File Kueri

Kapan beliau

membuka perguruan Taman Siswa

Setelah kembali ke tanah air pada tahun 1919, tanpa rasa takut, beliau

melaksanakan niatnya membuka sebuah perguruan yang diberi nama Taman Siswa pada tanggal 3 Juli 1922

7-12

Ki Hajar

Dewantara diasingkan ke mana

Ki Hajar Dewantara ditangkap lalu diasingkan ke negeri Belanda

10-12

Mengapa tanggal

2 mei ditetapkan sebagai hardiknas

Untuk menghormati jasa Ki Hajar Dewantara maka setiap tanggal 2 Mei ditetapkan sebagai "Hari Pendidikan Nasional" (Hardiknas)

6-12

22 lks-006.txt

Apa arti mencegah lebih baik

daripada mengobati

Mencegah lebih baik daripada mengobati, artinya, sebelum kita terserang penyakit, kita harus berusaha

mencegahnya

6-12

Keluarga siapa

yang menerapkan hidup sehat

(tidak ada) 9-12

Kapan rumah

dikatakan sehat

Rumah dikatakan sehat jika udara dan cahaya matahari dapat masuk dengan baik

6-8

Di mana tempat menaruh obat

(tidak ada) 3-12

Mengapa saat

mandi harus memakai sabun

Supaya kotoran dapat hilang, kita mandi memakai sabun

12

23 lks-007.txt

Apa pekerjaan Pak Jono sebelum transmigrasi

Pak Jono adalah seorang pemulung barang bekas

9-11

Siapa yang

memberi petunjuk mengolah lahan pertanian

Di daerah transmigrasi ia mengolah lahan pertanian atas petunjuk petugas pertanian

6-11

Kapan Pak Jono

pergi transmigrasi

(30)

Lampiran 2 lanjutan

optimal No.

File Kueri

Pak Jono dan keluarganya tinggal di mana sebelum transmigrasi

Ia beserta keluarganya tinggal di gubuk bedeng terbuat dari karton bekas, di bawah kolong jembatan

6-8

Mengapa

pemerintah mencanangkan program transmigrasi

(tidak ada) 6-12

24 lks-008.txt

Apa manfaat vitamin B

Vitamin B berguna untuk mencegah penyakit beri-beri

3-8

Siapa yang harus

mengkonsumsi makanan bervitamin

(tidak ada) 9-12

Kapan kita akan

terserang penyakit rakhitis

Jika kita kekurangan vitamin D ini, kita akan terserang penyakit rakhitis, tubuh kita kerdil

12

Di mana terdapat vitamin C

Vitamin C terdapat pada sayur-sayuran segar yang berwarna hijau dan buah-buahan

3-5

Mengapa kita

mudah terserang penyakit kulit

Jika kita kekurangan vitamin C akan mudah terserang penyakit kulit, badan kita lemah, gusi kita bengkak dan sariawan