Oleh:
NAFI’ IKHSANI
G64102016
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Oleh :
NAFI’ IKHSANI
G64102016
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Temu Kembali Informasi Berbahasa Indonesia. Dibimbing oleh JULIO ADISANTOSO dan SRI NURDIATI.
Question Answering System (QAS) dapat diterapkan untuk membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading comprehension). Dengan memasukkan kueri berupa pertanyaan ke dalam sistem, maka sistem akan mengembalikan sebuah kalimat sebagai jawabannya.
Proses penemukembalian jawaban dimulai dengan memecah (parsing) suatu dokumen bacaan menjadi kalimat-kalimat. Kalimat-kalimat tersebut dipecah dan di-stem menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri dipecah dan di-stem menjadi token-token. Token-token dari setiap kalimat dokumen maupun kueri diproses dalam rules sesuai dengan tipe pertanyaannya. Dalam penelitian ini tipe pertanyaan yang digunakan hanya lima tipe, yaitu: APA, SIAPA, KAPAN, MANA, dan MENGAPA. Proses di dalam rules itu memberikan nilai (score) untuk masing-masing kalimat dokumen. Kalimat yang memiliki nilai tinggi akan dikembalikan sebagai jawaban.
Kalimat yang dikembalikan sebagai jawaban bisa lebih dari satu, karena ada kemungkinan beberapa kalimat yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga bergantung pada ambang batas nilai (threshold of score) yang digunakan.
Threshold of score yang digunakan dalam penelitian ini adalah 1 sampai 12.
Kinerja sistem tertinggi dicapai saat menggunakan ambang batas 7 dan 8, yang mengembalikan rata-rata tiga kalimat dan banyaknya hasil yang benar mencapai 82,5%. Dari evaluasi berdasarkan
rules, rules ”APA” mempunyai kinerja yang paling tinggi, dan akurasi rata-rata rules adalah 74,65%. Namun, akurasi yang cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan berbagai asumsi yang digunakan.
Nama : Nafi’ Ikhsani
NRP : G64102016
Menyetujui:
Pembimbing I
Ir. Julio Adisantoso, M.Kom
NIP 131578807
Pembimbing II
Dr. Ir. Sri Nurdiati, M.Sc
NIP 131578805
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, MS
NIP 131473999
Sudaryanto dan Mulyani. Penulis merupakan anak ketiga dari empat bersaudara.
Pendidikan formal penulis dimulai di SD Negeri II Karanganom, Klaten lulus pada tahun 1996. Tahun 1999 penulis lulus dari SLTP Negeri 1 Karanganom, Klaten. Kemudian pendidikan penulis dilanjutkan di SMU Negeri 1 Karanganom, Klaten sampai tahun 2002. Pada tahun yang sama, penulis melanjutkan studi di Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI), menjadi mahasiswa program studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
segala rahmat dan karunia-Nya sehingga tugas akhir ini berhasil diselesaikan.
Tak lupa penulis juga mengucapkan terima kasih yang sebesar-besarnya kepada seluruh pihak yang telah membantu penulis dalam menyelesaikan tugas akhir ini, antara lain kepada :
1. Bapak dan Ibu tercinta serta seluruh keluarga yang senantiasa mencurahkan kasih sayangnya dan memberikan dukungan serta doa yang tulus.
2. Bapak Ir. Julio Adisantoso, M.Kom dan Ibu Dr. Ir. Sri Nurdiati, M.Sc selaku pembimbing skripsi, serta Bapak Firman Ardiansyah, S.Kom, M.Si selaku penguji. 3. Bapak Ahmad Ridha, S.Kom atas pengetahuan mengenai Information Retrieval dan
saran yang diberikan.
4. Rahman dan Onny yang banyak membantu dalam penyelesaian tugas akhir ini. 5. Teman-teman Laboratorium Temu Kembali Informasi atas bantuan dan dukungannya. 6. Tika dan Lulut yang senantiasa mendengarkan keluh kesah penulis.
7. Fajri, Kelik, dan Yudha, atas kebersamaan dan persahabatan yang terjalin selama ini. 8. Umbu Yudha Prihantoro atas dukungan dan waktu yang terluangkan.
9. Eko Susilo yang telah membantu pelaksanaan seminar dan sidang penulis. 10. Teman-teman ilkomerz 39 atas kebersamaannya selama ini.
11. Teman-teman di Wisma Teratai: Pipit, Irien, Dynna, Wiwien, Mbak Euis, Yani, Arti, Mbak Rahma, Dina Kecil, Lanjar, atas dukungan yang diberikan.
12. Dan pihak-pihak lain yang tidak dapat disebutkan satu persatu.
Semoga tulisan ini dapat bermanfaat, amin.
Bogor, Oktober 2006
Nafi’ Ikhsani
DAFTAR ISI
Halaman
DAFTAR ISI ... vi
DAFTAR GAMBAR ... vii
DAFTAR TABEL... vii
DAFTAR LAMPIRAN ... vii
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup... 1
TINJAUAN PUSTAKA Temu Kembali Informasi ... 1
Question Answering ...1
Quarc (Question Answering for Reading Comprehension) ... 2
Parsing...2
Stemming...3
METODE PENELITIAN Gambaran Umum Sistem ... 3
Koleksi Dokumen Pengujian... 3
Parsing dan WordMatch... 3
Identifikasi Tipe Pertanyaan ... 3
Pengelompokan Tipe Jawaban... 4
Algoritma Rules... 4
Temu Kembali Jawaban... 4
Ambang Batas Nilai (Threshold of Score) ... 5
Evaluasi Sistem Temu Kembali Informasi... 5
Asumsi-asumsi ... 5
Lingkungan Implementasi... 5
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian... 5
Parsing dan WordMatch... 5
Hasil Percobaan Berdasarkan Ambang Batas Nilai (Threshold of Score) ... 5
Evaluasi Sistem Temu Kembali Informasi Berdasarkan Ambang Batas Nilai (Threshold of Score)... 7
Evaluasi Berdasarkan Rules... 7
Kelebihan dan Kelemahan Sistem ... 9
KESIMPULAN DAN SARAN Kesimpulan ... 9
Saran ... 10
DAFTAR PUSTAKA ... 10
DAFTAR GAMBAR
Halaman
1 WHO Rules... 2
2 WHEN Rules... 2
3 WHERE Rules... 2
4 WHAT Rules... 2
5 WHY Rules... 2
6 DATELINE Rules ...2
7 Gambaran umum sistem... 3
8 Prosentase hasil yang benar ... 6
DAFTAR TABEL
Halaman 1 Evaluasi rule ”APA”... 72 Evaluasi rule ”SIAPA” ... 8
3 Evaluasi rule ”KAPAN” ... 8
4 Evaluasi rule ”MANA”... 8
5 Evaluasi rule ”MENGAPA” ... 9
6 Evaluasi keseluruhan rules... 9
DAFTAR LAMPIRAN
Halaman 1 Contoh dokumen dalam koleksi... 12PENDAHULUAN
Latar Belakang
Sistem temu kembali informasi yang ada saat ini sudah banyak yang menggunakan kueri berupa pertanyaan. Hal ini disebabkan karena kueri berupa pertanyaan dapat menspesifikasikan informasi yang dicari oleh pengguna. Hal ini terbukti dengan semakin banyaknya search engine yang memiliki fitur temu kembali informasi dengan kueri pertanyaan, misalnya www.ask.com dan www.askme.com.
Dalam buku-buku mata pelajaran Bahasa Indonesia untuk siswa SD, SLTP, dan SMA, biasanya terdapat bacaan-bacaan yang disertai dengan pertanyaan-pertanyaan, yang disebut sebagai reading comprehension. Hal tersebut bertujuan untuk mengetahui kemampuan pemahaman siswa terhadap suatu bacaan. Para siswa diminta untuk menjawab pertanyaan-pertanyaan yang ada dalam suatu bacaan. Tentunya mereka harus mengetahui aspek-aspek penting dalam bacaan tersebut agar dapat menjawab pertanyaan-pertanyaan yang diberikan dengan baik.
Question AnsweringSystem (QAS) dapat diterapkan untuk membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading comprehension). Dengan memasukkan kueri berupa pertanyaan, akan diperoleh sebuah kalimat sebagai jawabannya. Misalnya dengan kueri “Apa jaringan komputer itu?”, kalimat yang mungkin akan dikembalikan sebagai jawaban adalah: “Jaringan komputer adalah sebuah sistem yang menghubungkan lebih dari satu komputer secara bersama-sama”. Tentunya sesuai dengan bacaan mana yang dipilih. Dengan bacaan yang berbeda, tentu kalimat yang dikembalikan sebagai jawaban pun akan berbeda.
Tujuan
Tujuan penelitian ini adalah mengimplementasikan sistem temu kembali informasi menggunakan kueri pertanyaan (question answering) untuk dokumen-dokumen reading comprehension berbahasa Indonesia. Metode yang digunakan adalah metode rule-based. Tujuan yang kedua adalah menganalisis akurasi sistem ini dalam menemukembalikan jawaban yang benar.
Ruang Lingkup
Ruang lingkup penelitian ini terbatas pada proses menemukan kalimat jawaban
pada suatu dokumen reading comprehension
sesuai dengan kueri pertanyaan yang diberikan. Dalam penelitian ini, pertanyaan hanya ditujukan untuk satu dokumen, seperti sistem Quarc (Question Answering for Reading Comprehension) yang telah dikembangkan oleh Riloff dan Thelen (2000).
Penelitian ini mengacu pada sistem
Quarc tersebut. Bedanya, Quarc adalah sistem yang dikembangkan untuk dokumen berbahasa Inggris, sedangkan penelitian ini dikembangkan untuk dokumen berbahasa Indonesia. Hal ini tentunya akan berpengaruh pada rules yang disusun, karena struktur bahasa Indonesia berbeda dengan struktur bahasa Inggris.
TINJAUAN PUSTAKA
Temu Kembali Informasi
Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi. Sistem temu kembali informasi seharusnya dapat menyediakan kemudahan akses informasi bagi pengguna. Namun, identifikasi kebutuhan informasi bukanlah hal yang sederhana. Pengguna harus menerjemahkan kebutuhan informasinya menjadi sebuah kueri agar dapat diproses oleh sistem temu kembali informasi. Dengan adanya kueri yang diberikan oleh pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dan sesedikit mungkin (atau bahkan tidak sama sekali) mengembalikan informasi yang tidak relevan terhadap yang diinginkan oleh pengguna (Baeza-Yates & Ribeiro-Neto, 1999).
Question Answering
Question Answering (QA) merupakan aplikasi nyata dari teknologi NLP (Natural Language Processing). Tujuan utama
Question Answering (QA) yaitu menampilkan jawaban atas pertanyaan yang diberikan pengguna. Ide utama QA adalah (Lin, 2004):
- menentukan tipe semantik jawaban yang diharapkan. Contoh: Pertanyaan ”Siapa yang memenangkan nobel perdamaian pada tahun 1991?” mencari ORANG. - mengembalikan dokumen-dokumen yang
memiliki keywords seperti pada pertanyaan. Contoh: mengembalikan dokumen yang memiliki keywords
- mencari entitas dengan tipe yang sesuai dengan pertanyaan, yang dekat dengan
keywords. Contoh: mencari ORANG yang dekat dengan keywords ”menang”, ”nobel perdamaian”, dan ”1991”.
Quarc (Question Answering for Reading Comprehension)
Quarc adalah suatu sistem yang dikembangkan oleh Riloff dan Thelen (2000). Cara kerjanya, suatu dokumen diberi kueri pertanyaan, kemudian sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut. Suatu rule dapat memberikan empat kemungkinan besarnya nilai: clue (+3), good_clue (+4), confident
(+6), dan slam_dunk (+20). Kalimat yang memiliki nilai terbanyak akan dikembalikan sebagai jawaban atas kueri pertanyaan tadi.
Gambar 4 WHAT Rules (Riloff & Thelen, 2000)
Riloff dan Thelen (2000) membagi rules
menjadi enam rules, seperti yang tercantum pada Gambar 1 sampai Gambar 6. Menurut Riloff dan Thelen (2000), sistem Quarc yang dikembangkan belum menggunakan pemahaman bahasa yang dalam. Hal ini mengakibatkan secara umum sistem tersebut hanya mampu mencapai akurasi sebesar 40%.
Gambar 5 WHY Rules (Riloff & Thelen, 2000)
Gambar 6 DATELINE Rules (Riloff & Thelen, 2000)
Gambar 1 WHO Rules (Riloff & Thelen, 2000)
Parsing
Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Bagian dasar dalam parsing adalah algoritma pengambil token dari teks yang disebut
tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Dalam proses ini biasanya juga digunakan sebuah daftar kata buang (stoplist) yakni daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau kueri, misalnya: yang, hingga, dan dengan (Ridha, 2002).
Gambar 2 WHEN Rules (Riloff & Thelen, 2000)
Stemming
Menurut Porter (1980), stemming adalah proses pemotongan imbuhan dari kata untuk mendapatkan kata dasarnya. Penggunaan utama dari stemming adalah sebagai bagian penting dalam proses normalisasi yang biasanya dilakukan ketika membangun sistem temu kembali informasi. Dengan proses stemming, kata mencanangkan akan dipotong menjadi men-canang-kan, sehingga didapatkan kata dasarnya canang.
METODE PENELITIAN
Gambaran Umum Sistem
Gambar 7 Gambaran umum sistem
Langkah pertama dalam menggunakan sistem ini adalah dengan mengambil satu buah dokumen berekstensi teks (*.txt). Kemudian, dokumen tersebut dipecah menjadi kalimat-kalimat yang dimasukkan ke dalam database. Pengguna memasukkan kueri berupa kalimat tanya. Dalam proses pencarian jawaban yang relevan, setiap kalimat dokumen dan kalimat kueri sama-sama masuk ke dalam proses
parsing dan stemming yang akan menghasilkan token-token. Token-token pada setiap kalimat dokumen dan kalimat kueri dibandingkan dalam proses WordMatch,
kemudian masuk ke dalam rules sesuai dengan tipe kueri yang diberikan. Kalimat-kalimat jawaban akan dikembalikan sesuai dengan ambang batas yang digunakan dan terurut dari yang memiliki nilai paling tinggi.
Koleksi Dokumen Pengujian
Sesuai dengan tujuan penelitian, dokumen yang digunakan dalam penelitian ini adalah dokumen-dokumen untuk reading comprehension. Penulis mengambil bacaan-bacaan yang terdapat pada buku mata pelajaran Bahasa Indonesia untuk SD kelas IV. Dokumen-dokumen tersebut dipilih karena struktur dan tata bahasa dalam bacaan mata pelajaran Bahasa Indonesia cukup sederhana dan teratur. Banyaknya dokumen yang digunakan adalah sebanyak 24 dokumen. Masing-masing dokumen tersebut nantinya akan diberi kueri berupa pertanyaan dengan lima tipe pertanyaan. Contoh dokumen yang digunakan dapat dilihat pada Lampiran 1. Dokumen
Parsing
Kueri
Stemming
Kalimat jawaban
Parsing
Kalimat-kalimat
Token-token Token-token
WordMatch
Rules
Parsing dan Wordmatch
Setiap dokumen yang diproses dalam sistem dipecah menjadi kalimat-kalimat. Pemecahan (parsing) dokumen ini hanya didasarkan pada adanya separator titik (”.”). Kemudian setiap kalimat itu akan kembali dipecah menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri akan dipecah menjadi token-token. Token-token dari setiap kalimat dokumen dan token-token dari kueri yang telah di-stem akan dibandingkan. Setiap token yang sama dari suatu kalimat dokumen dan kueri akan memberikan nilai clue (+3) pada kalimat tersebut. Pembandingan inilah yang disebut proses WordMatch.
Identifikasi Tipe Pertanyaan
Ada beberapa tipe pertanyaan yang digunakan dalam bahasa Indonesia, yaitu:
1. APA, yang menanyakan suatu definisi, tujuan, manfaat, kata benda, baik abstrak maupun kongkret (tidak termasuk di dalamnya yes/no question)
2. SIAPA, yang menanyakan orang atau makhluk hidup lain yang melakukan sesuatu.
3. KAPAN, yang menanyakan waktu terjadinya suatu peristiwa.
4. MANA, yang menanyakan tempat.
2. “SIAPA”
Dalam penelitian ini, tipe pertanyaan BAGAIMANA tidak diikutsertakan, karena jawabannya adalah suatu penjelasan. Begitu pula dengan tipe pertanyaan MANA yang menanyakan suatu pilihan. Akhiran –KAH juga tidak digunakan dalam hal ini.
Score(S) += WordMatch (Q,S)
If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk
3. “KAPAN” Pengelompokan Tipe Jawaban
Untuk dapat menemukan jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya adalah pengelompokan tipe jawaban. Tipe jawaban ini disusun dalam suatu kamus.
Score(S) += WordMatch(Q,S)
If contains (S, WAKTU) and contains (S,{saat,ketika,kala,semenjak,sejak,waktu, setelah,sebelum}) then
Score(S) += slam_dunk 1. ORANG, jawaban dari pertanyaan
SIAPA, yang dapat diidentifikasi dengan adanya titel, panggilan (misalnya Bapak), dapat pula menyatakan suatu pekerjaan (misalnya penulis). Tipe jawaban ini disimpan dalam kamus bernama
kamus_orang.txt.
If contains (S,WAKTU) then Score(S) += good_clue
If contains (S,{saat,ketika,kala,semenjak, sejak,waktu,setelah,sebelum}) then Score(S) += good_clue
4. “ MANA”
2. WAKTU, jawaban dari pertanyaan KAPAN, terdiri dari hari dan bulan. Tipe jawaban ini disimpan dalam kamus bernama kamus_waktu.txt.
Score(S) += WordMatch(Q,S)
If contains (S,TEMPAT) and contains (S, {dalam,dari,pada }) then
Score(S) += slam_dunk 3. TEMPAT, jawaban dari pertanyaan
MANA, terdiri dari beberapa nama kota di Indonesia dan beberapa nama negara. Tipe jawaban ini disimpan dalam kamus bernama kamus_tempat.txt.
If contains (S,{dalam,dari,pada}) then Score(S) += clue
If contains (S,TEMPAT) then Score(S) += good_clue Selain mengelompokkan tipe jawaban,
untuk memperoleh jawaban yang akurat tentu saja disertai implementasi rules yang dijelaskan pada sub bab algoritma rules. Untuk jawaban dari pertanyaan MENGAPA langsung diimplementasikan dalam sistem. Caranya adalah dengan mengidentifikasi kata ’sebab’, ’karena’, dan sejenisnya dari proses
tokenizer. Begitu pula dengan jawaban dari pertanyaan APA langsung diimplementasikan dalam sistem.
5. “MENGAPA”
Score(S) += WordMatch(Q,S)
If contains (S,{karena,sebab,akibat, maka}) then
Score(S) += confident
Keterangan: S = sentence (kalimat dokumen) Q = query (kalimat kueri)
Temu Kembali Jawaban
Algoritma Rules Dalam WordMatch, setiap token pada kalimat dokumen yang sama dengan token pada kueri akan diberi nilai clue (+3). Tiap petunjuk pada kalimat dalam dokumen akan mendapatkan nilai berdasarkan rules yang ada, sesuai dengan tingkat relevansinya terhadap kueri pertanyaan yang diberikan. Dalam hal ini, ada empat tingkatan nilai, yakni (Rillof & Thelen, 2000):
1. “APA”
Score(S) += WordMatch (Q,S)
If contains (Q, {tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident
Lingkungan Implementasi
Kalimat yang mendapatkan nilai paling banyak akan ditemukembalikan sebagai jawaban dari kueri pertanyaan yang diberikan. Namun kalimat yang ditemukembalikan bisa jadi tidak hanya satu, karena ada kemungkinan beberapa kalimat yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga bergantung pada ambang batas nilai (threshold of score) yang digunakan.
Lingkungan implementasi yang digunakan adalah sebagai berikut:
• Perangkat lunak:
Sistem operasi Windows XP Professional
Microsoft Visual Basic.NET 2003
Microsoft Access 2003
• Perangkat keras:
Prosesor Intel Pentium IV 2.4 GHz
Ambang Batas Nilai (Threshold of Score) RAM 256 MB Ambang batas ini berguna untuk
membatasi nilai terendah dari kalimat-kalimat yang ditemukembalikan. Ambang batas yang digunakan dalam penelitian ini adalah 1 sampai 12. Jika menggunakan ambang batas 1, maka kalimat-kalimat jawaban yang ditemukembalikan oleh sistem adalah kalimat-kalimat yang memiliki nilai lebih dari 1, begitu pula dengan ambang batas yang lainnya.
Harddisk dengan kapasitas 40 GB
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Dokumen-dokumen yang terdapat dalam koleksi disimpan dalam berkas teks (*.txt) dan tidak diberi tag-tag tertentu seperti XML atau HTML, tetapi hanya teks biasa. Hal ini disebabkan karena tag-tag yang biasa digunakan dalam koleksi dokumen (corpus) untuk temu kembali tidak berpengaruh positif dalam sistem ini.
Evaluasi Sistem Temu Kembali Informasi
Metode yang digunakan untuk mengevaluasi sistem temu kembali informasi ini adalah dengan melihat banyaknya kalimat jawaban yang ditemukembalikan dan banyaknya hasil yang benar maupun yang salah. Semakin banyak hasil yang benar, tentu kinerja sistem akan semakin tinggi. Setiap kueri hanya memiliki satu kalimat jawaban atau tidak sama sekali, sehingga semakin banyak kalimat yang ditemukembalikan sebagai jawaban dari suatu kueri, justru menurunkan kinerja sistem.
Parsing dan WordMatch
Algoritma parsing dokumen menjadi kalimat-kalimat berdasarkan separator titik (”.”) dibuat sendiri oleh penulis. Namun untuk
parsing kalimat-kalimat dokumen dan kalimat kueri menjadi token-token serta algoritma
stemming, penulis memanfaatkan algoritma yang sudah ada di laboratorium temu kembali informasi. Algoritma WordMatch juga dibuat sendiri oleh penulis.
Algoritma WordMatch membandingkan token-token pada setiap kalimat dokumen dengan token-token pada kalimat kueri, yang telah melalui proses stemming. Setiap token yang sama akan menambahkan nilai clue (+3) pada kalimat dokumen tersebut.
Asumsi-asumsi
1. Kueri pertanyaan dibuat sendiri oleh penulis,
2. Kamus yang digunakan dibuat secara manual oleh penulis,
3. Rules yang digunakan dibuat sendiri berdasarkan asumsi penulis dengan mengacu pada rules yang dibuat oleh Riloff dan Thelen (2000),
Hasil Percobaan Berdasarkan Ambang Batas Nilai (Threshold of Score)
Percobaan dilakukan pada setiap dokumen. Dokumen yang digunakan sebanyak 24 dokumen, yang masing-masing diberi lima tipe kueri. Dalam satu ambang batas, percobaan dilakukan sebanyak 120 kali. Dari hasil percobaan yang diperoleh dapat disimpulkan bahwa:
4. Threshold of score yang digunakan adalah 1 sampai 12,
5. Kalimat jawaban yang relevan terhadap suatu kueri hanya satu kalimat atau tidak ada sama sekali. Daftar kueri yang digunakan dan jawaban yang benar (relevance judgement) dapat
dilihat pada Lampiran 2. ¾
untuk ambang batas 1:
- rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah 14 kalimat,
¾ untuk ambang batas 8:
- total banyaknya jawaban yang ditemukembalikan adalah 300, - banyaknya hasil yang benar adalah
93 (77,5%). - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah dua kalimat,
¾ untuk ambang batas 2:
- banyaknya hasil yang benar adalah 99 (82,5%).
- total banyaknya jawaban yang ditemukembalikan adalah 1701, - rata-rata banyaknya jawaban yang
ditemukembalikan dalam satu kali percobaan adalah 14 kalimat,
¾ untuk ambang batas 9:
- total banyaknya jawaban yang ditemukembalikan adalah 171, - banyaknya hasil yang benar adalah
93 (77,5%). - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat,
¾ untuk ambang batas 3:
- banyaknya hasil yang benar adalah 84 (70%).
- total banyaknya jawaban yang ditemukembalikan adalah 725, - rata-rata banyaknya jawaban yang
ditemukembalikan dalam satu kali percobaan adalah enam kalimat,
¾ untuk ambang batas 10:
- total banyaknya jawaban yang ditemukembalikan adalah 163, - banyaknya hasil yang benar adalah
92 (76,667%). - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat,
¾ untuk ambang batas 4:
- banyaknya hasil yang benar adalah 83 (69,167%).
- total banyaknya jawaban yang ditemukembalikan adalah 657, - rata-rata banyaknya jawaban yang
ditemukembalikan dalam satu kali percobaan adalah lima kalimat,
¾ untuk ambang batas 11:
- total banyaknya jawaban yang ditemukembalikan adalah 163, - banyaknya hasil yang benar adalah
92 (76,667%). - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat,
¾ untuk ambang batas 5:
- banyaknya hasil yang benar adalah 83 (69,167%).
- total banyaknya jawaban yang ditemukembalikan adalah 657, - rata-rata banyaknya jawaban yang
ditemukembalikan dalam satu kali percobaan adalah lima kalimat,
¾ untuk ambang batas 12:
- total banyaknya jawaban yang ditemukembalikan adalah 130, - banyaknya hasil yang benar adalah
92 (76,667%). - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat,
¾ untuk ambang batas 6:
- banyaknya hasil yang benar adalah 69 (57,5%).
- total banyaknya jawaban yang ditemukembalikan adalah 326, - rata-rata banyaknya jawaban yang
ditemukembalikan dalam satu kali percobaan adalah tiga kalimat,
50
threshold of score
pr
- banyaknya hasil yang benar adalah 96 (80%).
¾ untuk ambang batas 7:
- total banyaknya jawaban yang ditemukembalikan adalah 300, - rata-rata banyaknya jawaban yang
ditemukembalikan dalam satu kali percobaan adalah dua kalimat, - banyaknya hasil yang benar adalah
Yang dimaksud dengan hasil yang benar di sini adalah jika ada jawaban yang relevan dan berhasil ditemukembalikan walaupun mungkin tidak memiliki nilai tertinggi, atau jika jawaban yang relevan itu tidak ada dalam dokumen dan memang tidak ada jawaban yang ditemukembalikan. Yang dimaksud hasil yang salah adalah jika ada jawaban yang relevan tapi tidak berhasil ditemukembalikan, atau jika jawaban yang relevan tidak ada dalam dokumen namun sistem menemukembalikan jawaban yang lain.
Tabel 1 Evaluasi rules ”APA”
Ambang batas
Prosentase hasil yang benar/kali percobaan
1 100% (24/24)
Evaluasi Sistem Temu Kembali Informasi Berdasarkan Ambang Batas Nilai (Threshold of Score)
7 91,67% (22/24)
8 91,67% (22/24) Tujuan dari temu kembali informasi
yaitu menemukembalikan informasi yang relevan dan sesedikit mungkin menemukembalikan informasi yang tidak relevan. Dalam sistem ini, informasi atau jawaban yang relevan terhadap suatu kueri hanya satu kalimat saja atau tidak ada sama sekali, sedangkan kalimat-kalimat yang lain ditemukembalikan karena memiliki nilai di atas ambang batas yang telah ditentukan.
9 58,33% (14/24)
10 58,33% (14/24)
11 58,33% (14/24)
12 33,33% (8/24)
Rata-rata 81,944%
Dari Tabel 1 di atas terlihat bahwa rules ”APA” mencapai kinerja paling tinggi saat menggunakan ambang batas 1 sampai 5. Jadi, kalimat jawaban yang relevan rata-rata memiliki nilai kurang dari atau sama dengan 6 (0 < nilai jawaban ≤ 6) dan sistem relatif tidak mengembalikan kalimat jika dalam dokumen memang tidak ada jawaban yang relevan. Penurunan kinerja dari penggunaan ambang batas 9 sampai 12 yang cukup drastis disebabkan karena sebagian besar jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 9, dan tidak ditemukembalikan saat penggunaan ambang batas 9 sampai 12.
Dari Gambar 8 di atas, terlihat bahwa kinerja sistem paling tinggi tercapai saat pemakaian ambang batas 7 dan 8. Dengan ambang batas 7 dan 8, banyaknya hasil yang benar mencapai 82,5%, dan banyaknya jawaban yang dikembalikan cukup sedikit yaitu rata-rata hanya dua kalimat. Untuk pemakaian ambang batas 12, kinerja sistemnya paling rendah dalam hal banyaknya hasil yang benar yang hanya 69 (57,5%).
Pada pemakaian ambang batas 1 dan 2 mengembalikan jawaban yang paling banyak yaitu rata-rata mencapai 14 kalimat. Dari hal tersebut dapat dikatakan bahwa kinerja sistem dengan ambang batas 1 dan 2 adalah yang paling rendah dalam hal banyaknya jawaban yang tidak relevan.
Evaluasi Berdasarkan Rules
Tabel 2 Evaluasi rules ”SIAPA”
Ambang batas
Prosentase hasil yang benar/kali percobaan
1 79,17% (19/24)
Rata-rata 69,44%
Dari Tabel 2 di atas terlihat bahwa rules
”SIAPA” mencapai kinerja paling tinggi saat menggunakan ambang batas 1 dan 2, dan kinerja paling rendah pada saat menggunakan ambang batas 12. Hal ini berarti kalimat jawaban yang relevan terhadap kueri rata-rata bernilai di bawah 12 (0 < nilai jawaban ≤ 12). Penurunan kinerja dengan dinaikkannya ambang batas, terutama pada ambang batas 9 sampai 12, disebabkan karena ada sebagian jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 9, dan tidak ditemukembalikan saat penggunaan ambang batas 9 sampai 12.
Berbeda dengan rules ”APA” dan rules
”SIAPA”, rules ”KAPAN” justru mengalami peningkatan kinerja saat ambang batas dinaikkan. Hal ini disebabkan karena banyak kueri bertipe ”kapan” yang sebenarnya tidak memiliki jawaban yang relevan dalam dokumen. Sistem tetap mengembalikan kalimat-kalimat jawaban dari kueri itu karena adanya proses WordMatch, di mana setiap token dari setiap kalimat dokumen yang sama dengan token pada kueri akan menghasilkan nilai untuk kalimat dokumen tersebut sebesar 3. Jadi, jika ada satu saja token yang sama, kalimat dokumen itu akan bernilai 3. Dengan adanya ambang batas yang besar (12), maka yang ditemukembalikan oleh sistem hanya kalimat-kalimat yang memiliki nilai lebih dari
12. Jika tidak ada kalimat yang bernilai lebih dari 12, maka tidak ada kalimat jawaban yang ditemukembalikan. Hal ini menjadi hasil yang benar jika kueri yang diberikan memang tidak mempunyai jawaban yang relevan dari dokumen yang diproses.
Tabel 3 Evaluasi rules ”KAPAN”
Ambang batas
Prosentase hasil yang benar/kali percobaan
1 58,33% (14/24)
Rata-rata 70,138%
Tabel 4 Evaluasi rules ”MANA”
Ambang batas
Prosentase hasil yang benar/kali percobaan
1 79,17% (19/24)
Tabel 6 Evaluasi keseluruhan rules
Dari Tabel 4 di atas terlihat bahwa pada
rules ”MANA” mencapai kinerja paling tinggi pada penggunaan ambang batas 1 sampai 5. Hal ini berarti kalimat jawaban yang relevan rata-rata bernilai kurang atau sama dengan 6 (0 < nilai jawaban ≤ 6). Kinerja yang semakin menurun dengan dinaikkannya ambang batas, disebabkan karena ada sebagian jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 12, dan tidak ditemukembalikan saat penggunaan ambang batas 12.
Rules Akurasi
APA 81,944%
SIAPA 69,44%
KAPAN 70,138%
MANA 70,138%
MENGAPA 81,597%
Rata-rata 74,65%
Secara keseluruhan, dari tabel-tabel di atas dapat dilihat bahwa rules ”APA” mempunyai akurasi yang paling tinggi, sedangkan yang mempunyai akurasi paling rendah adalah rules ”SIAPA”. Akurasi rata-rata rules adalah 74,65%.
Tabel 5 Evaluasi rules ”MENGAPA”
Ambang batas
Prosentase hasil yang benar/kali percobaan
1 70,83% (17/24)
2 70,83% (17/24)
Kelebihan dan Kelemahan Sistem
3 70,83% (17/24) QuestionAnsweringSystem (QAS) untuk temu kembali informasi berbahasa Indonesia belum pernah dibuat sebelumnya. Oleh karena itu, sistem ini dapat digunakan sebagai langkah awal untuk membangun QAS berbahasa Indonesia yang lebih kompleks.
4 70,83% (17/24)
5 70,83% (17/24)
6 91,67% (22/24)
Kelemahan dari sistem ini adalah akurasi sistem yang cukup tinggi tersebut hanya berlaku pada penelitian ini saja. Hal ini disebabkan karena:
7 91,67% (22/24)
8 91,67% (22/24)
9 91,67% (22/24)
- Penentuan kueri yang subjektif dari penulis sendiri,
10 91,67% (22/24)
11 91,67% (22/24)
- Dokumen yang digunakan mengalami beberapa kali perbaikan seiring percobaan-percobaan yang dilakukan,
12 75% (18/24)
Rata-rata 81,6%
- Kamus dibuat secara manual oleh penulis dan berubah seiring percobaan-percobaan yang dilakukan.
Dari Tabel 5 di atas terlihat bahwa rules
”MENGAPA” mencapai kinerja paling tinggi saat penggunaan ambang batas 6 sampai 11. Hal ini berarti sebagian besar kalimat jawaban bernilai lebih dari 6 dan kurang dari atau sama dengan 12 (6 < nilai jawaban ≤ 12). Peningkatan kinerja dari pemakaian ambang batas 1 samapi 5 ke 6 sampai 11 disebabkan karena ada kueri yang tidak memiliki jawaban yang relevan namun dengan ambang batas 1 sampai 5 sistem tetap mengembalikan kalimat-kalimat jawaban (walaupun tidak relevan) karena kalimat-kalimat itu bernilai kurang atau sama dengan 6, yang tidak akan dikembalikan saat penggunaan ambang batas 6 sampai 11.
KESIMPULAN DAN SARAN
Kesimpulan
Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa metode
rule-based dapat diterapkan untuk implementasi question answering system
rata-rata rules adalah 74,65%. Namun, akurasi yang cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan berbagai asumsi yang digunakan.
Saran
Untuk penelitian-penelitian selanjutnya disarankan supaya:
- Menambahkan Part of Speech Tagging
(POS Tagging) untuk mengidentifikasi jenis kata (kata kerja, kata benda, kata sifat, dan sebagainya), agar kinerja sistem dapat ditingkatkan,
- Membuat kamus automatis agar hasil yang dicapai lebih objektif,
- Membuat sistem dengan masukan lebih dari satu dokumen (multi dokumen) dalam sekali percobaan,
- Membuat WordMatch yang tidak hanya
simple matching, misalnya dengan matriks kesamaan,
- Menyempurnakan rules agar dapat digunakan untuk dokumen-dokumen selain readingcomprehension.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. Addison-Wesley.
Lin J. 2004. An Introduction to Information Retrieval and Question Answering. College of Information Studies University of Maryland.
Porter M. 1980. The Porter Stemming Algorithm. http://www.tartarus.org/
~martin/ PorterStemmer/ [2 januari 2006].
Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Riloff E, Thelen M. 2000. A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for
Lampiran 1 Contoh dokumen dalam koleksi
Kegemaran Perlu Dikembangkan.
Semua siswa dan guru mengenal Tigor dari segi kegemarannya. Kegemaran Tigor adalah menggambar atau melukis. Kegemarannya itu sering dibicarakan oleh Pak Laode, guru Tigor, dengan orang tuanya. Pembicaraan itu berlangsung setiap pertemuan saat pengambilan rapor.
Pak Gultom amat bangga melihat melihat bakat Tigor. Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas.
Tigor sedang membaca buku di teras depan rumahnya. Tiba-tiba ia mendengar panggilan ayahnya.
"Gor, coba lihat! Apa yang Ayah bawa?" tanya Pak Gultom sambil mengangkat bawaannya.
Tigor langsung menyambut ayahnya. Lalu, ia mencium tangan ayahnya dengan sopan. "Wow! Inilah yang saya idam-idamkan selama ini. Terima kasih, Yah!" kata Tigor. Ya, Ayah memberinya seperangkat alat melukis baru.
Alat-alat melukis yang baru dibelikan Pak Gultom tidak seperti biasanya. Kualitasnya lebih baik dan harganya cukup mahal. Itulah yang membuat hati Tigor lebih senang dan gembira.
Tigor menggunakan alat-alat lukis pemberian ayahnya dengan baik. Setiap hari minggu waktu luang, Tigor selalu melukis. Akhirnya dalam waktu satu bulan, Tigor mampu menghasilkan tiga lukisan yang layak untuk dipajang. Tigor senang melukis pemandangan alam, seperti suasana pantai atau pegunungan. Semuanya ia lukis dengan cat air.
Melihat lukisan anaknya cukup bagus, Pak Gultom membelikan tiga buah bingkai. Dua hari kemudian, lukisan-lukisan Tigor sudah dibingkai. Pak Gultom lalu memajang hasil karya anaknya di ruang tamu dan ruang kerjanya. Baginya, rasa lelah hilang setelah memandang lukisan anaknya itu.
Kegemaran dan bakat yang dimiliki oleh Tigor ini dimanfaatkan oleh Pak Laode. Ia mengikutsertakan Tigor dalam lomba melukis siswa SD/MI tingkat kecamatan. Tigor sangat senang dapat kesempatan mengikuti lomba tersebut. Dalam hati berkata,"Inilah saatnya menguji kemampuanku." Sejak saat itu Tigor pun mempersiapkan diri sebaik mungkin.
Saat lomba berlangsung, Tigor hanya membawa alat-alat lukis yang diperlukan. Ia melukis dengan cepat menggunakan cat air. Hanya dalam waktu 35 menit ia mampu menyelesaikan lukisannya dengan baik.
Para juri sangat kagum dengan lukisan Tigor. Akhirya, lukisan Tigor dinyatakan sebagai lukisan terbaik. Tiga hari kemudian Tigor mengikuti lomba melukis di tingkat kabupaten. Ia pun berhasil memperoleh juara pertama. Ia mendapatkan piala, piagam, dan uang tabungan sebesar Rp.500.000,00.
Seminggu kemudian Tigor dikirim lagi ke tingkat provinsi. Di sini Tigor bersaing dengan pelukis-pelukis cilik dari berbagai kabupaten. Semangatnya untuk menang jadi kian bertambah.
Dua hari setelah perlombaan usai, Bapak Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur. Isi surat tersebut disampaikan oleh Bapak Kepala Sekolah saat upacara hari Senin.
"Anak-anak, kemarin Bapak menerima surat pemberitahuan dari kantor gubernur. Isi surat tersebut sebagai berikut: Siswa Saudara yang bernama Tigor, kelas 4, anak dari Bapak Gultom, dinyatakan sebagai juara pertama lomba melukis tingkat provinsi. Untuk itu, ia berhak mengikuti lomba melukis tingkat nasional di Jakarta."
Mendengar pengumuman tersebut, spontan anak-anak pun bersorak. "Hidup Tigor! Hidup Tigor!"
Lampiran 2 Dokumen koleksi, kueri, jawaban yang diharapkan, dan threshold of score yang digunakan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal Jawaban yang
diharapkan
Apa kegemaran Tigor
Kegemaran Tigor adalah menggambar atau melukis
6-11
12
Siapa yang
membelikan Tigor alat-alat lukis
Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas
Kapan Kepala
Sekolah menerima surat
pemberitahuan dari kantor gubernur
Dua hari setelah perlombaan usai, Bapak Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur
6-12
Di mana lomba lukis nasional diadakan
Untuk itu, ia berhak mengikuti lomba melukis tingkat nasional di Jakarta
9-12
Mengapa Pak
Gultom
membelikan alat lukis untuk Tigor
Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas
12
2 bbsi-002.txt
Kemampuan apa yang dimiliki Ular Emas
Selain itu, ular itu mampu membuat kepingan emas dalam waktu singkat
6-8
Siapa yang ingin memiliki Ular Emas itu
Sang Raja sangat ingin memiliki seekor ular emas yang hidup di sebuah hutan di ujung Pulau Sulawesi
12
Kapan ular pergi dari istana
(tidak ada) 9-12
Di mana ular emas itu hidup
Sang Raja sangat ingin memiliki seekor ular emas yang hidup di sebuah hutan di ujung Pulau Sulawesi
12
Mengapa Ular itu dinamakan Ular Emas
Ular tersebut dinamakan ular emas karena kulitnya seperti emas
Lampiran 2 lanjutan
No.
Nama
File Kueri
Jawaban yang diharapkan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal
3 bbsi-003.txt
Apa yang
dimaksud prangko
Prangko adalah bea atau ongkos pengiriman surat tersebut
6-12
Siapa julukan
penulis
Nah, beberapa temanku yang tahu kegemaranku itu kini menjulukiku sebagai "si filetelis muda"
1-2
Kapan penulis
meraih juara pertama
Saat di sekolah diadakan lomba fileteli, aku berhasil meraih juara pertama
7-12
Prangko yang
dikumpulkan dimasukkan ke mana
Prangko-prangko tersebut lalu kukumpulkan dan kumasukkan ke dalam album khusus prangko
6-11
Mengapa kita
perlu berdisiplin
(tidak ada) 6-12
4 bbsi-004.txt
Apa tujuan pokok upacara bendera
Tujuan pokok kegiatan ini adalah melatih dan mendidik para siswa untuk disiplin, berani, dan bertanggung jawab
9-11
Siapa yang
menjadi pembina upacara
Yang terakhir memasuki lapangan upacara adalah pembina upacara, yaitu Bapak Kepala Sekolah
6-8
Kapan upacara
bendera dilaksanakan
Kegiatan rutin seluruh siswa setiap Senin pagi adalah upacara bendera
6-9
Di mana para guru berdiri saat upacara
Tampak di belakang tiang bendera, para guru yang berdiri berjajar bersama kepala sekolah
6-8
Mengapa kita
harus berperilaku sopan terhadap siapapun
Jadi, dengan berperilaku sopan terhadap siapa pun, akan terbentuk
kepribadian yang baik dalam diri kalian yang hidup di tengah masyarakat
6-12
5 bbsi-005.txt
Apa disiplin itu Disiplin adalah ketaatan pada peraturan atau tata tertib
3-8
Siapa yang harus
mematuhi tata tertib sekolah
(tidak ada) 6-12
Kapan disiplin
nasional dicanangkan
Lampiran 2 lanjutan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal Jawaban yang
diharapkan
harus berdisiplin
Setelah tugas-tugas yang ringan ini dilaksanakan, kita lalu disiplin pada hal-hal yang lebih luas, misalnya mengikuti semua peraturan di rumah, di sekolah, dan akhirnya peraturan di masyarakat
Mengapa semua
tindakan harus dilakukan dengan disiplin
Jika semua pekerjaan dan tindakan dilakukan dengan disiplin, pasti akan selesai dengan sukses
12
6 bbsi-006.txt
Apa tujuan okulasi jambu itu
Untuk memindahkan tunas jambu air berbuah merah ke pohon jambu air yang berbuah hijau, Pak! jawab Aziz dan Tigor
6-8
Siapa yang diajak Tigor bermain di
kebunnya
Suatu sore, Tigor
mengajak Aziz bermain di kebunnya sambil
menikmati beberapa jenis buah-buahan
6-11
Kapan tukang
kebun mulai melakukan okulasi
Setelah mendapatkan penjelasan dari Tigor dan Aziz, Bapak Tukang Kebun mulai melakukan okulasi
7-12
Di mana Tigor mengambil pisau
(tidak ada) 6-12
Mengapa mereka
pergi ke kebun
(tidak ada) 6-12
7 bbsi-007.txt
Pohon apa yang banyak tumbuh di pantai itu
Kami menikmati keindahan pantai yang banyak ditumbuhi pohon bakau itu
9-12
Siapa yang
mengambil kayu kering
Setiba di sana, Aziz mengambil dua potong kayu kering
6-8
Kapan kami pergi
memancing
Hari Minggu aku dan Aziz pergi memancing
7-9
Kami memancing
di mana
Kami memilih Pantai Tua sebagai tempat tujuan
1-2
Mengapa ikannya
banyak
Lampiran 2 lanjutan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal No.
Jawaban yang diharapkan Nama
File Kueri
8 bbsi-008.txt
Kincir air itu terbuat dari apa
Kincir air itu mereka buat dari barang-barang bekas yang ada di sekitar tempat tinggal mereka
9-12
Siapa nama Kakek
Aziz
Kakek Aziz yang
bernama Zaenudin adalah pelopor pembuatan kincir air di desanya
3-7
Kapan Kakek
membuat kincir
(tidak ada) 7-8
Ke mana
penduduk mencari air jika kekeringan
Penduduk harus mencari air ke sungai atau ke kaki bukit yang jaraknya jauh
6-8
Mengapa
pengairan sawah menjadi lancar
Jadi, berkat kincir air pengairan sawah menjadi lancar dan padi tumbuh subur
6-11
9 bbsi-009.txt
Dengan apa si pemuda membajak sawah
Ia membajak dengan kerbaunya yang besar dan kuat
Tak jauh dari tempat itu ada seekor ular yang sedang memperhatikan si kerbau dan si pemuda
12
Tak jauh dari tempat itu ada seekor ular yang sedang memperhatikan si kerbau dan si pemuda
6-8
Mengapa pemuda
itu memecut kerbaunya
Kadang-kadang si pemuda memecut kerbaunya jika hewan itu malas-malasan dalam bekerja
9-11
10 bbsi-010.txt
Dengan cara apa Aziz membeli buku
Akhirnya, Aziz dapat membeli buku dengan mencicil pembayarannya di koperasi sekolah
9-11
Siapa nama
petugas koperasi
Tigor pun menghubungi Bu Indah, petugas koperasi
3-5
Kapan Aziz
membeli buku
(tidak ada) 9-12
Di mana Aziz membeli buku
Akhirnya, Aziz dapat membeli buku dengan mencicil pembayarannya di koperasi sekolah
Lampiran 2 lanjutan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal No.
Jawaban yang diharapkan Nama
File Kueri
Mengapa Aziz
berangkat lebih pagi
Hari itu Aziz berangkat lebih pagi karena ingin meminjam buku Bahasa Indonesia pada Tigor
9-12
11 bbsi-011.txt
Apa yang terbawa ke dalam jaring
Pada waktu mereka mengangkat jaring untuk kesekian kalinya, dalam jaring itu terlihat sebutir telur yang amat besar
6-8
Siapa yang
berubah menjadi buaya besar
Kedua suami istri itu perlahan-lahan berganti rupa menjadi dua ekor buaya besar
6-8
Kapan tanda pesan itu muncul
Tanda itu akan terlihat bila hujan turun pada saat hari panas dan ada pelangi di langit
7-9
Di mana Zaidin menunggu tanda dari orang tuanya
Zaidin termenung di tepi danau menunggu tanda dari kedua orang tuanya
12
Mengapa
kampung itu dinamakan Kampung Nelayan
Kampung itu bernama Kampung Nelayan karena sebagian besar warganya adalah nelayan
9-12
12 bbsi-012.txt
Tempat apa saja yang kami kunjungi saat di Yogya
Tempat-tempat yang kami kunjungi selama di Yogya adalah keraton, Museum Yogya Kembali, Jalan Malioboro, dan pusat kerajinan perak di Kota Gede
9-12
Siapa yang
menjelaskan tempat yang dikunjungi
Pemandu wisata pun menjelaskan tiap tempat yang kami lalui
6-8
Kapan ayah
mengambil cuti
Saat libur semester ayahku mengambil cuti dari kantornya
6-12
Di mana kami bergabung dengan keluarga besar ayah
Dari Medan kami lalu bergabung dengan rombongan keluarga besar ayahku
10-12
Mengapa kami ke
gunung Bromo
Lampiran 2 lanjutan
No.
Nama
File Kueri
Jawaban yang diharapkan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal
13 bbsi-013.txt
Aziz dan Tigor pernah menang dalam lomba bidang apa
Sebelumnya, Aziz dan Tigor telah memenangkan lomba di tingkat
kelurahan untuk bidang studi Matematika dan Sains
12
Siapa yang
membuka lomba
Kepala Seksi Pendidikan Dasar membuka lomba
3-5
Kapan kita
memperingati Hari Pendidikan Nasional
Setiap tanggal 2 Mei kita memperingati Hari Pendidikan Nasional
4-12
Keduanya gembira dan terharu karena mereka berhasil
3-11
14 bbsi-014.txt
Apa yang diperiksa dengan tensimeter
Mulut, mata, perut, dan dadaku diperiksa dengan tensimeter
3-8
Siapa yang
menjengukku
Guru dan teman-teman menjengukku
3-12
Kapan aku sakit (tidak ada) 7-12
Orang tuaku
membawaku ke mana
Orang tuaku membawaku ke klinik yang tidak jauh dari rumah
6-11
Mengapa aku
jatuh sakit
(tidak ada) 6-12
15 bbsi-015.txt
Apa pekerjaan Paman Toni
Paman Toni adalah seorang dokter
9-11
Siapa yang
menemani Tigor
Tigor hanya ditemani Paman Toni yang datang dari Medan tadi siang
6-8
Kapan mereka
berbincang-bincang
Seusai makan, mereka berbincang-bincang di ruang tamu
4-8
Orang tua Tigor pergi ke mana
Malam itu rumah Tigor tampak sepi, karena orang tua Tigor sedang bertugas ke luar kota
4-8
Mengapa rumah
Tigor sepi
Malam itu rumah Tigor tampak sepi, karena orang tua Tigor sedang bertugas ke luar kota
6-12
16 bbsi-016.txt
Untuk apa mereka mencari kayu bakar
Untuk makan sehari-hari saja, mereka harus mencari kayu bakar di hutan
Lampiran 2 lanjutan
No.
Nama
File Kueri
Jawaban yang diharapkan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal
Siapa nama gadis
itu
Wari, demikian nama gadis tersebut
3-5
Kapan Wari
berpisah dengan ayahnya
(tidak ada) 7-12
Di mana Wari
mendengar suara yang menakutkan
Ketika Wari sedang berada di hutan, tiba-tiba ia mendengar suara yang menakutkan
7-12
Mengapa mereka
tinggal di pinggir hutan
(tidak ada) 9-12
17 lks-001.txt
Apa keuntungan rajin membaca
Jika kita rajin membaca kita akan menjadi orang yang pintar kita juga akan menjadi orang yang berhasil dan berguna untuk masa depan kita
3-5
Paman Handoko
tinggal dengan siapa
(tidak ada) 6-12
Kapan Paman
Handoko datang
Pada saat liburan semester ganjil lalu Paman
Handoko datang
7-12
Di mana paman Handoko tinggal
(tidak ada) 10-12
Mengapa orang
yang malas membaca tergolong orang merugi
Sebaliknya, orang yang malas membaca tergolong orang yang merugi, tertinggal oleh zaman dan menjadi orang yang buta ilmu pengetahuan," nasihat paman kepadaku
9-12
18 lks-002.txt
Semboyan apa yang perlu diingat pemakai jalan
ada semboyan yang harus diingat oleh pemakai jalan berbunyi,"Lebih baik terlambat tiba di tempat tujuan daripada cepat sampai di rumah sakit"
9-12
Siapa yang
mengatur kendaraan
Pak polisi tampak sibuk mengatur kendaraan
3-12
Kapan semua
orang tampak sibuk
Pagi hari semua orang tampak sibuk
6-12
Di mana bus kota berhenti
Bus kota harus berhenti di halte dan masih banyak lagi disiplin lain yang harus kita patuhi
Lampiran 2 lanjutan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal No.
Jawaban yang diharapkan Nama
File Kueri
Mengapa warga
harus memiliki disiplin di jalan
Jika semua warga sudah memiliki disiplin yang tinggi, kemacetan dan kecelakaan dapat dihindari
6-8
19 lks-003.txt
Pak Madi beternak apa
Di samping itu, Pak Madi juga beternak kambing dan ayam kampung
6-8
Siapa yang tinggal di pedesaan
Pak Madi sekeluarga tinggal di pedesaan
3-12
Kapan Dodo
berulang tahun
(tidak ada) 9-12
Ayam-ayam tidur
di mana
Pada malam hari ayam-ayam tersebut tidur di atas pohon di belakang rumah
3-5
Mengapa ayam
jadi kebingungan
Ayam kebingungan karena matanya tertutup oleh contong
6-11
20 lks-004.txt
Kapas dan padi menggambarkan apa
Kapas dan padi menggambarkan kemakmuran
9-11
Siapa pembuat
lambang koperasi
(tidak ada) 6-12 lambang itu terbentuk
(tidak ada) 9-12
Mengapa manusia
wajib berusaha
Dalam memenuhi
kebutuhan hidup, manusia wajib berusaha
6-8
21 lks-005.txt
Apa ajaran Ki Hajar Dewantara yang terkenal
Beliau mewariskan ajarannya yang terkenal yaitu Ing ngarso sung tulodho, Ing madya mangun karso, Tut wuri handayani
6-8
Siapa yang
membuka perguruan Taman Siswa
Setelah kembali ke tanah air pada tahun 1919, tanpa rasa takut, beliau
melaksanakan niatnya membuka sebuah perguruan yang diberi nama Taman Siswa pada tanggal 3 Juli 1922
Lampiran 2 lanjutan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal No.
Jawaban yang diharapkan Nama
File Kueri
Kapan beliau
membuka perguruan Taman Siswa
Setelah kembali ke tanah air pada tahun 1919, tanpa rasa takut, beliau
melaksanakan niatnya membuka sebuah perguruan yang diberi nama Taman Siswa pada tanggal 3 Juli 1922
7-12
Ki Hajar
Dewantara diasingkan ke mana
Ki Hajar Dewantara ditangkap lalu diasingkan ke negeri Belanda
10-12
Mengapa tanggal
2 mei ditetapkan sebagai hardiknas
Untuk menghormati jasa Ki Hajar Dewantara maka setiap tanggal 2 Mei ditetapkan sebagai "Hari Pendidikan Nasional" (Hardiknas)
6-12
22 lks-006.txt
Apa arti mencegah lebih baik
daripada mengobati
Mencegah lebih baik daripada mengobati, artinya, sebelum kita terserang penyakit, kita harus berusaha
mencegahnya
6-12
Keluarga siapa
yang menerapkan hidup sehat
(tidak ada) 9-12
Kapan rumah
dikatakan sehat
Rumah dikatakan sehat jika udara dan cahaya matahari dapat masuk dengan baik
6-8
Di mana tempat menaruh obat
(tidak ada) 3-12
Mengapa saat
mandi harus memakai sabun
Supaya kotoran dapat hilang, kita mandi memakai sabun
12
23 lks-007.txt
Apa pekerjaan Pak Jono sebelum transmigrasi
Pak Jono adalah seorang pemulung barang bekas
9-11
Siapa yang
memberi petunjuk mengolah lahan pertanian
Di daerah transmigrasi ia mengolah lahan pertanian atas petunjuk petugas pertanian
6-11
Kapan Pak Jono
pergi transmigrasi
Lampiran 2 lanjutan
Threshold of score yang digunakan untuk mencapai hasil yang
optimal No.
Jawaban yang diharapkan Nama
File Kueri
Pak Jono dan keluarganya tinggal di mana sebelum transmigrasi
Ia beserta keluarganya tinggal di gubuk bedeng terbuat dari karton bekas, di bawah kolong jembatan
6-8
Mengapa
pemerintah mencanangkan program transmigrasi
(tidak ada) 6-12
24 lks-008.txt
Apa manfaat vitamin B
Vitamin B berguna untuk mencegah penyakit beri-beri
3-8
Siapa yang harus
mengkonsumsi makanan bervitamin
(tidak ada) 9-12
Kapan kita akan
terserang penyakit rakhitis
Jika kita kekurangan vitamin D ini, kita akan terserang penyakit rakhitis, tubuh kita kerdil
12
Di mana terdapat vitamin C
Vitamin C terdapat pada sayur-sayuran segar yang berwarna hijau dan buah-buahan
3-5
Mengapa kita
mudah terserang penyakit kulit
Jika kita kekurangan vitamin C akan mudah terserang penyakit kulit, badan kita lemah, gusi kita bengkak dan sariawan