ANALISA HASIL IMPLEMENTASI - SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI DOKUMEN CERITA WAYAN

Bab V berisi penerapan dan pengujian sistem beserta hasil evaluasi sistem.

Bab V berisi kesimpulan dari keseluruhan pembuatan sistem dan saran untuk pengembangan sistem ke depan.

LANDASAN TEORI

2.1 Information Retrieval

Definisi Pemerolehan Informasi atau Information Retrieval (IR) adalah menemukan sebuah material atau informasi dari sebuah koleksi dokumen berskala besar yang tidak terstruktur yang dapat memenuhi sebuah kebutuhan informasi. IR digunakan untuk mengatasi "banjir informasi". Aplikasi-Aplikasi IR antara lain digunakan untuk:

1. mesin pencari pada internet.

2. Automatic summarization, merupakan sistem yang dapat membuat sebuah ringkasan dari sebuah dokumen atau lebih.

3. Document classification, adalah sistem yang memilah-milah sekumpulan dokumen ke dalam klasifikasinya.

4. Recommender systems, adalah sistem yang memberikan rekomendasi berdasarkan data yang ada.

5. Question answering, adalah sistem yang menerima pertanyaan dan mencari jawabannya pada koleksi dokumen yang dimilikinya.

Proses dalam IR secara umum dapat dijelaskan pada gambar 2.1

User Interface Text Operations Query Operations Searching Ranking

Indexing ^{DB Manager}_Module

Index Text Database User feedback Retrieved docs Ranked docs User need Text Text Logical view Inverted file

Gambar 2.1.a : Diagram proses Pemerolehan Informasi

Penjelasan proses Pemerolehan Informasi:

Dari sisi database, database diproses sebagai berikut :

1. Text database, melalui DB Manager Module diolah dalam proses text operation.

2. Hasil dari text operation digunakan dalam proses indexing

3. Proses indexing menghasilkan sebuah fileindex.

Dari sisi user:

1. User menginputkan kebutuhan user

2. Kebutuhan user tersebut diolah dalam text operation agar dapat dibentuk menjadi sebuah kueri.

3. Kebutuhan user yang telah diolah kemudian dibuat menjadi kueri. 4. Dilakukan pencarian dengan menggunakan kueri pada fileindex. 5. Hasil dari pencarian kemudian di ranking dan ditampilkan pada user. 6. Pemerolehan informasi juga memungkinkan terjadinya feedback dari

user. Feedback ini kemudian digunakan untuk pembuatan kueri.

2.2 Sistem Tanya Jawab

Sistem tanya jawab (QA) adalah salah satu jenis Information Retrieval. Sistem ini mampu me-retrieve jawaban dari pertanyaan yang diajukan dalam bahasa alami dari koleksi dokumen yang dimilikinya (dapat juga dari world wide web). Dari seluruh jenis aplikasi Information Retrieval, QA merupakan aplikasi yang paling banyak menggunakan pemrosesan bahasa alami, dan diyakini merupakan generasi berikutnya dari mesin pencari.

Berdasarkan koleksi dokumennya, QA terbagi menjadi dua :

• Closed-domain question answering : merupakan QA system yang menangani pertanyaan dengan domain tertentu, contohnya adalah bidang otomotif, kesehatan, alkitab dan lain-lain. QA system dengan closed-domain dapat dikatakan lebih mudah, karena pemrosesan bahasa alaminya dapat mengenali istilah-istilah dalam domain tersebut.

• Open-domain question answering : merupakan QA system yang menangani semua pertanyaan dan hanya dapat mengenali istilah umum

dan pengetahuan tentang dunia. Selain itu, dibandingkan dengan closed-domain, Open-domain menangani koleksi data yang jauh lebih banyak untuk menemukan jawaban.

Proses dari QA system antara lain adalah : 1. Pemrosesan Kueri

2. Pencarian Dokumen 3. Ekstraksi Jawaban

2.3 Ad Hoc Retrieval

Merupakan tipe retrival dimana koleksi dokumen tetap sementara kueri berubah-ubah.

2.4 Kueri

Kueri adalah bentuk lain dari pertanyaan atau kebutuhan. Kueri dalam IR adalah kueri yang hasilnya memungkinkan untuk diurutkan (ranked). Ada beberapa jenis kueri, di antaranya adalah Keyword-Based Querying, Pattern Matching, dan Structural Queries.

Keyword-Based Querying adalah kueri yang terdiri dari kata kunci-kata kunci dari dokumen yang akan dicari. Keyword-Based Querying populer karena intuitive, ekspresinya mudah , dan memudahkan ranking secara cepat. Kueri ini dapat terdiri dari satu kata kunci atau beberapa susunan kata kunci yang kompeks. Beberapa contoh kueri Keyword-Based Querying adalah:

1. Single-word Queries

Pada kueri ini, sebuah dokumen dianggap merupakan sekumpulan kata-kata, tidak memperhatikan kalimat atau konteks di mana suatu kata berada. Hasil dari kueri ini adalah dokumen-dokumen yang setidaknya memiliki atau mengandung paling tidak satu kata dari kata-kata kunci pada kueri. Hasilnya di-ranking berdasarkan banyaknya jumlah kata kunci kueri yang ditemukan dalam dokumen itu dengan menggunakan metode statistik “term frequency” yang akan menghitung berapa kali kata itu muncul dalam sebuah dokumen, dan “inverse document frequency” yang akan menghitung jumlah dokumen yang mengandung kata-kata tersebut.

2. Context Queries

Context Queries memiliki dasar bahwa kata-kata yang kemunculannya dekat satu sama lain mungkin lebih tinggi tingkat relevansinya dibandingkan bila kata-kata itu muncul secara terpisah. Context Queries

dibagi menjadi Phrase Query dan Proximity Query. Phrase Query

adalah kueri yang mengijinkan kata-kata tersebut muncul dengan jarak yang dekat atau jarak minimum yang ditentukan. Proximity adalah kueri yang memperbolehkan jarak maksimum dari kemunculan kata-kata kunci tersebut.

3. Boolean Queries

Boolean Queries merupakan kueri yang paling tua. Terdiri dari kata-kata kunci dan operator Boolean yang bekerja sebagai operand. Operator yang biasa digunakan adalah operator OR, AND, dan BUT.

2.5 Segmentasi

Segmentasi adalah membagi sesuatu menjadi bagian-bagian yang lebih kecil dengan aturan tertentu.

2.6 Stemming

Stemming adalah proses penghilangan prefiks dan sufiks dari sebuah kata untuk mendapatkan kata dasarnya. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki kata-kata dasar yang sama memiliki makna yang serupa sehingga dokumen-dokumen yang di dalamnya terdapat kata-kata dengan kata dasar yang sama juga relevan dengan kuerinya. Terdapat beberapa metode untuk melakukan Stemming diantaranya adalah metode Porter, Lovins, Dawson, dan Krovetz. Ada juga algoritma Proter Stemmer yang telah dimodifikasi untuk Bahasa Indonesia. Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala pada tahun 2003. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan

bahasa Indonesia.

Desain Porter Stemmer for Bahasa Indonesia dapat dilihat pada gambar 2.8.a

Gambar 2.6.a desain Stemming

Pada gambar 2.8.a terlihat beberapa langkah ‘removal’ menurut aturan yang ada pada tabel 1 sampai dengan tabel 5.

Tabel 2 : kelompok rule kedua : inflectional possessive pronouns

Tabel 3 : Kelompok rule ketiga : first order of derivational prefixes

Tabel 5 : Kelompok rule kelima : derivational suffixes

2.7 Parsing

Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks. Oleh karena itu bagian dasar dalam parsing adalah algoritma pengambil token dari teks yang disebut tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen.

2.8 Stopword, Stoplist, dan StopwordRemoval

Stopwords adalah kata-kata yang tidak signifikan dalam sebuah dokumen seperti kata-kata “dan”, “hingga”, “di”, “ke”, “dari”. Stoplist adalah daftar

stopword. Tujuan dari penghilangan stopword adalah untuk mengurangi jumlah kata-kata yang hasrus diproses. Dengan dihilangkannya stopword, proses retrieval dapat lebih cepat.

2.9 Indexing

Indexing adalah membuat sebuah struktur data dari seluruh dokumen untuk mempercepat proses pencarian. Indeks biasanya digunakan untuk koleksi dokumen yang bersifat semi-statis. Semi-statis maksudnya adalah koleksi dokumen tersebut dapat bertambah atau berubah jumlahnya namun dalam interval waktu tertentu, tidak berubah setiap detik.

Salah satu metode indexing adalah : InvertedFiles (inverted index)

Inverted files adalah mekanisme dalam mengindeks sebuah koleksi dari dokumen teks yang bertujuan untuk mempercepat proses pencarian. Struktur

inverted file terbagi menjadi dua elemen : vocabulary dan occurrences.

Vocabulary adalah kumpulan dari kata yang berbeda yang terdapat di dalam teks. Occurrences adalah daftar dari semua posisi teks dimana kata-kata tersebut muncul.

2.10 Ranking

Dalam skripsi ini ranking adalah proses mengurutkan sekumpulan dokumen berdasarkan tingkat relevansinya terhadap kueri. Salah satu metodenya adalah dengan menggunakan Term Frequency digabungkan dengan Inverse Document Frequency.

Term Frequency (tf) adalah jumlah kemunculan suatu kata dalam sebuah dokumen.

Inverse document frequency (idf) adalah inverse document frequency dari suatu kata.

Rumus dalam penggunaan tf*idf adalah :

Dimana :

W_ij = weight (bobot) dari kata i pada dokumen j

tfij = jumlah kemunculan kata I pada dokumen j

idf_i = inverse document frequency dari kata i

N = jumlah seluruh dokumen

dfi = jumlah dokumen yang mengandung kata i

kemudian tingkat similiaritinya dihitung dengan menggunakan Similarity Measure-Inner Product dengan rumus:

Dimana :

Sim (d_j, q) = tingkat kesamaan dokumen j terhadap kueri

dj = dokumen j q = kueri

t = terms (jumlah kata dalam kueri)

W_iq = bobot kata i pada kueri

2.11 Diagram Aliran Data [Whitten]

Diagram Aliran Data adalah suatu model proses yg digunakan utk menggambarkan aliran data yg melalui sebuah sistem dan bagaimana proses atau kerja yg dilakukan oleh sistem.

Sinonimnya adalah bubble chart, transformation graph, dan process model.

Gambar 2.11.a contoh DAD

Simbol dalam Diagram Aliran Data

• Data flow

Menggambarkan data yang bergerak atau berpindah. Sebuah data flow dapat juga digunakan untuk merepresentasikan pembuatan (creation), pembacaan (reading), penghapusan (deletion) atau perubahan (updating) data dalam sebuah file atau database

(disebut sebagai sebuah data store).

• External Agent

Orang di luar sistem yang berinteraksi dengan sistem

• Data store

Melambangkan sebagai database atau file.

• Proses

Melambangkan sebuah proses.

Menyatukan beberapa aliran data ataupun untuk memecah aliran data menjadi beberapa lairan data yang asalnya dari satu aliran data.

Gambar 2.11.b contoh DAD

2.12 Perl dan XAMPP

Perl adalah bahasa pemrograman yang dapat digunakan untuk lintas platform. Bahasa pemrograman ini di buat oleh Larry Wall dan pertama kali dirilis pada tahun 1987. Perl merupakan software open source dibawah Artistic License

atau GNU General Public License (GPL).

Bahasa ini dapat digabungkan dengan HTML, XML, dan bahasa mark-up lainnya, selain itu bahasa ini mendukung pemrograman secara procedural

maupun object-oriented. Interpreter Perl dapat digabungkan dengan sistem lain.

Perl merupakan bahasa pemrograman web yang populer untuk kemampuan manipulasi teks dan rapid development cycle, selain itu, Perl dapat di satukan

dengan web server untuk mempercepat proses, kecepatannya mencapai 2000% dari penggunaan bahasa lain. Untuk menggabungkan Interpreter Perl dengan Apache web server, dapat digunakan mod_perl.

XAMPP adalah aplikasi gabungan dari empat software server, yaitu web server Apache, MySQL, PHP, dan Perl. XAMPP sudah memiliki fasilitas Perl,

ter Perl berada.

Un er sintaksnya adalah :

karakter ‘$’. Untuk

variabel array, dalam menggunakan awalan karakter ‘@’,

$_angka = 10;

namun secara default belum terkoneksi, untuk mengoneksikannya dilakukan dengan mengubah konfigurasi mod_perl. Selain itu, modul-modul Perl yang terdapat dalam XAMPP dapat di tambahi dengan modul-modul yang diperlukan yang belum ada di XAMPP.

Suatu file Perl selalu diawali dengan sintaks: #!/usr/local/bin/perl

Yang merupakan path menuju tempat interpre tuk menampilkan tulisan di lay

print "Hello, World!\n";

Variabel-variabel dalam Perl selalu diawali dengan pendeklarasian

kemudian baru diakses dengan menggunakan karakter ‘$’. Untuk variable hash, dalam pendeklarasiannya menggunakan awalan karakter ‘%’, kemudian baru diakses dengan menggunakan karakter ‘$’ Untuk komentar menggunakan tanda ‘#’.

@nilai = (10, 7, 6 # mencetak '6'

, 5, 9, 8);

’, 10, ‘nilai2’, 20}; ’};

Op menggunakan If dan else.

Perulangan dapat digunakan dengan statement for, foreach maupun while.

foreach () {# statemen}

maka harus file dibuka dengan fungsi open, contoh:

ariable $fh adalah filehandle yang diperlukan untuk membaca dan menutup

jutnya setiap baris dibaca dengan operator <>. sebagai berikut: print $prima1[2];

%hash = {‘nilai1 Print $hash{‘nilai1

erator kondisional dalam Perl if ( kondisi1) {# statemen} elsif (kondisi2) { # statemen } elsif (kondisi3) { # statemen } else { # statemen } for ( ; ; ) { # statemen } while(kondisi) {# statemen }

mbaca dari file teks Sebelum file dapat dibaca

open($fh, '/etc/passwd');

file. Selan

while($line = <$fh>) { # memproses $line }

Setelah selesai file ditutup dengan fungsi close, contoh: close($fh);

Menulis ke file teks

Perintah yang sama dengan program di atas dapat digunakan untuk menulis ke

file. Pertama, file dibuka dengan mode 'tulis': open($fh, “> /path/ke/file”);

selanjutnya dapat ditulis dengan perintah print, menggunakan file handle, sbb: print $fh “baris teks yang ditulis ...\n”;

Seperti halnya dalam hal membaca, maka filehandle harus ditutup dengan close.

Berikut ini contoh membaca dari file dan menulis ke file baru, atau mengcopy

file:

# mengcopy /etc/profile $fnam = '/etc/profile';

$fbaru = '/home/copyprofile';

open($fh1, $fnam) or die “gagal baca $fnam, $!”;

open($fh2, “>$fbaru”) or die “gagal menulis $fbaru, $!”; while($line = <$fh1>) {

print $fh2 $line; }

close($fh2);

Ekspresi “or die ... “ digunakan sebagai error handler jika file tidak dapat dibuka. Variabel khusus $! digunakan untuk menampilkan pesan error dari sistem.

ANALISA DAN DESAIN SISTEM

3.1. Perancangan Sistem

Sistem tanya jawab wayang ini menerima input pertanyaan dalam Bahasa Indonesia berupa teks dan memberi output berupa jawaban dalam bentuk teks singkat beserta potongan dokumen tempat ditemukannya jawaban. Secara umum, diagram konteksnya seperti pada gambar 3.1.a

Gambar 3.1.a diagram konteks sistem

Dalam sistem ini hanya terdapat satu tipe pengguna, yaitu user yang memanfaatkan sistem ini untuk bertanya seputar wayang. Sistem tanya jawab wayang ini merupakan bagian dari IR dengan tipe Ad Hoc, di mana hanya pertanyaannya saja yang berubah, sementara bagian koleksi tetap, maka dari itu tidak terdapat user

yang memiliki akses untuk menambah koleksi.

Sebelum sebuah sistem tanya jawab dapat menjawab pertanyaan, perlu dilakukan pengolahan pada koleksi dokumen. Pengolahan ini disebut tahap preproses. Setelah dilakukan tahap preproses maka akan dilakukan proses indexing, yang akan memudahkan dan mempercepat proses pencarian untuk menemukan jawaban. Baru setelah itu, sistem tanya jawab dapat menggunakan koleksi untuk menemukan jawaban dari pertanyaan user. Gambar 3.1.b Diagram Aliran Data (DAD) level 1

akan menjelaskan proses-proses ini.

Gambar 3.1.b Diagram Aliran Data level 1

Tahap preproses mengubah koleksi dokumen wayang yang masih mentah menjadi dokumen yang terstruktur. Tahap ini menghasilkan beberapa file preproses yang akan digunakan pada tahap indexing. Tahap preproses akan dibahas pada sub bab 3.1.1

Tahap indexing adalah tahap dimana file-file koleksi di-index untuk mempercepat proses pencarian jawaban. Tahap ini menggunakan file koleksi dan file preproses yang akan menghasilkan file index. Tahap indexing akan dibahas pada sub bab 3.1.2

3.1.1. Preproses (Proses 1)

Karena sistem ini bertipe Ad Hoc, maka tahap preproses ini hanya dilakukan satu kali saja, setelah itu dapat dilakukan proses tanya berulang-ulang. Tahap preproses terdiri dari segmentasi dokumen, pembuatan file kosakata,

file token, stopword removal, Stemming dan parsing, dan pembuatan

passage.

Diagram Alir Data level 2 untuk tahap preproses digambarkan pada Gambar 3.1.1.a

a. Segmentasi dokumen (Sub Proses 1.1P)

Koleksi yang dimiliki sistem ini terdiri dari dokumen-dokumen cerita yang panjang setiap dokumennya berbeda-beda. Dokumen yang memiliki jumlah kalimat atau kata yang banyak, akan dibagi menjadi beberapa dokumen. Pembagian menjadi beberapa dokumen ini akan dilakukan secara manual. Pembagian ini tidak berdasarkan pada jumlah paragraf maupun kalimat. Pembagian dilakukan perbabak cerita, di mana suatu babak biasanya memiliki subyek tertentu. Bila menggunakan pembagian perjumlah paragraf, paragraf satu dan yang lainnya mungkin memiliki satu subyek yang sama yang hanya di ceritakan pada paragraf pertama, sehingga bila paragraf kedua dipisah dari paragraf pertama, maka pragraf ini akan kehilangan subyeknya. Setelah dibagi ke dalam beberapa bagian, seluruh koleksi akan diberi nama file berupa angka dari 1 sampai N (jumlah seluruh dokumen). Jumlah dokumen tersebut disimpan dalam sebuah file index.txt sebagai file info.

Input-an untuk proses ini adalah koleksi dokumen wayang hasil scan dan

output-nya adalah koleksi dokumen wayang yang telah disegmentasi.

b. Pembuatan file kosakata (Sub Proses 1.2P)

Pembuatan file kosakata maksudnya adalah untuk memudahkan proses-proses stopword removal, stemming, dan indexing. Proses ini membuat beberapa file yang berisi daftar kosakata yang terdapat dalam dokumen.

Daftar kosakata dapat diambil dari Kamus Besar Bahasa Indonesia (KBBI), namun tidak semua kosakata yang ada dalam KBBI digunakan dalam koleksi dokumen. Maka dari itu, akan lebih relevan bila daftar kosakata diambil dari kosakata yang digunakan dalam koleksi.

Proses ini membuat daftar seluruh kosakata yang ada dalam koleksi dokumen. Input-an dari proses ini adalah koleksi hasil segmentasi dan

output-nya adalah file kosakata. Langkah-langkah untuk membuat daftar kosakata ini diterangkan pada flowchart gambar 3.1.1.b

File ini akan disimpan dalam nama kosakata.txt dengan format sebagai berikut: kosakata1:cacah_kosakata1 kosakata2:cacah_kosakata2 … … …

Contoh isi file kosakata.txt adalah sebagai berikut:

Abadi:120 Abu:53 … …

c. Pembuatan file Token (Proses 1.3P)

Seperti yang telah dijelaskan pada pembatasan masalah, bahwa topik pertanyaan dibatasi pada person, tempat, senjata, jumlah(angka) dan relasi, maka kosakata tersebut merupakan kosakata yang merupakan kandidat jawaban yang disebut sebagai token. File ini akan berguna dalam proses parsing atau yang juga biasa disebut sebagai tagging atau

tokenisasi.

yang telah dibuat dalam proses sebelumnya. Input dari sub proses ini adalah file kosakata. Output-nya adalah file token person.txt, tempat.txt, senjata.txt, angka.txt, dan relasi.txt.

Setiap filenya memiliki format yang sama yaitu :

kosakata1:cacah_kosakata1 kosakata2:cacah_kosakata2

… … …

Contohnya pada person.txt adalah

arimbi:98 arjuna:230

… … …

d. StemmingFile (Sub Proses 1.4P)

Proses Stemming ini menggunakan file suffix yang sudah disiapkan terlebih dahulu secara manual. Proses ini melakukan operasi stem pada

file-file kosakata, antara lain : file kosakata, person, senjata, relasi, tempat, dan angka. Tujuan proses stem ini adalah untuk mendapatkan kata dasar dari setiap kosakata yang ada. Stem juga dilakukan pada file

koleksi 1.5P) seluruh kata yang ada di dokumen akan di stem, termasuk kata-kata atau nama-nama yang merupakan kata-kata token. Bila file-file

token tidak di-stem, maka akan terjadi ketidakkonsistenan data.

Proses stem-nya menggunakan porter stemmer yang telah dijelaskan pada bab II. Pada Gambar3.1.1c diperlihatkan flowchart proses

Stemming.

Gambar 3.1.1.c desain Stemming

Dalam proses pembuatan file kosakata, bila terdapat kata “rumahku” dan “rumah”, kedua kata tersebut dianggap berbeda. Sementara, setelah dilakukan proses stem, kata “rumahku” akan berubah menjadi kata

“rumah”, dan dianggap sama dengan kata yang kedua. Kedua kata tersebut harus digabungkan, dan jumlah (cacah) katanya harus dijumlahkan, maka dari itu, proses Stemming file keseluruhan digambarkan pada flowchart pada gambar 3.1.1d

Contoh file sebelum di stem : arjuna:1028 akankah:301 akan:200 anak:459 ... ...

Setelah dilakukan proses stem : arjuna:1028

akan:501 anak:459 ... ...

e. Stemming Koleksi(Sub Proses 1.5P)

Proses Stemming pada koleksi dilakukan seperti pada proses Stemming file , hanya saja input-annya adalah koleksi dokumen tanpa stopword

dan output-nya adalah koleksi hasil Stemming. Contoh dokumen sebelum di-stem:

Abimanyu Terjebak Perangkap Mahadigda. Dia putra Arjuna yang lahir dari cintanya yang pertama kepada seorang wanita yang bernama Sumbadra putri Raja Basudewa dari Dewi Badraini. Abimanyu kekasihnya satria muda usia, sopan tutur bahasanya, hormat kepada orang tua dan tak segan menolong sesamanya...

Contoh dokumen setelah di-stem:

abimanyu jebak angkap mahadigda

dia putra arjuna yang lahir dari cinta yang tama pada seorang wanita yang nama sumbadra putri raja basudewa dari dewi badrain. abimanyu kasih satria muda usia, sopan tutur bahasa, hormat pada orang tua dan tak segan tolong sesama....

...

f. Pembuatan File Sinonim(Sub Proses 1.6P)

Pada proses ini akan dibuat dua buah file yaitu file sinonim kata dan file

sinonim kueri.

Dalam Bahasa Indonesia terdapat kata-kata yang berbeda tetapi memiliki arti yang sama. Kata-kata ini dapat digunakan untuk membuat kueri, agar dokumen-dokumen yang memiliki kata yang sama artinya juga ditemukan.

Selain kata-kata dalam Bahasa Indonesia, juga terdapat istilah wayang yang memiliki arti yang sama atau cara penulisan yang berbeda, seperti penulisan ‘Kurawa’ ada yang menulis ‘Korawa’, ada yang menulis ‘Kurowo’. Secara umum penulisannya adalah ‘Kurawa’. Kata-kata tersebut juga akan dimasukkan dalam file sinonim kata.

Dalam sub proses ini juga akan dibuat sebuah file sinonim kueri yang merupakan sebuah file yang memuat kata-kata yang saling berhubungan yang perlu dipertimbangkan dalam pembuatan kueri.

Karena koleksi yang dimiliki adalah dokumen-dokumen cerita sastra, maka jarang ditemui bahasa yang memiliki arti langsung. Contohnya adalah kueri “Siapa ayah gatotkaca?” dalam koleksi tidak ditemukan dokumen yang mengandung “ayah gatotkaca adalah Bima”. Dalam

Dalam dokumen SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI DOKUMEN CERITA WAYANG Skripsi (Halaman 25-186)