Pemerolehan Informasi - LANDASAN TEORI - Sistem pemerolehan informasi puisi dengan menggunakan

BAB II LANDASAN TEORI

2.1 Pemerolehan Informasi

Pemerolehan Informasi (Information Retrieval) adalah menemukan bahan (umumnya dokumen) dari sesuatu tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari kumpulan berskala besar (biasanya disimpan pada komputer) (Manning, 2009). Dalam Pemerolehan Informasi, mendapatkan dokumen yang relevan tidaklah cukup. Tujuan yang harus dipenuhi adalah bagaimana mendapatkan dokumen relevan dan tidak mendapatkan dokumen yang tidak relevan.

ISO 2382/1 mendefinisikan Information Retrieval (IR) sebagai tindakan, metode dan prosedur untuk menemukan kembali data yang tersimpan, kemudian menyediakan informasi mengenai subyek yang dibutuhkan. Tindakan tersebut mencakup text indexing, inquiry analysis, dan relevance analysis. Data mencakup teks, tabel, gambar, ucapan, dan video. Informasi termasuk pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan (Cios; 2007).

Sebelum dilakukan pencarian, maka diperlukan langkah-langkah yang dilakukan terhadap dokumen, sehingga dokumen menghasilkan sekumpulan partikel-partikel yang lebih kecil, yaitu daftar istilah. Metode tersebut adalah metode Teks Operasi(Text Operations).

Teks Operasi bertujuan mengurangi kompleksitas dari representasi dokumen dan mengizinkan memproses data teks menuju pengindeksan istilah (Baeza et al, 1999). Proses tersebut dapat dilakukan dengan cara pemisahan kata, penghapusan istilah umum dan pencarian akar kata. Berikut adalah gambaran untuk Teks Operasi, Gambar 2.1

Gambar 2.1 Proses Menuju Pengindeksan (Baeza, 1999)

Dalam hal ini, tidak hanya dokumen yang akan mengalami Teks Operasi, tetapi juga kebutuhan pengguna atau kata-kunci yang telah dimasukkan. Hasil dari Teks Operasi, yaitu daftar istilah kemudian digunakan untuk proses selanjutnya yaitu Indexing, merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk di retrieve. Sebagai ilustrasi sistem Pemerolehan Informasi dapat dilihat pada, Gambar 2.2

Gambar 2.2 Konsep Sistem Pemerolehan Informasi(Baeza, 1999)

2.1.1 Pemisahan Kata (Tokenizing)

Pemisahan Kata bertugas untuk memotong unit dokumen menjadi potongan- potongan kata yang lebih detail, hasil potongan tersebut adalah token, hal yang serupa juga diberlakukan untuk karakter spesial seperti tanda baca (Manning et al. 2009). Berikut adalah contoh proses pemotongan kata, Gambar 2.3.

Input Friend, Romans, Countrymen, Lend me your ears Output

2.1.2 Penghapusan Kata Umum (Stopwords)

Beberapa kata yang umum untuk digunakan akan mengakibatkan membuat suatu nilai menjadi kecil dalam membantu memilih dokumen yang sesuai dengan kebutuhan pengguna. Kata yang umum tersebut adalah stopwords. Terdapat beberapa cara untuk menentukan kata umum tersebut adalah stopwords atau bukan, salah satunya adalah dengan cara mengurutkan collection frequency (jumlah setiap kemunculan kata dari koleksi dokumen) dan kemudian mengambil frekuensi yang tertinggi untuk mengkategorikan kata stopwords. Atau sering kali digunakan cara dengan menyaring kata/ stopwords berdasarkan daftar yang sudah ditentukan sebelumnya, kemudian stopwords akan dihapus selama dilakukannya pengindeksan (Manning et al. 2009).

Contoh kata umum tersebut adalah yang, ini, dan, itu. Berikut ini merupakan contoh penghapusan kata umum, pada Gambar 2.4

Input Sesuai dengan perjanjian ini saya umumkan

Output Sesuai perjanjian saya umumkan

Gambar 2.4 Proses Penghapusan Kata Umum

2.1.3 Stemming

Stemming merupakan proses mengubah kata-kata yang terdapat dalam suatu dokumen dalam bentuk kata dasar (rootword) (Agusta, 2009).

Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut:

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

a. Jika an” telah dihapus dan huruf terakhir dari kata tersebut adalah k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4. 4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

Tipe awalan ditentukan melalui langkah-langkah berikut:

1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.

2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.

3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau “pe-” maka berhenti.

4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 2.2 Hapus awalan jika ditemukan.

Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan

Awalan Akhiran yang tidak diijinkan be- -i di- -an

ke- -I, -kan

me- -an

Tabel 2.2 Cara menemukan tipe awalan untuk kata diawali de “te-” Following

Characters

Tipe Awalan

set 1 set 2 set 3 set 4

“-r-“ “-r-“ - - none

“-r-“ vowel - - ter-luluh

“-r-“ not(vowel

or “-r-”)

“-er-“ vowel ter

“-r-“ not(vowel

or “-r-”)

“-er-“ not vowel ter

“-r-“ not(vowel

or “-r-”)

not “-er-“ - ter

not(vowel or “-r-”)

“-er-“ vowel - none

not(vowel or “-r-”)

“-er-“ not vowel - te

Tabel 2.3 Jenis awalan berdasarkan tipe awalannya

Tipe Awalan Awalan yang harus dihapus

di- ke- ke- ke- se- Se-

te- te- ter- ter- ter-luluh ter

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan di bawah ini:

1. Aturan untuk reduplikasi.

 Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root word-nya adalah “buku”.

 Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”.

2. Tambahan bentuk awalan dan akhiran serta aturannya.

 Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.

 Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”.

Dalam dokumen Sistem pemerolehan informasi puisi dengan menggunakan query expansion berdasarkan thesaurus. (Halaman 32-40)