Konsep Pemerolehan Informasi

Tabel 2.1. Jika ditemukan maka algoritma berhenti, jika tidak, pergi ke langkah

Tabel 2.1. Tabel kombinasi awalan dan akhiran yang tidak diijinkan

Tabel 2.2. Cara Menentukan Tipe Awalan Untuk awalan “te-”

Tabel 2.3. Awalan yang diijinkan dihapus berdasarkan Tipe Awalannya

doc 1 doc 2 doc 3 doc 4 doc 5 doc 6

term 1 1 2 2 1 1 0 term 2 0 4 4 1 2 0 term 3 2 5 0 1 3 0 term 4 3 1 0 0 1 1 term 5 2 0 2 0 0 1 term 6 1 0 1 1 3 2

Tabel 2.4. Perancangan termdocumentmatrix

Gambar 2.1. Visualisasi term-documentmatrix

Persamaan 2.1. Rumus pembobotan TF-IDF (Savoy, 1993)

Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query

Persamaan 2.3. Rumus penghitungan nilai recall (Manning et al, 2008)

Persamaan 2.4. Rumus penghitungan nilai precision (Manning et al, 2008)

Pemerolehan informasi (Information Retrieval) adalah kumpulan berbagai

algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan temu

kembali informasi pada suatu koleksi data yang besar dan tidak terstruktur

(Manning et al, 2008).

Jenis informasi tersebut beragam, bisa berupa teks dokumen, halaman web,

maupun objek multimedia seperti foto dan video.

2.1.1.

Operasi Teks

2.1.1.1.

Stopword

Stopword adalah suatu kata yang sangat sering muncul dalam berbagai

dokumen adalah diskriminator yang buruk dan tidak berguna dalam temu kembali

informasi. Stopword perlu dieliminasi untuk mengurangi waktu eksekusi query

dengan cara menghindari proses

list yang panjang (Butcher

et al., 2010).

Pembuangan

stopword ini akan mengurangi ukuran indeks, meningkatkan

efisiensi dan keefektifan dari pemerolehan informasi (Croft et al., 2010). Contoh

stopword

dalam bahasa Indonesia, yaitu kata ganti orang (“aku”, “kamu”, “kita”,

dsb.), konjungsi (“dan”, “atau”, dsb.), dan beberapa kata lainnya.

2.1.1.2.

Stemming

Stemming adalah proses pengenalan suatu kata.

Stemming sering

melibatkan pemisahan kata dari imbuhan dan tanda baca (Göker et al, 2009).

Menurut Agusta (2010), pola suatu kata dalam bahasa Indonesia adalah

sebagai berikut :

2.1.1.2.1.

Algoritma Nazief – Adriani sebagai Algoritma Stemming

Algoritma Stemming Nazief – Adriani diperkenalkan oleh Nazief dan Adriani

(1996). Algoritma ini memiliki tahap-tahap sebagai berikut ini :

1.

Cari kata yang akan diistem dalam basis data kata dasar. Jika ditemukan maka

diasumsikan kata adalah root word. Maka algoritma berhenti.

2.

Selanjutnya adalah pembuangan Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-

mu”, atau “-nya”). Jika berupaparticles (“-lah”, “-kah”, “-tah” atau “-pun”)

dan terdapat Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), maka langkah

ini diulangi lagi untuk menghapus Possesive Pronouns.

3.

Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di

kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a berikut ini :

a.

Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”,

maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus

maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b.

Akhiran yang dihapus (“-i”, “-an” atau

“-kan”) dikembalikan, lanjut ke

langkah 4.

4.

Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka

pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

a.

Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan pada

4b. Tabel kombinasi awalan-akhiran yang tidak diijinkan ditampilkan pada

tabel berikut ini :

Awalan Akhiran yang tidak diizinkan

be-

-i

di-

-an

ke-

-i, -kan

me-

-an

se-

-i, -kan

b.

Tentukan tipe awalan kemudian hapus awalan. Jika awalan kedua sama

dengan awalan pertama algoritma berhenti.

c.

Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka

algoritma berhenti..

5.

Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal

diasumsikan sebagai root word. Proses selesai.