• Tidak ada hasil yang ditemukan

Pemerolehan Informasi berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Beberapa pengertian Pemerolehan Informasi dari berbagai sumber, antara lain :

Pemerolehan Informasi adalah menemukan materi (biasanya berupa dokumen) yang bersifat tidak terstruktur (biasanya dalam bentuk teks) yang memenuhi kebutuhan informasi dari dalam koleksi atau kumpulan besar (biasanya disimpan di komputer) (Manning, 2008).

Pemerolehan informasi merupakan “bidang berkaitan dengan struktur, analisis, organisasi, penyimpanan, pencarian, dan pengambilan informasi (Salton, 1968). “ Croft, 2010.

Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen (memiliki pengaruh yang berbeda) dan sebagian besar-tekstual (Mooers, 1951). “ Hersh, 2003.

Data yang dapat dijadikan sumber pencarian dapat berupa pesan teks, seperti e-mail, dan dokumen berita, bahkan dokumen yang beredar di internet. Dengan jumlah dokumen koleksi yang besar sebagai sumber pencarian, maka dibutuhkan suatu sistem yang dapat membantu user menemukan dokumen yang relevan dalam waktu yang singkat dan tepat.

2.2.1.Proses Preprocessing Dokumen

Setelah mendapatkan dokumen langkah selanjutnya adalah untuk memutuskan apakah harus dilakukan sebuah langkah untuk menyederhanakan pencarian atau lebih sering disebut dengan proses preprocessing. Proses ini berfungsi untuk mendapatkan kata kunci yang nantinya dapat digunakan sebagai pembanding antar dokumen. Dalam proses ini ada beberapa tahap yaitu tokenisasi, stopword, stemming dan text frequency.

2.2.1.1. Tokenisasi

Tokenisasi adalah proses memotong kalimat menjadi potongan-potongan kata yang disebut token dan pada saat yang sama karakter-karakter tertentu seperti tanda baca dihapus (Manning, 2008). Dalam tokenisasi ini pula kata dalam dokumen akan diubah menjadi huruf kecil.

Contoh:

Aneh. Tadi ia tidak sabar menunggu telepon berbunyi, tapi kini malah ragu mengangkat. Perasaan cemas menyisip.

Maka akan menjadi seperti dibawah ini:

2.2.1.2. Stopword

Stopword adalah kata yang sangat umum yang akan muncul menjadi nilai yang kecil dalam membantu dokumen pilih yang cocok dengan kebutuhan pengguna dikecualikan dari kosa kata seluruhnya (Manning, 2008). Pada stopword ini akan dibuat sebuah dokumen yang berisi kumpulan kata yang sering muncul namun dianggap tidak memiliki makna dalam kaitannya dengan kemiripan antar dokumen. Kata itu seperti kata yang, dan, aku dan lain sebagainya.

Contoh:

Maka akan menjadi seperti dibawah ini:

2.2.1.3. Stemming

Stemming adalah proses untuk mengambalikan sebuah bentuk kata menjadi bentuk kata dasar dengan cara menghilangkan semua imbuhan baik dari awalan, sisipan, akhiran dan kombinasi dari awalan dan akhiran.

aneh tadi ia tidak sabar menunggu telepon tapi kini malah ragu mengangka

t perasaan cemas menyisip

aneh tadi ia tidak sabar menunggu telepon tapi kin

i

malah ragu mengangkat perasaan cemas menyisip

sabar menunggu telepon ragu mengangkat perasaan cemas menyisip

Contoh:

Maka akan menjadi seperti dibawah ini:

2.2.1.3.1. Stemming Sastrawi

Disebutkan dalam situs www.github.com/sastrawi Sastrawi stemmer merupakan sebuah library stemmer sederhana yang didesain untuk dapat digunakan secara mudah.

Sastrawi stemmer menerapkan algoritma yang berbasis Nazief dan Adriani, kemudian ditingkatkan dengan Algoritma CS (Confix Stripping), kemudian ditingkatkan lagi dengan algortima ECS (Enhanced Confix Stripping), lalu ditingkatkan lagi dengan Modified ECS.

Dengan menggunakan algoritma-algoritma tersebut, banyak persoalan stemming berhasil diatasi:

1. mencegah overstemming dengan kamus kata dasar.

2. mencegah understemming dengan aturan-aturan tambahan. 3. Beberapa contoh kata hasil stem: Buku-buku ~> buku

Menahan ~> tahan

Berbalas – balasan ~> balas

sabar menunggu telepon ragu mengangkat perasaan cemas menyisip

sabar tunggu telepo n ragu angka t rasa cemas sisi p

2.2.1.3.2. Stemming Nazief dan Adriani

Pada stemming dengan menggunakan algoritma Nazief & Adriani, terdapat beberapa tahapan diantaranya adalah:

1. Mencari kata yang akan di stem dengan menggunakan kamus kata dasar. Jika ditemukan maka algoritma akan berhenti dan kata tersebut diasumsikan sebagai root word.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns(“-ku”, “-mu”, atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a.

3a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut

adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut

ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

3b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan,

lanjut ke langkah 4.

4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. 4a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan.

Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

4b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

2.2.1.4. Text Frequency dan Pembobotan

Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot atau nilai yang lebih tinggi (Manning,2008). Pemberian bobot atau nilai akan menggunakan teknik TF/IDF(term frequency / inverse document frequency). TF adalah jumlah kemunculan suatu kata dalam sebuah dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen dimana suatu term tersebut muncul.

Rumus Pembobotan Saton(1983):

W(t,d) = tft,d * idft = tf(t,d) * log(N/nt) (2.1)

Keterangan:

a. W(t,d) = bobot dari term(kata) t dalam dokumen d.

b. Tf(t,d) = frekuensi kemunculan term(kata) t dalam dokumen d.

c. Idft = Inverse document frequency dari kata t.

d. N = jumlah seluruh dokumen.

e. Nt = jumlah dari dokumen training yang mengandung kata t.

Dokumen terkait