Departemen Ilmu Komputer

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

DOKUMEN DOKUMEN Pembobotan sebaran kata Pembobotan sebaran kata KUERI KUERI Pengindeksan kueri Pengindeksan kueri Kesamaan dokumen dan kueri Kesamaan dokumen dan kueri Tokenization Tokenization Pembuangan Stop words Pembuangan Stop words Pengindeksan Dokumen Matriks term- dokumen Matriks term- dokumen Matriks term- kueri Matriks term- kueri Peringkat dokumen Peringkat dokumen Evaluasi Evaluasi

Gambar 1 Tahapan pembangunan sistem. Pengindeksan

Proses pengindeksan terdiri atas proses tokenisasi, pembuangan stopwords, dan pembobotan (Manning et al. 2008). Pada penelitian ini metode pembobotan yang dilakukan adalah metode sebaran kata. Tokenisasi

Tokenisasi menerima masukan berupa rangkaian karakter dan memilahnya menjadi

token dengan aturan sebagai berikut:

1 Suatu token dimulai oleh huruf atau angka 2 Token dipisahkan oleh karakter whitespace

3 Karakter-karakter khusus yang mengikuti huruf atau angka akan dihilangkan. Pembuangan Stop words

Stop words adalah kata-kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna (Manning

et al. 2008). Pada penelitian ini stopwords diperoleh dari Herdi (2010).

Pembobotan sebaran kata

Pembobotan yang digunakan pada penelitian ini adalah pembobotan sebaran

kata. Input dari proses pembobotan sebaran kata adalah kata terpilih yang akan digunakan untuk membangun inverted index dari koleksi dokumen. Menurut Xia dan Chai (2011) pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu sebaran kata lokal(dalam suatu dokumen individu) dan sebaran kata global(dalam koleksi dokumen). Nilai bobot dari suatu kata terpilih adalah perkalian antara kedua pembobotan tersebut. Pembobotan Lokal

Pembobotan lokal terdiri dari luas distribusi seragam kata ke-j pada dokumen (Uj) dan perluasan penyebaran kata ke-j pada dokumen (Sj). Pada pembobotan kata lokal terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu positif non linear. Artinya, kata yang luas distribusi seragam tinggi mempunyai bobot kata yang tinggi.

Pada perhitungan luas distribusi seragam kata digunakan teori K.Pearson Chi Square

dengan rumus: 2 ₌_∑ v n 2 n m i=1 dengan

: frekuensi kata ke-j pada paragraf ke-i

: frekuensi kata ke-j di dokumen : peluang kata ke-j ada di paragraf ke-i

: frekuensi kata ke-j di paragraf ke-i jika kata ke-j tersebar

Nilai yang rendah menyatakan kata ke

j mendekati distribusi seragam. Nilai rendah tersebut bertentangan dengan hubungan distribusi seragam pada dokumen dan bobot kata, sehingga rumus distribusi seragam(Uj) adalah Uj= 1 1 Uj = 1 1 ∑m_i=1(v -_nn )2

Pada perhitungan perluasan penyebaran kata (Sj) digunakan rumus:

Sj = l (1 ⁄ )

dengan :

: total paragraf yang mengandung term ke-j

Pembobotan lokal dari kata ke-j dalam dokumen d adalah d l =l 1 d l = l 1 l (1 ⁄ ) 1 ∑ vin 2 n m i=1 Pembobotan Global

Pembobotan global terdiri atas luas distribusi seragam kata ke-j pada koleksi (Uj’) dan perluasan penyebaran kata ke-j pada koleksi (Sj’). Pada pembobotan global, terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu negatif non linear. Artinya, kata yang luas distribusi seragamnya tinggi mempunyai bobot kata yang rendah.

Pada perhitungan luas distribusi seragam kata, digunakan teori K.Pearson Chi Square

dengan rumus: = ∑(v n ) 2 n m i=1 dengan:

: frekuensi kata ke-j pada dokumen ke-i

: frekuensi kata ke-j di koleksi

’ : peluang kata ke-j ada di dokumen ke-i

: frekuensi kata ke-j di dokumen ke-i jika kata ke-j tersebar

Nilai yang rendah menyatakan kata ke-j mendekati distribusi seragam. Nilai rendah tersebut sesuai dengan hubungan distribusi seragam pada koleksi dan bobot kata, sehingga rumus distribusi seragam(Uj’) adalah Uj =1 Uj =

1 ∑

(v-n )2 n m i=1

Pada perhitungan perluasan penyebaran kata di koleksi (Sj’), digunakan rumus:

Sj’ = l 1 ⁄ dengan :

: total dokumen yang mengandung term ke-j

: total dokumen pada koleksi

Pembobotan global dari kata ke-j dalam dokumen d adalah

d = l ₂(1 )

Nilai ’ menunjukkan penyebaran kata dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TFIDF, nilai ini dapat disetarakan dengan d _t=l _d

t , N merupakan

total dokumen di koleksi dan merupakan total adalah total dokumen yang mengandung kata ke-j. Oleh karena itu, nilai Sj’ dapat dirumuskan sebagai

Sj’= l 1 ⁄ …….(2) sehingga bobot global kata ke-j dalam dokumen d adalah

d =l (1 )

d =l 1 .l 1

Oleh karena itu, pembobotan sebaran kata ke-j

pada dokumen d adalah:

W

j,d

=

d l d ………….

(3)

Kesamaan dokumen dan kueri

Hasil matriks term-dokumen dokumen dan kueri akan diukur kesamaannya menggunakan ukuran kemiripan kosinus (Cosine Similarity). Ukuran kemiripan kosinus yang digunakan menggunakan persamaan(4). Nilai pengukuran kesamaan pada sistem akan mengembalikan dokumen relevan menurut sistem.

Ukuran kesamaan kosinus (cosine similarity) adalah sebuah model matematika yang digunakan untuk menghitung kesamaan antara kueri dan dokumen (Manning et al. 2008). Dokumen dan kueri dengan kata penciri digambarkan sebagai model vektor sehingga dapat dihitung kesamaannya (Salton 1989).

Kueri dan dokumen dinyatakan dalam vektor sebagai berikut:

)

,

(w

_q₁

w

_q₂

w

_qt

Q



dan

)

,

(

_i₁ _i₂ _it i

w

D





dengan wqj dan wij sebagai bobot istilah Tj dalam kueri Q dan dokumen Di. Dengan demikian koefisien kesamaan antara kueri dan dokumen dapat diperoleh dengan rumus inner product : sim , = ∑t_j=1w.w

Namun dengan formula tersebut, dokumen yang lebih panjang dengan lebih banyak kata penciri memiliki kemungkinan lebih besar

untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumen- dokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen Di menjadi persamaan: sim , = ∑ w .w t j=1 √∑tj=1w 2 ….…(4) Formula ini merepresentasikan kosinus sudut antara vektor kueri dan vektor dokumen sebagai vektor-vektor dalam ruang t dimensi, dengan t sebagai jumlah istilah unik dalam sistem (Salton 1989).

Evaluasi Sistem

. Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temu- kembali. Dua ukuran utama untuk keefektifan penemu kembalian yang telah digunakan sejak lama adalah recall dan precision (Salton 1989). Recall adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang relevan, sedangkan precision adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang ditemukembalikan.

Tabel 1 Relevant dan retrieveddocuments

Relevant non relevant

retrieved true positive(tp) false positive(fp)

Non retrieved

false negative

(fn)

true negative(tn)

Berdasarkan Tabel 1, recall (R) dan precision

(P) dapat dinyatakan sebagai persamaan sebagai berikut:

= t

t dan = t

t n

...(5)

Recall dan Precision dihitung berdasarkan persamaan(3). Average precision (AVP) dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza- Yates & Ribeiro-Neto 1999).

Lingkungan Implementasi

Lingkungan implementasi yang digunakan adalah sebagai berikut:

 Perangkat lunak:

1 Sistem operasi Windows 7 Professional sebagai sistem operasi, 2 PHP sebagai bahasa pemrograman, 3 XAMPP version 1.7.2 sebagai web

server, dan

4 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem.  Perangkat keras:

1 Processor Intel Dual-Core 2.10 GHz 2 RAM 2 GB

3 Harddisk dengankapasitas 160 GB

Dalam dokumen Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen Bahasa Indonesia (Halaman 34-37)