Konsep Dasar Temu-kembali Informasi (Information Retrieval) 12

BAB II TINJAUAN PUSTAKA

2.1 Landasan Teori

2.1.2 Konsep Dasar Sistem FAQ

2.1.2.1 Konsep Dasar Temu-kembali Informasi (Information Retrieval) 12

Menurut Goker (2009) secara sederhana temu-kembali

informasi adalah tentang menemukan informasi. Lebih spesifik, temu-kembali informasi adalah proses menyamakan query yang cocok dengan objek informasi yang telah terindex. Sebuah indes adalah struktur data yang telah dioptimasi yang dibuat diatas objek informasi, sehingga memungkinkan untuk akses cepat pada proses pencarian. Penguraian tersebut diantaranya menghapus kata dengan nilai semantic yang kecil (stopword) dan menjadikannya sebagai kata dasar (stemming).

Menurut Rijsbergen (1979) di dalam Nadirman (2006) “Sebuah

sistem temu-kembali informasi tidak memberitahu (yakni tidak

mengubah pengetahuan) pengguna mengenai masalah yang

ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumendokumen yang

2.1.2.2 Konsep Dasar Term Frequency-Inverse Document Frequency (TF-IDF)

TF-IDF atau Term Frequency-Inverse Document Frequency adalah angka statistic yang mendefinisikan betapa pentingnya sebuah kata dalam kumpulan dokumen atau corpus. (Rajaraman , 2011)

Menurut Robertson (2005) metode Tf-Idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut. Algoritma TF-IDF merupakan salah satu skema

pembobotan istilah/term dalam pencarian dokumen. Berikut tahapan

pada proses pembobotan TF-IDF, yaitu:

a) Pembobotan Lokal Term Frequency (TF).

Menurut Manning,dkk (2008) TF (Term Frequency) adalah

nilai frekuensi kemunculan sebuah term dalam sebuah dokumen. Keakuratan sebuah pencarian sangat tergantung dengan perhitungan TF. Dalam sebuah dokumen terdapat kata-kata yang sangat sering muncul pada sebuah dokumen dan banyak dokumen lainnya namun tidak penting untuk menjelaskan karakteristik atau isi dokumen. Dalam

dianggap tidak penting dalam sebuah dokumen, hal ini dimaksudkan

agar pada saat perhitungan term yang dinilai tidak penting tersebut

tidak mengganggu proses pembobotan pada dokumen. Dalam

implementasinya penghilangan term ini dapat berupa kata sambung

atau kata penghubung. Istilah untuk term yang dihilangkan ini adalah

stopword.

b) Document Frequency (DF)

Document Frequency atau Frekuensi dokumen adalah jumlah dokumen yang berisi term pada seluruh dokumen. Dengan kata lain

Document Frequency ini adalah nilai berapa banyak dokumen yang

mengandung term pada kumpulan dokumen. (Joho , 2007)

c) Pembobotan Global Invers Document Frequency (IDF)

Inverse Document Frequency (IDF) adalah bobot yang dugunakan untuk menyatakan seberapa penting sebuah term didalam kumpulan dokumen (Ounis,2009). Nilai ini diperoleh dengan formula berikut:

Inverse Document Frequency = log₁₀ ( N/df_t) Keterangan:

N : jumlah dokumen

dft : jumlah dokumen yang mengandung term t

idf : log dari umlah dokumen dibagi jumlah dokumen

d) Perhitungan TF-IDF

Berikut rumus perhitungan TF-IDF:

TF-IDF = Term Frequency x Inverse Document Frequency

Atau

Wt,d = tft,d x IDFt

W_t,d = TF x log₁₀ ( N/df_t) Keterangan:

Wt,d : bobot dokumen d terhadap term t

Contoh matriks:

Query : bagaimana prosedur lupa membayar uang spp. D1 : bagaimana cara membayar spp yang lupa. D2 : bagaimana prosedur membayar ukt. D3 : bagaimana prosedur mengajukan beasiswa.

vocab/doc

idf

tf*idf

Query doc1 doc2 doc3 Query doc1 doc2 doc3

bagaimana 1 1 1 1 0 0 0 0 0 prosedur 1 0 1 1 0.1249 0.124939 0 0.124939 0.124939 lupa 1 1 0 0 0.6021 0.60206 0.60206 0 0 membayar 1 1 1 0 0.1249 0.124939 0.124939 0.124939 0 uang 1 0 0 0 0.6021 0.60206 0 0 0 spp 1 1 0 0 0.301 0.30103 0.30103 0 0 cara 0 1 0 0 0.6021 0 0.60206 0 0 yang STOPWORD ukt 0 0 1 0 0.6021 0 0 0.60206 0 mengajukan 0 0 0 1 0.301 0 0 0 0.30103 beasiswa 0 0 0 1 0.6021 0 0 0 0.60206

Tabel 2.1 Penghitungan TF-IDF

Keterangan :

Term : Kata / istilah

TF : Term Frekuensi

Query : Dokumen Query

D1 : Dokumen ke-1

D2 : Dokumen ke-2

D3 : Dokumen ke-3

Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen

Dari tabel 2.1 dapat di lihat nilai tf-idf dari term “bagaimana”

yang muncul disemua dokumen memiliki nilai 0 atau dianggap tidak

berbobot, sedangkan nilai tf-idf dari term “uang” yang hanya muncul di

1 dokumen memiliki nilai 0.60206.

Dari tabel dan perbandingan nilai tf-idf diatas dapat disimpulkan semakin tinggi kemunculan sebuah term di semua dokumen akan mengurangi nilai bobot dari term tersebut, dan sebaliknya semakin sedikit atau rendah kemunculan sebuah term di semua dokumen nilai bobot dari term tersebut akan tinggi. Hal ini sesuai konsep dari pembobotan dengan tf-idf dari penelitian-penilitian sebelumnya.

2.1.2.3 Konsep Dasar Pencarian dengan pembobotan TF-IDF

Dalam kumpulan dokumen yang memiliki jumlah dokumen sangat besar, akan dibutuhkan sebuah metode yang digunakan untuk membantu untuk menemukan sebuah informasi dari dokumen-dokumen tersebut. Ada banyak metode yang digunakan dalam pencarian tersebut, diantaranya mengukur bobot dokumen terhadap

query dari informasi yang dicari dan atau mengukur kesamaan (similiarity) sebuah dokumen dengan query dari

informasi yang dicari.

Tahap awal yang dilakukan dalam pencarian dengan pembobotan TF-IDF adalah mencari bobot semua dokumen terhadap

query pencarian dalam kumpulan dokumen. Dari pembobotan terhadap

query pencarian tersebut akan dilakukan pengurutan terhadap nilai bobot. Hasil pencarian yang ditampilkan adalah urutan ranking bobot dari semua dokumen terhadap query pencarian.

Contoh matriks:

Query : bagaimana prosedur lupa membayar uang spp.

D1 : bagaimana cara membayar spp yang lupa.

D2 : bagaimana prosedur membayar ukt.

D3 : bagaimana prosedur mengajukan beasiswa.

Tabel 2.2 Penghitungan TF-IDF Dokumen (doc n) terhadap dokumen Query

Keterangan :

Term : Kata / istilah

TF : Term Frekuensi

Query : Dokumen Query

D1 : Dokumen ke-1

D2 : Dokumen ke-2

D3 : Dokumen ke-3

Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen

vocab tf df idf tf*idf Query doc 1 doc2 doc

3 Query doc1 doc2 doc3

bagaimana 1 1 1 1 4 0 0 0 0 0 prosedur 1 0 1 1 3 0.1249 0.1249 0 0.1249 0.1249 lupa 1 1 0 0 1 0.6021 0.6020 0.6020 0 0 membayar 1 1 1 0 3 0.1249 0.1249 0.1249 0.1249 0 uang 1 0 0 0 1 0.6021 0.6020 0 0 0 spp 1 1 0 0 2 0.301 0.3010 0.3010 0 0 cara 0 1 0 0 1 0.6021 0 0.6020 0 0 yang 0 1 0 0 1 0.6021 0 0.6020 0 0 ukt 0 0 1 0 1 0.6021 0 0 0.6020 0 mengajukan 0 0 0 1 2 0.301 0 0 0 0.3010 beasiswa 0 0 0 1 1 0.6021 0 0 0 0.6020

Dari tabel 2.2 , dapat dilihat perhitungan bobot total dokumen terhadap dokumen query. Bobot total sebuah dokumen adalah jumlah total bobot term yang ada di dokumen dan yang hanya ada dalam

Query. Bagian area abu-abu dari tabel adalah bagain dari term dokumen

yang tidak termasuk dalam query, bobot term yang tidak ada pada

Query tidak dihitung untuk bobot total. Bobot inilah yang nantinya akan diranking.

Tabel 2.3 Perankingan

Dari tabel 2.3 diatas didapatkan hasil perankingan dari bobot total dokumen terhadap Query. Dari perankingan tersebut dapat dapat diambil urutan untuk hasil dari pencarian. Dokumen dengan bobot tertinggi adalah dokumen yang paling relevan menurut perhitungan dengan TF-IDF.

Dokumen Nilai Bobot Ranking

Doc1 1.0280 1

Doc2 0.2498 2

Dalam dokumen OPTIMASI MODEL QUERY PADA SISTEM FAQ DI SUARA WARGA UNIVERSITAS NEGERI SEMARANG (Halaman 27-34)