BAB II TINJAUAN PUSTAKA
2.1 Landasan Teori
2.1.2 Konsep Dasar Sistem FAQ
2.1.2.1 Konsep Dasar Temu-kembali Informasi (Information Retrieval) 12
Menurut Goker (2009) secara sederhana temu-kembali
informasi adalah tentang menemukan informasi. Lebih spesifik, temu-kembali informasi adalah proses menyamakan query yang cocok dengan objek informasi yang telah terindex. Sebuah indes adalah struktur data yang telah dioptimasi yang dibuat diatas objek informasi, sehingga memungkinkan untuk akses cepat pada proses pencarian. Penguraian tersebut diantaranya menghapus kata dengan nilai semantic yang kecil (stopword) dan menjadikannya sebagai kata dasar (stemming).
Menurut Rijsbergen (1979) di dalam Nadirman (2006) “Sebuah
sistem temu-kembali informasi tidak memberitahu (yakni tidak
mengubah pengetahuan) pengguna mengenai masalah yang
ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumendokumen yang
2.1.2.2 Konsep Dasar Term Frequency-Inverse Document Frequency (TF-IDF)
TF-IDF atau Term Frequency-Inverse Document Frequency adalah angka statistic yang mendefinisikan betapa pentingnya sebuah kata dalam kumpulan dokumen atau corpus. (Rajaraman , 2011)
Menurut Robertson (2005) metode Tf-Idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut. Algoritma TF-IDF merupakan salah satu skema
pembobotan istilah/term dalam pencarian dokumen. Berikut tahapan
pada proses pembobotan TF-IDF, yaitu:
a) Pembobotan Lokal Term Frequency (TF).
Menurut Manning,dkk (2008) TF (Term Frequency) adalah
nilai frekuensi kemunculan sebuah term dalam sebuah dokumen. Keakuratan sebuah pencarian sangat tergantung dengan perhitungan TF. Dalam sebuah dokumen terdapat kata-kata yang sangat sering muncul pada sebuah dokumen dan banyak dokumen lainnya namun tidak penting untuk menjelaskan karakteristik atau isi dokumen. Dalam
dianggap tidak penting dalam sebuah dokumen, hal ini dimaksudkan
agar pada saat perhitungan term yang dinilai tidak penting tersebut
tidak mengganggu proses pembobotan pada dokumen. Dalam
implementasinya penghilangan term ini dapat berupa kata sambung
atau kata penghubung. Istilah untuk term yang dihilangkan ini adalah
stopword.
b) Document Frequency (DF)
Document Frequency atau Frekuensi dokumen adalah jumlah dokumen yang berisi term pada seluruh dokumen. Dengan kata lain
Document Frequency ini adalah nilai berapa banyak dokumen yang
mengandung term pada kumpulan dokumen. (Joho , 2007)
c) Pembobotan Global Invers Document Frequency (IDF)
Inverse Document Frequency (IDF) adalah bobot yang dugunakan untuk menyatakan seberapa penting sebuah term didalam kumpulan dokumen (Ounis,2009). Nilai ini diperoleh dengan formula berikut:
Inverse Document Frequency = log10 ( N/dft ) Keterangan:
N : jumlah dokumen
dft : jumlah dokumen yang mengandung term t
idf : log dari umlah dokumen dibagi jumlah dokumen
d) Perhitungan TF-IDF
Berikut rumus perhitungan TF-IDF:
TF-IDF = Term Frequency x Inverse Document Frequency
Atau
Wt,d = tft,d x IDFt
Wt,d = TF x log10 ( N/dft ) Keterangan:
Wt,d : bobot dokumen d terhadap term t
Contoh matriks:
Query : bagaimana prosedur lupa membayar uang spp. D1 : bagaimana cara membayar spp yang lupa. D2 : bagaimana prosedur membayar ukt. D3 : bagaimana prosedur mengajukan beasiswa.
vocab/doc
tf
idf
tf*idf
Query doc1 doc2 doc3 Query doc1 doc2 doc3
bagaimana 1 1 1 1 0 0 0 0 0 prosedur 1 0 1 1 0.1249 0.124939 0 0.124939 0.124939 lupa 1 1 0 0 0.6021 0.60206 0.60206 0 0 membayar 1 1 1 0 0.1249 0.124939 0.124939 0.124939 0 uang 1 0 0 0 0.6021 0.60206 0 0 0 spp 1 1 0 0 0.301 0.30103 0.30103 0 0 cara 0 1 0 0 0.6021 0 0.60206 0 0 yang STOPWORD ukt 0 0 1 0 0.6021 0 0 0.60206 0 mengajukan 0 0 0 1 0.301 0 0 0 0.30103 beasiswa 0 0 0 1 0.6021 0 0 0 0.60206
Tabel 2.1 Penghitungan TF-IDF
Keterangan :
Term : Kata / istilah
TF : Term Frekuensi
Query : Dokumen Query
D1 : Dokumen ke-1
D2 : Dokumen ke-2
D3 : Dokumen ke-3
Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen
Dari tabel 2.1 dapat di lihat nilai tf-idf dari term “bagaimana”
yang muncul disemua dokumen memiliki nilai 0 atau dianggap tidak
berbobot, sedangkan nilai tf-idf dari term “uang” yang hanya muncul di
1 dokumen memiliki nilai 0.60206.
Dari tabel dan perbandingan nilai tf-idf diatas dapat disimpulkan semakin tinggi kemunculan sebuah term di semua dokumen akan mengurangi nilai bobot dari term tersebut, dan sebaliknya semakin sedikit atau rendah kemunculan sebuah term di semua dokumen nilai bobot dari term tersebut akan tinggi. Hal ini sesuai konsep dari pembobotan dengan tf-idf dari penelitian-penilitian sebelumnya.
2.1.2.3 Konsep Dasar Pencarian dengan pembobotan TF-IDF
Dalam kumpulan dokumen yang memiliki jumlah dokumen sangat besar, akan dibutuhkan sebuah metode yang digunakan untuk membantu untuk menemukan sebuah informasi dari dokumen-dokumen tersebut. Ada banyak metode yang digunakan dalam pencarian tersebut, diantaranya mengukur bobot dokumen terhadap
query dari informasi yang dicari dan atau mengukur kesamaan (similiarity) sebuah dokumen dengan query dari
informasi yang dicari.
Tahap awal yang dilakukan dalam pencarian dengan pembobotan TF-IDF adalah mencari bobot semua dokumen terhadap
query pencarian dalam kumpulan dokumen. Dari pembobotan terhadap
query pencarian tersebut akan dilakukan pengurutan terhadap nilai bobot. Hasil pencarian yang ditampilkan adalah urutan ranking bobot dari semua dokumen terhadap query pencarian.
Contoh matriks:
Query : bagaimana prosedur lupa membayar uang spp.
D1 : bagaimana cara membayar spp yang lupa.
D2 : bagaimana prosedur membayar ukt.
D3 : bagaimana prosedur mengajukan beasiswa.
Tabel 2.2 Penghitungan TF-IDF Dokumen (doc n) terhadap dokumen Query
Keterangan :
Term : Kata / istilah
TF : Term Frekuensi
Query : Dokumen Query
D1 : Dokumen ke-1
D2 : Dokumen ke-2
D3 : Dokumen ke-3
Angka 1 : Menandakan bahwa kata tersebut terdapat didalam dokumen Angka 0 : Menandakan bahwa kata tersebut tidak terdapat didalam dokumen
vocab tf df idf tf*idf Query doc 1 doc2 doc
3 Query doc1 doc2 doc3
bagaimana 1 1 1 1 4 0 0 0 0 0 prosedur 1 0 1 1 3 0.1249 0.1249 0 0.1249 0.1249 lupa 1 1 0 0 1 0.6021 0.6020 0.6020 0 0 membayar 1 1 1 0 3 0.1249 0.1249 0.1249 0.1249 0 uang 1 0 0 0 1 0.6021 0.6020 0 0 0 spp 1 1 0 0 2 0.301 0.3010 0.3010 0 0 cara 0 1 0 0 1 0.6021 0 0.6020 0 0 yang 0 1 0 0 1 0.6021 0 0.6020 0 0 ukt 0 0 1 0 1 0.6021 0 0 0.6020 0 mengajukan 0 0 0 1 2 0.301 0 0 0 0.3010 beasiswa 0 0 0 1 1 0.6021 0 0 0 0.6020
Dari tabel 2.2 , dapat dilihat perhitungan bobot total dokumen terhadap dokumen query. Bobot total sebuah dokumen adalah jumlah total bobot term yang ada di dokumen dan yang hanya ada dalam
Query. Bagian area abu-abu dari tabel adalah bagain dari term dokumen
yang tidak termasuk dalam query, bobot term yang tidak ada pada
Query tidak dihitung untuk bobot total. Bobot inilah yang nantinya akan diranking.
Tabel 2.3 Perankingan
Dari tabel 2.3 diatas didapatkan hasil perankingan dari bobot total dokumen terhadap Query. Dari perankingan tersebut dapat dapat diambil urutan untuk hasil dari pencarian. Dokumen dengan bobot tertinggi adalah dokumen yang paling relevan menurut perhitungan dengan TF-IDF.
Dokumen Nilai Bobot Ranking
Doc1 1.0280 1
Doc2 0.2498 2