METODE PEMBOBOTAN KATA BERBASIS SEBARAN
UNTUK TEMU KEMBALI INFORMASI
DOKUMEN BAHASA INDONESIA
PUTRI DEWI PURNAMA SARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
METODE PEMBOBOTAN KATA BERBASIS SEBARAN
UNTUK TEMU KEMBALI INFORMASI
DOKUMEN BAHASA INDONESIA
PUTRI DEWI PURNAMA SARI
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ABSTRACT
PUTRI DEWI PURNAMA SARI. Term Weight Method based on Term Distribution for Information Retrieval on Indonesian Documents. Supervised by JULIO ADISANTOSO.
Term weight algorithm plays an important role in the process of document searching, which is greatly influenced by the precision and recall results of the Search Engine. Currently, TF-IDF term weight algorithm is widely applied in language models to build the search engine systems. Since term frequency is not the only discriminator which is necessary to be considered in term weighting and make each weight suitable to indicate the term’s importance, term weighting algorithm based on term distribution has been developed. In a single document, a term with higher frequency and closer to hypo-dispersion distribution usually contains more semantic information and should be given higher weight. One the other hand, in collection of documents, the term with higher frequency and hypo-dispersion distribution usually contains less information. This research implements term weight based on term distribution, with Local Term Weight Algorithm and Global Term Weight Algorithm for the documents in Indonesian Language. The result of this research is a Search Engine with an average precision of 84.8%.
Judul Skripsi : Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen Bahasa Indonesia
Nama : Putri Dewi Purnama Sari
NRP : G64080076
Menyetujui: Pembimbing
Ir. Julio Adisantoso, M.Kom NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom NIP. 19660702 199302 1 001
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wata’ala yang telah memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen Bahasa Indonesia. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam tugas akhir ini, yaitu:
Ayahanda Sudirman Limi, Ibunda Yetty Marianis, serta keluarga besar penulis (Maimunah, Okdista, Andi Saputra, Syarifah, Dadang K, Maulina, Saka, Syaqeela, dan Alee) yang selalu memberikan doa, nasihat, semangat, dan kasih sayang yang luar biasa kepada penulis.
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang memberikan bimbingan, ide, dukungan, semangat serta kesabaran dalam pengerjaan tugas akhir ini.
Bapak Toto H, S.Kom, M.Si selaku dosen pembimbing akademik penulis yang sabar.
Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom selaku dosen penguji yang telah memberi masukan dan saran pada tugas akhir penulis.
Rekan satu bimbingan Susi Handayani, Fania R K, Meri Marlina, Meriska Defriani, Anita, Hafidzhia Dzikrul A, Alfa Nugraha, Risky Utama P, dan Nofel Saputra. Terima kasih atas bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
Wido Aryo Andhika , Wangi Saraswati, Brenda K, Siska Susanti, Zola Mukhda, Aditya Nur J, Santia Risky K, Dyah Kenyar NH, Ihsan Mentaya, dan Abdul Rahman Halim. Terima kasih atas semangat dan dukungannya yang telah diberikan kepada penulis. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses.
Seluruh staf dan pimpinan BEM KM IPB Bersahabat yang terus menyebarkan energi positif, khususnya Kementrian Budaya Olahraga dan Seni 2010-2011 (ka Dean, Bunda Icha, ka Andre, ka Ari, ka Nina, ka Indah, ka Rommy, ka Mitha, Ruri, Deni, Suci, Rahma, Amel, Rocky, Dziki, Eris), OMI 2011, IAC 2011 dan divisi Publikasi Dokumentasi Gebyar Nusantara 2011.
Seluruh panitia OMI 2012 khususnya Cici, Tri, Alfi, Johan, BPH dan seluruh pimpinan OMI 2012 yang selalu memberikan kebersamaan dan dukungan mental kepada penulis selama melaksanakan tugas akhir ini.
Seluruh keluarga besar KOST ARINI (kak Sarah, kak Nova, kak Rani, Ima, Ardini, Tika, Prista, Ayu, Timeh, Jay, Dita, dan Vio) yang selalu bersedia mendengarkan keluh kesah, dan memberikan semangat kepada penulis selama melaksanakan tugas akhir ini.
Keluarga kecil penulis yaitu UROSITA (Ella Rahmadani, Fauziah Azzahro, Winahyu Hapsari, Fatima Rosniar, Ratna Anggun Kartika, dan Arini Khairiyah) yang sabar memberikan energi positif, dukungan dan semangat bagi penulis.
Seluruh rekan-rekan Ilmu Komputer angkatan 45 atas segala kebersamaan, bantuan, canda tawa, dan kenangan indah serta semangat bagi penulis slama masa studi. Semoga kita semua bisa berjumpa kembali kelak sebagai orang-orang sukses.
Penulis berharap tugas akhir ini dapat memberikan manfaat, khususnya bagi bidang temu kembali informasi. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan dalam berbagai hal. Penulis berharap adanya masukan yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini.
Bogor, Agustus 2012
RIWAYAT HIDUP
Putri Dewi Purnama Sari dilahirkan di Jakarta pada tanggal 20 April 1991 dari pasangan Bapak Sudirman Limi dan Ibu Yetty Marianis. Pada tahun 2008, penulis lulus dari SMA Negeri 31 Jakarta dan menjadi mahasiswa di Departemen Ilmu Komputer Institut Pertanian Bogor (IPB) melalui Undangan Seleksi Masuk IPB (USMI).
Selama menjadi mahasiswa, penulis menjadi asisten praktikum di beberapa matakuliah, yaitu Penerapan Komputer (2009,2010,2012), Algoritma dan Pemrograman (2011) dan Bahasa Pemrograman (2011). Pada bulan Juli hingga Agustus 2011, penulis melaksanakan Praktik Kerja Lapangan di Badan Kepegawaian Pendidikan dan Pelatihan (BKPP) Kota Bogor.
Selain itu, penulis aktif menjadi anggota BEM KM IPB (Badan Eksekutif Mahasiswa Keluarga Mahasiswa Institut Pertanian Bogor). Pada tahun 2009-2010 penulis sebagai staf Kementerian Pengembangan Sumberdaya Mahasiswa (PSDM). Penulis melaksanakan berbagai kegiatan mahasiswa salah satunya mengadakan sekolah kepemimpinan dan wirausaha bagi mahasiswa tingkat pertama IPB dengan nama Leadership and Enterpreneurship School (LES).
DAFTAR ISI
Halaman
DAFTAR TABEL ... vi
DAFTAR GAMBAR ... vi
DAFTAR LAMPIRAN ... vi
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup ... 1
METODE Koleksi Dokumen ... 1
Pengindeksan ... 2
Tokenisasi ... 2
Pembuangan Stop words ... 2
Pembobotan sebaran kata ... 2
Kesamaan dokumen dan kueri ... 3
Evaluasi Sistem ... 4
Lingkungan Implementasi ... 4
HASIL DAN PEMBAHASAN Koleksi Dokumen ... 4
Pengindeksan Dokumen ... 5
Tokenisasi ... 5
Pembuangan Stopword ... 5
Pembobotan Sebaran Kata ... 5
Kesamaan Dokumen dan Kueri ... 8
Pengujian Kinerja Sistem ... 8
Perbandingan Hasil Uji Kueri ... 9
SIMPULAN DAN SARAN Simpulan ... 10
Saran ... 10
DAFTAR PUSTAKA ... 10
DAFTAR TABEL
Halaman
1 Relevant dan retrieved dokumen ... 4
2 Deskripsi dokumen uji ... 4
3 Contoh hasil parsing kalimat ... 5
4 Hasil perhitungan peluang(r) ... 6
5 Hasil perhitungan v dan n pada dokumen dok001 ... 6
6 Hasil perhitungan Uj, Sj, dan bobot lokal pada dokumen dok001 ... 6
7 Perbandingan hubungan distribusi dan bobot lokal ... 6
8 Hasil perhitungan peluang(r’) ... 7
9 Hasil perhitungan n’, chi’, dan Uj’ ... 7
10 Hasil perhitungan p’, dan Sj’ dengan N’=324 ... 7
11 Hasil perhitungan Uj’, Sj’ dengan persamaan(2) dan bobot global ... 7
12 Hasil perhitungan Uj’, Sj’ dengan persamaan(1) dan bobot Global ... 8
13 Perbandingan hubungan distribusi dan bobot global ... 8
14 Hasil perhitungan bobot lokal, global, dan sebaran kata pada dok001 ... 8
15 Perbedaan hasil AVP untuk proses parsing 3, 4, dan 5 kalimat ... 9
16 Perbandingan 15 kueri pada sistem ... 10
DAFTAR GAMBAR
Halaman 1 Tahapan pembangunan sistem. ... 22 Contoh dokumen. ... 4
3 Grafik recall precision. ... 9
4 Perbandingan pembobotan sebaran kata dan TFIDF. ... 10
DAFTAR LAMPIRAN
Halaman 1 Daftar kueri uji dan dokumen yang relevan ... 132 Contoh dokumen koleksi pengujian ... 14
3 Daftar stopword ... 15
4 Daftar AVP masing-masing kueri pada pengujian parsing 3 kalimat ... 19
5 Daftar AVP masing-masing kueri pada pengujian parsing 4 kalimat ... 20
6 Daftar AVP masing-masing kueri pada pengujian parsing 5 kalimat ... 21
7 Daftar AVP masing-masing kueri pada pengujian pembobotan TFIDF ... 22
8 Antarmuka halaman utama sistem pencarian jurnal hortikultura ... 23
9 Antarmuka hasil pencarian ... 23
PENDAHULUAN
Latar Belakang
Mesin pencari digunakan oleh pengguna untuk memberikan kemudahan dalam temu kembali informasi berdasarkan kueri tertentu. Informasi yang dikembalikan oleh mesin pencari berupa dokumen terurut sesuai kedekatan kueri dengan dokumen dalam koleksi. Mesin pencari telah banyak dikembangkan dengan berbagai metode dan sistem pengindeksan.
Pengindeksan adalah proses pembentukan
inverted index (Manning et al. 2008). Salah satu tahap dari pengindeksan adalah pembobotan, yaitu pemberian bobot pada kata dalam koleksi. Bobot tersebut menentukan kata apa saja yang menjadi penciri bagi masing-masing dokumen dalam koleksi. Pembobotan memegang peranan penting bagi sistem temu kembali informasi. Pembobotan kata yang kurang tepat dalam proses pengindeksan dapat menurunkan kinerja sistem secara keseluruhan.
Terdapat beberapa metode pembobotan kata yang digunakan dalam pengindeksan dokumen. Salah satu metode yang digunakan ialah TFIDF. Metode TFIDF menggunakan frekuensi kata pada dokumen sebagai penentu nilai bobot kata. Notasi SMART merupakan variasi dari pembobotan TFIDF. Notasi
SMART digunakan untuk membantu merepresentasikan kombinasi pembobotan kata. Contoh representasi kombinasi vektor dokumen dan kueri adalah ddd.qqq, ddd menggambarakan pembobotan kata dari vektor dokumen dan qqq menggambarkan pembobotan vektor kueri. Huruf tersebut merepresentasikan penggunaan rumus pada notasi SMART untuk menghitung frekuensi kata (hurufpertama), frekuensi dokumen (hurufkedua), dan proses normalisasi (hurufketiga) (Manning et al. 2008).
Beberapa penelitian pembobotan dokumen antara lain Ridha (2002) yang menggunakan istilah tunggal dengan pembobotan TFIDF dan BM25, Herdi (2010) menggunakan pembobotan TFIDF dan BM25 pada mesin pencari dengan framework Indri. Pada penelitian tersebut, hasil kinerja TFIDF dan BM25 memberi bobot sama pada sebuah kata, tanpa memperhatikan sebarannya.
Xia dan Chai (2011) mengungkapkan bahwa pada perhitungan bobot kata lokal yang diukur dalam suatu dokumen, kata yang mempunyai frekuensi tinggi dan distribusi
penyebaran luas seharusnya diberi bobot yang lebih tinggi dari kata yang frekuensinya rendah dan distribusi penyebaran intensif. Selain itu, pada perhitungan bobot kata global yang diukur pada seluruh koleksi dokumen, kata yang mempunyai frekuensi tinggi dan distribusi penyebarannya luas biasanya berisi sedikit informasi sehingga bobot yang diberikan pada kata tersebut rendah.
Berdasarkan Xia dan Chai (2011), penelitian ini akan mengimplementasikan pembobotan yang terfokus pada sebaran kata pada dokumen bahasa Indonesia. Pembobotan sebaran kata yang digunakan adalah sebaran kata lokal (dokumen) dan global (koleksi). Tujuan
Tujuan penelitian ini adalah mengimplementasikan metode pembobotan kata menggunakan sebaran kata sebagai alternatif pembobotan dalam sistem IR dokumen Bahasa Indonesia.
Ruang Lingkup
Ruang lingkup dalam penelitian ini adalah: 1 Dokumen yang digunakan dalam penelitian adalah dokumen XML berbahasa Indonesia.
2 Dokumen yang relevan dengan kueri uji, ditentukan berdasarkan pustaka yang ada di lab Information Retrieval Ilmu Komputer IPB.
3 Kesalahan dalam pengetikan dalam korpus tidak diperhatikan.
METODE
Penelitian ini dilaksanakan dalam beberapa tahapan, yaitu: pengumpulan koleksi dokumen (korpus), pengindeksan dokumen, pengindeksan kueri, perhitungan ukuran kesamaan antara dokumen dan kueri, pemeringkatan dokumen, dan perhitungan evaluasi hasil temu-kembali sistem. Tahapan-tahapan tersebut dapat dilihat pada Gambar1. Koleksi Dokumen
DOKUMEN DOKUMEN Pembobotan sebaran kata Pembobotan sebaran kata KUERI KUERI Pengindeksan kueri Pengindeksan kueri Kesamaan dokumen dan kueri Kesamaan dokumen dan kueri Tokenization Tokenization Pembuangan Stop words Pembuangan Stop words Pengindeksan Dokumen Matriks term-dokumen Matriks term-dokumen Matriks term-kueri Matriks term-kueri Peringkat dokumen Peringkat dokumen Evaluasi Evaluasi
Gambar 1 Tahapan pembangunan sistem. Pengindeksan
Proses pengindeksan terdiri atas proses tokenisasi, pembuangan stopwords, dan pembobotan (Manning et al. 2008). Pada penelitian ini metode pembobotan yang dilakukan adalah metode sebaran kata. Tokenisasi
Tokenisasi menerima masukan berupa rangkaian karakter dan memilahnya menjadi
token dengan aturan sebagai berikut:
1 Suatu token dimulai oleh huruf atau angka 2 Token dipisahkan oleh karakter whitespace
3 Karakter-karakter khusus yang mengikuti huruf atau angka akan dihilangkan. Pembuangan Stop words
Stop words adalah kata-kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna (Manning
et al. 2008). Pada penelitian ini stopwords diperoleh dari Herdi (2010).
Pembobotan sebaran kata
Pembobotan yang digunakan pada penelitian ini adalah pembobotan sebaran
kata. Input dari proses pembobotan sebaran kata adalah kata terpilih yang akan digunakan untuk membangun inverted index dari koleksi dokumen. Menurut Xia dan Chai (2011) pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu sebaran kata lokal(dalam suatu dokumen individu) dan sebaran kata global(dalam koleksi dokumen). Nilai bobot dari suatu kata terpilih adalah perkalian antara kedua pembobotan tersebut. Pembobotan Lokal
Pembobotan lokal terdiri dari luas distribusi seragam kata ke-j pada dokumen (Uj) dan perluasan penyebaran kata ke-j pada dokumen (Sj). Pada pembobotan kata lokal terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu positif non linear. Artinya, kata yang luas distribusi seragam tinggi mempunyai bobot kata yang tinggi.
Pada perhitungan luas distribusi seragam kata digunakan teori K.Pearson Chi Square
dengan rumus:
2 = ∑ v n 2
n
m
i=1
dengan
: frekuensi kata ke-j pada paragraf ke-i
: frekuensi kata ke-j di dokumen : peluang kata ke-j ada di paragraf ke-i
: frekuensi kata ke-j di paragraf ke-i jika kata ke-j tersebar
Nilai yang rendah menyatakan kata ke
j mendekati distribusi seragam. Nilai rendah tersebut bertentangan dengan hubungan distribusi seragam pada dokumen dan bobot kata, sehingga rumus distribusi seragam(Uj) adalah
Uj= 1 1
Uj = 1
1 ∑mi=1(v -n n )2
Pada perhitungan perluasan penyebaran kata (Sj) digunakan rumus:
Sj = l (1 ⁄ )
dengan :
: total paragraf yang mengandung term ke-j
Pembobotan lokal dari kata ke-j dalam dokumen d adalah
d l =l 1
d l = l 1 l (1 ⁄ )
1 ∑ vin 2
n
m i=1
Pembobotan Global
Pembobotan global terdiri atas luas distribusi seragam kata ke-j pada koleksi (Uj’) dan perluasan penyebaran kata ke-j pada koleksi (Sj’). Pada pembobotan global, terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu negatif non linear. Artinya, kata yang luas distribusi seragamnya tinggi mempunyai bobot kata yang rendah.
Pada perhitungan luas distribusi seragam kata, digunakan teori K.Pearson Chi Square
dengan rumus:
= ∑(v n )
2
n
m
i=1 dengan:
: frekuensi kata ke-j pada dokumen ke-i
: frekuensi kata ke-j di koleksi
’ : peluang kata ke-j ada di dokumen ke-i
: frekuensi kata ke-j di dokumen ke-i jika kata ke-j tersebar
Nilai yang rendah menyatakan kata ke-j mendekati distribusi seragam. Nilai rendah tersebut sesuai dengan hubungan distribusi seragam pada koleksi dan bobot kata, sehingga rumus distribusi seragam(Uj’) adalah
Uj =1
Uj =
1
∑
(v-n )2
n m
i=1
Pada perhitungan perluasan penyebaran kata di koleksi (Sj’), digunakan rumus:
Sj’ = l 1 ⁄
dengan :
: total dokumen yang mengandung term ke-j
: total dokumen pada koleksi
Pembobotan global dari kata ke-j dalam dokumen d adalah
d = l 2(1 )
Nilai ’ menunjukkan penyebaran kata dalam koleksi, yang dapat juga menunjukkan kepentingan suatu kata dalam dokumen. Pada pembobotan TFIDF, nilai ini dapat disetarakan dengan d t=l d
t , N merupakan
total dokumen di koleksi dan merupakan total adalah total dokumen yang mengandung kata ke-j. Oleh karena itu, nilai Sj’ dapat dirumuskan sebagai
Sj’= l 1 ⁄ …….(2) sehingga bobot global kata ke-j dalam dokumen d adalah
d =l (1 )
d =l 1 .l 1
Oleh karena itu, pembobotan sebaran kata ke-j
pada dokumen d adalah:
W
j,d=
d l d ………….(3)
Kesamaan dokumen dan kueri
Hasil matriks term-dokumen dokumen dan kueri akan diukur kesamaannya menggunakan ukuran kemiripan kosinus (Cosine Similarity). Ukuran kemiripan kosinus yang digunakan menggunakan persamaan(4). Nilai pengukuran kesamaan pada sistem akan mengembalikan dokumen relevan menurut sistem.
Ukuran kesamaan kosinus (cosine similarity) adalah sebuah model matematika yang digunakan untuk menghitung kesamaan antara kueri dan dokumen (Manning et al. 2008). Dokumen dan kueri dengan kata penciri digambarkan sebagai model vektor sehingga dapat dihitung kesamaannya (Salton 1989).
Kueri dan dokumen dinyatakan dalam vektor sebagai berikut:
)
,
,
,
(
w
q1w
q2w
qtQ
dan)
,
,
,
(
i1 i2 iti
w
w
w
D
dengan wqj dan wij sebagai bobot istilah Tj dalam kueri Q dan dokumen Di. Dengan demikian koefisien kesamaan antara kueri dan dokumen dapat diperoleh dengan rumus inner product : sim , = ∑tj=1w .w
untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumen-dokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen Di menjadi persamaan:
sim , = ∑ w .w t
j=1
√∑tj=1w 2
….…(4)
Formula ini merepresentasikan kosinus sudut antara vektor kueri dan vektor dokumen sebagai vektor-vektor dalam ruang t dimensi, dengan t sebagai jumlah istilah unik dalam sistem (Salton 1989).
Evaluasi Sistem
. Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temu-kembali. Dua ukuran utama untuk keefektifan penemu kembalian yang telah digunakan sejak lama adalah recall dan precision (Salton 1989). Recall adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang relevan, sedangkan precision adalah perbandingan jumlah materi relevan yang ditemukembalikan terhadap jumlah materi yang ditemukembalikan.
Tabel 1 Relevant dan retrieveddocuments
Relevant non relevant
retrieved true positive(tp) false positive(fp)
Non retrieved
false negative
(fn)
true negative(tn)
Berdasarkan Tabel 1, recall (R) dan precision
(P) dapat dinyatakan sebagai persamaan sebagai berikut:
= t
t dan = t
t n
...(5)
Recall dan Precision dihitung berdasarkan persamaan(3). Average precision (AVP) dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza-Yates & Ribeiro-Neto 1999).
Lingkungan Implementasi
Lingkungan implementasi yang digunakan adalah sebagai berikut:
Perangkat lunak:
1 Sistem operasi Windows 7 Professional sebagai sistem operasi, 2 PHP sebagai bahasa pemrograman, 3 XAMPP version 1.7.2 sebagai web
server, dan
4 Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras:
1 Processor Intel Dual-Core 2.10 GHz 2 RAM 2 GB
3 Harddisk dengankapasitas 160 GB
HASIL DAN PEMBAHASAN
Koleksi Dokumen
Penelitian ini menggunakan 324 jurnal hortikultura yang berasal dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer IPB. Deksripsi dokumen uji yang digunakan dapat dilihat pada Tabel 2. Gambar 2 dan Lampiran 2 menunjukkan contoh salah satu dokumen yang digunakan dalam penelitian.
Tabel 2 Deskripsi dokumen uji
Dokumen bytes
Ukuran rata-rata dokumen 1329 Ukuran seluruh dokumen 430834 Ukuran dokumen terbesar 2866
Ukuran dokumen terkecil 445
Gambar 2 Contoh dokumen.
Koleksi dokumen memiliki format teks (*.txt) dengan struktur tag XML pada masing-masing dokumen. Tag XML yang digunakan dalam koleksi dokumen, yaitu:
<DOC></DOC>, mewakili keseluruhan
dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih jelas.
<DOC>
<docId>dok001.txt</docId>
<content>Akhir-akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai. ... </content>
<docId></docId>, menunjukkan ID dari dokumen tanaman obat.
<content></content>,
menunjukkan isi atau informasi dari dokumen.
Jumlah kueri uji yang akan digunakan dalam penelitian ini adalah 15 kueri uji yang berasal dari Laboratorium Temu Kembali Informasi. Daftar kueri uji yang digunakan dapat dilihat pada Lampiran 1.
Pengindeksan Dokumen
Pemrosesan dokumen dilakukan melalui tiga tahapan, yaitu: tokenisasi, pembuangan
stopword, dan pembobotan. Pembobotan yang dilakukan adalah pembobotan sebaran kata. Tokenisasi
Tahap tokenisasi dilakukan pada fungsi get_token. Fungsi tersebut melakukan pemecahan kata pada dokumen koleksi, penghilangan karakter yang bersifat separator seperti titik, koma, tanda seru, tanda tanya, dan karakter lainnya yang dianggap kurang representatif dalam mencirikan suatu dokumen.
Dokemen koleksi diproses secara sekuensial per karakter dari awal sehingga menghasilkan sebuah token. Tahapan untuk memperoleh token adalah sebagai berikut: 1 Sistem menggolongkan karakter menjadi 4
jenis, yaitu :
a whitespace, berarti karakter ini merupakan karakter pemisah token
b alpha, berarti karakter ini merupakan huruf
c numeric, berarti karakter ini merupakan angka
d other, berarti karakter ini tidak termasuk jenis-jenis a,b,dan c.
2 Sistem mengubah jenis karakter numeric
dan other menjadi whitespace.
3 Sistem melakukan pemisahan kata berdasarkan whitespace.
4 Kata yang dianggap token adalah yang mempunyai panjang lebih dari dua. Pembuangan Stopword
Pembuangan stopword dilakukan setelah proses tokenisasi pada dokumen koleksi. Prosesnya dengan melakukan perbandingan antara kata hasil tokenisasi dengan stopword. Jika terdapat stopword dalam daftar token, maka dilakukan penghapusan kata. Daftar
stopword yang digunakan dalam penelitian ini diperoleh dari Herdi (2010) dan dilampirkan
pada Lampiran 3. Hasil dari tahap ini akan digunakan sebagai input pada tahap selanjutnya yaitu pembobotan.
Pembobotan Sebaran Kata
Pembobotan yang dilakukan dalam skripsi ini adalah pembobotan sebaran kata. Pembobotan sebaran kata terdiri atas tiga tahap, yaitu pembobotan kata lokal, pembobotan kata global, dan perkalian antara lokal dan global. Pada tulisan ini, akan diberikan contoh 5 dokumen (dok001, dok002, dok003, dok006, dan dok248) dan 5 kata (organik, pupuk, kentang, tanaman, dan pertanian). Contoh tersebut digunakan untuk menggambarkan tahap pengerjaan dan hasil perhitungan pada penelitian ini.
Pembobotan Kata Lokal
Pembobotan kata lokal merupakan pencarian bobot kata berbasis sebaran pada suatu dokumen. Secara umum, bobot kata lokal terdiri atas 2 bagian, yaitu luas distribusi seragam kata (Uj) dan perluasan penyebaran kata (Sj) pada suatu dokumen. Untuk mengukur luas keseragaman sebaran kata digunakan teori K.Pearson Chi Square.
Tahap awal yang dilakukan pada penelitian ini untuk mendapatkan hasil Chi Square adalah membuat paragraf dari isi dokumen yang ada. Proses pembuatan paragraf pada penelitian ini adalah parsing
dokumen. Setiap paragraf berisi lima kalimat. Hasil dari proses parsing dokumen disimpan dalam parsing.txt. Parsing.txt digunakan sebagai input untuk mendapatkan frekuensi kata per paragraf pada setiap dokumen. Tabel 3 Contoh hasil parsing kalimat
Dokumen Jumlah
Kalimat
Jumlah Paragraf
dok001 11 3
dok002 11 3
dok003 4 1
dok006 9 2
dok248 17 4
Pada Tabel 3 dapat dilihat hasil parsing
kalimat pada 5 dokumen contoh. Tabel 3 juga menggambarkan bahwa jumlah paragraf yang dihasilkan oleh dokumen beragam, mulai dari satu paragraf hingga empat paragraf tergantung jumlah kalimat yang dimiliki oleh dokumen.
dokumen. Peluang ditentukan dengan jumlah kata pada paragraf(Ci) dibagi jumlah token pada dokumen(Cm). Hasil perhitungan dari 5 contoh dokumen dapat dilihat pada Tabel 4. Pada dok002, paragraf 2 memiliki jumlah kata lebih banyak sehingga peluang(r) paragraf 2 lebih besar dari paragraf lain. Dokumen yang hanya memiliki 1 paragraf(dok003), maka peluang(r) paragraf tersebut adalah 1. Pada dok248, paragraf 1 dan 3 memiliki jumlah kata yang sama, sehingga dihasilkan peluang(r) yang sama.
Tabel 4 Hasil perhitungan peluang(r) Dokumen Paragraf Jumlah
Kata r
dok001 1 42 0.442
2 44 0.463
3 9 0.095
dok002 1 45 0.346
2 71 0.546
3 14 0.108
dok003 1 40 1.000
dok006 1 62 0.564
2 48 0.436
dok248 1 50 0.338
2 40 0.270
3 50 0.338
4 8 0.054
Perhitungan selanjutnya adalah frekuensi kata pada setiap paragraf(v), dan dokumen(n). Hasil perhitungan dok001 pada kata organik, pupuk, kentang, tanaman, dan pertanian dapat dilihat pada Tabel 5. Nilai v, n, dan r
digunakan untuk menghitung nilai chi-square. Tabel 5 Hasil perhitungan v dan n pada
dokumen dok001
Kata v1 v2 v3 n chij
organik 2 5 1 8 1.197
pupuk 1 6 0 7 4.427
kentang 4 1 1 6 2.150
tanaman 2 0 0 2 2.523
pertanian 0 0 1 1 9.555 Kata organik mempunyai nilai chi-square(chij) yang terendah. Nilai terendah tersebut menyatakan kata organik mendekati distribusi seragam, dan memiliki nilai distribusi seragam(Uj) yang tinggi. Terbukti
pada Tabel 6 organik memiliki nilai U yang terbesar.
Pada perhitungan perluasan penyebaran kata(Sj) sebuah kata, harus dilihat kata tersebut tersebar di dokumen atau tidak. Nilai yang diperlukan adalah total paragraf yang mengandung kata tersebut(p) dan total paragraf pada dokumen(N). Berdasarkan Tabel 5 kata organik dan kentang merupakan kata yang tersebar di ke-3 paragraf sehingga nilai S adalah 1.
Proses terakhir tahap ini adalah perhitungan bobot kata lokal pada setip kata j ( ). Hasil tahap ini berupa lokal.txt yang digunakan pada tahap selanjutnya. Hasil perhitungan bobot kata lokal dapat dilihat pada Tabel 6. Kata organik mendapat nilai tertinggi, artinya organik merupakan kata penting dalam dokumen dok001. Sebaliknya pada kata pertanian mendapat nilai terendah, artinya pertanian bukan merupakan kata penting dalam dokumen dok001.
Tabel 6 Hasil perhitungan Uj, Sj, dan bobot lokal pada dokumen dok001
Kata Uj Sj Lokal
organik 0.455 1.000 0.54
pupuk 0.184 0.736 0.18
kentang 0.317 1.000 0.39
tanaman 0.283 0.415 0.16
pertanian 0.094 0.415 0.05 Tabel 7 Perbandingan hubungan distribusi
dan bobot lokal
Kata p n Uj Lokal
organik 3 8 0.455 0.54
pupuk 2 7 0.184 0.18
kentang 3 6 0.317 0.39
tanaman 1 2 0.283 0.16
Pembobotan Global
Proses pembobotan global adalah perhitungan bobot suatu kata berdasarkan sebaran kata dalam koleksi dokumen. Secara umum, bobot kata global terdiri atas 2 bagian, yaitu luas keseragaman sebaran kata(Uj’)
dan perluasan penyebaran kata(Sj’) pada koleksi dokumen. Untuk mengukur luas keseragaman sebaran kata digunakan teori
K.Pearson Chi Square.
Tahap awal perhitungan chi-square pada pembobotan kata global adalah proses perhitungan peluang dari setiap dokumen di koleksi apabila kata menyebar(r’). Hasil
peluang didapat dari pembagian jumlah kata di dokumen(Ci’) dibagi jumlah kata di koleksi(Cm’). Tabel 8 merupakan hasil perhitungan peluang(r’) pada 5 dokumen
contoh. Jumlah kata yang dimiliki oleh seluruh koleksi adalah 33452 kata. Nilai ’ pada suatu dokumen tergantung pada jumlah kata yang dimiliki oleh dokumen tersebut. Dokumen dok248 memiliki jumlah kata terbanyak, sehingga peluang(r’) dok248
memiliki nilai tertinggi. Sebaliknya untuk dokumen dok003 memiliki jumlah kata terkecil sehingga peluang(r’) dok248
memiliki nilai terkecil.
Tabel 8 Hasil perhitungan peluang(r’)
Dokumen Jumlah kata ’
dok001 95 0.00283
dok002 130 0.00388
dok003 40 0.00119
dok006 110 0.00328
dok248 148 0.00442
Proses selanjutnya adalah perhitungan frekuensi kata pada setiap dokumen(v’), dan frekuensi kata pada suatu koleksi(n’). Nilai r’, v’ dan n’ digunakan untuk menghitung nilai
chi-square dari koleksi dokumen. Hasil perhitungan v’, n’, dan chi-square dari 5 contoh kata dapat dilihat pada Tabel 9. Tabel 9 Hasil perhitungan n’, ch ’, dan Uj’
Kata n' ch ’ U'
organik 53 1358.72 1359.76 pupuk 272 2033.21 2034.28 kentang 82 1509.87 1510.92 tanaman 927 711.37 712.34 pertanian 29 413.71 414.71
Kata pertanian mempunyai nilai chi-square(chi) yang terendah. Nilai terendah menyatakan token pertanian mendekati distribusi seragam. Artinya untuk nilai chi-square(chi) yang rendah akan mendapat nilai distribusi seragam(Uj’) yang rendah. Terbukti pada Tabel 9 organik memiliki nilai U yang terkecil.
Pada perhitungan perluasan penyebaran kata pada koleksi dokumen(Sj’), sebuah kata harus dilihat kata tersebut tersebar di koleksi dokumen atau tidak. Nilai yang diperlukan adalah total dokumen yang mengandung kata tersebut(p’) dan total seluruh dokumen pada
koleksi( ’). Pada Tabel 10, kata tanaman berada pada 274 dokumen dengan total koleksi 324 dokumen. Oleh karena itu, tanaman memperoleh nilai ’ yang kecil artinya koleksi tersebut tersebar di koleksi dokumen.
Tabel 10 Hasil perhitungan p’, dan Sj’ dengan
’=324
Kata p' Sj'
organik 14 4.590
pupuk 58 2.719
kentang 22 3.975
tanaman 274 1.125
pertanian 25 3.803
Tabel 11 Hasil perhitungan Uj’, Sj’ dengan persamaan(2) dan bobot global
Kata Uj' Sj' Global
organik 1359.76 4.590 12.66
pupuk 2034.28 2.719 12.43
kentang 1510.92 3.975 12.55
tanaman 712.34 1.125 9.64
Berbeda dengan hasil pembobotan global dengan perhitungan pada Tabel 12, kata tanaman organik tidak mendapat bobot tinggi. Tabel 12 merupakan hasil perhitungan pembobotan global dengan perhitungan Sj’ menggunakan persamaan(1). Nilai terbesar diperoleh kata tanaman. Hal tersebut terjadi karena dengan persamaan(1), kata yang menyebar pada banyak dokumen dikoleksi menghasilkan ’ yang tinggi sehingga tanaman mendapatkan bobot yang lebih besar. Hasil dari perhitungan ini tidak sesuai dengan teori pembobotan sebaran kata menurut Xia dan Chai (2011) sehingga, pada tahap selanjutnya digunakan hasil pada Tabel 11, yaitu dengan perhitungan Sj’ menggunakan persamaan (2).
Tabel 12 Hasil perhitungan Uj’, Sj’ dengan persamaan(1) dan bobot Global Kata Uj' Sj' Global organik 1359.76 0.061 6.39 pupuk 2034.28 0.237 8.92 kentang 1510.92 0.095 7.17 tanaman 712.34 0.884 9.30 pertanian 414.71 0.107 5.51 Pada Xia dan Chai (2011), hubungan antara luas distribusi seragam dan bobot kata pada suatu koleksi adalah korelasi negatif non linear. Pada penelitian ini, hal tersebut terbukti pada kata tanaman yang memiliki luas distribusi seragam yang tinggi dan bobot global yang rendah. Hasil perbandingan hubungan distribusi seragam dan bobot tersebut dapat dilihat pada Tabel 13
Tabel 13 Perbandingan hubungan distribusi seragam dan bobot global
Kata n' p' Global
organik 53 14 12.66
pupuk 272 58 12.43
kentang 82 22 12.55
tanaman 927 274 9.64
pertanian 29 25 10.62
Perkalian antara lokal dan global
Tahap terakhir dalam pembobotan persebaran kata adalah perhitungan nilai keseluruhan pembobotan persebaran kata. Perhitungan yang dilakukan pada tahap ini adalah perkalian dari pembobotan lokal dan pembobotan global menggunakan persamaan(3).
Hasil dari tahap ini disimpan dalam lokalglobal.txt. Hasil perhitungan pembobotan sebaran kata dapat diliihat pada Tabel 14. Berdasarkan pembobotan sebaran kata, organik memiliki nilai tertinggi pada dokumen dok001. Oleh karena itu, organik merupakan kata penciri dari dokumen dok001.
Tabel 14 Hasil perhitungan bobot lokal, global, dan sebaran kata pada dok001
Kata Lokal Global Sebaran Kata
organik 0.54 12.66 6.82
pupuk 0.18 12.43 2.28
kentang 0.39 12.55 4.99
tanaman 0.16 9.64 1.55
pertanian 0.05 10.62 0.59
Kesamaan Dokumen dan Kueri
Metode yang digunakan untuk pengukuran kesamaan adalah ukuran kesamaan kosinus. Pada tahap awal dalam pengukuran kesamaan dokumen, diperlukan kueri yang di masukkan ke dalam sistem oleh pengguna. Kueri diterima oleh sistem, dan dilakukan perubahan menjadi vektor kueri. Tahap selanjutnya adalah proses perhitungan kesamaan antara vektor dokumen dan kueri yang diimplementasikan menggunakan persamaan(4).
Pengujian Kinerja Sistem
Proses evaluasi dalam penelitian ini dilakukan pada koleksi jurnal hortikultura. Proses evaluasi pada koleksi jurnal hortikultura menggunakan 15 kueri uji yang terdapat pada Laboratorium Information Retrieval. Daftar kueri uji dan dokumen relevan yang digunakan pada penelitian ini terdapat pada Lampiran 1.
Pencarian dengan kueri uji ini dilakukan dengan melakukan pengukuran recall
-precision dari sistem. Recall adalah rasio dokumen relevan yang ditemukembalikan dan
precision adalah dokumen relevan yang ditemukembalikan. Perhitungan recall dan
dari Putra (2011) dengan modifikasi oleh penulis.
Gambar 3 merupakan grafik dari 11 titik
recall yang dihitung menggunakan interpolasi maksimum. Hasil temu kembali informasi menghasilkan nilai average precision (AVP) sebesar 0.848 yang artinya secara rata-rata pada tiap titik recall, 84.8% hasil temu-kembali relevan dengan kueri.
Gambar 3 Grafik recall precision.
Perbandingan Hasil Uji Kueri
Pada tahap evaluasi penelitian ini, dilakukan beberapa perbandingan hasil temu kembali pada kueri uji, yaitu perbandingan pembobotan sebaran kata menggunakan
parsing 3, 4, dan 5 kalimat, serta perbandingan pembobotan sebaran kata dengan TFIDF.
Penentuan jumlah kalimat pada pembuatan sebuah paragraf diduga akan mempengaruhi kinerja sistem dalam proses temu kembali dokumen. Penelitian ini melakukan 3 percobaan, yaitu membuat
parsing kalimat sebanyak 3, 4, dan 5 kalimat per paragraf. Proses parsing pada penelitian ini merupakan tahap awal pada pembobotan lokal.
Kinerja sistem pembobotan sebaran kata dengan parsing 3, 4, dan 5 kalimat memiliki hasil AVP yang berbeda. Perbedaan hasil AVP dapat ditunjukan oleh Tabel 13. AVP sistem dengan parsing sebanyak 3 kalimat sebesar 0.785, 4 kalimat sebesar 0.803, dan 5 kalimat sebesar 0.848. Pada Lampiran 4, 5 dan 6 dapat dilihat nilai AVP pada masing-masing kueri untuk parsing 3, 4, dan 5 kalimat.
Pada Tabel 15 terlihat bahwa AVP sistem yang melakukan parsing 5 kalimat per
paragraf memiliki nilai yang lebih tinggi, yaitu 0.848 atau 84,8%. Hal tersebut disebabkan oleh parsing 5 kalimat membuat setiap paragraf akan memiliki jumlah kalimat yang lebih banyak sehingga bobot dari kata penanda dokumen akan semakin bertambah. Selain itu, pada parsing 5 kalimat, dokumen harus memiliki jumlah kata yang banyak. Pada dokumen yang jumlah katanya sedikit,
parsing 5 kalimat kinerjanya menurun, terlihat pada kueri hama pengerek, lalat buah, dan pupuk npk. Pada kueri tersebut lebih cocok menggunakan parsing 3 atau 4. Karena
parsing 3 atau 4 kalimat, paragraf akan lebih banyak dan kata penciri lebih tersebar, sehingga bobot meningkat.
Tabel 15 Perbedaan hasil AVP untuk proses
parsing 3, 4, dan 5 kalimat Kueri
Jumlah kalimat per paragraf
3 4 5
cabai merah 0.622 0.801 0.687 buah tropika 0.508 0.675 0.730
padi 1.000 1.000 1.000
budidaya anggrek 0.227 0.555 1.000 kultur in vitro 0.280 0.336 0.474 fungisida 0.835 0.835 0.851 genotip 1.000 1.000 1.000 hama penggerek 0.894 0.864 0.769
jagung 1.000 1.000 1.000
pupuk npk 0.709 0.634 0.635 gladiol 1.000 1.000 1.000 tanah latosol 0.909 0.510 1.000 lalat buah 0.784 0.830 0.584
tunas 1.000 1.000 1.000
vaksin 1.000 1.000 1.000
Average
precision(AVP) 0.785 0.803 0.848 Kinerja sistem pembobotan sebaran kata dan TFIDF menghasilkan output yang berbeda. Secara umum, sistem sebaran kata menghasilkan AVP sebesar 0.848, sedangkan TFIDF menghasilkan AVP sebesar 0.833.
Pada penelitian ini, dapat dikatakan hasil pembobotan sebaran kata lebih tinggi. Perbandingan nilai AVP dari sebaran kata dan TFIDF dapat dilihat pada Gambar 4. Pada Lampiran 6 dan 7 dapat dilihat nilai AVP pada masing-masing kueri uji untuk pembobotan sebaran kata dan TFIDF. Tabel 16 merupakan hasil perbandingan dari 15 0 0.2 0.4 0.6 0.8 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
preci
si
o
n
kueri yang dimasukkan ke sistem sebaran kata dan TFIDF.
Gambar 4 Perbandingan pembobotan sebaran kata dan TFIDF.
Tabel 16 Perbandingan 15 kueri pada sistem
Kueri Sebaran
Kata TFIDF
cabai merah 0.687 0.586
buah tropika 0.730 0.440
padi 1.000 1.000
budidaya anggrek 1.000 0.636 kultur in vitro 0.474 0.535
fungisida 0.851 0.818
genotip 1.000 1.000
hama penggerek 0.769 0.909
jagung 1.000 1.000
pupuk npk 0.635 0.785
gladiol 1.000 1.000
tanah latosol 1.000 0.773
lalat buah 0.584 1.000
tunas 1.000 1.000
vaksin 1.000 1.000
Average
precision(AVP) 0.848 0.832 Berdasarkan Tabel 16, sistem pembobotan berdasarkan sebaran kata memiliki hasil yang lebih baik dari TFIDF. Namun, terdapat beberapa kueri dari sistem TFIDF yang memiliki nilai yang lebih baik dari sebaran kata. Kueri tersebut adalah kultur in vitro, hama pengerek, pupuk npk, dan lalat buah.
Hal tersebut disebabkan oleh jumlah kata yang terdapat pada gugus jawaban dari kueri tersebut sedikit. Jumlah kata yang sedikit berakibat pada sedikitnya jumlah paragraf
pada dokumen dan mengakibatkan kata penciri pada dokumen tidak tersebar. Pada penelitian ini, penciri yang tidak tersebar menyebabkan penciri dokumen mendapatkan bobot yang kecil dan kinerja sistem menurun.
SIMPULAN DAN SARAN
Simpulan
Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa:
1 Hasil akurasi sistem pembobotan sebaran kata lebih dari 80% dengan parsing 5 kalimat per paragraf.
2 Akurasi hasil pembobotan sebaran kata lebih besar dibandingkan pembobotan TFIDF untuk koleksi dokumen jurnal hortikultura, dengan sebaran kata 84.8% dan TFIDF 83.2%.
Saran
Pada penelitian ini, perhitungan pembobotan berdasarkan sebaran kata dilakukan pada seluruh token yang terdapat pada suatu dokumen maupun pada suatu koleksi. Pada penelitian selanjutnya, diharapkan adanya pemilihan fitur sehingga hanya token tertentu yang dipilih untuk proses perhitungan.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. New York: Addison-Wesley.
Herdi H. 2010. Pembobotan dalam proses pengindeksan dokumen bahasa Indonesia menggunakan framework Indri [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval. Cambridge: Cambridge University Press. Putra DDP. 2011. Temu kembali model
Extended Boolean menggunakan P-Norm Model dan Belief Revision [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Ridha A. 2012. Pengindeksan otomatis dengan istilah tunggal untuk dokumen bahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu 0 0.2 0.4 0.6 0.8 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
preci
si
o
n
recall
Pengetahuan Alam, Institut Pertanian Bogor.
Salton G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Boston: Addison-Wesley.
T. Xia, Y. Chai. 2011. An improvement to TF-IDF: Term distribution based Term Weight Algorithm. Journal of Software
Lampiran 1 Daftar kueri uji dan dokumen yang relevan
Kueri Uji Dokumen Relevan
cabai merah dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt, dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, dok283.txt
buah tropika
dok025.txt, dok064.txt, dok079.txt, dok104.txt, dok106.txt, dok111.txt, dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt, dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok238.txt, dok264.txt, dok286.txt, dok296.txt, dok301.txt
padi dok011.txt, dok089.txt, dok108.txt, dok243.txt budidaya anggrek dok023.txt, dok110.txt, dok186.txt
kultur in vitro dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt
fungisida dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt, dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt
genotip
dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt, dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt, dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt, dok324.txt
hama penggerek dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt jagung dok051.txt, dok053.txt, dok065.txt, dok069.txt, dok076.txt, dok108.txt,
dok137.txt, dok145.txt, dok315.txt pupuk npk
dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok056.txt, dok087.txt, dok100.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt, dok189.txt, dok194.txt, dok244.txt
gladiol dok075.txt, dok099.txt, dok107.txt, dok125.txt, dok193.txt, dok199.txt, dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt tanah latosol dok024.txt, dok080.txt, dok324.txt
lalat buah dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt
tunas
dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt, dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt, dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt, dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt, dok229.txt, dok248.txt, dok286.txt
Lampiran 2 Contoh dokumen koleksi pengujian <DOC>
<docId>dok001.txt</docId>
<content> Akhir akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai ekonomi tinggi. Produksi umbi kentang di Indonesia masih rendah sehingga diperlukan upaya untuk menaikkan produksi dan mutu umbi. Kendala yang dihadapi petani kentang di dataran medium pada lahan sawah adalah kandungan bahan organik tanah rendah. Percobaan ini dilaksanakan pada musim kemarau di daerah Magelang. Percobaan ini bertujuan untuk mempelajari pengaruh dari macam dan dosis pupuk organik terhadap pertumbuhan dan hasil tanaman kentang pada kondisi tersebut. Perlakuan terdiri atas dua faktor, yaitu lima macam pupuk organik dan lima macam dosis pupuk organik. Rancangan yang digunakan adalah split plot dengan tiga ulangan. Perlakuan macam pupuk organik sebagai petak utama dan dosis pupuk organik sebagai anak petak. Hasil penelitian menunjukkan bahwa penggunaan pupuk organik meningkatkan pertumbuhan vegetatif dan hasil kentang. Penggunaan pupuk kandang kambing memberikan hasil yang tertinggi dibandingkan dengan perlakuan yang lainnya. Implikasi dari hasil penelitian ini menunjukkan bahwa limbah pertanian/bahan organik dapat meningkatkan produksi kentang. </content>
Lampiran 3 Daftar stopword
acapkali apalagi begini berikut bukankah
ada apalah beginilah berikutnya bukanlah
adakah apanya begitu berjumlah bukannya
adakan apapun begitulah berkat buktikan
adalah arti begitupula berkenaan cara
adanya artian begitupun berkesan cerita
adapun artinya belakang berkesempatan ceritanya
aduh asalan belakangan berkesimpulan contoh
agak asalkan belum berlalu contohkan
agaknya asumsi belumlah berlalunya contohnya
agar asumsinya benar berlama cukup
aja atas benarkah berlangsung Cuma
akalan atasnya benarnya bermula daerah
akan atau berada bersama dahulu
akankah ataukah berakhir bersamaan dalam
akhir ataupun berakhirnya bertepatan dan
akhirnya awal berakibat beruntun dapat
akibat bagai berakibatkan berupa dapatkah
akibatkan bagaikan beralasan besarnya dapatkan
akibatnya bagaimana beralih beserta dapatlah
aku bagaimanakah beralihnya besok dari
ala bagaimanapun beranggapan besoknya darinya
alangkah bagi berapa betapa daripada
alasan baginya berapanya biar dekat
alasannya bagus berapapun biarlah dekatnya
alih bagusnya berarti biasa demi
alihkan bahkan berasumsi biasanya demikian
amat bahwa berbagai bicarakan demikianlah
amatlah baik berbagi bicaranya dengan
ambil baiknya berbanding bila dengannya
anda balik berbeda bilamana depan
andai banding berdampak bilang depannya
anggap bandingkan berdasarkan bisa di
anggapan banyak berhadapan bisakah dia
antar banyaknya berharap bisanya dialah
antara barangkali berhubung boleh dialami
antaranya baru berhubungan boro dialihkan
apa bawah beri buat diambil
apabila bawahnya berikan buatnya diambilkan
Lanjutan
dianggap dimulailah haruslah kapan lakukan
diantara dimulainya harusnya karena lalu
diantaranya dimungkinkan hendak karenanya lalui
diapakan dipaparkan hendaklah kata lama
dibagi dipersilahkan hendaknya katakan lanjut
dibagikan disaat hingga katakanlah lantaran
dibeberapa disebabkan how katanya lantas
diberbagai disejumlah ialah kau lebih
diberi diseluruh ingin kayak lepas
diberikan disertai ini kayaknya lewat
diberinya disertakan inilah ke lokasi
dibiarkan disimpulkan inipun kebanyakan maka
dibiasakan disitulah itu kebetulan makin
dibilang ditanggapi itulah kebiasaan mampu
dicontoh ditanya itupun kecil mampukah
dicontohkan ditanyakan iya kecuali mampunya
dicontohkannya dituturkan jadi kemana mana
didapat diucapkan jadikan kemanakah manakala
didapati dkk jadilah kembali manalagi
didapatkan dll jadinya kemudian manapun
didapatnya dsb jangan kemungkinan masa
didasarkan dua jarang kemungkinannya masih
digolongkan dulu jauh kenapa masihkah
digunakan dulunya jelaskan kenapakah masing
diharapkan empat jika kepada masuk
dijadikan enggak jikalau kepadanya masyarakat
dijadikannya engkau juga kepala mau
dikarenakan esok jumlah ketika maupun
dikasih gimana jumlahnya ketimbang melainkan
dikata habis justru khususnya melakukan
dikatakan habisan juta kini melalui
dikatakannya habiskan kabupaten kita melihat
dikategorikan habisnya kadang kondisi memang
dikembangkan hal kalau kurang memaparkan
diketahui hampir kalaupun lagi membagi
diketahuinya hanya kali lagian membagikan
dilaksanakan hanyalah kalian lagipula memberi
dilakukan hari kami lain memberikan
dimana harus kamu lainnya memberinya
Lanjutan
membolehkan menuju paparan sambil segera
membuat menunjukkan paparkan sambutannya sehabis
memeperoleh menurut paparnya sampai seharusnya
memiliki menurutnya para sana seharusnyalah
meminta menuturkan pasti sang sehingga
memperbolehkannya menyatakan pastilah sangat sehubungan
mempersilahkan menyebabkan pastinya sangatlah sejak
mempunyai menyebutkan pelak satunya sejauhmana
memungkinkan menyia pelbagai saya sejumlah
menanggapi mereka pemaparan sayangnya sekalian
menanggapinya merupakan pembagian seakan sekaligus
menanyakan meski pembagiannnya seandainya sekalipun
mencapai meskipun pendapat seantero sekarang
mencontohkan mesti pengalihan sebab sekata
mendapat mestinya pengambil sebabkan sekedar
mendapati misal pengambilan sebabnya sekeliling
mendapatkan misalkan pengandaian sebagai seketika
mendapatkannya misalnya per sebagaimana sekian
menerus mudah peralihan sebagainya sekitar
mengada mula percuma sebagian selagi
mengaku mulai peri sebaik selain
mengalami mulainya perihal sebaiknya selalu
mengalihkan mulanya perlahan sebaliknya selama
mengambil muncul perlu sebanyak selanjutnya
mengambilnya mungkin pernah sebelum selesai
menganggap mungkinkah persen sebelumnya selesaikah
menganggapnya namun pertamanya sebenarnya seluruh
mengapa nanti pinggir seberapa seluruhnya
mengatakan negara pula seberat semakin
mengembangkan nilai pulalah sebesar semampunya
mengenai nyaris pun sebetulnya semenjak
menggunakan nyiakan rata sebuah sementara
mengungkapkan oleh relevankah secara semestinya
meningkat orang rendah sedalam semisal
meningkatkan pada saat sedang semoga
menjadi padahal saatnya sedangkan semua
menjadikan padanannya saatnyalah sedapat semuanya
menjadikannya paling saja sedemikian semula
menjelang panjangnya salah sedikit seolah
Lanjutan
seorangpun sia tergolong untuk
sepadan sialnya terhadap usah
sepanjang siap terjadi usahlah
sepasang siapa terjadilah usai
sepele siapakah terjadinya usianya
sependapat siapapun terkadang waktu
seperti silahkan terkait waktulah
sepertinya singkatnya terkecuali waktunya
seputar sini terlalu walau
seraya sinilah terlebih walaupun
serba situ termasuk warga
serentak sosok ternyata yaitu
sering sosoknya tersebut yakni
seringkali suatu tertentu yang
seringkalinya sudah terus
seringlah sulit tetap
seringnya sungguh tetapi
serta sungguhpun tiap
sertanya supaya tiba
sesaat tak tidak
sesama tambahnya tidaklah
sesamamu tanggapan tidaknya
sesedikit tanggapannya tiga
seseorang tanggapnya tinggi
sesuai tanpa tutur
sesuatu tapi tuturnya
sesuatunya tatkala ucap
sesudah telah ucapan
sesudahnya tempat ucapannya
sesukanya tengah ucapkan
sesungguhnya tentang ucapnya
setelah tentu ujar
setelahnya tentunya ujarnya
seterusnya tepatnya umpamanya
setiap terbagi umum
setidak terbalik umumnya
setidaknya terbiasa ungkap
seusai terbilang ungkapan
sewaktu terdapat ungkapkan
Lampiran 4 Daftar AVP masing-masing kueri pada pengujian parsing 3 kalimat
Kueri Uji Titik Recall
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
cabai merah 1.000 1.000 1.000 1.000 1.000 0.368 0.320 0.314 0.314 0.314 0.207
buah tropika 1.000 0.667 0.556 0.450 0.45 0.429 0.429 0.429 0.404 0.396 0.377
padi 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
budidaya anggrek 0.333 0.333 0.333 0.333 0.167 0.167 0.167 0.167 0.167 0.167 0.167
kultur in vitro 0.333 0.333 0.333 0.333 0.333 0.250 0.250 0.250 0.250 0.207 0.207
fungisida 1.000 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818
genotip 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
hama penggerek 1.000 1.000 1.000 1.000 0.833 0.833 0.833 0.833 0.833 0.833 0.833
jagung 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
pupuk npk 1.000 1.000 1.000 0.778 0.778 0.667 0.667 0.611 0.565 0.389 0.349
gladiol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
tanah latosol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.750 0.750 0.750 0.750
lalat buah 1.000 1.000 1.000 1.000 0.750 0.750 0.625 0.625 0.625 0.625 0.625
tunas 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
vaksin 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Rata-rata interpolasi maksimum
0.911 0.877 0.869 0.848 0.809 0.752 0.741 0.720 0.715 0.700 0.689
AVP 0.785
Lampiran 5 Daftar AVP masing-masing kueri pada pengujian parsing 4 kalimat
Kueri Uji Titik Recall
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
cabai merah 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.357 0.239 0.211
buah tropika 1.000 1.000 1.000 1.000 0.600 0.524 0.500 0.459 0.459 0.452 0.435
padi 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
budidaya anggrek 1.000 1.000 1.000 1.000 0.300 0.300 0.300 0.300 0.300 0.300 0.300
kultur in vitro 0.429 0.429 0.429 0.429 0.429 0.263 0.263 0.263 0.263 0.250 0.250
fungisida 1.000 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818
genotip 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
hama penggerek 1.000 1.000 0.833 0.833 0.833 0.833 0.833 0.833 0.833 0.833 0.833
jagung 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
pupuk npk 1.000 1.000 0.833 0.833 0.563 0.563 0.556 0.444 0.444 0.400 0.333
gladiol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
tanah latosol 1.000 1.000 1.000 1.000 0.231 0.231 0.231 0.231 0.231 0.231 0.231
lalat buah 1.000 1.000 1.000 1.000 1.000 1.000 0.625 0.625 0.625 0.625 0.625
tunas 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
vaksin 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Rata-rata interpolasi maksimum
0.962 0.950 0.928 0.928 0.785 0.769 0.742 0.732 0.689 0.677 0.669
AVP 0.803
Lampiran 6 Daftar AVP masing-masing kueri pada pengujian parsing 5 kalimat
Kueri Uji Titik Recall
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
cabai merah 1.000 1.000 1.000 1.000 0.667 0.667 0.667 0.529 0.476 0.324 0.231
buah tropika 1.000 0.889 0.889 0.889 0.818 0.667 0.667 0.652 0.630 0.514 0.417
padi 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
budidaya anggrek 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
kultur in vitro 1.000 1.000 0.600 0.600 0.600 0.333 0.333 0.208 0.208 0.167 0.167
fungisida 1.000 1.000 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818
genotip 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
hama penggerek 0.800 0.800 0.800 0.800 0.800 0.800 0.800 0.714 0.714 0.714 0.714
jagung 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
pupuk npk 1.000 0.714 0.714 0.714 0.688 0.688 0.688 0.688 0.464 0.350 0.283
gladiol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
tanah latosol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
lalat buah 1.000 1.000 1.000 1.000 0.750 0.750 0.185 0.185 0.185 0.185 0.185
tunas 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
vaksin 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Rata-rata interpolasi maksimum
0.987 0.960 0.921 0.921 0.876 0.848 0.811 0.786 0.766 0.738 0.721
AVP 0.848
Lampiran 7 Daftar AVP masing-masing kueri pada pengujian pembobotan TFIDF
Kueri Uji Titik Recall
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
cabai merah 1.000 1.000 0.533 0.533 0.533 0.533 0.533 0.526 0.526 0.393 0.333
buah tropika 0.636 0.636 0.636 0.636 0.346 0.333 0.333 0.333 0.333 0.311 0.303
padi 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
budidaya anggrek 1.000 1.000 1.000 1.000 0.667 0.667 0.667 0.250 0.250 0.250 0.250
kultur in vitro 1.000 1.000 1.000 1.000 0.294 0.294 0.294 0.294 0.294 0.207 0.207
fungisida 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818 0.818
genotip 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
hama penggerek 1.000 1.000 1.000 1.000 1.000 0.833 0.833 0.833 0.833 0.833 0.833
jagung 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
pupuk npk 1.000 1.000 1.000 1.000 0.800 0.800 0.750 0.750 0.750 0.412 0.375
gladiol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
tanah latosol 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.375 0.375 0.375 0.375
lalat buah 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
tunas 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
vaksin 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Rata-rata interpolasi maksimum
0.964 0.964 0.933 0.933 0.831 0.819 0.815 0.745 0.745 0.707 0.700
AVP 0.833
Lampiran 8 Antarmuka halaman utama sistem pencarian jurnal hortikultura
Lampiran 9 Antarmuka hasil pencarian
ABSTRACT
PUTRI DEWI PURNAMA SARI. Term Weight Method based on Term Distribution for Information Retrieval on Indonesian Documents. Supervised by JULIO ADISANTOSO.
Term weight algorithm plays an important role in the process of document searching, which is greatly influenced by the precision and recall results of the Search Engine. Currently, TF-IDF term weight algorithm is widely applied in language models to build the search engine systems. Since term frequency is not the only discriminator which is necessary to be considered in term weighting and make each weight suitable to indicate the term’s importance, term weighting algorithm based on term distribution has been developed. In a single document, a term with higher frequency and closer to hypo-dispersion distribution usually contains more semantic information and should be given higher weight. One the other hand, in collection of documents, the term with higher frequency and hypo-dispersion distribution usually contains less information. This research implements term weight based on term distribution, with Local Term Weight Algorithm and Global Term Weight Algorithm for the documents in Indonesian Language. The result of this research is a Search Engine with an average precision of 84.8%.
METODE PEMBOBOTAN KATA BERBASIS SEBARAN
UNTUK TEMU KEMBALI INFORMASI
DOKUMEN BAHASA INDONESIA
PUTRI DEWI PURNAMA SARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
METODE PEMBOBOTAN KATA BERBASIS SEBARAN
UNTUK TEMU KEMBALI INFORMASI
DOKUMEN BAHASA INDONESIA
PUTRI DEWI PURNAMA SARI
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
DOKUMEN DOKUMEN Pembobotan sebaran kata Pembobotan sebaran kata KUERI KUERI Pengindeksan kueri Pengindeksan kueri Kesamaan dokumen dan kueri Kesamaan dokumen dan kueri Tokenization Tokenization Pembuangan Stop words Pembuangan Stop words Pengindeksan Dokumen Matriks term-dokumen Matriks term-dokumen Matriks term-kueri Matriks term-kueri Peringkat dokumen Peringkat dokumen Evaluasi Evaluasi
Gambar 1 Tahapan pembangunan sistem. Pengindeksan
Proses pengindeksan terdiri atas proses tokenisasi, pembuangan stopwords, dan pembobotan (Manning et al. 2008). Pada penelitian ini metode pembobotan yang dilakukan adalah metode sebaran kata. Tokenisasi
Tokenisasi menerima masukan berupa rangkaian karakter dan memilahnya menjadi
token dengan aturan sebagai berikut:
1 Suatu token dimulai oleh huruf atau angka 2 Token dipisahkan oleh karakter whitespace
3 Karakter-karakter khusus yang mengikuti huruf atau angka akan dihilangkan. Pembuangan Stop words
Stop words adalah kata-kata umum yang biasanya muncul dalam jumlah yang besar dan dianggap tidak memiliki makna (Manning
et al. 2008). Pada penelitian ini stopwords diperoleh dari Herdi (2010).
Pembobotan sebaran kata
Pembobotan yang digunakan pada penelitian ini adalah pembobotan sebaran
kata. Input dari proses pembobotan sebaran kata adalah kata terpilih yang akan digunakan untuk membangun inverted index dari koleksi dokumen. Menurut Xia dan Chai (2011) pembobotan berdasarkan sebaran kata memiliki dua titik fokus, yaitu sebaran kata lokal(dalam suatu dokumen individu) dan sebaran kata global(dalam koleksi dokumen). Nilai bobot dari suatu kata terpilih adalah perkalian antara kedua pembobotan tersebut. Pembobotan Lokal
Pembobotan lokal terdiri dari luas distribusi seragam kata ke-j pada dokumen (Uj) dan perluasan penyebaran kata ke-j pada dokumen (Sj). Pada pembobotan kata lokal terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu positif non linear. Artinya, kata yang luas distribusi seragam tinggi mempunyai bobot kata yang tinggi.
Pada perhitungan luas distribusi seragam kata digunakan teori K.Pearson Chi Square
dengan rumus:
2 = ∑ v n 2
n
m
i=1
dengan
: frekuensi kata ke-j pada paragraf ke-i
: frekuensi kata ke-j di dokumen : peluang kata ke-j ada di paragraf ke-i
: frekuensi kata ke-j di paragraf ke-i jika kata ke-j tersebar
Nilai yang rendah menyatakan kata ke
j mendekati distribusi seragam. Nilai rendah tersebut bertentangan dengan hubungan distribusi seragam pada dokumen dan bobot kata, sehingga rumus distribusi seragam(Uj) adalah
Uj= 1 1
Uj = 1
1 ∑mi=1(v -n n )2
Pada perhitungan perluasan penyebaran kata (Sj) digunakan rumus:
Sj = l (1 ⁄ )
dengan :
: total paragraf yang mengandung term ke-j
Pembobotan lokal dari kata ke-j dalam dokumen d adalah
d l =l 1
d l = l 1 l (1 ⁄ )
1 ∑ vin 2
n
m i=1
Pembobotan Global
Pembobotan global terdiri atas luas distribusi seragam kata ke-j pada koleksi (Uj’) dan perluasan penyebaran kata ke-j pada koleksi (Sj’). Pada pembobotan global, terdapat hubungan antara luas distribusi seragam kata dan bobot kata, yaitu negatif non linear. Artinya, kata yang luas distribusi seragamnya tinggi mempunyai bobot kata yang rendah.
Pada perhitungan luas distribusi seragam kata, digunakan teori K.Pearson Chi Square
dengan rumus:
= ∑(v n )
2
n
m
i=1 dengan:
: frekuensi kata ke-j pada dokumen ke-i
: frekuensi kata ke-j di koleksi
’ : peluang kata ke-j ada di dokumen ke-i
: