Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks

(1)

TEMU KEMBALI INFORMASI DOKUMEN XML

DENGAN PEMBOBOTAN PER KONTEKS

RINA KURNIAWATI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Temu Kembali Informasi Dokumen XML dengan pembobotan per konteks adalah benar karya saya denganarahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

RINA KURNIAWATI. Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks. Dibimbing oleh JULIO ADISANTOSO.

Penelitian temu kembali informasi menggunakan dokumen XML sudah banyak dilakukan, namun sistem yang dikembangkan belum memperhatikan struktur atau tag dari dokumen XML. Penelitian ini mengembangkan sistem temu kembali informasi dengan menggunakan pembobotan per konteks atau tag. Setiap bobot yang dikenakan terhadap masing-masing konteks didapat dari hasil pencarian keterhubungan antara kemiripan tiap konteks pada dokumen terhadap kueri dengan kemiripan dokumen secara keseluruhan terhadap kueri dengan menggunakan metode regresi linier. Pada penelitian ini sistem temu kembali informasi yang telah dibangun dengan menggunakan pembobotan per konteks dievaluasi dengan menggunakan 30 pasang kueri. Percobaan ini menghasilkan penurunan nilai rata-rata mean average precision(MAP)sebesar 1.15% jika dibandingkan dengan sistem temu kembali informasi tanpa menggunakan pembobotan per konteks.

Kata kunci:pembobotan tag XML, temu kembali informasi

ABSTRACT

RINA KURNIAWATI. XML Document Information Retrieval using Context Weighting. Supervised by JULIO ADISANTOSO

Various research in the field of information retrieval using XML documents have been conducted.However, those systems didnot consider the structure or tags of the XML documents. To improve the performance of the information retrieval system, we develop an information retrieval system using context weighting. Each weight which is implemented on each context is obtained from the result of correlation between the similarity of each context of the document to the queries and the similarity of the whole document to the queries using linear regression method. The information retrieval system that has been developed using the context weighting is evaluated by using 30 queries. It is found that this experiment decreases the average Mean Average Precision (MAP) value by 1.15% if compared with the information retrieval system without context.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

Departemen Ilmu Komputer

TEMU KEMBALI INFORMASI DOKUMEN XML

DENGAN PEMBOBOTAN PER KONTEKS

RINA KURNIAWATI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

Penguji:

(7)

Judul Skripsi : Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks

Nama : Rina Kurniawati

NIM : G64096053

Disetujui oleh

Ir Julio Adisantoso, MKom Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(8)

(9)

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wata’alayang telah melimpahkan rahmat sehingga penulis dapat menyelesaikan penelitian dan tulisan yang berjudul Temu Kembali Informasi Dokumen XML dengan Pembobotan per Konteks ini.

Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso M. Kom selaku pembimbing yang telah memberikan arahan, dan saran selama penelitian ini berlangsung. Ungkapan terima kasih juga disampaikan kepada orang tua serta seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung atas doa dan dukungannya.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran dan kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini, sehingga dapat bermanfaat.

(10)

DAFTAR ISI

DAFTAR TABEL iv

DAFTAR GAMBAR iv

DAFTAR LAMPIRAN iv

PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 1

Ruang Lingkup Penelitian 1

METODE PENELITIAN 2

Perolehan Dokumen 3

Praproses 3

Perhitungan Koefisien 4

Perhitungan Kedekatan 4

Evaluasi Sistem 5

Lingkungan Penelitian 6

HASIL DAN PEMBAHASAN 6

Perolehan koleksi dokumen 6

Praproses 7

Perhitungan Koefisien 7

Perhitungan Kemiripan 8

Evaluasi 9

SIMPULAN DAN SARAN 10

Simpulan 10

Saran 11

DAFTAR PUSTAKA 11

LAMPIRAN 13

(11)

DAFTAR TABEL

1 Kemiripan dokumen terhadap kueri 4

2 Ilustrasi inverted index yang ditambahkan dengan bobot per konteks 5

3 Ilustrasi recall dan precision 5

4 Nilai kemiripan dokumen terhadap kueri ‘gagal panen’ 8

5 Perbandingan nilai AVP dan MAP 9

DAFTAR GAMBAR

1 Flowchart penelitian secara umum 2

2 Persamaan regresi 8

3 Grafik perbandingan antara masing-masing AVP 10

DAFTAR LAMPIRAN

1 Contoh dokumen pengujian 12

2 Daftar kueri dan jumlah dokumen relevan 13

3 Daftarstopword 14

4 Interpolasi precision dan recall pada sistem temu kembali informasi tanpa

memperhatikan konteks 18

5 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title, author dan text 19

6 Interpolasi precision dan recall pada sistem temu kembali informasi dengan

pembobotan pada konteks title dan author 20

pembobotan pada konteks author dan text 21

pembobotan pada konteks title dan text 22

pembobotan pada konteks author 23

pembobotan pada konteks text 24

pembobotan pada konteks title 25

(12)

1

PENDAHULUAN

Latar Belakang

Kebutuhan terhadap informasi yang semakin tinggi mengakibatkan munculnya permasalahan bagaimana teknik memperoleh informasi yang efektif dan efisien.Tujuan dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates dan Ribeiro-Neto 1999).

Terdapat dua pendekatan yang mungkin dalam temu kembali informasi pada dokumen extensible markup language (XML) (Kamps et al. 2003):

1 Full document retrieval system, sistem ini menggunakan dokumen standar sebagai indexing unit dan dokumen secara keseluruhan dianggap sebagai retrieval unit

2 XML element retrieval system, sistem ini menggunakan elemen XML sebagai indexing unit dan setiap elemen yang membentuk struktur dokumen dipertimbangkan sebagai retrieval unit (Rahman 2006).

Sistem temu kembali informasi menggunakan dokumen XML dapat digunakan untuk menjawab permasalahan tersebut. Teknologi XML yang dikembangkan sejak tahun 1996, selain dapat digunakan untuk menampilkan informasi juga memiliki kemampuan untuk menyimpan data secara terstruktur serta sebagai format pertukaran data.

Penelitian dibidang temu kembali informasi menggunakan dokumen XML sudah banyak dilakukan, akan tetapi sistem temu kembali informasi dokumen XML yang dikembangkan belum memperhatikan struktur atau tag dari dokumen.

Karena hal tersebut, maka penelitian ini akan mengembangkan sistem temu kembali informasi pada dokumen terstruktur XML dengan memperhatikan struktur dokumen yaitu dengan memberikan bobot pada setiap konteks (tag) yang ada pada dokumen XML. Penelitian ini diharapkan dapat memperbaiki nilai average precision danmean average precision pada temu kembali informasi dokumen XML.

Tujuan Penelitian

Penelitian ini bertujuan mengimplementasikan sistem temu kembali informasi menggunakan dokumen XML dengan memperhatikan struktur dokumen.

Ruang Lingkup Penelitian

(13)

2

METODE PENELITIAN

Suatu penelitian yang baik diperlukan perencanaan yang matang atas metode yang telah ditetapkan. Secara garis besar penelitian dilakukan dalam beberapa tahap, yaitu perolehan dokumen, praproses, perhitungan koefisien per-konteks, perhitungan kedekatan, dan evaluasi.Flowchart penelitian secara garis besar dapat dilihat pada Gambar 1.

Korpus

Perolehan dokumen

Parsing

Penghapusan stopwords

Inverted index

Hitung kemiripan

Hitung koefisien

Persamaan regresi

Hitung kemiripan baru

Top n dokumen

Evaluasi

Kueri

(14)

3

Perolehan Dokumen

Penelitian ini menggunakan dokumen berbahasa Indonesia yang memiliki struktur XML seragam yang terdiri atas 1000 dokumen berita di bidang pertanian yang bersumber dari Laboratorium Temu Kembali Informasi di Institut Pertanian Bogor.

Tahap praproses terdiri atas parsing yaitu proses yang mengubah dokumen menjadi unit-unit kecil berupa kata, frasa, atau kalimat dengan menggunakan algoritme tokenizer. Unit-unit ini disebut sebagai token. Proses parsing dilanjutkan dengan proses pembuangan kata yang dianggap tidak relevan dan tidak bermakna terhadap dokumen sesuai dengan stoplist.

Daftar term yang dihasilkan dari proses parsing kemudian mengalami pembobotan term (weighting) dengan menggunakan metode BM25 secara otomatis oleh Sphinx sehingga menghasilkan inverted index yang berisi informasi seperti frekuensi kemunculan dan posisi term tertentu.

Pembobotan BM25 menggabungkan bobot idf dengan koleksi pengskalan khusus untuk dokumen dan kueri (Kontostathis et al. 2008). Pembobotan ini digunakan untuk membuat peringkat antardokumen dan mengukur kesamaan antara kueri dengan dokumen pada korpus. Perhitungan yang digunakan untuk mengukur kemiripan dokumen terhadap kueri menggunakan pembobotan BM25 yang sudah disediakan Sphinx dengan rumussebagai berikut:

TF(i) : frekuensi kata pada kueri yang ditemukan pada dokumen

IDF(i): invers dari frekuensi dokumen yang terdapat kemunculan kata pada kueri N : jumlah dokumen pada korpus

n : jumlah dokumen yang relevan dengan kueri b : konstanta bernilai 0.75

k : konstanta bernilai 1.2 DL : panjang dokumen.

(15)

4

Perhitungan Koefisien

Pengukuran kemiripan antara dokumen terhadap kueri dilakukan pada masing-masing konteks dan juga dilakukan pada dokumen secara keseluruhan, sehingga didapat tabel ukuran kemiripan dokumen untuk masing-masing kueri yang diujikan seperti yang ditunjukkan pada Tabel 1.

Tabel 1 Kemiripan dokumen terhadap kueri

Doc Sim(flat) Sim(title) Sim(author) Sim(text)

1 w1 w11 w12 w13

2 w2 w21 w22 w23

3 w3 w31 w32 w33

Pada Tabel 1, kolom Doc menunjukan nomor dokumen, kolom Sim(flat) menunjukkan nilai kemiripan dokumen terhadap kueri tanpa memperhatikan konteks, sedangkan kolom Sim(title), Sim(author) dan Sim(text) menunjukkan nilai kemiripan dokumen terhadap kueri pada masing-masing konteks.

Perhitungan koefisien sebagai pembobot masing-masing konteks pada dokumen dicari dengan menggunakan Tabel 1, yakni dengan cara mencari hubungan antara kemiripan dokumen terhadap kueri per-konteks dengan kemiripan dokumen terhadap kueri yang tidak memperhatikan konteks(flat) menggunakan regresi linier sehingga didapat persamaan seperti berikut:

y = a + bx1 + c x2 + d x3

Keterangan:

y : kemiripan dokumen terhadap kueri sebagai variabel terikat. a : konstanta intersep.

x1 : kemiripan konteks title terhadap kueri sebagai variabel bebas. b : koefisien bobot konteks title.

x2 : bobot konteks author terhadap kueri sebagai variabel bebas. c : koefisien bobot konteks author.

x3 : bobot konteks text terhadap kueri sebagai variabel bebas. d : koefisien bobot konteks text.

Perhitungan Kedekatan

Koefisien masing-masing konteks pada persamaan regresi dijadikan bobot terhadap nilai kemiripan dokumen terhadap kueri dengan cara mengembalikan nilai koefisien ke dalam persamaan regresi linier yang didapat dari tahap sebelumnya sehingga didapat nilai kemiripan yang baru.

Ilustrasi perhitungan nilai kemiripan antara dokumen dan kueri pada pembobotan per konteks dapat diwakilkan dengan tabel seperti pada Tabel 2.

Setelah user melakukan input kueri (q), didapat nilai kemiripan antara masing-masing dokumen dengan kueri (q) pada tiap konteks (ci) secara otomatis menggunakan Sphinx dengan menggunakan pengukuran BM25.

(16)

5 kemiripan dokumen terhadap kueri baru yang sudah memperhatikan bobot per konteks, yang disusun berdasarkan nilai yang paling besar sampai terkecil.

Tabel 2 Ilustrasi inverted index yang ditambahkan dengan bobot per konteks

Konteks Term Dokumen-i Koefisien

Koefisien : koefisien yang diimplementasikan pada masing-masing konteks.

Evaluasi Sistem

Dua ukuran yang sering dipakai untuk mengukur efektifitas suatu sistem temu kembali informasi adalah recall dan precision (Manning et al. 2008). Recall menyatakan jumlah dokumen relevan yang dapat dibangkitkan oleh sistem temu kembali informasi yang merupakan proporsi antara jumlah dokumen relevan yang ditemukembalikan dengan jumlah semua dokumen relevan yang terdapat pada koleksi dokumen. Sedangkan precision adalah perbandingan antara jumlah dokumen relevan yang ditemukembalikan dengan jumlah seluruh dokumen yang ditemukembalikan. Nilai recall dan precision dapat diilustrasikan seperti tertera pada Tabel 3.

Tabel 3 Ilustrasi recall dan precision

Document Relevant Nonrelevant

Retrieved True positives (tp) False positive (fp) Not retrieved False negatives (fn) True negatives (tn)

Keterangan: Recall = ��

��+��

Precision = ��

��+��

Sistem diuji dengan menggunakan average precision danmean average precision. Setiap hasil temu kembali informasi dilakukan penghitungan nilai precision pada 11 tingkat nilai recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0 . Nilai precision kemudian dirata-ratakan untuk mendapatkan nilai average precision (AP).

(17)

6

Lingkungan Penelitian

Lingkungan yang digunakan untuk penelitian ini memiliki spesifikasi sebagai berikut:

5 Minitab 16 statistical software sebagai aplikasi untuk membantu penentuan persamaan regresi linier

6 Microsoft Excel 2007 sebagai aplikasi untuk membantu evaluasi sistem.

HASIL DAN PEMBAHASAN

Perolehan Koleksi Dokumen

Koleksi dokumen yang digunakan dalam penelitian ini bersumber dari korpus yang sudah tersedia di laboratorium Temu Kembali Informasi Departemen Ilmu Komputer Institut Pertanian Bogor. Koleksi terdiri atas 1000 dokumen dengan format spreadsheet(.xml) dengan struktur tag XML yang seragam pada masing-masing dokumen. Contoh dokumen pengujian yang digunakan dapat dilihat pada Lampiran 1. Tag XML pada koleksi dokumen uji yang digunakan adalah sebagai berikut:

 <document></document> yang mewakili keseluruhan dokumen, di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih detail.

 <docno></docno>yang mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal berita atau urutan berita pada tanggal yang sama.

 <title></title> yang mewakili judul dokumen.

 <author></author> yang mewakili penulis dokumen.

 <text></text> yang mewakili isi dokumen.

(18)

7

Praproses

Praproses dokumen terdiri atas proses parsing atau tokenisasi, serta proses pembuangan stopwords dan pembobotan. Proses ini dilakukan secara otomatis dengan menggunakan fungsi indexing yang ada pada Sphinx. Proses parsing dilakukan untuk mendapatkan kata unik atau term dari seluruh koleksi dokumen dengan cara memisahkan tiap-tiap kata dengan karakter pemisah seperti titik, koma dan whitespace.

Proses parsing kemudian diikuti dengan proses pembuangan stopwords, yaitu membuang kata yang dianggap tidak memiliki arti seperti kata sambung, kata depan. Kata-kata yang termasuk dalam stopwords (Lampiran 3) diperoleh dari laboratorium Temu Kembali Informasi. Proses pembuangan stopwords dilakukan dengan mencocokan term yang terdapat pada hasil parsing dengan term pada stoplist yang berisi daftar term yang akan dihapus. Hasil proses parsing dan pembuangan stopwords berupa tabel yang terdiri atas daftar term beserta frekuensi kemunculan pada tiap dokumen dan jumlah dokumen yang mengandung term tersebut. Tahap terakhir dari praproses yaitu pembobotan. Proses pembobotan menggunakan metode BM25 dilakukan secara otomatis dengan menggunakan Sphinx. Praproses untuk sistem temu kembali yang belum memperhatikan konteks dilakukan pada tag <docno>, <title>, <author>, <text> sedangkan untuk penelitian ini proses indexing berlaku pada tag<title>, <author>, dan <text> saja .

Perhitungan Koefisien

Koefisien bobot merupakan koefisien yang berperan sebagai bobot baru yang digunakan untuk mendapatkan nilai kemiripan dokumen dengan kueri pada uji coba sistem temu kembali informasi dengan pembobotan per konteks, maka dari itu digunakan nilai kemiripan dokumen dengan kueri pada sistem temu kembali informasi tanpa pembobotan sebagai variabel dalam penentuan koefisien. Metode yang digunakan dalam menentukan koefisien bobot yaitu regresi linier, dimana pada proses perhitungan regresi, penulis menggunakan Minitab 16.

Karena nilai kemiripan antara dokumen dan kueri pada sistem temu kembali informasi tanpa menggunakan pembobotan diperlukan sebagai variabel pada perhitungan koefisien, maka tahap pertama pada proses ini yaitu melakukan temu kembali informasi seperti yang biasa dilakukan, dengan beberapa kondisi. Yang pertama, temu kembali pada konteks secara keseluruhan, yaitu text, title dan author, kemudian melakukan temu kembali informasi pada masing-masing konteks tersebut, sehingga didapat nilai kemiripan per kueri per dokumen sebanyak 4 buah untuk masing-masing konteks. Proses temu kembali informasi ini menggunakan library yang ada pada Sphinx dengan ranker SPH_RANK_PROXIMITY_BM25. Sebagai contoh, nilai kemiripan dokumen terhadap kueri 2, yaitu ‘gagal panen’, ditunjukkan pada Tabel 4.

Pada Tabel 4 terlihat bahwa nilai kemiripan antara kueri ‘gagal panen’ dengan dokumen nomor 979 bernilai 2597 pada konteks keseluruhan, bernilai 1597 pada konteks title, dan bernilai 1597 pada konteks text.

(19)

8

temu kembali secara keseluruhan, dimana nilai kemiripan yang didapat dari hasil temu kembali per konteks berlaku sebagai variabel bebas dan nilai kemiripan yang didapat dari hasil temu kembali secara keseluruhan berlaku sebagai variabel terikat. Dari proses ini didapat persamaan regresi berikut.

Tabel 4 Nilai kemiripan dokumen terhadap kueri ‘gagal panen’ Doc Sim(Flat) Sim(Title) Sim(Author) Sim(Text)

y : nilai kemiripan dokumen secara utuh terhadap kueri.

x1 : nilai kemiripan konteks title pada dokumen terhadap kueri. x2 : nilai kemiripan konteks author pada dokumen terhadap kueri. x3 : nilai kemiripan konteks text pada dokumen terhadap kueri.

Persamaan regresi pada Gambar 2 menunjukkan bahwa title memiliki bobot lebih tinggi disbanding text dan author. Dari persamaan regresi pada Gambar 2 dapat diambil kesimpulan bahwa konteks title memiliki pengaruh sebesar 0.532, konteks title memiliki pengaruh sebesar 0.39,dan konteks text memiliki pengaruh sebesar 0.503.

Perhitungan Kemiripan

Koefisien regresi dari masing-masing konteks yang didapat dari persamaan regresi linier kemudian diimplementasikan kedalam sistem temu kembali, dimana koefisien regresi masing-masing konteks dikalikan dengan bobot dokumen sesuai konteks masing sehingga didapat nilai kemiripan baru untuk masing-masing dokumen terhadap kueri yang diujikan.

Sebagai contoh pada Tabel 4 yang menunjukkan nilai kemiripan kueri ‘gagal panen’ terhadap dokumen secara keseluruhan maupun per konteks. Dokumen nomor 979 yang relevan terhadap kueri ‘gagal panen’ dan memiliki nilai kemiripan sebesar 2597 terhadap keseluruhan dokumen tanpa memperhatikan konteks, dan memiliki nilai kemiripan sebesar 1597 pada konteks title dan 1597 pada konteks text.

Untuk mendapatkan nilai kemiripan baru maka setiap nilai kemiripan yang sebelumnya didapat masing-masing dikalikan dengan koefisien regresi sesuai masing-masing konteks.

y adalah nilai kemiripan yang baru y = 0.532 x1 + 0.390 x2 + 0.503 x3

(20)

9

Nilai kemiripan yang baru ini kemudian diurutkan dari nilai yang terbesar hingga nilai yang terkecil, semakin besar nilai kemiripan dokumen terhadap kueri maka dianggap relevansinya semakin tinggi.

Evaluasi

Proses evaluasi dilakukan setelah hasil temu kembali informasi diperoleh. Sistem dievaluasi dengan membandingkan nilai average precision (AVP) dan mean average precision(MAP) dari sistem temu kembali informasi yang belum memperhatikan konteks dengan sistem yang menggunakan pembobotan per konteks.

Tahap pertama pada pengujian dilakukan dengan melakukan kegiatan temu kembali dengan menggunakan 30 kueri (Lampiran 2). Kegiatan temu kembali informasi dilakukan pembobotan dan sistem temu kembali informasi dengan pembobotan per konteks dengan 6 kombinasi yaitu dengan memperhatikan konteks title, author dan text , konteks title dan author, konteks author dan text, konteks title dan text, konteks author saja, konteks text saja, dan konteks title saja. Untuk ujicoba sistem temu kembali informasi dengan pembobotan pada konteks tertentudilakukan dengan menggunakan hanya bobot konteks tertentusaja yang digunakan, sedangkan bobot pada konteks lainnyatidak digunakan dan koefisiennya dianggap sama dengan 0.

Tahap selanjutnya yaitu menghitung nilai recall dan precision pada masing-masing hasil sistem temu kembali informasi. Untuk mengetahui kinerja sistem secara keseluruhan,MAP dan AVP digunakan. MAP dihitung dengan menggunakan nilai precision yang sudah dihitung sebelumnya yang kemudian dicari rata-ratanya. AVP didapatkan dengan melakukan interpolasi terhadap nilai precision pada sebelas tingkat nilai recall yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0 . Nilai perbandingan AVP dan MAP pada masing-masing uji coba ditunjukkan pada Tabel 5.

Tabel 5Perbandingan nilai AVP dan MAP

Sistem AVP MAP

Tanpa pembobotan 0.783 0.789

Pembobotan pada konteks title, author dan text 0.765 0.674 Pembobotan pada konteks title dan author 0.830 0.674 Pembobotan pada konteks author dan text 0.760 0.674 Pembobotan pada konteks title dan text 0.597 0.674

Pembobotan pada konteks author 0.333 0.674

Pembobotan pada konteks text 0.591 0.674

Pembobotan pada konteks title 0.497 0.674

(21)

10

Gambar 3 Grafik perbandingan antara masing-masing AVP

SIMPULAN DAN SARAN

Simpulan

Berdasarkan perbandingan nilai mean average precision(MAP) dari hasil evaluasi diketahui bahwa terjadi penurunan nilai rata-rata MAP sebesar 1.15% pada sistem temu kembali informasi tanpa pembobotan dengan pembobotan per konteks. Adapun dengan membandingkan nilai rata-rata AVP dan MAP pada masing-masing sistem temu kembali informasi dengan pembobotan per konteks dan dengan melihat grafik perbandingan antara masing-masing nilai Average Precision diketahui bahwa sistem temu kembali informasi dengan pembobotan pada konteks title dan author menghasilkan kinerja yang paling baik dibanding percobaan lainnya.

(22)

11

Saran

Beberapa hal yang perlu dikembangkan lebih lanjut dari penelitian ini antara lain sebagai berikut:

1 Menggunakan jumlah koleksi dokumen yang lebih banyak

2 Menggunakan kueri uji selain yang digunakan dalam penelitian ini

3 Melakukan analisa perbandingan dengan metode pencarian koefisien bobot per konteks yang lain.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval.Wokingham (UK) : Addison Wesley.

Kamps J, Marx M, de-Rijke M, Sigurbjornsson B. 2003. XML:What to Retrieve ?. Di dalam: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval; 2003 July 28 – august 1. Toronto (CAD) : ACM. Hlm 1.

Kontostathis A,Lilly A, Spiteri RJ. 2008. Distributed EDLSI, BM25, and power normat TREC 2008. Di dalam: Proceedings of The Seventeenth Text Retrieval Conference; 2008 Nov 18-21.Maryland (US) : National Institute of Standards and Technology. Hlm 4.

Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval.New York(US) : Cambridge University.

(23)

12

ireng darwati, mono rahardjo, dan rosita smd </author> <text>

<p>som jawa merupakan tanaman yang menghasilkan umbi. untuk menghasilkan umbi yang optimal, diperlukan tanah yang sifat-sifat fisik dan kesuburannya baik. kondisi tersebut dapat dicapai

dengan penggunaan bahan organik (kasting, kompos daun bambu dan pupuk kandang). penelitian ini bertujuan mempelajari pengaruh beberapa macam komposisi bahan organik sebagai media tanam dalam pot (polybag) terhadap produksi umbi som jawa.

pot diisi 20 kg media tanam, ditempatkan di lapangan terbuka ip cimanggu di balittro. percobaan berlangsung mulai bulan september 1996 sampai september 1997.

rancangan yang digunakan adalah rancangan acak kelompok dengan empat ulangan. perlakuan komposisi media bahan organik yang diuji adalah

(1) tanah;

(2) tanah + pupuk kandang (3:1); (3) tanah + kasting (3:1);

(4) tanah + kompos daun bambu (3:1);

(5) tanah + kasting + kompos daun bambu (6:1:1); (6) tanah + pupuk kandang + kompos daun bambu (6:1:1); (7) tanah + pupuk kandang + kasting (6:1:1).

tanaman diberi pupuk dasar 1 g urea, 3 g tsp, dan 3 g kcl, serta 2 g urea sebagai pupuk susulan pada 3 bulan setelah tanam. tanaman dipanen pada umur 1 tahun setelah tanam.

(24)

13 Lampiran 2 Daftar kueri dan jumlah dokumen relevan

(25)

14

Lampiran 3Daftar stopword

acapkali bicarakan iya menurutnya semakin

ada bicaranya jadi menuturkan semampunya

adakah bila jadikan menyatakan semenjak

adakan bilamana jadilah menyebabkan sementara

adalah bilang jadinya menyebutkan semestinya

adanya bisa jangan menyia semisal

adapun bisakah jarang mereka semoga

aduh bisanya jauh merupakan semua

agak boleh jelaskan meski semuanya

agaknya boro jika meskipun semula

agar buat jikalau mesti seolah

aja buatnya juga mestinya seorang

akalan bukan jumlah misal seorangpun

akan bukankah jumlahnya misalkan sepadan

akankah bukanlah justru misalnya sepanjang

akhir bukannya juta mudah separah

akhirnya buktikan kabupaten mula sepasang

akibat cara kadang mulai sepele

akibatkan cerita kalau mulainya sependapat

akibatnya ceritanya kalaupun mulanya seperti

aku contoh kali muncul sepertinya

ala contohkan kalian mungkin seputar

alangkah contohnya kami mungkinkah seraya

alasan cukup kamu namun serba

alasannya cuma kan nanti serentak

alih daerah kapan negara sering

alihkan dahulu karena nilai seringkali

amat dalam karenanya nyaris seringkalinya

amatlah dan kata nyiakan seringlah

ambil dapat katakan oleh seringnya

anda dapatkah katakanlah orang serta

andai dapatkan katanya pada sertanya

anggap dapatlah kau padahal sesaat

anggapan dari kayak padanannya sesama

antar darinya kayaknya paling sesamamu

antara daripada kebanyakan panjangnya sesedikit

antaranya dekat kebetulan papar seseorang

apa dekatnya kebiasaan paparan sesuai

apabila demi kecil paparkan sesuatu

apakah demikian kecuali paparnya sesuatunya

(26)

15 Lampiran 3 Lanjutan

apalah dengan kemanakah pasti sesudahnya

apanya dengannya kembali pastilah sesukanya

apapun depan kemudian pastinya sesungguhnya

arti depannya kemungkinan pelak setelah

artian dia kemungkinannya pelbagai setelahnya

artinya dialah kenapa pemaparan seterusnya

asalan dialami kenapakah pembagian setiap

asalkan dialihkan kepada pembagiannnya setidak

asumsi diambil kepadanya pendapat setidaknya

asumsinya diambilkan kepala pengalihan seusai

atas diambilnya ketika pengambil sewaktu

atasnya dianggap ketimbang pengambilan seyogyanya

atau diantara khususnya pengandaian sia

ataukah diantaranya kini per sialnya

ataupun diapakan kita peralihan siap

awal dibagi kondisi percuma siapa

bagai dibagikan kurang peri siapakah

bagaikan dibeberapa lagi perihal siapapun

bagaimana diberbagai lagian perlahan silahkan

bagaimanakah diberi lagipula perlu singkatnya

bagaimanapun diberikan lain pernah sini

bagi diberinya lainnya persen sinilah

baginya dibiarkan laksana pertamanya situ

bagus dibiasakan lakukan pertanian sosok

bagusnya dibilang lalu petani sosoknya

bahkan dicontoh lalui pinggir suatu

bahwa dicontohkan lama pula sudah

baik dicontohkannya lanjut pulalah sulit

baiknya didapat lantaran pun sungguh

balik didapati lantas rata sungguhpun

banding didapatkan lebih relevankah supaya

bandingkan didapatnya lepas rendah tak

banyak didasarkan lewat saat tambahnya

banyaknya digolongkan lokasi saatnya tanggapan

barangkali digunakan maka saatnyalah tanggapannya

baru diharapkan makin saja tanggapnya

bawah dijadikan mampu salah tanpa

bawahnya dijadikannya mampukah sama tapi

beberapa dikarenakan mampunya sambil tatkala

begini dikasih mana sambutannya telah

(27)

16

Lampiran 3 Lanjutan

begitu dikatakan manalagi sana tengah

begitulah dikatakannya manapun sang tentang

begitupula dikategorikan masa sangat tentu

begitupun dikembangkan masih sangatlah tentunya

belakang diketahui masihkah satunya tepatnya

belakangan diketahuinya masing saya terbagi

belum dilaksanakan masuk sayangnya terbalik

belumlah dilakukan masyarakat seakan terbiasa

benar dimana mau seandainya terbilang

benarkah dimulai maupun seantero terdapat

benarnya dimulailah melainkan sebab tergolong

berada dimulainya melakukan sebabkan terhadap

berakhir dimungkinkan melalui sebabnya terjadi berakhirnya dipaparkan melihat sebagai terjadilah berakibat dipersilahkan memang sebagaimana terjadinya berakibatkan disaat memaparkan sebagainya terkadang

beralasan disebabkan membagi sebagian terkait

beralih disejumlah membagikan sebaik terkecuali

beralihnya diseluruh memberi sebaiknya terlalu beranggapan disertai memberikan sebaliknya terlebih

berapa disertakan memberinya sebanyak termasuk

berapanya disimpulkan membiarkan sebelum ternyata berapapun disitulah membolehkan sebelumnya tersebut

berarti ditanggapi membuat sebenarnya tertentu

berasumsi ditanya memeperoleh seberapa terus

berbagai ditanyakan memiliki seberat tetap

berbagi dituturkan meminta sebesar tetapi

berbanding diucapkan memperbolehkannya sebetulnya tiap

berbeda dkk mempersilahkan sebuah tiba

berdampak dll mempunyai secara tidak

berdasarkan dsb memungkinkan sedalam tidaklah

berhadapan dua menanggapi sedang tidaknya

berharap dulu menanggapinya sedangkan tiga

berhubung dulunya menanyakan sedapat tinggi

berhubungan empat mencapai sedemikian tutur

beri enggak mencontohkan sedikit tuturnya

berikan engkau mendapat sedikitnya ucap

berikanlah esok mendapati segera ucapan

berikut gimana mendapatkan sehabis ucapannya

(28)

17 Lampiran 3 Lanjutan

berkat habiskan mengada sehingga ujar

berkenaan habisnya mengaku sehubungan ujarnya

berkesan hal mengalami sejak umpamanya

berkesempatan hampir mengalihkan sejauhmana umum berkesimpulan hanya mengambil sejumlah umumnya berlalu hanyalah mengambilnya sekalian ungkap

berlalunya hari menganggap sekaligus ungkapan

berlama harus menganggapnya sekalipun ungkapkan berlangsung haruskah mengapa sekarang ungkapnya

bermula haruslah mengatakan sekata untuk

bersama harusnya mengembangkan sekedar usah bersamaan hendak mengenai sekeliling usahlah bertepatan hendaklah menggunakan seketika usai beruntun hendaknya mengungkapkan sekian usianya

berupa hingga meningkat sekitar waktu

besarnya how meningkatkan selagi waktulah

beserta ialah menjadi selain waktunya

besok ingin menjadikan selalu walau

besoknya ini menjadikannya selama walaupun

betapa inilah menjelang selanjutnya warga

biar inipun menjelaskan selesai well

biarlah itu menuju selesaikah yaitu

biasa itulah menunjukkan seluruh yakni

(29)

18

Lampiran 4 Interpolasi precision dan recall pada sistem temu kembali informasi tanpa memperhatikan konteks

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP 0.890 0.574 0.864 0.461 0.825 0.631 0.698 0.915 0.604 0.708 0.659 0.299 1.000 0.939 0.672 0.0 1.000 0.333 1.000 0.833 1.000 1.000 1.000 1.000 0.833 1.000 1.000 0.338 1.000 1.000 1.000 0.1 1.000 0.550 1.000 0.708 1.000 1.000 0.667 1.000 0.775 0.944 1.000 0.346 1.000 1.000 1.000 0.2 1.000 0.690 1.000 0.500 1.000 0.598 0.600 1.000 0.792 0.779 0.874 0.358 1.000 1.000 0.909 0.3 1.000 0.652 1.000 0.517 1.000 0.625 0.690 1.000 0.683 0.659 0.885 0.381 1.000 0.938 0.652 0.4 0.939 0.655 0.857 0.475 0.847 0.548 0.667 1.000 0.634 0.697 0.744 0.326 1.000 0.889 0.625 0.5 0.787 0.608 0.882 0.438 0.812 0.569 0.700 1.000 0.574 0.736 0.632 0.286 1.000 0.905 0.577 0.6 0.808 0.555 0.900 0.392 0.721 0.581 0.679 0.800 0.510 0.646 0.498 0.255 1.000 0.920 0.620 0.7 0.809 0.592 0.913 0.315 0.705 0.604 0.667 0.833 0.477 0.601 0.387 0.242 1.000 0.931 0.561 0.8 0.818 0.591 0.750 0.270 0.631 0.565 0.688 0.833 0.422 0.562 0.397 0.244 1.000 0.939 0.463 0.9 0.804 0.452 0.732 0.268 0.634 0.496 0.667 0.857 0.434 0.539 0.390 0.231 1.000 0.895 0.402 1.0 0.800 0.455 0.395 0.265 0.585 0.444 0.684 0.857 0.420 0.531 0.349 0.231 1.000 0.857 0.400

(30)

19 Lampiran 5Interpolasi precision dan recall pada sistem temu kembali informasi

dengan pembobotan pada konteks title, author dan text

(31)

20

Lampiran 6Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title dan author

(32)

dengan pembobotan pada konteks author dan text

(33)

22

Lampiran 8Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks title dan text

(34)

dengan pembobotan pada konteks author

(35)

24

Lampiran 10 Interpolasi precision dan recall pada sistem temu kembali informasi dengan pembobotan pada konteks text

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP 0.868 0.586 0.719 0.413 0.798 0.632 0.784 0.915 0.577 0.698 0.637 0.288 1.000 0.000 0.727

0.0 1.000 0.500 1.000 0.833 1.000 1.000 1.000 1.000 0.833 1.000 1.000 0.234 1.000 0.000 1.000 0.1 1.000 0.708 1.000 0.410 1.000 1.000 1.000 1.000 0.775 0.944 1.000 0.331 1.000 0.000 1.000 0.2 1.000 0.611 0.833 0.523 0.958 0.528 1.000 1.000 0.690 0.725 0.776 0.404 1.000 0.000 1.000 0.3 1.000 0.618 0.714 0.469 0.819 0.592 0.857 1.000 0.683 0.665 0.791 0.374 1.000 0.000 0.822 0.4 0.957 0.655 0.618 0.423 0.777 0.608 0.667 1.000 0.659 0.621 0.674 0.363 1.000 0.000 0.675 0.5 0.777 0.567 0.667 0.389 0.753 0.600 0.700 1.000 0.609 0.646 0.695 0.286 1.000 0.000 0.714 0.6 0.808 0.610 0.703 0.329 0.721 0.611 0.679 0.800 0.501 0.654 0.474 0.262 1.000 0.000 0.701 0.7 0.809 0.569 0.647 0.296 0.731 0.604 0.714 0.833 0.458 0.639 0.396 0.243 1.000 0.000 0.597 0.8 0.705 0.541 0.675 0.277 0.663 0.554 0.688 0.833 0.351 0.609 0.399 0.233 1.000 0.000 0.433 0.9 0.714 0.502 0.700 0.268 0.643 0.508 0.667 0.857 0.328 0.545 0.392 0.223 1.000 0.000 0.398 1.0 0.696 0.465 0.395 0.268 0.571 0.435 0.684 0.857 0.344 0.531 0.333 0.218 1.000 0.000 0.412

(36)

dengan pembobotan pada konteks title

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 MAP 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000

0.0 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.1 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.2 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.3 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.4 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.5 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.6 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.7 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.8 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 0.9 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000 1.0 1.000 0.333 1.000 0.000 1.000 1.000 0.000 0.000 0.000 1.000 1.000 1.000 0.000 0.000 1.000

(37)

26

(38)

27

RIWAYAT HIDUP

Penulis dilahirkan di Bogor, Jawa Barat pada tanggal 14 Desember 1984 dari Bapak Hardi Arifin dan Ibu Nonon Komariah. Penulis merupakan anak pertama dari dua bersaudara.