Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web

(1)

1

Implementasi Teknik Peringkasan Semantic Virtual

Document Pada Pengelompokkan Hasil Pencarian

Halaman Web

Rahmani Dwiastuti, Diana Purwitasari, Umi Laili Yuhana Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember

1 dias_tc07@cs.its.ac.id 2 diana@its-sby.edu 3 yuhana@cs.its.ac.id

Abstract— Saat ini semakin banyak penggunaan internet dikalangan masyarakat khususnya dalam hal pendistribusian informasi melalui mesin pencari. Mesin pencari pada umumnya memiliki sekumpulan data dalam jumlah yang cukup besar yang dapat menjadi sumber untuk bahan pencarian. Namun, data dalam jumlah yang cukup besar tersebut menimbulkan dampak berupa waktu pengolahan yang relatif lama dalam memilah-milah informasi yang sesuai dengan kebutuhan. Masalah lain juga terdapat pada pengguna, yaitu kurang mengetahui penggunaan mesin pencari, sehingga seringkali pengguna memasukkan kata kunci tunggal atau kata kunci yang kurang bermakna, yang berdampak pada presisi hasil pencarian yang rendah.

Dalam tugas akhir ini diperkenalkan beberapa metode untuk mengatasi permasalahan-permasalahan yang telah disebutkan diatas.Metode-metode tersebut adalah metode Semantic Virtual Document (SVD) untuk melakukan peringkasan, teknik klasterisasi berbasis hirarki Single Linkageuntuk melakukan pengelompokkan dan divisualisasikan menggunakan GUI-Tree, model ruang vektor dan perhitungan persamaan kosinus untuk melakukan pencarian dokumen, dan metode Rocchio untuk pemberian rekomendasi kata kunci.

Berdasarkan serangkaian pengujian yang dilakukan pada tugas akhir ini, diperoleh beberapa kesimpulan yaitu pencarian dokumen pada aplikasi ini paling baik menggunakan jenis pembobotan Okapi dan LTU. Peringkasan dokumen menggunakan metode SVD dapat menghasilkan peringkasan yang memiliki tingkat kesepakatan cukup baik. Pengelompokkan dokumen berdasar topik berhasil ditingkatkan hingga 100%, dengan menggunakan teknik klasterisasi berbasis hirarki tunggal dan paling baik menggunakan jenis pembobotan Okapi.. Perluasan kata kunci menggunakan metode Rocchio dapat dilakukan, namun hasil rekomendasi kurang relevan dengan kata kunci awal karena terdapat ambiguitas pada kata kunci awal.

Keywords

—

peringkasan, semantic virtual document,

klasterisasi hirarki tunggal, Rocchio

I. PENDAHULUAN

Internet saat ini telah marak dikalangan masyarakat karena telah membawa perubahan yang cukup besar dalam hal pendistribusian informasi. Salah satu fasilitas yang disediakan untuk memperoleh informasi di dunia maya yaitu mesin pencari, antara lain Google, Wikipedia, MSN, dan Yahoo. Mesin pencarian tersebut pada umumnya memiliki sekumpulan data dalam jumlah yang cukup besar yang dapat menjadi sumber dalam memperoleh informasi yang dibutuhkan oleh pengguna. Namun disisi lain, sekumpulan data dalam jumlah yang cukup besar tersebut memberikan dampak negatif bagi pengguna yaitu dibutuhkan waktu yang relatif lama untuk memilah-milah informasi yang sesuai dengan kebutuhan mereka. Selain permasalahan yang timbul dari sistem mesin pencari, permasalahan juga ditemui pada pengguna mesin pencari. Pengguna mesin pencari yang kurang kemampuannya akan penggunaan mesin pencari, seringkali memasukkan kata kunci tunggal atau kurang bermakna, sehingga menghasilkan dokumen kembalian yang kurang relevan atau kurang spesifik.

Solusi untuk mengatasi permasalahan tersebut adalah diperlukannya teknik peringkasan pada mesin pencari karena selain dapat mempermudah pengguna dalam memperoleh inti dari suatu dokumen, juga dapat mempermudah sistem dalam melakukan proses pengelompokkan. Selain itu juga diperlukan pengelompokkan pada sekumpulan data menjadi beberapa topik berdasarkan isi dari tiap dokumen, agar dapat memepermudah pengguna dalam menyaring dan memilih dokumen yang mengandung informasi yang mereka butuhkan. Untuk mengatasi kata kunci pengguna yang kurang bermakna maka akan dilakukan pemberian rekomendasi kata kunci yang akan menjadi umpan balik dari sistem ke pengguna agar memperoleh hasil pencarian yang lebih spesifik.

II. TINJAUAN PUSTAKA

A. Riset Terkait

iSEARCH merupakan aplikasi mesin pencari yang menerapkan teknik peringkasan pada halaman web dan mengelompokkan hasil peringakasan tersebut. Selain itu, aplikasi iSEARCH juga dapat memeberikan rekomendasi kata kunci pada pengguna mesin pencari [CHE2004]. Pada aplikasi tersebut diterapkan teknik peringkasan Semantic

(2)

kalimat-2 kalimat penting pada suatu halaman web dan menghasilkan suatu hasil peringkasan yang dapat mewakili isi dokumen. Hasil peringkasan tersebut akan dilakukan pengindeksan dan pembobotan menggunakn pembobotan Term Frequency-

Inverse Document Frequency (Tf-Idf) dan nantinya akan

digunakan dalam pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki Single-Linkage.

Pada tugas akhir ini akan diterapkan empat jenis pembobotan kata yang merupakan variasi dari pembobotan Tf-Idf, yang menambahkan beberapa parameter tambahan sebagai perbandingan. Jenis pembobotan tersebut yaitu

Mutual Information (MI), Automated Text Categorization

(ATC), Okapi dan Linear Threshold Unit (LTU) [REE2006]. Hal itu dilakukan untuk mengetahui jenis pembobotan yang paling baik diterapkan pada aplikasi ini.

B. Pembobotan Kata

Setiap dokumen mengandung beberapa kata yang berbeda-beda. Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi dokumen yang heterogen adalah pembobotan kata, karena setiap kata memiliki tingkat kepentingan yang berbeda dalam dokumen. Oleh karena itu diberikan sebuah indikator yaitu bobot term [MAN2009]. Terdapat lima jenis pembobotan kata yang digunakan pada tugas akhir ini antara lain pembobotan Term

Frequency-Inverse Document Frequency (Tf-Idf) dan empat jenis

pembobotan yang merupakan variasi dari pembobotam tf-idf yang menggunakan parameter tambahan sebagai pertimbangan. Variasi pembobotan tersebut yaitu Mutual

Information (MI), Automated Text Categorization (ATC)

menggunakan parameter tambahan berupa tf maksimum, Okapi dan Linear Threshold Unit (LTU) yang menggunakan panjang dokumen dan rata-rata panjang dokumen sebagai parameter tambahan [REE2006].

Pembobotan TF-IDF

Term Frequency (tf) merupakan jumlah kemunculan

kata pada suatu dokumen. Semakin besar jumlah kemunculan suatu kata dalam dokumen, maka semakin besar pula bobotnya dalam dokumen. Terdapat beberapa jenis rumus dalam mencari nilai tf. Jenis tf yang digunakan pada tugas akhir ini yaitu tf normalisasi , rumus (1) merupakan rumus dari perhitungan tersebut [MAN2009].

tf =

(1)

tf adalah jumlah kemunculan kata pada suatu dokumen dan

max(tf) adalah tf yang paling maksimal pada suatu dokumen.

Inverse Document Frequency (idf) merupakan

pengurangan dominansi term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term yang banyak muncul di berbagai dokumen dianggap sebagai term umum sehingga tidak penting nilainya [MAN2009]. Rumus (2) merupakan rumus yang digunakan pada perhitungan idf.

idfj = log

(2)

D adalah jumlah koleksi dokumen dan df adalah jumlah

dokumen yang mengandung kata tj.

Setelah mendapatkan nilai tf dan idf maka selanjutnya mengalikan nilai tersebut untuk mendapatkan

bobot tiap kata pada masing-masing dokumen [MAN2009]. Rumus (3) merupakan rumus umum pembobotan tf-idf.

wij = tfij x idfj (3)

wij adalah bobot kata ke-i pada dokumen ke-j.

Pembobotan MI

MI atau biasa disebut dengan transinformation, adalah metode pengukuran jumlah informasi yang bisa didapat dari sebuah variabel acak, dengan mempelajari variabel lainnya. Rumus (4) merupakan rumus dari MI [REE2006]. (4)

N merupakan jumlah dokumen dan M merupakan banyak kata

pada setiap dokumen.

Pembobotan ATC

Rumus (5) merupakan rumus dari pembobotan ATC

[REE2006]. (5)

Parameter tambahan yang digunakan pada pembobotan ATC adalah yaitu nilai tf yang paling maksimum yang terdapat pada setiap dokumen.

Pembobotan Okapi

Pada sistem temu kembali informasi, Okapi atau juga dikenal dengan nama Okapi BM25 merupakan fungsi perankingan yang digunakan oleh mesin pencari untuk mengurutkan hasil pencocokan dokumen-dokumen, berdasar pada relevansinya terhadap kata kunci pencarian yang diberikan [ROB2009]. Berikut merupakan rumus dari Okapi [REE2006]. (6) Parameter tambahan pada Okapi yaitu dl yang merupakan panjang tiap dokumen, panjang tersebut didapat dari banyak kata pada tiap dokumen dan kata-kata tersebut telah melalui proses penghapusan kata yang tidak penting (stopword

removal) dan avg_dl merupakan rata-rata panjang keseluruhan

dokumen.

Pembobotan LTU

Pembobotan LTU dikenal sebagai Pivoted Unique

Normalization (PUN) yang merupakan pengembangan dari

metode sebelumnya yaitu Pivoted Cosine Normalization (PCN). LTU biasa digunakan bersamaan dengan LNU dan lebih dikenal dengan metode Lnu.ltu. Lnu biasa digunakan untuk pembobotan terhadap dokumen. Sementara ltu digunakan untuk pembobotan terhadap query [ORO2007]. Rumus dari pembobotan LTU sebagai berikut [REE2006].

(7) Parameter tambahan pada LTU yaitu dl yang merupakan panjang tiap dokumen dan avg_dl merupakan rata-rata panjang keseluruhan dokumen.

(3)

3

C. Persamaan Kosinus

Pengukuran kesamaan kosinus yaitu pengukuran berdasarkan besar sudut kosinus antara vektor dokumen dengan vektor kata kunci. Berdasarkan sudut kosinus antar dua vektor, maka nilai yang dihasilkan berkisar pada 0-1, 0 menandakan kedua dokumen tidak memiliki kemiripan sama sekali dan 1 menandakan kedua dokumen memiliki kemiripan yang identik. Metode pengukuran kesamaan kosinus ini memiliki beberapa keuntungan yaitu adanya normalisasi terhadap panjang dokumen atau banyaknya kata dalam dokumen. Hal ini diperlukan karena dokumen yang mengandung banyak kata cenderung mendapatkan hasil pengukuran yang besar dibandingkan dengan dokumen yang tidak mengandung banyak kata [MAN2002].

Terdapat beberapa tahap untuk mendapatkan nilai relevansi antara dokumen dengan kata kunci [GAR2006], yaitu:

1) Menghitung panjang vektor

dan (8) 2) Menghitung perkalian dalam (inner product) kedua

vektor



(9)

3) Menghitung kesamaan kedua vektor

(10) Keterangan :

|Di|adalah panjang vektor dokumen ke-i

|Q|adalah panjang vektor kata kunci pengguna

wij adalah bobot kata ke-i pada dokumen ke-j

wqj adalah bobot kata kunci ke-i pada dokumen ke-j



adalah perkalian dalam antara kata kunci dan dokumen ke-i

Cos(Q,Di) adalah persamaan kosinus antara kata kunci dan dokumen ke-i

D. Metode Rocchio

Perluasan kata kunci adalah proses pemberian rekomendasi beberapa kata yang dapat dipilih dan ditambahkan pada kata kunci untuk meningkatkan performa dalam pencarian informasi. Metode perluasan kata kunci yang digunakan pada tugas akhir ini adalah algoritma Rocchio.

Rocchio menyatakan bahwa kata kunci yang optimal adalah

kata kunci yang memaksimalkan perbedaan antara rata-rata kesesuaian dokumen relevan dan dokumen-dokumen tidak relevan [SAL1990]. Metode umpan balik yang diajukan oleh Rocchio bertujuan untuk mendekatkan vektor kata kunci awal kearah vektor kata kunci optimal. Rumus (11) merupakan rumus dari metode Rocchio [SAL1990].

(11)

Keterangan :

Q1 adalah vektor kata kunci baru

Q0 adalah vektor kata kunci awal

Di adalah vektor dokumen relevan ke-i

Dj adalah vektor dokumen tidak relevan ke-j

|Di|adalah panjang vektor dokumen relevan ke-i

|Dj|adalah panjang vektor dokumen tidak relevan ke-j

n1 adalah jumlah dokumen relevan

n2 adalah jumlah dokumen tidak relevan

Suatu dokumen dikatakan relevan jika dokumen tersebut memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pada tugas akhir ini tingkat relevansi dapat dilihat dari hasil perhitungan kesamaan kosinus antara kata kunci masukkan pengguna dan dokumen bayangan pada setiap kelompok. Dokumen bayangan adalah dokumen yang berisi kata-kata yang bobotnya merupakan hasil rata-rata kata pada seluruh dokumen dalam satu kelompok. Sehingga, dokumen bayangan dapat mewakili seluruh dokumen pada satu kelompok.

Hasil perhitungan Rocchio dengan nilai terbesar akan dipilih dan kelompok tersebut menjadi kelompok yang dianggap paling relevan dengan kata kunci dan dokumen-dokumen yang terdapat dalam kelompok tersebut disebut dokumen relevan, sedangkan dokumen-dokumen yang terdapat pada kelompok lain disebut dokumen tidak relevan.

E. Semantic Virtual Document (SVD)

Semantic Virtual Document (SVD) merupakan teknik

peringkasan yang menggunakan kata kunci masukkan pengguna dan anchortext sebagai parameter. Anchortext adalah kata yang mengandung link pada suatu halaman web. Penggunaan anchortext sebagai salah satu parameter karena

anchortext dianggap dapat memberikan informasi tambahan

pada hasil peringkasan, yang relevan dengan isi keseluruhan dokumen asli. Anchortext dapat digambarkan seperti pada Gambar 1. My favorite search engine is Google http://url/page.html Anchortext Google http://www.google.com

Dokumen Asli Dokumen Back Link /

Tujuan Anchortext

Link

Gambar 1 Anchortext Pada Suatu Halaman Web

Teknik SVD memiliki dua jenis perhitungan untuk menentukan kalimat yang dianggap penting yaitu perhitungan penilaian query-biased dan perhitungan penilaian

anchortext-biased. Kedua hal tersebut dianggap penting untuk

mendapatkan ringkasan dengan baik karena kata kunci dapat mewakili informasi yang dibutuhkan oleh pengguna dan

anchortext dapat memberikan informasi tambahan yang

relevan dengan dokumen asli [CHE2004]. Berikut merupakan ilustrasi anchortext pada suatu dokumen :

Hasil dari proses SVD berupa kumpulan kalimat dari

Biased Summaries dan Semantic Summaries. Query-Biased Summaries terdiri dari 2 kalimat dengan nilai tertinggi

hasil perhitungan penilaian query-biased pada dokumen asli. Namun jika pada dokumen asli tidak terdapat anchortext maka SVD hanya akan berisi 5 kalimat dari Query-Biased

Summaries.

Perhitungan Penilaian Query-Biased

Penilaian Query Biased atau lebih dikenal dengan

query scoring (qs) yaitu penilaian yang dilakukan pada tiap

kalimat dalam dokumen dengan melihat kemunculan kata kunci pada kalimat tersebut. Rumus (12) merupakan rumus dari penilaian Query Biased [CHE2004].

Query Score = n2 / q (12)

n merupakan jumlah kata kunci pada tiap kalimat dan q

(4)

4

Perhitungan Penilaian Anchortext-Biased

Penilaian Anchortext Biased atau lebih dikenal dengan ‗anchortext scoring‘ yaitu perhitungan relevansi

anchortext antara halaman awal dengan halaman tujuan.

Rumus (13) merupakan rumus dari penilaian

Anchortext-Biased [CHE2004].

Anchortext Score = n2 / a (13) n merupakan jumlah anchortext pada kalimat dan q

merupakan jumlah kata pada anchortext.

Pemilihan anchortext menggunakan perhitungan penilaian anchortext-biased pada dokumen asli. Perhitungan tersebut dilakukan pada setiap kalimat dan kemudian dijumlahkan. Anchortext yang terpilih adalah anchortext dengan nilai penjumlahan tertinggi. Kemudian dilakukan proses stopword dan stemming terhadap anchortext yang dimaksud tersebut. Setelah itu, dilakukan pencarian atas total penjumlahan nilai hasil perhitungan pada setiap anchortext.

Kemudian, untuk mendapatkan hasil ringkasan setiap dokumen, kita harus memilih kalimat-kalimat yang relevan dengan kata kunci masukkan pengguna dan anchortext terpilih. Terdapat 4 teknik perhitungan, yaitu :

1. Perhitungan Penilaian Query-Biased pada Dokumen Asli 2. Perhitungan Penilaian Anchortext-Biased pada Dokumen

Asli

3. Perhitungan Penilaian Query-Biased pada Dokumen Tujuan Anchortext.

4. Perhitungan Penilaian Anchirtext-Biased pada Dokumen Tujuan Anchortext

Dari total 4 penghitungan diatas, akan didapatkan kalimat-kalimat yang relevan dengan kata kunci masukkan pengguna dan anchortext terpilih, untuk membentuk ringkasan tiap dokumen.

F. Klasterisasi Berbasis Hirarki Tunggal

Pengelompokkan merupakan sebuah teknik yang digunakan untuk mengelompokkan objek-objek berupa variabel atau data sehingga dapat menghasilkan suatu informasi berdasarkan relasi yang terjadi. Prinsip yang digunakan dalam pengelompokkan adalah memaksimalkan nilai kesamaan dalam satu kelompok dan memaksimalkan ketidaksamaan antar kelompok[MAN2009]. Terdapat tiga jenis pengelompokkan berbasis hirarki yaitu Single Linkage yang memperhatikan dua objek dengan jarak terpendek atau tetangga terdekat dengan kompleksitas waktu O(n2), Complete Linkage yang memperhatikan dua objek dengan jarak terjauh

dengan kompleksitas waktu O(n2 log n), dan Average Linkage

yang memperhatikan dua objek dengan jarak rata-rata dengan kompleksitas waktu O(n2 log n)[MAN2009].

Pada tugas ini akan menggunakan pengelompokkan menggunakan hirarki Single Linkage karena kesederhanaan dari metode tersebut dan ketersediaan waktu perhitungan yang optimal. Dari kompleksitas waktu yang telah disebutkan sebelumnya, metode ini memiliki kompleksitas waktu yang paling kecil karena metode ini melakukan pengelompokkan objek dengan jarak terdekat[MAN2009]. Berikut merupakan langkah-langkah pengelompokkan beserta contohnya :

1. Menentukan profil atau fitur yang akan menjadi acuan pengelompokkan

2. Menghitung jarak dua kelompok menggunakan perhitungan jarak Euclidean. Rumus (14) merupakan rumus dari jarak Euclidean :

(14)

adalah jarak antara dokumen 1 dan dokumen 2. x dan y adalah atribut atau fitur pada tiap-tiap dokumen yang dapat mewakili isi dokumen.

3. Mencari dua kelompok yang memiliki jarak antar kelompok paling minimal dan gabungkan kedua kelompok tersebut.

4. Kembali ke langkah tiga dan ulangi sampai mencapai kelompok data yang diinginkan.

G. Koefisien Kappa

Koefisian Kappa biasa digunakan untuk mengukur nilai kesepakatan dari dua pengamat terhadap karakteristik yang menjadi perhatian penelitian. Variabel yang diukur pada proses bersifat dikotomi yaitu dengan jawaban iya atau tidak [VIE2005].

Langkah pertama untuk menghitung koefisian Kappa yaitu harus menyusun klasifikasi kedua pengamat terhadap subjek penelitian kedalam tabel 2x2, seperti pada Tabel 1 :

Tabel 1 Klasifikasi Antar Pengamat

Pengamat I

Ya Tidak Total Pengamat II Ya a b a+b

Tidak c d c+d

Total a+c b+d N = a+b+c+d

a dan d menunjukkan jumlah kesetujuan observasi dari kedua

pengamat sedangkan b dan c menunjukkan jumlah ketidaksetujuan observasi dari kedua pengamat. Jika tidak ada kesetujuan maka nilai kesepakatan yang terobservasi po adalah 0 namun jika tidak ada ketidaksetujuan maka nilai kesepakatan yang terobservasi po adalah 1 atau 100% [VIE2005].

Rumus (15), (16), dan (17) merupakan rumus perhitungan koefisien Kappa [VIE2005].

(15) (16) (17) po merupakan nilai kesepakatan yang terobservasi dan pe merupakan nilai kesepakatan yang diharapkan. Tabel 2 merupakan tabel interpretasi dari hasil perhitungan koefisien kappa [VIE2005].

Tabel 2 Interpretasi dari Kappa

Kappa Persetujuan

< 0 Kurang dari peluang persetujuan 0.01 - 0.20 Peluang persetujuan sedikit (Slight) 0.21 - 0.40 Peluang persetujuan cukup (Fair) 0.41 - 0.60 Peluang persetujuan sedang (Moderate) 0.61 - 0.80 Peluang persetujuan substansial 0.81 - 0.99 Peluang persetujuan hampir sempurna

H. Presisi

Presisi merupakan suatu parameter untuk mengetahui apakah kualitas hasil pencarian dokumen terhadap kata kunci dikatakan baik atau tidak. Presisi dapat diartikan sebagai tingkat kecocokan antara permintaan pengguna melalui kata

(5)

5 kunci dengan hasil pencarian sistem, kecocokan tersebut bergantung pada seberapa sesuai dokumen tersebut bagi pengguna. Pada tugas akhir ini presisi juga digunakan untuk mengevaluasi hasil klasterisasi. Perhitungan presisi dapat dinyatakan dalam bentuk tabel, seperti dalam Tabel 3.

Tabel 3 Relevant dan retrieved

Relevant Not Relevant Total

Retrieved A B A+B

Not Retrieved C D C+D

Total A+C B+D A+B+C+D

Rumus (20) merupakan rumus perhitungan presisi.

(20)

relevant adalah jumlah dokumen yang relevan dan retrieved

adalah jumlah dokumen yang dikembalikan oleh system. Dokumen yang dihasilkan oleh sistem berupa dokumen hasil pencarian.

III. PERANCANGAN PERANGKAT LUNAK DAN

IMPLEMENTASI

Aplikasi dalam tugas akhir ini memiliki kemampuan untuk mempermudah pengguna dalam mendapatkan informasi yang mereka butuhkan pada suatu mesin pencari. Gambar 2 merupakan gambaran umum dari aplikasi ini :

Pengguna Hasil peringkasan dokumen Kelompok dokumen hasil peringkasan Rekomendasi kata kunci Kata kunci dan

jenis pembobotan

Keluaran Masukkan

Gambar 2 Gambaran Umum Aplikasi

Pengguna memberikan masukkan berupa kata kunci yang mewakili informasi yang dibutuhkan dan jenis pembobotan, kemudian sistem akan memberikan keluaran berupa hasil peringkasan dokumen, kelompok dokumen yang divisualisasikan menggunakan GUI-Tree, dan rekomendasi kata kunci.

Aplikasi ini memiliki dua proses utama, proses pertama yaitu pra proses dokumen HTML yang diakses oleh administrator dan proses mencari dokumen yang diakses oleh pengguna. Gambar 3 merupakan bagan pra proses dokumen :

Dokumen HTML Administrator Ekstraksi Metadata Dokumen Pemilahan Dok. Menjadi Kalimat Pengindeksan

- Pemilahan Kal. Menjadi kata - Stopword - Stemming Kata Pembobotan Kata Pengelompokkan Dokumen Pemilihan anchortext tiap dokumen Database Isi Teks D a ft a r K a lim a t Daftar Kata Bobot Kata Daftar Kata Daftar Kalimat Kelompok Dok. Bobot Kata D aft ar K ata Anchortext Terpilih

Gambar 3 Pra Proses Dokumen

Pada bagian pra proses dokumen HTML dijelaskan beberapa sub proses yang terjadi, pertama setelah aplikasi dapat membaca data asli dalam bentuk tag-tag HTML maka akan dilakukan ekstraksi metadata dokumen untuk isi teks inti dokumen. Kemudian, dilakukan pemilahan isi teks hasil ekstraksi metadata dokumen menjadi beberapa kalimat yang akan digunakan pada proses meringkas dokumen menggunakan SVD. Setelah didapatkan daftar kalimat, maka akan dilakukan pengindeksan yang terdiri dari pemilahan kalimat menjadi kata, eliminasi kata-kata tidak penting (stopword removal), dan pengembalian kata ke bentuk dasarnya (stemming). Daftar kata yang dihasilkan dari sub proses tersebut akan digunakan untuk pemilihan anchortext pada setiap dokumen dan akan dilakukan pembobotan yang akan digunakan pada pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki tunggal. Hasil dari setiap sub proses akan disimpan ke dalam basis data. Gambar 4 merupakan bagan proses mencari dokumen :

Pengguna

Peringkasan Dokumen

Database

Kata Kunci dan Jenis Pembobotan

Anchortext terpilih

pada dokumen

Pengindeksan

- Pemilahan Dok. Menjadi kata - Stopword - Stemming Kata Pembobotan Kata Pengelompokkan Dokumen Pencarian Dokumen

Perluasan Kata Kunci

R in g k a s a n Ringkasan D a ft a r K a ta Bo bot Ka ta Bobot Kata Kelompok Dok.

Dok. Relevan & Tdk Relevan Kelompok Dok.

Daftar Kata

Gambar 4 Proses Mencari Dokumen

Pada bagian proses mencari dokumen dijelaskan bahwa untuk melakukan peringkasan dokumen menggunakan metode

Semantic Virtual Document (SVD), selain dibutuhkan anchortext untuk perhitungan penilaian anchortext-biased

juga dibutuhkan masukkan kata kunci dari pengguna untuk perhitungan penilaian query-biased. Setelah didapatkan hasil peringkasan dari masing-masing dokumen maka selanjutnya akan dilakukan pengindeksan yang terdiri dari pemilahan

(6)

6 dokumen menjadi kata, eliminasi kata-kata tidak penting (stopword removal), dan pengembalian kata ke bentuk dasarnya (stemming). Dari sub proses tersebut dihasilkan daftar kata yang akan dilakukan pembobotan dan akan digunakan pada pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki tunggal. Selajutnya, dilakukan pencarian dokumen menggunakan persamaan kosinus pada kelompok-kelompok dokumen tersebut. Sub proses pencarian dokumen akan menghasilkan kumpulan dokumen relevan dan dokumen tidak relevan yang akan digunakan untuk perluasan kata kunci menggunakan metode Rocchio. Hasil dari setiap sub proses akan disimpan ke dalam basis data.

Antarmuka aplikasi ini dapat dilihat pada gambar-gambar dibawah ini. Gambar 5 menunjukkan antarmuka awal aplikasi, terdapat text field untuk kata kunci masukkan pengguna dan combo box yang berisi jenis pembobotan.

Gambar 5 Antarmuka Awal Aplikasi

Gambar 6 menunjukkan antarmuka hasil proses mencari dokumen. Pada proses ini menghasilkan kelompok dokumen yang divisualisasikan menggunakan GUI-Tree, hasil pencarian yang diurutkan berdasarkan nilai perhitungan similaritasnya, yang terdiri dari nilai similaritas, judul dokumen, 100 kata pertama hasil peringkasan, dan alamat dokumen. Selain itu juga terdapat 5 rekomendasi kata kunci yang diurutkan berdasarkan nilai perhitungan menggunakan metode Rocchio.

Gambar 6 Antarmuka Hasil Proses Mencari Dokumen

Gambar 7 menunjukkan antarmuka hasil peringkasan tiap dokumen. Pada panel bagian tengah terdapat judul dokumen, isi ringkasan, dan alamat dokumen. Pada hasil peringkasan

secara menyeluruh terdapat highlight terhadap kata kunci yang muncul pada hasil peringkasan tersebut.

Gambar 7 Antarmuka Hasil Peringkasan Tiap Dokumen

IV. UJI COBA DAN EVALUASI

Skenario uji coba yang akan dilakukan terhadap implementasi teknik peringkasan Semantic Virtual Document pada pengelompokkan hasil perncarian halaman web yaitu uji coba peringkasan menggunakan SVD, uji coba klasterisasi menggunakan metode hirarki tunggal, uji coba pencarian dokumen menggunakan persamaan kosinus, uji coba perluasan kata kunci menggunakan metode Rocchio, dan uji coba fungsionalitas sistem.

Data yang digunakan pada pengujian sisten ini yaitu 100 dokumen Wikipedia dalam bentuk file HTML yang telah diunduh terlebih dahulu dan beberapa kata kunci (kata atau frase) yang akan disesuaikan dengan pelaksanaan uji coba.

1) Uji Coba Peringkasan Menggunakan Perhitungan

Kappa

Uji coba ini bertujuan untuk mengetahui ketepatan hasil peringkasan dari dokumen-dokumen yang telah tersedia. Hal itu dilakukan dengan membandingkan hasil peringkasan sistem dengan hasil peringkasan situs web peringkasan online dengan alamat http://www.tools4noobs.com/summarize/. Data uji coba yang digunakan dalam uji coba ini yaitu 100 dokumen dan kata kunci yang didapat dari kata-kata terbaik yang dihasilkan oleh situs web peringkasan online. Situs web peringkasan online tersebut memilih kata-kata terbaik dengan melihat banyaknya kemunculan kata pada suatu dokumen. Contoh pemilihan kata kunci dapat dilihat pada Tabel 4.

Tabel 4 Contoh Pemilihan Kata Kunci

Judul Dokumen

Kata Terbaik

Kata Kunci Dok.Asli Dok. Backlink

Antivirus Software

Anatomy Anatomy Anatomy human study

system Human Human

Study System

Pada uji coba peringkasan ini rata-rata nilai Kappa dari 100 dokumen adalah 0.333. Berdasarkan tabel interpretasi Kappa pada Tabel 2.27 nilai tersebut menunjukkan bahwa tingkat persetujuan dari kedua pengamat terhadap hasil peringkasan adalah cukup. Hal itu menunjukkan bahwa isi peringkasan dari setiap dokumen cukup mewakili informasi yang terdapat pada dokumen dan informasi yang sesuai dengan kata kunci masukkan pengguna. Sedangkan rata-rata nilai Kappa untuk setiap tingkat persetujuan dapat dilihat pada Tabel 5.

(7)

7

Tabel 5 Rata-Rata Nilai Kappa Pada Setiap Tingkat Persetujuan

Tingkat Persetujuan Rata-rata Nilai Kappa

Poor 4 % Slight 22 % Fair 33 % Moderate 28 % Substansial 4 % Perfect 9 %

Dari tabel diatas dapat dianalisis bahwa baik atau tidaknya hasil peringkasan bergantung pada isi teks hasil ekstraksi metadata dokumen. Isi teks dokumen tersebut nantinya akan dipilah menjadi kalimat dan akan dilakukan perhitungan teknik SVD pada tiap kalimat. Semakin baik hasil metadata, tidak terdapat banyak cite note dan references, maka semakin baik pula hasil pemilahan dokumen menjadi kalimat.

2) Uji Coba Klasterisasi Menggunakan Perhitungan

Presisi

Uji coba ini bertujuan untuk mengetahui apakah dokumen-dokumen telah terkelompok berdasarkan topiknya dan kelompok-kelompok tersebut dapat mempermudah pengguna dalam menyaring dan memilih dokumen yang memuat informasi yang mereka butuhkan.

Uji coba ini akan diterapkan ke 100 dokumen asli, jenis pembobotan Okapi, dan dua macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan,

threshold tersebut digunakan untuk menentukan matriks fitur.

Dipilih jenis pembobotan Okapi karena pada uji coba pengelompokkan terhadap dokumen asli, jenis pembobotan tersebut dapat mengelompokkan dokumen satu sama lain atau tidak terdapat outliers. Tabel 6 menunjukkan hasil perhitungan dan rata-rata presisi pada uji coba klasterisasi dengan jumlah kelompok sama dengan 7 dan menggunakan jenis pembobotan Okapi.

Tabel 6 Hasil Perhitungan dan Rata-Rata Nilai Presisi Pada Uji Coba Klasterisasi

Kata Kunci Nilai Presisi (%)

threshold 50% threshold 75% Antivirus software 100 100 Molecular biology 100 100 Reproductive system 100 100 Respiratory system 100 100 Central processing unit 100 100

Dari tabel diatas dapat dilihat bahwa nilai presisi hasil klasterisasi dokumen peringkasan sebesar 100%, hal itu menunjukkan bahwa dokumen-dokumen telah terkelompok berdasarkan profil atau fitur yang telah ditentukan.

3) Uji Coba Pencarian Menggunakan Perhitungan

Presisi

Tujuan dari uji coba pencarian menggunakan persamaan kosinus yaitu untuk mengetahui ketepatan hasil dokumen kembalian, apakah dokumen-dokumen tersebut telah sesuai dengan kata kunci yang dimasukkan oleh pengguna atau tidak. Data uji coba yang digunakan adalah 100 dokumen menggunakan 30 kata kunci yang telah dipilih dari judul dokumen-dokumen yang tersedia, 2 macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis

pembobotan, dan 3 jenis pembobotan yaitu Tf-Idf, Okapi, dan LTU.

Hasil pencarian dari setiap uji coba akan dibandingkan dengan dengan daftar dokumen relevan yang telah disediakan. Dokumen relevan tersebut berupa 15 dokumen yang hasil peringkasannya paling banyak mengandung kata kunci masukkan pengguna. Kemudian hasil tersebut akan dievaluasi menggunakan perhitungan presisi. Hasil rata-rata nilai presisi dari percobaan ini dapat dilihat pada Tabel 7.

Tabel 7 Hasil Rata-Rata Perhitungan Presisi Pada Uji Coba Pencarian Dokumen

Jenis Pembobotan Nilai Presisi (%) threshold 50% threshold 75% Tf-Idf 41,667 46,923 Okapi 61,111 49,107 LTU 45,454 65,769

Pada tabel diatas dapat dilihat bahwa pada saat menggunakan threshold 50% dari bobot maksimal maka jenis pembobotan yang paling baik digunakan adalah jenis pembobotan Okapi dan saat menggunakan threshold 75% dari bobot kata maksimal maka jenis pembobotan yang paling baik digunakan adalah jenis pembobotan LTU.

4) Uji Coba Perluasan Kata Kunci Menggunakan

Perhitungan Presisi

Tujuan dari uji coba terhadap perluasan kata kunci yaitu untuk mengetahui apakah kata kunci baru hasil perluasan kata kunci dapat lebih membantu pengguna untuk memperoleh dokumen kembalian yang mengandung informasi yang mereka butuhkan. Data uji coba yang akan digunakan adalah 100 dokumen, 30 kata kunci baru yang mengandung kata kunci awal yang digunakan saat uji coba pencarian dokumen dan kata kunci baru hasil perluasan kata kunci, 2 macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, dan 3 jenis pembobotan yaitu Tf-Idf, Okapi, dan LTU.

Hasil pencarian dari setiap uji coba akan dibandingkan dengan dengan daftar dokumen relevan yang juga digunakan pada uji coba pencarian. Hasil rata-rata nilai presisi dari percobaan ini dapat dilihat pada Tabel .

Tabel 8 Hasil Rata-Rata Perhitungan Presisi Pada Uji Coba Pencarian Dokumen Dengan Kata Kunci Baru

Jenis Pembobotan Nilai Presisi (%) threshold 50% threshold 75% Tf-Idf 36,957 30,833 Okapi 56,034 33,333 LTU 37,5 15,400

Tabel diatas akan dibandingkan dengan Tabel 7 .Dari hasil perbandingan kedua rata-rata tersebut dapat dilihat bahwa rata-rata nilai presisi pada pencarian menggunakan kata kunci baru lebih kecil daripada rata-rata nilai presisi pada pencarian menggunakan kata kunci awal. Sehingga dapat disimpulkan bahwa kata kunci hasil perluasan kurang membantu pengguna dalam mendapatkan informasi yang lebih spesifik.

5) Uji Fungsionalitas

Tujuan uji coba fungsionalitas yaitu untuk mengetahui kegunaan sistem ini bagi pengguna mesin pencari secara umum dalam memperoleh suatu informasi yang dibutuhkan.

(8)

8 Pelaksanaan uji coba fungsionalitas dengan cara melakukan proses pencarian menggunakan tiga kata kunci utama yang divariasi, contohnya pada kata kunci ―Antivirus Software‖ akan divariasi menjadi ―Antivirus Software Software‖ dan ―Software Antivirus Antivirus‖.Hal itu untuk mengetahui apakah aplikasi ini dapat diterapkan pada dokumen berbahasa Indonesia yang memiliki beberapa kata perulangan seperti kupu-kupu, jalan-jalan, mata-mata, dll. Dari uji coba ini akan diamati waktu berjalannya program dan perbedaan hasil pencarian dari beberapa kata kunci tersebut.

Hasil uji coba fungsionalitas menunjukkan bahwa rata-rata waktu yang dibutuhkan saat menjalankan sistem adalah 2 menit 53 detik. Hal itu dikarenakan lamanya waktu yang dibutuhkan dalam menghasilkan suatu hasil pencarian. Dalam memperoleh hasil peringkasan, sistem harus melakukan beberapa perhitungan SVD terlebih dahulu pada 100 dokumen yang tersedia, kemudian dilakukan proses pengelompokkan pada hasil peringkasan tersebut, barulah dilakukan pencarian dokumen dan perluasan kata kunci. Selain itu, lamanya waktu yang dibutuhkan saat menjalankan sistem juga disebabkan oleh banyaknya perulangan yang dilakukan pada pembobotan kata yang akan digunakan pada pengelompokkan dokumen dan perluasan kata kunci dan juga dipengaruhi oleh perangkat keras yang digunakan pada saat uji coba.

Untuk hasil uji coba menggunakan beberapa variasi kata kunci didapatkan hasil bahwa jika terjadi perulangan kata kunci tidak terlalu mempengaruhi hasil pencarian dokumen karena hanya akan mempengaruhi perhitungan panjang vektor kata kunci yang akan digunakan pada perhitungan persamaan kosinus. Sedangkan, untuk pengelompokkan dokumen dan perluasan kata kunci perulangan kata kunci tidak berpengaruh karena meskipun diulang lebih dari satu kali pada kata kunci, penyimpanannya dalam basis data dianggap satu kata dan hanya akan memiliki satu bobot. Sehinggan dapat diambil kesimpulan bahwa aplikasi ini kurang dapat diterapkan pada dokumen berbahasa Indonesia karena perhitungan tersebut hanya memperhatikan jumlah kemunculan kata bukan makna kata. Sedangkan pada contoh kata Bahasa Indonesia yang berulang, kata ―jalan‖ dan ―jalan-jalan‖ memiliki makna yang berbeda. Contoh variasi kata kunci yang digunakan dalam uji coba ini terdapat pada Tabel 5.9.

Tabel 9 Kata Kunci Variasi

Kata Kunci Kata Kunci Variasi Antivirus software Antivirus software software

Software antivirus antivirus Molecular biology Molecular biology molecular

Molecular biology biology Central processing unit Processing processing central unit

Central central processing unit Central processing unit unit

V. KESIMPULAN DAN SARAN

Kesimpulan yang dapat diambil dari tugas akhir ini antara lain sebagai berikut :

1. Kalimat-kalimat penting dalam halaman web dapat ditentukan menggunakan metode Semantic Virtual

Document (SVD) dengan rata-rata nilai Kappa 0.33. Hal

itu dikarenakan metode ini melakukan perhitungan pada setiap kalimat, semakin banyak kata kunci atau

anchortext terpilih pada suatu kalimat maka semakin

penting pula kalimat tersebut.

2. Dokumen dapat terkelompok berdasarkan topiknya menggunakan klasterisasi hirarki tunggal (Single

Linkage) dengan rata-rata nilai presisi 100%. Hal itu

dikarenakan adanya penentuan profil atau fitur yang dapat mewakili topik atau isi dari setiap dokumen. Namun pada hasil klasterisasi ini dapat terjadi kondisi dimana tidak semua dokumen terkelompok karena terjadi kesalahan dalam pemilihan dataset atau dokumen. 3. Visualisasi menggunakan GUI-Tree dapat mengatur tampilan hasil pengelompokkan dokumen, sehingga dapat mempermudah pengguna dalam memilih dokumen yang dibutuhkan.

4. Metode Rocchio dapat digunakan dalam pemilihan rekomendasi kata kunci. Namun hasil rekomendasi kurang membantu pengguna karena adanya ambiguitas terhadap kata kunci awal.

Beberapa saran perbaikan untuk pengembangan Tugas Akhir ini adalah :

1. Perlu dikembangkan metode untuk mencari nilai

threshold yang optimal agar dapat menghasilkan

hasil pengelompokkan dan perluasan kata kunci yang baik.

2. Perlu diterapkan suatu metode untuk mengatasi ambiguitas kata sehingga menghasilkan perluasan kata kunci yang relevan dengan kata kunci awal

REFERENSI

[CHE2004] Chen, Lihui dan Chue, Wai Lian. 2004. Using Web Structure and Summarisation Techniques for Web Content Mining. Nanyang Technological University, Republic of Singapore.

[GAR2006] Garcia, Dr. E. 2006. The Classic Vector Space Model. URL: <http://www.miislita.com/term-vector/term-vector-3.html>

[KEY1998] Keyes, John. 1998. PorterStemmer.java. < URL: http://www.ils.unc.edu/~keyeg/java/porter/Porter Stemmer.java>

[MAN2002]Mandala, R. dan Setiawan, H. 2002. Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan Query Secara Otomatis. Institut Teknologi Bandung.

[MAN2009]Manning, Christopher D., Raghavan, Prabhakar, & Schutze Hinrich. 2009. An Introduction to Information Retrieval. Cambridge University Press, Cambridge, England.

[MAR1979] Mardia, Kantia et al. 1979. Multivariate Analysis. Academic Press.

[ORO2007]Oroumchian, F., Aleahmad, A., Hakimian, P., Mahdikhani, F. 2007. N-Gram and Local Context Analysis for Persian Text Retrieval. University of Tehran dan University of Wollongong, Dubai. [POR1980] Porter, M.F. 1980. An Algorithm for Suffix

Stripping. Program, Vol.14, no.3, pp 130-137. [REE2006] Reed, Joel W., Jiao Yu, Potok, Thomas E., Klump, Brian A., Elmore, Mark T., dan Hurson, Ali R. 2006. TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams. Oak Ridge National Laboratory dan The Pennsylvania State University,USA.

(9)

9 [ROB2009] Robertson, Stephen dan Zaragoza Hugo. 2009.

The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval Vol. 3, No. 4 (2009) 333– 389.

[SAL1990] Salton, G. dan Buckley C. 1990. Improving Retrieval Performance by Relevance Feedback. Cornell University, Ithaca, New York.

[TEK2009] Teknomo, Kardi. 2009. Hierarchical Clustering Tutorial.URL:http://people.revoledu.com/kardi/tu torial/ Clustering/Cophenetic.htm>

[THE2011] The MathWorks, Inc. 2011. Cophenet. URL: http://www.mathworks.com/help/toolbox/stats/co phenet.html>

[VIE2005] Viera, Anthony J. dan Garrett, Joanne M. 2005. Understanding Interobserver Agreement: The Kappa Statistic. University of North Carolina. [WHI2002] White, Ryen W., Jose, Joemon M., & Ruthven

Ian. 2002. A task-oriented study on the influencing effects of query-biase summarization in web searching. University of Strathclyde, Scotland.