PRQTQTIPE
SPECIFIC
DOMAIN SEARCH
ENGINE
DENGAN MENGGUNAKAN
METQDE ICLUSTER BERHIRARICI
ADE LIANA
JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATll<h DAN ILMU l'ENGE'T,1I-IUi\N ALAM
1IVS'T:l'U'T I'ERTANIAN BOGOR
Ade Liana. Prototipe Specfic Do~rroi~i Search Engine Dengan Menggunaka~~ Metode Kluster Berhirarki (Specijc Donlain Search E~igine l'rotoppe Using lfierarchical Clr~stering Method). Dibimbing oleh JULIO ADISANTOSO dan YEN1 I4ERDIYENI.
General purpose search engine rnemang tnenawarkan banyak informasi bagi penggunanya, namun ~nemiliki satu kekuranga~i yaitu nilai precision dari hasil a:mu ke~nbalinya kecil. Salali satu alternatif solusinya adalah dengan menggonaka~l sl)ecijic do~~toiri search engine, sehingga sistem telnu kembali dibatasi hanya pada domain tertentu saja. I'enelitiar~ ini bettujua~l urlluk inenelaah penggunaan metode kluster berhirarki dalam sistem temu ke~nbali untuk me~nhangu~~ spec* c/o~r,,rlair~ search engine dan kinerja metode kluster berhiraki dala111
is tern
temu kembali.Dokumen yang digunakan dalam pcnelitian ini berjumlah 107 buali dokomen yalig berupa ringkasan karya ilmiah mahasiswa SI IPB. Metode kluster berhirarki digunakan untuk rnengelompokkan istilah
berdasarkan frekuensi setiap istilah dala~n dokumen. Pengelompokan ini dilakukan dengan menggunakan
SPSS 9.0, dimana metode yang digunakan adalah metode pautan rata-rata dalam kelompok yang baru
(average linkage within the new grotrp) dan output yang dihasilkan dala~n proses ini berupa dendogrcrnr
istilah. Kluster yang terbentuk akan diyunnkan untr~k meml~erluas kueri dala~n pencarian dokumen, di mana istilah-istilah yang berada dalam satu kluster dianggap memiliki tnakna sania, sellingga
~nemperbesar peluang terambilnya dokumen yang relevan.
Untuk analisis kinerja search engine digunakan rnetode perhitungan recall dan precision, yang masing-masing merupakan perbandingan antara dokumen relevan yang terambil dengan jumlali
PliOTOTIPE
SPECIFIC DOMAIN SEARCH ENGlNE
DENCAN MENGGUNAKAN
METODE KLUSTER BERHIRARKI
ADE
LIANA
Skripsi
sebagai salah satu syarat untuk me~nperolel~ gelar Sarjana Komputer
pada
Progn1111 Studi llmu Kornputer
JURUSAN ILMU KORIPUTER
FAKULTAS MATEMATIIU DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAPq BOGOR
Judul : Prototipe S,>ecijic ~olllaill Senrch Engi~le Dellgall M e ~ ~ g g ~ i ~ l a k a l l Metode Kluster Berhirarki
Nama : A d e Liana
NIM : GO6497025
en' tlerdi eni S.Kom
.
,j
\t;[y,i
200'3
RIWAYAT IIIDUI'
Penulis dilaliirkan di Jakarta pada tanggal 25 Agustus 1979 sebagai anak kedua dari empat
bersaudara, anak dari pasangan Tjong Wie Soeng dan Susi Mclawati Wiryana.
Pada tahun 1997 penulis lulus dari SMU Negeri 68 Jakarta dan pada tahun sama lulus seleksi masuk
IPB melalui jalur U~idaiigan Seleksi Masuk IPB (USMI), dengan pilihan Program Studi IImu Komputer.
Pada tahun 1998 penulis niulai rnendalanii bidang ilmu kon~puter di Jurusan Ilmii Komputer, Fakultas
Matematika dan ll~nu Pengetaliuan Alam.
Selama mengikuti perkulialian penulis ~iienjadi asisten mata kuliah Algoritma dan Pemrograrnan pada
PRAKATA
Puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, karena atas segala karunia-Nya
karya ilmiah ini dapat diselesaikan. T e ~ n a yang dipilili dalam penelitian ini adalali search engine dengan
judul Prototipe Domain Specific Searcli Engine Dengnn Merigguriakan Metode Kluster Berliirarki.
Terima kasih penulis sampaikan kepada berbagoi piliak yang telali membantu penyelesaian karya
ilmiah ini, antara lain adalali Bapak Ir. Julio Adisantoso, M.Komp den lbu Ye~ii I-lerdiyeni S. Konip
selaku pembinibing. Di saniping itu terima kasih juga penuli!; sampaikan kepada rekan-rekan di Jurusan
llmu Kon~puter atas bantuanoya, kliususnya kepada Ronaldo atas bantuan dan dukungan morilnya.
Ungkapan terima kasih juga penulis llaturkan kepada kedua orang tua serta seluruli keluarga atas doa,
dukungan dan kasih sayangnya.
Penulis menyadari sepenuhnya baliwa karya ilmiah ini masih menliliki banyak kekurangan. Meskipurl
demikian penulis berharap semoga karya ilmiah ini dapat ~nenienuhi fungsi utama sebagai salah satu
syarat memperoleh gelar,Sarjana Komputer pada Program Studi Ilmu Koniputer, Fakultas Mate~natika dan
Ilmu Pengetahuan Alan~, lnstitut Pertanian Bogor. Selairi itu penulis juga berharap agar tulisan ini dapat
bermanfaat di waktu mendatang.
Bogor, November 2001
DAPTAR
IS1
DAFTAR TABEL
...
.
.
.
...
viDAFTAR GAMBAR
...
viDAFTAR LAMPIRAN
...
.
.
.
...
viPENDAHULUAN
...
.
.
.
...
I...
Latar Belakang...
.
.
.
.
I Tujuan...
.
.
...
I TINJAUAN PUSTAKA...
I...
...
Search Engine.
.
.
I...
...
Klasifikasi Otomatis...
....
....
....
1...
...
Kluster Berhirarki.
.
.
.
2...
...
Efektivitas dan Efisiensi.
.
3...
METODOLOGI PENELITIAN 4...
...
Pengumpulan Dokumen.
.
.
4...
Ekstraksi lnformasi 4...
...
Pembentukan Kluster.
.
.
.
4...
Pembuatan Search Engine...
.
.
.
.
4HASlL DAN PEMBAHASAN Karakteristik Dokumen
...
5Pemilihan dan Perhitungan Istilah
...
5...
Karakteristik Kelompok 5...
Seurch Engine...
.
.
.
7Recall dan Precisian
...
.
.
.
...
7KESIMPULAN DAN SARAN
...
8Kesimpulan
...
.
.
...
8Saran
...
.
.
...
8DAFTAR PUSTAKA
...
9DAFTAR TABEL
I
.
Deskripsi dokumen...
.
.
.
.
...
52
.
Daftar kondisi yang diterapkan dalaln perhitungan istilah...
53
.
Ringkasan kluster yang terbentuk...
64
.
Daftar beberapa kelompok yang terbentuk pada jarak 5...
65
.
Daftar istilah percobaan...
76
.
Precision dan recall...
87
.
Jumlah dokumen yang terarnbil pada level koordir~asi h ( B 1, 26...
8.
Julnlah dokumen yang tera~nbil dan relevan pada level koordinasi h (A, nBD,
) 26 9.
Jumlah seluruh dokumen yang relevan (A, )...
26DAFTAR GAMBAR I
.
Diagralll alur pencarian dokumeli...
7...
2.
Grafik recall dan precision... .
.
8PENDAHULUAN
Latar Beluka~ig
Seiring dengan bertambahnya informasi pada World Wide Web, benambah pula kesulitan kita
untuk mencari informasi yang kita i~iginkan.
Memang tersedia beberapa general-ptrrpose search engine, seperti Altavista
,
HotBot &an sebagainya, yang memiliki cakupan luas, tapi hasil~iya kurang memuaskan, dimana nilai precisiunnya kecil. Ketika kita menginginkan infor~nasi pada bidang tertentu, spec.cijic donlain search engine kira~iya merupakan solusi yang lebih tepat.Pembuatan search engine dapat dikelo~npokkan
dalam tiga tahap fungsional, yaitu : mengumpulkan
informasi, mengekstrak infor~iiasi dan
merepresentasikannya melalui sebuah web
inreflace (McCallum el a/).
lnformasi biasanya tersedia dala~n bentuk dokumen. Namun demikian, biasanya yang disimpan bukanlah teks keseluruhan dari dokulnen melainkan representasinya, sepeni ringkasan, judul atau kata kunci (Rijsbergen, 1979).
Banyak penelitian dilakukan untuk
mendapatkan prosedur pengolahan doknmen yang efektif dan efisien. Menurut Rijsberge~i (1979), ada tiga area penelitian dalaln siste~n [e11111 ke~libali, yaitu : analisis isi dokumen, struktur i~il'or~nasi, d a ~ i
evaluasi. Analisis isi doku~nen tcrkait de~igan
penggambaran isi dokumen dala~n be~ituk yang sesuai untuk pelnrosesan kompuler, struktur informasi terkait dengan kegiatan mengeksploitasi hubungan antar dokumen untuk meningkatkan efisiensi dan efektivitas dari strategi temu kembali, dan evaluasi terkait dengan pengukuran efektivitas dari sisrem temu kembali.
Penelitian-penelitian awal sisteni temu ke~nbali informasi mengadopsi serial file urgimization, yang dihasilkan oleh nietode klasifikasi otomatis.
Good
Rc
Fainhorne (1958)dalall,
Rijsbergen(1979) merupakan salah satu orang yang pertalila kali menyatakan bahwa klasifikasi otorliatis sarlgat berguna untuk temu kembali dokumen. Sela~ijutnya banyak penelitian lain yang dilakukan untuk mendapatkan prosedur yang lebilr efektif d a ~ i
efisien, di antaranya adalah Luhn (1957)
dalam
Rijsbergen (1979) yang menggunakan frekue~isi kata dalam dokumen untuk menentukan kata yang tepat untuk merepresentasikan dokumen, Spark-
Jones (1971)
-
Adisantoso (2001) yalignlemperluas kueri menggunakan teknik kluster berdasarkan kemunculan kata dalalii dokumen.
Perluasan kueri itu sendiri dimaksudkan untuk
nietnperbesar peluang tera~nbilnya dokumen
relevan dengan cam memperbanyak istilali yang dilibatk.an dalam kueri, di luar istilali yang di tentukan oleh pengguno (Adisantoso, 2001). Istilah yang tlilibatkan adalah istilali-istilah yang berada dalam satu kelompok dcligan istilali yang dimasukkan oleh pengguna, karena dianggap memiliki makna yang salna (Salton, 1989).
T u j u a r ~
Tujuan pe~ielitia~i ini adalall menciaah
penggonnan nietodc kluster berhirarki dalam siste~ll toiiu kembali u a h ~ k iiie~nbangan spc~ijic donrain search etigir~e dan kinerja metode klt~ster berhirarki dnlam sistco~ tenill kcmbali.
TINJAUAN I'USTAICA
Set~rcl: Et~girle
Search engine adalali sebuah sistem basis data yang didesai~i untuk mengindeks alamat-alan~at di internet, seperti : url, rtsenet.Jp, ala~nat irlruge dan
sebagainya (Iittp://www.~iarthur~iwebs.co~ii/sct/).
I<lasililtasi Oto~iiatis
Menurut Rijsbergen (1979), tujuan dari pengelompokar~ dokurner~ adalali agar pengambilan dokumen lebih cepat. Beberapa metode klasifikasi didasarkan pada hubungan biner antar obyek. Berdasarkan hubungan itulali sebuali rnctodc klasifikasi dapat membentuk suatu sistem kluster. Hubungan tersebut dapat digambarkan sebagai
kesatnaan (sittrilarity) dan ketidaksati~aan
(dissir~~ilarity),
Ukuran kesamaa~i ini dirancang unluk
mengkuantifikasi kesamaari (111e liket~ess) antar obyek sehingga dapat diasumsikan baliwa obyck- obyek dapat dikelompokkan sedemikian rupa sehingga obyek-obyek pada satu kluster lebih mirip dibandingkan obyek-obyek pada kluster lain.
Berbagai model rnatenlatika telah banyak digunakan untuk niereprese~ltasikan siste~ii-siste~ii dan prosedur-prosedur dalani [emu ke~iibali.
dia~itaranya adalali model Buoleu~t, tiiodel
Andenberg (1973)
dalam
Prasetyo (1998) danJohnson & Wichern (1988) menyatakan bahwa
jarak statistika dapat digunakan sebagai ukuran kesamaan antar vektor. Semakin dekat jarak antar sepasang vektor maka semakin erat hubungan antar vektor tersebut.
Beberapa ukuran kesamaan menurut Johnson &
Wichern (1988) adalah jarak Eticlideun dan
Minkowski. Misalkan diketahui, x = [XI,
x',
...,
xP]'
dan y = ly',y2, ...,y dimana x' adalah bobot istilah
x
dalam dokumen ke-i dan y' adalah bobot istilah y dalam dokumen ke-i, sedatigkan p adalah dimensi atau jumlah dokumen. Maka jarakEuclidean dinyatakan sebagai :
sedangkan jarak Minkowski dinyatakan sebagai :
jika m=I, maka d(x,y) menjadi jarak city-block antara dua titik dalam p dimensi. Sedangkan jika m=2, d(x,y) menjadi jarak Esclidemz.
Kluster Berlrirarki
Teknik pengelompokan yang dilakukan melalui serangkaian penggabungan atau penlisal~an disebut
dengan teknik kluster berhirarki (Johnson &
Wichern, 1988).
Menurut Bacelar & Nicolau (2000). pada
analisis kluster berhirarki ada dua pendekatan utama untuk merepresentasikan struktur data. Pada level dasar yang paling sering digunakan adalah koefisien perbandingan yaitu kesamaan atau ketidaksamaan antar variabel, yang sama sekali tidak terkait dengan aspek peluang. Sedangkan pada level lebih lanjut, digunakan model peluang @robabilisric models) berdasarkan koefisien- koefisien peluang @robabilisric coeflsienls).
Secara umum penyusunan birarki dapat
dibedakan menjadi pemisahan (dili,.isive) atau penggabungan (agglornerurive). Pada proses awal penyusunan kluster berhirarki pada penggabungan.
sebuah obyek dianggap sebagai satu kluster
sehingga banyaknya kluster awal sa~iia dengan banyaknya obyek. Obyek-obyek yang paling salna adalah yang pertama dikelonlpokka~~. Proses penggabungan berlangsung terus berdasarkan
kesamilan antar obyek sampai akhirnya terbentuk suatu Itluster tunggal. Sedangkan pada proses pemisalian, yang terjadi adalah kebalikannya (Johnson & Wichern, 1988).
Misalkan diketahui sebuail matriks jarak segitiga bawah sebagai berikut :
di mana, si, adalah jarak atau nilai kesatnaan antara
obyek i dan j. Maka prosedur yang bias any;^
dipakai dalaln penggabungan kluster adalal~ (Anderberg, 1973) :
I . Mulai dengar1 n kluster, yang masing- tnasing terdiri dari satu obyek. Beri label setiap kluster dengan notnor dari I sall~pai n.
2. Mencari kluster yang paling sama ~nelalui matriks kesamaan (sir/rilurity n~ulris). Beri label kluster yang terpilih dengan huruf p dan q dan nilai kesamaan kluster tersebut adalal, s,, p q.
3. Junllali. kluster dikurang I karena sudali ada kluster yang bergabung. Beri label kluster hasil penggabungan tadi dez~gan huruf q ' dan ganti nilai dala~n matriks
kesa~naan untuk merefleksikan nilai
kesan~aan antar kluster q dengan kluster- kluster yang lain.
4. Lanjutkan langkah 2 dan 3 sebanyak 11-1
kali, salnpai semua obyek metijadi snlu kluster.
Beberapa metode yang digunakan dalam pembelltukan kluster berhirarki adalall :
I. Pautan Tunggal (Single Linkuge), dimana
jarak antara kluster pq atau misalkan kluster t (yaog terbentuk pada langkali Inomor 2 di atas) dengall kluster r adalall :
sir = ~niin (s,,,~, sqr)
2. Pautan Lengkap (Con~plete Linkuge), yaitu
jarak antara kluster pq atau kluster 1
dengan kluster r adalah :
3. I'autan Rata-rata dalam Kelo~npolt ynng Baru (Average Linkage V i 1 1 i 1 Tlrc Nett, Gruiip), Ketika kluslcr p dari q berpbung, mak;~ jarak antara lkluster y a ~ i g icrbentuk, misalkan t dellgan kluster lain, misslkan r mel~jadi :
SS = SI" + S<I'
Misalkan SUM; adalali jumlall jarali antar dua elemen yalig terdapat dalam kluster i
dan Ni adalah junllall elemen dalalil kluster
i, maka ketika kluster p d a ~ ~ q bergabung, lnlisalkan lnenjadi kluster t :
SUM, = SUM,
+
SUM,, + st,,,N, = N,
+
N,Dan ketika mencari pasangall elemen yang
paling sama, jarak antar elemennya,
~nisalkan aritar elemen t dan r, dil~itung sebagai berikut :
SUM, + SUMr + s,, d(t,r) =
(N,
+ N,)(N, + N, .- 1) 1 24. Pautan Rata-rata antar Kelompok yang
T2rgabung (Average Linkrrge Ucrivec/i
Merged Grotcps). Metode ini l~ampir sama dengan lnetode sebelumnya, hanyi~ saja dalam mencari pasaogan yang paling sania, jarak alltar elemennya, misalkan elemen t
dan r, dihitung sebagai berikut :
di mana s,, adalah jumlall t i i l i ~ i kesamaan antara pasangall kluster t d a l ~ kluster r, sedangkan N, adalah jumlah obyek yang ada pada Itluster I.
Model dari kluster berhirarki dapat
direpresentasikan secara grafis, yaitu dcligan diagram pohon atau d t ~ x l u g r u i r ~ . I'iida niodcl penggabungan berhirarki, ( l o ~ ~ l o g r ~ ~ i r r di~nulai dari bagiali dilnana semua elelneli berada pada Itlustcr- kluster yarig bcrbcda, atau pada bagiall dilnana semua elemen tiielijadi sanl kluster. Patla sctiap level algoritma pengklustcra!~ inenyetukan due atau lebih klr~ster yang paling mirip (Bacclar 8: Nicol;~u, 2000).
Efcktivilas OIIII Elisic~lsi
Mcnurut l<ijsbergon ( 1 7 0 yang di~nsltsud dengan elisiensi dal;l~ii s i s t e ~ l ~ !elnu kcnibi~li ndalah pengukural~ dalam 11i1I I ~ C I I ~ ~ I I I I ~ I ~ I ~ s111nber dayil ko~npuler. Sedarigkall ontuk efcktivitas, biasallya diukur dengan precision d a ~ i recoil.
Yang dinlaksud dellgall l~reci.siu/i it11 sendiri
adalal~ perbandingell antat.;) junilali dokulneli relevan yartg ceran~bil tlerlg;~rl , j u l ~ i l a l ~ dokurnell keseluruhan yang terambil. Sedangkan recoil adalah perbandingall antilra jumlah dokumeli relevan yang tera~nbil dengan j u l n l a l ~ keselurohan dokumen yang relevan.
Misalkau diketallui A adalah Iiimpunati
dokumcn yang relevan d;111 I3 i ~ d a l a l ~ Iiimpuni111 dokumen yang terambil, ~llaka :
In
BlRECALL =
-
Salall satu mctodc p e ~ i y ~ ~ k ~ ~ r a n e f c k r i l i t ; ~ ~ dengan menggunakall nil;~i r ~ v . ~ r / l dan /,rcr.~.ir<~~r adalah teknik rata-lxti~. l i s ~ l k ; ~ S od;~l:~h himpunan istilah yang di~ii:~sukk;~~i ole11 P ~ I I ~ ~ L I I I ~ I , dan A s adalall Ilimp~tniun dokunleli yalig releva~l dengan istilah s, maka :
. . ..
Jika
A
adalah level koordinasi, dan B;, adi~lali himpunan dokulncli y a l ~ g tcrambil pad;] i i i l t ~ i koordinasi A. maka :.
.
..
Menurutnya juga, jika pelnotongan kluster
dilakukan pada awal hirarki, cenderung
menghasilkan nilai precision yang tinggi, tetapi
nilai recaN rendah. Dan sebalikoya, jika
petnotongan kluster dilakukan pada level atas hirarki, maka akan menghasilkat~ nilai precisio17 rendah dan nilai recall yang tinggi.
METODOLOGI PENELITIAN
Penelitian dilakukan melalui beberapa tahap, yaitu:
I . Pengu~npulan dokumen.
2. Pengekstrakan informasi dalani dokumell.
3. Pembentukan kluster.
4. Pe~nbuatan prototipe search engine.
5. Analisis.
Perangkat lunak yang digunokan dalam penelitian ini adalah Ms Access 97, Ms Excel 97, SPSS 9.0, dan bahasa pelnrogralnan Visual Basic 6.0. Sedangkan untuk prototipe serrrclt engine dibuat dengan ~nenggunakan ASP (Active Server Pages).
Pe~iguinpulan Doltume~l
Dokunien yang digutlakan sebagai sumbcr masukan untuk proses pengelompokan dalam temu ke~nbali adalah 107 dokutnen, yang berupa ringkasar~ (abs~racr) karya illniah mahasiswa S1 IPB.
Iiarena penelitian dilakukan utltuk specijic dor~ruin, dala~n ha1 ini adalah bidat~g ko~nputer, maka dilakukan pemilihan terhadap d o k u n l e ~ ~ yang topiknya berkaitan dengan bidang imu ko~nputer.
Eltstr~tltsi It ~ f o r r t ~ ~ l s i
Yang dimaksud dengan proses ekstraksi infortnasi adalali proses penyirnpanan i~~l'ormasi yang terkal~dung dala~n masing-masing dolturnen ke dalam suatu basis data.
Proses ini lnelibatkan beberapa modul
.
yaitu:I . Modul untuk memasukkan inforn~asi- informasi yang ada pada dokumen, seperti judul, pengarang, ringkasan dan nama-
nalna petnbi~nbing ke dalam basis data.
2. Modul untuk me~nasukkan isrilall-istilah
dalam bidang illnu ltotnputer yang tcrdapat dalaln masingmasing dokumen ke dala~ii basis data.
3 . Modul untuk n~enghitung frekuensi masing-masing istilah dalam tiap dokume~l dan hasilnyaput~ dimasukkan ke dalan~ basis data.
Pelr~beatukae Klustcr
Data frekuensi istilah yang dihasilkan pada modul ketiga digunakan unluk ~nembentuk matriks istilah-dokumen, dilnana setiap baris dalam tnatriks
menyimpan kumpulan frekuensi dari istilali
tertentu pada senlua dokumen yang ada, seperti terlihat pada matriks A berikut irii :
Dt
D>
...
D,,ditllana Ii = istila11 kc-i, Di = dokunlen kc-i, dan
fij=
frekuensi istila11 kc-i dalam dokumen kc-jMatriks istilah-dokun~e~i ini dibentuk
menggunakan sebuah modul, yang men/rarzsji.r data frekuensi istila11 yatlg ada dalam basis data kc
dalaln sebuall tile berfor~uat excel.
Setelah ~natriks istilah-dokumen terbentuk, maka dilakukan proses pengelompokan dengall menggunakan SPSS 9.0. Jellis pengelonlpokan yang dilakukan adalali mctode kluster berl~irarki
dengan ugg/o~~reratiie prucedr~re yang
menggunakan metode pautan rata-rata dalan~ kelompok yang baru, scdangkan pengukurnn
jaraknya menggunakan perl~itungan jarak
Elrclid~!an. 01rrp111 yang dil~:~silkan dalan~ proses ini berupa derldogrmrt istilali.
Der~dograrrr yang terbentuk berupa kulnpulan kluster-kluster yang berawul pada saat dimana setiap kluster dimulai dari satu istilali satnpai akhirnya setnua istilah rnenjadi satu kluster. Hal itu memberikan banyak alternatif untuk me~~entitkan dan tnempelajari kluster man;] yang sesuai untuk kebutuhan (Salton, 1989).
Pembuatan Secrrclr Krrgi~rc
Setelah kluster-kluster terbentuk, maka tahap selanjutnya adalali petnbuatan search egine. Serrrch engine dibuat dengan inenggunakan ASI' (,lctil,e Serve, Puges), dimana untuk sisi server digitrtak;~~~
vb scrip, dan untuk sisi clrerlr digut~akan j i ~ \ ~ i r
Kluster istilah yang dihasilkan pada tahap c. !ika ditemukan istilah "(record)", rnaka
sebelumnya digunakan untuk memperluas kueri istilah tcrsebut juga akan dihitul~g.
yang akan digunakan dalani pengambilaci dokulnen
(expunded booleu17 queries), dirnana istilah-istilah Tnbel 2. Daftar kondisi yang diterapkan dalam
yang berada pada satu kluster dianggap perhitungan istilah
rnernpul~yai makna sama. Hal ini dimaksudkan agar peluang dokumen yang terambil menjadi lebih besar.
HASIL DAN PEMBAHASAN
I<ilraliteristili D o l t u r ~ ~ c r ~
[image:13.608.305.515.156.295.2]Dokumen yang diproses berju~iilali 107 dokumen yang selurulinya mempunyai clo111ui17 subyek yang sama, yaitu komputer. Deskripsi dokumen dapat dilihat pada Tabel 1.
Tabel 1. Deskripsi dokumen
Tabel 1 lnenunjukkan adanya perbedaali yang cukup besar antara r~ilai rataan islilali dalam dokurnen dengan nilai rataan seluruh kata yang ada dalam dokumen. Hal il~i karena istilali-istilall yang dimasukkan hanya yang berhubungan dengan ilmu koniputer saja da11 juga karena jurlilall kata dalam suatu istilah bisa terdiri lebih dari satu kata.
dokulnen
-
Rataan istila11 dalam tiap dokumen Rataan kata dalam tiap dokumen
l'ea~ilihan d a l ~ Perl~itullgat~ Istilali
Yang dimaksud dengan istilah adalah kata-kata yang mernpuriyai arti sehingga satu istilali bisa terdiri lebih dari satu kata.
Ada beberapa kondisi yang diterapkan dalam proses penghitungan istilah dalam dokumen, yaitu suatu istilali akan dihitung jika kehadirannya dalam dokumen memenuhi kcadaan seperti terca~ltum pada Tabel 2.
Sebagai contoh, jika modul iier~dak riiencari istilali "record", ~ilaka kondisi-kondisi yang ~iiuligkin diternukan adalah :
a. Jika ditemukan istilab "recorder", istilali tersebut akan diabaikan.
b. Jika ditemukan istilah "record", maka istilali tersebut akan dihitung.
57,12 239.44
Kurnkteristik Kelor~ipok
Istilah-istilah berhasil dikelo~npokkan ke dalam 10 level birarki, yaitu pada jarak (dislcmce) 25. Jadi pada jarak tersebut seluruh istilah telali berhasil bergabung menjadi satu kluster tunggal. Kluster yang terpilil~ adalah kltrster-kluster yang terbet~tuk pada level 2 hirarki atau pada jarak (disrance) 5.
Pada jarak tersebut total kluster yang terbentuk sebanyak 436 kluster dengan perincian seperti
tercantuln pada Tabel 3. I-lasil kluster
selengkapnya dapat dilihat pada Lalnpiran 1.
Pcmililian kluster didasari ole11 pertimbangan relevansi antar istila11 dan jumlah keanggotaan kluster. Pada jarak 4 belt1111 ada kluster belgabur~g dengall kluster lai1111ya jadi setiap kluster masih terdiri dari satu istilal~, dali pada jarak 6 istilall- istila11 yang berllasil bergitbung mcl~jadi sattl kluster sudah tidak relevall lagi atau melniliki rnakna yang tidak sama. Olell karena ilu kluster yang dipilih adalah yang terbentuk pada jarak 5.
Dari T a b e l 3 terlihat bahwa jumlal~ anggota pada kluster-kluster yang terbentuk berkisar mulai I
sampai 21 istilah dalaln satu kluster. lstilah yang sudall membentuk kluster deligan istilali lainnya berjunllah 89 kluster, de~igan junilah anggota pada masing,-masing kluster antara 2 salnpai 21, sedangkan sebagian besar kluster laionya yaitu sebanyak 347 kluster dari total 436 kluster hanya
beranggotakan satu buah istilali. Hal ini
menandakan bahwa jarak E~rcliclecm yang
dillasilkan dari perhitungan frekuensi istilah dalalii dokumen cukrlp bcsar otau bisa diartikan ketidaksaoiaan antar istilall-istil:~h tersebut crtkrlp besar sehingga pada level dua dari proses
...
, , r i t i l , , , , , , Islilali dalani lnndil kuruug d;!a dinkhiri
lnndn tilik
aggregation, sebagian besar istilali belum Tabcl 4. DaFtar beberapa kelo~lipok yaiig
membentuk kluster dengan istilali lainnya. terbentuk pada jarak 5
Tabel 3. Ringkasan kluster yaiig terbcti~~ik
Tabel 4 menyajikan daftar beberapa kluster istilali yang terbentuk pada jarak 5, yang tiieiniliki jumlah anggota lebih dari satu.
Dari beberapa daftar kluster pada Tabcl 4, bisa dililiat bahwa ada beberapa kluster yeng metniliki anggota berupa isrilah-istilah yang tidak me~niliki hubungan yang jelas walaupun sebagian besar dari kluster tersebut sudah terlihat memiliki liubungan yang jelas. Istilah-istilah yang tidak meiniliki hubungan yang jelas terliliat pada istilah "fuzzy trapezoidal" dan "overlap" dan pada istilah "sistem inforniasi pariwisata" dan "monitor vga". Hal ini disebabkan karena istilah-istilali tersebut lianya berada pada satu dokumen, dan frekuensi istilah-istilah tersebut dalam dokumen sama (kedua istilah sama-sama memiliki frekuensi 2), seliingga jarak Euclidean yang terbentuk pada saat proses pengelompokan kecil. Hal ini ~nengakibatkan kedua istilah tersebut dianggap memiliki kesamaaii
yang cukup besar oleh sistem, seliingga
dikelompokkan dalam kluster yang sama.
[image:14.599.77.508.68.712.2] [image:14.599.303.507.88.712.2]Searcli E~igirtc
Search engine yang dibuat berupa prototipe
dari spec@ dunlain search engine. Jadi pengguna
hanya bisa memasukkan satu buah istilah yang dicari, kemudian akan ditampilkan judul dari
dokumen-dokumen yang sesuai secara descending
berdasarkan total frekuensi semua istilali yang terlibat dalam masing-masing dokumen. Istilah- istilah yung dapat digunakan sebagai inpur, adalah istilah-istilah yang sudah terdaftar dala~n basis data istilah.
r
Pengguna memasukkanistilah
Pencarian id kelompok istila11
dala~ii satu kluster
berdasarkan istilah
selesai
i
+
i
G a ~ n b a r 1. Diagram alur pencarian dokumen
Untuk pencarian dokumen berdasarkan istilah yang dimasukkan pengguna, diterapkan langkah- langkah seperti yang terdapat pada G a n ~ b a r 1.
Misalkan pengguna memasukkan istilah 'ljaringan syaraf tiruan", maka yang pertama dilakukan oleh
search engine adalah ~nencari istilali lain yang berada dalam satu kluster dengan "jariringan syaraf tiruan", yaitu istilall "backpropagation". Setelah didapatkan kedua istilah tersebut, nlaka n~ulailah pencarian dokumen menggunakan istilah-istilah tersebut. Dan didapatkan doku111ei1-doku~nen sebagai berikut :
I. Pengguna Analisis Komponen Utalna dan
Jaringan Syaraf Propagasi Balik untuk Pengenalan Wajah (The Use of Principal Conlponent Analysis and. Backplapagatior~ Neural Network for Face Recognition).
2. Perbandingan Metode Analitik dan Holistik
pada Pengenalan Wajal~ Menggunakan
Jaringan Syaraf Tiruali Propagasi Bt11ik Standar (The Comparison of Analytic and tlolistic Method on Face Recognition Using Standard Backpropagation Artificial Neural Network).
Tnbel 5. Daftar istilah percobaan
. ---
.[.
.-
... . . ,~ K O
I
Istilah A DIX1
Dr !llecirll dull I'recisiorr
Untuk inengukur efektivitas dari seorclr engi~le
yang dibuar, digunakan rncrode pengukuran recall
dan precision. Unluk ~netidi~patkan nilai recull dan
precision diperlukan data-data berupa jumiah
.. .,
.-
-
-.--
. -. .1
--;I
;
*,i Bnsis data 3 , ,
- . --.
-
-.. . 2 3 4 5 68 - ? % i c s , infomlusi . 27 24 27 I
9 Sirtcnl inforlnusi eksckulif
10 Siras paknr
I i Tcolio
FUZZY 9 1
x !
x / ~Information rclricval Jnringan komputcr Kon~pulcr grniik
Sii~~ulnsi . . .~~ .... .-
-i---Tiiulusi kon~puler
3 4 I 7 - . 3 3 I
-
3 . .-2 2 3
4
3
I
3
dokumen yang terambil, jumlah dokunien relevan yang terambil dan jumlah keseluruhan dokurnen yang relevan dalam setiap pengambilan dokumen.
Karena itu dilakukan percobaan melalui
serangkaian peiigambilan dokumen, yaitu sebanyak 30 kali pengambilan dengan menggunakan istilah- istilah yang berbeda untuk niendapatkan data-data tersebut.
Daftar istilah yang digunakan dalam percobaan dapat dilihat pada Tabel 5. Kolom istilah pada Tabel tersebut berisi istilah-istilah yang digunakan
dalam pengambilan dokumen, kolom
DA
berisikanjumlah dokumen yang terambil, kolom
D,
berisikan jumlah dokumen relevan yang terambil,
sedangkan kolom
Dc
berisi junilali seluruhdokumen yang relevan yang dihitung dari keseluruhan dokumen yang ada.
Untuk perhitungan recall dan precision digunakan teknik rata-rata. Hasil perhitungan secara detail dapat dilihat pada Lanipiran 2. Tabel 7 berisi jumlah dokumen yang terambil pada setiap level koordinasi dan pada setiap istilali yang digunakan, yaitu 10 level koordinasi dan 30 buah istilah. Tabel 8 berisi jumlah dokumen relevan dari dokumen yang terambil pada setiap level
koordinasi, sedangkan Tabel 9 jumlah doku~nen
relevan pada tiap-tiap istilah. Dari nilai-nilai yang ada pada tabel-tabel tersebut bisa didapatkan nilai- nilai precision dan recall seperti pada Tabel 6.
Tabel 6. Precision dan Recall
Dari nilai-nilai yang ada pada Tabel 6 dapat dibuat grafik recall dan precision seperti pada G a ~ l i b a r 2. Pada grafik tersebut terlihat liubungan negatif antar recall dan precision. Jika lrilai recall rendah, maka nilai precision tioggi, scdangkan jika nilai recall tinggi, tnaka nilai precision ceridcrung rnenurun. A 1 2 3 4 5 6 7 8 9 10
Nilai precision yang dillasilkan dari percobaan ini sangat tinggi di niana nilai yang terendali hanya 0.76 dan nilai tertinggi adalali 0.97. Sedangkan nilai recall cenderung lebil~ rcndali dan bervariasi mulai dari 0.26 sanipai 0.77.
G a m b a r 2. Grafik recall dan precision
Precison 0.97 0.97 0.96 0.93 0.89 0.87 0.85 0.82 0.80 0.76
Hasil ini, sesuai dengan teori yang diungkapkan oleh Rijsbergen (1997) bahwajika kluster dipotong pada awal hirarki ~ n a k a nilai precision cenderung lebih tinggi dibandingkan nilai recallnya.
Recall 0.26 0.31 0.38 0.43 0.46 0.54 0.60
-
0.700 . 7 r - 0.77
KESIMPULAN DAN SARAN
I<esi~spulan
Dari penelitian yang telah dilakukan dapat diambil kesimpulan sebagai berikut :
I. Hasil pengelompokan yang kurang akurat
sebagian besar disebabkan karena istilah- istilah yang berhasil mengelompok tersebut hanya terdapat pada satu atau dua buah dokumen. Oleh karena itu jika frekuensi istilah-istilah tersebut snma, maka otoriiatis jarak antar istilah tersebut sangat kecil yaitu 0 (nal) dan sistem akan nienggabungkan istilah- istilali tersebut ke dala~ii satu kluster.
2. Nilai precision dan recall ~nemiliki hubungan
yang negatif. Maksudnya adalah jika nilai recall rendah, maka nilai precision tinggi dan sebaliknya jika nilai recall tinggi maka nilai precision cenderung lebili kecil.
[image:16.605.308.499.160.295.2]Saran
Kelemahan dalam sistem ini adalah adanya istilah-istilah yang berhasil dikelompokan dalaln satu kluster, walaupun istilah-istilah tersebut tidak memiliki kemiripan makna dengan istilah lain
dalam kelompoknya. Karena it11 penulis
menyarankan agar dalam pengembangan sistem
lebih lalijut, donlain yang pakai dalam
pengumpulan dokumen lebih spesifik, seliingga istilah-istilah yang dihasilkan akan icbili sedikit
dan keliadiran istilah-istilali tersebut lebil~
bervariasi dalam dokumen-dokume~i, selii~lgga akan menghasilkan kluster-kluster istilali yang lebill tepat.
Dalam proses pemiliha~i dan pemasukan istilali
penulis menyarankan agar terlebih dahulu
melibatkan proses pe~nbentukan kata dasar derigan menggunakan algoritma Steming, sehingga istilah yang akan dikelompokkan tidak akan terlalu banyak karena sebelumnya sudah dikelompokkan berdasarkan kata dasamya.
DAPTAR I'USTAKA
Adisantoso, Julio. 2001. P e r l e ~ r s a ~ ~ Kueri Menggunakan Peluung Bersyu~ut (Quey
Expansion using Conditional Probability).
Forum Statistika dun Konlpurasi. 6: 7-13.
Andenberg, M.R. 1973. Cluster Analysis for Applications. Academic Press, Inc., New York.
Bacelar, Helena and Nicolau. 2000. Closs~$~ing Variables By Hierarchical Clustering A4odels: Empirical and Probabilistic Approaches (http:I/
www, uni-bonn.de/ ~nathpsyc/doclBacelar/
Bacelar.htm).
Jol~nson, R.A. and D.W.Wicl~ern. 1988. A plied
Mutivariate Statistical Analysis. 2"' ed. Prentice-Hall, Inc.
Prasetyo, Dwi. Penyus~man Tesaurus
Menggunukan Analisis Cerosbol. Skripsi Jurusan llmu Komputer FMIPA IPB. Bogor.
Search Engine Ttrrorial /or Web Designers,
htfo:ll\.\'ww.nor~liernwebs.co~ii/s~~l
Rijsbergen, C.J.va11 B.Sc., Pli.D., M.B.C.S. 1979.
lnfirnlation Retrievcrl. Department of
Computing Science, University of Glasgow.
Selton, Ccrald. 1989. A ~ ~ I l o ~ ~ a ~ i c T ~ I Processing The Trans/ornlation, Analysis, and Retrieval of ln/ornration by Co~n/~rrter. Addison-Wesley Publishing Company, Inc.
McCallum, Aodrew, K a ~ n a l N ~ ~ ~ I I I I , Jason Rennie nnd Kristie Seymorc. Building Donlain-SpeciJic Search Engine with hlachine Learning Techniques. School of Computer
Science Carnegie Mcllo~i IJniversity,
L a m p i r a n 1. Hasil pengelompokan istilah
D e n d r o g r a m using Average Linltage ( W i t h i n G r o u p ) Rescalcd Distance Cluster C o m b i i i e
C A S E 0 5 10 15 20 2 5
Label Nu", +---+-.-..----+---+---+---+
ms powerpoint 692 msword 693 cascade 689 rnsexcel 6 9 1
tile 690 hard disk 170
prototype 4 72
h
analisis sistem 53
desain sistem 54
J
front end 212
backend 213
i
l
j
-furry trapezoidal 492 overlap 497 center of grafity 495 defuzifikasi 496 furry logic 490 fuzifikasi 493 f u u y min-max 494 sample 491 decoder 687 prosedurai 211 simulation 273 interaksi manusia 1 4 6 teknik pernrograman 150 multithreading 152 muilimedla 147 spasiai 1 4 8
.
relasi furry 381 model adiassnig-kolarz 38)metode peringkat 33
pernetaan bijektif 38
kompieksitas algoritme 4 1
I
rekord 35
L a m p i r a n I . (La11jut;ln)
odbc 575
Browser 568
professional home page 570
skrip 572
Sewer-side 51,1
binary coded decimal adder 684
Webtilaster 621
hang 62.'
Webpage 619
Webadmin 62"
Update 77
Password 315
Router 641
access conlrol policy 6 4 2
hacker 64"
privalc network 639
parttioned iterated function systems 581
memory 583
iteraled function systems 580
resolusi 5 8 2 winexsys 376
exsys professional for microsofl 377
wlndows 408
microsofl wlndows kompresi matriks sparse 659 sparse matrix compression 660 worst-case 661
vertex 602 worst case GOO
291
run-length encoding pixels 2 93 dala digital
"'
dct *OL)
kuanlisasi 2 9 0 graphics interchange format 287
discrete cosine transfornr 288 redundancy 282 joint photographic experts group 286 discrete 593 marketing information system 674 pereferensian 4136 compression 579 reasoning-trace explanations 340 power designer 6.0 dataanalyst 538 power desigtier 6.0 dataarchitecl 539 help scribbel 537 s i s t e ~ ~ i iiilortnasi rnanajemen 80 ~nleraklif 39''
.1 3.1
sisle~ri inforrnasi parlwisala
monitor vga 'I 3 '>
,135
Lampi~.ar~ I. ( l a ~ i j u t a i ~ )
SO~COPY 63 1
hardcopy 632 CmOS 62 3 acer 627
compaq 628 year 2 kilo 625 y2k 626 century byte 624 ibm 629 otomatisasi 1 2 1 model sanchez 382 berkas 34 1 microsoft visual basic 536 expert system 47 1
real time 7 0 datafeed 7 3 mullithread 71
multitasking 72 stokhastik 679 metode transformasi invers 680 simulasi ranlab markov 671 peiuang transis1 stasioner 678 triangulasi poligon 560 polygon triangulation 561 dynamic programming 550 matrix chain multiplication 5 5 9 kombinatorial 1 3 0 parallel 55.1 data struclure 453 reference dictionary 454 double-array 2 6 3
trie-list 265 trie-da 2 6 6 art-im 1 3 0
automated reasoning tool for in!ormation management 439 system development Ilfe cycle 442 SdlC 1 1 3 batch 64 5 lease line 64 6
Lampirun 1. (la~ljutiln)
ole automation 3 0 3
enuripsi help 3 1 2
visuailzalion q66
java3d 467
-
lava 3d G q
tree3d simple iight interception model
liga dlmensi 6 a
grafis 6,,
operasi penghapusan 4 1 8
operasi pengganlian melode kesarnaan string
operasi penyisipan 4 1 7
cluster analysis 447
inheritance rules 6 6 4
-
inherilance 441
analisis gerombol 3 0 6
knowledge discovery 6 6 3
earliest-stalic-level 5 5 2
earliesl-finish-lime 5 5 3
graf asiklik berarah 5 4 5
highest-static-level 5 5 0
highest-dynamic-level 5 5 1
directed acyclic graph 6
virtual 5 5 , ,
cartesian product form
,.,
teks I --.--
dot matriks l o g
sjstem manalemen basis data ibm rlsc 6000 1 7 a
updaling 190
peluang bersyaral 4 4 5
metode pencarian 3,i -.
prinler
-
monitor
,a,
-
PC 1 8 3
java scrip1 5 6 G
realtim~ 5C.,
OICCI~OO~C cornrnerce
:,,,
.visual basic script 5 6 5
hypertext markup language 11
e-commerce 5 6 3
--
java 1(1
Lampiron 1. (Lanjutan)
.basis data reiasional 390
lit 392
data relasionai 220
digitasi 588
context-free grammar data retrieval 586
speech recognition pengenalan ucapan 585
sinyai 319
single-user 48.1
-
Lsimultan 485
-
',I+
visual C++ 477 - sound card 482 -
ppicard 483
-
sound recorder
--
personal computer 481 -
-
jet audio q 7 q-
:sistem berorientasi obyek 576
-
sistem pengelolaan 195
reasoning-trace explanalion 4gq
--microsoR access 97 29
-
inlorface
-
pelacakan ulan9 1 3 3 - backtracking 476
-
fungsi kendala 129 - np-complete 1 3 1 -
design 336
hypertext 338
-
statistika deskriplif 675
inferensia stalistika 676
sistem intelijen 502
neural 4 4 9
-
admin 274
supervisor 275
mulii-user 272
infarensia 379 ---.
borland deiphi
--
sybase sql anywhere 268
full exact malching 2 ~ q
L a m p i r n ~ ~ I . (Lanjutan)
matching 571 public 276 stand alone 577 skelelon-key 3 4 3
omission-key 344 precision 346 recall 347 model entiti-relasi 27 visual basic 5.0 31
model relasi 28 asimetrik 530 ciphertext 532 fronlal 119 correlation 4 62 automatic acces control g8
PCX 1 1 4
rgb I 15 bitmap 112
j ~ g 113 matlab 110 paint shop pro 111 security system 100 template matching 105 human computer interfaces 99 transformation 46)
defuzzihkasi 6 8 8
executive information systems 540 jusl in Lime 391 sistem penunjang keputusan 228 decision support system 473 face recognition 10.1 ukuran kesamaan 107 fonetik 3 4 8
penemuan pengetahuan 662 hypermedia 498 pengambilan kepulusan 1 9 9
Lalnpirall I . (Lanjutan)
L a m p i r a n 1. (Lanjutan)
program akuntansi platinum 63.1
platinum basic 637
port disbursement 633
-
pemrograman dinamis 4 1 4
algoritma nelder-mead 533 multidirectional search 534 anlarmuka 380
operator 135 i
paralel 151 I
struktur program 4 32 object oriented programming 682
polimorfisme 429
numerika berorientasi objek 426
pelnrograman numerik q2.1
objecl oriented 474
bahasa pemrograman
retrieval melhods 669
oracle designer 324 Sistem informasi akuntansi 3 3 1
case tools 33)
computer assisted software engineering 3 3 2 ms access 325
management information system 464
case 333
tools 335
-
information system 4 5 2
-
oiap database engine on-line analytical processing oltp on.line transaction processing database management system heuristic algorithm &tern pakar berbasis pengetahuan kuantitatif paradox relationship perangkal keras on-line koelisien determinasi e-marketing temu-kembali peiuang sistem informasi geogralis autodesk mapguide
Lampiran 1 . (La~ijutan)
access 1 7 3
-
open addressing 15;linear probing 17.1 secondary storage 169
decrement 176 aslmtotik 1 6 0
pembenturan 166
primary storage 16.1 key to address transformation 164
kat 1 6 5
double hashing 1 7 s field 162
entri 1 7 1
pemetaan 353 sistem aplikasi 158 key 163 subsistem 49 visuaibasic 1 4 2
visual 681
-
pohon 3d 53
slim 67
--
visualisasi 62
ingar ? l o
-
7
multistage median filter 3 2 1
-
aigoritma dual space 61-1algoritma semi dual space 618 windowing 61 .i
algoritma modified cyrus-beck 616
algoritma line clipping 612
-
animasi 296
[image:28.611.67.514.103.763.2]window 61s - grafik 4s poligon 4 1 3
distributed database 595 pseudo-code 598 concurrency control
diskrit 59" konlrol konkurensi 591 simulasi komputer 695 konkuren 5 9 7
two phase request distributed scheduler 996
Lsmpil.an 1 . (La~ijutan)
koefisien koreias 697
-A
trigram 57
I
boolean 299
--
Iwet 9 -A
pixe 116 bilang'dn acak 1 2 0 pengenaian poia 101
koreiasi norm= 9 6 transformasi fouriel 97
orientas 118
-
dimens 106
pengenalan wajah 1 2 3 komunikas 1 9 7 intranel 7 5
database 1 2 I
non-relasiona 2 1 5 i
durable 239 -
ad
manajemen database 2 1 9 -A
acio 2 4 0 - e-maim 2 1 6 - consistency 23-j - isolation 2 3 8 - propert 2 3 5 - atomicity 2 3 6
-
command 232-
connection string 2 3 3-
connection 2 3 0 - recordsel 231-
.
component object mode, 2 2 6 - corn 2 2 7 - oledl: 224 - activex data objects 2 2 5-
uda 2 2 2-
object linking and embedding for databaser 2 2 3 --universal data access 2 2 1 - :
keamanan data 2 1 8
-
metode gross-uC 638
user friendly 314
--
antar muka 2 2 3
perancangan sistem 5 1 A
objecl 460
.
-
spreadsheel 2 1 7korelasi pearson 6 9 6 --A: pemrograman liniel 6 8 3
direct searcil 5 3 5
1
multi usel 440 damerau-levenstein-metric 3 4 2 data access 470 record 1 7 2 siklus hidup sistem 52
L a m p i r i ~ n 1. (Latljutan)
pengaksesan data 50
berorientasi obyek 18 algorithm 468 parameter 69 . diskriminall 541
-
sistem informasi eksekutif 244 firewall 39
sim 81
-
transaksi 16---
perancangan 22penjadwalan 549
--
internet 6 A
sewer 7 9 _ I
metode hashing 155 I
koiisi 157
mesin basis data .$liq
---
respons 5.1%I--
element different moment of order k 2s4 keseragaman :GO
anaiisis citra 251 matriks kookurensi 242
tingkat keabuan 243
-
texture 456 features 457bmp 249
-
entropi 259 grey-level 455 iedm 257 kontras 258 invers of element different moment of order k 255 edm 256 txt 250 peluang maksimum 253 penginderaan jauh 252 adaptive multistage median filter 322 link 500teori gugus 38s
bit 42
---A
matrix 215
-
siklus lhidup 360image 102 derajat kesamaan 5 9
format - 4 8
-
file 137
windows 18.1
-
implementasi 2 3
-
. -pengembangan sistem 55
--
Lekstur 2.16--
La111l1il.a~ 1 . (Laiijotan)
domain name system 349
domain name 352
ip 94
protokol dinamid 350
name server 358
resolve 356
host client 357
host.txt 354
dns 355
tcplip 8 6
client 203
dinamis 154
host 351
trie 262
median filter 320
rnodul 635
information retrieval 451
threshold 488
knowledge-based fuzzy 486
relevansi 300
korelasi 542
obyek 155
hashing j2
dokumen 307 kriptogran 528
data encryption standard 531
encryption 526
rivest sharnir adlernan 527
simetrik 529
waktu kornputasi 525
komputasi 108
kornpleksitas 159
token 294
bits 295
IOSSY 284
huffman coding 292
replika 285
citra digital 260
lossless 283
gif 279
jpeg 278
digital 117
matriks 201
input 339
kunci 37
jaringan syaraf tiruan 125
backpropagation 461
artificial 4 4 8
neural nehrork 450
Lampiran 1. (La~ijotan)
Lampiran 1. (Lanjutan)
Metode 2 3 4
Citra 1 0 3 1
algoritma ,,28
I
data ..
7
Lampiran 2. Detail hasil perhitungan data untuk evaluasi
s = istilah yang digunakan, A = level koordinasi
-d
Tabel 9. Jumlah seluruh dokumen yang relevan (A,)6
S 11 21 31 41 51 61 71 81 91 101 111 121 131 141 151 161 141 181 191 201 211 221 231 241 251 261 271 28/291 301 IAPRQTQTIPE
SPECIFIC
DOMAIN SEARCH
ENGINE
DENGAN MENGGUNAKAN
METQDE ICLUSTER BERHIRARICI
ADE LIANA
JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATll<h DAN ILMU l'ENGE'T,1I-IUi\N ALAM
1IVS'T:l'U'T I'ERTANIAN BOGOR
Ade Liana. Prototipe Specfic Do~rroi~i Search Engine Dengan Menggunaka~~ Metode Kluster Berhirarki (Specijc Donlain Search E~igine l'rotoppe Using lfierarchical Clr~stering Method). Dibimbing oleh JULIO ADISANTOSO dan YEN1 I4ERDIYENI.
General purpose search engine rnemang tnenawarkan banyak informasi bagi penggunanya, namun ~nemiliki satu kekuranga~i yaitu nilai precision dari hasil a:mu ke~nbalinya kecil. Salali satu alternatif solusinya adalah dengan menggonaka~l sl)ecijic do~~toiri search engine, sehingga sistem telnu kembali dibatasi hanya pada domain tertentu saja. I'enelitiar~ ini bettujua~l urlluk inenelaah penggunaan metode kluster berhirarki dalam sistem temu ke~nbali untuk me~nhangu~~ spec* c/o~r,,rlair~ search engine dan kinerja metode kluster berhiraki dala111
is tern
temu kembali.Dokumen yang digunakan dalam pcnelitian ini berjumlah 107 buali dokomen yalig berupa ringkasan karya ilmiah mahasiswa SI IPB. Metode kluster berhirarki digunakan untuk rnengelompokkan istilah
berdasarkan frekuensi setiap istilah dala~n dokumen. Pengelompokan ini dilakukan dengan menggunakan
SPSS 9.0, dimana metode yang digunakan adalah metode pautan rata-rata dalam kelompok yang baru
(average linkage within the new grotrp) dan output yang dihasilkan dala~n proses ini berupa dendogrcrnr
istilah. Kluster yang terbentuk akan diyunnkan untr~k meml~erluas kueri dala~n pencarian dokumen, di mana istilah-istilah yang berada dalam satu kluster dianggap memiliki tnakna sania, sellingga
~nemperbesar peluang terambilnya dokumen yang relevan.
Untuk analisis kinerja search engine digunakan rnetode perhitungan recall dan precision, yang masing-masing merupakan perbandingan antara dokumen relevan yang terambil dengan jumlali
PENDAHULUAN
Latar Beluka~ig
Seiring dengan bertambahnya informasi pada World Wide Web, benambah pula kesulitan kita
untuk mencari informasi yang kita i~iginkan.
Memang tersedia beberapa general-ptrrpose search engine, seperti Altavista
,
HotBot &an sebagainya, yang memiliki cakupan luas, tapi hasil~iya kurang memuaskan, dimana nilai precisiunnya kecil. Ketika kita menginginkan infor~nasi pada bidang tertentu, spec.cijic donlain search engine kira~iya merupakan solusi yang lebih tepat.Pembuatan search engine dapat dikelo~npokkan
dalam tiga tahap fungsional, yaitu : mengumpulkan
informasi, mengekstrak infor~iiasi dan
merepresentasikannya melalui sebuah web
inreflace (McCallum el a/).
lnformasi biasanya tersedia dala~n bentuk dokumen. Namun demikian, biasanya yang disimpan bukanlah teks keseluruhan dari dokulnen melainkan representasinya, sepeni ringkasan, judul atau kata kunci (Rijsbergen, 1979).
Banyak penelitian dilakukan untuk
mendapatkan prosedur pengolahan doknmen yang efektif dan efisien. Menurut Rijsberge~i (1979), ada tiga area penelitian dalaln siste~n [e11111 ke~libali, yaitu : analisis isi dokumen, struktur i~il'or~nasi, d a ~ i
evaluasi. Analisis isi doku~nen tcrkait de~igan
penggambaran isi dokumen dala~n be~ituk yang sesuai untuk pelnrosesan kompuler, struktur informasi terkait dengan kegiatan mengeksploitasi hubungan antar dokumen untuk meningkatkan efisiensi dan efektivitas dari strategi temu kembali, dan evaluasi terkait dengan pengukuran efektivitas dari sisrem temu kembali.
Penelitian-penelitian awal sisteni temu ke~nbali informasi mengadopsi serial file urgimization, yang dihasilkan oleh nietode klasifikasi otomatis.
Good
Rc
Fainhorne (1958)dalall,
Rijsbergen(1979) merupakan salah satu orang yang pertalila kali menyatakan bahwa klasifikasi otorliatis sarlgat berguna untuk temu kembali dokumen. Sela~ijutnya banyak penelitian lain yang dilakukan untuk mendapatkan prosedur yang lebilr efektif d a ~ i
efisien, di antaranya adalah Luhn (1957)
dalam
Rijsbergen (1979) yang menggunakan frekue~isi kata dalam dokumen untuk menentukan kata yang tepat untuk merepresentasikan dokumen, Spark-
Jones (1971)
-
Adisantoso (2001) yalignlemperluas kueri menggunakan teknik kluster berdasarkan kemunculan kata dalalii dokumen.
Perluasan kueri itu sendiri dimaksudkan untuk
nietnperbesar peluang tera~nbilnya dokumen
relevan dengan cam memperbanyak istilali yang dilibatk.an dalam kueri, di luar istilali yang di tentukan oleh pengguno (Adisantoso, 2001). Istilah yang tlilibatkan adalah istilali-istilah yang berada dalam satu kelompok dcligan istilali yang dimasukkan oleh pengguna, karena dianggap memiliki makna yang salna (Salton, 1989).
T u j u a r ~
Tujuan pe~ielitia~i ini adalall menciaah
penggonnan nietodc kluster berhirarki dalam siste~ll toiiu kembali u a h ~ k iiie~nbangan spc~ijic donrain search etigir~e dan kinerja metode klt~ster berhirarki dnlam sistco~ tenill kcmbali.
TINJAUAN I'USTAICA
Set~rcl: Et~girle
Search engine adalali sebuah sistem basis data yang didesai~i untuk mengindeks alamat-alan~at di internet, seperti : url, rtsenet.Jp, ala~nat irlruge dan
sebagainya (Iittp://www.~iarthur~iwebs.co~ii/sct/).
I<lasililtasi Oto~iiatis
Menurut Rijsbergen (1979), tujuan dari pengelompokar~ dokurner~ adalali agar pengambilan dokumen lebih cepat. Beberapa metode klasifikasi didasarkan pada hubungan biner antar obyek. Berdasarkan hubungan itulali sebuali rnctodc klasifikasi dapat membentuk suatu sistem kluster. Hubungan tersebut dapat digambarkan sebagai
kesatnaan (sittrilarity) dan ketidaksati~aan
(dissir~~ilarity),
Ukuran kesamaa~i ini dirancang unluk
mengkuantifikasi kesamaari (111e liket~ess) antar obyek sehingga dapat diasumsikan baliwa obyck- obyek dapat dikelompokkan sedemikian rupa sehingga obyek-obyek pada satu kluster lebih mirip dibandingkan obyek-obyek pada kluster lain.
Berbagai model rnatenlatika telah banyak digunakan untuk niereprese~ltasikan siste~ii-siste~ii dan prosedur-prosedur dalani [emu ke~iibali.
dia~itaranya adalali model Buoleu~t, tiiodel
PENDAHULUAN
Latar Beluka~ig
Seiring dengan bertambahnya informasi pada World Wide Web, benambah pula kesulitan kita
untuk mencari informasi yang kita i~iginkan.
Memang tersedia beberapa general-ptrrpose search engine, seperti Altavista
,
HotBot &an sebagainya, yang memiliki cakupan luas, tapi hasil~iya kurang memuaskan, dimana nilai precisiunnya kecil. Ketika kita menginginkan infor~nasi pada bidang tertentu, spec.cijic donlain search engine kira~iya merupakan solusi yang lebih tepat.Pembuatan search engine dapat dikelo~npokkan
dalam tiga tahap fungsional, yaitu : mengumpulkan
informasi, mengekstrak infor~iiasi dan
merepresentasikannya melalui sebuah web
inreflace (McCallum el a/).
lnformasi biasanya tersedia dala~n bentuk dokumen. Namun demikian, biasanya yang disimpan bukanlah teks keseluruhan dari dokulnen melainkan representasinya, sepeni ringkasan, judul atau kata kunci (Rijsbergen, 1979).
Banyak penelitian dilakukan untuk
mendapatkan prosedur pengolahan doknmen yang efektif dan efisien. Menurut Rijsberge~i (1979), ada tiga area penelitian dalaln siste~n [e11111 ke~libali, yaitu : analisis isi dokumen, struktur i~il'or~nasi, d a ~ i
evaluasi. Analisis isi doku~nen tcrkait de~igan
penggambaran isi dokumen dala~n be~ituk yang sesuai untuk pelnrosesan kompuler, struktur informasi terkait dengan kegiatan mengeksploitasi hubungan antar dokumen untuk meningkatkan efisiensi dan efektivitas dari strategi temu kembali, dan evaluasi terkait dengan pengukuran efektivitas dari sisrem temu kembali.
Penelitian-penelitian awal sisteni temu ke~nbali informasi mengadopsi serial file urgimization, yang dihasilkan oleh nietode klasifikasi otomatis.
Good
Rc
Fainhorne (1958)dalall,
Rijsbergen(1979) merupakan salah satu orang yang pertalila kali menyatakan bahwa klasifikasi otorliatis sarlgat berguna untuk temu kembali dokumen. Sela~ijutnya banyak penelitian lain yang dilakukan untuk mendapatkan prosedur yang lebilr efektif d a ~ i
efisien, di antaranya adalah Luhn (1957)
dalam
Rijsbergen (1979) yang menggunakan frekue~isi kata dalam dokumen untuk menentukan kata yang tepat untuk merepresentasikan dokumen, Spark-
Jones (1971)
-
Adisantoso (2001) yalignlemperluas kueri menggunakan teknik kluster berdasarkan kemunculan kata dalalii dokumen.
Perluasan kueri itu sendiri dimaksudkan untuk
nietnperbesar peluang tera~nbilnya dokumen
relevan dengan cam memperbanyak istilali yang dilibatk.an dalam kueri, di luar istilali yang di tentukan oleh pengguno (Adisantoso, 2001). Istilah yang tlilibatkan adalah istilali-istilah yang berada dalam satu kelompok dcligan istilali yang dimasukkan oleh pengguna, karena dianggap memiliki makna yang salna (Salton, 1989).
T u j u a r ~
Tujuan pe~ielitia~i ini adalall menciaah
penggonnan nietodc kluster berhirarki dalam siste~ll toiiu kembali u a h ~ k iiie~nbangan spc~ijic donrain search etigir~e dan kinerja metode klt~ster berhirarki dnlam sistco~ tenill kcmbali.
TINJAUAN I'USTAICA
Set~rcl: Et~girle
Search engine adalali sebuah sistem basis data yang didesai~i untuk mengindeks alamat-alan~at di internet, seperti : url, rtsenet.Jp, ala~nat irlruge dan
sebagainya (Iittp://www.~iarthur~iwebs.co~ii/sct/).
I<lasililtasi Oto~iiatis
Menurut Rijsbergen (1979), tujuan dari pengelompokar~ dokurner~ adalali agar pengambilan dokumen lebih cepat. Beberapa metode klasifikasi didasarkan pada hubungan biner antar obyek. Berdasarkan hubungan itulali sebuali rnctodc klasifikasi dapat membentuk suatu sistem kluster. Hubungan tersebut dapat digambarkan sebagai
kesatnaan (sittrilarity) dan ketidaksati~aan
(dissir~~ilarity),
Ukuran kesamaa~i ini dirancang unluk
mengkuantifikasi kesamaari (111e liket~ess) antar obyek sehingga dapat diasumsikan baliwa obyck- obyek dapat dikelompokkan sedemikian rupa sehingga obyek-obyek pada satu kluster lebih mirip dibandingkan obyek-obyek pada kluster lain.
Berbagai model rnatenlatika telah banyak digunakan untuk niereprese~ltasikan siste~ii-siste~ii dan prosedur-prosedur dalani [emu ke~iibali.
dia~itaranya adalali model Buoleu~t, tiiodel
Andenberg (1973)
dalam
Prasetyo (1998) danJohnson & Wichern (1988) menyatakan bahwa
jarak statistika dapat digunakan sebagai ukuran kesamaan antar vektor. Semakin dekat jarak antar sepasang vektor maka semakin erat hubungan antar vektor tersebut.
Beberapa ukuran kesamaan menurut Johnson &
Wichern (1988) adalah jarak Eticlideun dan
Minkowski. Misalkan diketahui, x = [XI,
x',
...,
xP]'
dan y = ly',y2, ...,y dimana x' adalah bobot istilah
x
dalam dokumen ke-i dan y' adalah bobot istilah y dalam dokumen ke-i, sedatigkan p adalah dimensi atau jumlah dokumen. Maka jarakEuclidean dinyatakan sebagai :
sedangkan jarak Minkowski dinyatakan sebagai :
jika m=I, maka d(x,y) menjadi jarak city-block antara dua titik dalam p dimensi. Sedangkan jika m=2, d(x,y) menjadi jarak Esclidemz.
Kluster Berlrirarki
Teknik pengelompokan yang dilakukan melalui serangkaian penggabungan atau penlisal~an disebut
dengan teknik kluster berhirarki (Johnson &
Wichern, 1988).
Menurut Bacelar & Nicolau (2000). pada
analisis kluster berhirarki ada dua pendekatan utama untuk merepresentasikan struktur data. Pada level dasar yang paling sering digunakan adalah koefisien perbandingan yaitu kesamaan atau ketidaksamaan antar variabel, yang sama sekali tidak terkait dengan aspek peluang. Sedangkan pada level lebih lanjut, digunakan model peluang @robabilisric models) berdasarkan koefisien- koefisien peluang @robabilisric coeflsienls).
Secara umum penyusunan birarki dapat
dibedakan menjadi pemisahan (dili,.isive) atau penggabungan (agglornerurive). Pada proses awal penyusunan kluster berhirarki pada penggabungan.
sebuah obyek dianggap sebagai satu kluster
sehingga banyaknya kluster awal sa~iia dengan banyaknya obyek. Obyek-obyek yang paling salna adalah yang pertama dikelonlpokka~~. Proses penggabungan berlangsung terus berdasarkan
kesamilan antar obyek sampai akhirnya terbentuk suatu Itluster tunggal. Sedangkan pada proses pemisalian, yang terjadi adalah kebalikannya (Johnson & Wichern, 1988).
Misalkan diketahui sebuail matriks jarak segitiga bawah sebagai berikut :
di mana, si, adalah jarak atau nilai kesatnaan antara
obyek i dan j. Maka prosedur yang bias any;^
dipakai dalaln penggabungan kluster adalal~ (Anderberg, 1973) :
I . Mulai dengar1 n kluster, yang masing- tnasing terdiri dari satu obyek. Beri label setiap kluster dengan notnor dari I sall~pai n.
2. Mencari kluster yang paling sama ~nelalui matriks kesamaan (sir/rilurity n~ulris). Beri label kluster yang terpilih dengan huruf p dan q dan nilai kesamaan kluster tersebut adalal, s,, p q.
3. Junllali. kluster dikurang I karena sudali ada kluster yang bergabung. Beri label kluster hasil penggabungan tadi dez~gan huruf q ' dan ganti nilai dala~n matriks
kesa~naan untuk merefleksikan nilai
kesan~aan antar kluster q dengan kluster- kluster yang lain.
4. Lanjutkan langkah 2 dan 3 sebanyak 11-1
kali, salnpai semua obyek metijadi snlu kluster.
Beberapa metode yang digunakan dalam pembelltukan kluster berhirarki adalall :
I. Pautan Tunggal (Single Linkuge), dimana
jarak antara kluster pq atau misalkan kluster t (yaog terbentuk pada langkali Inomor 2 di atas) dengall kluster r adalall :
sir = ~niin (s,,,~, sqr)
2. Pautan Lengkap (Con~plete Linkuge), yaitu
jarak antara kluster pq atau kluster 1
dengan kluster r adalah :
3. I'autan Rata-rata dalam Kelo~npolt ynng Baru (Average Linkage V i 1 1 i 1 Tlrc Nett, Gruiip), Ketika kluslcr p dari q berpbung, mak;~ jarak antara lkluster y a ~ i g icrbentuk, misalkan t dellgan kluster lain, misslkan r mel~jadi :
SS = SI" + S<I'
Misalkan SUM; adalali jumlall jarali antar dua elemen yalig terdapat dalam kluster i
dan Ni adalah junllall elemen dalalil kluster
i, maka ketika kluster p d a ~ ~ q bergabung, lnlisalkan lnenjadi kluster t :
SUM, = SUM,
+
SUM,, + st,,,N, = N,
+
N,Dan ketika mencari pasangall elemen yang
paling sama, jarak antar elemennya,
~nisalkan aritar elemen t dan r, dil~itung sebagai berikut :
SUM, + SUMr + s,, d(t,r) =
(N,
+ N,)(N, + N, .- 1) 1 24. Pautan Rata-rata antar Kelompok yang
T2rgabung (Average Linkrrge Ucrivec/i
Merged Grotcps). Metode ini l~ampir sama dengan lnetode sebelumnya, hanyi~ saja dalam mencari pasaogan yang paling sania, jarak alltar elemennya, misalkan elemen t
dan r, dihitung sebagai berikut :
di mana s,, adalah jumlall t i i l i ~ i kesamaan antara pasangall kluster t d a l ~ kluster r, sedangkan N, adalah jumlah obyek yang ada pada Itluster I.
Model dari kluster berhirarki dapat
direpresentasikan secara grafis, yaitu dcligan diagram pohon atau d t ~ x l u g r u i r ~ . I'iida niodcl penggabungan berhirarki, ( l o ~ ~ l o g r ~ ~ i r r di~nulai dari bagiali dilnana semua elelneli berada pada Itlustcr- kluster yarig bcrbcda, atau pada bagiall dilnana semua elemen tiielijadi sanl kluster. Patla sctiap level algoritma pengklustcra!~ inenyetukan due atau lebih klr~ster yang paling mirip (Bacclar 8: Nicol;~u, 2000).
Efcktivilas OIIII Elisic~lsi
Mcnurut l<ijsbergon ( 1 7 0 yang di~nsltsud dengan elisiensi dal;l~ii s i s t e ~ l ~ !elnu kcnibi~li ndalah pengukural~ dalam 11i1I I ~ C I I ~ ~ I I I I ~ I ~ I ~ s111nber dayil ko~npuler. Sedarigkall ontuk efcktivitas, biasallya diukur dengan precision d a ~ i recoil.
Yang dinlaksud dellgall l~reci.siu/i it11 sendiri
adalal~ perbandingell antat.;) junilali dokulneli relevan yartg ceran~bil tlerlg;~rl , j u l ~ i l a l ~ dokurnell keseluruhan yang terambil. Sedangkan recoil adalah perbandingall antilra jumlah dokumeli relevan yang tera~nbil dengan j u l n l a l ~ keselurohan dokumen yang relevan.
Misalkau diketallui A adalah Iiimpunati
dokumcn yang relevan d;111 I3 i ~ d a l a l ~ Iiimpuni111 dokumen yang terambil, ~llaka :
In
BlRECALL =
-
Salall satu mctodc p e ~ i y ~ ~ k ~ ~ r a n e f c k r i l i t ; ~ ~ dengan menggunakall nil;~i r ~ v . ~ r / l dan /,rcr.~.ir<~~r adalah teknik rata-lxti~. l i s ~ l k ; ~ S od;~l:~h himpunan istilah yang di~ii:~sukk;~~i ole11 P ~ I I ~ ~ L I I I ~ I , dan A s adalall Ilimp~tniun dokunleli yalig releva~l dengan istilah s, maka :
. . ..
Jika
A
adalah level koordinasi, dan B;, adi~lali himpunan dokulncli y a l ~ g tcrambil pad;] i i i l t ~ i koordinasi A. maka :.
.
..
Menurutnya juga, jika pelnotongan kluster
dilakukan pada awal hirarki, cenderung
menghasilkan nilai precision yang tinggi, tetapi
nilai recaN rendah. Dan sebalikoya, jika
petnotongan kluster dilakukan pada level atas hirarki, maka akan menghasilkat~ nilai precisio17 rendah dan nilai recall yang tinggi.
METODOLOGI PENELITIAN
Penelitian dilakukan melalui beberapa tahap, yaitu:
I . Pengu~npulan dokumen.
2. Pengekstrakan informasi dalani dokumell.
3. Pembentukan kluster.
4. Pe~nbuatan prototipe search engine.
5. Analisis.
Perangkat lunak yang digunokan dalam penelitian ini adalah Ms Access 97, Ms Excel 97, SPSS 9.0, dan bahasa pelnrogralnan Visual Basic 6.0. Sedangkan untuk prototipe serrrclt engine dibuat dengan ~nengg