Prototipe Specific Domain Search Engine Dengan Menggunakan Metode Kluster Berhirarki

(1)

PRQTQTIPE

SPECIFIC

DOMAIN SEARCH

ENGINE

DENGAN MENGGUNAKAN

METQDE ICLUSTER BERHIRARICI

ADE LIANA

JURUSAN ILMU KOMPUTER

FAKULTAS MATEMATll<h DAN ILMU l'ENGE'T,1I-IUi\N ALAM

1IVS'T:l'U'T I'ERTANIAN BOGOR

(2)

Ade Liana. Prototipe Specfic Do~rroi~i Search Engine Dengan Menggunaka~~ Metode Kluster Berhirarki (Specijc Donlain Search E~igine l'rotoppe Using lfierarchical Clr~stering Method). Dibimbing oleh JULIO ADISANTOSO dan YEN1 I4ERDIYENI.

General purpose search engine rnemang tnenawarkan banyak informasi bagi penggunanya, namun ~nemiliki satu kekuranga~i yaitu nilai precision dari hasil a:mu ke~nbalinya kecil. Salali satu alternatif solusinya adalah dengan menggonaka~l sl)ecijic do~~toiri search engine, sehingga sistem telnu kembali dibatasi hanya pada domain tertentu saja. I'enelitiar~ ini bettujua~l urlluk inenelaah penggunaan metode kluster berhirarki dalam sistem temu ke~nbali untuk me~nhangu~~ spec* c/o~r,,rlair~ search engine dan kinerja metode kluster berhiraki dala111

is tern

temu kembali.

Dokumen yang digunakan dalam pcnelitian ini berjumlah 107 buali dokomen yalig berupa ringkasan karya ilmiah mahasiswa SI IPB. Metode kluster berhirarki digunakan untuk rnengelompokkan istilah

berdasarkan frekuensi setiap istilah dala~n dokumen. Pengelompokan ini dilakukan dengan menggunakan

SPSS 9.0, dimana metode yang digunakan adalah metode pautan rata-rata dalam kelompok yang baru

(average linkage within the new grotrp) dan output yang dihasilkan dala~n proses ini berupa dendogrcrnr

istilah. Kluster yang terbentuk akan diyunnkan untr~k meml~erluas kueri dala~n pencarian dokumen, di mana istilah-istilah yang berada dalam satu kluster dianggap memiliki tnakna sania, sellingga

~nemperbesar peluang terambilnya dokumen yang relevan.

Untuk analisis kinerja search engine digunakan rnetode perhitungan recall dan precision, yang masing-masing merupakan perbandingan antara dokumen relevan yang terambil dengan jumlali

(3)

PliOTOTIPE

SPECIFIC DOMAIN SEARCH ENGlNE

DENCAN MENGGUNAKAN

METODE KLUSTER BERHIRARKI

ADE

LIANA

Skripsi

sebagai salah satu syarat untuk me~nperolel~ gelar Sarjana Komputer

pada

Progn1111 Studi llmu Kornputer

JURUSAN ILMU KORIPUTER

FAKULTAS MATEMATIIU DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAPq BOGOR

(4)

Judul : Prototipe S,>ecijic ~olllaill Senrch Engi~le Dellgall M e ~ ~ g g ~ i ~ l a k a l l Metode Kluster Berhirarki

Nama : A d e Liana

NIM : GO6497025

en' tlerdi eni S.Kom

.

,j

\t;[y,i

200'3

(5)

RIWAYAT IIIDUI'

Penulis dilaliirkan di Jakarta pada tanggal 25 Agustus 1979 sebagai anak kedua dari empat

bersaudara, anak dari pasangan Tjong Wie Soeng dan Susi Mclawati Wiryana.

Pada tahun 1997 penulis lulus dari SMU Negeri 68 Jakarta dan pada tahun sama lulus seleksi masuk

IPB melalui jalur U~idaiigan Seleksi Masuk IPB (USMI), dengan pilihan Program Studi IImu Komputer.

Pada tahun 1998 penulis niulai rnendalanii bidang ilmu kon~puter di Jurusan Ilmii Komputer, Fakultas

Matematika dan ll~nu Pengetaliuan Alam.

Selama mengikuti perkulialian penulis ~iienjadi asisten mata kuliah Algoritma dan Pemrograrnan pada

(6)

PRAKATA

Puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, karena atas segala karunia-Nya

karya ilmiah ini dapat diselesaikan. T e ~ n a yang dipilili dalam penelitian ini adalali search engine dengan

judul Prototipe Domain Specific Searcli Engine Dengnn Merigguriakan Metode Kluster Berliirarki.

Terima kasih penulis sampaikan kepada berbagoi piliak yang telali membantu penyelesaian karya

ilmiah ini, antara lain adalali Bapak Ir. Julio Adisantoso, M.Komp den lbu Ye~ii I-lerdiyeni S. Konip

selaku pembinibing. Di saniping itu terima kasih juga penuli!; sampaikan kepada rekan-rekan di Jurusan

llmu Kon~puter atas bantuanoya, kliususnya kepada Ronaldo atas bantuan dan dukungan morilnya.

Ungkapan terima kasih juga penulis llaturkan kepada kedua orang tua serta seluruli keluarga atas doa,

dukungan dan kasih sayangnya.

Penulis menyadari sepenuhnya baliwa karya ilmiah ini masih menliliki banyak kekurangan. Meskipurl

demikian penulis berharap semoga karya ilmiah ini dapat ~nenienuhi fungsi utama sebagai salah satu

syarat memperoleh gelar,Sarjana Komputer pada Program Studi Ilmu Koniputer, Fakultas Mate~natika dan

Ilmu Pengetahuan Alan~, lnstitut Pertanian Bogor. Selairi itu penulis juga berharap agar tulisan ini dapat

bermanfaat di waktu mendatang.

Bogor, November 2001

(7)

DAPTAR

IS1

DAFTAR TABEL

...

.

...

vi

DAFTAR GAMBAR

...

vi

DAFTAR LAMPIRAN

...

.

...

vi

PENDAHULUAN

...

.

...

I

...

Latar Belakang

...

.

I Tujuan

...

.

...

I TINJAUAN PUSTAKA

...

I

...

Search Engine

.

I

...

Klasifikasi Otomatis

...

....

1

...

Kluster Berhirarki

.

2

...

Efektivitas dan Efisiensi

.

3

...

METODOLOGI PENELITIAN 4

...

Pengumpulan Dokumen

.

4

...

Ekstraksi lnformasi 4

...

Pembentukan Kluster

.

4

...

Pembuatan Search Engine

...

.

4

HASlL DAN PEMBAHASAN Karakteristik Dokumen

...

5

Pemilihan dan Perhitungan Istilah

...

5

...

Karakteristik Kelompok 5

...

Seurch Engine

...

.

7

Recall dan Precisian

...

.

...

7

KESIMPULAN DAN SARAN

...

8

Kesimpulan

...

.

...

8

Saran

...

.

...

8

DAFTAR PUSTAKA

...

9

(8)

DAFTAR TABEL

I

.

Deskripsi dokumen

...

.

...

5

2

.

Daftar kondisi yang diterapkan dalaln perhitungan istilah

...

5

3

.

Ringkasan kluster yang terbentuk

...

6

4

.

Daftar beberapa kelompok yang terbentuk pada jarak 5

...

6

5

.

Daftar istilah percobaan

...

7

6

.

Precision dan recall

...

8

7

.

Jumlah dokumen yang terarnbil pada level koordir~asi h ( B 1, 26

...

8

.

Julnlah dokumen yang tera~nbil dan relevan pada level koordinasi h (A, n

BD,

) 26 9

.

Jumlah seluruh dokumen yang relevan (A, )

...

26

DAFTAR GAMBAR I

.

Diagralll alur pencarian dokumeli

...

7

...

2

.

Grafik recall dan precision

... .

.

8

(9)

PENDAHULUAN

Latar Beluka~ig

Seiring dengan bertambahnya informasi pada World Wide Web, benambah pula kesulitan kita

untuk mencari informasi yang kita i~iginkan.

Memang tersedia beberapa general-ptrrpose search engine, seperti Altavista

,

HotBot &an sebagainya, yang memiliki cakupan luas, tapi hasil~iya kurang memuaskan, dimana nilai precisiunnya kecil. Ketika kita menginginkan infor~nasi pada bidang tertentu, spec.cijic donlain search engine kira~iya merupakan solusi yang lebih tepat.

Pembuatan search engine dapat dikelo~npokkan

dalam tiga tahap fungsional, yaitu : mengumpulkan

informasi, mengekstrak infor~iiasi dan

merepresentasikannya melalui sebuah web

inreflace (McCallum el a/).

lnformasi biasanya tersedia dala~n bentuk dokumen. Namun demikian, biasanya yang disimpan bukanlah teks keseluruhan dari dokulnen melainkan representasinya, sepeni ringkasan, judul atau kata kunci (Rijsbergen, 1979).

Banyak penelitian dilakukan untuk

mendapatkan prosedur pengolahan doknmen yang efektif dan efisien. Menurut Rijsberge~i (1979), ada tiga area penelitian dalaln siste~n [e11111 ke~libali, yaitu : analisis isi dokumen, struktur i~il'or~nasi, d a ~ i

evaluasi. Analisis isi doku~nen tcrkait de~igan

penggambaran isi dokumen dala~n be~ituk yang sesuai untuk pelnrosesan kompuler, struktur informasi terkait dengan kegiatan mengeksploitasi hubungan antar dokumen untuk meningkatkan efisiensi dan efektivitas dari strategi temu kembali, dan evaluasi terkait dengan pengukuran efektivitas dari sisrem temu kembali.

Penelitian-penelitian awal sisteni temu ke~nbali informasi mengadopsi serial file urgimization, yang dihasilkan oleh nietode klasifikasi otomatis.

Good

Rc

Fainhorne (1958)

dalall,

Rijsbergen

(1979) merupakan salah satu orang yang pertalila kali menyatakan bahwa klasifikasi otorliatis sarlgat berguna untuk temu kembali dokumen. Sela~ijutnya banyak penelitian lain yang dilakukan untuk mendapatkan prosedur yang lebilr efektif d a ~ i

efisien, di antaranya adalah Luhn (1957)

dalam

Rijsbergen (1979) yang menggunakan frekue~isi kata dalam dokumen untuk menentukan kata yang tepat untuk merepresentasikan dokumen, Spark-

Jones (1971)

-

Adisantoso (2001) yalig

nlemperluas kueri menggunakan teknik kluster berdasarkan kemunculan kata dalalii dokumen.

Perluasan kueri itu sendiri dimaksudkan untuk

nietnperbesar peluang tera~nbilnya dokumen

relevan dengan cam memperbanyak istilali yang dilibatk.an dalam kueri, di luar istilali yang di tentukan oleh pengguno (Adisantoso, 2001). Istilah yang tlilibatkan adalah istilali-istilah yang berada dalam satu kelompok dcligan istilali yang dimasukkan oleh pengguna, karena dianggap memiliki makna yang salna (Salton, 1989).

T u j u a r ~

Tujuan pe~ielitia~i ini adalall menciaah

penggonnan nietodc kluster berhirarki dalam siste~ll toiiu kembali u a h ~ k iiie~nbangan spc~ijic donrain search etigir~e dan kinerja metode klt~ster berhirarki dnlam sistco~ tenill kcmbali.

TINJAUAN I'USTAICA

Set~rcl: Et~girle

Search engine adalali sebuah sistem basis data yang didesai~i untuk mengindeks alamat-alan~at di internet, seperti : url, rtsenet.Jp, ala~nat irlruge dan

sebagainya (Iittp://www.~iarthur~iwebs.co~ii/sct/).

I<lasililtasi Oto~iiatis

Menurut Rijsbergen (1979), tujuan dari pengelompokar~ dokurner~ adalali agar pengambilan dokumen lebih cepat. Beberapa metode klasifikasi didasarkan pada hubungan biner antar obyek. Berdasarkan hubungan itulali sebuali rnctodc klasifikasi dapat membentuk suatu sistem kluster. Hubungan tersebut dapat digambarkan sebagai

kesatnaan (sittrilarity) dan ketidaksati~aan

(dissir~~ilarity),

Ukuran kesamaa~i ini dirancang unluk

mengkuantifikasi kesamaari (111e liket~ess) antar obyek sehingga dapat diasumsikan baliwa obyck- obyek dapat dikelompokkan sedemikian rupa sehingga obyek-obyek pada satu kluster lebih mirip dibandingkan obyek-obyek pada kluster lain.

Berbagai model rnatenlatika telah banyak digunakan untuk niereprese~ltasikan siste~ii-siste~ii dan prosedur-prosedur dalani [emu ke~iibali.

dia~itaranya adalali model Buoleu~t, tiiodel

(10)

Andenberg (1973)

dalam

Prasetyo (1998) dan

Johnson & Wichern (1988) menyatakan bahwa

jarak statistika dapat digunakan sebagai ukuran kesamaan antar vektor. Semakin dekat jarak antar sepasang vektor maka semakin erat hubungan antar vektor tersebut.

Beberapa ukuran kesamaan menurut Johnson &

Wichern (1988) adalah jarak Eticlideun dan

Minkowski. Misalkan diketahui, x = [XI,

x',

...,

xP]'

dan y = ly',y2, ...,y dimana x' adalah bobot istilah

x

dalam dokumen ke-i dan y' adalah bobot istilah y dalam dokumen ke-i, sedatigkan p adalah dimensi atau jumlah dokumen. Maka jarak

Euclidean dinyatakan sebagai :

sedangkan jarak Minkowski dinyatakan sebagai :

jika m=I, maka d(x,y) menjadi jarak city-block antara dua titik dalam p dimensi. Sedangkan jika m=2, d(x,y) menjadi jarak Esclidemz.

Kluster Berlrirarki

Teknik pengelompokan yang dilakukan melalui serangkaian penggabungan atau penlisal~an disebut

dengan teknik kluster berhirarki (Johnson &

Wichern, 1988).

Menurut Bacelar & Nicolau (2000). pada

analisis kluster berhirarki ada dua pendekatan utama untuk merepresentasikan struktur data. Pada level dasar yang paling sering digunakan adalah koefisien perbandingan yaitu kesamaan atau ketidaksamaan antar variabel, yang sama sekali tidak terkait dengan aspek peluang. Sedangkan pada level lebih lanjut, digunakan model peluang @robabilisric models) berdasarkan koefisien- koefisien peluang @robabilisric coeflsienls).

Secara umum penyusunan birarki dapat

dibedakan menjadi pemisahan (dili,.isive) atau penggabungan (agglornerurive). Pada proses awal penyusunan kluster berhirarki pada penggabungan.

sebuah obyek dianggap sebagai satu kluster

sehingga banyaknya kluster awal sa~iia dengan banyaknya obyek. Obyek-obyek yang paling salna adalah yang pertama dikelonlpokka~~. Proses penggabungan berlangsung terus berdasarkan

kesamilan antar obyek sampai akhirnya terbentuk suatu Itluster tunggal. Sedangkan pada proses pemisalian, yang terjadi adalah kebalikannya (Johnson & Wichern, 1988).

Misalkan diketahui sebuail matriks jarak segitiga bawah sebagai berikut :

di mana, si, adalah jarak atau nilai kesatnaan antara

obyek i dan j. Maka prosedur yang bias any;^

dipakai dalaln penggabungan kluster adalal~ (Anderberg, 1973) :

I . Mulai dengar1 n kluster, yang masing- tnasing terdiri dari satu obyek. Beri label setiap kluster dengan notnor dari I sall~pai n.

2. Mencari kluster yang paling sama ~nelalui matriks kesamaan (sir/rilurity n~ulris). Beri label kluster yang terpilih dengan huruf p dan q dan nilai kesamaan kluster tersebut adalal, s,, p q.

3. Junllali. kluster dikurang I karena sudali ada kluster yang bergabung. Beri label kluster hasil penggabungan tadi dez~gan huruf q ' dan ganti nilai dala~n matriks

kesa~naan untuk merefleksikan nilai

kesan~aan antar kluster q dengan kluster- kluster yang lain.

4. Lanjutkan langkah 2 dan 3 sebanyak 11-1

kali, salnpai semua obyek metijadi snlu kluster.

Beberapa metode yang digunakan dalam pembelltukan kluster berhirarki adalall :

I. Pautan Tunggal (Single Linkuge), dimana

jarak antara kluster pq atau misalkan kluster t (yaog terbentuk pada langkali Inomor 2 di atas) dengall kluster r adalall :

sir = ~niin (s,,,~, sqr)

2. Pautan Lengkap (Con~plete Linkuge), yaitu

jarak antara kluster pq atau kluster 1

dengan kluster r adalah :

(11)

3. I'autan Rata-rata dalam Kelo~npolt ynng Baru (Average Linkage V i 1 1 i 1 Tlrc Nett, Gruiip), Ketika kluslcr p dari q berpbung, mak;~ jarak antara lkluster y a ~ i g icrbentuk, misalkan t dellgan kluster lain, misslkan r mel~jadi :

SS = SI" + S<I'

Misalkan SUM; adalali jumlall jarali antar dua elemen yalig terdapat dalam kluster i

dan Ni adalah junllall elemen dalalil kluster

i, maka ketika kluster p d a ~ ~ q bergabung, lnlisalkan lnenjadi kluster t :

SUM, = SUM,

+

SUM,, + st,,,

N, = N,

+

N,

Dan ketika mencari pasangall elemen yang

paling sama, jarak antar elemennya,

~nisalkan aritar elemen t dan r, dil~itung sebagai berikut :

SUM, + SUMr + s,, d(t,r) =

(N,

+ N,)(N, + N, .- 1) 1 2

4. Pautan Rata-rata antar Kelompok yang

T2rgabung (Average Linkrrge Ucrivec/i

Merged Grotcps). Metode ini l~ampir sama dengan lnetode sebelumnya, hanyi~ saja dalam mencari pasaogan yang paling sania, jarak alltar elemennya, misalkan elemen t

dan r, dihitung sebagai berikut :

di mana s,, adalah jumlall t i i l i ~ i kesamaan antara pasangall kluster t d a l ~ kluster r, sedangkan N, adalah jumlah obyek yang ada pada Itluster I.

Model dari kluster berhirarki dapat

direpresentasikan secara grafis, yaitu dcligan diagram pohon atau d t ~ x l u g r u i r ~ . I'iida niodcl penggabungan berhirarki, ( l o ~ ~ l o g r ~ ~ i r r di~nulai dari bagiali dilnana semua elelneli berada pada Itlustcr- kluster yarig bcrbcda, atau pada bagiall dilnana semua elemen tiielijadi sanl kluster. Patla sctiap level algoritma pengklustcra!~ inenyetukan due atau lebih klr~ster yang paling mirip (Bacclar 8: Nicol;~u, 2000).

Efcktivilas OIIII Elisic~lsi

Mcnurut l<ijsbergon ( 1 7 0 yang di~nsltsud dengan elisiensi dal;l~ii s i s t e ~ l ~ !elnu kcnibi~li ndalah pengukural~ dalam 11i1I I ~ C I I ~ ~ I I I I ~ I ~ I ~ s111nber dayil ko~npuler. Sedarigkall ontuk efcktivitas, biasallya diukur dengan precision d a ~ i recoil.

Yang dinlaksud dellgall l~reci.siu/i it11 sendiri

adalal~ perbandingell antat.;) junilali dokulneli relevan yartg ceran~bil tlerlg;~rl , j u l ~ i l a l ~ dokurnell keseluruhan yang terambil. Sedangkan recoil adalah perbandingall antilra jumlah dokumeli relevan yang tera~nbil dengan j u l n l a l ~ keselurohan dokumen yang relevan.

Misalkau diketallui A adalah Iiimpunati

dokumcn yang relevan d;111 I3 i ~ d a l a l ~ Iiimpuni111 dokumen yang terambil, ~llaka :

In

Bl

RECALL =

-

Salall satu mctodc p e ~ i y ~ ~ k ~ ~ r a n e f c k r i l i t ; ~ ~ dengan menggunakall nil;~i r ~ v . ~ r / l dan /,rcr.~.ir<~~r adalah teknik rata-lxti~. l i s ~ l k ; ~ S od;~l:~h himpunan istilah yang di~ii:~sukk;~~i ole11 P ~ I I ~ ~ L I I I ~ I , dan A s adalall Ilimp~tniun dokunleli yalig releva~l dengan istilah s, maka :

. . ..

Jika

A

adalah level koordinasi, dan B;, adi~lali himpunan dokulncli y a l ~ g tcrambil pad;] i i i l t ~ i koordinasi A. maka :

.

..

(12)

Menurutnya juga, jika pelnotongan kluster

dilakukan pada awal hirarki, cenderung

menghasilkan nilai precision yang tinggi, tetapi

nilai recaN rendah. Dan sebalikoya, jika

petnotongan kluster dilakukan pada level atas hirarki, maka akan menghasilkat~ nilai precisio17 rendah dan nilai recall yang tinggi.

METODOLOGI PENELITIAN

Penelitian dilakukan melalui beberapa tahap, yaitu:

I . Pengu~npulan dokumen.

2. Pengekstrakan informasi dalani dokumell.

3. Pembentukan kluster.

4. Pe~nbuatan prototipe search engine.

5. Analisis.

Perangkat lunak yang digunokan dalam penelitian ini adalah Ms Access 97, Ms Excel 97, SPSS 9.0, dan bahasa pelnrogralnan Visual Basic 6.0. Sedangkan untuk prototipe serrrclt engine dibuat dengan ~nenggunakan ASP (Active Server Pages).

Pe~iguinpulan Doltume~l

Dokunien yang digutlakan sebagai sumbcr masukan untuk proses pengelompokan dalam temu ke~nbali adalah 107 dokutnen, yang berupa ringkasar~ (abs~racr) karya illniah mahasiswa S1 IPB.

Iiarena penelitian dilakukan utltuk specijic dor~ruin, dala~n ha1 ini adalah bidat~g ko~nputer, maka dilakukan pemilihan terhadap d o k u n l e ~ ~ yang topiknya berkaitan dengan bidang imu ko~nputer.

Eltstr~tltsi It ~ f o r r t ~ ~ l s i

Yang dimaksud dengan proses ekstraksi infortnasi adalali proses penyirnpanan i~~l'ormasi yang terkal~dung dala~n masing-masing dolturnen ke dalam suatu basis data.

Proses ini lnelibatkan beberapa modul

.

yaitu:

I . Modul untuk memasukkan inforn~asi- informasi yang ada pada dokumen, seperti judul, pengarang, ringkasan dan nama-

nalna petnbi~nbing ke dalam basis data.

2. Modul untuk me~nasukkan isrilall-istilah

dalam bidang illnu ltotnputer yang tcrdapat dalaln masingmasing dokumen ke dala~ii basis data.

3 . Modul untuk n~enghitung frekuensi masing-masing istilah dalam tiap dokume~l dan hasilnyaput~ dimasukkan ke dalan~ basis data.

Pelr~beatukae Klustcr

Data frekuensi istilah yang dihasilkan pada modul ketiga digunakan unluk ~nembentuk matriks istilah-dokumen, dilnana setiap baris dalam tnatriks

menyimpan kumpulan frekuensi dari istilali

tertentu pada senlua dokumen yang ada, seperti terlihat pada matriks A berikut irii :

Dt

D>

...

D,,

ditllana Ii = istila11 kc-i, Di = dokunlen kc-i, dan

fij=

frekuensi istila11 kc-i dalam dokumen kc-j

Matriks istilah-dokun~e~i ini dibentuk

menggunakan sebuah modul, yang men/rarzsji.r data frekuensi istila11 yatlg ada dalam basis data kc

dalaln sebuall tile berfor~uat excel.

Setelah ~natriks istilah-dokumen terbentuk, maka dilakukan proses pengelompokan dengall menggunakan SPSS 9.0. Jellis pengelonlpokan yang dilakukan adalali mctode kluster berl~irarki

dengan ugg/o~~reratiie prucedr~re yang

menggunakan metode pautan rata-rata dalan~ kelompok yang baru, scdangkan pengukurnn

jaraknya menggunakan perl~itungan jarak

Elrclid~!an. 01rrp111 yang dil~:~silkan dalan~ proses ini berupa derldogrmrt istilali.

Der~dograrrr yang terbentuk berupa kulnpulan kluster-kluster yang berawul pada saat dimana setiap kluster dimulai dari satu istilali satnpai akhirnya setnua istilah rnenjadi satu kluster. Hal itu memberikan banyak alternatif untuk me~~entitkan dan tnempelajari kluster man;] yang sesuai untuk kebutuhan (Salton, 1989).

Pembuatan Secrrclr Krrgi~rc

Setelah kluster-kluster terbentuk, maka tahap selanjutnya adalali petnbuatan search egine. Serrrch engine dibuat dengan inenggunakan ASI' (,lctil,e Serve, Puges), dimana untuk sisi server digitrtak;~~~

vb scrip, dan untuk sisi clrerlr digut~akan j i ~ \ ~ i r

(13)

Kluster istilah yang dihasilkan pada tahap c. !ika ditemukan istilah "(record)", rnaka

sebelumnya digunakan untuk memperluas kueri istilah tcrsebut juga akan dihitul~g.

yang akan digunakan dalani pengambilaci dokulnen

(expunded booleu17 queries), dirnana istilah-istilah Tnbel 2. Daftar kondisi yang diterapkan dalam

yang berada pada satu kluster dianggap perhitungan istilah

rnernpul~yai makna sama. Hal ini dimaksudkan agar peluang dokumen yang terambil menjadi lebih besar.

HASIL DAN PEMBAHASAN

I<ilraliteristili D o l t u r ~ ~ c r ~

[image:13.608.305.515.156.295.2]

Dokumen yang diproses berju~iilali 107 dokumen yang selurulinya mempunyai clo111ui17 subyek yang sama, yaitu komputer. Deskripsi dokumen dapat dilihat pada Tabel 1.

Tabel 1. Deskripsi dokumen

Tabel 1 lnenunjukkan adanya perbedaali yang cukup besar antara r~ilai rataan islilali dalam dokurnen dengan nilai rataan seluruh kata yang ada dalam dokumen. Hal il~i karena istilali-istilall yang dimasukkan hanya yang berhubungan dengan ilmu koniputer saja da11 juga karena jurlilall kata dalam suatu istilah bisa terdiri lebih dari satu kata.

dokulnen

-

Rataan istila11 dalam tiap dokumen Rataan kata dalam tiap dokumen

l'ea~ilihan d a l ~ Perl~itullgat~ Istilali

Yang dimaksud dengan istilah adalah kata-kata yang mernpuriyai arti sehingga satu istilali bisa terdiri lebih dari satu kata.

Ada beberapa kondisi yang diterapkan dalam proses penghitungan istilah dalam dokumen, yaitu suatu istilali akan dihitung jika kehadirannya dalam dokumen memenuhi kcadaan seperti terca~ltum pada Tabel 2.

Sebagai contoh, jika modul iier~dak riiencari istilali "record", ~ilaka kondisi-kondisi yang ~iiuligkin diternukan adalah :

a. Jika ditemukan istilab "recorder", istilali tersebut akan diabaikan.

b. Jika ditemukan istilah "record", maka istilali tersebut akan dihitung.

57,12 239.44

Kurnkteristik Kelor~ipok

Istilah-istilah berhasil dikelo~npokkan ke dalam 10 level birarki, yaitu pada jarak (dislcmce) 25. Jadi pada jarak tersebut seluruh istilah telali berhasil bergabung menjadi satu kluster tunggal. Kluster yang terpilil~ adalah kltrster-kluster yang terbet~tuk pada level 2 hirarki atau pada jarak (disrance) 5.

Pada jarak tersebut total kluster yang terbentuk sebanyak 436 kluster dengan perincian seperti

tercantuln pada Tabel 3. I-lasil kluster

selengkapnya dapat dilihat pada Lalnpiran 1.

Pcmililian kluster didasari ole11 pertimbangan relevansi antar istila11 dan jumlah keanggotaan kluster. Pada jarak 4 belt1111 ada kluster belgabur~g dengall kluster lai1111ya jadi setiap kluster masih terdiri dari satu istilal~, dali pada jarak 6 istilall- istila11 yang berllasil bergitbung mcl~jadi sattl kluster sudah tidak relevall lagi atau melniliki rnakna yang tidak sama. Olell karena ilu kluster yang dipilih adalah yang terbentuk pada jarak 5.

Dari T a b e l 3 terlihat bahwa jumlal~ anggota pada kluster-kluster yang terbentuk berkisar mulai I

sampai 21 istilah dalaln satu kluster. lstilah yang sudall membentuk kluster deligan istilali lainnya berjunllah 89 kluster, de~igan junilah anggota pada masing,-masing kluster antara 2 salnpai 21, sedangkan sebagian besar kluster laionya yaitu sebanyak 347 kluster dari total 436 kluster hanya

beranggotakan satu buah istilali. Hal ini

menandakan bahwa jarak E~rcliclecm yang

dillasilkan dari perhitungan frekuensi istilah dalalii dokumen cukrlp bcsar otau bisa diartikan ketidaksaoiaan antar istilall-istil:~h tersebut crtkrlp besar sehingga pada level dua dari proses

...

, , r i t i l , , , , , , Islilali dalani lnndil kuruug d;!a dinkhiri

lnndn tilik

(14)

aggregation, sebagian besar istilali belum Tabcl 4. DaFtar beberapa kelo~lipok yaiig

membentuk kluster dengan istilali lainnya. terbentuk pada jarak 5

Tabel 3. Ringkasan kluster yaiig terbcti~~ik

Tabel 4 menyajikan daftar beberapa kluster istilali yang terbentuk pada jarak 5, yang tiieiniliki jumlah anggota lebih dari satu.

Dari beberapa daftar kluster pada Tabcl 4, bisa dililiat bahwa ada beberapa kluster yeng metniliki anggota berupa isrilah-istilah yang tidak me~niliki hubungan yang jelas walaupun sebagian besar dari kluster tersebut sudah terlihat memiliki liubungan yang jelas. Istilah-istilah yang tidak meiniliki hubungan yang jelas terliliat pada istilah "fuzzy trapezoidal" dan "overlap" dan pada istilah "sistem inforniasi pariwisata" dan "monitor vga". Hal ini disebabkan karena istilah-istilali tersebut lianya berada pada satu dokumen, dan frekuensi istilah-istilah tersebut dalam dokumen sama (kedua istilah sama-sama memiliki frekuensi 2), seliingga jarak Euclidean yang terbentuk pada saat proses pengelompokan kecil. Hal ini ~nengakibatkan kedua istilah tersebut dianggap memiliki kesamaaii

yang cukup besar oleh sistem, seliingga

dikelompokkan dalam kluster yang sama.

[image:14.599.77.508.68.712.2] [image:14.599.303.507.88.712.2]

(15)

Searcli E~igirtc

Search engine yang dibuat berupa prototipe

dari spec@ dunlain search engine. Jadi pengguna

hanya bisa memasukkan satu buah istilah yang dicari, kemudian akan ditampilkan judul dari

dokumen-dokumen yang sesuai secara descending

berdasarkan total frekuensi semua istilali yang terlibat dalam masing-masing dokumen. Istilah- istilah yung dapat digunakan sebagai inpur, adalah istilah-istilah yang sudah terdaftar dala~n basis data istilah.

r

Pengguna memasukkan

istilah

Pencarian id kelompok istila11

dala~ii satu kluster

berdasarkan istilah

selesai

i

+

i

G a ~ n b a r 1. Diagram alur pencarian dokumen

Untuk pencarian dokumen berdasarkan istilah yang dimasukkan pengguna, diterapkan langkah- langkah seperti yang terdapat pada G a n ~ b a r 1.

Misalkan pengguna memasukkan istilah 'ljaringan syaraf tiruan", maka yang pertama dilakukan oleh

search engine adalah ~nencari istilali lain yang berada dalam satu kluster dengan "jariringan syaraf tiruan", yaitu istilall "backpropagation". Setelah didapatkan kedua istilah tersebut, nlaka n~ulailah pencarian dokumen menggunakan istilah-istilah tersebut. Dan didapatkan doku111ei1-doku~nen sebagai berikut :

I. Pengguna Analisis Komponen Utalna dan

Jaringan Syaraf Propagasi Balik untuk Pengenalan Wajah (The Use of Principal Conlponent Analysis and. Backplapagatior~ Neural Network for Face Recognition).

2. Perbandingan Metode Analitik dan Holistik

pada Pengenalan Wajal~ Menggunakan

Jaringan Syaraf Tiruali Propagasi Bt11ik Standar (The Comparison of Analytic and tlolistic Method on Face Recognition Using Standard Backpropagation Artificial Neural Network).

Tnbel 5. Daftar istilah percobaan

. ---

.[.

.

-

... . . ,

~ K O

I

Istilah A DIX

1

Dr !

llecirll dull I'recisiorr

Untuk inengukur efektivitas dari seorclr engi~le

yang dibuar, digunakan rncrode pengukuran recall

dan precision. Unluk ~netidi~patkan nilai recull dan

precision diperlukan data-data berupa jumiah

.. .,

.-

-

-.

--

. -. .

1

--;I

;

*,

i Bnsis data 3 , ,

- . --.

-

-.. . 2 3 4 5 6

8 - ? % i c s , infomlusi . 27 24 27 I

9 Sirtcnl inforlnusi eksckulif

10 Siras paknr

I i Tcolio

FUZZY 9 1

x !

x / ~

Information rclricval Jnringan komputcr Kon~pulcr grniik

Sii~~ulnsi _{. . .~~}_{.... .-}

-i---Tiiulusi kon~puler

3 4 I 7 - . 3 3 I

-

3 . .-

2 2 3

4

3

I

3

(16)

dokumen yang terambil, jumlah dokunien relevan yang terambil dan jumlah keseluruhan dokurnen yang relevan dalam setiap pengambilan dokumen.

Karena itu dilakukan percobaan melalui

serangkaian peiigambilan dokumen, yaitu sebanyak 30 kali pengambilan dengan menggunakan istilah- istilah yang berbeda untuk niendapatkan data-data tersebut.

Daftar istilah yang digunakan dalam percobaan dapat dilihat pada Tabel 5. Kolom istilah pada Tabel tersebut berisi istilah-istilah yang digunakan

dalam pengambilan dokumen, kolom

DA

berisikan

jumlah dokumen yang terambil, kolom

D,

berisikan jumlah dokumen relevan yang terambil,

sedangkan kolom

Dc

berisi junilali seluruh

dokumen yang relevan yang dihitung dari keseluruhan dokumen yang ada.

Untuk perhitungan recall dan precision digunakan teknik rata-rata. Hasil perhitungan secara detail dapat dilihat pada Lanipiran 2. Tabel 7 berisi jumlah dokumen yang terambil pada setiap level koordinasi dan pada setiap istilali yang digunakan, yaitu 10 level koordinasi dan 30 buah istilah. Tabel 8 berisi jumlah dokumen relevan dari dokumen yang terambil pada setiap level

koordinasi, sedangkan Tabel 9 jumlah doku~nen

relevan pada tiap-tiap istilah. Dari nilai-nilai yang ada pada tabel-tabel tersebut bisa didapatkan nilai- nilai precision dan recall seperti pada Tabel 6.

Tabel 6. Precision dan Recall

Dari nilai-nilai yang ada pada Tabel 6 dapat dibuat grafik recall dan precision seperti pada G a ~ l i b a r 2. Pada grafik tersebut terlihat liubungan negatif antar recall dan precision. Jika lrilai recall rendah, maka nilai precision tioggi, scdangkan jika nilai recall tinggi, tnaka nilai precision ceridcrung rnenurun. A 1 2 3 4 5 6 7 8 9 10

Nilai precision yang dillasilkan dari percobaan ini sangat tinggi di niana nilai yang terendali hanya 0.76 dan nilai tertinggi adalali 0.97. Sedangkan nilai recall cenderung lebil~ rcndali dan bervariasi mulai dari 0.26 sanipai 0.77.

G a m b a r 2. Grafik recall dan precision

Precison 0.97 0.97 0.96 0.93 0.89 0.87 0.85 0.82 0.80 0.76

Hasil ini, sesuai dengan teori yang diungkapkan oleh Rijsbergen (1997) bahwajika kluster dipotong pada awal hirarki ~ n a k a nilai precision cenderung lebih tinggi dibandingkan nilai recallnya.

Recall 0.26 0.31 0.38 0.43 0.46 0.54 0.60

-

_0.70

0 . 7 r - 0.77

KESIMPULAN DAN SARAN

I<esi~spulan

Dari penelitian yang telah dilakukan dapat diambil kesimpulan sebagai berikut :

I. Hasil pengelompokan yang kurang akurat

sebagian besar disebabkan karena istilah- istilah yang berhasil mengelompok tersebut hanya terdapat pada satu atau dua buah dokumen. Oleh karena itu jika frekuensi istilah-istilah tersebut snma, maka otoriiatis jarak antar istilah tersebut sangat kecil yaitu 0 (nal) dan sistem akan nienggabungkan istilah- istilali tersebut ke dala~ii satu kluster.

2. Nilai precision dan recall ~nemiliki hubungan

yang negatif. Maksudnya adalah jika nilai recall rendah, maka nilai precision tinggi dan sebaliknya jika nilai recall tinggi maka nilai precision cenderung lebili kecil.

[image:16.605.308.499.160.295.2]

(17)

Saran

Kelemahan dalam sistem ini adalah adanya istilah-istilah yang berhasil dikelompokan dalaln satu kluster, walaupun istilah-istilah tersebut tidak memiliki kemiripan makna dengan istilah lain

dalam kelompoknya. Karena it11 penulis

menyarankan agar dalam pengembangan sistem

lebih lalijut, donlain yang pakai dalam

pengumpulan dokumen lebih spesifik, seliingga istilah-istilah yang dihasilkan akan icbili sedikit

dan keliadiran istilah-istilali tersebut lebil~

bervariasi dalam dokumen-dokume~i, selii~lgga akan menghasilkan kluster-kluster istilali yang lebill tepat.

Dalam proses pemiliha~i dan pemasukan istilali

penulis menyarankan agar terlebih dahulu

melibatkan proses pe~nbentukan kata dasar derigan menggunakan algoritma Steming, sehingga istilah yang akan dikelompokkan tidak akan terlalu banyak karena sebelumnya sudah dikelompokkan berdasarkan kata dasamya.

DAPTAR I'USTAKA

Adisantoso, Julio. 2001. P e r l e ~ r s a ~ ~ Kueri Menggunakan Peluung Bersyu~ut (Quey

Expansion using Conditional Probability).

Forum Statistika dun Konlpurasi. 6: 7-13.

Andenberg, M.R. 1973. Cluster Analysis for Applications. Academic Press, Inc., New York.

Bacelar, Helena and Nicolau. 2000. Closs~$~ing Variables By Hierarchical Clustering A4odels: Empirical and Probabilistic Approaches (http:I/

www, uni-bonn.de/ ~nathpsyc/doclBacelar/

Bacelar.htm).

Jol~nson, R.A. and D.W.Wicl~ern. 1988. A plied

Mutivariate Statistical Analysis. 2"' ed. Prentice-Hall, Inc.

Prasetyo, Dwi. Penyus~man Tesaurus

Menggunukan Analisis Cerosbol. Skripsi Jurusan llmu Komputer FMIPA IPB. Bogor.

Search Engine Ttrrorial /or Web Designers,

htfo:ll\.\'ww.nor~liernwebs.co~ii/s~~l

Rijsbergen, C.J.va11 B.Sc., Pli.D., M.B.C.S. 1979.

lnfirnlation Retrievcrl. Department of

Computing Science, University of Glasgow.

Selton, Ccrald. 1989. A ~ ~ I l o ~ ~ a ~ i c T ~ I Processing The Trans/ornlation, Analysis, and Retrieval of ln/ornration by Co~n/~rrter. Addison-Wesley Publishing Company, Inc.

McCallum, Aodrew, K a ~ n a l N ~ ~ ~ I I I I , Jason Rennie nnd Kristie Seymorc. Building Donlain-SpeciJic Search Engine with hlachine Learning Techniques. School of Computer

Science Carnegie Mcllo~i IJniversity,

(18)

(19)

L a m p i r a n 1. Hasil pengelompokan istilah

D e n d r o g r a m using Average Linltage ( W i t h i n G r o u p ) Rescalcd Distance Cluster C o m b i i i e

C A S E 0 5 10 15 20 2 5

Label Nu", +---+-.-..----+---+---+---+

ms powerpoint 692 msword 693 cascade 689 rnsexcel 6 9 1

tile 690 hard disk 170

prototype 4 72

h

analisis sistem 53

desain sistem 54

J

front end 212

backend 213

i

l

j

-furry trapezoidal 492 overlap 497 center of grafity 495 defuzifikasi 496 furry logic 490 fuzifikasi 493 f u u y min-max 494 sample 491 decoder 687 prosedurai 211 simulation 273 interaksi manusia 1 4 6 teknik pernrograman 150 multithreading 152 muilimedla 147 spasiai 1 4 8

.

relasi furry 381 model adiassnig-kolarz 38)

metode peringkat 33

pernetaan bijektif 38

kompieksitas algoritme 4 1

I

rekord 35

(20)

L a m p i r a n I . (La11jut;ln)

odbc 575

Browser 568

professional home page 570

skrip 572

Sewer-side 51,1

binary coded decimal adder 684

Webtilaster 621

hang 62.'

Webpage 619

Webadmin 62"

Update 77

Password 315

Router 641

access conlrol policy 6 4 2

hacker 64"

privalc network 639

parttioned iterated function systems 581

memory 583

iteraled function systems 580

resolusi 5 8 2 winexsys 376

exsys professional for microsofl 377

wlndows 408

microsofl wlndows kompresi matriks sparse 659 sparse matrix compression 660 worst-case 661

vertex 602 worst case GOO

291

run-length encoding pixels 2 93 dala digital

"'

dct *OL)

kuanlisasi 2 9 0 graphics interchange format 287

discrete cosine transfornr 288 redundancy 282 joint photographic experts group 286 discrete 593 marketing information system 674 pereferensian 4136 compression 579 reasoning-trace explanations 340 power designer 6.0 dataanalyst 538 power desigtier 6.0 dataarchitecl 539 help scribbel 537 s i s t e ~ ~ i iiilortnasi rnanajemen 80 ~nleraklif 39''

.1 3.1

sisle~ri inforrnasi parlwisala

monitor vga 'I 3 '>

,135

(21)

Lampi~.ar~ I. ( l a ~ i j u t a i ~ )

SO~COPY 63 1

hardcopy 632 CmOS 62 3 acer 627

compaq 628 year 2 kilo 625 y2k 626 century byte 624 ibm 629 otomatisasi 1 2 1 model sanchez 382 berkas 34 1 microsoft visual basic 536 expert system 47 1

real time 7 0 datafeed 7 3 mullithread 71

multitasking 72 stokhastik 679 metode transformasi invers 680 simulasi ranlab markov 671 peiuang transis1 stasioner 678 triangulasi poligon 560 polygon triangulation 561 dynamic programming 550 matrix chain multiplication 5 5 9 kombinatorial 1 3 0 parallel 55.1 data struclure 453 reference dictionary 454 double-array 2 6 3

trie-list 265 trie-da 2 6 6 art-im 1 3 0

automated reasoning tool for in!ormation management 439 system development Ilfe cycle 442 SdlC 1 1 3 batch 64 5 lease line 64 6

(22)

Lampirun 1. (la~ljutiln)

ole automation 3 0 3

enuripsi help 3 1 2

visuailzalion q66

java3d 467

-

lava 3d G q

tree3d simple iight interception model

liga dlmensi 6 a

grafis 6,,

operasi penghapusan 4 1 8

operasi pengganlian melode kesarnaan string

operasi penyisipan 4 1 7

cluster analysis 447

inheritance rules 6 6 4

-

inherilance 441

analisis gerombol 3 0 6

knowledge discovery 6 6 3

earliest-stalic-level 5 5 2

earliesl-finish-lime 5 5 3

graf asiklik berarah 5 4 5

highest-static-level 5 5 0

highest-dynamic-level 5 5 1

directed acyclic graph 6

virtual 5 5 , ,

cartesian product form

,.,

teks I --.--

dot matriks l o g

sjstem manalemen basis data ibm rlsc 6000 1 7 a

updaling 190

peluang bersyaral 4 4 5

metode pencarian 3,i -.

prinler

-

monitor

,a,

-

PC 1 8 3

java scrip1 5 6 G

realtim~ 5C.,

OICCI~OO~C cornrnerce

:,,,

.

visual basic script 5 6 5

hypertext markup language 11

e-commerce 5 6 3

--

java 1(1

(23)

Lampiron 1. (Lanjutan)

.basis data reiasional 390

lit 392

data relasionai 220

digitasi 588

context-free grammar data retrieval 586

speech recognition pengenalan ucapan 585

sinyai 319

single-user 48.1

-

L

simultan 485

-

',I+

visual C++ 477 - sound card 482 -

ppicard 483

-

sound recorder

--

personal computer 481 -

-

jet audio q 7 q

-

:

sistem berorientasi obyek 576

-

sistem pengelolaan 195

reasoning-trace explanalion 4gq

--microsoR access 97 29

-

inlorface

-

pelacakan ulan9 1 3 3 - backtracking 476

-

fungsi kendala 129 - np-complete 1 3 1 -

design 336

hypertext 338

-

statistika deskriplif 675

inferensia stalistika 676

sistem intelijen 502

neural 4 4 9

-

admin 274

supervisor 275

mulii-user 272

infarensia 379 ---.

borland deiphi

--

sybase sql anywhere 268

full exact malching 2 ~ q

(24)

L a m p i r n ~ ~ I . (Lanjutan)

matching 571 public 276 stand alone 577 skelelon-key 3 4 3

omission-key 344 precision 346 recall 347 model entiti-relasi 27 visual basic 5.0 31

model relasi 28 asimetrik 530 ciphertext 532 fronlal 119 correlation 4 62 automatic acces control g8

PCX 1 1 4

rgb I 15 bitmap 112

j ~ g 113 matlab 110 paint shop pro 111 security system 100 template matching 105 human computer interfaces 99 transformation 46)

defuzzihkasi 6 8 8

executive information systems 540 jusl in Lime 391 sistem penunjang keputusan 228 decision support system 473 face recognition 10.1 ukuran kesamaan 107 fonetik 3 4 8

penemuan pengetahuan 662 hypermedia 498 pengambilan kepulusan 1 9 9

(25)

Lalnpirall I . (Lanjutan)

(26)

L a m p i r a n 1. (Lanjutan)

program akuntansi platinum 63.1

platinum basic 637

port disbursement 633

-

pemrograman dinamis 4 1 4

algoritma nelder-mead 533 multidirectional search 534 anlarmuka 380

operator 135 i

paralel 151 I

struktur program 4 32 object oriented programming 682

polimorfisme 429

numerika berorientasi objek 426

pelnrograman numerik q2.1

objecl oriented 474

bahasa pemrograman

retrieval melhods 669

oracle designer 324 Sistem informasi akuntansi 3 3 1

case tools 33)

computer assisted software engineering 3 3 2 ms access 325

management information system 464

case 333

tools 335

-

information system 4 5 2

-

(27)

oiap database engine on-line analytical processing oltp on.line transaction processing database management system heuristic algorithm &tern pakar berbasis pengetahuan kuantitatif paradox relationship perangkal keras on-line koelisien determinasi e-marketing temu-kembali peiuang sistem informasi geogralis autodesk mapguide

(28)

Lampiran 1 . (La~ijutan)

access 1 7 3

-

open addressing 15;

linear probing 17.1 secondary storage 169

decrement 176 aslmtotik 1 6 0

pembenturan 166

primary storage 16.1 key to address transformation 164

kat 1 6 5

double hashing 1 7 s field 162

entri 1 7 1

pemetaan 353 sistem aplikasi 158 key 163 subsistem 49 visuaibasic 1 4 2

visual 681

-

pohon 3d 53

slim 67

--

visualisasi 62

ingar ? l o

-

7

multistage median filter 3 2 1

-

aigoritma dual space 61-1

algoritma semi dual space 618 windowing 61 .i

algoritma modified cyrus-beck 616

algoritma line clipping 612

-

animasi 296

[image:28.611.67.514.103.763.2]

window 61s - grafik 4s poligon 4 1 3

distributed database 595 pseudo-code 598 concurrency control

diskrit 59" konlrol konkurensi 591 simulasi komputer 695 konkuren 5 9 7

two phase request distributed scheduler 996

(29)

Lsmpil.an 1 . (La~ijutan)

koefisien koreias 697

-A

trigram 57

I

boolean 299

--

I

wet 9 -A

pixe 116 bilang'dn acak 1 2 0 pengenaian poia 101

koreiasi norm= 9 6 transformasi fouriel 97

orientas 118

-

dimens 106

pengenalan wajah 1 2 3 komunikas 1 9 7 intranel 7 5

database 1 2 I

non-relasiona 2 1 5 _i

durable 239 -

ad

manajemen database 2 1 9 -A

acio 2 4 0 - e-maim 2 1 6 - consistency 23-j - isolation 2 3 8 - propert 2 3 5 - atomicity 2 3 6

-

command 232

-

connection string 2 3 3

-

connection 2 3 0 - recordsel 231

-

.

component object mode, 2 2 6 - corn 2 2 7 - oledl: 224 - activex data objects 2 2 5

-

uda 2 2 2

-

object linking and embedding for databaser 2 2 3 --

universal data access 2 2 1 - :

keamanan data 2 1 8

-

metode gross-uC 638

user friendly 314

--

antar muka 2 2 3

perancangan sistem 5 1 A

objecl 460

.

-

spreadsheel 2 1 7

korelasi pearson 6 9 6 --A: pemrograman liniel 6 8 3

direct searcil 5 3 5

1

multi usel 440 damerau-levenstein-metric 3 4 2 data access 470 record 1 7 2 siklus hidup sistem 52

(30)

L a m p i r i ~ n 1. (Latljutan)

pengaksesan data 50

berorientasi obyek 18 algorithm 468 parameter 69 . diskriminall 541

-

sistem informasi eksekutif 244 firewall 39

sim 81

-

transaksi 16

---

perancangan 22

penjadwalan 549

--

internet 6 A

sewer 7 9 _ I

metode hashing 155 I

koiisi 157

mesin basis data .$liq

---

respons 5.1%

I--

element different moment of order k 2s4 keseragaman :GO

anaiisis citra 251 matriks kookurensi 242

tingkat keabuan 243

-

texture 456 features 457

bmp 249

-

entropi 259 grey-level 455 iedm 257 kontras 258 invers of element different moment of order k 255 edm 256 txt 250 peluang maksimum 253 penginderaan jauh 252 adaptive multistage median filter 322 link 500

teori gugus 38s

bit 42

---A

matrix 215

-

siklus lhidup 360

image 102 derajat kesamaan 5 9

format - 4 8

-

file 137

windows 18.1

-

implementasi 2 3

-

. -

pengembangan sistem 55

--

Lekstur 2.16

--

(31)

La111l1il.a~ 1 . (Laiijotan)

domain name system 349

domain name 352

ip 94

protokol dinamid 350

name server 358

resolve 356

host client 357

host.txt 354

dns 355

tcplip 8 6

client 203

dinamis 154

host 351

trie 262

median filter 320

rnodul 635

information retrieval 451

threshold 488

knowledge-based fuzzy 486

relevansi 300

korelasi 542

obyek 155

hashing j2

dokumen 307 kriptogran 528

data encryption standard 531

encryption 526

rivest sharnir adlernan 527

simetrik 529

waktu kornputasi 525

komputasi 108

kornpleksitas 159

token 294

bits 295

IOSSY 284

huffman coding 292

replika 285

citra digital 260

lossless 283

gif 279

jpeg 278

digital 117

matriks 201

input 339

kunci 37

jaringan syaraf tiruan 125

backpropagation 461

artificial 4 4 8

neural nehrork 450

(32)

Lampiran 1. (La~ijotan)

(33)

Lampiran 1. (Lanjutan)

Metode 2 3 4

Citra 1 0 3 1

algoritma ,,28

I

data ..

7

(34)

Lampiran 2. Detail hasil perhitungan data untuk evaluasi

s = istilah yang digunakan, A = level koordinasi

-d

_Tabel_{9. Jumlah seluruh dokumen yang relevan}(A,)

6

S 11 21 31 41 51 61 71 81 91 101 111 121 131 141 151 161 141 181 191 201 211 221 231 241 251 261 271 28/291 301 IA

(35)

PRQTQTIPE

SPECIFIC

DOMAIN SEARCH

ENGINE

DENGAN MENGGUNAKAN

METQDE ICLUSTER BERHIRARICI

ADE LIANA

JURUSAN ILMU KOMPUTER

FAKULTAS MATEMATll<h DAN ILMU l'ENGE'T,1I-IUi\N ALAM

1IVS'T:l'U'T I'ERTANIAN BOGOR

(36)

Ade Liana. Prototipe Specfic Do~rroi~i Search Engine Dengan Menggunaka~~ Metode Kluster Berhirarki (Specijc Donlain Search E~igine l'rotoppe Using lfierarchical Clr~stering Method). Dibimbing oleh JULIO ADISANTOSO dan YEN1 I4ERDIYENI.

General purpose search engine rnemang tnenawarkan banyak informasi bagi penggunanya, namun ~nemiliki satu kekuranga~i yaitu nilai precision dari hasil a:mu ke~nbalinya kecil. Salali satu alternatif solusinya adalah dengan menggonaka~l sl)ecijic do~~toiri search engine, sehingga sistem telnu kembali dibatasi hanya pada domain tertentu saja. I'enelitiar~ ini bettujua~l urlluk inenelaah penggunaan metode kluster berhirarki dalam sistem temu ke~nbali untuk me~nhangu~~ spec* c/o~r,,rlair~ search engine dan kinerja metode kluster berhiraki dala111

is tern

temu kembali.

Dokumen yang digunakan dalam pcnelitian ini berjumlah 107 buali dokomen yalig berupa ringkasan karya ilmiah mahasiswa SI IPB. Metode kluster berhirarki digunakan untuk rnengelompokkan istilah

berdasarkan frekuensi setiap istilah dala~n dokumen. Pengelompokan ini dilakukan dengan menggunakan

SPSS 9.0, dimana metode yang digunakan adalah metode pautan rata-rata dalam kelompok yang baru

(average linkage within the new grotrp) dan output yang dihasilkan dala~n proses ini berupa dendogrcrnr

istilah. Kluster yang terbentuk akan diyunnkan untr~k meml~erluas kueri dala~n pencarian dokumen, di mana istilah-istilah yang berada dalam satu kluster dianggap memiliki tnakna sania, sellingga

~nemperbesar peluang terambilnya dokumen yang relevan.

Untuk analisis kinerja search engine digunakan rnetode perhitungan recall dan precision, yang masing-masing merupakan perbandingan antara dokumen relevan yang terambil dengan jumlali

(37)

PENDAHULUAN

Latar Beluka~ig

,

Good

Rc

Fainhorne (1958)

dalall,

Rijsbergen

dalam

Jones (1971)

-

T u j u a r ~

TINJAUAN I'USTAICA

Set~rcl: Et~girle

(dissir~~ilarity),

(38)

PENDAHULUAN

Latar Beluka~ig

,

Good

Rc

Fainhorne (1958)

dalall,

Rijsbergen

dalam

Jones (1971)

-

T u j u a r ~

TINJAUAN I'USTAICA

Set~rcl: Et~girle

(dissir~~ilarity),

(39)

Andenberg (1973)

dalam

Prasetyo (1998) dan

Johnson & Wichern (1988) menyatakan bahwa

jarak statistika dapat digunakan sebagai ukuran kesamaan antar vektor. Semakin dekat jarak antar sepasang vektor maka semakin erat hubungan antar vektor tersebut.

Beberapa ukuran kesamaan menurut Johnson &

Wichern (1988) adalah jarak Eticlideun dan

Minkowski. Misalkan diketahui, x = [XI,

x',

...,

xP]'

dan y = ly',y2, ...,y dimana x' adalah bobot istilah

x

dalam dokumen ke-i dan y' adalah bobot istilah y dalam dokumen ke-i, sedatigkan p adalah dimensi atau jumlah dokumen. Maka jarak

Euclidean dinyatakan sebagai :

sedangkan jarak Minkowski dinyatakan sebagai :

jika m=I, maka d(x,y) menjadi jarak city-block antara dua titik dalam p dimensi. Sedangkan jika m=2, d(x,y) menjadi jarak Esclidemz.

Kluster Berlrirarki

Teknik pengelompokan yang dilakukan melalui serangkaian penggabungan atau penlisal~an disebut

dengan teknik kluster berhirarki (Johnson &

Wichern, 1988).

Menurut Bacelar & Nicolau (2000). pada

analisis kluster berhirarki ada dua pendekatan utama untuk merepresentasikan struktur data. Pada level dasar yang paling sering digunakan adalah koefisien perbandingan yaitu kesamaan atau ketidaksamaan antar variabel, yang sama sekali tidak terkait dengan aspek peluang. Sedangkan pada level lebih lanjut, digunakan model peluang @robabilisric models) berdasarkan koefisien- koefisien peluang @robabilisric coeflsienls).

Secara umum penyusunan birarki dapat

dibedakan menjadi pemisahan (dili,.isive) atau penggabungan (agglornerurive). Pada proses awal penyusunan kluster berhirarki pada penggabungan.

sebuah obyek dianggap sebagai satu kluster

sehingga banyaknya kluster awal sa~iia dengan banyaknya obyek. Obyek-obyek yang paling salna adalah yang pertama dikelonlpokka~~. Proses penggabungan berlangsung terus berdasarkan

kesamilan antar obyek sampai akhirnya terbentuk suatu Itluster tunggal. Sedangkan pada proses pemisalian, yang terjadi adalah kebalikannya (Johnson & Wichern, 1988).

Misalkan diketahui sebuail matriks jarak segitiga bawah sebagai berikut :

di mana, si, adalah jarak atau nilai kesatnaan antara

obyek i dan j. Maka prosedur yang bias any;^

dipakai dalaln penggabungan kluster adalal~ (Anderberg, 1973) :

I . Mulai dengar1 n kluster, yang masing- tnasing terdiri dari satu obyek. Beri label setiap kluster dengan notnor dari I sall~pai n.

2. Mencari kluster yang paling sama ~nelalui matriks kesamaan (sir/rilurity n~ulris). Beri label kluster yang terpilih dengan huruf p dan q dan nilai kesamaan kluster tersebut adalal, s,, p q.

3. Junllali. kluster dikurang I karena sudali ada kluster yang bergabung. Beri label kluster hasil penggabungan tadi dez~gan huruf q ' dan ganti nilai dala~n matriks

kesa~naan untuk merefleksikan nilai

kesan~aan antar kluster q dengan kluster- kluster yang lain.

4. Lanjutkan langkah 2 dan 3 sebanyak 11-1

kali, salnpai semua obyek metijadi snlu kluster.

Beberapa metode yang digunakan dalam pembelltukan kluster berhirarki adalall :

I. Pautan Tunggal (Single Linkuge), dimana

jarak antara kluster pq atau misalkan kluster t (yaog terbentuk pada langkali Inomor 2 di atas) dengall kluster r adalall :

sir = ~niin (s,,,~, sqr)

2. Pautan Lengkap (Con~plete Linkuge), yaitu

jarak antara kluster pq atau kluster 1

dengan kluster r adalah :

(40)

3. I'autan Rata-rata dalam Kelo~npolt ynng Baru (Average Linkage V i 1 1 i 1 Tlrc Nett, Gruiip), Ketika kluslcr p dari q berpbung, mak;~ jarak antara lkluster y a ~ i g icrbentuk, misalkan t dellgan kluster lain, misslkan r mel~jadi :

SS = SI" + S<I'

Misalkan SUM; adalali jumlall jarali antar dua elemen yalig terdapat dalam kluster i

dan Ni adalah junllall elemen dalalil kluster

i, maka ketika kluster p d a ~ ~ q bergabung, lnlisalkan lnenjadi kluster t :

SUM, = SUM,

+

SUM,, + st,,,

N, = N,

+

N,

Dan ketika mencari pasangall elemen yang

paling sama, jarak antar elemennya,

~nisalkan aritar elemen t dan r, dil~itung sebagai berikut :

SUM, + SUMr + s,, d(t,r) =

(N,

+ N,)(N, + N, .- 1) 1 2

4. Pautan Rata-rata antar Kelompok yang

T2rgabung (Average Linkrrge Ucrivec/i

Merged Grotcps). Metode ini l~ampir sama dengan lnetode sebelumnya, hanyi~ saja dalam mencari pasaogan yang paling sania, jarak alltar elemennya, misalkan elemen t

dan r, dihitung sebagai berikut :

di mana s,, adalah jumlall t i i l i ~ i kesamaan antara pasangall kluster t d a l ~ kluster r, sedangkan N, adalah jumlah obyek yang ada pada Itluster I.

Model dari kluster berhirarki dapat

direpresentasikan secara grafis, yaitu dcligan diagram pohon atau d t ~ x l u g r u i r ~ . I'iida niodcl penggabungan berhirarki, ( l o ~ ~ l o g r ~ ~ i r r di~nulai dari bagiali dilnana semua elelneli berada pada Itlustcr- kluster yarig bcrbcda, atau pada bagiall dilnana semua elemen tiielijadi sanl kluster. Patla sctiap level algoritma pengklustcra!~ inenyetukan due atau lebih klr~ster yang paling mirip (Bacclar 8: Nicol;~u, 2000).

Efcktivilas OIIII Elisic~lsi

Mcnurut l<ijsbergon ( 1 7 0 yang di~nsltsud dengan elisiensi dal;l~ii s i s t e ~ l ~ !elnu kcnibi~li ndalah pengukural~ dalam 11i1I I ~ C I I ~ ~ I I I I ~ I ~ I ~ s111nber dayil ko~npuler. Sedarigkall ontuk efcktivitas, biasallya diukur dengan precision d a ~ i recoil.

Yang dinlaksud dellgall l~reci.siu/i it11 sendiri

adalal~ perbandingell antat.;) junilali dokulneli relevan yartg ceran~bil tlerlg;~rl , j u l ~ i l a l ~ dokurnell keseluruhan yang terambil. Sedangkan recoil adalah perbandingall antilra jumlah dokumeli relevan yang tera~nbil dengan j u l n l a l ~ keselurohan dokumen yang relevan.

Misalkau diketallui A adalah Iiimpunati

dokumcn yang relevan d;111 I3 i ~ d a l a l ~ Iiimpuni111 dokumen yang terambil, ~llaka :

In

Bl

RECALL =

-

Salall satu mctodc p e ~ i y ~ ~ k ~ ~ r a n e f c k r i l i t ; ~ ~ dengan menggunakall nil;~i r ~ v . ~ r / l dan /,rcr.~.ir<~~r adalah teknik rata-lxti~. l i s ~ l k ; ~ S od;~l:~h himpunan istilah yang di~ii:~sukk;~~i ole11 P ~ I I ~ ~ L I I I ~ I , dan A s adalall Ilimp~tniun dokunleli yalig releva~l dengan istilah s, maka :

. . ..

Jika

A

adalah level koordinasi, dan B;, adi~lali himpunan dokulncli y a l ~ g tcrambil pad;] i i i l t ~ i koordinasi A. maka :

.

..

(41)

Menurutnya juga, jika pelnotongan kluster

dilakukan pada awal hirarki, cenderung

menghasilkan nilai precision yang tinggi, tetapi

nilai recaN rendah. Dan sebalikoya, jika

petnotongan kluster dilakukan pada level atas hirarki, maka akan menghasilkat~ nilai precisio17 rendah dan nilai recall yang tinggi.

METODOLOGI PENELITIAN

Penelitian dilakukan melalui beberapa tahap, yaitu:

I . Pengu~npulan dokumen.

2. Pengekstrakan informasi dalani dokumell.

3. Pembentukan kluster.

4. Pe~nbuatan prototipe search engine.

5. Analisis.

Perangkat lunak yang digunokan dalam penelitian ini adalah Ms Access 97, Ms Excel 97, SPSS 9.0, dan bahasa pelnrogralnan Visual Basic 6.0. Sedangkan untuk prototipe serrrclt engine dibuat dengan ~nengg