• Tidak ada hasil yang ditemukan

Beberapa Ukuran Kesamaan Istilah Menggunakan Nilai Trigram

N/A
N/A
Protected

Academic year: 2017

Membagikan "Beberapa Ukuran Kesamaan Istilah Menggunakan Nilai Trigram"

Copied!
92
0
0

Teks penuh

(1)

BEBERAPA UKURAN KESAMAAN ISTILAH

MENGGUNAKAN NILAI TRIGRAM

JURUSAN ILMU KOMPUTER

PAICULTAS MATEMATIKA DAN ILMU PENGETAMUAN ALAM

HNSTITUT PERTANIAN BOGOR

(2)

ANDINI NURAMI. Beberapa U k u m Kesainaan Istilal~ Menggunakan Nilai Trigram (Several Tcr?,rs Sinrilarily Measures Using Trigrar?! Value). Dibinibing ole11 JULIO ADISANTOSO dan MEUTHIA RACHMANIAH.

Dalrun pencarian infom~asi terkadang jumlali dokunlen yang teran~bil terlalu sedikit atau terlalu banyak dibandingkan dokumen yang relevan dengan keinginan pencari i~<orlnasi. Hal i ~ u disebabkan pellcari i d o n i ~ a s i menlberikan input query berupa istilah atau kata kunci dari dokumen yang tidak tepat atau tcrjadi kesalahan pengetikan quey. Uniuk nlengatasi n~asalah tersebut dilakukan pembandingan kcsaillaan string: Melode yang banyak digunakan adalali metode 17-gnm, ilamun selruna ini metode 17- grani belu~n pen~ali digunakan sebagai dasar perhitungru~ ukuran kesamaan. Penelitian iiu bertujuan iintok menelaali lnetode trigram sebagai d a m perldtung'm ukuran kesamaan dalam sistem teinu-keinbali informasi.

Pada penelitian ini digun'akan ellipat ukuran kesrunaan istilah yaitu Jaccard, Dice, Cosine, dan satu ukuran kesamaan b m . Ukuran kesamaan baru ini dibuat berdamkan vektor binari dan ineinpnnyai idlai kesamaan istilah antara 0 dan 1. Berdasarkan nilai kesalnaan istilah &?ri keenipat ukunn kesamaan tersebut dilulung bobot dokunlen yang merupakan l~asil rata-nta j u n ~ l a l ~ nilai ukuran kesanlaan lebih besar dari no1 pada suatu kata kunci dala~n dokumen tertentu. Output dari sisteiii adalah umtan dokunlen sccara descmlrlirtg berdasarkan bobot dokumennya dengan dibatasi oleh nilai an~bang lerlentu. Efekiivitas ternu- kenibali siste~n ilu menurut u k u m kesalnaan tertentu pada nilai ambang 0.1-0.6 akan dianalisis berdasarkan lulai recall-precision-nya.

(3)

D e ~ ~ g a n rasa ci17la dm7 terirna h i h ,

(4)

BEBERAPA UKURAN KESAMAAN ISTILAH

MENGGUNAKAN NILAI TRIGRAM

ANDINI NURAJHI

Skripsi

Scbagei salah salu syarat urlluk n ~ e ~ ~ ~ p e r o l e h gclar

Sarjana Ko111puter pada

Program Sludi Illnu Konlputer

JURUSAN

E M U

KOMPUTER

FAKULTAS M A T E M A T W DAN lLMU PENGETAEIUAN ALAM

INSTITUT PERTANIAN BOGOR

(5)

Judul

:

Bebe~apa

Ulcurau Icesamaan Istilah Meugguualcau Nilai

Trigram

Nama

:

AudiuiNwaiui

N

I

M

:

GO6496006

Ir.

Meu~thia

Raclunauiah, M.Sc.

Pe111bi111bing

I1
(6)

Penulis dilallirkan di Dnlpasar pada tanggal 23 Sepleniber 1978, sebagai n a k pertalna dari dua

bersaudara, auk dari pasa~gan Muryadi dan Y a ~ u Roliaya~d.

Penulis lulus dari SMA Negeri 3 Denpasar, B d i pada taliu~i 1996 dan pada ta:mn yarig sana penulis

diteri~iia di Jumsau 11111~ Kon~pnter Fakultas Malenlatika dan Ilniu Pengetahuan Alam, I~lslitut Pertalk111

Bogor ~ilelalui Un&ngan Seleksi Masuk IPB.

Pada faliun 1998 pc~iulis pemall menjadi anggota Sie Kescjahtenan Hinipu~lan Mahasiswa I111iu

Komputer. Pada tallun 1999, penulis nienjadi pengajar Pelatihan Pengopensian Kolnputer Tingkat Dasar

pada kegiatai Se~rri-Que Project Acodenlic Alnrosphere intpro~~enrenl of Conrpulcr Science DcporInrer71

(7)

PRAKATA

Puji dan syukur peiiulis paijatkm kepada Allall SWT atas segala nlunat dan l~idayali-Nya sel~ii~gga

peuulisan karya ilmiali ini dapat diselesaikai. Penelitian yang berjudul Beberapa Ukurau Kesanlaan Istila11

Menggunaka~i Nilai Trigra~n ini, dilakukan di Laboratoriu~i~ Rise1 Jumsan Il~iiu Komputer sejak bulan Mei

sampai Juli 2001.

Tcrima kasih tak terl~ingga penulis sa~i~paika~i kepada semua piliak yang telali membantu pe~iyelcsaia~i

karya ilmiali ini, antan lain :

1. Bapak, Ibu, Ririn dan s e l u ~ h kcluarga atas segala doa dan duku~iga~u~ya selania pcnulisan k q a illnia11 ini.

2. Bapak Ir. Julio Adisantoso, M. Konlp. dan Ibn Ir. Meutlda Racluoaniali, M.Sc. sebagai

p e ~ ~ i b i ~ ~ i b i ~ i g yang telah ~iietiiberikan bimnbingau dan saran selanla pcnulisan karya ilmiah i ~ u .

3. Ternan-ternan Ridatri, Uyuy, Alex, Uda Ivan, Mas Poer, Mas Arie dan "Giant" tersayang, u~ituk

obrolan-obrolan, perhatin &an hari-l~ari sang me~iyenangkai.

4. Kakak-kakak di CDL2000, Ichal, Dani, Uya, Epin, Donic, Suneo, d a ~ i Visluiu, atas kesempatan,

bantuan d a ~ i dukunga~u~ya.

5 . Selurul~ rekaii mal~asis~va jurusai Ilmu Kon~puler, k h u s u s ~ ~ j ~ ~ Envin, Panji, Bibie, Anal, Fifi,

F i n ~ l a i , Wayan, Tell Hanie dan Daiang atas banluan dan pinjarilan bukullyl.

6. Teman-teman seperjuangan, kl~usus~iya Mega, Sinla, Mira, Qwonk, Ija, dan I~ldra, berakit-rakit ke

lmlu berenang-renang ke tepian.

Penulis menyadari masili banyak kekumigan dalam pcnulisan kava il111ial1 ilu, nanun penlllis

5ci:i;iiap xldal1-11iudahaii kaiya ilmial; iiii dapai ifici~lbcrikan iikdaa:.

Bogor, Aguslus 2001

(8)

DAFTAR

IS%

DAFTAR TABEL ... is

DAFTAR GAMBAR

...

i s

DAFTAR LAMPIRAN

...

...

...

...

...

...

.. ... ...

...

.

.

... is

PENDAHULUA 1

Latar 1

Tujua 1

TINJAUAN PUSTAKA

...

.

.

...

.

.

... Siste111 Temu-kembali Infonnasi

...

...

...

... ... ...

...

...

....

Peiiibobotan Doku~iien (Docurilo?t iVeig

Recall-Precision

METODE PENELITIAN

Melode

...

...

...

...

...

...

...

...

...

... ... Pernbe~~tukan tabel kata kuaci (istilah) d a l a i ~ basis data

Pe~ier~tuan input, output, dan alur data sister11 teniu-kern

. .

. . .

. . .

. . .

.

. . .

HASIL DAN PEMBAHASAN

.

6

Karakterislik Do 6

Kesesi~aian Kata 7

8

KESIMPULAN DAN SARAN 12

12 12

[image:8.602.81.505.108.636.2]
(9)

DAFTAR TABEL

1. Co~ltoh (I) pe~iyiiiipanan kata kunci dalaui basis daia pada label Teniis 4

2. Co~ltoh (2) penyinipanan h t a kunci dalmn basis data pada tabel Terms

...

.... 4

3. Interpretasi liasil ~iilai kesa~uaall alltan q u e v dan kata kuilci dari keempat ukura~ikesa~iiaa~i ... 7

DAFTAR GAMBAR

1. Ko~isep Temu-ke~ubali Infor~liasi Me~iurut Salton (1989 2

2. Himpunai Dokumen 2 Bud1 Istilal 2

3. Diagram Penyinlpanan Kata Kunci dalam Basis dal: 4

4. D i a g n n ~ Alur Kerja Sistem Te~iu-keillbali Infor~iiasi Secara Umum

...

...

...

...

... 4

5 . Persentase Junllah Bentuk Kata Kunci Dokumen &lam Basis Data 7

6. Rata-rata Junllah Dokumen yang Tennlbil pada Nilai A~uiba~lg 0.1-0.6

...

S

7. Graiik Perbandingan Recnll-Precisior7 untuk S(q,t) 9

8. Grafik Perba~dinganRecall-Precision untuk SI (q,l) 10

9. G d ~ k Perba~dinga~Recall-Precisior7 unluk Sl(q,t) 10

10. Grafik Perbandingan Recall-Precision untuk $(q,t) 11

I I . Matriks Efektivitas Temu-ken~bali Setiap Ukuran Kzsamaan pada Nilawnbang 0.1-0.6

...

11

12. Malriks Perbandingail Rata-nta Jun

Relevari pada Nilai Anlb;u~g 0.14.6 11

DAFTAR LAMPIRAN

1. Tabel Illput Query Percobaa 14

2. Nilai ukurau kesaivaan > 0 antan qtrcry air dengall istipall-istilah dalam basis data d i u n ~ t

berdasarkan lulai ukunn kesamaa~mnya 17

j Nilai 1&11r=1 kesalllaa~l> 0 antara qver

berdasarka~ nilai u k u r t kesama;uu~ya 15

4. Nilai &"ran kesall~aan

>

0 antara quer

berdasarkat~ ~ u l a i ukuran kesamaan11)'a 20

.i Nilai ukurai~ kesainaan > 0 alllam quo

berdasarka~i iiilai ukunn kcsai~iaami)'a 23

6 . Nilai ,lkl1ran kesamaan > 0 antara query mctotlc dengan islilalristilali dala~ii basis data diunit

(10)

7. Nilai ukuran kesanlaan > 0 anfm q u e y model dengan istilab-istilah dalani basis dafa diurut berdasarkan nilai ukuran kesamaaru~ya

...

8. Nilai ukuran kesanaan > .

.

0 antara query stntistika dengan istilah-istilah dalan basis data diurut berdasarkan mlat u k u m kesanwannya

...

9. Nilai ukuran kesauaan

>

0 antara query regrcsi dengan istilall-istilal~ dalan~ basis data diumt berdasarkal nilai ukuran kesanlaamya

...

10. Nilai ukuran k e s a m a a ~ > 0 antan query program dengall istilah-istilah dalam basis data dillrut berdasarkan nilai ukuran kesa~naannya

...

I I. Nilai ukuran kesanaan > 0 antam query inform:~si dengan istilalristilali &lam basis data diun~t berdasarkan ~ l a i ukuran kesanlaamya

...

.

.

... [image:10.599.72.525.19.798.2] [image:10.599.66.503.65.387.2]

12. Tabel Jumlah Dokuinen yang Teran~bil pada Senlua Ukuran Kesanlaan

...

untuk Nilai A n ~ b a ~ g (NA) 0.1-0.6

13. Tabel Rata-rata Nilai Recall-precision untuk Nilai A~nbang (NA) 0.1-0.6 pa& Ukuran Kesa~uaan Bam (S(q,t))

...

14. Tabel Rata-rata Nilai Recall-precision untuk Nilai A ~ n b a l g (NA) 0.1-0.6 pa& Slkurall

...

Kesa~naan Jaccard (S,(q,t))

...

....

15. Tabel Rata-rata NilaiRecall-precision untuk Nilai Atnbang (NA) 0.1-0.6 pada Ukural

...

Kesamaan Dice (S2(q,t))

(11)

PENDAHULUAN

L s t a r Belnknng

Sistem temu-kembali inforniasi meli~trnt Salton (1989) adalah sistenl yalig menuoses da11

~iiengolali kuliipula~ dokunien d a ~ i pennintaati infortnasi, ke~nudian m e n g i d e n t i f i k a s i dan menganlbil dokumen yang sesuai dehgan qzrery. Siste~n ini &pat m e m u d a l h i penyimpman. pengolaha1 da11 pengaksesan infonnasi secara efektif hi efisien. Penganibilan dokumen-

doh~meli tertelitu tergxitung pada kesamaan antara dokumen tersebut dengal query, yang diukur den@i menibandinghi nilai atribut teltentu dari keduanya.

Dala~ii pencariau inforn~asi t e r k a h g timbul masalah antara laill jumlah dokulnen yang terambil terlalu sedikit atau terlalu banyak dibandingkan dengai sekumpulan dokumen yang relevan dengan keinginai pencari i~lforniasi. Selain itu isi dokunien yang tera~iibil tidak sesuai deng;ui keinginan pencari infonnasi (Magdalena, 1996; Kwok, 1989 dalam Adisantoso, 1997). Masalali tersebut tinlbul karena pencari i~lfoniiasi meniberikan bentuk query ben~pa istilah atau kata hnici dari dokumen yang tidak tepat atau terjadi kesalalial &lam penuilisan query.

Untuk mengatasi lnasalali tersebut dilalcl~kari penibandingai kesaniaati string cslrii7g si~nilari@). Metode y211g bac;%zk digunakai acklali metode 1:-

gram yang tidak tergantu~ig pada bal~asa tertentu. Metode ini hatiya membaidi~lgkan 11un1f-huruf &ri kata-kata ta~ipa memperhatikan bahasa yang digi~nakrui. Jika dua buah string dibandinghi, niaka aka1 dilututig kunlpula~~ 11-gralii dari kedua kata tersebut. Semakin banyak 17-gram yalig muncul menunjukhi tingkat kesaniaan string yang tin& (Pfeifer el a/., 1996). Metode it-gran yang m e ~ n b e r i h i hasil terbaik dalam petiganibilali kata yang lnirip adalah digram dan triga111 (Salton, 1989 hi Zaniora ei al., 1981 dola117 Pfeifer rl a/., 1996). Pada penelitian iru akan digonalan metode trigram karena secara umom &lam bahasa Indonesia jumlah Iiumf suato kata atau suku kata yang me~rnnju!&n tingkat kesanaan string yang tin& adalah ti@.

Tingkat kesruiiaan string i ~ u diliitotig d e n 9 1 ~iienjgu~iakat~ ukuwi kesamaan istilah. Kesamaui istilah i ~ u m i p t berguna &lam temu-kembali inforniasl. Menunlt Kim & Choi (1999). terdapar berbaga~ macam ukuran kesatnaan yang disarankan utitnk meningkatkan efektivitas temu-kembali infortiiasi diantaranya addali Jaccard, Dice dan

Cosine. Selania ini pengukuran kesaniaan d i l a k u h i berdasarkan jumlah suatu istilall dalani dokuniel~ da~i ke~inidia~i dilakuhi penymtan dokunien berdasarkan nilai kesamamiya. Metode 17-gratii beluni pemah digunakiili sebagai dasar perl~itungai ukuran kesamaan dillma dilakukan pengukuran kesaniaati a~~tltara istilali query daIi kata kunci dari dohnnen.

Tujunn

Karya ilmiah i ~ u bertujuan untuk menelaah nietode trigam sebagai dasar perlutu~igan u h ~ r a n kesamaati &lam sisteln temu-kembali inforniasi.

TINJAUAN PUSTAKA

Sistem temu-Icembnli informasi

Mellllmt Fmkes (1992) sistem temu-kenibali illforniasi berbeda dengal sisteni manajemen basis data. Perbedaan iilii terletak pada data obyek dan inforlnasi yang d i b e r h i .

Data obyek yalig digunakan dalam sisteni temu-ke~nbali infor~nasi adalah dokumen-doku~nen yang berbasis teks sedruigkai yang digunakan oleh sistelii ma~ajemen basis data adalali record-record yang lebih terstmktor. hlforniasi yang dihasilkal~ ole11 sisteln teniu-kelnbali itlfor~nasi bersifat probabilistik, yaitu dokuliie~i yang teranlbil tidak selalu sesuai denjgi yang diinginkan pencari inforniasi. Dapat terjadi beberapa doicumen yang teranibil tidak relevan atau dokumen yang dibutulkan tidak teranbil. Hal ini berbeda dengan hasil query terhadap basis data yang bersifat deterniinistik (Frakes, 1992).

Sistem temu-kembali itlforniasi terbagi merijadi t i p mang lingkup (Salton, 1979 claIai?7 Adisantoso, 1997), yaitu : (1) database reb.ieval yang ~iienuoses berkas data dasar sederhana dengall mengg~~naka~i sejumlah atribut yag sudali didefinisikan sebagai ciri dari setiap recoro'; (2) refirelice relrieval dimana record data berupa dokunie~i b u h ~ , junial, niajalall atau ballan pustaka lai~niya; dan (3) fact renieval y a ~ g nieniroses inforniasi dengan jenis karakteristiic record iebili konipleks.

(12)
[image:12.595.322.496.201.305.2]

yang teraliibil relatif sama dengan qzl.ry yalig d i b e r i h i (Gambar 1).

Gambar 1. Konsep temu-kembali illfor~iiasi me~iunlt Salton (1989)

Metode rl-grnm

Pe~ielituali relevaiisi antara query dan dokunien yalig disimpai dilakuhi dengan mengllitung ~iilai kesamaan ruitara istilah yang diliiilita pelicari inforrnasi (queiy) detigan istilali-istilali dalarn doku~iieti yalig tersinipali dalalii basis data.

Metode 11-graii bbanyak digunakan sebagi pendekatan kesamaan-sh-ing (shi~ig-.sif?ii/ari~y) yalig iiienglutulig llilai kesamaai aatara istilali yalig di~ni~ita pelsari informasi deligal istilah yalig berada pada basis data. Istilah-istilali dala~ii basis data yang ~iieliipunyai nilai k e s a m a i yang tinggi .- dengal query

a k a ~ ~

ditaiipilhi ulituk menentokan istilali-istilah yang mu~igkin sesuai dengall yalig diinginkan pe~icari informasi (Freund & Willet,

1982 rlali71i1 Eluiiek~ioglue/ a/.,2000).

Menumt Eluiiekqioglu el a/. (2000), 11-gra~ii adalali kuiiipulati dari n buah karakter ben~rutan yalig m e r u p d a i bagian dari ssuatu kata. Tijuali utana dari ~iietode ii-pmi iiii adalah kata-kata yang tiiirip aka1 mempiuiyai bagian-bagian hasil 11- gra~ii yang senlpa. Nilai 11 yarig ballyak digunaltan

pada 11-gram adalah 2 atau 3 yang biasa disebut digralii atau trigam. Contoli digrani dan trigram ulituk kata KOMPUTER, krtun~t-tumt adalali $K, KO, OM, MP,

PU,

UT,

TE, ER, R$ (digram) dan $$K, $KO, KOhf, OMP, MPU, PUT, UTE, TER, ER$, R$$ (trigram). Tanda '$' liiem~lijukkan bagian tamballan, maka junilali digan1 hi trigram secara

bertun~t-ton~t adalah, n-1 (digra~ii) dan 11+2 (trigram) dari suatu kata yang terdiri &ri 17 buah karakter. Peniberiai bagiai tambahai ini untok menekankau k e s a i i a i 11-gali1 pada awal dan akliir suato kata (Pfeifer el a/., 1996).

Ukuran Kesnmaan (Sintilari* Measrrres) Misalnya diketaliui suatu hinipuniui dokumen D dengal ukurai N, yalig memiliki istilali x sebaliyak df,, drui istilah y sebanyak df,, serta yalig metiiiliki istilah x drui y sebaliyak df,, yang menlpakai ukuran dari D, n

Dy

.

D,

drui

Dy

bertumt-tumt m e n l p a h i Iiimnpunrui doku~iien yatig mempu~iyai istilali x drui istilah y (Galiibar 2).

Gallbar 2. Himpunan dokumen 2 buah istilah

Meliurut Kim & Choi (1999), ukuran kesamaan antara istilah x drui y terdiri dari Jaccard (S,), Dice (Sz) dan Cosine (S3) dimaia :

(13)

ukurrui kesamaai Dice (Sz) d a ~ ~ Cosine (S3) pen~ali digunakai pada susunan tesaurus autolnatis (Frakes & Yates, 1992 dalatrr Kim & Choi, 1999)

Pernbobotnn Dokumel~ (Doc~rnterrf Weiglitirig) Menun~t Salt011 (1989) pe~iibobota~i dokumen iui metiiudal~kau pengurutau dokumen 111ulai bobot terbesar sanpai bobot terkecil (decreasir?g). Semakin kecil bobot dokumen, menulijukkau dokumeri tersebut semakin tidak relevau dengall qziery. Perliit~~ligat~ bobot doku~iiel~ untuk q u e y sederhaia &pat didefilusihi sebagai p e ~ i j u n ~ l & ~ ~ bobot semua 'istila11 dalaui dokunieu yang sesuai d e n p i query. Sedaigkan perhitu~igrui bobot dokumen untuk query boolean dilakukai berdasarhi ekspresi boolea11 yang diberikan. Selaili itu juga terdapat pembobotan d o k t ~ ~ i i e ~ i nod el peluang yang melakukan pe~iibedaa~i yang jelas antara istilal~ yalig relevall dengal istila11 yaug tidak relevau

dari

suatu dokumen.

Recnll-Precision

Menun~t Salt011 (1989) recall-precisioi? adalah tnetode yalig d i p i n a h 1 unh~k menguhr efektivitas teniu-kenbali.

Recall ii~erupakan ukumi bauyaknya dokumen relevall yalig tera~ibil dari kumpuliui dokumen relevall pada saat query diterapkan.

Jumldn dakumen relevan yang terambil

= Iumlzh seluiuh dokomen iolo.jan Wam basis ds:a

Precisian merupalan ukuran relevalisi dari doktunien yang teran~bil. I>recision menyatakan perba~dingan aitara jumlali dokumen yang teran~bil dau relevax denjpi keseluruhaI1 dokumen yang reran~bil.

Untok rlriery yang terperinci, nilai /~reci.sio~? akan tin& sebab semua dokumen yang ditemo- kembalikan relevan. Namon di lain pihak iulai recall aka11 rendall karena lianya sedikit dolct~mel~ yalig tera~i~bil. Apabila qziery tidak terperinci, maka iulai recall a b i tinggi karena banyaluiya dolumen yalig terambil, sedangkan nilai precisiori rendah.

METODE PENELITiAN

Data yalig digunakau dalaln penelitian i ~ u adalali d o k u ~ ~ ~ e l i basil penelitian pada F A ~ l t a s MIPA tal~un 2000. Dokumen yalig diguliaka~ berjumlal~ 137 dokumen yang terdiri dari 23 dokumen GFM, 15 d o h m e n BIO, 7 d o h ~ m e n FIS, 13 doku~iieli KOM, 25 dohunen KIM, 20 dokumen MAT, &I 31 d o h ~ m e n STK. Setiap

dokumen memponyai atribut yang digutiakan sebagai ciri dari dokumen, yaitu ID dokumen, judul penelitill dalam baliasa Indonesia &a11 Ingris, nama peuulis, lenibaga, kata-kata kunci da~i edisi. Selnua dokuliie~i tersebut telah tersimpan pada tabel Penelitiai dalan basis data.

Metode

Penelitian ilu dilakuhi ~nelalui beberapa tahap, yaitu :

1. Penibentuka~~ tabel kata kunci (istilab) dalani basis data.

2. Penentuan iinput, output, dan alur data sistem teuru-kembali infor~iiasi.

3. Penentoan perhitungal ~iilai kesamaali istilah

hi bobot dokumen.

3. Percobaan. 5. Analisis.

Pembentuknn tnbel kntn kuuci (istilall) dnlnm basis data

(14)

k3Vl kuud sum

label Pmeliliu

Ga~iibar 3. Diagram penyimpanai kata kunci dalam basis data

Colitoh kata h n c i yang b u k n kata majemuk terdapat pada ID dokumen KOM01007 yaitu aialisis profitabilitas, alalisis produk, bisrus balk', liiaka pada tabel Teniis kata-kata kunci tersebut aka11 tersimpai seperti pada Tabel 1.

Tabel 1. Contoli (I) pe~iyimpanan kata h l i c i dalalii basis data pada tabel Teniis

No

I

ID Kulici

I

Freq

I T l n \ m l n n " I n

....

r:..:.. I ?

Contoli kata kt111ci yalig kata majemuk terdapat pada ID dokuriieli KOMOlOll yaitu 'cross sellin& sistem back end, sistem pakar', Illaka pada tabel Teniis kata-kata ktrnci tersebut alan tersimpan seperti pada Tabel 2.

Tabel 2. Contoli ( 2 ) peliyimpa~ian kata Icunci dalam basis data pada tabel Teniis

dokumen yang digunakai sebagai dasar pencarian dokt~men yang relevai d e n p i kei~igina~i pelicari i~lfor~iiasi. Kata-kata kunci tersebut aka1 dilulung tulai kesalilaauiya deligan istilah query yalig d i b e r i h pelicari illforniasi. Kemudian aka11 diliitung bobot doku~iien berdasarkan llilai kesamwi yalig diperoleli.

Penentuan input, output, dan nlur data sistern temo-ltembali iofoi.mnsi

11iput dari sistelii i ~ u adalali query denga11 ~iie~iiberika~i satu kata istilali yalig niempakan kata kulici dari suatu dokumen yalig terdapat dalam basis data. Setelah itu, dilakukan liietode trigraii terliadap istilali query dax kata ki~lici kemudian diliitung ~iilai kesaiiwuiya. La~igkali selalijutnya adalah pengliitunpi bobot dokumen dan outpiltliya adalali undai dokt~men berdasarkan bobot dokumen secara d ~ w e a s i r ~ g . Un~tan dokumen dari lulai bobot dokutiieti terbesar hi~igga terkecil me~iu~ijukkati dokullieli yaug teraiibil paling dulu adalah dokume~i yang memponyai tingkat relevansi yang tinggi deligall dokumen yang diingi~ikai pelicari illfoniiasi. Diagraii slur kerja sistetii &pat dililiat pada Gaiibar 4.

i'~w&iluugm Niloi Lwrnoa idilh

[image:14.595.77.337.53.832.2] [image:14.595.76.507.383.799.2]
(15)

Pada penelitian ilu data yang d i g u n a h ~ adalal~ data dokumen hi kata kunci yarig tersimpan

dalani tabel-tabel pada basis data. Tabel yang me~iyin~pai kata-kata kunci, disebut tabel Ternls, digunakan sebagai dasar pencaria~ suatu dokun~en. Pada Ganibar 4 terdapat tip taliap peliuosesaii data setelah p e t i l a s u h ~ istilah query yaitu pertama, istilal~ query tersebut hi kata-kata kunci

dala~ri tabel Ter111s aka11 dibuat trigraiiu~ya. Setelah it11 'aka1 dilutung iulai kesamaai istilah q u e v

terlladap kata-kata kunci yang terdapat pada tabel Teniis niengun&~ ukuraii kesatnaan berdasarhi nilai trigram. Kata kunci yang memiliki ~ulai kesa~i~aan lebil~ dari no1 hi hasil

perhitungan nilai kesanaannya disimpan ke dalan

array berdasarhi ID dokumennya. TTiap teraklur adalali n ~ e ~ ~ g l u t u n g b b o t dok~imen berdasarkan ~ulai-lulai kesammi yang din~iliki suatlt dolaimen yang telali t e r s i m p ~ dalan~ array. Hasil perhitunmi bobot doku~nen &ti ID d o h ~ m e n

disiiu~pa~ d a l a i ~ array, kemudian aka11 d i u m t h i secara desce17diiig b e r d a s a h i bobot dokumetuiya.

Oiitptit tenin-keli~bali inforniasi ditampilkan b e r d a s a r h ~ unitan dokume~i mulai

dari

bobot d o k ~ ~ n e n terbesar. Ketewigai mengeienai dokimen yang ditampilhi adalal~ judrtl d o k u n ~ e ~ ~ yang dianbil dari tabel Penelitial. Selain itu juga dita~t~pilkan kata-kata kur~ci dari doklimen tersebut yang ~lie~iuliki ililai kesamaau, lebih dari 1101 beserta nilainya yang terdapat dalani array. ID d~hcumen mempkau key yang mengl~i!bi~ngka~ data yang terdapat pada tabel dala111 basis data dengiu data yang t e r s i ~ i i p i dalam array. Data metigenai dokunie~~ clan kata kunci disimpan pada tabel bersifat tetap @ernnnen) karena pada saat n i e l & ~ k a ~ teniu-ken~bali infonuasi data tidak aka11 n~engalaliu pembalm~. Data bobot dokunien disimpan &lam array karena sistein temu-kembali inforn~asi ini ben~pa web brobvser yang diakses ole11 ~n~il/ii~.ser s e l ~ i n g g data yaiig diliasilka~~ alan berubah-itbali tergantung dengat1 query yang diberikan.

Jaccard meiijadi SI(q,t), Dice me~ijadi S2(q,t) dali

Cosine menjadi S3(q,t). D, adalah lumpuna~ trigram dari istilah q u e v sejumlah df, dai D, adalali himpunai trigrani dari kata kunci sejumlah df,. df,, adalah jumlah trigrani yalig sania-sa~la di~uuliki ole11 istilali query hi kata kunci yang

men~pak;ui ukurai dari D, n D, .

Selain mengunakan t i p ukuran kesaniaali pada persrunaalt (I), (2), d a i (3), nilai kesanaru~ juga dihitung dengan tuenWmak;ui ukurali

kesamam yang baru yaitu persaillaan (4).

Sama seperti ketiga lilukuwi kesamaan seklumnya, ukuran kesamaai bam itu diboat berdasarkan vektor binari clan mempuiiyai nilai kesamaai istilah antara 0 h~ 1. Hasil u k u r a ~ kesamaai pada persacnal (4) akan dibandingkan dengat1 persamaan (I), (2), d a ~ (3).

Untuk setiap u h r a n kesamaa~, setelah didapatkan nilai k e s a n i m ~ istilah dari selumh istilah pada suatit dokumen, maka bobot suatu dokumen akan dilutung dengal mengun&l persanaan (5). Dalaii 1131 iiii jreq adalali banyaknya suatu istilah dari dokuli~en tertentu

(4

yang n~en~punyai nilai k e s a l i a i istilal~ lebih besar dari 1101 &I S,(gt) adalal~ nilai k e s a m a ~ istilah

lebil~ besar h i no1 dari ukurai kesamaan i. Nilai So(q,t) pada perhituiigan bobot dokumen i~~ertlpakaii nilai S(q,t) pada persamaan (4).

Nilai bobot dokumen ini mempakan l~asil rata- rata jumlali nilai ukuran kesamaan lebih besar dari 1101 pada suatu kata kunci dalan~ dolcun~en tertento. P e ~ l e ~ ~ t u n r ~ pe1.11itungnn nilni Icesn~nnnn istilnh Persanlaan ( 5 ) ini dibuat berdasarkan perl~itungan dnii bobot dolcume~~ bobot d o k ~ r n e i ~ untuk query sederliana sesuai

Pa& peiieliti~l ilc nilai kesamaal k t a d e n y n input dari sistenl pada penelitian illi. Pada

Intnci d e n y n qnetv aka1 diliitung dengan perhitunyn bobot dokunien untuk q u a y

nienggtnakan ukuran kesamaan laccard, Dice, dan sederliana, bobot dokumen didapat dari jlunlah Cosine . Sesltai dengan tujuan penelitian i l i nlaka Ilasil kali antara nilai kesan~aan dengal frekuensi okuran kesamaa~ tersebut disesttaikan berdasarkall kata kunci. Nanlon pa& persamaal (5)

metode trigram. pend~tullsal1 inlai kesaniaail perllitonga~l bobot dokumen ini mengalami sedikit istila[l dal melljadi p e l l g ~ ~ t l l ~ g a l nilai perubahan yaitu p e t ~ j n n ~ l a h n liasil kali nilai kesamaan (S) antara istila11 query (q) deny11 istila11 kesamaan d e n y n frekuensi kata lcunci dibasi

(16)

dilakukan u~ituk liielidapatkan nilai bobot d o h m e n alitara 0 d a i 1. Nilai bobot dokunieti 1 ~iieliu~ijukkan baliwa dokumen tersebut me~iiiliki kata kunci yalig saiia dengan query. Senlakill besar nilai bobot dokumen menulijukkai bahwa dokumen tersebut semakin relevan d e n m i keit~ginan perlcari irtforntasi.

Percoban11

Pada percobaan ilu diwnakan 10 input query

(Lampirai 1). Query-query yalig digunak;ui m e r u p d a i kata kunci d a i dokumen yalig terdapat pada tabel Penelitiai dan dipilili berdasarkai ba~iyaknya dokumen yalig liie~iiiliki kata hliici tersebut. D e n w i cara illi output yang diperoleli adalah dokumen-doku~iien relevan. Dokumen- d o h ~ m e n relevan yang diniaksiid pada percobaai ini adalah dokumen yalig memiliki kata kunci yang saliia dengall query. Kecuali pada Q9 dali Q10 terdapat dokumen yatig nie~iipu~iyai kata kunci berbeda dengai query namuo relevan den@i kata kunci qz(ery. Misalkai pada Q9, query yang diberikan adalali kata 'prograii' d a i doln111lell yalig diaiggap releva11 selaili dokunien yalig memiliki kata kulici 'prograii' adalali dokumen yang ~i~emiliki kata kunci ' p r o g a i i ~ i u ~ ~ g ' atau 'pe~iuograma?. Sedangkan pada Q10 d e n m i query

'i~tfor~liasi', terdapat dokunie~i deng;ui kata huici 'i~lformation' @allpimi 1).

Nilai kesamarui antara kata-kata kunci dari dokuliie~l d a i m basis dara dengal senlua query

dihitung dengan mengu~iakan keempat ukuran kesamaan. Kemudian setelah dilutong iiilai bobot dokumen, output dita~iipilka~i menunlt liilai a~ilbang bobot d o h ~ m e n dari 0.1 sampai 0.6. Penetapall ~ulai ambang yang digu~iakan

dari

0.1 kareua diammsikai baliwa dokulile~~ yalig me~iipi~nyai nilai bobot dibawah 0.1 adalah dokumen yang saigat tidak relevall deligan keinginn pencari infor~nasi. Sedangkin penetapan nilai anibang sampai 0.6 karelia diasumsikan ~iiolai nilai aiibang 0.6 tersebut dokumeli yallg teralubil semuaiya relevan.

Tahap sela~ijut~iya adalah mengliitong nilai

recall-precisioil dari setiap query pada ~liasi~ig- liiasilig nilai ambang untuk keellipat i~kuratl kesamaan berdasarkan jumlah dokumen yang terambil. Nilai recall yang digt~nakru~ adalah 0.1-1 yaitu nieni~lijukkan jumlah bagian dokumen dari selunlh dolal~iien yang teranibil uotuk perliitonga~~ nilai preci.sui~. ~tiisalnya unti~k ~iilai recail 0.1 berani jumlah dokume~~ yang digonakan untuk perliiti~ii&i~i uilai preci.sioi1 adalah 10 % dari seluruh dokunlen yang tera~iibil. Nilai p.cci.soi7

ulituk nilai recall 0.1 adalah perbaidingai ba~iyakuya dokumen relevan yalig temliibil dari ju~nlali d o k u l i ~ e ~ ~ tersebut. Setelah itu, dilutu~ig

rata-rata precision untuk setiap recall dari mnasilig- niasi~ig ~ulai aiibaig pada keeli~pat ukurai k e s a ~ i i a i .

Aaalisis

Pada penelitian i ~ l i aka11 dianalisis pengamli dari istilall-istilah dari suatu doku~iieli yalig digi~nakai sebagai kata ku~ici dari d o h m e n tersebut terhadap hasil perliitun&vi lulai kesamaaan istilah. Selain itu juga akan dialialisis lulai kesamaai yang didapat dari keempat ukuran kesamaan yang dicobakaii, tenllama nilai k e s a m a ~ istilah yalig didapat dari ukuran kesamaan yarig baru (persaii~aa~i (4)). Kemudial efektivitas temu-kembali sisteni ini menolut ukurai kesaiiiaai tertelitu pada tiap-tiap lulai ambaig a h 1 diaialisis berdasarkai ~ulai recall- precisio17 yalig didapat dari hasil percobaati.

IIASU, DAN PEMBAIXASAN

Karnltteristili Doliumen

(17)

kata 'progran' d a l a i i basis data juga tersimpan kata

'pemrogramai' da11 'progaiuiiing'.

Bentilk d a ~ i p a i j a i g kata ( s h i l ? ~ Iengtlt) istilah ini meiiipengarulu p e r l u t u n p uhmi k e s a m a a i

altars query d e ~ i g a t ~ istilah d a l n ~ basis data. Setiap kata baik itu query maupun istilah dalam basis data, setelall dilakukm metode t r i g a l n a k a 1 mempunyai junllah t r i g a m bertun~t-h:n:t df, d a ~ df,. Masing-:-masing sebanyak, r1+2 d i ~ i i a i a n

merupakan paijaig dari kata tersebut.

Kesesuninli K n t a

Suatu kata dalani basis data a k a 1 memiliki

enlpat buali lulai kesanimi yang berbeda-be&

berdasarkan p e r l u t u n g a ~ elupat u k u r a ~ k e s a m a a i yalig diberikan. Pada L a ~ i i p i m i 2 sanipai 11 dapat dilihat hasil per1iitu:igan ukuran kesamaan illput query dengan kata-kata kunci dalam basis data yaug k m i l a i lebili besar dari nol.

I

Junlah bentuk kata kunci dokunen

G a n ~ b a r 5 . Persentase jumlah beiituk kata ktlnci dokumen dalam basis data

T a k l 3. Iuterpretasi hasil ~iilai k e s a m a m a i t a r a query d a n kata k u t ~ c i dari keelupat ukuran kesamaan

Query

Air

Hujan

.

-

nien~p~u~yai pola penlbnl~nn ~ulai Y:IIIS sn111n.

dfq (17+2)

5

Slnenl

I

I

nilai yang sama.

Interpretasi terliadap ~ u l a i kesamaan dari keempat u k u r a ~ i kesamaan G a m p i r a ~ 2-1 1)

Terdapat pola perubahannilai kesamaan yang sama pada keetnpat ukuran.

Terdapat pola perubalianlulai yang berbeda pada S(q,t) uituk kata-kata yg df,-tiya sama dengan atau lebih kecil dari df, d y ~ n i l a i df,,=l dan kata yg df,-nya 8, 15, 19 atau kelipatan &mi df,dgi nilai &,=l atau 2. Pada S3(q,t) perbedaa~i pola terlihat pada kata d g ~ df,=19 d y i df,,=2. Sl(q.t) d m S2(q,t) tnempunyai pola pembahalinilai yang sama. Terdapat pola peruballan~lilai yang berbeda pada S(q,t) uituk kata-kata yang df,-nya

hiaiisis I 10

Regesi

Program

sama dencan atau lebii kecil dari df. d m ~iilai df,,=l. S3(cl,t), S,(q,t), dan Sl(q,t)

S

-. -.

Terdapat pola perubahan nilai yang berbeda pada S(q f) untuk kata ym~g df,-nya salna delilean atau lebili kecil dari df,dcn ~ ~ i l a i d f p l atau 2. S3(cl,t), Sl(cl,t), dan S,(q,t) Statistikn

7

Tcrdapnr poln perobnllno nil:ti yollg berbdn pnda S(q,t) tu~hll; kntn ynng df-nya snlna den2:tn : ~ I ; ~ L I icbi11 kcc~l ~l;tri elfl Sj(q,t), Sl[c,,t,, d m S>(q,r) ~neotpt~nya~ 1101:s pcruh111:111

nllai yallS sanln. -.

nilai y:wg mlnn. -. . - . .

12

9

9

nilai yang sanm.

Terdapzt pola perubahan nilai yang berbeda pada S(q,t) iuituk kata yarlg dl;-nya mma dengan atau lebih kecil dari df, d y i ddl,;,,=l, 2 atau 3. S3(g,t), S,(q,t), dan Sl(q,t) mempunyai pola perubnhan n l a ~ yang sama.

I LIEonuasi .Maude - l\lodcl

-

.

-

lnelllplulyai pola perubaha~l l d a i yang sama.

Terdapat pola perubahan lulai yang berbeda pada S(q,t) uituk k a t ~ ymig df,-uya lebil~ kecil dari df, d y ~ df,,=l. Pada S3(q,t) perbedam pola terlil~at pada kata dgi df,f,=5 dan df,p2. Sl(q.t) dan S2(q,t) mempunyai pola perubahan nilai yang sama.

Terdapat pola perubahan ~iilai yalig berbeda pada S(q,t) u~ituk kata y.mg df,-nya sama dengan atau lebih kecil &xi df,. S3(q,t), S,(q,t), dan S2(q,t) mempunyai pola perubahan

11

S

-. -. . - - . 7

Terdap:it poln p e ~ u b a l ~ : ~ n nilni yaog burbeda pndo S(q,t) turluk k n t ~ ynng dC-nyn s:tlnn dengan ntlu lebil~ kecil d q r i df,. SJ(q.t). S,(q.t), dn11 S2(q.t) tneo~pu~yni polo perubnl~nn

'ferdnp:tr pola pelubnll:~~~ ~ulni y a y bcrbd:, pndn S(q,r) I U I I I . ~ Lolo y:o~g df,-nya

(18)

Pada keenipat uki~rai kesammi, hasil perhitiniga~i nilai k e s a n m i altara illput query hi

kata ku~lci yang s a n a d e t ~ g a ~ i input query adalah satu. Sedaigkaa uutuk kata kunci yalig lain, pada ~ulai ukuwi kesamaai yang dilmsilhi, secara umum, terlihat pola yang sania pada setiap keellipat ukumi kesamaau yaitu kata kunci yallg mempunyai jul~dali trigram (df,) yaug sans aka11 memiliki ~ulai yaug sama. Sebagai contoh, pada Lampimi 2 kata 'arus' d a ~ i 'asa11' p a t ~ j a ~ g k a t a ~ y a

(n) salia d e n m i 4, selungga df,-~iya masing- l i ~ a s i ~ ~ g adalali 6 (1rI-2). n ~ e ~ n p u ~ i y a i lulai kesamaai yalig sama sesi~ai dengiu~ uhiran kesamaai ya~ig digunakai. Namiul selain itu, ju~iilali trigfa11 yang sama-sama di~niliki ole11 input query d a ~ i kata kunci (df,,), jugs niempeli&an~lu ~ulai kesamaai yalig didapat. Sebagai contoh, kata 'liutan' h~ 'bahal' pada Lanpiran 3 mempunyai rt sania dengal 5 seliingg df,-nya masing-masing adalall 7 (n+2), n a ~ l i u ~ i kedua kata tersebut memnpu~~yai nilai kesamaan yang berbeda. Hal i ~ u disebabkan nilai df,,, yang berbeda. Trigra~ii untuk qucw hi~jrui adalah $$11, $1111, huj, uja, jan, ai$, dan I)$$, trigram uiituk kata 'hutal' adalah $$h, $1111, hut, uta, tal,

an$, hl n$$, dau trigran uutuk kata 'ballail' adalah

$$b, $ba, bah, alm, hai, an$, hi n$$. Dari trigram yalig di~ililiki kata-kata tersebut dapat diketal~ui ~ u l a i df;, untuk qucry hujan da~i kata 'lmtai adalah 4 s e d a n m l nilai

q,

uutuk quew liiijan da11 kata 'bahan adalah 2, selungga ~ulai kesamaa~niya berbeda.

Pada Tabel 3 terdapat interpretasi nilai kesamaan alitara qucq~ dengan kata kunci untuk setiap ukural kesailaai berdasarlml hasil perliitungai nilai kesamaan ,altars input query

dengan kata kunci yang bemilai lebih besar dvi 1101 (Lampiran 2-11). Secara umum, pola psrubahan ~ulai kesaliiaali antara ukuran kesamaan Jaccard (Sl(c~t)), Dice (S2(q,t)) dan Cosilie (Sj(q,t)) sama. Namun untuk beberapa kata tertentu terjadi perbedaan pola pada S3(q,t). Sedangkan ukuran kesa~naan baru (S(q,t)) mempo~lyai pola yalig berbeda d i b n d i n g b i dengal ukuran kesamaan yang lain. Hal ilu disebabkan kare~ia pada S(q,t) ha~iya nilai terbesar diaiitara df,, dan df, saja yang digunakan dilam perhitongan.

disebabkan dala~ii perliitunp~ ukurati kesamaai, ~ulai df, &I df, saigat ~i~empengarulii hasil

perhitunmi karena merupahi penibagi dari ukurai kesanmai. Nilai kesaiimi yang didapat i ~ u akan m e m p e ~ ~ g m l u liasil perhitunmi bobot suatu dokumen.

Pada persamaail (5) lulai bobot dokumen dipet~garulu ole11 dua hal, yaitu jumlali istilali &la111 basis data yang tiie~iipu~iyai 11ilai kesa~iaan istilali lebili besar dari no1 hi nilai k e s a ~ n a a ~ ~ itu

sendiri. Pada percobaan saat temu-kembali doku~nen terdapat dokumen relevan yang inemiliki bobot dokumen yang lebili kecil dibanding dokumen yang tidak relevan. Sebagai contoli, ketika input qucry 'air' pada siste~li temu-kembali ilforniasi dengiln perlutungai nilai kesammi S(q,t), S,(q,t), da11 S,(q,t), dokuliie~~ yaug memiliki kata kuuci 'cair' menipunyai bobot dokumen lebih besar dibandinghi dokunien relevan. Hal ini disebabkan selain menuliki kata kulici yang salna dengall qucry, dokumen releva] tersebut juga memiliki kata-kata kunci laill yalig mempuliyai lulai kesamaan lebili besar dari 1101 yaitu 'air', 'analisis' hi 'aktivasi' (Lampira~ 1).

Dokumen-dokumen hasil temu-kembali ditampilhi secara descerzdirzg berdasarkan bobot dokumemiya da11 dibatasi deligal ~ u l a i a~nbaig. Banyakiya jumlah rata-rata dokuriie~~ yang teranibil pada masing-masing ukumi kesali~aa~i untuk iiilai ambaig 0.1 sa~iipai 0.6 berbeda-beda (L31iipirm 12 d a l G z I I ? ~ . ~ 6)).

I

Rala-rala jumlah d o k u m

yang terambil

I UIcu~.a~i Kesnm:lnn dali Bobot Doliumen ! I.

Dari pembandingai hasil perhitungan ukuran

kesamaai (Lampiral 2-11), ukural kesammi Gambar 6. Rata-rata jumlall dokumen yang S,(q,t) mempunyai ~ulai kesamaal terkecil teranibil pada ililai a~libai~g 0.1-0.6 dibanditlgka~i ukunn kesa~ilaa~l yang lain.

[image:18.595.302.508.471.650.2]
(19)

Pada Gaiibar 6 dapat dilihat bahwa pada ~ulai anibaig 0.1 doku~iieli yalig terruiibil cukup banyak. Namuli ketika nilai anibang dinaikkan liietijadi 0.2 terjadi perubalw~ junllal~ rata-rata dokunien yang cukup besar. Hal ilii menu~ijukkan bahwa terdapat banyak dokumen yang liielnpuliyai bobot dokumen kurang dari 0.2 clan dokumen-dokume~i tersebut tidak relevan dengxi keinginai ppecari .illformasi. Rata-rata jiuilali dokumen relevan dari input query

pada percobaali adalali 8 dokumen, dan mulai ~ulai a~iibaig 0.4 rata-rata ju~nlali dokumen yang teraliibil sa~iia dengan rata-rata junllah dokumen relevan (Lanipinn 12). Se~iiaki~i meningkat iulai a m b a i g ~iiaka jumlah rata-rata dokumen yalig terambil seulakin sedikit dan semakin relevrui. Diba~idin&i ukurai kesamaan yalig lain, okoran kesamaan Sl(q,t) me~iipunyai jumlah dokumen tera~iibil paling kecil pada setiap ~iilai ambruigiya (Ganibar 6), sellingig ketika ~ulai ambang diti~igkatkan terdapat kemu~i&nai tidak teranibilliya doku~iie~i relevai.

Jumlali seluruli dokumen yang terambil dan jumlah dokumen relevai yang terambil akan mempengarulii liasil perlutungan rccall-precision.

Selain itu, uilai a~iibang juga ~iiempengan~hi nilai

recall-precision kare~ia nilai anibruig menentukan junilal~ dolumen yang teraliibil oleh sistem. Hasil rata-rata rscall-precisio~r untuk ukurai kesamaan S(q,t) u~ituk nilai a~iibaig 0.1 sa~iipai 0.6 (Lampiran 13) menulijukkan semakin meni~igkat ~ulai ambang, 11iaica nilai recall-~rercci.~io,r-tiya

akan senlakin meningkar.

Pada Gallbar 7 dapat dilihat j g d ~ k perbaidi~igai rata-rata liilai recall-precision u~ituk lulai aiibang 0.1 sauipai 0.6 pada ukumi kesamarui S(q,t). Pada iulai ambang 0.1-0.5 doku~ne~i yang tidak relevn ~iiasili temi~bil, hal ini diturijukkan oleh liilai precision yalig kuraig dari satu. Na~iiu~i nilai precision pada tulai anbang 0.6 sziia detigiui satu, ha1 i ~ u berarti selumh dokumen yang tera~iibil adalah dokumen yang relevan. Nanun tidak semua dokumen releva11 dalaii basis data teraiibil (Lanipimi 12).

Apabila liasil iiilai recall-precisio17 Sl(q,t) (Lampiw~ 14) dibaidingkan deligal ukural~ kesamaan laimiya, liiaka Sl(q,t) mempuliyai liasil yalig paling baik secara keseluruhali u~ituk setiap nilai amba~igiya. Hal ini dapat dililiat mulai dari ~ulai aiiba~ig 0.2 u~ituk rata-rata ~ u l a i rmaN- precisiu~i terdapat lulai precision s m a dengall 1

mulai dari nilai recall 0.1 sa~npai 0.6. Walaupun memiliki lulai recall-precisio~r yang tin@, jumlah dokumen relevan yang tera~iibil untuk setiap qucry

dari nilai a~iiba~ig 0.3 cenderung lebih kecil dibanding ukumn kesa~uarui yang lain dan untuk beberapa query terdapat dokuliie~i relevan yalig tidak terambil (Latiipirru~ 12). G d k perban- dingai ~ulai rata-rata recall-precision u n h ~ k nilai a~iibaig 0.1 sa~iipai 0.6 pada n k ~ r a n kesamaan Sl(q.t) terdapat pada Ganibar 8.

I

R e c a l l - P r e c i s i o n S ( q , t ) p a d a Niiai A m b a n g ( H A ) 0.1-0.6

I

I

0 . 1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

R e c a l l

(20)

I

Recall-Precision S l ( q , t ) p a d = N i l s i A m b a n g ( H A ) 0 . 1 6 . 6

1 0.9 0.8 0.7

E 0.6

.-

0.5

E 0.4

a

0.3 0.2 0.1 0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

R e c a l l

Ga~nbar 8. Grafik perbandingan recall-precisio~? untuk S~(q,t)

U k u r a ~ kesamaai S2(q,t) mempunyai nilai k e s a m a i yaug besar. Tentu saja ini aka1 lneli~pellgarulii nilai bobot dokumen sehingga jumlah dokutl~eli yaug teranibil tin@. Keadaai tersebut nieogakibatlmi banyak dok~cl~en yaug

tidak relevan teralibil oleh sistem. Oleli karena itu, ketika dilakuhi pendutul~gari lulai recall- precision hasil yaug didapat lebili kecil dibalidi~igkan dua uikuran kesamai sebelu~nl~ya (Lampirat1 15 d a ? Gambar 9).

Dialtam semua u h ~ r m kesanaa~l yaug digonaka~, S,(q,t) liielnpuciyai liilai kesamaan palitig besar. Seperti u k u r a ~ kesal~aan lainnya, ~ulai kesall~aan tersebut ~i~empe~igamlu nilai recall- precision-nya (Lampirai 16). Dibandinwn dengm~ lulai recall-precision dari u k u r a ~ kes;unarui yaug lain, secara UIIIUIII S3(q,t) ~iie~npuliyai ~ulai

rscall-precision paling kecil. Grafik perbandi~lgan rata-rata nilai recall-precision S3(q,t) terdapat pada Gambar 10.

I

R e c a l l - P r e c i s i o n S2(q.t) p a d a N i l a i A m b a n g ( N A ) 0.1-0.6

I

j

OL

-

I

I

I

0 0.1 0.2 0.3 0.4 0.5 0.G 0.7 0.8 0.0

Recall

' /

(21)

Recall-Precision S J ( q , t ) p a d = N i l a i A m b a n g ( H A ) 0.1-0.6

0

I

0 0.1 0.2 0.J 0.4 0.5 0.6 0.7 0.8 0.0 1

Recall

t N A0.1 t N A0 . 2 +NA 0.3 x N A0.4 -+NA 0.5 t N A0.6

1

Gauibar 10. Grafik Perbandingan Recall-Precision untuk S3(q,t)

Dari selumli grafik &pat dilihat bahwa dengui nilai a i ~ b a n g yang senlakin bertanbali, nilai reoall- precisiori dari setiap ukumi kesamaai senlakin

meningkat. Hal ini disebabkan doku~iie~i-dokun~en relevan rata-rata mempunyai nilai bobot dokumen ti~ulai dari 0.3 sanipai 0.4. Untuk ~ u l a i a~nbang 0.6 setilua ukllran k e s a n m i mempunyai lulai precisiorr sania dengal satu. Matriks efektivitas teniu-kembali setiap u k u w ~ kesamaai~ berdasarkru~

nilni vecall-prec!sio~-~ij,a pxia 'aclai aiiba~ig (NA)

0.1-0.6 (Lati~piran 3-6) terdapat pada Gallbar 11. Taida J m e ~ ~ ~ ~ ~ i j u k k a ~ i iulai recall-prmisiolt terbaik diantara keempat u k u r a ~ kesamarui pada ~ulai anbang.

Dari niatriks terlihat baliwa pada semua nilai amban& uk~turan k e s a n m i SI liien~putiyai nilai recall-precisiorl yang baik dibandingkan ukuran kesamaai yang lain. Sedan&i ukuran kesamaan yang lain n~enipunyai nil& recall-precision yang baik niulai dari nilai a m b a g 0.4. Natiiu11 seperti telali diketaliui bahwa pada nilai anibang 0.1-0.2 ~iiasili bmyak doku~ue~l yalig tidak relevan yang teralilbil. Hal ini dapat dilihat pada perbandingan a ~ ! x a rata-rata j11n:lali dokun~en yz!?g terzxbi! dengan rata-rata jun~lali dokuuie~i relevan pada setiap ukuran kesaniaan pada nil& ambang (NA) 0.1-0.6 (Gambar 12). Rata-rata jumlah dokumen relevan adalal~ 8 (Lampim 12).

Gambar 11. Matriks efektivitas temu-kembali setiap ukurati kesamaan pada nilai an~bang 0.1-0.6

Gambar 12. Matriks perba~dingan rata-rata ju~ulah dolumen teranibil dengal rata-rata jumlah dokumen relevan pada ~ulai

[image:21.595.116.482.95.284.2] [image:21.595.335.471.501.624.2]
(22)

Pada G a i b a r 12 terliliat bahwa semakin llielutigkat llilai aliiba~lg, maka jumlah dokumen yang teranbil semakhi berkuralg. Karetla penallpila1 output te~iiu-kenibali dilakukai secara

descolding, lliaka semakiti tin@ giulai a i l b a ~ g , dokumeti yang terarnbil semakin relevan. Na~ilutl ~liulai llilai aliibaig 0.4, terdapat kemungkinan dokt~men relevall tidak teranbil sewaktu melakukao temu-kembali iufoniiasi.

Berdasarhi hasil yaug didapat dari kedua matriks di atas (Gaulbar 11 dan 12), ukuran kesam&ui yang baik diguttakalt dalam sistem temu- kembali illforlnasi adalah Jaccard dengall ~lilai ambalg bobot dokumen 0.3. Diharapkan d e n m i menggunakai ukumi kesamaati da~i nilai ambang tersebut, semua doku~ilelt yang relevan dengan keinginan pencari infortnasi &pat terailbil.

IU3SIRIPULAN DAN SARAN

Kesirnpulan

Bentuk dau paljalg istilah query maupon dalatii basis data meinpengan~hi liasil perhitungal ~ u l a i kesamaau~ya. Dari hasil llilai ukuran kesamaai diketahui secara berturut-tun~t dari tulai terkecil adalah S,(q,t), S(q,t), S2(q,t), dan S3(q,t).

Hal yang mempengarulii nil& bobot dokumen adalah llilai kesamaan dan frekuensi istilah kata kullci snatu dokunleu yalig luetliiliki nilai kesznaati !ebih Sesar dari tiol. Semakin besar nil$ kesamaan, tiiaka iulai bobot soatu dolcumen alan semaki~i besar.

Nilai a~iibalg memegaig peranan penting dalam hasil recall-l>recision. Apabila nilai ambang se~iiaki~i meningkat, nlaka lulai recall-~>~ecisia,t

aka1 se~ilalci~l ~iieningkat. Diantara keempat ukuran kesamaan yang digmakai pada penelitian ini, Jaccard menipunyai nilai recall-l~reos~o~i yang baik untuk setiap nilai ambang. Apabila meliiperhatikan perbandingat1 jumlah rata-rata dokumen yang teratilbil dengalan jundah rata-rata dolnnlnen yang relevan, maka lulai alibaig yang baik digunalan Jaccard adalah 0.3. Kare~ia selaiti melnpengan~hi liilai rccoll-1~recisio11, tulai a~ilbang juga &an mempe~lgararuhi jululah dokomen yalig

teranibil. Semalcin meningkat nilai ambang, maka jumlah dolalmen yang terambil aban semakin berkuraiig d a i semakin relevan. Namun kemungkinan tidak terambilnya dokumen relevan juga alcan semakiti tingi.

Saran

Pada penelitiai itu ju~lilah dokumen yang digutiakai dan query yang diberikan dala~il percobaali 111asih sedikit. Oleli karetla itu disamlkan utltuk tnelakukan petielitian lebill la~uot d e n m i menggunakai julidah dokunle~i percobaa~i

dan query yang lebih banyak, selungga didapatkan

liasil yang lebih aknrat.

Adisantoso, J. 1997. Temu-kembali lnformasi Menggunakan Peluang Bersyarat. Tesis. Program Pasca Sarjala Fakutas Ilmu Kolnputer, U~uversitas Indonesia, Depok.

Ekmek~ioglu, F.

C.,

Lynch, M. F.

,

& Willet, P. 2000. Sle~nntirtg and N-gra~n A4alclti17g jbr Tern7 Corrjlalio17 117 TurkisIt TErls.

(littp://www.sl~ef.ac.uM-idpublicatio~esl paperl3.html). [21 Juli 20001.

Frnkes, W.B. 1992. 11~fui7r~alio17 Rclr.iei~ol: Uala Sh.ucltrres a17d Aigorill717r.s. Prentice-Hall, New Jersey.

Kim, M.C & K.S Choi. 1999. A Comparison of Collocatioli-based Siuularity Measures in Query Expaision. 11tJor177alio11 Proce.s,si17g &

?.401tagct1ic!t!. 35: 19-30.

Pfeifer, U.. T. Poerscll & N. Fullr. 1996. Retrieval Effectiveness of Proper Name Search Methods. I ~ f i r ~ n a l i u ~ i Procc.s.si17g &

A4anagmiwl. 32: 667-679.

Snltolt, G. 1989. Az11o11talic Texl l'rocessin~g : ?lie

~ I Y I I I ~4 1 a s i . s a17d Re~rielal I , u/'

11ljin71n/o17 by Co111p11ler. Addison-\Vesley,

(23)
(24)
(25)
(26)
(27)
(28)
(29)
(30)
(31)
(32)
(33)

Lalnpinn 5. Nilai u k u r a ~ kesamaan > 0 antara q u e y sistem dengal istilah-istilah d;

berdasarkan nilai ukurm kesan~a&u~ya

(34)

Lampinn 5 . (Lanjutan)

(35)
(36)
(37)
(38)
(39)

Lampinn 8. (Lajutan)

(40)
(41)
(42)
(43)
(44)
(45)
(46)
(47)

Lampiran 13. Tabel Rata-rata Nilai Recall-precision untuk Nilai Ambang WA) 0.1-0.6 pada Ukuran Kesamaan Barn (S(q,t))

(48)

Lampiran 15. Tabel Rata-rata Nilai Recall-precision untuk Nilai Ambang (NA) 0.1-0.6 pada Ukuran Kesamaan Dice (Sz(q,t))

(49)

BEBERAPA UKURAN KESAMAAN ISTILAH

MENGGUNAKAN NILAI TRIGRAM

JURUSAN ILMU KOMPUTER

PAICULTAS MATEMATIKA DAN ILMU PENGETAMUAN ALAM

HNSTITUT PERTANIAN BOGOR

(50)

ANDINI NURAMI. Beberapa U k u m Kesainaan Istilal~ Menggunakan Nilai Trigram (Several Tcr?,rs Sinrilarily Measures Using Trigrar?! Value). Dibinibing ole11 JULIO ADISANTOSO dan MEUTHIA RACHMANIAH.

Dalrun pencarian infom~asi terkadang jumlali dokunlen yang teran~bil terlalu sedikit atau terlalu banyak dibandingkan dokumen yang relevan dengan keinginan pencari i~<orlnasi. Hal i ~ u disebabkan pellcari i d o n i ~ a s i menlberikan input query berupa istilah atau kata kunci dari dokumen yang tidak tepat atau tcrjadi kesalahan pengetikan quey. Uniuk nlengatasi n~asalah tersebut dilakukan pembandingan kcsaillaan string: Melode yang banyak digunakan adalali metode 17-gnm, ilamun selruna ini metode 17- grani belu~n pen~ali digunakan sebagai dasar perhitungru~ ukuran kesamaan. Penelitian iiu bertujuan iintok menelaali lnetode trigram sebagai d a m perldtung'm ukuran kesamaan dalam sistem teinu-keinbali informasi.

Pada penelitian ini digun'akan ellipat ukuran kesrunaan istilah yaitu Jaccard, Dice, Cosine, dan satu ukuran kesamaan b m . Ukuran kesamaan baru ini dibuat berdamkan vektor binari dan ineinpnnyai idlai kesamaan istilah antara 0 dan 1. Berdasarkan nilai kesalnaan istilah &?ri keenipat ukunn kesamaan tersebut dilulung bobot dokunlen yang merupakan l~asil rata-nta j u n ~ l a l ~ nilai ukuran kesanlaan lebih besar dari no1 pada suatu kata kunci dala~n dokumen tertentu. Output dari sisteiii adalah umtan dokunlen sccara descmlrlirtg berdasarkan bobot dokumennya dengan dibatasi oleh nilai an~bang lerlentu. Efekiivitas ternu- kenibali siste~n ilu menurut u k u m kesalnaan tertentu pada nilai ambang 0.1-0.6 akan dianalisis berdasarkan lulai recall-precision-nya.

(51)

PENDAHULUAN

L s t a r Belnknng

Sistem temu-kembali inforniasi meli~trnt Salton (1989) adalah sistenl yalig menuoses da11

~iiengolali kuliipula~ dokunien d a ~ i pennintaati infortnasi, ke~nudian m e n g i d e n t i f i k a s i dan menganlbil dokumen yang sesuai dehgan qzrery. Siste~n ini &pat m e m u d a l h i penyimpman. pengolaha1 da11 pengaksesan infonnasi secara efektif hi efisien. Penganibilan dokumen-

doh~meli tertelitu tergxitung pada kesamaan antara dokumen tersebut dengal query, yang diukur den@i menibandinghi nilai atribut teltentu dari keduanya.

Dala~ii pencariau inforn~asi t e r k a h g timbul masalah antara laill jumlah dokulnen yang terambil terlalu sedikit atau terlalu banyak dibandingkan dengai sekumpulan dokumen yang relevan dengan keinginai pencari i~lforniasi. Selain itu isi dokunien yang tera~iibil tidak sesuai deng;ui keinginan pencari infonnasi (Magdalena, 1996; Kwok, 1989 dalam Adisantoso, 1997). Masalali tersebut tinlbul karena pencari i~lfoniiasi meniberikan bentuk query ben~pa istilah atau kata hnici dari dokumen yang tidak tepat atau terjadi kesalalial &lam penuilisan query.

Untuk mengatasi lnasalali tersebut dilalcl~kari penibandingai kesaniaati string cslrii7g si~nilari@). Metode y211g bac;%zk digunakai acklali metode 1:-

gram yang tidak tergantu~ig pada bal~asa tertentu. Metode ini hatiya membaidi~lgkan 11un1f-huruf &ri kata-kata ta~ipa memperhatikan bahasa yang digi~nakrui. Jika dua buah string dibandinghi, niaka aka1 dilututig kunlpula~~ 11-gralii dari kedua kata tersebut. Semakin banyak 17-gram yalig muncul menunjukhi tingkat kesaniaan string yang tin& (Pfeifer el a/., 1996). Metode it-gran yang m e ~ n b e r i h i hasil terbaik dalam petiganibilali kata yang lnirip adalah digram dan triga111 (Salton, 1989 hi Zaniora ei al., 1981 dola117 Pfeifer rl a/., 1996). Pada penelitian iru akan digonalan metode trigram karena secara umom &lam bahasa Indonesia jumlah Iiumf suato kata atau suku kata yang me~rnnju!&n tingkat kesanaan string yang tin& adalah ti@.

Tingkat kesruiiaan string i ~ u diliitotig d e n 9 1 ~iienjgu~iakat~ ukuwi kesamaan istilah. Kesamaui istilah i ~ u m i p t berguna &lam temu-kembali inforniasl. Menunlt Kim & Choi (1999). terdapar berbaga~ macam ukuran kesatnaan yang disarankan utitnk meningkatkan efektivitas temu-kembali infortiiasi diantaranya addali Jaccard, Dice dan

Cosine. Selania ini pengukuran kesaniaan d i l a k u h i berdasarkan jumlah suatu istilall dalani dokuniel~ da~i ke~inidia~i dilakuhi penymtan dokunien berdasarkan nilai kesamamiya. Metode 17-gratii beluni pemah digunakiili sebagai dasar perl~itungai ukuran kesamaan dillma dilakukan pengukuran kesaniaati a~~tltara istilali query daIi kata kunci dari dohnnen.

Tujunn

Karya ilmiah i ~ u bertujuan untuk menelaah nietode trigam sebagai dasar perlutu~igan u h ~ r a n kesamaati &lam sisteln temu-kembali inforniasi.

TINJAUAN PUSTAKA

Sistem temu-Icembnli informasi

Mellllmt Fmkes (1992) sistem temu-kenibali illforniasi berbeda dengal sisteni manajemen basis data. Perbedaan iilii terletak pada data obyek dan inforlnasi yang d i b e r h i .

Data obyek yalig digunakan dalam sisteni temu-ke~nbali infor~nasi adalah dokumen-doku~nen yang berbasis teks sedruigkai yang digunakan oleh sistelii ma~ajemen basis data adalali record-record yang lebih terstmktor. hlforniasi yang dihasilkal~ ole11 sisteln teniu-kelnbali itlfor~nasi bersifat probabilistik, yaitu dokuliie~i yang teranlbil tidak selalu sesuai denjgi yang diinginkan pencari inforniasi. Dapat terjadi beberapa doicumen yang teranibil tidak relevan atau dokumen yang dibutulkan tidak teranbil. Hal ini berbeda dengan hasil query terhadap basis data yang bersifat deterniinistik (Frakes, 1992).

Sistem temu-kembali itlforniasi terbagi merijadi t i p mang lingkup (Salton, 1979 claIai?7 Adisantoso, 1997), yaitu : (1) database reb.ieval yang ~iienuoses berkas data dasar sederhana dengall mengg~~naka~i sejumlah atribut yag sudali didefinisikan sebagai ciri dari setiap recoro'; (2) refirelice relrieval dimana record data berupa dokunie~i b u h ~ , junial, niajalall atau ballan pustaka lai~niya; dan (3) fact renieval y a ~ g nieniroses inforniasi dengan jenis karakteristiic record iebili konipleks.

(52)

PENDAHULUAN

L s t a r Belnknng

Sistem temu-kembali inforniasi meli~trnt Salton (1989) adalah sistenl yalig menuoses da11

~iiengolali kuliipula~ dokunien d a ~ i pennintaati infortnasi, ke~nudian m e n g i d e n t i f i k a s i dan menganlbil dokumen yang sesuai dehgan qzrery. Siste~n ini &pat m e m u d a l h i penyimpman. pengolaha1 da11 pengaksesan infonnasi secara efektif hi efisien. Penganibilan dokumen-

doh~meli tertelitu tergxitung pada kesamaan antara dokumen tersebut dengal query, yang diukur den@i menibandinghi nilai atribut teltentu dari keduanya.

Dala~ii pencariau inforn~asi t e r k a h g timbul masalah antara laill jumlah dokulnen yang terambil terlalu sedikit atau terlalu banyak dibandingkan dengai sekumpulan dokumen yang relevan dengan keinginai pencari i~lforniasi. Selain itu isi dokunien yang tera~iibil tidak sesuai deng;ui keinginan pencari infonnasi (Magdalena, 1996; Kwok, 1989 dalam Adisantoso, 1997). Masalali tersebut tinlbul karena pencari i~lfoniiasi meniberikan bentuk query ben~pa istilah atau kata hnici dari dokumen yang tidak tepat atau terjadi kesalalial &lam penuilisan query.

Untuk mengatasi lnasalali tersebut dilalcl~kari penibandingai kesaniaati string cslrii7g si~nilari@). Metode y211g bac;%zk digunakai acklali metode 1:-

gram yang tidak tergantu~ig pada bal~asa tertentu. Metode ini hatiya membaidi~lgkan 11un1f-huruf &ri kata-kata ta~ipa memperhatikan bahasa yang digi~nakrui. Jika dua buah string dibandinghi, niaka aka1 dilututig kunlpula~~ 11-gralii dari kedua kata tersebut. Semakin banyak 17-gram yalig muncul menunjukhi tingkat kesaniaan string yang tin& (Pfeifer el a/., 1996). Metode it-gran yang m e ~ n b e r i h i hasil terbaik dalam petiganibilali kata yang lnirip adalah digram dan triga111 (Salton, 1989 hi Zaniora ei al., 1981 dola117 Pfeifer rl a/., 1996). Pada penelitian iru akan digonalan metode trigram karena secara umom &lam bahasa Indonesia jumlah Iiumf suato kata atau suku kata yang me~rnnju!&n tingkat kesanaan string yang tin& adalah ti@.

Tingkat kesruiiaan string i ~ u diliitotig d e n 9 1 ~iienjgu~iakat~ ukuwi kesamaan istilah. Kesamaui istilah i ~ u m i p t berguna &lam temu-kembali inforniasl. Menunlt Kim & Choi (1999). terdapar berbaga~ macam ukuran kesatnaan yang disarankan utitnk meningkatkan efektivitas temu-kembali infortiiasi diantaranya addali Jaccard, Dice dan

Cosine. Selania ini pengukuran kesaniaan d i l a k u h i berdasarkan jumlah suatu istilall dalani dokuniel~ da~i ke~inidia~i dilakuhi penymtan dokunien berdasarkan nilai kesamamiya. Metode 17-gratii beluni pemah digunakiili sebagai dasar perl~itungai ukuran kesamaan dillma dilakukan pengukuran kesaniaati a~~tltara istilali query daIi kata kunci dari dohnnen.

Tujunn

Karya ilmiah i ~ u bertujuan untuk menelaah nietode trigam sebagai dasar perlutu~igan u h ~ r a n kesamaati &lam sisteln temu-kembali inforniasi.

TINJAUAN PUSTAKA

Sistem temu-Icembnli informasi

Mellllmt Fmkes (1992) sistem temu-kenibali illforniasi berbeda dengal sisteni manajemen basis data. Perbedaan iilii terletak pada data obyek dan inforlnasi yang d i b e r h i .

Data obyek yalig digunakan dalam sisteni temu-ke~nbali infor~nasi adalah dokumen-doku~nen yang berbasis teks sedruigkai yang digunakan oleh sistelii ma~ajemen basis data adalali record-record yang lebih terstmktor. hlforniasi yang dihasilkal~ ole11 sisteln teniu-kelnbali itlfor~nasi bersifat probabilistik, yaitu dokuliie~i yang teranlbil tidak selalu sesuai denjgi yang diinginkan pencari inforniasi. Dapat terjadi beberapa doicumen yang teranibil tidak relevan atau dokumen yang dibutulkan tidak teranbil. Hal ini berbeda dengan hasil query terhadap basis data yang bersifat deterniinistik (Frakes, 1992).

Sistem temu-kembali itlforniasi terbagi merijadi t i p mang lingkup (Salton, 1979 claIai?7 Adisantoso, 1997), yaitu : (1) database reb.ieval yang ~iienuoses berkas data dasar sederhana dengall mengg~~naka~i sejumlah atribut yag sudali didefinisikan sebagai ciri dari setiap recoro'; (2) refirelice relrieval dimana record data berupa dokunie~i b u h ~ , junial, niajalall atau ballan pustaka lai~niya; dan (3) fact renieval y a ~ g nieniroses inforniasi dengan jenis karakteristiic record iebili konipleks.

(53)
[image:53.595.322.496.201.305.2]

yang teraliibil relatif sama dengan qzl.ry yalig d i b e r i h i (Gambar 1).

Gambar 1. Konsep temu-kembali illfor~iiasi me~iunlt Salton (1989)

Metode rl-grnm

Pe~ielituali relevaiisi antara query dan dokunien yalig disimpai dilakuhi dengan mengllitung ~iilai kesamaan ruitara istilah yang diliiilita pelicari inforrnasi (queiy) detigan istilali-istilali dalarn doku~iieti yalig tersinipali dalalii basis data.

Metode 11-graii bbanyak digunakan sebagi pendekatan kesamaan-sh-ing (shi~ig-.sif?ii/ari~y) yalig iiienglutulig llilai kesamaai aatara istilali yalig di~ni~ita pelsari informasi deligal istilah yalig berada pada basis data. Istilah-istilali dala~ii basis data yang ~iieliipunyai nilai k e s a m a i yang tinggi .- dengal query

a k a ~ ~

ditaiipilhi ulituk menentokan istilali-istilah yang mu~igkin sesuai dengall yalig diinginkan pe~icari informasi (Freund & Willet,

1982 rlali71i1 Eluiiek~ioglue/ a/.,2000).

Menumt Eluiiekqioglu el a/. (2000), 11-gra~ii adalali kuiiipulati dari n buah karakter ben~rutan yalig m e r u p d a i bagian dari ssuatu kata. Tijuali utana dari ~iietode ii-pmi iiii adalah kata-kata yang tiiirip aka1 mempiuiyai bagian-bagian hasil 11- gra~ii yang senlpa. Nilai 11 yarig ballyak digunaltan

pada 11-gram adalah 2 atau 3 yang biasa disebut digralii atau trigam. Contoli digrani dan trigram ulituk kata KOMPUTER, krtun~t-tumt adalali $K, KO, OM, MP,

PU,

UT,

TE, ER, R$ (digram) dan $$K, $KO, KOhf, OMP, MPU, PUT, UTE, TER, ER$, R$$ (trigram). Tanda '$' liiem~lijukkan bagian tamballan, maka junilali digan1 hi trigram secara

bertun~t-ton~t adalah, n-1 (digra~ii) dan 11+2 (trigram) dari suatu kata yang terdiri &ri 17 buah karakter. Peniberiai bagiai tambahai ini untok menekankau k e s a i i a i 11-gali1 pada awal dan akliir suato kata (Pfeifer el a/., 1996).

Ukuran Kesnmaan (Sintilari* Measrrres) Misalnya diketaliui suatu hinipuniui dokumen D dengal ukurai N, yalig memiliki istilali x sebaliyak df,, drui istilah y sebanyak df,, serta yalig metiiiliki istilah x drui y sebaliyak df,, yang menlpakai ukuran dari D, n

Dy

.

D,

drui

Dy

bertumt-tumt m e n l p a h i Iiimnpunrui doku~iien yatig mempu~iyai istilali x drui istilah y (Galiibar 2).

Gallbar 2. Himpunan dokumen 2 buah istilah

Meliurut Kim & Choi (1999), ukuran kesamaan antara istilah x drui y terdiri dari Jaccard (S,), Dice (Sz) dan Cosine (S3) dimaia :

(54)

ukurrui kesamaai Dice (Sz) d a ~ ~ Cosine (S3) pen~ali digunakai pada susunan tesaurus autolnatis (Frakes & Yates, 1992 dalatrr Kim & Choi, 1999)

Pernbobotnn Dokumel~ (Doc~rnterrf Weiglitirig) Menun~t Salt011 (1989) pe~iibobota~i dokumen iui metiiudal~kau pengurutau dokumen 111ulai bobot terbesar sanpai bobot terkecil (decreasir?g). Semakin kecil bobot dokumen, menulijukkau dokumeri tersebut semakin tidak relevau dengall qziery. Perliit~~ligat~ bobot doku~iiel~ untuk q u e y sederhaia &pat didefilusihi sebagai p e ~ i j u n ~ l & ~ ~ bobot semua 'istila11 dalaui dokunieu yang sesuai d e n p i query. Sedaigkan perhitu~igrui bobot dokumen untuk query boolean dilakukai berdasarhi ekspresi boolea11 yang diberikan. Selaili itu juga terdapat pembobotan d o k t ~ ~ i i e ~ i nod el peluang yang melakukan pe~iibedaa~i yang jelas antara istilal~ yalig relevall dengal istila11 yaug tidak relevau

dari

suatu dokumen.

Recnll-Precision

Menun~t Salt011 (1989) recall-precisioi? adalah tnetode yalig d i p i n a h 1 unh~k menguhr efektivitas teniu-kenbali.

Recall ii~erupakan ukumi bauyaknya dokumen relevall yalig tera~ibil dari kumpuliui dokumen relevall pada saat query diterapkan.

Jumldn dakumen relevan yang terambil

= Iumlzh seluiuh dokomen iolo.jan Wam basis ds:a

Precisian merupalan ukuran relevalisi dari doktunien yang teran~bil. I>recision menyatakan perba~dingan aitara jumlali dokumen yang teran~bil dau relevax denjpi keseluruhaI1 dokumen yang reran~bil.

Untok rlriery yang terperinci, nilai /~reci.sio~? akan tin& sebab semua dokumen yang ditemo- kembalikan relevan. Namon di lain pihak iulai recall aka11 rendall karena lianya sedikit dolct~mel~ yalig tera~i~bil. Apabila qziery tidak terperinci, maka iulai recall a b i tinggi karena banyaluiya dolumen yalig terambil, sedangkan nilai precisiori rendah.

METODE PENELITiAN

Data yalig digunakau dalaln penelitian i ~ u adalali d o k u ~ ~ ~ e l i basil penelitian pada F A ~ l t a s MIPA tal~un 2000. Dokumen yalig diguliaka~ berjumlal~ 137 dokumen yang terdiri dari 23 dokumen GFM, 15 d o h m e n BIO, 7 d o h ~ m e n FIS, 13 doku~iieli KOM, 25 dohunen KIM, 20 dokumen MAT, &I 31 d o h ~ m e n STK. Setiap

dokumen memponyai atribut yang digutiakan sebagai ciri dari dokumen, yaitu ID dokumen, judul penelitill dalam baliasa Indonesia &a11 Ingris, nama peuulis, lenibaga, kata-kata kunci da~i edisi. Selnua dokuliie~i tersebut telah tersimpan pada tabel Penelitiai dalan basis data.

Metode

Penelitian ilu dilakuhi ~nelalui beberapa tahap, yaitu :

1. Penibentuka~~ tabel kata kunci (istilab) dalani basis data.

2. Penentuan iinput, output, dan alur data sistem teuru-kembali infor~iiasi.

3. Penentoan perhitungal ~iilai kesamaali istilah

hi bobot dokumen.

3. Percobaan. 5. Analisis.

Pembentuknn tnbel kntn kuuci (istilall) dnlnm basis data

(55)

ukurrui kesamaai Dice (Sz) d a ~ ~ Cosine (S3) pen~ali digunakai pada susunan tesaurus autolnatis (Frakes & Yates, 1992 dalatrr Kim & Choi, 1999)

Pernbobotnn Dokumel~ (Doc~rnterrf Weiglitirig) Menun~t Salt011 (1989) pe~iibobota~i dokumen iui metiiudal~kau pengurutau dokumen 111ulai bobot terbesar sanpai bobot terkecil (decreasir?g). Semakin kecil bobot dokumen, menulijukkau dokumeri tersebut semakin tidak relevau dengall qziery. Perliit~~ligat~ bobot doku~iiel~ untuk q u e y sederhaia &pat didefilusihi sebagai p e ~ i j u n ~ l & ~ ~ bobot semua 'istila11 dalaui dokunieu yang sesuai d e n p i query. Sedaigkan perhitu~igrui bobot dokumen untuk query boolean dilakukai berdasarhi ekspresi boolea11 yang diberikan. Selaili itu juga terdapat pembobotan d o k t ~ ~ i i e ~ i nod el peluang yang melakukan pe~iibedaa~i yang jelas antara istilal~ yalig relevall dengal istila11 yaug tidak relevau

dari

suatu dokumen.

Recnll-Precision

Menun~t Salt011 (1989) recall-precisioi? adalah tnetode yalig d i p i n a h 1 unh~k menguhr efektivitas teniu-kenbali.

Recall ii~erupakan ukumi bauyaknya dokumen relevall yalig tera~ibil dari kumpuliui dokumen relevall pada saat query diterapkan.

Jumldn dakumen relevan yang terambil

= Iumlzh seluiuh dokomen iolo.jan Wam basis ds:a

Precisian merupalan ukuran relevalisi dari doktunien yang teran~bil. I>recision menyatakan perba~dingan aitara jumlali dokumen yang teran~bil dau relevax denjpi keseluruhaI1 dokumen yang reran~bil.

Untok rlriery yang terperinci, nilai /~reci.sio~? akan tin& sebab semua dokumen yan

Gambar

tabel kata kuaci (istilah) dalai~ basis data alur data sister11 teniu-kern
Tabel Rata-rata Nilai Recall-precision untuk Nilai A~nbalg Kesa~naan Jaccard (S,(q,t)) ...........
Gambar 1. Konsep temu-kembali illfor~iiasi
Tabel 1. Contoli (I) pe~iyimpanan kata hlici dalalii
+7

Referensi

Dokumen terkait

Dapat disimpulkan penyuluhan kesehatan dengan metode ceramah dan demonstrasi yang telah dilakukan pada lansia terbukti dapat meningkatkan pengetahuan kader tentang tentang

Hasil prediksi yang diperoleh dari model ANFIS terbaik masing-masing wilayah hujan ialah valid atau dapat digunakan sebagai prediksi awal musim hujan. ACKNOWLEDG

Mullite dan quarsa merupakan bagian terbesar pada abu layang sehingga memiliki intensitas yang dominan (Cao, et al 2020). Gambar 5.11 merupakan difraktogram membran

Sekali lagi ditegaskan bahwa kaidah-kaidah tafsir adalah patokan umum bagi para pengkaji al- Qur’an untuk memahami pesan-pesan kitab suci Alquran dan dapat

Berdasarkan penelitian sebelumnya yang telah dilakukan oleh Mitasari (2010) tentang uji aktivitas antioksidan ekstrak kloroform kulit buah naga merah, didapatkan nilai

Sebagai salah satu kecamatan dari 10 kecamatan yang ada di Jakarta Timur, Kecamatan Pasar Rebo memiliki luas wilayah sebesar 12,98 km 2 atau 6,90 persen dari

Teori  dasar  yang  digunakan  untuk  mendesain  struktur  perkerasan  lentur  berbeda  dengan  struktur  perkerasan  kaku.  Desain  struktur  perkerasan 

Proses succession management menjadi efek- tif ketika upper manager mampu mengambil lima langkah berikut; (1) melakukan identifikasi terkait dengan posisi kunci yang relevan