PENGGUNAAN BAHASA ALAMI AH DAN KOSA KATA TERKONTROL DALAM SI STEM TEMU KEMBALI I N FORMASI BERBASI S TEKS
JONNER HASUGI AN
St a f Pe n ga j a r pa da Pr ogr a m St u di I lm u Pe r pu st a k a a n Fa k u lt a s Sa st r a USU
1 . Pe n d a h u lu a n
Bahasa dan at au k osa k at a ( v ocabu lar y ) m em egang per anan y ang sangat pent ing dalam efekt ifit as dan efisiensi penelusuran pada suat u sist em t em u kem bali inform asi. ( Muddam alle, 1998 : 881) . Kegiat an penelusuran hanya dapat berlangsung bila m enggunakan kosa kat a, sebab kosa kat a inilah yang digunakan sebaga i alat ( t ools ) penelusuran unt uk m enem ukan dokum en yang diinginkan. Dalam sist em t em u kem bali inform asi, kosa kat a it u disebut dengan indeks, yang dapat berupa indeks subj ek, pengarang, j udul, m aupun t esaurus.
Pada dasarnya ada dua pendekat an penelusuran yang laj im digunakan dalam sist em t em u kem bali inform asi yait u bahasa alam i (nat ur al language) , dan kosa kat a t erkont rol yang sering j uga disebut con t r olled v ocabu lar y . Kedua pendekat an ini sej ak sem ula t elah digunakan secara luas dalam sist em t em u kem bali inform asi.
St udi t ent ang efekt ifit as dan efisiensi penelusur an m enggunakan pendekat an bahasa alam iah (nat ur al language) dan k osa k at a t er k ont r ol (cont r olled v ocabular y ) dalam sist em t em u kem bali inform asi t elah lam a dilakukan. Banyak d at ab ase y ang t elah dibangun unt uk digunakan sebagai sarana penelusuran eksperim en dalam rangka pem buk t ian efek t ifit as dan efisiensi dar i k edua pendek at an t er sebut .
Muddam alle ( 1998 : 881- 883) m encat at bahw a sej ar ah bahasa alam iah ( nat ur al language) k ont r a k osa k at a t er k ont r ol (cont r olled v ocabular y ) dalam sist em t em u kem bali inform asi dibagi kepada t iga era. Era pert am a dim ulai pada abad ke - 19 dengan penekanan kepada popular it as pengindeksan ist ilah ber dasar kan j udul (t it le t erm indexing ) . Pada er a ini k osa k at a t er k ont r ol at au cont r olled v ocabular y lebih dom inan digunakan dalam penelusuran, t erut am a digunakan unt uk m enem ukan cant um an bibliografi dalam kat alog berklasifikasi di perpust akaan. Sedangkan penelusuran berdasarkan bahasa alam iah yang biasa disebut dengan sebut an fr ee - t ex t sear ching at au penelusuran dengan t eks bebas, baru dalam t ahap perm ulaan dilakukan pada era ini.
Era kedua dim ulai pada saat kehadiran kom put er dalam sist em t em u kem bali inform asi. Pada era ini kegiat an pengindeksan m ulai dilakukan dalam bent uk m ekanis. Kem udian, era ket iga dim ulai pada pert engahan t ahun 1970 - an, dim ana pendekat an yang berbeda dilakukan unt uk m enguj i isu nat ur al language v er sus cont r olled v ocabu lar y , m elalui penguj ian rasio Recall dan Precision dalam sist em t em u kem bali inform asi pada berbagai dat abase ber basis t ek s.
Para ahli inform asi t erus m elakukan berbagai penelit ian dan percobaan berkenaan dengan kedua pendekat an t ersebut . Hasil yang diperoleh bervariasi ant ara sat u penelit i dan yang lainnya. Beber apa cont oh hasil penelit ia n t er sebut dapat dilihat di bawah ini.
Pada t ahun 1976, Barbara Chart on m elakukan penelit ian m elalui penelusuran pada Ch em ical Abst r act s, unt uk m enj aw ab pert anyaan penelit ian, I s a cont r olled v ocabu lar y n ecessar y ?. Dalam hasil penelit iannya, dia m engem ukak an bahw a suat u penelusuran dengan t eks bebas bisa seefekt if penelusuran m enggunakan cont r olled v ocabu lar y , asalkan dilakukan oleh seseorang yang m em iliki pengalam an dalam penelusuran. Penelusuran dengan t eks bebas bisa lebih efekt if, sebab ada kalanya p enelusuran m enggunakan cont r olled v ocabular y m engorbankan ket epat an dalam kem ungkinan m encapai kem udahan.
mengak ses ERI C dat abase unt uk m enget ahui apakah konsep ekspresi dengan ist ilah t eks bebas at au bahasa alam iah dapat j uga diekspresikan dari deskript or ERI C (ERI C descr ipt or s) . Mereka m enem ukan bahwa salah sat u dari set iap delapan pernyat aan penelusur an t eks bebas yang t idak direpresent asikan dalam ERI C cont r olled v ocabu lar y . Secara keseluruhan, t em u kem bali t eks bebas ( free- t ex t r et r iev al) dengan m enggunakan pendekat an bahasa alam iah m enghasilkan perolehan (r ecall) yang t inggi dengan k et epat an ( pr ecision) yang rendah, dari pada m enggunakan pendekat an cont r olled v ocabular y .
Calkins ( 1980) sesuai kut ipan Muddam m alle, dalam hasil pengam at annya kepada sej um lah penelusur yang hanya m enggunakan ist ilah cont r olled v ocabular y dan yang hanya m enggunakan penelusuran t eks bebas, m engem ukakan kesim pulan bahwa penelusuran m enggunakan t eks bebas dan cont r olled v ocabular y t er ny at a saling m elengkapi, dan penam pilan t erbaik yang dicapai dalam penelusuran ialah m enggunakan kom binasi dari keduanya.
Dar i ket iga cont oh hasil penelit ian yang dikem ukakan di at as, dapat dilihat bahwa efekt ifit as dan efisiensi penelusuran m enggunakan pendekat an bahasa alam iah at au penelusur an dengan t ek s bebas (f r ee- t ex t sear ch ) ada kalanya lebih baik dari pada kosa kat a t erkont rol, dem ikian sebaliknya pendekat an m enggunakan cont r olled v ocabu lar y ada kalanya lebih baik dari bahasa alam iah. Mengingat banyaknya penelit ian dan eksperim en yang t elah dilakukan unt uk m enguj i kedua pendekat an t ersebut , m aka keunggulan m aupun kelem ahan dari kedua pendekat an t ersebut t elah banyak yang diket ahui. Tulisan ini m encoba m engangkat isu t ersebut unt uk dibahas secara t eorit is m elalui t inj auan lit erat ur.
Sasaran ut am a yang akan dicapai dalam t ulisan ini ialah m enget ahui sej um lah keunggulan dan kelem ahan penelusuran m enggunakan pendekat an bahasa alam iah ( nat ural languages ) dan kosa kat a t er kont r ol ( cont r olled v ocabular y ) . Kem udian akan direkom endasikan pendekat an m ana yang ideal digunakan dalam sist em t em u kem bali inform asi berbasis t eks. Akan t et api sebelum pem bahasan it u dilakukan, t erlebih dahulu akan dibahas beberapa hal yang m enyangkut dengan sist em t em u kem bali inform asi berbasis t eks ant ara lain, Pengert ian dan Fasilit as Sist em Tem u Kem bali I nform asi Berbasis Teks, Keefekt ifan Sist em Tem u Kem bali I nform asi Berbasis Tek s, ser t a Pengindeksan dan Bahasa I ndeks Dalam Sist em Tem u Kem bali I nform asi.
2 . Pe n ge r t ia n , da n Fa silit a s Sist e m Te m u Ke m ba li I n for m a si Be r ba sis Te k s Pada dasarnya sist em t em u kem bali inform asi adalah suat u proses unt uk m engidentifikasi, kem udian m em a nggil ( r et r iev e ) suat u dokum en dari suat u sim panan ( file) , sebagai j aw aban at as pem int aan inform asi. Pengert ian lain m enyat akan bahw a sist em t em u kem bali inform asi adalah proses yang berhubungan dengan represent asi, penyim panan, pencarian dengan pem anggila n inform asi yang relevan dengan kebut uhan inform asi yang diinginkan pengguna. ( I ngwerson, 1992 : 49) . Pendapat ini m enunj ukan bahwa pada sist em t em u kem bali inform asi t erkandung sej um lah kegiat an yang m eliput i proses penyim panan, penyediaan represent asi, ident ifikasi sert a pencar ian at au penelusur an dokum en yang r elevan pada suat u dat abase, dalam rangka m em enuhi kebut uhan inform asi dari pengguna. Dari sekian banyak sist em t em u kem bali yang ada,salah sat u diant aranyya adalah sist em t em u kem bali inform asi b erbasis t ek s at au t ek st ual.
Um um nya sit em t em u kem bali t ekst ual didesain unt uk m em beri suat u kawasan t it ik ak ses (access point s) k epada suat u dat abase dari inform asi yang relat if tidak t erst rukt ur, yang laj im dikenal dengan sebut an t eks bebas. Oleh karena it u, kegiat an fr ee - t ex t sear ch dapat dilakukan dengan m enggunakan bahasa alam iah (nat ur al language ) dari dokum en yang berbent uk t eks yang t ersim pan dalam suat u dat abase . Keadaan ini sangat m enolong pengguna awam yang t idak m am pu m enelusur dengan m enggunakan bahasa indeks (cont r olled language) yang dibuat oleh indekser , seper t i halny a t esaur us at au t aj uk suby ek t er t ent u.
Teskey ( 1984) dalam sunt ingan Rowlands m engident ifikasikan ada em pat fungsi yang paling pent ing, yang bisa t erbukt i dalam segala j enis sist em t em u kem bali inform asi t ekst ual yang baik, yait u bahwa suat u sist em t em u kem bali inform asi t ekst ual yang baik, seharusnya dapat unt uk: ( a) m enerim a dan m enyusun berbagai t eks dari berbagai sum ber; ( b) m enet apkan penyim panan yang sesuai unt uk sem ua t eks, ( c) m endapat kan/ m em peroleh inform asi yang spesifik dari t eks yang t ersim pan dalam m erespon queries yang diberikan; ( c) m em proses t eks yang didapat kan, dan m enyaj ikannya kepada pengguna dalam form at yang dapat dit erim a ( accept able) .
Suat u sist em t em u kem bali berbasis t eks, secara norm al karakt erist iknya dilihat dari fasilit as t em u kem bali yang dim ilikinya. Seringkali suat u sist em t em u kem bali t idak dapat m enelusur inform asi m elalui field -field t er t ent u at au k husus, k ar ena ket erbat asan fasilit as yang dim ilikinya. Oleh karena it u fasilit as penelusuran yang dit awarkan dalam suat u sist em t em u kem bali, adalah m erupakan salah sat u unsur yang paling penting dalam m em ilih paket - pak et inform asi ber basis t ek s.
Secara um um bahwa suat u sist em t em u kem bali t ekst ual m em iliki sej um lah fasilit as y ang dapat digunak an unt uk : per t any aan at au bahasa per int ah (qu er y or com m and language) ; form ulasi pert anyaan Boolean ( Boolean quer y for m ulat ion) ; pem urnian penelusuran ( sear ch r ef in em en t ); pem endekan/ pem ot ongan dan penelusur an r ent et an t ek s ( t r uncat ion and t ex t st r ing sear ching) ; daft ar k at a t akt erpakai dalam penelusuran ( st op list or com m on w or d list ); t esaurus / pendukung per bendahar aan kosa kat a ( t h esaur us / v ocabular y suppor t ) ; kedekat an penelusur an ( pr ox im it y sear ching); pem bat asan penelusuran dengan ruas ( lim it ing searching by field) ; dan penelusuran kawasan num erik ( num er ic r ange sear ching) . ( Rowlands, 1987 : 7- 8) . Sej um lah fasilit as yang disebut kan di at as sangat diperlukan unt uk m elakukan penelusuran pada suat u dat abase. Kelengk apan fasilit as ini t ent u sangat m em pengaruhi keefekt ifan sist em t em u kem bali inform asi, yang t ent u akan berdam pak k epada t ingk at k et epat an ( pr ecision) dalam penelusuran.
3 . Efe k t ifit a s Sist e m Te m u Ke m ba li I n for m a si Be r ba sis Te k s
Pesat nya kem aj uan t eknologi inform asi khususnya kom put er disert ai dengan dukungan kecanggihan perangkat lunak (sof t w ar e) m engakibat kannya m am pu m enat a, m enyim pan sej um lah besar inform asi dan m enyediakan akses t erhadap inform asi t er sebut dengan cepat dan t epat . Kem aj uan it u sangat ber pengar uh k epada perkem bangan sist em t em u kem bali inform asi ( in for m at ion r et r iev al sy st em) . Keakurat an dan kecepat an dari suat u sist em inform asi sangat diharpakan dalam upay a m em enuhi kebut uhan pengguna unt uk m em peroleh inform asi yang diinginkannya.
Efekt ifit as dari suat u sist em t em u kem bali inform asi adalah kem am puan dari sist em it u unt uk m em anggil berbagai dokum en dari suat u basis dat a sesuai dengan perm int aan pengguna. Efekt ifit as dari sist em t em u kem bali inform asi t ersebut dapat diukur. Ada dua hal pent ing yang biasanya digunakan dalam m engukur kem am puan suat u sist em t em u kem bali inform asi yait u rasio at au perbandingan dari perolehan ( r ecall) , dan k et epat an ( pr ecicion) . ( Lee Pao, 1989 : 225) .
t ingk at perolehan ( r ecall) dan k et epat an ( pr ecision) yang dicapai dalam kegiat an penelusuran dapat diungkapkan sebagai berikut :
Jum lah dokum en relevan yang t eram bil
Recall = - - - Jum lah dokum en relev an yang ada dalam dat abase ( file)
Jum lah dokum en relevan yang t eram bil
Precision = - - - Jum lah dokum en yang t eram bil dalam pencarian
Rasio dari r ecall sebenarnya sulit diukur karena j um lah seluruh dokum en yang relevan dalam dat abase sangat besar . Oleh kar ena it u pr esisi- l a h (pr ecision) y ang m enj adi salah sat u ukuran yang digunakan unt uk m enilai keefekt ifan suat u sist em t em u kem bali inform asi. Unt uk m em udahkan pem aham an akan kedua rasio t ersebut , ber ik ut dikem ukakan sebuah cont oh soal dan perhit ungan penent uan r ecall dan precision .
Andaikan suat u file dat abase m enyim pan 100 dokum en. Pada suat u
penelusuran, ada 10 dokum en t eram bil (r et r iev ed) dan hanya 4 dokum en t eram bil dalam pencarian yang r elev an dengan per t any aan (quer y ) , kem udian ada 2 dokum en lain dalam file dabase diket ahui relevan kepada quer y ak an t et api t idak t er am bil (not r et r iev ed ) . Unt uk m enghit ung rasio r ecall dan pr ecision dari sepert i disebut pada soal di at as, sering digunakan t abel berikut :
Tabel Perhit ungan Recall dan Pr ecision
Relevant Not Relevant To t al
Ret r iev ed 4 ( a ) 6 ( b ) 10
Not Ret r iev ed 2 ( c ) 88 ( d ) 90
Tot al 6 94 100
Berdasarkan t abel di at as, sekarang perhit unganny a dapat dilakukan dengan m engacu kepada kepada rasio yang t elah dikem ukakan sebelum nya. Unt uk m enghit ung rasio r ecall, t erlebih dahulu kit a t ent ukan j um lah dokum en relevan yang t eram bil, ber dasar k an dat a pada t abel y ait u a , sedangkan Jum lah dokum en relevan yang ada dalam dat abase adalah a + c. Dengan dem ikian rasio r ecall ( R ) t er sebut dapat dinyat akan sebagai berikut :
a R = - - - a + c
4 = - - - 4 + 2
= 0,66
a Precision = - - - a + b
4 = - - - 4 + 6
= 0,40
Kondisi ideal dari keefekt ifan suat u sist em t em u kem bali inform asi adalah apabila rasio r ecall dan pr ecision sam a besarnya ( 1 : 1 ) . ( Lee Pao, 1989 : 229) . Selain it u, suat u sist em t em u kem bali dinyat akan efekt if apabila hasil penelusuran m am pu m enunj ukkan ket epat an (pr ecision) yang t inggi sekalipun perolehannya rendah ( Rowley, 1992 : 172)
4 . P e ngin de k sa n da n Ba h a sa I n de k s D a la m Sist e m Te m u Ke m ba li I n for m a si Salah sat u fakt or yang berpengaruh t erhadap sist em t em u kem bali ialah pengindeksan dokum en. Pengindeksan (indexing ) m encak up pr oses pencat at an cir i- ciri dokum en, analisis isi, klasifikasi m au pun pem buat an ent ri ke dalam bahasa indeks. Tuj uan pengindeksan ialah unt uk m em ungkinkan dit em ukannya dokum en yang relevan dengan per t any aan ( quer y) den gan t epat .
Kegiat an pengideksan akan m enghasilkan indeks. Meadow ( 1992 : 69- 70) m engem ukakan bahwa inde ks adalah m erupakan cant um an dari berm acam- m acam at ribut yang diharapkan dapat digunakan sebagai dasar pencarian dokum en. Jika at ribut t ersebut berupa subj ek, m aka indeks yang m ewakilinya disebut sebagai indeks subj ek. Sedangkan bila at r ibut t er sebut ber upa pengarang, m aka indeks yang m ewakilinya disebut sebagai indeks pengarang. Um um nya kegiat an pengindeksan adalah berupa pengindeksan subj ek, nam un dalam kenyat aannya di perpust akaan indeks subj ek dan pengarang sam a - sam a digunakan dalam sist em t em u kem bali.
I ndeks di perpust akaan berfungsi sebagai sarana at au kunci yang m enunj ukkan kepada penelusur dokum en- dokum en yang pot ensial relevan dengan perm int aannya. Sarana it u sering disebut sebagai wakil dari dokum en yang dim iliki, yait u berupa k at alog per pust ak aan. Dengan dem ikian fungsi indeks pada dat abase m aupun perpust akaan pada prinsipnya adalah sam a yait u sebagai sarana t em u kem bali.
Tuj uan ut am a dari pengindeksan ialah unt uk m em bent uk represent asi dari dokum en dalam bent uk yang sesuai unt uk dicant um an dalam berbagai t ipe dat abase ( Lancast er, 1998 : 1) . I ndeks sebagai represent asi dari dokum en diharapkan dapat m enggam barkan isi at au subj ek yang t erkandung di dalam dokum en t ersebut , sehingga dapat dit em ukan kem bali m elalui ist ilah ( index t er m) yang digunakan.
Pada dasar ny a ada dua j enis bahasa indek s y ait u bahasa alam iah (nat ur al language ) dan k osa k at a t er k ont r ol (cont r olled v ocabular y ) . Bahasa alam iah adalah bahasa dari dokum en yang diindeks. Biasanya bahasa t ersebut m erupakan bahasa yang t idak t er kendali (uncont r olled v ocabular y ) . Bahasa alam iah ini um um digunakan dalam kom unikasi dan penulisan ilm iah, yang banyak dipakai oleh pengarang ( Lancast er, 1986 : 159) . Sedangkan kosa kat a t erkont rol dapat berupa indeks subj ek, pengarang, j udul m aupun t esaurus.
t erkont rol (cont r olled language) . Tuj uan ut am a t esaur us adalah j uga unt uk m em udahkan t em u kem bali dokum en, dan unt uk m encapai konsist ensi dalam pengindeksan dokum en pada sist em sim pan dan t em u kem bali inform asi.
Dalam bahasa pengindeksan kosa kat a t erkont rol sepert i t esaurus, ist ilah y ang digunakan unt uk m enyat akan kandungan at au isi suat au dokum en t elah dibakukan dalam suat u daft ar indeks yang disusun secara alfabet is, m isalnya Sear s List of Subj ect Heading, Libr ar y of Congr ess Subj ect Heading, Macr o Econom ics Thesaur us, DDC I ndex, dan sebagainya. Sedangkan pengindeksan bahasa alam iah adalah pengindeksan yang dilakukan pada sem ua ist ilah baik dari j udul, abst rak, m aupun dari t ek s lengk ap (full t ext ) dokum en, t erkecuali st op w or d at au daft ar kat a um um yang t idak digunakan dalam penelusuran ( Rowley, 1992 : 272) . Sem ua ist ilah indeks yang dihasilkan adalah bergant ung kepada bahasa dokum en it u sendiri, dan sem uanya it u dapat m erupakan represent asi dari dokum en it u. Mengingat volum e pengindeksan dalam bahasa alam iah ini sangat besar, m aka biasanya dilakukan oleh kom put er.
Bahasa alam iah dan kosa kat a t erkont rol adalah dua bahasa hasil dari pengindeksan yang sam a - sam a dapat dipergunakan sebagai represent asi dokum en. Kedua bahasa pengindeksan t ersebut digunakan pada w akt u pem asukan (input ) dat a k e d at ab ase, dan akan digunakan j uga pada w akt u pencar ian / penelusur an (out put ) inform asi dari dat abase . Yang m anakah diant ara keduanya yang paling baik digunakan dalam pencarian / penelusuran inform asi pada suat u dat abase ?
5.
Ba h a sa Ala m ia h v e r su s Kosa Ka t a Te r k on t r ol D a la m Sit e m Te m u Ke m ba li I nfor m a si5.1.
Ke u n ggu la n da n Ke le m a h a n Ba h a sa Ala m ia hKeungulan m aupun kelem ahan bahasa alam iah dalam sist em t em u kem bali inform asi sangat bervariasi dan kom pleks. Banyak fakt or yang m ungkin dapat m em pengaruhinya. Banyak keunggulan dari penggunaan bahasa alam iah dalam penelusuran inform asi, beberapa diant aranya adalah :
(a)
Bahasa alam iah dapat dengan m udah dim engert i oleh pengguna t anpa harus m em erlukan pelat ihan khusus, dan berbagai nuansa m akna dapat diekspresikan dengan lebih leluasa ( Meadow , 1992 : 37- 38) . Maksudnya, dengan kekayaan perbendaharaan kosa kat a, m em ungkinkan penelusur m engekspresikan gagasan, perasaan dan keinginannya dengan berbagai cara dan nuansa unt uk m endapat kan dokum en yang diinginkannya.(b) Bahasa alam iah m em iliki spesifikasi (specificat ion ) y ang t inggi ( Lancast er , 1977 :
23) . Spesifikasi ist ilah ini m uncul karena dapat m enggunakan seluruh isit ilah yang t erdapat dalam dokum en sebagai quer y. Spesifikasi ist ilah akan m em udahkan pencarian unt uk m endapat k an k et epat an (pr ecision) yang t inggi. Sem akin t inggi spesifikasi ist ilah yang digunakan dalam penelusuran, m aka akan sem akin t inggi k et epat an ( pr ecision) , sedangkan perolehan ( r ecall) akan sem akin rendah. Sebaliknya bila spesifikasi ist ilah rendah, m aka perolehan (r ecall ) akan sem akin t inggi, sedangk an k et epat an ( pr ecision) cenderung rendah. Misalnya, bila kit a m enggunakan ist ilah “ LI NGUI STI CS” unt uk m encari dokum en yang m em uat penelit ian t en t an g loga t ba h a sa pada suat u dat abase, m aka j um lah perolehan (recall) past i ak an t inggi, sedangk an k et epat an ( precision ) akan rendah, karena ist ilah “ LI NGUI STI CS” adalah ist ilah um um dalam ilm u bahasa yang berart i spesifikasinya rendah. Akan t et api bila kit a m enggunakan ist ilah “DI ALECT ” , m aka j um lah perolehan ( r ecall) ak an r endah, sedangk an k et epat an ( precision ) t inggi, karena ist ilah “ DI ALECT” adalah isit ilah khusus, yang berart i spesifikasinya t inggi.sem ua kat a t er kecuali st op w or d dapat dij afik an sebagai k ey w or d dalam penelusuran.
(d) Penelusur yang m erupakan prakt isi dalam bidangnya dapat m elakukan penelusuran
dengan bahasa alam iah dengan lebih efekt if.Selain m em iliki sej um lah keunggulan, bahasa alam iah j uga m em iliki berbagai kelem ahan, beberapa diant aranya adalah :
(a)
Bahasa alam iah t idak at au kurang ringkas ( lack of consiseness) ( Meado w , 1992 : 38) . Query yang digunakan penelusur sering berupa kat a at au ist ilah berbeda at au t idak st andar sehingga sering t erj adi kehilangan inform asi saat penelusuran. Misalnya, seorang penelusur ingin m endapat kan dokum en t ent ang Pr ose s y a n g d ia la m i se se ora n g u n t u k m e n j a di se m a k in t u a . Lalu dia m enggunakan query “ PROSES MAKI N TUA” . Dengan quer y it u, m ungkin penelusur t ersebut akan m endapat k an per olehan (r ecall) y an g k et epat an n y a (pr ecsion ) t idak ada, kar ena dokum en yang berisi ist ilah it u t idak ada. Akan t et api bila penelusur it u m enggunakan ist ilah indeks subj ek “PENUAAN” sebagai query , m ungkin akan dia peroleh (r ecall ) sej um lah dokum en yang ket epat annya (pr ecision) sangat t inggi, yang berart i sangat sesuai dengan yang diinginkannya. Kesalahan yang t erj adi sebenarnya t erlet ak pada penyusunan at au pem ilihan ist ilah yang t epat sebagai qu er y .(b) Mem punyai am biguit as ( am biguit y) yang t inggi. ( Meadaw, 1992 : 37) . Muddam alle
( 1998 : 881) m enyebut bahwa …” nat ur al language is full of am biguit ies” . Am biguit as adalah kat a at au ist ilah yang dapat m em iliki lebih dari sat u art i sehingga m engakibat kan kerancuan. Am biguit as dapat t erj adi karena sinom im at au hom ograf. Sinonim yait u bent uk kat a yang berbeda t et api art inya sam a, dapat m enyebabkan t erpencarnya inform asi m engenai t opik yang sam a. Misalnya, kat a sado, dok ar , delm an. Hom ogr af y ait u k at a- kat a yang ej aannya sam a t et api m aknanya berbeda, m isalnya r a u t art inya m eruncingkan, m enghaluskan, t et api raut dapat j uga ar t iny a t am pang, pot ongan. Sinonim dan hom ograf dapat m engakib at k an false dr ops y ait u t erj aringnya dokum en yang sam a sekali t idak relevan, at au subj ek yang t idak relevan ikut t erj aring at au t eram bil dalam proses t em u kem bali.(c)
Kesulit an kom put er unt uk m engint erpret asikan t eks ( Meadaw, 1992 : 37) . Kelem ahan ini t erj adi karena ket idak m am puan sist em m enyerap at au m enangkap m akna dari suat u pernyat aan. Hal ini t erj adi karena dalam m em roses bahasa alam i, kom put er t idak bisa bekerj a sebagaim ana ot ak m anusia, t erkecuali kom put er t er sebut dilengk api dengan suat u know ledge base. Misalnya, seseorang ingin m encar i dokum en t ent ang “Per pust akaan Sekolah” pada suat u dat abase, m aka ia akan m enggunakan query Perpust akaan AND Sekolah, akan t et api dalam pencar ian dok um en t ent ang “ Sekolah Perpust akaan” , j uga akan t erj aring at au t eram bil, padahal konsep “ Perpust akaan Sekolah” dengan “ Sekolah Per pust akaan” m em punyai m akna yang berbeda. Dalam keadaan ini j uga t erj adi false dr ops .5.2.
Ke u n ggu la n da n Ke le m a h a n Kosa Ka t a Te r k on t r olBanyak keunggulan dari penggunaan kosa kat a t erkont rol ( con t r olled v ocabu lar y ) dalam sist em t em u kem bali inform asi, beberapa diant arnya adalah :
(b) Mem punyai represent asi dokum en yang konsist en. Kosa kat a at au ist ilah yang
digunakan dalam pengindeksan dokum en pada saat input sist em adalah kosa kat a y ang t er k ont r ol dan st andar . Oleh k ar ena it u, bila k osa k at a at au ist ilah t er sebut kem udian dij adikan sebagai quer y unt uk pencarian at au penelusuran, m aka sudah past i akan t et ap m ewakili at au m erepresent asikan dokum en yang sam a seper t i pada saat input sist em dilakukan. Misalnya, pada input sist em dok u m e n A dir epr esent asikan oleh kosa kat a at au indeks subj ek “MI CROBI OLOGY ” , pada w ak t u pencarian, seorang penelusur m enggunakan “MI CROBI OLOGY” sebagai query - ny a, m aka penelusur t ersebut past i akan m enem ukan dokum en A karena represent asi dokum ennya t et ap konsist en. Dengan dem ikian selalu t erj adi kesam aan penggunaan ist ilah diant ara pengindeks ( indexer ) dengan penelusur ( sear ch er )(c)
Mem udahkan penelusuran kom prehensif dengan m enyat ukan ist ilah t er k ait secar a sem ant is ( Lancast er , 1977, 2) . Mak sudny a, ada k alany a suat u k osa k at a at au indeks subj ek t ert ent u m em punyai hubungan m akna dengan indeks yang lain, sehingga dapat digunakan unt uk m em perkuat pencarian. Misalnya unt uk m encari dok u m en t en t an g “pengebalan t ubuh m anusia t er hadap penyakit ” , m aka kosa kat a at au indeks subj ek yang dapat dij adikan sebaga quer y ialah “ I MMUNI ZATI ON” , ak an t et api unt uk m enguat kan pencarian penelusur j uga dapat m enggunakan kosa kat a lain sepert i “ VACCI NATI ON” , k ar ena k edua k osa k at a di at as adalah t er k ait secar a sem ant is.(d) Mem iliki am biguit y yang sangat kecil. Am biguit as at au kerancuan dapat dim inim ize
dengan sekecil m ungkin karena kosa kat a dapat m engont rol sinonim dan hom ograf.Selain keunggulan, penggunaan kosa kat a t er k on t r ol (cont r olled v ocabular y ) pada sist em t em u kem bali j uga m em punyai banyak kelem ahan, sebagian diant aranya adalah :
(a)
Kosa kat a t erkont rol harus selalu diperbaharui. Perkem bangan ilm u dan t eknologi m enyebabkan m unculnya berbagai subj ek baru yang seka ligus j uga berdam pak t er hadap pem unculan at au penghilangan suat u ist ilah at au k osa k at a. Oleh k ar ena it u, suat u t aj uk subj ek at au t esaur us pada suat u per iode t er t ent u har us diperbaharui unt uk bisa m enyesuaikan diri sesuai perkem bangan ( Muddam alle, 1998 : 881) . Misalnya, bila kit a m enelusur dengan ist ilah at au kosa kat a “CANCER” sebagai quer y pada indeks DDC edisi ke 19, m aka kit a akan diruj uk dengan kat a see “ TUMORS” . Sekalipun keduanya sem ant is, nam un t erdapat perbedaan. I ni t erj adi karena pada indeks DDC edisi ke 19 subj ek CANCER belum dij abarkan secara lengkap karena m ungkin pada m asa it u ist ilah can cer m asih belum populer. Akan t et api bila dit elusur pada indeks DDC edisi ke 20 dan 21, ist ilah t ersebut t elah dij abarkan secara rinci. Hal it u m enunj ukkan bahwa indeks DDC t er sebut diper bahar ui secar a berkala.(b) Kosa kat a t erkont rol ( cont r olled v ocabular y ) sering dihadapkan kepada
k et idak cocok an (incom pat ibilit y ) ist ilah diant ar a sat u dat abase dengan dat abas e yang lainnya pada bidang ilm u yang sam a ( Lancast er, 1986 : 159) . Misalnya, CAB CD- ROM dan Agr icola CD- ROM adalah dua dat abase yang m em uat indeks dan abst rak penelit ian pada bidang ilm u yang sam a yait u Pert anian. Akan t et api ada kalanya beberapa kosa kat a at au ist ilah yang digunakan unt uk indeks subj ek pada kedua dat abase t ersebut berbeda. Hal ini t ent unya bisa m enyulit kan penelusur bila m elakukan penelusuran pada kedua dat abase t er sebu t .(c)
Kurangnya spesifikasi dalam kosa kat a. Berbeda dengan bahasa alam iah, dim ana penelusur dapat m enggunakan secara bebas kosa k at a y ang spesifik . Ak an t et api pada kosa kat a t erkont roll, spesifikasi ist ilah dit ent ukan oleh ket ersediaannya pada indek s subj ek at au t esaur us.(e)
Kosa kat a t erkont rol m em erlukan biaya dan upaya yang besar pada wakt u input sist em yait u pada saat pengindeksan dilakukan. ( Lancast er , 177 : 7) .5.3.
Pe n de k a t a n pe n e lu su r a n y a n g ide a l.Dengan m enguraikan sej um lah keunggulan dan kelem ahan dalam m elakukan penelusuran m enggunakan pendekat an bahasa alam iah (nat ur al language) dan kosa k at a t er k ont r ol (cont r olled v ocabular y ) sebagai m ana dij elaskan di at as, m aka m ucul pert anyaan, “ pendekat an m anakah yang ideal dilakukan dalam m elakukan penelusuran dalam sist em t em u kem bali inform asi ?“
Unt uk m enj aw ab pert anyaan t ersebut , Manikya Rao Muddam alle ( 1998 : 881-887) m elalui penelit iannya yang berj udul “ Nat ur al Language v er sus Cont r olled Vocabular y in I nfor m at ion Ret r iev al: a Case St udy in Soil Mechanics” , m enyat akan bahwa t em u kem bali bahasa alam iah dan kosa kat a t erkont rol m enunj ukkan hasil yang sangat efek t if, dengan per bedaan at au dengan bat asan y ang sangat t ipis, hasilny a t idak j auh berbeda. Unt uk m encapai t em u kem bali yang opt im um , suat u t eknik t em u kem bali dengan kom binasi bahasa alam iah dan kosa kat a t erkont rol dapat diadopsi.
Teknik penelusuran secara kom binasi ini t elah diuj i, dan dit em ukan hasil bahwa t erdapat penam bahan 5 % hasil t em u kem bali m elebihi at au lebih t inggi dari pada hasil t em u kem bali secara t erpisah. Oleh karena it u, alt ernat if bahasa alam iah at au kosakat a t erkont rol t idak perlu diperlakukan lebih lam a sebagai t eknik t erpisah, akan t et api lebih baik diperlakukan bersam a sebagai suat u t eknik kom binasi yang id eal.
6 . Ke sim p u la n
Bahasa at au k osa k at a ( v ocabu lar y ) m em egang peranan yang sangat pent ing dalam efekt ifit as dan efisiensi penelusuran pada suat u sist em t em u kem bali inform asi Pendekat an bahasa alam iah dan kosa kat a t erkont rol dalam sist em t em u kem bali inform asi berbasis t eks sam a - sam a m em iliki keunggulan dan kelem ahan. Kedua pendekat an t er sebut t et ap m asih efekt if unt uk digunakan. Akan t et api t eknik t em u kem bali dengan m enggunakan kom binasi dari bahasa alam iah dan kosa kat a t erkont rol adalah bent uk pendekat an yang ideal digunakan dalam t em u kem bali inform asi. Dengan dem ikian penelusuran m enggunakan bahasa alam iah at au nat ural language dan kosa k at a t er k ont r ol at au cont r olled v ocabular y t ernyat a saling m elengkapi
Re fe r e n si
Dim it roff, Alexandra. “ Affect iv e Response and Ret r iev al Per for m ance: Analy sis of Cont r ibut ing Fact or s” . Libr ar y and I nfor m at ion Science Resear ch. 18, 1995 : 121- 132.
Hasibuan, Zainal A. “ Kaj ian Sist em Tem u - Kem bali I nform asi: Pergeseran Paradigm a dari Orient asi Teknologi ke Orient asi Pem akai” . Prosiding Sem inar Sehari Layanan Pusdokinfo Ber or ient asi Pem akai di Er a I nfor m asi. Depok, 16 Maret 1996.
Hasibuan, Zainal A.” Pendekat an St rukt ur Dokum en Dalam Sist em Tem u - Kem bali I nform asi” . Kursus Penyegaran dan Penam bah I lm u Perpust akaan Dokum ent asi, dan I nform asi ( KPP Pusdokinfo VI ) di Universit as I ndonesia. Depok, 13- 17
Okt ober 1997
Hildret h, Charles R. “ The Use and Underst anding of Keyw ord Searching in a Universit y Online Cat alog” . I nfor m at ion Technology and Libr ar ies. 1, June 1997 : 52- 62
Korfhage, Rober t R. I nfor m at ion St or age and Ret r iev al, John Wiley & Sons, New York, 1997.
Lan cast er , F. W. I ndexing and Abst r act ing in Theor y and Pr act ise, Libr ar y Associat ion Publishing, London, 1998.
Lan cast er , F. W. Vocabular y Cont r ol in I nfor m at ion Ret r iev al Sy st em : in Adv ances Librarianship , Academ ic Pr ess, New Yor k , 1977
Lan cast er , F. W. Vocabular y Cont r ol for I nfor m at ion Ret r iev al, I nform at ion Resources Press, Arlingt on, Virginia, 1986.
McJunkin, Monika Cahill. “ Precision and Recall in Tit le Keyword Searches” . I nfor m at ion Technology and Libr ar ies, 14 ( 3) , 1995 : 161- 171.
McQuire, April R. ; East m an, Caroline M. “ The Am biguit y of Negat ion in Nat ural Language Queries t o I nform at ion Ret rieval Syst em s” . Jour nal of The Am er ican Societ y for I nfor m at ion Science, 49 ( 8) , 1998 : 686- 692.
Meadow , Char les T. Tex t I nfor m at ion Ret r iev al Sy st em s , Academ ic Pr ess, New Yor k , 1997.
Muddam alle, Manikya Rao. “ Nat ural Language versus Cont rolled Vocabulary in I nform at ion Ret rieval: a Case St udi in Soil Mechanics” . Jour nal of The Am er ican Societ y for I nfor m at ion Science, 49 ( 10) , 1998 : 881- 887.
Pao, Miranda Lee. Concept s of I nfor m at ion Ret r iev al. Libraries Unlim it ed, Englewood, Colorado, 1989.