Penggunaan Bahasa Alamiah dan Kosa Kata Terkendali dalam Sistem Temu Balik Informasi Berbasis Teks

(1)

Penggunaan Bahasa Alamiah dan Kosa Kata Terkendali dalam Sistem

Temu Balik Informasi Berbasis Teks

Jonner Hasugian

Departemen Studi Perpustakaan dan Informasi

Universitas Sumatera Utara

Abstract

Language or vocabularies play important role to support both effectiveness and efficiency searching in text-based information retrieval system. Natural language and controlled vocabulary approach in text-based information retrieval system with both advantages and disadvantages. Both of the approaches remain in use effectively. However the retrieval technique by using combination of natural language and controlled vocabulary is ideal to be used in text-based information retrieval system. Searching by using natural language and controlled vocabulary, in fact, are complementary. Efficiency and effectiveness of text-based information retrieval system can be measured from recall and precision.

Keywords: Information Retrieval System, Indexing, Natural Language, Controlled Vocabulary 1. Pendahuluan

Bahasa dan atau kosa kata (vocabulary) memegang peranan yang sangat penting dalam efektivitas dan efisiensi penelusuran pada suatu sistem temu balik informasi. (Muddamalle, 1998: 881). Kegiatan penelusuran pada sistem temu balik informasi (STBI) bebasis teks hanya dapat berlangsung bila menggunakan kosa kata, sebab kosa kata inilah yang digunakan sebagai istilah berupa query penelusuran untuk menemukan dokumen yang diinginkan. Dalam STBI berbasis teks, kosa kata itu dapat berupa indeks, seperti indeks subjek, pengarang, judul, maupun istilah lain yang dirumuskan dalam tesaurus.

Pada dasarnya ada dua bahasa pendekatan penelusuran yang lazim digunakan dalam STBI berbasis teks yaitu bahasa alami (natural language), dan kosa kata terkendali yang sering juga disebut controlled vocabulary. Kedua pendekatan ini sejak semula telah digunakan secara luas dalam STBI berbasis teks.

Studi tentang efektivitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa kata terkendali (controlled vocabulary) dalam

STBI telah lama dilakukan. Banyak database yang dibangun untuk digunakan sebagai eksperimen sarana penelusuran dalam rangka pembuktian efektivitas dan efisiensi dari kedua pendekatan tersebut.

Muddamalle (1998: 881-883) mencatat bahwa sejarah bahasa alamiah (natural language) kontra kosa kata terkendali (controlled vocabulary) dalam STBI dibagi kepada tiga era. Era pertama dimulai pada abad ke-19 dengan penekanan kepada popularitas pengindeksan istilah berdasarkan judul (title term indexing). Pada era ini kosa kata terkendali atau controlled vocabulary lebih dominan digunakan dalam penelusuran, terutama digunakan untuk menemukan cantuman bibliografi dalam katalog berklasifikasi di perpustakaan. Sedangkan penelusuran berdasarkan bahasa alamiah yang biasa disebut dengan sebutan free-text searching atau penelusuran dengan teks bebas, baru dalam tahap permulaan dilakukan pada era ini.

Era kedua dimulai pada saat kehadiran komputer dalam sistem temu balik informasi. Pada era ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis yaitu berupa pengindeksan otomatis. Kemudian, era ketiga dimulai pada pertengahan tahun 1970-an, di

(2)

mana pendekatan yang berbeda dilakukan untuk menguji isu natural language versus controlled vocabulary, melalui pengujian rasio Recall dan Precision dalam STBI pada berbagai database berbasis teks.

Para ahli informasi terus melakukan berbagai penelitian dan percobaan berkenaan dengan kedua pendekatan tersebut. Hasil yang diperoleh bervariasi antara satu peneliti dan yang lainnya. Beberapa contoh hasil penelitian tersebut dapat dilihat di bawah ini. Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuran pada Chemical Abstracts, untuk menjawab pertanyaan penelitian, Is a controlled vocabulary necessary? Dalam hasil penelitiannya, dia mengemukakan bahwa suatu penelusuran dengan teks bebas bisa seefektif penelusuran menggunakan controlled vocabulary, asalkan dilakukan oleh seseorang yang memiliki pengalaman dalam penelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanya penelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalam kemungkinan mencapai kemudahan.

Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataan penelusuran dengan teks bebas (free-text search statements) yang digunakan dalam mengakses ERIC database untuk mengetahui apakah konsep ekspresi dengan istilah teks bebas atau bahasa alamiah dapat juga diekspresikan dari deskriptor ERIC (ERIC descriptors). Mereka menemukan bahwa salah satu dari setiap delapan pernyataan penelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlled vocabulary. Secara keseluruhan, temu balik informasi secara teks bebas (free-text retrieval) dengan menggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggi dengan ketepatan (precision) yang rendah, dari pada menggunakan pendekatan controlled vocabulary.

Calkins (1980) sesuai sitiran Muddamalle (1998: 881-883), dalam hasil pengamatannya kepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary dan yang hanya menggunakan penelusuran

teks bebas, mengemukakan kesimpulan bahwa penelusuran menggunakan teks bebas dan controlled vocabulary ternyata saling melengkapi, dan penampilan terbaik yang dicapai dalam penelusuran ialah menggunakan kombinasi dari keduanya.

Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihat bahwa efektivitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah atau penelusuran dengan teks bebas (free-text search) ada kalanya lebih baik dari pada kosa kata terkendali, demikian sebaliknya pendekatan menggunakan controlled vocabulary ada kalanya lebih baik dari bahasa alamiah. Mengingat banyaknya penelitian dan eksperimen yang telah dilakukan untuk menguji kedua pendekatan tersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telah banyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahas secara teoretis melalui tinjauan literatur.

Sasaran utama yang akan dicapai dalam tulisan ini ialah mengetahui sejumlah keunggulan dan kelemahan penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa kata terkendali (controlled vocabulary). Kemudian akan direkomendasikan pendekatan mana yang ideal digunakan dalam sistem temu balik informasi berbasis teks. Akan tetapi sebelum pembahasan itu dilakukan, terlebih dahulu akan dibahas beberapa hal yang menyangkut dengan STBI berbasis teks antara lain mencakup pengertian dan fasilitas STBI berbasis teks, keefektifan STBI berbasis teks, serta pengindeksan dan bahasa indeks dalam STBI.

2. Pengertian, dan Fasilitas STBI Berbasis Teks

Pada dasarnya sistem temu balik informasi adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieve) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas pemintaan informasi. Pengertian lain menyatakan bahwa sistem temu balik informasi adalah proses yang berhubungan dengan representasi, penyimpanan, pencarian

(3)

dengan pemanggilan informasi yang relevan dengan kebutuhan informasi yang diinginkan pengguna (Ingwerson, 1992: 49). Pendapat ini menunjukkan bahwa pada sistem temu balik informasi terkandung sejumlah kegiatan yang meliputi proses penyimpanan, penyediaan representasi, identifikasi serta pencarian atau penelusuran dokumen yang relevan pada suatu database, dalam rangka memenuhi kebutuhan informasi pengguna. Dari sekian banyak STBI yang ada, salah satu di antaranya adalah STBI berbasis teks atau tekstual.

STBI tekstual adalah salah satu dari berbagai sistem yang mengelola penyimpanan teks secara terkomputerisasi, kemudian prosedur untuk temu balik informasinya (Rowley, 1987: 1). Dalam STBI tekstual, fokus utama ialah terletak pada penyimpanan dan temu balik informasi teks yang telah disimpan sebelumnya, dan bukan data numerik, tabulasi, data grafis, dan sebagainya. Tetapi dalam kenyataannya, dokumen-dokumen yang ada saat ini jarang yang hanya terdiri dari informasi berbasis teks semata, melainkan dokumen yang berisi informasi yang berupa gabungan dari numerik, tabel, grafis, image dengan informasi yang berupa teks.

Umumnya STBI tekstual didesain untuk memberi suatu kawasan titik akses (access points) kepada suatu database dari informasi yang relatif tidak terstruktur, yang lazim dikenal dengan sebutan teks bebas. Oleh karena itu, kegiatan free-text search dapat dilakukan dengan menggunakan bahasa alamiah (natural language) dari dokumen yang berbentuk teks yang tersimpan dalam suatu database. Keadaan ini sangat menolong pengguna awam yang tidak mampu menelusur dengan menggunakan bahasa indeks (controlled language) yang dibuat oleh indekser, seperti halnya tesaurus atau tajuk subjek tertentu.

Teskey (1984) dalam suntingan Rowlands mengidentifikasikan ada empat fungsi yang paling penting, yang bisa terbukti dalam segala STBI tekstual yang baik, yaitu bahwa suatu STBI tekstual yang baik, seharusnya dapat untuk: (a) menerima dan menyusun berbagai teks dari berbagai sumber; (b)

menetapkan penyimpanan yang sesuai untuk semua teks, (c) mendapatkan/memperoleh informasi yang spesifik dari teks yang tersimpan dalam merespons queries yang diberikan, (d) memproses teks yang didapatkan, dan menyajikannya kepada pengguna dalam format yang dapat diterima (acceptable).

Suatu STBI berbasis teks, secara normal karakteristiknya dilihat dari fasilitas temu balik yang dimilikinya. Seringkali suatu STBI tidak dapat menelusur informasi melalui field-field tertentu, karena keterbatasan fasilitas yang dimilikinya. Oleh karena itu fasilitas penelusuran yang ditawarkan dalam suatu STBI adalah merupakan salah satu unsur yang paling penting dalam memilih paket-paket database informasi berbasis teks.

Secara umum bahwa suatu STBI tekstual memiliki sejumlah fasilitas yang dapat digunakan untuk query atau bahasa perintah (query or command language); formulasi query dengan Boolean (Boolean query formulation); pemurnian penelusuran (search refinement); pemendekan/pemotongan dan penelusuran rentetan teks (truncation and text string searching); daftar kata yang tidak dipakai dalam penelusuran (stop list or common word list); tesaurus/pendukung perbendaharaan kosa kata (thesaurus/ vocabulary support); kedekatan penelusuran (proximity searching); pembatasan penelusuran dengan ruas (limiting searching by field); dan penelusuran kawasan numerik (numeric range searching) (Rowlands, 1987: 7-8). Sejumlah fasilitas yang disebutkan di atas sangat diperlukan untuk melakukan penelusuran pada suatu database yang berbasis teks. Kelengkapan fasilitas ini tentu sangat mempengaruhi keefektifan STBI yang tentu akan berdampak kepada tingkat ketepatan (precision) dalam penelusuran.

3. Efektivitas STBI Berbasis Teks

Pesatnya kemajuan teknologi informasi khususnya komputer disertai dengan dukungan kecanggihan perangkat lunak (software) mengakibatkan pengelola informasi mampu menata, menyimpan sejumlah besar informasi dan menyediakan akses terhadap

(4)

informasi tersebut dengan cepat dan tepat. Kemajuan itu sangat berpengaruh kepada perkembangan STBI (information retrieval system). Keakuratan dan kecepatan dari suatu STBI sangat diharpakan dalam upaya memenuhi kebutuhan pengguna untuk memperoleh informasi yang diinginkannya. Efektivitas dari suatu STBI adalah kemampuan dari sistem itu untuk memanggil berbagai dokumen dari suatu database sesuai dengan permintaan pengguna. Efektivitas dari STBI tersebut dapat diukur. Ada dua hal penting yang biasanya digunakan dalam mengukur kemampuan suatu STBI yaitu rasio atau perbandingan dari perolehan (recall), dan ketepatan (precicion) (Lee Pao, 1989: 225). Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggil dokumen yang relevan dengan query, sedangkan ketepatan (precision) berkaitan dengan kemampuan sistem untuk tidak memanggil dokumen yang tidak relevan dengan kebutuhan pengguna. Dokumen terpanggil (recall) yang relevan dengan query pengguna belum tentu relevan dengan kebutuhan pengguna.

Rasio dari tingkat perolehan (recall) dan ketepatan (precision) yang dicapai dalam kegiatan penelusuran dapat diungkapkan sebagai berikut:

Rasio dari recall sebenarnya sulit diukur karena jumlah seluruh dokumen yang relevan dalam database sangat besar dan tidak diketahui. Oleh karena itu, presisi-lah (precision) yang menjadi salah satu ukuran yang digunakan untuk menilai keefektifan suatu STBI. Untuk memudahkan pemahaman akan kedua rasio tersebut, berikut dikemukakan sebuah contoh soal dan perhitungan penentuan recall dan precision.

Andaikan suatu file dalm database menyimpan 100 dokumen. Pada suatu penelusuran menggunakan query “Chemical Industry”, ternyata diperkirakan ada 10 dokumen yang mungkin dapat terambil (retrieved) menggunakan query tersebut, akan tetapi dalam kenyataannya setelah dilakukan penelusuran hanya 4 dokumen yang terambil dalam pencarian sedangkan 6 dokumen lain tidak terambil karena mungkin kurang/tidak relevan. Kemudian diketahui bahwa ada 2 dokumen lain dalam file dabase diketahui relevan kepada query akan tetapi tidak terambil (not retrieved). Untuk menghitung rasio recall dan precision dari seperti disebut pada soal di atas, sering digunakan tabel berikut:

Tabel Perhitungan Recall dan Precision

Relevant Not Relevant Total Retrieved 4 (a) 6 (b) 10 Not Retrieved 2 (c) 88 (d) 90 Total 6 94 100

Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan dengan mengacu kepada kepada rasio yang telah dikemukakan sebelumnya. Untuk menghitung rasio recall, terlebih dahulu kita tentukan jumlah dokumen relevan yang terambil, berdasarkan data pada tabel yaitu a, sedangkan Jumlah dokumen relevan yang ada dalam database adalah a + c. Dengan demikian rasio recall (R) tersebut dapat dinyatakan sebagai berikut:

a R = --- a + c 4 = --- 4 + 2 = 0,66

Selanjutnya untuk menghitung precision, hal yang sama pada penghitungan recall diberlakukan yaitu jumlah dokumen relevan yang terambil adalah a, sedangkan Jumlah dokumen yang terambil dalam pencarian

(5)

adalah a + b. Dengan demikian rasio precision (P) dapat dinyatakan sebagai berikut:

a Precision = --- a + b 4 = --- 4 + 6 = 0,40

Kondisi ideal dari keefektifan suatu sistem temu kembali informasi adalah apabila rasio recall dan precision sama besarnya (1 : 1) (Lee Pao, 1989: 229). Selain itu, suatu sistem temu kembali dinyatakan efektif apabila hasil penelusuran mampu menunjukkan ketepatan (precision) yang tinggi sekalipun perolehannya rendah (Rowley, 1992: 172).

4. Pengindeksan dan Bahasa Indeks dalam STBI

Salah satu faktor yang berpengaruh terhadap STBI ialah pengindeksan dokumen. Pengindeksan (indexing) mencakup proses pencatatan ciri-ciri dokumen, analisis isi, klasifikasi maupun pembuatan entri ke dalam bahasa indeks. Tujuan pengindeksan ialah untuk memungkinkan ditemukannya dokumen yang relevan dengan pertanyaan (query) dengan tepat.

Kegiatan pengideksan akan menghasilkan indeks. Meadow (1992: 69-70) mengemukakan bahwa indeks adalah merupakan cantuman dari bermacam-macam atribut yang diharapkan dapat digunakan sebagai dasar pencarian dokumen. Jika atribut tersebut berupa subjek, maka indeks yang mewakilinya disebut sebagai indeks subjek. Sedangkan bila atribut tersebut berupa pengarang, maka indeks yang mewakilinya disebut sebagai indeks pengarang. Umumnya kegiatan pengindeksan adalah berupa pengindeksan subjek, namun dalam kenyataannya di perpustakaan indeks subjek dan pengarang sama-sama digunakan dalam STBI.

Indeks di perpustakaan berfungsi sebagai sarana untuk menunjukkan kepada penelusur

dokumen-dokumen yang potensial relevan dengan permintaannya. Sarana itu sering disebut sebagai wakil dari dokumen yang dimiliki, yaitu berupa katalog perpustakaan. Dengan demikian, fungsi indeks pada database maupun perpustakaan pada prinsipnya adalah sama yaitu sebagai sarana temu balik.

Tujuan utama pengindeksan ialah untuk membentuk representasi dari dokumen dalam bentuk yang sesuai untuk dicantuman dalam berbagai tipe database (Lancaster, 1998: 1). Indeks sebagai representasi dari dokumen diharapkan dapat menggambarkan isi atau subjek yang terkandung di dalam dokumen tersebut, sehingga dapat ditemukan kembali melalui istilah (index term) yang digunakan. Pada dasarnya ada dua jenis bahasa indeks yaitu bahasa alamiah (natural language) dan kosa kata terkendali (controlled vocabulary). Bahasa alamiah adalah bahasa dari dokumen yang diindeks. Biasanya bahasa tersebut merupakan bahasa yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini umum digunakan dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang (Lancaster, 1986: 159). Sedangkan kosa kata terkendali dapat berupa indeks subjek, pengarang, judul maupun dalam tesaurus.

Ditinjau dari sisi STBI, tesaurus adalah suatu daftar pengendali (authority list) dari istilah-istilah khusus yang digunakan dalam STBI tertentu. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah sarana pengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen ke bahasa yang terkendali. Tesaurus berisi sejumlah istilah indeks dengan menggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa terkendali (controlled language). Tujuan utama tesaurus adalah juga untuk memudahkan temu kembali dokumen, dan juga untuk mencapai konsistensi dalam pengindeksan dokumen pada STBI.

Dalam pengindeksan kosa kata terkendali seperti tesaurus, istilah yang digunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukan dalam suatu daftar

(6)

indeks yang disusun secara alfabetis, misalnya dalam Sears List of Subject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus, DDC Index, dan sebagainya. Sedangkan dalam pengindeksan bahasa alamiah, pengindeksan dilakukan pada semua istilah baik dari judul, abstrak, maupun dari teks lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yang tidak digunakan dalam penelusuran (Rowley, 1992: 272). Semua istilah indeks yang dihasilkan adalah bergantung kepada bahasa dokumen itu sendiri, dan semuanya itu dapat merupakan representasi dari dokumen itu. Mengingat volume pengindeksan dalam bahasa alamiah ini sangat besar, maka pengindeksan ini biasanya dilakukan oleh komputer.

Bahasa alamiah dan kosa kata terkendali adalah dua bahasa hasil dari pengindeksan yang sama-sama dapat dipergunakan sebagai representasi dokumen. Kedua bahasa pengindeksan tersebut digunakan pada waktu pemasukan (input) data ke dalam database, dan akan digunakan juga pada waktu pencarian/penelusuran (output) informasi dari database. Pertanyaan, yang manakah di antara keduanya yang paling baik digunakan dalam pencarian/penelusuran informasi pada suatu database?

5. Bahasa Alamiah versus Kosa Kata Terkendali dalam STBI

5.1.

Keunggulan dan Kelemahan Bahasa Alamiah

Keungulan maupun kelemahan bahasa alamiah dalam STBI sangat bervariasi dan kompleks. Banyak faktor yang mungkin dapat mempengaruhinya. Banyak keunggulan dari penggunaan bahasa alamiah dalam penelusuran informasi, beberapa di antaranya adalah:

(a) Bahasa alamiah dapat dengan mudah

dimengerti oleh pengguna tanpa harus memerlukan pelatihan khusus, dan berbagai nuansa makna dapat diekspresikan dengan lebih leluasa (Meadow, 1992: 37-38). Maksudnya, dengan kekayaan perbendaharaan kosa kata, memungkinkan penelusur mengekspresikan gagasan,

perasaan dan keinginannya dengan berbagai cara dan nuansa untuk mendapatkan dokumen yang diinginkannya.

(b) Bahasa alamiah memiliki spesifikasi

(specification) yang tinggi (Lancaster, 1977: 23). Spesifikasi istilah ini muncul karena dapat menggunakan seluruh istilah yang terdapat dalam dokumen sebagai query. Spesifikasi istilah memudahkan pencarian untuk mendapatkan ketepatan (precision) yang tinggi. Semakin tinggi spesifikasi istilah yang digunakan dalam penelusuran akan semakin tinggi ketepatan (precision), sedangkan perolehan (recall) akan semakin rendah. Sebaliknya bila spesifikasi istilah rendah, maka perolehan (recall) akan semakin tinggi, sedangkan ketepatan (precision) cenderung rendah. Misalnya, bila kita menggunakan istilah “LINGUISTICS” untuk mencari dokumen yang memuat penelitian tentang logat

bahasa pada suatu database, maka jumlah

perolehan (recall) pasti akan tinggi, sedangkan ketepatan (precision) akan rendah, karena istilah “LINGUISTICS” adalah istilah umum dalam ilmu bahasa, dengan demikian spesifikasi yang dirumuskan rendah. Akan tetapi bila kita menggunakan istilah “DIALECT”, maka jumlah perolehan (recall) akan rendah, sedangkan ketepatan (precision) tinggi, karena istilah “DIALECT” adalah istilah khusus, yang berarti spesifikasinya tinggi.

(c) Bahasa alamiah memiliki kedalaman

(exhaustivity) yang tinggi (Foskett, 1985: 114). Artinya, banyak tema atau subjek baru yang dihasilkan dokumen yang dapat dijadikan sebagai istilah baru dalam penelusuran. Karena, pada prinsipnya bahwa semua kata terkecuali stop word dapat dijadikan sebagai keyword dalam penelusuran.

(d) Penelusur yang merupakan praktisi dalam

bidangnya dapat melakukan penelusuran dengan bahasa alamiah dengan lebih efektif.

Selain memiliki sejumlah keunggulan, bahasa alamiah juga memiliki berbagai kelemahan, beberapa di antaranya adalah:

(a) Bahasa alamiah tidak atau kurang ringkas

(lack of conciseness) (Meadow, 1992: 38).

(7)

Query yang digunakan penelusur sering berupa kata atau istilah berbeda atau tidak standar sehingga sering terjadi kehilangan informasi saat penelusuran. Misalnya, seorang penelusur ingin mendapatkan dokumen tentang proses yang dialami

seseorang untuk menjadi semakin tua.

Lalu dia menggunakan query “PROSES MAKIN TUA”. Dengan query itu, mungkin penelusur tersebut pasti mendapatkan perolehan (recall) dokumen, akan tetapi ketepatannya (precsion) dengan kebutuhan tidak ada, karena dokumen yang berisi istilah itu tidak ada. Akan tetapi bila penelusur itu menggunakan istilah indeks subjek “PENUAAN” sebagai query, mungkin akan dia peroleh (recall) sejumlah dokumen yang ketepatannya (precision) sangat tinggi, yang berarti sangat sesuai dengan yang diinginkannya. Kesalahan yang terjadi sebenarnya terletak pada penyusunan atau pemilihan istilah yang tepat sebagai query.

(b) Mempunyai ambiguitas (ambiguity) yang

tinggi (Meadaw, 1992: 37). Muddamalle (1998: 881) menyebut bahwa …”natural language is full of ambiguities”. Ambiguitas adalah kata atau istilah yang dapat memiliki lebih dari satu arti sehingga mengakibatkan kerancuan. Ambiguitas dapat terjadi karena sinonim atau homograf. Sinonim yaitu bentuk kata yang berbeda tetapi artinya sama, dapat menyebabkan terpencarnya informasi mengenai topik yang sama, misalnya, kata sado, dokar, delman. Homograf yaitu kata-kata yang ejaannya sama tetapi maknanya berbeda, misalnya raut artinya meruncingkan, menghaluskan; akan tetapi raut dapat juga artinya tampang, potongan. Sinonim dan homograf dapat mengakibatkan false drops yaitu terjaringnya dokumen yang sama sekali tidak relevan, atau subjek yang tidak relevan ikut terjaring atau terambil dalam proses temu balik.

(c) Kesulitan komputer untuk menginterpretasikan

teks (Meadow, 1992: 37). Kelemahan ini terjadi karena ketidakmampuan sistem menyerap atau menangkap makna dari suatu pernyataan. Hal ini terjadi karena dalam memroses bahasa alami, komputer

tidak bisa bekerja sebagaimana otak manusia, terkecuali komputer tersebut dilengkapi dengan suatu knowledge base. Misalnya, seseorang ingin mencari dokumen tentang “Perpustakaan Sekolah” pada suatu database, maka ia akan menggunakan query Perpustakaan AND Sekolah, akan tetapi dalam pencariannya dokumen-dokumen tentang “Sekolah Perpustakaan” juga akan terjaring atau terambil, padahal konsep “Perpustakaan Sekolah” dengan “Sekolah Perpustakaan” mempunyai makna yang berbeda. Dalam keadaan ini juga terjadi false drops.

5.2.

Keunggulan dan Kelemahan Kosa Kata Terkendali

Banyak keunggulan dari penggunaan kosa kata terkendali (controlled vocabulary) dalam sistem temu kembali informasi, beberapa di antaranya adalah:

(a) Proses penelusuran dan temu balik

informasi lebih efisien (Korfhage, 1997: 24). Artinya, dengan menggunakan kosa kata terkendali seperti indeks subjek atau tesaurus dalam penelusuran, maka ketepatan dari dokumen yang terambil dengan kebutuhan pengguna dapat diperoleh dalam waktu yang relatif singkat.

(b) Mempunyai representasi dokumen yang

konsisten. Kosa kata atau istilah yang digunakan dalam pengindeksan dokumen pada saat input ke sistem adalah kosa kata yang terkendali dan standar. Oleh karena itu, bila kosa kata atau istilah tersebut kemudian dijadikan sebagai query untuk pencarian atau penelusuran, maka sudah pasti akan tetap mewakili atau merepresentasikan dokumen yang sama seperti pada saat input sistem dilakukan. Misalnya, pada input sistem dokumen A direpresentasikan oleh kosa kata atau indeks subjek “MICROBIOLOGY”, pada waktu pencarian seorang penelusur menggunakan “MICROBIOLOGY” sebagai query-nya, maka penelusur tersebut pasti akan menemukan dokumen A karena representasi dokumennya tetap konsisten. Dengan demikian selalu terjadi kesamaan penggunaan istilah di antara pengindeks (indexer) dengan penelusur (searcher).

(8)

(c) Memudahkan penelusuran komprehensif

dengan menyatukan istilah terkait secara semantis (Lancaster, 1977: 2). Maksudnya, ada kalanya suatu kosa kata atau indeks subjek tertentu mempunyai hubungan makna dengan indeks yang lain, sehingga dapat digunakan untuk memperkuat pencarian. Misalnya untuk mencari dokumen tentang “pengebalan tubuh manusia terhadap penyakit”, maka kosa kata atau indeks subjek yang dapat dijadikan sebagai query ialah “IMMUNIZATION”, akan tetapi untuk menguatkan pencarian penelusur juga dapat menggunakan kosa kata lain seperti “VACCINATION”, karena kedua kosa kata di atas adalah terkait secara semantis.

(d) Memiliki ambiguity yang sangat kecil.

Ambiguitas atau kerancuan dapat dikurangi sekecil mungkin karena kosa kata dapat mengontrol sinonim dan homograf.

Selain keunggulan, penggunaan kosa kata terkendali (controlled vocabulary) pada STBI juga mempunyai banyak kelemahan, sebagian di antaranya adalah:

(a) Kosa kata terkendali harus selalu

diperbaharui. Perkembangan ilmu dan teknologi menyebabkan munculnya berbagai subjek baru yang sekaligus juga berdampak terhadap pemunculan atau penghilangan suatu istilah atau kosa kata. Oleh karena itu, suatu tajuk subjek atau tesaurus pada suatu periode tertentu harus diperbaharui untuk bisa menyesuaikan diri sesuai perkembangan (Muddamalle, 1998: 881). Misalnya, bila kita menelusur dengan istilah atau kosa kata “CANCER” sebagai query pada indeks DDC edisi ke-19, maka kita akan dirujuk dengan kata see “TUMORS”. Sekalipun keduanya semantis, namun terdapat perbedaan. Ini terjadi karena pada indeks DDC edisi ke-19 subjek CANCER belum dijabarkan secara lengkap karena mungkin pada masa itu istilah cancer masih belum populer. Akan tetapi bila ditelusur pada indeks DDC edisi ke-20 dan 21, istilah tersebut telah dijabarkan secara rinci. Hal itu menunjukkan bahwa indeks DDC tersebut diperbaharui secara berkala.

(b) Kosa kata terkendali (controlled

vocabulary) sering dihadapkan kepada ketidak-cocokan (incompatibility) istilah di antara satu database dengan database lainnya pada bidang ilmu yang sama (Lancaster, 1986: 159). Misalnya, CAB CD-ROM dan Agricola CD-ROM adalah dua database yang memuat indeks dan abstrak penelitian pada bidang ilmu yang sama yaitu pertanian (agriculture). Akan tetapi ada kalanya beberapa kosa kata atau istilah yang digunakan untuk indeks subjek pada kedua database tersebut berbeda. Hal ini tentunya bisa menyulitkan penelusur bila melakukan penelusuran pada kedua database tersebut.

(c) Kurangnya spesifikasi dalam kosa kata.

Berbeda dengan bahasa alamiah, di mana penelusur dapat menggunakan secara bebas kosa kata yang spesifik. Akan tetapi pada kosa kata terkendali, spesifikasi istilah ditentukan oleh ketersediaannya pada indeks subjek atau tesaurus.

(d) Kosa kata terkendali memiliki struktur

yang tidak lengkap. Artinya rincian subjek adalah sangat terbatas untuk pencarian atau penelusuran komprehensif.

(e) Kosa kata terkendali memerlukan biaya

dan upaya yang besar pada waktu input sistem yaitu pada saat pengindeksan dilakukan (Lancaster, 177: 7).

5.3.

Pendekatan Penelusuran yang Ideal

Dengan menguraikan sejumlah keunggulan dan kelemahan dalam melakukan penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa kata terkendali (controlled vocabulary) sebagai mana dijelaskan di atas, maka mucul pertanyaan, “Pendekatan manakah yang ideal dilakukan dalam melakukan penelusuran dalam sistem temu kembali informasi?”

Untuk menjawab pertanyaan tersebut, Muddamalle (1998: 881-887) melalui penelitiannya yang berjudul “Natural Language versus Controlled Vocabulary in Information Retrieval: a Case Study in Soil Mechanics”, menyatakan bahwa temu balik informasi dengan bahasa alamiah dan kosa kata terkendali menunjukkan hasil yang

(9)

sangat efektif, dengan perbedaan atau dengan batasan yang sangat tipis, hasilnya tidak jauh berbeda. Untuk mencapai temu balik informasi yang optimal, suatu teknik temu balik informasi dengan kombinasi bahasa alamiah dan kosa kata terkendali dapat diadopsi.

Hasil penelitian tersebut juga menyatakan bahwa teknik penelusuran dengan secara kombinasi yaitu menggunakan bahasa alamiah dan kosa kata terkendali menunjukkan hasil yang lebih baik dari pada penelusuran dengan cara terpisah. Hasil uji coba menunjukkan bahwa terdapat 5% lebih tinggi tingkat ketepatan hasil temu balik informasi menggunakan cara kombinasi dari pada hasil penelusuran dengan cara terpisah. Oleh karena itu, alternatif bahasa alamiah atau kosa kata terkendali tidak perlu diperlakukan lebih lama sebagai teknik terpisah, akan tetapi lebih baik diperlakukan bersama sebagai suatu teknik kombinasi yang ideal.

6. Kesimpulan

Bahasa atau kosa kata (vocabulary) memegang peranan yang sangat penting dalam efektivitas dan efisiensi penelusuran pada suatu STBI berbasis teks. Pendekatan bahasa alamiah dan kosa kata terkendali dalam STBI berbasis teks sama-sama memiliki keunggulan dan kelemahan. Kedua pendekatan tersebut tetap masih efektif untuk digunakan. Akan tetapi teknik temu balik dengan menggunakan kombinasi dari bahasa alamiah dan kosa kata terkendali adalah bentuk pendekatan yang ideal digunakan dalam temu balik informasi. Penelusuran menggunakan bahasa alamiah atau natural language dan kosa kata terkendali atau controlled vocabulary ternyata saling melengkapi.

Rujukan

Dimitroff, A. (1995). “Affective Response and Retrieval Performance: Analysis of Contributing Factors”. Library and

Information Science Research. 18: 121-132.

Frants, Valery I. (1997). Automated Information Retrieval: Theory and Methods. New York: Academic Press. Hasibuan, Zainal A. (1996). “Kajian Sistem

Temu-Kembali Informasi: Pergeseran Paradigma dari Orientasi Teknologi ke Orientasi Pemakai”. Prosiding Seminar Sehari Layanan Pusdokinfo Berorientasi

Pemakai di Era Informasi. Depok, 16 Maret 1996.

Korfhage, Robert R. (1997). Information Storage and Retrieval. New York: John Wiley and Sons.

Lancaster, F.W. (1998). Indexing and Abstracting in Theory and Practise. London: Library Association Publishing. Lancaster, F.W. (1977). Vocabulary Control

in Information Retrieval System: in Advances Librarianship. New York: Academic Press.

Lancaster, F.W. (1986). Vocabulary Control for Information Retrieval. Arlington, Virginia: Information Resources Press. McQuire, April R.; Eastman, Caroline M.

(1998) “The Ambiguity of Negation in Natural Language Queries to Information Retrieval Systems”. Journal of The American Society for information Science. 49 (8): 686-692.

Meadow, Charles T. (1997). Text Information Retrieval Systems. New York: Academic Press.

Muddamalle, Manikya Rao. (1998). “Natural Language versus Controlled Vocabulary in Information Retrieval: a Case Studi in Soil Mechanics”. Journal of The American Society for Information Science. 49 (10): 881-887.

Pao, Miranda Lee. (1988). Concepts of Information Retrieval. Englewood, Colorado: Libraries Unlimited.