• Tidak ada hasil yang ditemukan

PENGGUNAAN BAHASA ALAMIAH DAN KOSA KATA TERKONTROL DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS TEKS

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENGGUNAAN BAHASA ALAMIAH DAN KOSA KATA TERKONTROL DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS TEKS"

Copied!
10
0
0

Teks penuh

(1)

PENGGUNAAN BAHASA ALAMIAH DAN KOSA KATA TERKONTROL DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS TEKS

JONNER HASUGIAN

Staf Pengajar pada Program Studi Ilmu Perpustakaan Fakultas Sastra USU 1. Pendahuluan

Bahasa dan atau kosa kata (vocabulary) memegang peranan yang sangat penting dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali informasi. (Muddamalle, 1998 : 881). Kegiatan penelusuran hanya dapat berlangsung bila menggunakan kosa kata, sebab kosa kata inilah yang digunakan sebagai alat (tools) penelusuran untuk menemukan dokumen yang diinginkan. Dalam sistem temu kembali informasi, kosa kata itu disebut dengan indeks, yang dapat berupa indeks subjek, pengarang, judul, maupun tesaurus.

Pada dasarnya ada dua pendekatan penelusuran yang lajim digunakan dalam sistem temu kembali informasi yaitu bahasa alami (natural language), dan kosa kata terkontrol yang sering juga disebut controlled vocabulary. Kedua pendekatan ini sejak semula telah digunakan secara luas dalam sistem temu kembali informasi.

Studi tentang efektifitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa kata terkontrol (controlled vocabulary) dalam sistem temu kembali informasi telah lama dilakukan. Banyak database yang telah dibangun untuk digunakan sebagai sarana penelusuran eksperimen dalam rangka pembuktian efektifitas dan efisiensi dari kedua pendekatan tersebut.

Muddamalle (1998 : 881-883) mencatat bahwa sejarah bahasa alamiah (natural language) kontra kosa kata terkontrol (controlled vocabulary) dalam sistem temu kembali informasi dibagi kepada tiga era. Era pertama dimulai pada abad ke-19 dengan penekanan kepada popularitas pengindeksan istilah berdasarkan judul (title term indexing). Pada era ini kosa kata terkontrol atau controlled vocabulary lebih dominan digunakan dalam penelusuran, terutama digunakan untuk menemukan cantuman bibliografi dalam katalog berklasifikasi di perpustakaan. Sedangkan penelusuran berdasarkan bahasa alamiah yang biasa disebut dengan sebutan free-text searching atau penelusuran dengan teks bebas, baru dalam tahap permulaan dilakukan pada era ini.

Era kedua dimulai pada saat kehadiran komputer dalam sistem temu kembali informasi. Pada era ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis. Kemudian, era ketiga dimulai pada pertengahan tahun 1970-an, dimana pendekatan yang berbeda dilakukan untuk menguji isu natural language versus controlled vocabulary, melalui pengujian rasio Recall dan Precision dalam sistem temu kembali informasi pada berbagai database berbasis teks.

Para ahli informasi terus melakukan berbagai penelitian dan percobaan berkenaan dengan kedua pendekatan tersebut. Hasil yang diperoleh bervariasi antara satu peneliti dan yang lainnya. Beberapa contoh hasil penelitian tersebut dapat dilihat di bawah ini.

Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuran pada Chemical Abstracts, untuk menjawab pertanyaan penelitian, Is a controlled vocabulary necessary ?. Dalam hasil penelitiannya, dia mengemukakan bahwa suatu penelusuran dengan teks bebas bisa seefektif penelusuran menggunakan controlled vocabulary, asalkan dilakukan oleh seseorang yang memiliki pengalaman dalam penelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanya penelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalam kemungkinan mencapai kemudahan.

Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataan penelusuran dengan teks bebas (free-text search statements) yang digunakan dalam

(2)

mengakses ERIC database untuk mengetahui apakah konsep ekspresi dengan istilah teks bebas atau bahasa alamiah dapat juga diekspresikan dari deskriptor ERIC (ERIC descriptors). Mereka menemukan bahwa salah satu dari setiap delapan pernyataan penelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlled vocabulary. Secara keseluruhan, temu kembali teks bebas (free-text retrieval) dengan menggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggi dengan ketepatan (precision) yang rendah, dari pada menggunakan pendekatan controlled vocabulary.

Calkins (1980) sesuai kutipan Muddammalle, dalam hasil pengamatannya kepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary dan yang hanya menggunakan penelusuran teks bebas, mengemukakan kesimpulan bahwa penelusuran menggunakan teks bebas dan controlled vocabulary ternyata saling melengkapi, dan penampilan terbaik yang dicapai dalam penelusuran ialah menggunakan kombinasi dari keduanya.

Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihat bahwa efektifitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah atau penelusuran dengan teks bebas (free-text search) ada kalanya lebih baik dari pada kosa kata terkontrol, demikian sebaliknya pendekatan menggunakan controlled vocabulary ada kalanya lebih baik dari bahasa alamiah. Mengingat banyaknya penelitian dan eksperimen yang telah dilakukan untuk menguji kedua pendekatan tersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telah banyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahas secara teoritis melalui tinjauan literatur.

Sasaran utama yang akan dicapai dalam tulisan ini ialah mengetahui sejumlah keunggulan dan kelemahan penelusuran menggunakan pendekatan bahasa alamiah (natural languages) dan kosa kata terkontrol (controlled vocabulary). Kemudian akan direkomendasikan pendekatan mana yang ideal digunakan dalam sistem temu kembali informasi berbasis teks. Akan tetapi sebelum pembahasan itu dilakukan, terlebih dahulu akan dibahas beberapa hal yang menyangkut dengan sistem temu kembali informasi berbasis teks antara lain, Pengertian dan Fasilitas Sistem Temu Kembali Informasi Berbasis Teks, Keefektifan Sistem Temu Kembali Informasi Berbasis Teks, serta Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi.

2. Pengertian, dan Fasilitas Sistem Temu Kembali Informasi Berbasis Teks Pada dasarnya sistem temu kembali informasi adalah suatu proses untuk mengidentifikasi, kemudian mema nggil (retrieve) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas pemintaan informasi. Pengertian lain menyatakan bahwa sistem temu kembali informasi adalah proses yang berhubungan dengan representasi, penyimpanan, pencarian dengan pemanggilan informasi yang relevan dengan kebutuhan informasi yang diinginkan pengguna. (Ingwerson, 1992 : 49). Pendapat ini menunjukan bahwa pada sistem temu kembali informasi terkandung sejumlah kegiatan yang meliputi proses penyimpanan, penyediaan representasi, identifikasi serta pencarian atau penelusuran dokumen yang relevan pada suatu database, dalam rangka memenuhi kebutuhan informasi dari pengguna. Dari sekian banyak sistem temu kembali yang ada,salah satu diantaranyya adalah sistem temu kembali informasi berbasis teks atau tekstual.

Sitem temu kembali tekstual adalah salah satu dari berbagai sistem yang mengelola penyimpanan teks secara terkomputerisasi, kemudian temu kembali informasinya. (Rowley, 1987 : 1). Dalam sistem temu kembali tekstual, fokus utama ialah terletak pada penyimpanan dan temu kembali informasi berbasis teks, dan bukan data numerik, tabulasi, atau data grafis semata. Tetapi dalam kenyataannya , dokumen-dokumen yang ada saat ini jarang yang hanya terdiri dari informasi berbasis teks semata, melainkan dokumen yang berupa gabungan dari numerik, tabel, grafis, image dan sebagainya dengan teks.

(3)

Umumnya sitem temu kembali tekstual didesain untuk memberi suatu kawasan titik akses (access points) kepada suatu database dari informasi yang relatif tidak terstruktur, yang lajim dikenal dengan sebutan teks bebas. Oleh karena itu, kegiatan free-text search dapat dilakukan dengan menggunakan bahasa alamiah (natural language) dari dokumen yang berbentuk teks yang tersimpan dalam suatu database. Keadaan ini sangat menolong pengguna awam yang tidak mampu menelusur dengan menggunakan bahasa indeks (controlled language) yang dibuat oleh indekser, seperti halnya tesaurus atau tajuk subyek tertentu.

Teskey (1984) dalam suntingan Rowlands mengidentifikasikan ada empat fungsi yang paling penting, yang bisa terbukti dalam segala jenis sistem temu kembali informasi tekstual yang baik, yaitu bahwa suatu sistem temu kembali informasi tekstual yang baik, seharusnya dapat untuk: (a) menerima dan menyusun berbagai teks dari berbagai sumber; (b) menetapkan penyimpanan yang sesuai untuk semua teks, (c) mendapatkan/memperoleh informasi yang spesifik dari teks yang tersimpan dalam merespon queries yang diberikan; (c) memproses teks yang didapatkan, dan menyajikannya kepada pengguna dalam format yang dapat diterima (acceptable).

Suatu sistem temu kembali berbasis teks, secara normal karakteristiknya dilihat dari fasilitas temu kembali yang dimilikinya. Seringkali suatu sistem temu kembali tidak dapat menelusur informasi melalui field-field tertentu atau khusus, karena keterbatasan fasilitas yang dimilikinya. Oleh karena itu fasilitas penelusuran yang ditawarkan dalam suatu sistem temu kembali, adalah merupakan salah satu unsur yang paling penting dalam memilih paket-paket informasi berbasis teks.

Secara umum bahwa suatu sistem temu kembali tekstual memiliki sejumlah fasilitas yang dapat digunakan untuk: pertanyaan atau bahasa perintah (query or command language); formulasi pertanyaan Boolean (Boolean query formulation); pemurnian penelusuran (search refinement); pemendekan/pemotongan dan penelusuran rentetan teks (truncation and text string searching); daftar kata takterpakai dalam penelusuran (stop list or common word list); tesaurus / pendukung perbendaharaan kosa kata (thesaurus / vocabulary support); kedekatan penelusuran (proximity searching); pembatasan penelusuran dengan ruas (limiting searching by field); dan penelusuran kawasan numerik ( numeric range searching). (Rowlands, 1987 : 7-8). Sejumlah fasilitas yang disebutkan di atas sangat diperlukan untuk melakukan penelusuran pada suatu database. Kelengkapan fasilitas ini tentu sangat mempengaruhi keefektifan sistem temu kembali informasi, yang tentu akan berdampak kepada tingkat ketepatan (precision) dalam penelusuran.

3. Efektifitas Sistem Temu Kembali Informasi Berbasis Teks

Pesatnya kemajuan teknologi informasi khususnya komputer disertai dengan dukungan kecanggihan perangkat lunak (software) mengakibatkannya mampu menata, menyimpan sejumlah besar informasi dan menyediakan akses terhadap informasi tersebut dengan cepat dan tepat. Kemajuan itu sangat berpengaruh kepada perkembangan sistem temu kembali informasi (information retrieval system). Keakuratan dan kecepatan dari suatu sistem informasi sangat diharpakan dalam upaya memenuhi kebutuhan pengguna untuk memperoleh informasi yang diinginkannya.

Efektifitas dari suatu sistem temu kembali informasi adalah kemampuan dari sistem itu untuk memanggil berbagai dokumen dari suatu basis data sesuai dengan permintaan pengguna. Efektifitas dari sistem temu kembali informasi tersebut dapat diukur. Ada dua hal penting yang biasanya digunakan dalam mengukur kemampuan suatu sistem temu kembali informasi yaitu rasio atau perbandingan dari perolehan (recall), dan ketepatan (precicion). (Lee Pao, 1989 : 225).

Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggil dokumen yang relevan, sedangkan ketepatan (precision) berkaitan dengan kemampuan sistem untuk tidak memanggil dokumen yang tidak relevan. Rasio dari

(4)

tingkat perolehan (recall) dan ketepatan (precision) yang dicapai dalam kegiatan penelusuran dapat diungkapkan sebagai berikut :

Jumlah dokumen relevan yang terambil

Recall = --- Jumlah dokumen relevan yang ada dalam database (file)

Jumlah dokumen relevan yang terambil

Precision = --- Jumlah dokumen yang terambil dalam pencarian

Rasio dari recall sebenarnya sulit diukur karena jumlah seluruh dokumen yang relevan dalam database sangat besar. Oleh karena itu presisi-lah (precision) yang menjadi salah satu ukuran yang digunakan untuk menilai keefektifan suatu sistem temu kembali informasi. Untuk memudahkan pemahaman akan kedua rasio tersebut, berikut dikemukakan sebuah contoh soal dan perhitungan penentuan recall dan precision.

Andaikan suatu file database menyimpan 100 dokumen. Pada suatu penelusuran, ada 10 dokumen terambil (retrieved) dan hanya 4 dokumen terambil dalam pencarian yang relevan dengan pertanyaan (query), kemudian ada 2 dokumen lain dalam file dabase diketahui relevan kepada query akan tetapi tidak terambil (not retrieved). Untuk menghitung rasio recall dan precision dari seperti disebut pada soal di atas, sering digunakan tabel berikut :

Tabel Perhitungan Recall dan Precision

Relevant Not Relevant Total Retrieved 4 ( a ) 6 ( b ) 10 Not Retrieved 2 ( c ) 88 ( d ) 90 Total 6 94 100

Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan dengan mengacu kepada kepada rasio yang telah dikemukakan sebelumnya. Untuk menghitung rasio recall, terlebih dahulu kita tentukan jumlah dokumen relevan yang terambil, berdasarkan data pada tabel yaitu a , sedangkan Jumlah dokumen relevan yang ada dalam database adalah a + c. Dengan demikian rasio recall ( R ) tersebut dapat dinyatakan sebagai berikut :

a R = --- a + c 4 = --- 4 + 2 = 0,66

Selanjutnya untuk menghitung precision, hal yang sama pada penghitungan recall diberlakukan yaitu jumlah dokumen relevan yang terambil adalah a , sedangkan Jumlah dokumen yang terambil dalam pencarian adalah a + b . Dengan demikian rasio precision ( P ) dapat dinyatakan sebagai berikut :

(5)

a Precision = --- a + b 4 = --- 4 + 6 = 0,40

Kondisi ideal dari keefektifan suatu sistem temu kembali informasi adalah apabila rasio recall dan precision sama besarnya (1 : 1 ). (Lee Pao, 1989 : 229). Selain itu, suatu sistem temu kembali dinyatakan efektif apabila hasil penelusuran mampu menunjukkan ketepatan (precision) yang tinggi sekalipun perolehannya rendah (Rowley, 1992 : 172)

4. Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi Salah satu faktor yang berpengaruh terhadap sistem temu kembali ialah pengindeksan dokumen. Pengindeksan (indexing) mencakup proses pencatatan ciri-ciri dokumen, analisis isi, klasifikasi maupun pembuatan entri ke dalam bahasa indeks. Tujuan pengindeksan ialah untuk memungkinkan ditemukannya dokumen yang relevan dengan pertanyaan (query) dengan tepat.

Kegiatan pengideksan akan menghasilkan indeks. Meadow (1992 : 69-70) mengemukakan bahwa indeks adalah merupakan cantuman dari bermacam-macam atribut yang diharapkan dapat digunakan sebagai dasar pencarian dokumen. Jika atribut tersebut berupa subjek, maka indeks yang mewakilinya disebut sebagai indeks subjek. Sedangkan bila atribut tersebut berupa pengarang, maka indeks yang mewakilinya disebut sebagai indeks pengarang. Umumnya kegiatan pengindeksan adalah berupa pengindeksan subjek, namun dalam kenyataannya di perpustakaan indeks subjek dan pengarang sama -sama digunakan dalam sistem temu kembali.

Indeks di perpustakaan berfungsi sebagai sarana atau kunci yang menunjukkan kepada penelusur dokumen-dokumen yang potensial relevan dengan permintaannya. Sarana itu sering disebut sebagai wakil dari dokumen yang dimiliki, yaitu berupa katalog perpustakaan. Dengan demikian fungsi indeks pada database maupun perpustakaan pada prinsipnya adalah sama yaitu sebagai sarana temu kembali.

Tujuan utama dari pengindeksan ialah untuk membentuk representasi dari dokumen dalam bentuk yang sesuai untuk dicantuman dalam berbagai tipe database (Lancaster, 1998 : 1). Indeks sebagai representasi dari dokumen diharapkan dapat menggambarkan isi atau subjek yang terkandung di dalam dokumen tersebut, sehingga dapat ditemukan kembali melalui istilah (index term) yang digunakan.

Pada dasarnya ada dua jenis bahasa indeks yaitu bahasa alamiah (natural language) dan kosa kata terkontrol (controlled vocabulary). Bahasa alamiah adalah bahasa dari dokumen yang diindeks. Biasanya bahasa tersebut merupakan bahasa yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini umum digunakan dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang (Lancaster, 1986 : 159). Sedangkan kosa kata terkontrol dapat berupa indeks subjek, pengarang, judul maupun tesaurus.

Ditinjau dari sisi sistem temu kembali informasi, tesaurus adalah suatu daftar pengendali (authority list) istilah-istilah khusus yang digunakan dalam sistem temu kembali informasi. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah sarana pengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen ke bahasa yang lebih terkendali. Tesaurus berisi sejumlah istilah indeks dengan menggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa

(6)

terkontrol (controlled language). Tujuan utama tesaurus adalah juga untuk memudahkan temu kembali dokumen, dan untuk mencapai konsistensi dalam pengindeksan dokumen pada sistem simpan dan temu kembali informasi.

Dalam bahasa pengindeksan kosa kata terkontrol seperti tesaurus, istilah yang digunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukan dalam suatu daftar indeks yang disusun secara alfabetis, misalnya Sears List of Subject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus, DDC Index, dan sebagainya. Sedangkan pengindeksan bahasa alamiah adalah pengindeksan yang dilakukan pada semua istilah baik dari judul, abstrak, maupun dari teks lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yang tidak digunakan dalam penelusuran (Rowley, 1992 : 272). Semua istilah indeks yang dihasilkan adalah bergantung kepada bahasa dokumen itu sendiri, dan semuanya itu dapat merupakan representasi dari dokumen itu. Mengingat volume pengindeksan dalam bahasa alamiah ini sangat besar, maka biasanya dilakukan oleh komputer.

Bahasa alamiah dan kosa kata terkontrol adalah dua bahasa hasil dari pengindeksan yang sama -sama dapat dipergunakan sebagai representasi dokumen. Kedua bahasa pengindeksan tersebut digunakan pada waktu pemasukan (input) data ke database, dan akan digunakan juga pada waktu pencarian / penelusuran (output ) informasi dari database. Yang manakah diantara keduanya yang paling baik digunakan dalam pencarian / penelusuran informasi pada suatu database ?

5.

Bahasa Alamiah versus Kosa Kata Terkontrol Dalam Sitem Temu Kembali Informasi

5.1. Keunggulan dan Kelemahan Bahasa Alamiah

Keungulan maupun kelemahan bahasa alamiah dalam sistem temu kembali informasi sangat bervariasi dan kompleks. Banyak faktor yang mungkin dapat mempengaruhinya. Banyak keunggulan dari penggunaan bahasa alamiah dalam penelusuran informasi, beberapa diantaranya adalah :

(a)

Bahasa alamiah dapat dengan mudah dimengerti oleh pengguna tanpa harus memerlukan pelatihan khusus, dan berbagai nuansa makna dapat diekspresikan dengan lebih leluasa (Meadow, 1992 : 37-38). Maksudnya, dengan kekayaan perbendaharaan kosa kata, memungkinkan penelusur mengekspresikan gagasan, perasaan dan keinginannya dengan berbagai cara dan nuansa untuk mendapatkan dokumen yang diinginkannya.

(b) Bahasa alamiah memiliki spesifikasi (specification) yang tinggi (Lancaster, 1977 :

23). Spesifikasi istilah ini muncul karena dapat menggunakan seluruh isitilah yang terdapat dalam dokumen sebagai query. Spesifikasi istilah akan memudahkan pencarian untuk mendapatkan ketepatan (precision) yang tinggi. Semakin tinggi spesifikasi istilah yang digunakan dalam penelusuran, maka akan semakin tinggi ketepatan (precision), sedangkan perolehan (recall) akan semakin rendah. Sebaliknya bila spesifikasi istilah rendah, maka perolehan (recall) akan semakin tinggi, sedangkan ketepatan (precision) cenderung rendah. Misalnya, bila kita menggunakan istilah “LINGUISTICS” untuk mencari dokumen yang memuat penelitian tentang logat bahasa pada suatu database, maka jumlah perolehan (recall) pasti akan tinggi, sedangkan ketepatan (precision) akan rendah, karena istilah “LINGUISTICS” adalah istilah umum dalam ilmu bahasa yang berarti spesifikasinya rendah. Akan tetapi bila kita menggunakan istilah “DIALECT”, maka jumlah perolehan (recall) akan rendah, sedangkan ketepatan (precision) tinggi, karena istilah “DIALECT” adalah isitilah khusus, yang berarti spesifikasinya tinggi.

(c)

Bahasa alamiah memiliki kedalaman (exhaustivity) yang tinggi (Foskett, 1985 : 114). Artinya, banyak tema atau subjek baru yang dihasilkan dokumen yang dapat dijadikan sebagai istilah baru dalam penelusuran. Karena, pada prinsipnya bahwa

(7)

semua kata terkecuali stop word dapat dijafikan sebagai keyword dalam penelusuran.

(d) Penelusur yang merupakan praktisi dalam bidangnya dapat melakukan penelusuran

dengan bahasa alamiah dengan lebih efektif.

Selain memiliki sejumlah keunggulan, bahasa alamiah juga memiliki berbagai kelemahan, beberapa diantaranya adalah :

(a)

Bahasa alamiah tidak atau kurang ringkas ( lack of consiseness) (Meadow, 1992 : 38). Query yang digunakan penelusur sering berupa kata atau istilah berbeda atau tidak standar sehingga sering terjadi kehilangan informasi saat penelusuran. Misalnya, seorang penelusur ingin mendapatkan dokumen tentang Proses yang dialami seseorang untuk menjadi semakin tua. Lalu dia menggunakan query “PROSES MAKIN TUA”. Dengan query itu, mungkin penelusur tersebut akan mendapatkan perolehan (recall) yang ketepatannya (precsion) tidak ada, karena dokumen yang berisi istilah itu tidak ada. Akan tetapi bila penelusur itu menggunakan istilah indeks subjek “PENUAAN” sebagai query, mungkin akan dia peroleh (recall) sejumlah dokumen yang ketepatannya (precision) sangat tinggi, yang berarti sangat sesuai dengan yang diinginkannya. Kesalahan yang terjadi sebenarnya terletak pada penyusunan atau pemilihan istilah yang tepat sebagai query.

(b) Mempunyai ambiguitas (ambiguity) yang tinggi. (Meadaw, 1992 : 37). Muddamalle

(1998 : 881) menyebut bahwa …”natural language is full of ambiguities”. Ambiguitas adalah kata atau istilah yang dapat memiliki lebih dari satu arti sehingga mengakibatkan kerancuan. Ambiguitas dapat terjadi karena sinomim atau homograf. Sinonim yaitu bentuk kata yang berbeda tetapi artinya sama, dapat menyebabkan terpencarnya informasi mengenai topik yang sama. Misalnya, kata sado, dokar, delman. Homograf yaitu kata-kata yang ejaannya sama tetapi maknanya berbeda, misalnya raut artinya meruncingkan, menghaluskan, tetapi raut dapat juga artinya tampang, potongan. Sinonim dan homograf dapat mengakibatkan false drops yaitu terjaringnya dokumen yang sama sekali tidak relevan, atau subjek yang tidak relevan ikut terjaring atau terambil dalam proses temu kembali.

(c)

Kesulitan komputer untuk menginterpretasikan teks (Meadaw, 1992 : 37). Kelemahan ini terjadi karena ketidak mampuan sistem menyerap atau menangkap makna dari suatu pernyataan. Hal ini terjadi karena dalam memroses bahasa alami, komputer tidak bisa bekerja sebagaimana otak manusia, terkecuali komputer tersebut dilengkapi dengan suatu knowledge base. Misalnya, seseorang ingin mencari dokumen tentang “Perpustakaan Sekolah” pada suatu database, maka ia akan menggunakan query Perpustakaan AND Sekolah, akan tetapi dalam pencarian dokumen tentang “Sekolah Perpustakaan”, juga akan terjaring atau terambil, padahal konsep “Perpustakaan Sekolah” dengan “Sekolah Perpustakaan” mempunyai makna yang berbeda. Dalam keadaan ini juga terjadi false drops.

5.2. Keunggulan dan Kelemahan Kosa Kata Terkontrol

Banyak keunggulan dari penggunaan kosa kata terkontrol (controlled vocabulary) dalam sistem temu kembali informasi, beberapa diantarnya adalah :

(a)

Proses penelusuran dan temu kembali informasi lebih efisien (Korfhage, 1997 : 24). Artinya, dengan menggunakan kosa kata terkontrol seperti indeks subjek atau tesaurus dalam penelusuran, maka ketepatan dari dokumen yang terambil dengan kebutuhan pengguna dapat diperoleh dalam waktu yang relatip singkat.

(8)

(b) Mempunyai representasi dokumen yang konsisten. Kosa kata atau istilah yang

digunakan dalam pengindeksan dokumen pada saat input sistem adalah kosa kata yang terkontrol dan standar. Oleh karena itu, bila kosa kata atau istilah tersebut kemudian dijadikan sebagai query untuk pencarian atau penelusuran, maka sudah pasti akan tetap mewakili atau merepresentasikan dokumen yang sama seperti pada saat input sistem dilakukan. Misalnya, pada input sistem dokumen A direpresentasikan oleh kosa kata atau indeks subjek “MICROBIOLOGY ”, pada waktu pencarian, seorang penelusur menggunakan “MICROBIOLOGY” sebagai query-nya, maka penelusur tersebut pasti akan menemukan dokumen A karena representasi dokumennya tetap konsisten. Dengan demikian selalu terjadi kesamaan penggunaan istilah diantara pengindeks (indexer) dengan penelusur (searcher)

(c)

Memudahkan penelusuran komprehensif dengan menyatukan istilah terkait secara semantis (Lancaster, 1977, 2). Maksudnya, ada kalanya suatu kosa kata atau indeks subjek tertentu mempunyai hubungan makna dengan indeks yang lain, sehingga dapat digunakan untuk memperkuat pencarian. Misalnya untuk mencari dokumen tentang “pengebalan tubuh manusia terhadap penyakit”, maka kosa kata atau indeks subjek yang dapat dijadikan sebaga query ialah “IMMUNIZATION”, akan tetapi untuk menguatkan pencarian penelusur juga dapat menggunakan kosa kata lain seperti “VACCINATION”, karena kedua kosa kata di atas adalah terkait secara semantis.

(d) Memiliki ambiguity yang sangat kecil. Ambiguitas atau kerancuan dapat diminimize

dengan sekecil mungkin karena kosa kata dapat mengontrol sinonim dan homograf.

Selain keunggulan, penggunaan kosa kata terkontrol (controlled vocabulary) pada sistem temu kembali juga mempunyai banyak kelemahan, sebagian diantaranya adalah :

(a)

Kosa kata terkontrol harus selalu diperbaharui. Perkembangan ilmu dan teknologi menyebabkan munculnya berbagai subjek baru yang sekaligus juga berdampak terhadap pemunculan atau penghilangan suatu istilah atau kosa kata. Oleh karena itu, suatu tajuk subjek atau tesaurus pada suatu periode tertentu harus diperbaharui untuk bisa menyesuaikan diri sesuai perkembangan (Muddamalle, 1998 : 881). Misalnya, bila kita menelusur dengan istilah atau kosa kata “CANCER” sebagai query pada indeks DDC edisi ke 19, maka kita akan dirujuk dengan kata see “TUMORS”. Sekalipun keduanya semantis, namun terdapat perbedaan. Ini terjadi karena pada indeks DDC edisi ke 19 subjek CANCER belum dijabarkan secara lengkap karena mungkin pada masa itu istilah cancer masih belum populer. Akan tetapi bila ditelusur pada indeks DDC edisi ke 20 dan 21, istilah tersebut telah dijabarkan secara rinci. Hal itu menunjukkan bahwa indeks DDC tersebut diperbaharui secara berkala.

(b) Kosa kata terkontrol (controlled vocabulary) sering dihadapkan kepada

ketidakcocokan (incompatibility) istilah diantara satu database dengan database yang lainnya pada bidang ilmu yang sama (Lancaster, 1986 : 159). Misalnya, CAB CD-ROM dan Agricola CD-ROM adalah dua database yang memuat indeks dan abstrak penelitian pada bidang ilmu yang sama yaitu Pertanian. Akan tetapi ada kalanya beberapa kosa kata atau istilah yang digunakan untuk indeks subjek pada kedua database tersebut berbeda. Hal ini tentunya bisa menyulitkan penelusur bila melakukan penelusuran pada kedua database tersebut.

(c)

Kurangnya spesifikasi dalam kosa kata. Berbeda dengan bahasa alamiah, dimana penelusur dapat menggunakan secara bebas kosa kata yang spesifik. Akan tetapi pada kosa kata terkontroll, spesifikasi istilah ditentukan oleh ketersediaannya pada indeks subjek atau tesaurus.

(d) Kosa kata terkontrol memiliki struktur yang tidak lengkap. Artinya rincian subjek

adalah sangat terbatas untuk pencarian atau penelusuran komprehensif.

(9)

(e)

Kosa kata terkontrol memerlukan biaya dan upaya yang besar pada waktu input sistem yaitu pada saat pengindeksan dilakukan. (Lancaster, 177 : 7).

5.3.

Pendekatan penelusuran yang ideal.

Dengan menguraikan sejumlah keunggulan dan kelemahan dalam melakukan penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa kata terkontrol (controlled vocabulary) sebagai mana dijelaskan di atas, maka mucul pertanyaan, “pendekatan manakah yang ideal dilakukan dalam melakukan penelusuran dalam sistem temu kembali informasi ?“

Untuk menjawab pertanyaan tersebut, Manikya Rao Muddamalle (1998 : 881-887) melalui penelitiannya yang berjudul “Natural Language versus Controlled Vocabulary in Information Retrieval: a Case Study in Soil Mechanics”, menyatakan bahwa temu kembali bahasa alamiah dan kosa kata terkontrol menunjukkan hasil yang sangat efektif, dengan perbedaan atau dengan batasan yang sangat tipis, hasilnya tidak jauh berbeda. Untuk mencapai temu kembali yang opt imum, suatu teknik temu kembali dengan kombinasi bahasa alamiah dan kosa kata terkontrol dapat diadopsi.

Teknik penelusuran secara kombinasi ini telah diuji, dan ditemukan hasil bahwa terdapat penambahan 5 % hasil temu kembali melebihi atau lebih tinggi dari pada hasil temu kembali secara terpisah. Oleh karena itu, alternatif bahasa alamiah atau kosakata terkontrol tidak perlu diperlakukan lebih lama sebagai teknik terpisah, akan tetapi lebih baik diperlakukan bersama sebagai suatu teknik kombinasi yang ideal. 6. Kesimpulan

Bahasa atau kosa kata (vocabulary) memegang peranan yang sangat penting dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali informasi Pendekatan bahasa alamiah dan kosa kata terkontrol dalam sistem temu kembali informasi berbasis teks sama-sama memiliki keunggulan dan kelemahan. Kedua pendekatan tersebut tetap masih efektif untuk digunakan. Akan tetapi teknik temu kembali dengan menggunakan kombinasi dari bahasa alamiah dan kosa kata terkontrol adalah bentuk pendekatan yang ideal digunakan dalam temu kembali informasi. Dengan demikian penelusuran menggunakan bahasa alamiah atau natural language dan kosa kata terkontrol atau controlled vocabulary ternyata saling melengkapi

Referensi

Dimitroff, Alexandra. “Affective Response and Retrieval Performance: Analysis of Contributing Factors”. Library and Information Science Research. 18, 1995 : 121- 132.

Frants, Valery I. Automated Information Retrieval: Theory and Methods, Academic Press, New York, 1997.

(10)

Hasibuan, Zainal A. “Kajian Sistem Temu-Kembali Informasi: Pergeseran Paradigma dari Orientasi Teknologi ke Orientasi Pemakai”. Prosiding Seminar Sehari Layanan Pusdokinfo Berorientasi Pemakai di Era Informasi. Depok, 16 Maret 1996. Hasibuan, Zainal A.”Pendekatan Struktur Dokumen Dalam Sistem Temu-Kembali

Informasi”. Kursus Penyegaran dan Penambah Ilmu Perpustakaan Dokumentasi, dan Informasi (KPP Pusdokinfo VI) di Universitas Indonesia. Depok, 13-17

Oktober 1997

Hildreth, Charles R. “The Use and Understanding of Keyword Searching in a University Online Catalog”. Information Technology and Libraries. 1, June 1997 : 52-62

Korfhage, Robert R. Information Storage and Retrieval, John Wiley & Sons, New York, 1997.

Lancaster, F.W. Indexing and Abstracting in Theory and Practise, Library Association Publishing, London, 1998.

Lancaster, F.W. Vocabulary Control in Information Retrieval System: in Advances Librarianship, Academic Press, New York, 1977

Lancaster, F.W. Vocabulary Control for Information Retrieval, Information Resources Press, Arlington, Virginia, 1986.

McJunkin, Monika Cahill. “Precision and Recall in Title Keyword Searches”. Information Technology and Libraries, 14 (3), 1995 : 161-171.

McQuire, April R. ; Eastman, Caroline M. “The Ambiguity of Negation in Natural Language Queries to Information Retrieval Systems”. Journal of The American Society for Information Science, 49 (8), 1998 : 686-692.

Meadow, Charles T. Text Information Retrieval Systems, Academic Press, New York, 1997.

Muddamalle, Manikya Rao. “Natural Language versus Controlled Vocabulary in Information Retrieval: a Case Studi in Soil Mechanics”. Journal of The American Society for Information Science, 49 (10), 1998 : 881-887.

Pao, Miranda Lee. Concepts of Information Retrieval. Libraries Unlimited, Englewood, Colorado, 1989.

Gambar

Tabel Perhitungan Recall dan Precision

Referensi

Dokumen terkait

Rumah Sakit Immanuel mempunyai 2 (dua) saranan pelayanan yaitu rawat jalan dan rawat inap. Salah satu unit pelayanan kesehatan di Rumah Sakit Immanuel adalah ruang

Sekiranya anda dapat mengakses atau melihat maklumat tersebut, anda menjamin dan memberi representasi bahawa melainkan jika pendedahan tersebut disediakan dengan jelas

ia telah membuktikan bahwa dirinya adalah sebuah rahmat bagi manusia dan alam semesta peristiwa itu bisa dilihat dari pembebasan kota makkah dangan segala kemenangan yang telah

Kartun yang membawa pesan kritik sosial yang muncul di setiap penerbitan majalah adalah political cartoon (kartun politik) atau editorial cartoon (kartun editorial),

Berdasarkan temuan penelitian, dapat disimpulkan bahwa perangkat pembelajaran berbasis learner autonomy yang dikembangkan dinyatakan layak untuk meningkatkan

Kata kunci: metode inkuiri, metode inkuiri terbimbing, prestasi belajar, kemampuan berpikir kritis, kemampuan berpikir kritis kategori kognitif, mata pelajaran

Sedangkan, data Curup Buluh didapat dari observasi area Curup Buluh, mewawancarai penggagas Curup Buluh, kepala Desa Lubuk Selo dan kepala Kelompok Sadar Wisata (POKDARWIS)

Elastisitas yang digunakan untuk mengukur intensitas reaksi konsumen atau pembeli pada umumnya dalam bentuk perubahan jumlah barang yang diminta terhadap perubahan