Penggunaan Metode Vector Space Model dal

(1)

Penggunaan Metode Vector Space Model dalam Pencarian

Informasi

Kharisma Rahmawaty (1601286)

Program studi Perpustakaan dan Ilmu Informasi Fakultas Ilmu Pendidikan

Universitas Pendidikan Indonesia [email protected]

1. Pendahuluan

Perkembangan informasi pada saat ini sangat berkembang pesat di masyarakat sehingga masyarakat akan mengalami kesulitan dalam mendapatkan informasi yang relevan sesuai dengan kebutuhannya. Seseorang harus memiliki kemampuan dalam menyaring segala informasi yang masuk, sehingga informasi yang didapatkan tidak keliru dan dapat dipergunakan untuk aktivitas yang dilakukan (Solehat dkk. 2016:53). Oleh karena itu, seseorang harus bisa menyaring informasi yang cepat tepat dan relevan. Perkembanan pencarian pada saat ini menghasilkan banyak dokumen, akan tetapi dokumen yang diharapkan sesuai dengan kebutuhan masih rendah. Pencarian informasi saat ini dilakukan dengan menggunakan mesin pencarian atau biasa kita sebut denan sistem temu balik informasi, pengguna menuliskan kueri dan mesin pencari pun akan mencari kemudian akan menampilkan hasil dari pencariannya. Mesin pencari akan menmpilkan hasil pencarian dengan hasil dokumen yang sangat banyak atau banyak dokumen yang terambil, sehingga pengguna memerlukan lagi waktu lebih untuk mendapatkan hasil yang relevan atau sesuai dengan kebutuhan si pengguna.

(2)

sistem temu balik informasi yaitu dengan menggunakan vector space model. Vector Space Model (VSM) adalah metode untuk mengetahui tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebagai sebuah vektor yang memiliki jarak dan arah. (Sanjaya, 2017:147)

Menentukan term dalam suatu dokumen diperlukan beberpa tahapan yaitu, filtering¸stemming dan tokenizing. Setiap term tentunya memiliki kepentingan yang berbeda dari setiap dokumen ke dokumen lainnya oleh karena itu dibutuhkan pembobotan term. Pembobotan yang biasanya digunakan oleh vector space model yaitu Term Frequency Invers Document Frequency (TF-IDF). Metode TF-IDF ini merupkan suatu cara agar memberikan bobot hubungn antara suatu kata atau term terhadap dokumen. Dari hasil pembobotan menggunakan metode TF-IDF ini maka nantinya sebuah dokumen dan kueri bisa direpresentasikan dalam sebuah ruang vektor yang kemudian akan dicari tingkat kedektannya dengan menggunakan pengukuran cosine silimilarity sehingga mendapatkan dokumen yang relevan dengan suatu kueri yang dimasukan oleh pengguna.

2. Metode

Penelitian ini menggunakan studi literatur. Studi literatur adalah jenis penelitian dengan menjawab permasalahan yang ada dengan meninjau literatur-literatur yang sesuai sehingga dapat diberikan solusi atas permasalahan tersebut. Literatur yang digunakan adalah berupa buku, jurnaal nasional maupun internasional serta tinjauan media-media masa yang sesuai (Imam & Alek, 2017:428)

3. Hasil

Vector Space Model

Baeza (1999) mengemukakan bahwa Vector space model adalah metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebuah vektor yang memiliki magnitude (jarak) dan direction (arah). Pada vector space model, sebuah istilah direpresentasikan dengan sebuah dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah kueri didasarkan pada similaritas diantara vektor dokumen dan vektor kueri.

(3)

kueri dan dokumen. Bobot istilah yang akhirnya digunakan untuk menghitung tingkat kesamaan antara setiap dokumen yang tersimpan dalam sistem dan permintaan pengguna. Amin (2012), mengemukakan bahwa dokumen yang terambil disortir dalam urutan yan memiliki kemiripan, model vektor memperhitungkan pertimbangan dokumen yang relevan dengan permintaan dari penggunaan. Hasilnya adalah himpunan dokumen yang terambil jauh lebih akurat dalam arti sesuai dengan informasi yang dibutuhkan oleh pengguna.

Temu kembali informas adalah aktifitas utama yang dilakukan oleh sebuah penyedia informasi atau lembagga informasi atau juga pelayanan informasi termasuk disini didalamnya yaitu perpustakaan dan lain sebagainya yang menyediakan informasi. Sistem temu balik informasi tidak menubah pengetahuan pengguna terhadap masalah yang ditanyakannya akan tetapi sistem tersebut hanya memberitahukan keberadaan atau ketidak beradaab dan keterangan dokumen yang berhubungan dengan permintaan dari si penggunanya.

Sistem temu kembali informasi bagi menjadi dua komponen utama yaitu diantaranya yaitu sistem pengindeksan (indexting) pengindeksan ini menghasilkan basis dataa siste dan temu kembali merupkan gabungan dari user interface dan look-up-table. Sistem temu kembali informasi dirancang untuk menemukan informasi atau dokumen yang diperlukan oleh pengguna.

Sistem temu kembali informasi ini memiliki tujuan menjawab kebutuhan informasi dari pengguna dengan sumber informasi yang sudah tersedia, seperti berikut: (Salton, 1989);

a. Mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep.

b. Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat mengidentifikasi dan menemukannya dengan baik.

Pada sistem temu balik informasi terdapat beberap metode yang digunkan untuk merepresentasikan proses pencarian adalah menggunakan model ruang vektor. Model ruang vektor ini dibuat berdasarkan pemikiran bahwa isi dari sebuah dokumen ditentukan dengan kata-kata yang kita gunkan dalam mencari dokumen tersebut. Model ini mentukan kemiripan antara dokumen dengan kueri yang dimasukan oleh pengguna dengan cara merepresentasikan dokumen dan kueri masing-masing kedalam bentuk vektor.

(4)

dokumen-dokumen yan akan digunaka, operasi yang akan digunakan dalam proses pencarian, dan model pengelolaan teks (Beza, 1999).

1) Tokenisasi

Tokenizing atau tokenisasi merupakan proses pemisahan suatu rangkaian karakter berdasarkan karakter spasi, dan mungkin pada waktu yang bersamaan dilakukan juga proses penhapusan karakter tertentu, seperti tanda baca. Sebagai contoh, kata-kata “computer”, “computin”, dan “compute” semua berasal dari term yang sama yaitu “comput”, tanpa pengetahuan sebelumnya dari morfologi bahasa Inggris. Token seringkali disebut sebagai istilah (term) atau kata, sebagai contoh sebuah token merupakan suatu urutan karakter dari dokumen tertentu yang dikelompokkan sebgai unit semantik yang berguna untuk diproses (Salton, 1989).

2) Filtering

Filtering ini menggunakan metode eliminasi stop words yaitu menghilankan semua kata depan, kaata sambung, kata ganti, dan lain sebagainya. Contoh dalam bahasa Indonesia antara lain: yang, ini, itu, dan, atau, saya, kamu, aku, dengan, ke, tak, tidak, pada, namun, hanya, seperti, dan lain sebagainya.

3) Stemming

Proses stemming digunakan untuk mengubah kata yang masih melekat dalam kata tersebut awalan, sisipan, dan akhiran. Proses stemming dilakukan dengan caramenghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan (Tala, 2003)

Proses pembobotan dokumen menggunakan metode Vector Spece Model dilakukan dalam proses pencarian dokumen. Proram akan bekerja ketika pengguna melakukan kueri, kemudian program tersebut akan memproses kueri, selanjutnya program tersebut akan memproses kueri tersebut dengan perhitungan-perhitungan term frequency, inverse document frequency, term frequency inverse document frequency, jarak antara kueri dengan dokumen, similaritas dengan cosine similaritas.

4. Kesimpulan

(5)

memasukan kata kunci kemudia mesin pencari itu akan menampilkan banyak dokumen dari hasi pencarian kata kunci yang telah dimasukkan. Untuk mengklasifikasikan dokumen-dokumen yan telah terkumpul agar dokumen tersebut sudah sesuai dengan kata kunci yan telah kita masukan sehingga menghasilkan tingkat relevansi hasil temu balik tersebut kedalam sebuah sistem temu balik informasi yaitu dengan menggunakan vector space model atau VSM. VSM ini merupakan metode untuk mengetahui tinkat kedekatan atau kemiripan hasil dengan kata kunci yan telah dimasukkan.

Pada sistem temu kembali informasi terdapat metode yan bisa digunakan untuk merepresentasikan proses pencarian adalah menggunakan model ruang vektor. Model ini menentukan kemiripan antara dokumen denan kueri yang dimasukkan pengguna dengan cara merepresantasikan dokumen dan kueri masing-masing kedalam bentuk vektor. Menentukan term dalam suatu dokumen diperlukan beberapa tahapan yaitu, filtering, stemming dan tokenizing.

Daftar Pustaka

Baeza R.Y., Neto R. (1999). Modern Information Retrival, Addison Wesley-Pearson

International edition, Boston. USA.

Desviana Siti Solehat, Doddy Rusmono, & Gema Rullyana. (2016).

Perilaku

Pencarian Informasi Mahasiswa Pendidikan Bahasa Asing di Universitas

Pendidikan Indonesia. Edulib, 6(1), 51-67. doi:

10.17509/edulib.v6i1.5002.g3567.

Fatkhul A. (2012). Sistem temu Kembali Informasi dengan Metode Vector Space

Model. Jurnal Fakultas Teknologi Informasi. Universitas Stikubank. Semarang.

(6)

Dokumen Menggunakan Metode Vector Space Model. Jurnal fakultas teknik Informatika. Sekolah Tinggi Informatika & Komputer Indonesia (STIKI). Malang

Tala, F.Z. (2003). A Study of Stemming Effects on Information Retrival in bahasa

Indonesia. Master Thesis, Institut for logic, Language and Computation Universiteit van Amsterdam The Netherlands.

Salton, G. (1989). Automatic Text Processing, The Transformation, Analysis, and Retrieval of Information by computer. Addison-Wesly Publishing Company