• Tidak ada hasil yang ditemukan

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

N/A
N/A
Protected

Academic year: 2021

Membagikan "ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM"

Copied!
7
0
0

Teks penuh

(1)

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak

Stemming merupakan salah satu bagian dari information retrieval yang bertujuan untuk

mengembalikan kata ke bentuk term dasarnya. Berdasarkan asumsi bahwa kata yang mempunyai term dasar sama memiliki arti yang sama, stemming digunakan untuk meningkatkan performansi sebuah information retrieval system.

Dalam pengolahan teks berbahasa Indonesia, saat ini banyak digunakan teknik stemming yang menggunakan kamus sebagai alat bantu dalam proses stemming. Tidak demikian halnya dengan algoritma stemming Vega yang tidak membutuhkan bantuan kamus. Algoritma Vega hanya menggunakan aturan penghilangan imbuhan yang didasari oleh aturan bahasa Indonesia yang ada. Meski tanpa menggunakan bantuan kamus, algoritma stemming vega diharapkan dapat meningkatkan performansi dari information retrieval system.

Untuk mengetahui hasil dari algoritma stemming vega, maka dibuat sebuah information retrieval system sederhana yang dapat menghitung performansi sistem berdasarkan query tertentu yang diinputkan. Langkah pertama pengujian adalah memeriksa hasil kata setelah dilakukan

stemming. Pengujian kedua dilakukan untuk mengetahui performansi sistem yang menggunakan algoritma stemming vega dibandingkan dengan sistem tanpa stemming. Kemudian juga

dilakukan analisis pengaruh tingkat kompresi stemming terhadap nilai performansi information retrieval system.

Dari pengujian didapatkan bahwa algoritma stemming Vega menghasilkan banyak term yang tidak sesuai dengan kata dasar dalam bahasa Indonesia. Meski begitu, algoritma Vega dapat digunakan untuk meningkatkan performansi information retrieval system dalam situasi tertentu.

Kata Kunci : Sistem information retrieval, Stemming, Vega.

(2)

Abstract

Stemming is one part of information retrieval which aims to restore the words to form basic terms. Based on the assumption that words that have the same basic terms have the same meaning, stemming is used to improve the performance of an information retrieval system. In text processing for Indonesian language, is currently widely used technique that uses dictionary as a tool in the process of stemming. Otherwise Vega stemming algorithm does not require the help of a dictionary. Vega algorithm uses only affix removal rules based on existing Indonesian rule. Though without the help of a dictionary, vega stemming algorithm is expected to improve the performance of information retrieval system.

To find out the results of a stemming algorithm vega, then created a simple information retrieval system that can calculate the system performance based on specific queries had been entered. The first step is to examine the results of tests carried out word after stemming. The second test conducted to determine the performance of a system that uses a stemming algorithm vega than the system without stemming. Then, analysis of the influence of compression rate stemming information retrieval system performance value.

From the test it was found that Vega stemming algorithm produces many terms that are

inconsistent with the basic words in the Indonesian language. Still, Vega algorithm can be used to improve information retrieval system performance in certain situations.

Keywords : Information retrieval system, Stemming, Vega.

Powered by TCPDF (www.tcpdf.org)

(3)

1

1. Pendahuluan

1.1. Latar belakang

Stemming merupakan proses pencarian stem/akar dari sebuah term, yaitu dengan cara menghilangkan affix/imbuhan yang menempel pada term tersebut. Dalam information retrieval, stemming digunakan untuk mencari term yang mempunyai kesamaan morfologik, tujuannya untuk memberikan semua hasil yang relevan dari sebuah information retrieval system. Selain itu, stemming secara langsung dapat mereduksi ukuran file indeks. Hal ini dikarenakan kata-kata yang memiliki kesamaan morfologik akan dianggap berasal dari satu kata yang sama.

Terdapat beberapa algoritma stemming yang sudah dikenal luas, diantaranya adalah algoritma Porter, algoritma Paice-Husk, dan algoritma Lovins. Ketiga algoritma tersebut utamanya dikembangkan untuk melakukan stemming pada bahasa Inggris. Sedangkan algoritma stemming untuk bahasa Indonesia yang telah dikembangkan adalah algoritma Nazief-Adriani, algoritma Arifin-Setiono, dan algoritma Vega. Pada tugas akhir ini akan membahas lebih jauh mengenai algoritma Vega.

Algoritma Vega menggunakan beberapa aturan-aturan yang dapat menghilangkan affix yang menempel dari sebuah kata. Sebuah kata yang di stemming akan melewati aturan-aturan secara berurutan. Setiap aturan yang sesuai dengan kata tersebut, maka affix akan dihilangkan dari kata tersebut. Di saat aturan yang ada tidak sesuai dengan kondisi kata tersebut, maka proses stemming akan dilanjutkan pada aturan yang berikutnya hingga kata tersebut telah melalui semua aturan yang berlaku.

Ada perbedaan mendasar algoritma Vega dengan dua algoritma berbasis bahasa Indonesia lainnya, yaitu dalam penggunaan kamus. Algoritma Vega tidak bergantung kepada kamus tidak seperti algoritma Nazief-Adriani dan algoritma Arifin-Setiono. Dengan tidak adanya proses pengecekan tiap kata di dalam kamus, maka akan mempercepat proses dari stemming tersebut.

Penggunaan kamus dalam aplikasi stemming sangat mempengaruhi keakuratan term yang dihasilkan. Jika kamus yang digunakan baik dan sesuai dengan aturan maka akan menghasilkan term yang baik pula. Akan tetapi jika tidak maka akan terjadi hal sebaliknya. Selain itu, penggunaan kamus sebagai perbandingan term yang dihasilkan akan menimbulkan pemborosan kapasitas penyimpanan komputer. Semakin banyak kata dalam kamus, maka akan semakin membengkak pula penyimpanan yang digunakan selama proses pengecekan

(4)

2

berlangsung. Pada tugas akhir ini akan dibahas secara khusus penggunaan algoritma stemming Vega yang pada prosesnya tidak menggunakan kamus sebagai perbandingan term yang dihasilkan.

1.2.

Perumusan masalah

Pada tugas akhir ini akan membahas beberapa permasalahan yang muncul :

a. Bagaimana mengimplementasikan teknik stemming dengan menggunakan algoritma Vega dalam suatu information retrieval system.

b. Bagaimana kata yang dihasilkan dari proses stemming dengan menggunakan algoritma Vega.

c. Bagaimana mengukur performance dari algoritma Vega dengan menghitung nilai precision-recall.

1.3.

Batasan masalah

Dalam melakukan penelitian ini dokumen input yang digunakan pada Tugas Akhir ini merupakan kumpulan dokumen berupa file teks berbahasa Indonesia dengan format txt yang telah ditentukan sebelumnya.

1.4. Tujuan

Tujuan yang ingin dicapai pada tugas akhir ini adalah :

a. Menganalisa hasil stem yang terbentuk dari proses stemming dengan algoritma Vega.

b. Menganalisis keakuratan hasil information retrieval system yang dihasilkan oleh perangkat lunak yang menggunakan algoritma stemming Vega.

1.5. Metodologi penyelesaian masalah

Metodologi penyelesaian masalah yang akan digunakan adalah :

a. Studi literatur

Melakukan studi literatur dengan pengumpulan bahan pembelajaran yang berkaitan dengan algoritma stemming Vega. Mengumpulkan data yang dapat digunakan sebagai koleksi dokumen.

(5)

3

b. Analisis dan desain

Tahap ini meliputi analisis cara kerja algoritma stemming Vega. Merancang perangkat lunak yang digunakan sebagai simulasi.

c. Implementasi dan testing

Tahap ini meliputi pembangunan perangkat lunak yang telah dirancang pada tahap sebelumnya dan dilakukan pengujian untuk mengetahui performa algoritma stemming Vega. Pengujian algoritma akan dilakukan dengan menggunakan input berupa koleksi dokumen yang akan menghasilkan output berupa kata-kata yang telah mengalami proses stemming.

d. Analisis hasil

Menganalisa output stem dari hasil testing dan kemudian melakukan penghitungan keakuratan dari information retrieval system yang menggunakan algoritma stemming Vega.

e. Pembuatan laporan

Pada tahap ini akan dilakukan penyusunan hasil laporan terhadap penelitian yang telah dilakukan, dan membuat kesimpulan dari hasil penelitian tersebut.

Powered by TCPDF (www.tcpdf.org)

(6)

42

5. Kesimpulan dan Saran

5.1. Kesimpulan

Dari hasil penelitian yang dilakukan Beberapa kesimpulan yang dapat diambil dari Tugas Akhir ini yaitu :

a. Stemming dengan menggunakan algoritma Vega tidak selalu menghasilkan kata dasar yang ada dalam kamus.

b. Penggunaan algoritma stemming Vega pada information retrieval system tidak terlalu mempengaruhi performansi dari sistem tersebut.

c. Nilai precision dipengaruhi oleh banyaknya varian kata yang menghasilkan term tertentu pada suatu kumpulan dokumen.

d. Perubahan nilai kompresi stemming tidak mempengaruhi nilai performansi

information retrieval system.

e. Algoritma stemming Vega membutuhkan waktu yang singkat untuk melakukan stemming pada sebuah kata.

5.2. Saran

Saran-saran yang dapat penulis uraikan untuk keperluan analisis selanjutnya adalah:

a. Modifikasi penghilangan imbuhan diharapkan dapat meningkatkan performansi information retrieval system.

b. Penggunaan koleksi dokumen yang lebih besar dimungkinkan dapat memberikan hasil yang lebih akurat.

Powered by TCPDF (www.tcpdf.org)

(7)

43

Daftar pustaka

[1] Asian, J., Williams, H. E., and Tahaghoghi, S. M. M., 2005, Stemming

Indonesian, School of Computer Science and Information Technology RMIT

University, Australia.

[2] Asian, J., Williams, H. E., and Tahaghoghi, S. M. M., 2006, A Testbed for

Indonesian Text Retrieval, In Peter Bruza, Alistair Moffat, and Andrew Turpin

(editors), Proceedings of the 9th Australasian Document Computing

Symposium (ADCS 2004), Melbourne, Australia, 55-58, 13 December 2004. [3] Asian, J., 2007, Effective Techniques for Indonesian Text Retrieval, Doctor‟s

Thesis, School of Computer Science and Information Technology RMIT University, Australia.

[4] A,W. Yanuar. Firdaus., 2008, Information Retrieval, Institut Teknologi Telkom, Bandung

[5] Baeza-Yates, R. and Ribeiro, B., 1999, Modern Information Retrieval. Addison Wesley.

[6] Indradjaja, L. S. and Bressan, S., 2003, Automatic Learning of Stemming Rules

for the Indonesian Language, National University of Singapore, Singapore.

[7] Indradjaja, L. S., 2003, Computational Linguistics for the Indonesian Language, Honours Year Thesis, National University of Singapore, Singapore.

[8] Vega, B. V. S. N.. and Bressan, S, 2001, Indexing the Indonesian web:

Language Identification and Miscellaneous Issues, Presented at Tenth

International World Wide Web Conference, Hong Kong.

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

• Pantai tipe II secara umum dicirikan oleh relief sedang, berupa perbukitn bergelombang, dengan kemiringan paras pantai yang relatif rendah hingga sedang (tidak lebih dari 10° -

Jadi, dalam pengertian ini, etika dan moralitas sama-sama memiliki arti sistem nilai tentang bagaimana manusia harus hidup baik sebagai manusia yang telah

(Suatu hal yang dapat diterapkan secara umum untuk semua persaingan tidak jujur atau curang dalam perdagangan dan bisnis, tetapi terutama diterapkan pada praktik berusaha

Kelainan ini jarang ditemukan dan biasanya terjadi jika dilakukan traksi kuat untuk melahirkan kepala janin pada presentasi sungsang atau untuk melahirkan bahu pada presentasi

Kata Kunci: Analisis isi, Berita olahraga, Pembangunan olahraga. Media massa adalah salah satu peluang industri olahraga yang merupakan bagian pihak ketiga dalam cincin rangkap

(2) Jejaring laboratorium malaria sebagaimana dimaksud pada ayat (1) merupakan suatu jaringan laboratorium yang melaksanakan pelayanan kepada pasien yang diduga malaria

Menimbang, bahwa setelah memeriksa berkas perkara dan membaca putusan yang diambil oleh Mahkamah Syar’iyah Jantho, maka Mahkamah Syar’iyah Provinsi

Terlihat siswa menyimak dengan antusias pengarahan dari guru dan beberapa siswa sudah berani bertanya tentang hal yang belum mereka mengerti berkaitan dengan tugas