PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

(1)

PERBANDINGAN ALGORITMA STEMMING PADATEKS

BAHASA INDONESIA

Sigit Prasetyo Karisma Utomo1_{, Ema Utami}2_{, Andi Sunyoto}3

1,2,3

Magister Teknik Informatika STMIK AmikomYogyakarta

e-mail: 1_{[email protected],}[email protected]_,[email protected] Abstrak

Inform asi sangat dibutuhkan oleh para penggunanya. Peningkatan kebutuhan informasi dengan proses pencarian dan pemisahan dokumen / data pengguna. Stemming adalah salah satu proses yang melakukan pencarian kata dasar. Metode stemming Nazief & Adriani menggunakan kamus sedangkan Metode Tala berbasiskan aturan. Penelitian ini melakukan perbandingan metode Nazief & Adriani dengan Tala untuk stemming pada teks Bahasa Indonesia. Pengujian menggunakan dua sumber data yang berbeda untuk mengukur tingkat akurasi dan kecepatan setiap metode. Sumber data dalam pengujian berupa 506 berita dari situs berita online dan 600 tweet dari twitter dari tiga akun berita nasional Indonesia.

Penelitian ini dilakukan untuk mengetahui tingkat akurasi dan kecepatan pada setiap proses metode dengan dua sumber. Dari penelitian ini metode Nazief & Adriani memiliki tingkat akurasi lebih baik dari Tala dengan tingkat akurasi rata – rata sebesar 78,46 % dan Tala 65,29 % untuk sumber data berita sedangkan untuk data twitter Nazief& Adriani 55,26% dan Tala 45,90%. Dari kecepatan metode Tala memilik kecepatan lebih tinggi untuk kecepatan rata rata 11,08 detik dan Nazief & Adriani 25,2 7 detik untuk sumber data berita sedangkan sumber data twitter Tala 0,46 detik dan Nazief & Adriani 0,78 detik.

Kata kunci— Stemming Indonesia, Tala, Nazief & Adriani Abstract

The information is needed by users. Increased need for information with the search process and the separation of document / data users. Stemming is one of the processes that perform basic word search. Nazief & Adriani stemming method using a dictionary while Tala method based rules. This study did comparative method Nazief & Adriani with Tala for stemming the Indonesian text. Comparative testing using two different data sources to measure the level of accuracy and speed of each method. Sources of data in the form of 506 news from online news sites and 600 tweets from twitter of three Indonesian national news accounts.

This study was conducted to determine the level of accuracy and speed in every process method with two sources. From this research method Nazief & Adriani has a better accuracy rate from Tala with average average accuracy of 78.46% and 65.29% for the Tala on from news source, while from twitter source Nazief & Adriani 55.26% and Tala 45, 90%. Tala method execution time is better than Nazief & Adriani for average speed of 11.08 seconds and 25.27 seconds Nazief & Adriani from news source while from twitter source Tala 0.46 seconds and 0.78 seconds Nazief& Adriani.

Keywords— Indonesian Stemmer, Nazief & Adriani, Tala

1. PENDAHULUAN

nformasi sangat dibutuhkan oleh para penggunanya. Peningkatan kebutuhan informasi dengan proses pencarian dan pemisahan dokumen/data pengguna. Proses pemisahan tersebut bertujuan untuk menampilkan informasi yang sesuai atau diperlukan. Stemming adalah salah satu proses yang melakukan pencarian kata. Kata yang tidak tepat menjadi sebuah kesalahan informasi yang diperoleh.

(2)

Stemming adalah salah satu tahapan text preprocessing . Proses transformasi kata – kata dalam dokumen menjadi kata dasar (root word) atau proses penghilangan imbuhan kata [1]. Stemming adalah salah satu cara yang digunakan dalam meningkatkan performa IR (Information Retrieval ) dalam pemisalahn dokumen teks. Algoritma stemming untuk satu bahasa akan berbeda dengan bahasa yang lain. Proses stemming pada teks berbahasa Indonesia lebih rumit / kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word dari sebuah kata [2].

Penelitian sebelumnya melakukan pengujian Metode Tala [3] [4] dan untuk Nazief Adriani [1] [5] dengan data dokumen ber ekstensi pdf dan txt. Kedua metode yang memiliki perbedaan cara dalam proses stemming diperlukannya perbandingan keakuratan / akurasi dan kecepatan pada proses stemming. Tujuan penelitian ini adalah mengetahui perbandingan keakuratan / akurasi dan kecepatan proses menggunakan metode Nazief & Adriani dan Tala pada dua sumber data yaitu data berita sejumlah 506 berita dari situs berita dan 600 twitter dari tiga akun twitter berita nasional Indonesia.

2. METODE PENELITIAN

Penelitian yang akan dilakukan menggunakan metode eksperimental. Penelitian eksperimental merupakan penelitian yang menjelaskan hubungan sebab akibat [7]. Pada penelitian ini, analisis yang dilakukan tahapan sebagai berikut.

1 . C l e a n i n g

Proses melakukan pembersihan kata yang tidak diperlukan, angka – angka, dan simbol yang tidak terbaca pada data teks.

2 . Cas e Fol ding

Proses dalam menyamaratakan besar kecilnya kata pada kalimat. Adapun tujuannya penyamarataan dalam deteksi pada sistem UNIX yang dapat membaca case sensitif (huruf kapital atau bukan sangat berpengaruh).

3 . Tok eniz atio n

Proses pemotongan kalimat menjadi sejumlah kata – kata secara urut. Apabila ada pengulangan / kata yang sama dalam susunan kalimat akan tetap di potong sesuai urutan nya.

4 . S t o p w o r d s R e m o v a l

Proses menghilangkan kata yang tidak memiliki makna. Kamus kata stop words diambil dari penelitian [6].

5 . S t e m m i n g

Proses utama ini adalah proses mentransofrmasikan kata – kata pada sebuah dokumen / teks menjadi kata dasar (root words) atau proses dalam penghilangan imbuhan [1].

3. HASIL DAN PEMBAHASAN

Penelitian yang dilakukan akan membandingkan dua metode stemming. Metode stemming Nazief & Adriani dengan Tala. Da ta teks yang akan digunakan pengujian menggunakan sumber data berita dan tweet dari twitter. Sumber data akan dikumpulkan dilakukan proses preprocessing / text processing sebelum dilakukan stemming pada setiap kata menggunakan metode stemming. Pada proses stemming, kata yang sudah di lakukan proses stemming akan di simpan yang kemudian akan digunakan untuk perbandingan hasil stemming dari kedua metode. Pengukuran akurasi akan diperoleh dari jumlah kata dasar yang ditemukan dibagi dengan total kata. Untuk pengukuran kecepatan proses akan menggunakan fungsi pada bahasa pemrograman PHP menggunakan selisih waktu selesai proses stemming di kurangi waktu awal proses stemming.

3.1. Pengujian Data Berita

Pengujian dilakukan pada seluruh data berita dan di peroleh hasil yang d apat dilihat pada Tabel 1 untuk metode Nazief & Adriani sedangkan Tabel 2 untuk metode Tala.

(3)

Tabel 1. Tabel Pengujian Nazief & Adriani Data Berita No. ID Jumlah Benar Salah Presisi Waktu

1 531600 255 187 68 73,33% 55,212 2 531606 109 78 31 71,55% 18,789 3 531610 172 158 14 91,86% 32,46 4 531612 125 105 20 84,00% 25,103 ... • • • • • • 506 531616 63 59 4 93,65% 5,717 Total 58.964 46.430 12.534 12.791,23 Rata – rata 116,530 91,759 24,771 78,46 % 25,279

Tabel 2. Tabel Pengujian Tala Data Berita

No. ID Jumlah Benar Salah Presisi Waktu

1 531600 257 150 107 52,36% 24,7 2 531606 109 62 47 56,88% 7,5 3 531610 173 142 31 82,08% 9,5 4 531612 125 83 42 66,40% 9,1 ... • • • • • • 506 531616 63 51 12 80,95 % 2,6 Total 59.253 38.874 20.379 5.609,7 Rata – rata 117,101 78.826 40,275 65,29 % 11,086

Pada Tabel 1 diperoleh informasi untuk akurasi rata – rata pada metode Nazief &Adriani 78,46% dengan total 58.964 kata. Untuk Tabel 2 nilai akurasi rata – rata yang diperoleh pada metode Tala 65,29% dengan total 59.253 kata. Untuk waktu proses stemming, Nazief & Adriani memiliki waktu rata – rata 25,27 detik sedangkan Tala 11,08 detik.

3.2. Pengujian Data Twitter

Pengujian dilakukan pada seluruh data tweet dan di peroleh hasil yang dapat dilihat pada Tabel 3 untuk metode Nazief & Adriani sedangkan Tabel 4 untuk metode Tala.

Tabel 3. Tabel Pengujian Nazief & Adriani Data Twitter No. ID Jumlah Benar Salah Presisi Waktu

1 1 4 1 3 25,00% 0,32 2 2 7 4 3 57,14% 1,178 3 3 5 2 3 40,00% 0,42 4 4 5 2 3 40,00 % 0,858 ... • ... • • • • 600 600 6 3 3 50 %1,043 Total 3.492 1.973 1.519 469,743 Rata – rata 5,820 3,288 2,532 55,26 % 0,782

Tabel 4. Hasil Pengujian Tala Data Twitter

No. ID Jumlah Benar Salah Presisi Waktu

1 1 4 1 3 25,00% 0,1

2 2 7 4 3 42,85% 0,3

3 3 5 2 3 40,00% 0,4

4 4 5 2 3 40,00% 0,3

(4)

No. ID Jumlah Benar Salah Presisi Waktu

... É É É É É É

600 600 6 3 3 50 % 0,4

Total 3.482 1.650 1.832 276

Rata – rata 5,803 2,750 3,053 45,90 % 0,46

Pada Tabel 3 diperoleh informasi untuk akurasi rata – rata pada metode Nazief &Adriani 55,26% dengan total 3.492 kata. Untuk Tabel 2 nilai akurasi rata – rata yang diperoleh pada metode Tala 45,90% dengan total 3.482 kata. Untuk waktu proses stemming, Nazief & Adriani waktu rata – rata 0,78 detik sedangkan Tala 0,46 detik. 3.3. Perbandingan Pengujian

Dari hasil pengujian yang dilakukan menggunakan dua sumber data terhadapa penggunana kedua metode stemming, maka untuk hasil perbandingan pada Gambar 1 sebagai berikut.

Gambar 1 Grafik Perbandingan Akurasi

Perbandingan yang dilakukan dalam pengujian pada Gambar 1 pada akurasi kedua metode stemming dalam melakukan steming pada sumber data yang digunakan. Dengan menggunakan sumber data berita, metode Nazief & Adirani memiliki nilai akurasi rata – rata 78,46%

menggunakan data berita sedangkan menggunakan data tweet 55,26%. Untuk akurasi rata – rata metode Tala menggunakan sumber data berita sebesar 65,29% sedangkan menggunakan sumber data tweet memiliki nilai akurasi rata – rata 45,90%. Dari perbandingan tersebut bahwa metode Nazief & Adriani memiliki akurasi lebih baik dibandingkan dengan metode Tala untuk proses stemming.

(5)

Pada Gambar 2, menampilkan perbandingan waktu proses stemming yang di perlukan dari kedua metode. Untuk metode Nazief & Adriani menggunakan sumber data b erita memiliki waktu tercepat 46,15 detik dan waktu proses rata – rata 25,27 detik. Menggunakan sumber data tweet dari twitter memiliki waktu tercepat 0,11 detik dan rata – rata 0,78 detik. Menggunakan metode Tala, dengan sumber data berita memiliki waktu tercepat 0,4 detik dan rata – rata 11,08 detik. Data tweet yang di proses menggunakan Tala memiliki waktu tercepat 0,1 detik dan nilai rata – rata 0,46 detik. Dari Gambar 2 tersebut metode Tala memiliki waktu tercepat dibandingkan dengan metode Nazief & Adriani.

4. KESIMPULAN

Berdasarkan dari pembahasan yang sudah dilakukan dapat ditarik kesimpulan untuk penelitian ini adalah sebagai berikut.

1. Nilai akurasi rata – rata yang diperoleh menggunakan sumber data berita dengan jumlah 506 berita untuk metode Nazief & Adriani 78,46% dengan total kata 58.964 kata, ditemukan kata dasar 46.43 0 kata. Untuk metode Tala memiliki nilai akurasi rata – rata 65,29% dengan total kata 59.253, ditemukan kata dasar 3 8.874 kata.

2. Nilai akurasi rata – rata yang diperoleh menggunakan sumber data twitter dengan jumlah 600 tweet untuk metode Nazief & Adriani 5 5,26% dengan total kata 3.492 kata, ditemukan kata dasar 1.973 kata. Dengan metode Tala nilai rata – rata akurasi 45,90% dengan total kata 3.482 kata, ditemukan kata dasar 1.650 kata.

3. Untuk waktu proses stemming tercepat menggunakan sumber data berita dan metode Nazief & Adriani 25,27 detik untuk nilai rata – rata sedangkan menggunakan metode Tala 11,08 detik. Waktu proses dengan sumber data berita dan metode Nazief & Adriani 0,78 detik sedangkan menggunakan metode Tala 0,46 detik.

4. Dari pengujian yang dilakukan, Nazief & Adriani memiliki nilai akurasi lebih tinggi dibandingkan dengan Tala. Sedangkan untuk waktu proses stemming yang tercepat menggunakan metode Tala dibandingkan Nazief & Adriani.

5. SARAN

Berdasarkan dari penelitian yang sudah disimpulkan maka dalam upaya pengembangan pada penelitian berikutnya dikemukakan beberapa saran sebagai berikut.

(6)

1. Kualitas / tingkat akurasi yang sangat dipengaruhi dari kamus kata dasar yang bisa lebih lengkap untuk digunakan dalam pencarian tipe kata dasar.

2. Peningkatan metode stemming sehingga hasil dari proses stemming dapat sesuai dengan sumber data yang di olah.

3. Penerapan penelitian serupa atau berikutnya terkait dengan pengolahan kata dan kalimat Bahasa Indonesia dalam proses stemming.

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada STMIK Amikom Yogyakarta yang telah memberi dukungan financial terhadap penelitian ini.

DAFTAR PUSTAKA

[1] Afuan L., 2013, Stemming Dokumen Teks Bahasa Indonesia Menggunakan Algoritma Porter, Jurnal Telematika, Vol. 6, No. 2, Agustus 2013.

[2] Agusta L., 2009, Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief &Adriani untuk Stemming Dokumen Teks Bahasa Indonesia, Konferensi Nasional Sistem dan Informatika 2009, Bali, November 2009.

[3] Siswo M., 2013, Implementasi Stemmer Tala pada Aplikasi Berbasis Web. Jurnal Teknologi Informasi DINAMIK, Vol. 18, No. 1, Januari 2013.

[4] Bagus P., Sunarfri B., 2013, Peningkatan Algoritma Porter Stemmer Bahasa Indonesia berdasarkan Metode Morfologi dengan Mengaplikasikan 2 Tingkat Morfologi dan Aturan Kombinasi Awalan dan Akhiran, JNTETI, Vol. 2, No. 1, Mei 2013.

[5] Nopiyanti D., Ade K., 2014, Aplikasi Pencarian Kata Dasar Dokumen Berbahasa Indonesia Dengan Metode Stemming Porter Menggunakan PHP & MYSQL, Prosiding Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2014), Oktober 2014.

[6] Tala. F. Z., 2003, A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Master of Logic Project Institute for Logic, Language and Computation Universiteit van Amsterdam The Netherlands, 2003.

[7] Hasibuan, Zainal A., 2007, Metodologi Penelitian Pada Bidang Komputer dan Teknologi Informasi. Jakarta: Univerisitas Indonesia.