Analisis Dan Perbandingan Stemming Teks Bahasa Indonesia Menggunakan Algoritma Vega Dan Algoritma Cofix-Stripping

(1)

ANALISIS DAN PERBANDINGAN

STEMMING TEKS BAHASA INDONESIA MENGGUNAKAN

ALGORITMA VEGA DAN ALGORITMA CONFIX-STRIPPING

SKRIPSI

Diajukan untuk Menempuh Ujian Akhir Sarjana

HELMI AGUSTIAN

10111988

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

(2)

iii

KATA PENGANTAR

Assalamualaikum Wr. Wb.

Alhamdulilahi Rabbil’ Alamiin

, puji dan syukur penulis panjatkan ke hadirat Allah

SWT atas rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi

yang berjudul “Analisis Dan Perbandingan Stemming Teks Bahasa Indonesia

Menggunakan Algoritma Vega Dan Algoritma Confix-Stripping

” untuk memenuhi

salah satu syarat dalam menyelesaikan studi jenjang strata satu di Program Studi

Teknik Informatika, Fakultas Teknik dan Ilmu Komputer, Universitas Komputer

Indonesia.

Penulisan skripsi ini tidak luput tanpa dukungan, bantuan dan masukan dari berbagai

pihak. Melalui kata pengantar ini, Penulis ingin menyampaikan terima kasih kepada :

1.

Allah SWT atas segala nikmat yang telah diberikan hingga Penulis dapat

menyelesaikan skripsi ini.

2.

Kedua orang tua beserta adik-adiku yang telah memberikan dukungan moril,

kasih sayang, maupun doa sampai Penulis dapat menyelesaikan skrips ini.

3.

Keluarga cianjur nenek, kakek, abah, umi dan seluruh keluarga besar di sana.

Terima kasih atas dukungan selama ini.

4.

Ibu Tati Harihayati M., S.T., M.T., selaku dosen pembimbing. Terimakasih

karena selama ini telah sabar dalam memberikan arahan, dukungan, saran,

dan nasehatnya serta meluangkan waktunya selama proses penyusunan skripsi

ini.

5.

Ibu Nelly Indriani W, S.Si., M.T., selaku reviewer. Terimakasih karena telah

meluangkan waktunya, memberikan bimbingan, saran, nasehat serta masukan

dalam proses penyusunan skripsi ini

(3)

iv

7.

Teman-teman seperjuangan, sumedi, swaji, anggi, rully dan lainnya. Risma,

arif, reni, gian, ade, jesika, dan teman-teman lain yang tidak bisa Penulis

sebutkan, terima kasih atas bantuannya selama ini.

8.

Teman-teman kantor wiradipa, terima kasih karena telah memberikan

keceriaan di tengah proses penyusunan skripsi ini. Buat eja, yang mau

digangu subuh-subuh buat pinjam c

onverter vga. Nuhun ja…

9.

Serta seluruh pihak yang tidak dapat Penulis sebutkan satu-persatu,

terimakasih atas segala bentuk dukungan untuk menyelesaikan skripsi ini.

Penulis menyadari bahwa penulisan skripsi ini masih jauh dari sempurna. Oleh

karena itu, penulis mengharapkan saran dan masukan yang bersifat membangun

untuk perbaikan dan pengembangan skripsi ini. Akhir kata, semoga penulisan

skripsi ini dapat bermanfaat bagi penulis khususnya dan bagi pembaca pada

umumnya.

Wassalamualaikum Wr. Wb.

Bandung, 27 Februari 2016

(4)

v

DAFTAR ISI

ABSTRAK ...

i

ABSTRACT ...

ii

KATA PENGANTAR ...

iii

DAFTAR ISI ...

v

DAFTAR GAMBAR ...

ix

DAFTAR TABEL ...

xii

DAFTAR SIMBOL ...

xv

DAFTAR LAMPIRAN ...

xxii

BAB 1 PENDAHULUAN ...

1

1.1

Latar Belakang ...

1

1.2

Rumusan Masalah ...

3

1.3

Maksud dan Tujuan ...

3

1.4

Batasan Masalah ...

4

1.5

Metodologi Penelitian ...

4

1.5.1

Alur Penelitian ...

4

1.5.2

Pembangunan Perangkat Lunak ...

6

1.6

Sistematika Penulisan ...

7

BAB 2 LANDASAN TEORI ...

9

2.1

Morfologi Bahasa Indonesia ...

9

(5)

vi

2.1.2

Sufiks (akhiran) ...

14

2.1.3

Partikel ...

14

2.2

Pengertian Stemming ...

14

2.2.1

Macam-macam Metode Stemming ...

15

2.2.2

Algoritma Vega ...

17

2.2.3

Algoritma Confix-stripping ...

20

2.3

Pengujian ...

21

2.3.1

Ukuran rata-rata word conflation class ...

21

2.3.2

Index compression factor ...

22

2.3.3

Jumlah kata yang berbeda antara kata masukan dan stem ...

25

2.3.4

Nilai rata-rata huruf yang dihapus ...

25

2.3.5

Nilai mean dan median modified hamming distance ...

25

2.4

Ruby on rails ...

26

2.5

Unified Modelling Language ...

27

BAB 3ANALISIS DAN PERANCANGAN SISTEM ...

31

3.1

Analisis Sistem ...

31

3.1.1

Analisis Masalah ...

31

3.1.2

Analisis Kebutuhan Data ...

31

3.1.3

Analisis Algoritma ...

31

3.1.3.1

Analisis Proses Tokenizing ...

33

(6)

vii

3.1.3.3

Analisis Proses Stemming ...

35

3.1.4

Analisis Kebutuhan Nonfungsional ...

65

3.1.4.1

Analisis Kebutuhan Perangkat Keras ...

66

3.1.4.2

Analisis Kebutuhan Perangkat Lunak ...

66

3.1.4.3

Analisis Kebutuhan Pengguna ...

67

3.1.5

Analisis Kebutuhan Fungsional ...

67

3.1.5.1

Diagram Use Case ...

68

3.1.5.2

Diagram Aktivitas ...

76

3.1.5.3

Diagram Sekuen ...

82

3.1.5.4

Diagram Kelas ...

87

3.2

Perancangan Sistem ...

89

3.2.1

Perancangan Basis Data ...

90

3.2.1.1

Diagram Relasi ...

90

3.2.1.2

Struktur Tabel ...

91

3.2.2

Perancangan Antarmuka ...

95

3.2.3

Jaringan Semantik ...

103

3.2.4

Perancangan Method ...

104

BAB 4 IMPLEMENTASI DAN PENGUJIAN ...

111

4.1

Implementasi ...

111

4.1.1

Implementasi Perangkat Keras ...

111

(7)

viii

4.1.3

Implementasi Basis Data ...

112

4.1.4

Implementasi Antarmuka ...

115

4.2

Hasil pengujian parameter uji algoritma vega dan algoritma confix-

stripping ...

120

4.2.1

Ukuran rata-rata word per conflation class ...

121

4.2.2

Index compresssion factor ...

122

4.2.3

Jumlah kata yang berbeda antara kata masukan dan stem

124

4.2.4

Nilai rata-rata huruf yang dihapus ...

125

4.2.5

Nilai mean modified hamming distance ...

126

4.2.6

Nilai median modified hamming distance ...

127

4.3

Kesimpulan pengujian parameter uji ...

129

BAB 5 KESIMPULAN DAN SARAN ...

131

5.1 KESIMPULAN ...

131

5.2 SARAN ...

132

(8)

133

DAFTAR PUSTAKA

[1]

Adipathy, A. 2010. “

Analisis Dan Implementasi Perbandingan Stemming

Dengan Menggunakan Algoritma Jelita Asian Dan Algoritma Arifin &

Setiono Pada Information Retrieval”. Telkom University. Bandung.

[2]

A.S. Rosa dan Shalahudin. 2013.

“Rekayasa Perangkat Lunak”. Bandung:

Informatika.

[3]

Asian, J. 2007. “Effective Techniques for Indonesian Text Retrieval”.

Melbourne: RMIT University, Australia.

[4]

Asian, J., Williams, H.E. and Tahaghoghi, S.M.M. “Stemming

Indonesian”. RMIT University, Melb

ourne, Australia.

[5]

Frakes, W.B., Fox, C.J. “Strength and Similarity of Affix Removal

Stemming Algorithms”. Computer Science Department. Virginia Tech

and James Madison University.

[6]

Jivani, A.G.

2011. “

A comparative s

tudy of Stemming Algoritm”.

Gujarat:

Departement of Computer Science & Enginering. India.

[7]

Marsya, J.M. & Abidin, T.F. “Analisa dan Evaluasi Afiks Stemming

untuk Bahasa Indonesia”. Universitas Syiah Kualasa Banda Aceh,

Indonesia.

[8]

Moeliono, A.M. dan Darjowidjojo, S. 1988. "Tata Bahasa Baku Bahasa

Indonesia". Jakarta: Departemen Pendidikan dan Kebudayaan, Republik

Indonesia.

[9]

Nugraha, L.M

. 2010. “

Analisis Penggunaan Algoritma Stemming Vega

Pada Information Retrieval System”. Telkom University. Bandung.

[10]

Sharma, D. 2012. “Stemming Algorithms: A

Comparative Study and their

(9)

134

[11]

Paice, C.D. 1994. "An Evaluation method for stemming algoritms".

Springer-Verlag: New York.

[12]

Senddon, J.N.. 1996. "Indonesian: A Comprehensive Grammar". London

dan Newyork: Routledge.

[13]

Wilujeng, A. 2002. "Inti Sari Kata Bahasa Indonesia Lengkap". Surabaya:

Serba Jaya.

(10)

1

BAB 1

PENDAHULUAN

1.1.

Latar Belakang Masalah

Digital library

adalah sebuah koleksi objek digital yang dapat berupa teks,

materi visual, ataupun materi audio, yang disimpan dalam media elektronik. Salah

satu keunggulan yang ditawarkan

digital library

adalah dalam hal pencarian. Dalam

melakukan pencarian dalam

digital library

diperlukan penerapan teknik tertentu

supaya hasil pencarian sesuai dengan apa yang dicari. Salah satunya adalah dengan

menerapkan algoritma

stemming

dalam pencarian dokumen di dalam

digital library

.

Stemming

adalah proses pemotongan imbuhan dari suatu kata ke bentuk asal atau

kata dasarnya [7]. Algoritma

stemming

merupakan fitur penting bagi sistem

pengindeksan dan pencarian, karena dapat meningkatkan kemampuan

recall

dengan

secara otomatis mengubah suatu kata ke bentuk dasarnya [6]. Algoritma

stemming

juga dapat meningkatan

index compression

yang merupakan hal penting karena dapat

menjaga agar penggunaan tempat penyimpanan seminimal mungkin.

Masalah yang kemudian muncul adalah bagaimana menentukan algoritma

stemming yang baik dari segi

recall

dan

index compression

. Menurut jurnal karya W.

B. Frakes salah satu faktor penentu baik tidaknya suatu algoritma stemming adalah

dengan menghitung

stemmer strength

[5], semakin baik

stemmer strength

suatu

algoritma maka semakin baik pula nilai

recall

dan

index compression

, walaupun

memiliki kelemahan karena dapat menguarangi nilai dari

precission

.

Parameter-parameter

stemmer strength

yaitu: ukuran rata-rata

word per conflation class

,

index

compression factor

, jumlah kata yang berbeda antara kata masukan dan kata keluaran

(

stem

), rata-rata huruf yang dihilangkan untuk membentuk

stem

, dan terakhir nilai

(11)

2

Parameter-parameter

stemmer strength

tersebut di atas akan diuji pada algoritma

stemming untuk Bahasa Indonesia. Algoritma stemming pada Bahasa Indonesia

diantaranya adalah Ahmad Yusoff Sembok (1996) yang sebenarnya dibuat untuk

bahasa melayu, Nazief & Adriani (1996) merupakan algoritma stemming awal untuk

Bahasa Indonesia, Idris (2001) merupakan pengembangan dari algoritma Ahmad

Yusoff Sembok untuk Bahasa Indonesia, Vega (2001), Arifin & Setiono (2002)

merupakan penyederhanaan dari Nazief & Adriani, dan Confix-stripping (2005)

merupakan pengembangan dari Nazief & Adriani. Algoritma stemming pada Bahasa

Indonesia yang dipilih pada penelitian ini adalah Algoritma vega yang dibuat untuk

meningkatkan performa

retrieval

dokumen dalam hal ini

recall

dan

precission,

dan

algoritma confix-stripping yang memiliki nilai kompresi lebih baik dari Arifin &

Setiono.

Berdasarkan jurnal karya Lusiano Marga N. yang berjudul “Analisis Penggunaan

Algoritma Stemming Vega Pada Information Retrieval System”, Algoritma Vega

adalah algoritma stemming yang hanya menggunakan aturan morfologi tanpa

menggunakan kamus kata dasar dalam menentukan

stem

. Keakuratan

stem

dengan

kata dasar bukanlah hal yang ditonjolkan oleh Algoritma Vega, akan tetapi algoritma

ini dibuat untuk meningkatkan performa

retrieval

dokumen dalam hal ini

recall

dan

precission

[9].

Berdasarkan jurnal karya Asriko Adipathy yang berjudul "Analisis Dan

Implementasi Perbandingan Stemming Dengan Menggunakan Algoritma Jelita Asian

Dan Algoritma Arifin & Setiono Pada Information Retrieval", Algoritma

Confix-Stripping dimana penulis di sini menyebutnya sebagai Algoritma Jelita Asian,

memiliki nilai kompresi yang lebih baik dari pada algoritma Arifin & Setiono.

Algoritma Confix-Stripping adalah algoritma stemming yang selain menggunakan

aturan morfologi juga menggunakan kamus kata dasar dalam menentukan stem [1].

(12)

3

Dokumen sample uji yang dipakai adalah

digital library

Sarihusada yang berisi

tutorial-tutorial seputar ibu dan anak saat masih di dalam kandungan hingga balita.

Dengan dilakukannya analisis dan perbandingan kedua algoritma ini agar diketahui

algoritma terbaik yang dapat menghasilkan

stem

(kata dasar) dari kata berimbuhan

pada Bahasa Indonesia pada

digital library

tersebut.

1.2.

Rumusan Masalah

Berdasarkan latar belakang yang telah disebutkan di atas dapat ditemukan

masalah yang dapat dirumuskan dalam satu rumusan masalah , yaitu bagaimana

melakukan analisis dan perbandingan Algoritma Stemming Vega dan

Confix-stripping pada Bahasa Indonesia dengan menentukan kemampuan

recall

dan

index

compression

.

1.3.

Maksud dan Tujuan

Penelitian ini memiliki maksud dan tujuan yaitu:

1.3.1.

Maksud

Berdasarkan permasalahan yang diteliti, maksud dilakukannya penelitian ini

adalah untuk melakukan analisis dan perbandingan Algoritma Stemming Vega dan

Algoritma Stemming Confix-stripping pada Bahasa Indonesia dengan menghitung

parameter ukuran rata-rata

,

index compression factor

,

jumlah kata yang berbeda antara kata masukan dan kata keluaran (

stem

), rata-rata

huruf yang dihilangkan untuk membentuk

stem

median

dan

mean

modified hamming distance

antara kata masukan dan

stem

.

1.3.2.

Tujuan

Tujuan yang ingin dicapai dari penelitian ini adalah untuk mengetahui algoritma

terbaik yang dapat menghasilkan

stem

(kata dasar) dari kata berimbuhan dalam hal

recall

dan

index compression

pada Bahasa Indonesia khususnya pada

digital library

(13)

4

1.4.

Batasan Masalah

Agar pembahasan penelitian terfokuskan pada lingkup masalah yang diinginkan,

maka ada batasan masalah yang diterapkan, yaitu :

1.

Dokumen-dokumen yang dipakai untuk melakukan penelitian adalah

dokumen berformat pdf pada

digital library

Sarihusada.

2.

Sistem dibangun menggunakan ruby on rails.

3.

Penelitian berpusat pada proses stemming tidak sampai mengimplementasikan

ke proses pembuatan indeks ataupun proses pencarian.

4.

Parameter uji yang dilakukan antar lain: ukuran rata-rata

word per conflation

class

,

index compression factor

, jumlah kata yang berbeda antara kata

masukan dan kata keluaran (

stem

), rata-rata huruf yang dihilangkan untuk

membentuk

stem

median

dan

mean modified hamming

distance

antara kata masukan dan

stem

1.5.

Metodologi Penelitian

Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah

metodologi deskriptif yang bertujuan untuk mengumpulkan informasi aktual secara

rinci, melukiskan gejala yang ada, mengindetifikasi masalah atau memeriksa kondisi

dan praktik-praktik yang berlaku, membuat perbandingan atau evaluasi.

1.5.1.

Alur Penelitian

(14)

[image:14.612.89.550.69.604.2]

5

Gambar 1.1

Diagram Alir Penelitian

Pembangunan sistem

Sistem dibangun di dalam sistem digital library sari husada yang dibangun dengan bahasa pemograman ruby menggunakan ruby on rails frameworks. Ruby on Rails akan dijadikan alat untuk mengimplementasi kan algoritma vega dan confix-stripping

Analisis dan perancangan

1. Perancangan Basis Data 2. Perancagan Antar Muka

Analisis Perancangan Sistem

1. Analisis Masalah 2. Analisis Kebutuhan Data

3. Analisis Algoritma vega dan Algoritma confix-stripping

Mulai

Pengumpulan Data

1. Dokumen digital sari husada 2. Kamus data b. indonesia 3. Jurnal-jurnal algoritma vega

dan confix-stripping

Primer Sekunder

1. Jurnal-jurnal algoritma vega dan confix-stripping dari pihak ketiga

2. Buku-buku yang membantu penelitian

(15)

[image:15.612.52.536.111.420.2]

6

Gambar 1.1

Diagram Alir Penelitian (lanjutan)

1.5.2.

Pembangunan Perangkat Lunak

Dalam membangun perangkat lunak pada penelitian ini, digunakan metode

pengembangan perangkat lunak, yaitu dengan menggunakan metode waterfall yang

bisa digambarkan seperti Gambar 1.2 berikut :

Aplikasi perbandingan algoritma stemming vega dan confix-stripping

Pengujian dan Evaluasi

1. Kesimpulan

Kesimpulan yang diperoleh dari implementasi algoritma vega dan confix-stripping, serta kesimpulan dari hasil pengujian

2. Saran

Saran yang dijadikan acuan untuk pengembangan selanjutnya

Pengujian Evaluasi

1. Pengujian Blackbox

Pengujian yang dilakukan pada fungsionalitas pada sistem yang telah dibangun. Pengujian terfokus pada parameter pengujian yaitu : word conflation class dan index compression factor

2. Pengujian Whitebox

Pengujian didaasarkan pada pengecekan detail rancangan

(16)

[image:16.612.134.510.115.342.2]

7

Gambar 1.2

Waterfall Model

1.6.

Sistematika Penulisan

Sistematika penulisan pada penelitian ini disusun untuk memberikan gambaran

secara umum mengenai penelitian yang dilakukan. Sistematika penulisan pada

penelitian ini sebagai berikut :

BAB 1 PENDAHULUAN

Bab ini menguraikan tentang latar belakang masalah, rumusan masalah, menentukan

maksud dan tujuan, batasan masalah, metodologi penelitian serta sistematika

penulisan.

BAB 2 LANDASAN TEORI

Bab ini membahas berbagai konsep dasar dan teori - teori yang berkaitan dengan

stemming bahasa Indonesia dan algoritma-algoritma stemming. Konsep atau teori

yang dijelaskan dimulai dari penjelasan mengenai morfologi bahasa Indonesia,

pengertian stemming, pengertian algoritma vega dan algoritma confix-stripping

(17)

8

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

Bab ini menguraikan penjelasan tentang analisis dan perancangan sistem. Analisis

sistem berisi analisis masalah, analisis kebutuhan data, analisis algoritma yang terdiri

dari algoritma vega dan confix-stripping, analisis kebutuhan nonfungsional, dan

analisis kebutuhan fungsional. Perancangan sistem berisi perancangan basis data yang

terdiri dari diagram relasi dan struktur table, kemudian perancangan antar muka yang

memberikan gambaran antarmuka sistem

BAB 4 IMPLEMENTASI DAN PENGUJIAN

Bab ini berisi tentang implementasi yang bertujuan untuk memastikan bahawa

aplikasi telah berhasil diimplementasikan dan dapat berjalan sesuai dengan yang

diinginkan, Kemudian disertai hasil pengujian dari aplikasi yang telah dilakukan.

BAB 5 KESIMPULAN DAN SARAN

(18)

131

BAB 5

KESIMPULAN DAN SARAN

5.1.

KESIMPULAN

Berdasarkan hasil pengujian yang telah dilakukan dalam analisis dan

perbandingan algoritma vega dan algoritma confix-stripping, dapat disimpulkan

bahwa keenam parameter uji tidak menunjukan kekonsistenan dalam menentukan

algoritma mana yang lebih baik. Hasil pengujian terhadap sepuluh dokumen uji

menunjukan algoritma vega lebih baik pada empat parameter uji yaitu jumlah kata

yang berbeda antara kata masukan dan

stem

, nilai rata-rata huruf yang dihapus, nilai

mean modified hamming distance

, dan nilai

median modified hamming distance

.

Sedangkan algoritma confix-stripping lebih baik pada dua parameter uji lainnya yaitu

ukuran rata-rata

dan

index compression factor

.

Masing-masing parameter pengujian dapat menunjukan karakteristik dari kedua

algoritma. Parameter pengujian dimana algoritma vega lebih unggul dari pada

algoritma confix-stripping merupakan parameter yang menunjukan seberapa sering

algoritma tersebut merubah kata masukan (

term

) dengan menghapus ataupun

mengganti huruf-hurufnya, sehingga menjadi

stem

. Sedangkan parameter pengujian

dimana algoritma confix-stripping lebih unggul dari algoritma vega merupakan

parameter yang menunjukan seberapa sering algoritma tersebut dalam mengubah

beberapa kata berimbuhan menjadi satu kata dasar (

stem

) yang sama.

Hal di atas berarti kedua algoritma masing-masing memiliki kelebihan untuk

kasus tertentu. Algoritma vega memiliki kelebihan dalam mengubah term menjadi

kata yang berbeda atau baru. Sedangkan algoritma confix-stripping memiliki

kelebihan dalam mengurangi jumlah term, seperti mereduksi

index size

pada proses

(19)

132

5.2.

SARAN

Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan

setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma

confix-stripping pada teks bahasa indonesia adalah sebagai berikut :

1.

Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah

dapat mempengaruhi proses

indexing

.

2.

Melakukan analisis performansi algoritma confix-stripping dalam mereduksi

ukuran

index size

.

(20)

(21)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Edisi...Volume..., Bulan 20..ISSN :2089-9033

Analisis Dan Perbandingan Stemming Teks

Bahasa Indonesia Menggunakan Algoritma Vega

Dan Algoritma Confix-Stripping

Helmi Agustian1, Tati Harihayati2

Teknik Informatika – Universitas Komputer Indonesia Jl. Dipatiukur 112-114 Bandung

Email : [email protected], [email protected]

ABSTRAK

Algoritma stemming merupakan sebuah algoritma yang dapat mengubah kata berimbuhan ke bentuk kata dasarnya. Penerapan algoritma stemming salah satunya pada sistem pencarian dokumen, dengan meningkatkan kemampuan pada segi recall dan

index compression. Pengukuran

parameter-parameter stemmer strength dapat mewakili kemampuan algoritma stemming dalam hal recall

dan index compression [2]. Algoritma vega

berdasarkan pengukuran parameter-parameter

stemmer strength yaitu ukuran rata-rata word per conflation class, index compression factor, jumlah kata yang berbeda antara kata masukan dan stem, rata-rata huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming distance antara kata masukan dan stem, terhadap dokumen-dokumen sample uji menunjukan kecenderungan untuk selalu mengubah kata berimbuhan lebih sering dari pada algoritma confix-stripping. Sedangkan algoritma confix-stripping menunjukan kecenderungan untuk mengubah beberapa kata berimbuhan menjadi satu kata dasar yang sama lebih banyak dari pada algoritma vega.

Kata Kunci : Stemming, Vega, Confix-stripping

1. PENDAHULUAN

Stemming merupakan suatu proses untuk

menemukan kata dasar dari sebuah kata bentukan atau kata berimbuhan. Dengan menghilangkan semua imbuhan baik yang terdiri dari awalan, sisipan, akhiran dan kombinasi awalan akhiran pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar. Stemming adalah alat dasar pemrosesan teks yang digunakan untuk text retrieval secara efisien dan efektif.

Imbuhan pada Bahasa Indonesia lebih kompleks bila dibandingkan dengan imbuhan pada Bahasa Inggris.

Karena seperti yang telah disebutkan di atas bahwa imbuhan pada Bahasa Indonesia terdiri dari awalan, sisipan, akhiran, bentuk perulangan dan kombinasi awalan akhiran. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya.

Proses stemming biasanya juga disebut conflation, yang digunakan pada search engine untuk ekspresi

query dan indexing dan untuk permasalahan natural

language processing. Proses conflation dapat

dilakukan secara manual maupun otomatis. Program untuk conflation otomatis ini disebut sebagai "stemmer". Stemmer digunakan di information retrieval system untuk mengurangi ukuran file indeks. Term bisa di-stemming pada saat indexing

maupun searching. Keuntungan dari stemming saat

indexing adalah effisiensi dan kompresi file indeks. Sehingga bisa dikatakan dengan stemming mampu meningkatkan performansi information retrieval system.

Ada beberapa cara yang dilakukan stemmer untuk menjalankan proses stemming diantaranya: Table look-up, affix removal stemmers, successor variety dan n-gram stemmer. Pada penelitian ini akan dilakukan analisis dan perbandingan algoritma vega dan confix-stripping yang sama-sama merupakan metode affix removal stemmers.

Pengujian di dalam penelitian ini menggunakan parameter penggujian yang dijelaskan di dalam jurnal karya Frakes W.B. dan Fox C.J. [2]. Parameter-parameter ini digunakan untuk mengukur

stemmer strength, dimana penting dalam kasus

algoritma penghilangan imbuhan, karena dapat memprediksi kemampuan recall dan precision serta

index compression dari algoritma tersebut. Stemmer strength adalah suatu ukuran bagaimana sebuah

(22)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

huruf yang dihilangkan untuk membentuk stem, dan terakhir nilai median dan mean modified hamming distance antara kata masukan dan stem.

1.1. Algoritma Vega

Algoritma vega merupakan algoritma stemming yang diperkenalkan oleh Vinsensius Berlian Vega pada tahun 2001. Algoritma vega tidak menggunakan kamus data dalam melakukan pengecekan kata dasar.

Secara garis besar tahapan dalam algoritma vega berturut-turut adalah pembuangan partikel, pembuangan kata kepunyaan, pembuangan circumfix, pembuangan awalan, dan terakhir pembuangan akhiran.

1.2. Algoritma Confix-stripping

[image:22.595.78.276.405.722.2]

Algoritma stemming Confix-stripping (CS) adalah sebuah metode stemming pada Bahasa Indonesia yang diperkenalkan oleh Jelita Asian yang merupakan pengembangan dari metode stemming yang dibuat oleh Nazief dan Adriani [1]. Algoritma ini menggunakan kamus data untuk melakukan pengecekan kata dasar. Secara garis besar tahapan algoritma confix-stripping dapat dijelaskan seperti Gambar 1.

Gambar 1 Langkah-langkah algoritma confix-stripping

1.3. Parameter-parameter Uji

Pengujian di dalam penelitian ini menggunakan parameter penggujian yang dijelaskan di dalam jurnal karya Frakes W.B. dan Fox C.J. [2]. Parameter pertama adalah ukuran rata-rata word per conflation class, yaitu menunjukan jumlah rata-rata kata yang menghasilkan stem yang sama dari

corpus, dengan rumus sebagai berikut:

��= �

�

Dimana :

wcc = Word per conflation class

n = Jumlah kata unik sebelum stemming s = Jumlah kata unik hasil stemming

Suatu algoritma stemming menginginkan nilai per conflation class yang lebih besar dari algoritma lainnya, untuk menunjukan algoritma tersebut lebih baik.

Parameter kedua yaitu index compression factor, menunjukan seberapa besar tingkat kompresi indeks dari algoritma stemming, atau seberapa besar tingkat pengurangan dari index size setelah dilakukan

stemming. Apabila jumlah kata-kata di dalam

corpus (kata unik sebelum stemming) sebanyak n, kemudian setelah dilakukan stemming apabila menghasilkan beberapa kata yang sama dilakukan penghapusan sehingga seluruh hasil stemming merupakan kata unik sebanyak s. Maka untuk menghitung parameter index compression factor (icf) adalah :

��= (� − �)

� %

Dimana :

icf = Index compression factor

n = Jumlah kata unik sebelum stemming

s = Jumlah kata unik hasil stemming

Suatu algoritma stemming menginginkan nilai index compression factor yang lebih besar dari algoritma lainnya, untuk menunjukan algoritma tersebut lebih baik.

(23)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Parameter keempat adalah nilai rata-rata huruf yang dihapus, yaitu nilai rata-rata huruf dari kata masukan yang dihapus untuk membentuk sebuah stem. Algoritma stemming yang kuat akan menghapus huruf lebih banyak untuk membentuk sebuah stem.

Parameter kelima dan keenam berturut-turut adalah nilai mean dan median modified hamming distance. Nilai hamming distance antara dua string yang memiliki panjang yang sama didefinisikan sebagai jumlah karakter yang berbeda di posisi yang sama. Nilai hamming distance antara dua string yang memiliki panjang berbeda didefinisikan sebagai perbedaan panjang antara dua string tersebut.

Sebagai contoh terdapat tiga kata, membaca, dibaca, dan membacakan. Apabila sebuah algoritma

stemming mengubahnya ke stem „baca‟, maka :

1. membaca beda 3 huruf dengan „baca‟

2. dibacabeda 2 huruf dengan „baca‟

3. membacakan beda 6 huruf dengan „baca‟

Sehingga nilai mean modified hamming distance dapat dihitung sebagai nilai rata-ratanya yaitu sebagai berikut:

(3+2+6) / 3 = 3,66

Didapat nilai mean modified hamming distance sebesar 3,66 kata.

Nilai median modified hamming distance juga dapat diperoleh sebagai nilai tengah dari ketiga nilai tersebut setelah diurutkan. Sehingga didapat nilai median modified hamming distance sebesar 3.

2. ISI PENELITIAN

Hasil pengujian algoritma vega dan algoritma confix-stripping merupakan pengujian terhadap parameter uji pada dokumen-dokumen uji. Dokumen-dokumen yang diambil merupakan dokumen sample dari digital library Sarihusada sebanyak sepuluh dokumen. Kesepuluh dokumen memiliki jumlah kata masukan (kata uji) berupa

corpus untuk diuji ke masing-masing algoritma yang telah melalui hasil filtering, sebagai berikut :

2.1. Ukuran Rata-rata Word Per Conflation

[image:23.595.306.528.83.136.2]

Class

Tabel 1 ukuran rata-rata word per conflation class

Dok No

n s wcc

Vega CS Vega CS

1 417 407 400 1,02 kata 1,04 kata

2 78 77 77 1.013 kata 1.013 kata

3 86 85 85 1.012 kata 1.012 kata

4 184 182 181 1.01 kata 1.016 kata

5 80 79 78 1.01 kata 1.016 kata

6 462 451 450 1.024 kata 1.027 kata

7 58 57 57 1.017 kata 1.017 kata

8 85 84 83 1.012 kata 1.024 kata

9 115 114 114 1.0087 kata 1.008 kata 10 128 126 124 1,015 kata 1,032 kata Total 1693 1662 1649 1,018 kata 1,026 kata

Algoritma stemming yang bagus dalam hal stemmer strength menginginkan nilai mean word per conflation class yang lebih besar dari algoritma stemming lainnya. Berdasarkan pengujian pada Tabel 1 parameter mean word per conflation class algoritma confix-stripping lebih baik dengan rata-rata 1,026 kata.

[image:23.595.312.532.287.438.2]

2.2. Index Compression Factor

Tabel 2 index compression factor

Algoritma stemming yang bagus dalam hal stemmer strength menginginkan nilai index compression factor yang lebih besar dari algoritma stemming lainnya. Berdasarkan pengujian pada Tabel 2 parameter index compression factor algoritma confix-stripping lebih baik sebesar 2,598 %

2.3. Jumlah Kata Yang Berbeda Antara

Kata Masukan Dan Keluaran

Tabel 3 jumlah kata yang berbeda antara kata masukan dan keluaran

Dok No

Vega CS

1 409 kata 365 kata 2 76 kata 65 kata 3 83 kata 72 kata 4 179 kata 72 kata 5 74 kata 61 kata 6 448 kata 413 kata 7 54 kata 49 kata 8 82 kata 65 kata 9 108 kata 88 kata 10 123kata 101 kata Total 1636 kata 1351 kata

Dok No

n s icf

1 417 407 400 2.398 % 4.076 %

2 78 77 77 1.282 % 1.28 %

3 86 85 85 1.162 % 1.162 %

4 184 182 181 1.086 % 1.63 %

5 80 79 78 1.25 % 2.5 %

6 462 451 450 2.381 % 2.597%

7 58 57 57 1.724 % 1.724 %

8 85 84 83 1.176 % 2.353 %

9 115 114 114 0.869 % 0.869 %

10 128 126 124 1,562 % 3,125 %

Tota l

[image:23.595.306.433.605.733.2]

(24)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Algoritma stemming yang bagus dalam hal stemmer strength lebih sering merubah kata dari algoritma stemming lainnya, sehingga menghasilkan kata yang berbeda. Berdasarkan pengujian pada Tabel 3 algoritma vega lebih baik dengan total perbedaan 1636 kata dari 10 dokumen sampel uji.

[image:24.595.65.271.211.442.2]

2.4. Nilai Rata-rata Huruf Yang Dihapus

Tabel 4 nilai rata-rata huruf yang dihapus

Dok No

m n Vega CS

Vega CS

1 1662 1450 417 3.985 huruf 3.477 huruf

2 305 265 78 3.91 huruf 3.397

huruf

3 317 289 86 3.686 huruf 3.36

huruf 4 699 604 184 3.798 huruf 3.282 huruf

5 279 227 80 3.487 huruf 2.837

7 206 172 58 3.551 huruf 2.965

9 408 319 115 3.547 huruf 2.773h

uruf 10 486 360 128 3,796 huruf 2,812

huruf Total 6420 5478 1693 3,792 huruf 3,235 huruf

Algoritma stemming yang bagus dalam hal stemmer strength lebih sering menghapus huruf untuk membentuk sebuah stem. Berdasarkan pengujian pada Tabel 4 algoritma vega lebih baik karena rata-rata menghapus 3,792 huruf dari 10 dokumen uji.

2.5. Nilai Mean Modified Hamming

Distance

Tabel 5 nilai mean modified hamming distance

No h n Vega CS

Vega Cs

1 1662 1528 417 3.985 kata

3.664 kata

2 305 280 78 3.91

kata 3.589 kata

3 317 304 86 3.686

kata 3.534 kata

4 699 646 184 3.798

kata 3.51 kata

5 279 239 80 3.487

kata 2.987 kata 6 1763 1641 462 3.816

kata 3.552 kata

7 206 180 58 3.551

kata 3.103 kata

8 295 240 85 3.47

kata 2.823 kata 9 408 333 115 3.547 2.895

kata kata 10 486 382 128 3,796

kata 2,984 kata Total 6420 5773 1693 3,792

kata 3,409 kata

Algoritma stemming yang bagus dalam hal stemmer strength memiliki nilai hamming distance lebih besar dari algoritma stemming lainnya, atau memiliki rata-rata hamming distance yang lebih besar untuk sejumlah kata di dalam dokumen uji. Berdasarkan pengujian pada Tabel 5 algoritma vega lebih baik karena memiliki rata-rata hamming distance sebanyak 3,792 kata.

2.6. Nilai Median Modified Hamming

[image:24.595.306.417.311.458.2]

Distance

Tabel 6 nilai median modified hamming distance

Dok No Vega CS

1 4 4

2 4 3

3 3 3

4 4 3

5 3 3

6 4 3

7 3 3

8 3 3

9 3 3

10 4 3

Rata-rata Total

3,5 3,1

Algoritma stemming yang bagus dalam hal stemmer strength memiliki nilai hamming distance lebih besar dari algoritma stemming lainnya, dapat berarti juga untuk sejumlah kata di dalam dokumen memiliki nilai tengah (median) yang paling besar. Berdasarkan pengujian pada Tabel 6 dari 10 dokumen algoritma vega rata-rata memiliki nilai median yang lebih baik sebesar 3,5.

3. PENUTUP

3.1. Kesimpulan

[image:24.595.66.234.584.768.2]

(25)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

rata-rata word per conflation class dan index compression factor.

Hal di atas berarti kedua algoritma masing-masing memiliki kelebihan untuk kasus tertentu. Algoritma vega memiliki kelebihan dalam mengubah term

menjadi kata yang berbeda atau baru. Sedangkan algoritma confix-stripping memiliki kelebihan dalam mengurangi jumlah term, seperti mereduksi index size pada proses indexing.

3.2. Saran

Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma confix-stripping pada teks bahasa indonesia adalah sebagai berikut :

1. Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah dapat mempengaruhi proses indexing.

2. Melakukan analisis performansi algoritma confix-stripping dalam mereduksi ukuran index size.

3. Melakukan implementasi terhadap proses pencarian pada information retrieval.

4. DAFTAR PUSTAKA

[1] Asian, J., Williams, H.E. and Tahaghoghi,

S.M.M. “Stemming Indonesian”. RMIT

University, Melbourne, Australia.

[2] Frakes, W.B., Fox, C.J. “Strength and Similarity of Affix Removal Stemming

Algorithms”. Computer Science Department.

Virginia Tech and James Madison University.

(26)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Edisi...Volume..., Bulan 20..ISSN :2089-9033

Analysis And Comparison Stemming Indonesian Text

Using Vega Algorithm And Confix-stripping Algorithm

Helmi Agustian1, Tati Harihayati2

Teknik Informatika – Universitas Komputer Indonesia Jl. Dipatiukur 112-114 Bandung

Email : [email protected], [email protected]

ABSTRAK

Stemming algorithm is an algorithm that can transform word to its root word. In the document searching, stemming expected to increase recall and index compression. Calculating the stemmer strength can predict how well a stemming algorithm in the abillity to recall and index compression[2]. Based on the results to calculate six measures of stemmer strength which is mean number of word per conflation class, index compression factor, the number of words and stems that differ, the mean number of characters removed in forming stems, and the last median and mean modified hamming distance between words and their stems. Vega algorithm tend to often transform word rather than confix-stripping algorithm. The results also show that confix-stripping algorithm tend to often transform words that correspond to the same stemm for a corpus.

Kata Kunci : Stemming, Vega, Confix-stripping

1. INTRODUCTION

Stemming is a process of finding the root word of a term by eliminating affix, prefix, confix, suffix and combination of both prefix suffix on the word derivative. Stemming is used to transform word to its root word that accordance with Indonesian morphological structure. Stemming algorithms are used in many types of language processing and text analysis, and can make process of text retrival efficiently and effectively

Indonesian affixes is more complex when compared with the English affixes. Because affixes in Indonesian language consists of a prefix, confix, suffix, and combination of both prefix-suffix. The affixes that attached to a word must be removed to change to its root word

Stemming process can also becalled conflation, which are used in search engines for indexing and query expression and also for natural language processing problems. Conflation process can be

done manually or automatically. The program that can automatic conflate word is called 'stemmer'. Stemmer used in information retrieval system to reduce the size of index file. The term can be stemmed at the time indexing and saarching happened. The advantage of stemming at the process of indexing is compression and efficiency of index file. Which mean that stemming can improve the performance of information retrieval system.

There are several type of stemming process, including : Table look-up, affix removal stemmers, successor variety dan n-gram stemmer. In this research about analysis and comparison of vega algorithm and confix-stripping algorithm, both of them are affix removal stemmers type.

The tests in this study are using metrics that describe in the journal by Frakes W.B. and Fox C.J. [2]. These metrics are used to measure the stemmer strength, which is important in the case of a particle removal algorithms, because it can predict the ability of recall and precision as well as index compression of the stemmer algorithm. Stemmer strength is a measure of how well stemmer algorithm can change word into a stem. The parameters that used to measure stemmer strength are, mean number of words per conflation class, index compression factor, the number of words and stems that differ, the mean number of characters removed in forming stems, and the last median and mean modified hamming distance between words and their stems

1.1. Vega Algorithm

Vega stemming algorithm is an algorithm that was introduced by Vinsensius Berlian Vega in 2001. Vega algorithm does not use the dictionary to check the root words.

(27)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

1.2. Confix-stripping Algorithm

[image:27.595.78.277.193.515.2]

Confix-stripping algorithm (CS) is a stemming algorithm for Indonesian Language introduced by Jelita Asian. Confix-stripping algorithm is algorithm that developed from stemming algorithm by Nazief and Adriani [1]. This algorithm uses the dictionary to check the root words. Confix-stripping algorithm stages can be described as Figure 1.

Figure 1 Confix-stripping algorithm steps

1.3. Metrics measure

Tests measure in this study using the parameters described in the journal by Frakes W.B. and Fox C..J. [2]. The first parameter is mean word per conflation class, a measure of the average number of words that correspond to the same stem for a corpus, with the following formula:

��= �

�

where :

wcc = word per conflation class

n = total of unique corpus

s = total of uniqe stems

Stronger stemming algorithm tend to have word per conflation class value greater, to show that algorithm better

The second metrics is the index compression factor, shows how much the level of index compression an algorithms stemming can get, or fractional reduction in index size achieved through stemming. If the number of words in the corpus is n, then after stemming process resulting numbers of stem and removing duplicate word that is s. So to calculate the index compression factor (icf) are:

��= (� − �)

� %

where :

icf = index compression factor

n = total of unique corpus s = total of uniqe stems

Stronger stemming algorithm tend to have index compression factor value greater, to show that algorithm is better.

The third parameter is the number of different words between term and stem. A stemming algorithm often leave words unchanged. Stronger stemmers will change words more often than weaker stemmers.

The fourth parameter is the mean number of character removed in forming stems. Stronger stemming algorithm remove more character from word to form stems

The fifth and sixth metrics respectively are the mean and median modified hamming distance between word and their stems. The hamming distance between two strings of equal length is defined as the number of character in the two strings that are different at the same position. For strings of unequal length add the difference in length to the hamming distance function.

For example, there are three words “membaca”,

“dibaca” and “membackan”. If a stemming algorithm can convert all three to stem “baca”, then:

1. membaca  have 3 difference character with

„baca‟

2. dibaca have 2 difference character with „baca‟

3. membacakan  have 6 difference character with

„baca‟

So the mean modified hamming distance can be calculated as the average (mean) value as follows:

(3+2+6) / 3 = 3,66

(28)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

The value of median modified hamming distance can also be obtained as the median of these values after sorted. So the median modified hamming distance obtained as 3.

2. RESEARCH CONTENT

Result of testing vega algorithm and confix-stripping algorithm obtained from calculated the six metrics measure. The sample documents taken from sarihusada digital library at the total of 10 sample documents. Every document have through preprocessing that resulting corpus that ready to calculate the metrics, as follows

2.1. Mean number of words per conflation

[image:28.595.311.531.60.230.2]

class

Table 1 Mean number of words per conflation class

Doc No

n s wcc

1 417 407 400 1,02

character

1,04 character

2 78 77 77 1.013

character

1.013 character

3 86 85 85 1.012

character

1.012 character

4 184 182 181 1.01

character

1.016 character

5 80 79 78 1.01

character

1.016 character

6 462 451 450 1.024

character

1.027 character

7 58 57 57 1.017

character

1.017 character

8 85 84 83 1.012

character

1.024 character

9 115 114 114 1.0087

character

1.008 character

10 128 126 124 1,015

character

1,032 character Total 1693 1662 1649 1,018

character

1,026 character

Stemming algorithm that good in terms of stemmer strength want a mean word per conflation class larger than the other stemming algorithm. Based on the Table 1 the mean word per conflation class of confix-stripping algorithm is better with an average of 1,026 words.

2.2. Index Compression Factor

Table 2 Index compression factor

Stemming algorithm which is good in terms of stemmer strength want index compression factor value greater than the other stemming algorithms. Based on testing at Table 2 index compression factor parameter confix-stripping algorithm is better at 2,598%

2.3. The number of words and stems that

[image:28.595.67.287.339.570.2]

differ

Table 3 The number of words and stems that differ

Doc No

Vega CS

1 409 character 365 character 2 76 character 65 character 3 83 character 72 character 4 179 character 72 character 5 74 character 61 character 6 448 character 413 character

7 54 character 49 character 8 82 character 65 character

9 108 character 88 character 10 123character 101 character Total 1636 character 1351 character

Stemming algorithm which is good in terms of stemmer strength is more often change the words than the other stemming algorithms, resulting in different words. Based on testing at Table 3 vega algorithm is better with total difference 1636 words from 10 sample documents.

Doc No

n s icf

1 417 407 400 2.398 % 4.076 %

2 78 77 77 1.282 % 1.28 %

3 86 85 85 1.162 % 1.162 %

4 184 182 181 1.086 % 1.63 %

5 80 79 78 1.25 % 2.5 %

6 462 451 450 2.381 % 2.597%

7 58 57 57 1.724 % 1.724 %

8 85 84 83 1.176 % 2.353 %

9 115 114 114 0.869 % 0.869 %

10 128 126 124 1,562 % 3,125 %

Tota l

[image:28.595.306.492.384.531.2]

(29)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

2.4. The mean number of characters

[image:29.595.64.273.161.391.2]

removed in forming stems

Table 4 The mean number of characters removed in forming stems

Dok No

m n Vega CS

Vega CS

1 1662 1450 417 3.985 word 3.477 word

2 305 265 78 3.91 word 3.397

word

3 317 289 86 3.686 word 3.36

word

4 699 604 184 3.798 word 3.282

word

5 279 227 80 3.487 word 2.837

word 6 1763 1567 462 3.816 word 3.391 word

7 206 172 58 3.551 word 2.965

word

8 295 225 85 3.4705 word 2.647

word

9 408 319 115 3.547 word 2.773w

ord 10 486 360 128 3,796 word 2,812

word Total 6420 5478 1693 3,792 word 3,235 word

Stemming algorithm which is good in terms of stemmer strength remove more often the character to form a stem. Based on testing at Table 4 vega algorithm is better because the average erase 3,792 characters from 10 test documents.

2.5. Mean Modified Hamming Distance

Table 5 Mean modified hamming distance

No h n Vega CS

Vega Cs

1 1662 1528 417 3.985 character

3.664 character

2 305 280 78 3.91

character 3.589 character

3 317 304 86 3.686

4 699 646 184 3.798

5 279 239 80 3.487

character 2.987 character 6 1763 1641 462 3.816

7 206 180 58 3.551

8 295 240 85 3.47

9 408 333 115 3.547

10 486 382 128 3,796

character 2,984 character Total 6420 5773 1693 3,792

character 3,409 character

Stemming algorithm which is good in terms of stemmer strength have hamming distance value greater than the other stemming algorithms, or have mean modified hamming distance value greater for numbers of corpus in the test document. Based on testing at Table 5 vega algorithm is better because it has an average hamming distance as much as 3,792 words.

[image:29.595.305.415.252.398.2]

2.6. Median Modified Hamming Distance

Table 6 Median modified hamming distance

Dok No Vega CS

1 4 4

2 4 3

3 3 3

4 4 3

5 3 3

6 4 3

7 3 3

8 3 3

9 3 3

10 4 3

Average total

3,5 3,1

Stemming algorithm which is good in terms of stemmer strength have hamming distance value greater than the other stemming algorithms, that mean also for numbers of curpus in the document have middle value (median) greater. Based on testing Table 6 from 10 documents vega algorithm have better average median value of 3.5.

3. CONCLUDING

3.1. Conclusion

Based on the results of testing that has been done in the research content about analysis and comparison vega algorithms and confix-stripping algorithms, it can be concluded that all six test parameters did not show consistency in deciding which one is better algorithms. The test results from 10 documents show that vega algorithm better on four test parameters, which is the number of words and stems that differ, mean number of characters removed in forming stems, the mean modified hamming distance, and the median modified hamming distance. Confix-stripping algorithm better on two other test parameters, which is the mean number of words per conflation class and index compression factor.

[image:29.595.64.257.519.754.2]

(30)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

terms, such as reducing the size index in the indexing process.

3.2. Suggestions

Berdasarkan hasil pengujian yang telah dilakukan, maka saran yang diharapkan setelah dilakukannya analisis dan perbandingan algoritma vega dan algoritma confix-stripping pada teks bahasa indonesia adalah sebagai berikut :

1. Melakukan pengujian terhadap stem yang dihasilkan algoritma vega apakah dapat mempengaruhi proses indexing.

2. Melakukan analisis performansi algoritma confix-stripping dalam mereduksi ukuran index size.

3. Melakukan implementasi terhadap proses pencarian pada information retrieval.

Based on the results of testing that has been done, then the suggestions are expected after doing an analysis and comparison vega algorithms and confix-stripping algorithms the Indonesian text is as follows:

1. Perform testing to stems result from vega algorithm whether it can affect the indexing process.

2. Analyze the performance of confix-stripping algorithm in reducing the size of the index size.

3. Conduct an implementation for searching process of an information retrieval.