• Tidak ada hasil yang ditemukan

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK. Proposal Tugas Akhir. Logo kampus.

N/A
N/A
Protected

Academic year: 2022

Membagikan "STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK. Proposal Tugas Akhir. Logo kampus."

Copied!
18
0
0

Teks penuh

(1)

Disiapkan Oleh: Sunaryo, S.Kom Email: [email protected]

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA

PAICE/HUSK

Proposal Tugas Akhir

Logo kampus

Oleh Nama Anda Nim xxxxxxxx

Program Studi Teknik Informatika Fakultas Teknik Universitas xxxxxxxxxxx

Tahun xxxxxx

(2)

ii STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS

MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK

Bidang Minat : Rekayasa Perangkat Lunak

Mata Kuliah Pendukung : 1. Natural Language Processing

Nilai : B

Mata Kuliah Pendukung : 2. Teori Bahasa dan Otomata

Nilai : B

Mata Kuliah Pendukung : 3. Teknik Kompiler

Nilai : B

Nama Mahasiswa : Nama Anda

NIM : xxxxxxx

IPK : xxx

Proposal ini diajukan dalam kolokium sebagai persyaratan untuk memulai penulisan Tugas Akhir.

Proposal I

Kuliah Semester Gasal 2011/2012 2011

(3)

DAFTAR ISI

HALAMAN JUDUL ... i

SAMPUL DALAM ... ii

DAFTAR ISI ... iii

DAFTAR GAMBAR ... iv

DAFTAR TABEL ... v

STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK Latar Belakang Masalah ... 1

Perumusan Masalah ... 1

Batasan Masalah... 2

Tujuan Penelitian ... 2

Metode Pendekatan ... 3

Landasan Teori ... 4

Gambaran Sistem ... 12

DAFTAR PUSTAKA ... 13

(4)

iv DAFTAR GAMBAR

Gambar 1 Graf Aturan Stemming ... 8

Gambar 2 Algoritma Stemming Lovins ... 9

Gambar 3 Algoritma Stemming Paice/Husk ... 10

Gambar 4 Gambaran Kerja Sistem ... 12

(5)

DAFTAR TABEL

Tabel 1 Awalan, Sisipan, Leburan, dan Akhiran pada Bahasa Indonesia ... 4

(6)

1 STEMMING KATA KERJA BAHASA INDONESIA PADA FILE TEKS

MENGGUNAKAN ALGORITMA LOVINS DAN ALGORITMA PAICE/HUSK

1. Latar Belakang Masalah

Masih banyaknya kata-kata tidak baku yang sering kita jumpai pada file teks, maka dirasa perlu untuk membangun sebuah perangkat lunak yang mampu memilah kata-kata yang tidak baku supaya dapat diketahui kebenaran penulisan kata pada isi file teks. Salah satu cara mencari kata yang tidak baku adalah dengan melakukan pencocokkan kata yang ada pada file dengan kamus kata. Namun pada penelitian ini penulis akan mengetahui kata-kata yang baku tidak baku dengan menggunakan aturan-aturan stemming pada bahasa indonesia. Penulis dapat menentukan kata yang tidak baku pada teks dengan cara mengambil kata yang tidak dapat diterima oleh aturan stemming yang berlaku.

Dan melihat masih belum sempurnanya algoritma stemming yang diimplementasikan ke bahasa indonesia, penulis ingin meneliti stemming pada bahasa indonesia menggunakan algoritma Lovins dan Algoritma Paice/Husk secara terpisah.

Penulis juga ingin mengetahui kelebihan dan kekurangan algoritma Lovins dan algoritma Paice Husk yang diterapkan pada stemming kata berbahasa indonesia, dan membandingkan hasil kerjanya.

Setelah mengetahui kelebihan dan kekurangan masing-masing algoritma, penulis ingin mencari solusi untuk ketidaksempurnaan yang terjadi pada proses stemming yang dikerjakan.

(7)

2. Perumusan Masalah

Permasalahan dalam tulisan ini dapat dirumuskan sebagai berikut:

 Bagaimana membuat perangkat lunak yang mampu melakukan stemming pada kata berbahasa indonesia dengan dua cara yang berbeda menggunakan algoritma Lovins dan algoritma Paice/Husk.

 Bagaimana menentukan kata yang tidak baku pada proses stemming.

 Bagaimana membuat solusi yang tepat untuk menyempurnakan hasil dari proses stemming yang dilakukan.

3. Batasan Masalah

Batasan masalah dalam penelitian ini adalah :

1. Proses stemming tidak menggunakan pencocokan kamus, hanya menggunakan algoritma.

2. Proses stemming berdasarkan aturan bentuk kata kerja bahasa indonesia.

3. Penentuan kata yang tidak baku dilakukan dengan mendaftar kata-kata yang tidak dapat mengikuti aturan stemming.

4. Tidak dapat melakukan perbaikan pada kesalahan penulisan kata.

5. Bahasa pemrograman yang digunakan adalah PHP.

4. Tujuan Penelitian

Tujuan dari penulisan ini adalah membantu penulis dalam memahami dan mengimplementasikan algoritma stemming Lovins dan algoritma stemming Paice/Husk ke dalam permasalahan Stemming Kata Kerja Berbahasa Indonesia. Melalui stemming ini penulis ingin menentukan kata-kata yang tidak baku pada sebuah file teks. Penulis juga ingin mengetahui proses kerja algoritma Lovins dan Paice/Husk secara langkah demi langkah proses pemenggalan imbuhan pada kata.

(8)

3 5. Metode / Pendekatan

Dalam penelitian ini digunakan metode:

1. Perancangan graf

Pada tahap awal akan dilakukan perancangan graf yang mengatur proses pemenggalan awalan dan akhiran.

2. Perancangan Algoritma

Graf yang telah di susun ditransformasikan sesuai dengan algoritma stemming Lovins dan algoritma stemming Paice/Husk.

3. Implementasi Rancangan

Setelah algoritma tersebut terbentuk akan diimplementasikan menjadi sebuah perangkat lunak.

4. Uji coba

Uji coba dilakukan untuk menguji ketepatan hasil stemming pada masing- masing algoritma, dan menguji ketepatan penentuan kata yang tidak baku.

Selain itu diuji pula waktu yang diperlukan untuk proses stemming yang dilakukan pada masing-masing algoritma dan dilakukan perbandingan hasil stemming pada kedua algoritma stemming tersebut.

(9)

6. Landasan Teori

Aturan stemming dalam bahasa indonesia

Sebelum melakukan stemming ada 2 tahap yang harus dilalui, yaitu tokenisasi dan stopwordlist (filtering). Tokenisasi yaitu tahap pemotongan string input berdasarkan setiap kata, dan stopwordlist adalah pengambilan kata-kata pilihan (penting atau tidak penting) dari hasil token. Aturan stemming dalam bahasa indonesia sangatlah sederhana, awalan dan akhiran ditempatkan di depan dan dibelakang kata. Transformasi dari sisipan dan leburan sebgai berikut:

Prefix (Awalan)

Insertion

(Sisipan) pada huruf awal

Morphing (Leburan) pada huruf

awal

Suffix (Akhiran)

r n ng m ng m ny N

1. Be a-z - - - an, kan

2. Di - - - i, kan, nya

3. Ke - - - an, nya,

4. Me U c,d,j,

z

a,i,u,e, o,g,h,q

b,f,v k p s T kan, i, nya

5. Se - - - nya, an,

6. Te \\r - - - kan, nya

7. Pe \\r \\n a,i,u,e, o,g,h,q

b,f,v k p s T an, nya

Tabel.1 : Awalan, Sisipan, Leburan, dan Akhiran pada Bahasa Indonesia Sumber: Morphing and Insertion Rules, Lily & Stephen

Disallowed prefix and sufix combinations, Nazief & Adriani Keterangan:

 Tanda \\ artinya: r tidak boleh ganda (contoh yang salah: terrencana, perrawatan)

(10)

5 Cara kerja proses stemming berdasarkan tabel di atas adalah membedakan antara sisipan dan leburan dengan cara mengenali karakter pertama pada kata dasarnya,.

Jika karakter pertama masuk dalam kategori sisipan maka aturan sisipan diberlakukan demikian halnya jika masuk dalam kategori leburan, maka aturan leburan diberlakukan. Dan permasalahan yang paling jelas pada tabel diatas, terlihat pada sisipan ng- dan leburan ng- khususnya pada karakter pertama vokal (a,i,u,e,o). Akan sangat sulit menentukan aturan stemming pada kata tersebut karena ketidakkonsistenan bahasa indonesia pada aturan ini. Pada tabel di atas terjadi permasalahan-permasalahan aturan stemming yang tidak sesuai dengan bentuk kata yang benar dalam bahasa indonesia. Permasalahan dan solusi untuk bentuk kata yang memiliki aturan khusus dalam bahasa indonesia adalah sebagai berikut:

 Sisipan ng dan Leburan ng pada kata yang memiliki karakter pertama vokal (a,i,u,e,o).

Contoh Kasus: Mengubur = kubur, Mengubah = ubah, Mengupas = kupas, Mengatakan = kata, Mengambil = ambil, Mengobarkan = kobar.

Solusi : dibuatkan pengecualian khusus untuk kata-kata yang memiliki sisipan atau leburan ng-, karena tidak memiliki aturan yang baku.

 Sisipan mem- + per- contoh: memper, maka pada stemming kata yang berimbuhan seperti ini akan digunakan aturan me-+m dan selanjutnya digunakan aturan pe-+r

Contoh Kasus: Memperindah = indah, Memperkosa = perkosa

Solusi: setelah aturan me +m- diberlakukan, dilakukan pemenggalan akhiran, lalu akan diperiksa terlebih dahulu apakah kata tersebut berawalan pe-+r. Jika berawalan pe- + r dan memiliki jumlah karakter <5 (lebih kecil dari 5) tidak termasuk awalan per-, Artinya per- pada kata tersebut bukanlah awalan, sehingga tidak dapat dipisahkan. Namun jika memiliki karakter > 5 tidak termasuk awalan per-, Artinya kata tersebut dapat dipisahkan dari awalan per-

 Pada Leburan me-+ n, sebagian besar n-nya adalah leburan dari t. Namun terdapat pengecualian pada beberapa kata tertentu.

(11)

Contoh Kasus: Menari = tari, Menikah = nikah, Menista = nista, Menimba = timba, Menikam = tikam

Solusi: Dibuatkan pengecualian pada beberapa kata yang tidak dapat melebur walaupun kata tersebut sesuai dengan aturan leburan me- + n.

 Pada sisipan r, harus diperiksa apakah karakter pertama pada kata tersebut adalah r juga. Jika karakter pertamanya r (sama dengan sisipan), maka hanya satu r saja yang ditulis.

Solusi: Sisipan r dihapuskan jika bertemu dengan karakter pertama r.

 Jika terdapat kata yang tidak memenuhi aturan awalan, sisipan, leburan dan akhiran sesuai tabel, maka kata tersebut dianggap tidak baku.

Solusi: Dilakukan pemeriksaan kecocokan antara kata yang akan di stem dengan aturan stemming yang berlaku, lalu dibuatkan array untuk menampung kata-kata yang tidak dapat diproses dalam aturan stemming.

 Pada sisipan pe- + me- contoh: peme, maka pada stemming kata yang berimbuhan seperti ini akan digunakan aturan pe- dan selanjutnya digunakan aturan me-.

Kasus: Pemegang = pegang, Pemeriksa = periksa, Pemenang = menang Solusi: Hilangkan akhiran pada kata tersebut, lalu lakukan pemeriksaan apakah kata tersebut berawalan pe, dan hilangkan awalan pe-nya. Lalu tambahkan awalan me pada kata tersebut. Dan selanjutnya gunakan aturan stemming pada awalan me-. Namun ada beberapa kata berawalan me- yang harus dibuat pengecualian, misalnya kata menang.

 Pada sisipan pe- + be- contoh: pember, maka pada stemming kata yang berimbuhan seperti ini akan digunakan aturan pe- dan selanjutnya digunakan aturan be-. Serta dilakukan penghilangan akhiran pada kata tersebut.

 Pada sisipan me- + be- contoh: member, maka pada stemming kata yang berimbuhan seperti ini akan digunakan aturan me- dan selanjutnya digunakan

(12)

7 Solusi: Harus dibuatkan aturan khusus untuk kata ulang, misalnya dengan mengenali karakter minus (-) sebagai bagian dari kata ulang.

 Harus dibuatkan stopwordlist untuk menyaring kata yang tidak dapat dilakukan stemming. Contoh: (sedang, dini, kemarin). Dan dibuatkan aturan bentuk kata (jumlah karakter, jumlah maximal urutan karakter yang sama) agar jumlah kata pada stopwordlist tidak terlalu banyak, aturannya menggunakan regular expression.

 Seperti pada beberapa permasalahan yang telah disebutkan di atas, terdapat solusi yang membutuhkan kamus pengecuaalian kata, sehingga harus dibuatkan kamus pengecualian kata untuk beberapa kata yang baku namun tidak sesuai dengan aturan stemming. Contoh: Menikah = nikah, Menista = nista, Memerah = merah/perah.

(13)

r,n,ng,m

Hapus akhiran Hapus awalan

SISIPAN

LEBURAN AWALAN

r,ng,ny,n

Ubah sisipan

Ubah leburan Tanpa sisipan

atau leburan

GAMBAR.1 Graf Aturan Stemming

(14)

9 Algoritma Stemming Lovins

GAMBAR.2

http://www.comp.lancs.ac.uk/computing/research/stemming/Files/lovins.JPG

(15)

Algoritma Stemming Paice/Husk

GAMBAR.3

http://www.comp.lancs.ac.uk/computing/research/stemming/Files/paice.JPG

(16)

11 7. Gambaran Sistem

Sebelum sistem melakukan stemming, sistem melakukan proses tokenisasi pada teks, lalu melakukan stopwordlist. Dan selanjutnya dilakukan proses stemming dengan algoritma Lovins dan Paice/Husk secara bergantian, pemakai dapat menentukan algoritma mana yang akan dipakai. Penentuan kata yang tidak baku dilakukan pada proses stemming, dan kata yang tidak baku adalah kata yang tidak dapat dimasukkan ke dalam aturan stemming.

Pengguna aplikasi ini juga dapat meningkatkan kemampuan sistem dengan cara:

1. menambahkan isi stopwordlist agar kumpulan karakter yang bukan kata tidak masuk dalam proses stemming.

2. menambahkan isi pada kamus pengecualian kata, agar kata baku yang tidak sesuai dengan aturan stemming tetap dapat dikenali sebagai kata yang baku.

Ada tiga keluaran yang akan di tampilkan pada aplikasi ini, yaitu: tabel kata yang tidak baku, tabel kata yang baku dan laporan kesalahan penempatan karakter pada kata.

(17)

GAMBAR.4: Gambaran Kerja Sistem

Buka File Teks

Stemming dengan Lovins

Stemming dengan Paice/Husk Tokenisasi

Stopwordlist

Gunakan Aturan Kata Kerja B.Indonesia

Output:

Tabel Kata Kerja Dasar

Pilih Algoritma stemming (Lovins atau Paice/Husk)

Output:

Tabel Kata Kerja Dasar Periksa pada aturan

susunan karakter kata

(18)

13 DAFTAR PUSTAKA

Lovins, J., “Development of a stemming algorithm”, Mechanical

Translation and Computation, http://www.mt-archive.info/MT-1968-Lovins.pdf Lovins, J., “The Lovins stemming algorithm”,

http://snowball.tartarus.org/algorithms/lovins/stemmer.html Paice, C. D. “The Paice/Husk Stemmer”,

http://www.comp.lancs.ac.uk/computing/research/stemming/Links/paice.htm Paice Chris D. “Another stemmer”.

http://www.comp.lancs.ac.uk/computing/research/stemming/paice/article.htm Paice Chris D. “Paice/Husk stemmer”,

http://alx2002.free.fr/utilitarism/stemmer/stemmer_en.html

Kelly, “Automata & Formal Language”, Prentice-Hall, 1995

Jelita Asian, dkk., “Stemming Indonesian”, RMIT University, Melbourne 3001, Australia, http://crpit.com/confpapers/CRPITV38Asian.pdf

Lily S, Stephane B., “Automatic Learning of Stemming Rules for the Indonesian Language”, National University of Singapore,

http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/12305/1/PACLIC17-62- 68.pdf

Hopcroft, Motwani, Ullman. “Introdution to Automata Theory, Languages, and Computation”, 3rd Edition, Pearson Addison Wesley 2006.

Referensi

Dokumen terkait

Kewajiban melaksanakan EDD sebagaimana dimaksud dalam Pasal 32 juga berlaku dalam hal Penyelenggara melakukan transaksi dengan Pengguna Jasa yang patut diduga merupakan

Hasil wawancara dengan NZR menunjukkan bahwa siswa dengan nama NZR dapat memanfaatkan konsep-konsep yang telah ia pelajari yang dalam hal ini adalah bangun datar yang

Daya dukung lahan tambak dapat berubah akibat perubahan input teknologi seperti peningkatan kadar oksigen dalam air dengan aerator, pengolahan air bakau, pemupukan untuk

Secara umum jika dilihat dari karakteristik tingkat maturitas penyelenggaraan SPIP (Tabel1), pada tingkat level ini berarti pemerintah kota Pekanbaru telah

Alat pengambil sekret endometrium adalah balai endometre yang di indonesiakan menjadi sapu endometrium, yaitu alat berbentuk seperti sonde inseminasi yang terbuat

secara lugas menggambarkan gerakan mereka yang memaksakan diri untuk tetap menerapkan hukum Islam di Indonesia.. Melihat berbagai dinamika realitas dakwah sebagaimana temuan di

Berdasarkan tabel hasil analisis jalur di atas, dapat diuraikan sebagai berikut, yaitu Variabel remunerasi mempunyai pengaruh searah terhadap efektivitas kerja di Kantor

personality disorder) memiliki rasa bangga atau keyakinan yang berlebihan terhadap diri mereka sendiri dan kebutuhan yang ekstrem akan pemujaan.. berharap orang lain melihat