• Tidak ada hasil yang ditemukan

Algoritme Lemmatization

Dalam dokumen Aplikasi Pemeriksa Ejaan untuk Tulisan I (Halaman 77-82)

BAB III ANALISIS

3.7 Analisis Teknologi dan Algoritme

3.7.3 Algoritme Lemmatization

Algoritme lemmatization dalam aplikasi pemeriksa ejaan ini digunakan sebagai tools untuk melakukan analisis morfologi bahasa Indonesia, yaitu proses untuk menemukan bentuk dasar dari suatu kata. Untuk mengetahui kemampuan algoritme lemmatization ini, dilakukan percobaan terhadap beberapa kata bahasa Indonesia (Lihat Lampiran E). Berikut hasil evaluasi dari percobaan yang dilakukan.

1. Masukan yang berupa kata dasar, frasa, kata ulang murni, kata ulang berubah bunyi, dan akronim tidak melalui proses analisis morfologi, sehingga hasil yang diberikan ialah proses lemmatization tidak berhasil.

2. Kata ulang berubah bunyi seperti ‘bolak-balik’ dan ‘warna-warni’ terdapat pada dictionary lemmatizer, sedangkan ‘teka-teki’ dan ‘sayur-mayur’ tidak ditemukan pada dictionary lemmatizer.

Kata ulang yang terdapat pada dictionary lemmatizer tidak melalui proses analisis morfologi, sedangkan untuk kata ulang yang tidak terdapat pada dictionary lemmatizer dilakukan proses analisis morfologi, namun kata tersebut tidak berhasil melalui proses analisis morfologi, sehingga hasil yang diberikan untuk kedua kata ulang tersebut ialah proses lemmatization tidak berhasil. 3. Kata ulang murni yang berimbuhan berhasil dilakukan proses lemmatization

dengan output yang dihasilkan berupa kata dasar.

4. Kata ulang berubah bunyi yang berimbuhan dapat dilakukan proses lemmatization dengan output yang dihasilkan berupa kata ulang berubah bunyi yang sudah dihilangkan imbuhannya.

5. Kata berimbuhan yang tidak sesuai aturan morfologi dan/atau termasuk pengecualian kata berimbuhan, seperti berajar, perajar, dan petulisan berhasil melalui proses lemmatization.

6. Jika proses lemmatization berhasil maka lemmatizer hanya menghasilkan output berupa lema dasar dari kata yang dimasukkan, sedangkan jika proses lemmatization tidak berhasil lemmatizer menghasilkan output berupa lema yang dimasukkan pengguna.

7. Kata yang mengandung imbuhan bahasa asing tidak melalui proses analisis morfologi, namun kata tersebut merupakan lema dasar yang terdaftar pada dictionary lemmatizer, sehingga hasil yang diberikan ialah proses lemmatization tidak berhasil.

8. Kata ganti kepemilikan seperti –ku-, mu-, dan –nya berhasil melalui proses lemmatization dengan output berupa kata dasar dari kata yang dimasukkan. 9. Kata ganti orang seperti ku- dan kau- tidak berhasil melalui proses

10. Penulisan untuk lema masukan yang terdiri atas dua kata atau lebih tidak menggunakan spasi.

Untuk menyesuaikan algoritme lemmatization dengan kebutuhan aplikasi pemeriksa ejaan yang dibangun maka dilakukan modifikasi pada algoritme tersebut, yaitu:

1. Mengubah hasil yang diberikan untuk masukan yang berupa kata dasar, frasa, kata ulang murni, kata ulang berubah bunyi, akronim, dan kata-kata yang mengandung imbuhan bahasa asing yang terdaftar pada dictionary lemmatizer menjadi ‘berhasil’ dengan menghasilkan output berupa lema dasarnya.

2. Menambahkan analisis morfologi untuk kata yang termasuk pengecualian kata berimbuhan yang disajikan pada Tabel 19, sehingga kata berimbuhan seperti ‘berajar’, ‘perajar’, ‘petulisan’, maupun kata-kata berimbuhan lainnya yang termasuk pengecualian kata berimbuhan tidak berhasil dalam proses lemmatization.

Tabel 19 Imbuhan pengeculian pada bahasa Indonesia

Prefiks

Pengecualian Huruf Prefiks Umum Contoh

Me- P Me + b, f, v  Mem- Me + pukul memukul

Me- T Me + c, d, j  Men- Me + tiup meniup Me- K Me + a, i, u, e, o, g, h

Meng- Me + kikis mengikis

Me- S Me + sapu  menyapu

a. Sifat-sifat khusus

- Dilebur jika huruf kedua kata dasar adalah a, i, u, e, o. Misalnya: me + tipu  menipu

me + sapu  menyapu me + kira  mengira

- Tidak dilebur jika huruf kedua kata dasar adalah huruf konsonan. Misalnya:

me + klarifikasi  mengklarifikasi

- Tidak dilebur jika kata dasar merupakan kata asing yang belum diserap secara sempurna. Misalnya:

me + konversi  mengkonversi b. Aturan khusus

Terdapat beberapa aturan khusus dalam pembentukan kata turunan bahasa Indonesia yang disajikan pada Tabel 20.

Tabel 20 Aturan khusus untuk imbuhan pengecualian

Ber + kerja  bekerja Huruf r dihilangkan Ber + ajar  belajar Huruf r digantikan l Pe + perkosa  pemerkosa Huruf p luluh menjadi m Pe + perhati  pemerhati Huruf p luluh menjadi m

3. Menambahkan aturan untuk kata ganti orang ku- dan kau- yang dapat dilihat pada Tabel 21. Proses untuk penghilangan personal pronoun (kata ganti orang) ini dilakukan sebelum proses Rule Precedence Checking. Karena kata ganti orang dalam pembentukan kata ditulis paling awal dalam sebuah pembentukan kata. Contohnya ‘ku-bawa’ dan ‘ku-menemukannya’.

Tabel 21 Prefiks kata ganti orang

Prefiks Kata Ganti Orang Contoh

Ku- (*) Ku + baca  baca

Kau- (*) Kau + bawa  bawa

Pada Gambar 12 diperlihatkan alurproses modifikasi algoritme lemmatization yang dibuat untuk proses analisis morfologi, terdapat 10 proses utama yang dilakukan pada proses Morphologycal Analyser.

1. Remove Personal Pronoun, pada proses ini dilakukan penghilangan imbuhan yang termasuk kata ganti orang (personal pronoun). Contohnya kata ‘kubawa’ dihilangkan awalan ku- menjadi ‘bawa’. Aturan penghilangan kata ganti orang dapat dilihat pada Tabel 21.

2. Check Rule Precedence, pada proses ini dilakukan pemeriksaan untuk menentukan urutan proses pemeriksaan ejaan yang dilakukan selanjutnya. 3. Remove Inflectional Suffix, pada proses ini dilakukan penghilangan possesive

pronoun dan dilanjutkan dengan proses penghilangan partikel. Pada bahasa Indonesia, partikel selalu berada pada akhir kata, sehingga proses penghilangan sufiks partikel dilakukan terlebih dahulu. Contohnya kata ‘bukukupun’ dihilangkan akhiran –pun menjadi ‘bukuku’.

4. Remove Derivational Suffix, pada proses ini dilakukan penghilangan derivational suffix (-i, -an, dan -kan). Contohnya kata ‘ambilkan’ dihilangkan akhiran –kan menjadi ‘ambil’.

5. Remove Derivational Prefix, dalam proses ini dilakukan penghilangan prefix plain (di-, ke-, dan se-) dan prefix complex (me-, te-, be-, dan pe-). Contohnya kata ‘ketutup’ dihilangkan awalan ke- menjadi ‘tutup’. Selanjutnya dilakukan proses Disallowed Affix Pair, yaitu proses pemeriksaan untuk pasangan imbuhan yang tidak diperbolehkan menurut aturan morfologi bahasa Indonesia. 6. Recoding, proses ini dilakukan jika setelah proses removeaffix suatu kata masih belum ditemukan bentuk dasarnya, maka dilakukan penghilangan ulang imbuhan dari suatu kata karena aturan mofologi memiliki lebih dari satu aturan penghapusan imbuhan. Misalnya untuk aturan imbuhan ber + V… (Lihat Tabel 9) imbuhan yang dapat dihilangkan, yaitu be- dan ber-. Contohnya kata ‘berteman’ dihilangkan awalan ber-, sedangkan kata ‘berima’ dihilangkan awalan be-.

7. Affix Backtracking, pada tahapan ini terdapat 2 macam proses, yaitu suffix backtracking dan prefixbacktracking. Proses backtrakcing ini dilakukan pada setiap kata yang telah dihilangkan afiksnya, jika kata tersebut masih belum ditemukan bentuk dasarnya, maka dilakukan backtracking, yaitu proses pengembalian imbuhan yang sudah dihilangkan.

8. Lookup, proses ini dilakukan untuk mencari kata pada daftar kata dasar bahasa Indonesia. Jika kata ditemukan, proses dihentikan kemudian kata dikembalikan sebagai hasil dari proses. Proses ini dilakukan pada tahap awal pemeriksaan ejaan dan setiap tahapan proses removeaffix, recoding, dan affix backtracking telah dilakukan.

9. Markassuccess, pada proses ini dilakukan pemberian tanda untuk setiap kata yang berhasil ditemukan bentuk dasarnya sebagai kata yang benar.

10. Mark as error, pada proses ini dilakukan pemberian tanda untuk setiap kata yang tidak berhasil ditemukan bentuk dasarnya sebagai kata yang salah.

Dalam dokumen Aplikasi Pemeriksa Ejaan untuk Tulisan I (Halaman 77-82)

Dokumen terkait