• Tidak ada hasil yang ditemukan

DAFTAR PUSTAKA

1.5 Manfaat Penelitian

Penelitian terhadap algoritme stemming bahasa Sunda ini diharapkan dapat diaplikasikan untuk mencari kata dasar dalam dokumen-dokumen berbahasa Sunda dengan hasil yang paling optimal. Hasil dari pencarian kata dasar tersebut nantinya dapat digunakan untuk pengindeksan dokumen yang siap untuk digunakan oleh aplikasi-aplikasi dalam sistem temu kembali informasi khususnya untuk dokumen-dokumen berbahasa Sunda.

Selain untuk sistem temu kembali informasi, hasil dari pencarian kata dasar ini juga dapat digunakan untuk aplikasi-aplikasi bahasa alami khususnya untuk aplikasi bahasa alami berbahasa Sunda. Aplikasi lain yang dapat dihasilkan adalah pembuatan aplikasi penerjemah dari dokumen berbahasa Sunda ke dokumen berbahasa Indonesia atau sebaliknya. Diharapkan pula dari penelitian ini

dapat dirumuskan kembali algoritme perbaikan dari algoritme terbaik hasil penelitian ini.

2. TINJAUAN PUSTAKA

2.1 Morfologi bahasa Sunda

Morfem adalah satuan bahasa terkecil yang mengandung makna (Zaenal & Junaiyah 2007). Terdapat dua macam morfem, yaitu morfem bebas dan morfem terikat. Morfem bebas adalah morfem yang berdiri sendiri misalnya: jual dan beuli. Sedangkan morfem terikat adalah morfem yang digabungkan dengan morfem lain. Contoh morfem terikat adalah: dijualbeulikeun. Kata tersebut dapat dipecah menjadi: jual beuli dan di- + … -keun}. Kata jual dan beuli adalah dua morfem bebas yang merupakan satuan terkecil yang tidak dapat dipecah lagi dan yang mempunyai arti. Bentuk di-, dan -keun juga tergolong morfem karena merupakan satuan terkecil yang mengandung makna.

Imbuhan atau afiks mempunyai arti penting dalam suatu tata bahasa terutama dalam sebagian besar tata bahasa daerah di Indonesia. Keberadaan afiks

atau imbuhan pada kata dasar dapat mengubah bentuk, fungsi, katagori dan makna dasar dari suatu kata. Ilustrasi imbuhan digambarkan seperti pada Gambar 1.

2.1.1 Imbuhan (Afiks)

Bahasa Sunda memiliki imbuhan sama halnya seperti bahasa Indonesia. Ada lima macam imbuhan, yaitu rarangken hareup (awalan/prefiks), rarangken

tengah/seselan (sisipan//infiks), rarangken tukang/ahiran (akhiran/sufiks),

Rarangken barung (imbuhan terbelah/konfiks), dan rarangken bareng (imbuhan

gabungan/ambifiks) (Sudaryat et al. 2007).

2.1.1.1 Rarangken Hareup (Awalan)

Rarangken hareup adalah imbuhan yang terletak di awal kata. Rarangken

hareup pada bahasa Sunda yaitu: ba-, barang-, di-, ka-, N-, pa,- pada-, pang-,

para-, per-, pi-, sa-, sang-, si-, silih/sili, ti-, ting-/pating-.

1. Rarangken hareup ba- (contoh: balayar = berlayar, badarat = berjalan,

barempug=berdiskusi).

2. Rarangken hareup barang- (contoh: barangbeuli = sesuatu untuk dibeli,

baranginjeum = sesuatu yang dipinjam, barangdahar = sesuatu untuk

dimakan).

3. Rarangken hareup di- (contoh: digawe = bekerja, dibaju = memakai baju,

disada = berbunyi).

4. Rarangken hareup ka- (contoh: karasa = terasa, kabawa = terbawa, kageleng

= tergilas).

5. Rarangken hareup

N-Pada rarangken hareup N- (nasal) terdapat alomorf m-, n-, ng-, nga-, nge-,

dan ny-. Aturan rarangken hareup N- adalah sebagai berikut:

- Rarangken N- berubah menjadi m- apabila digunakan pada kata dasar yang

diawali konsonan b atau p (contoh: baca menjadi maca = membaca, pacul

- Rarangken N- berubah menjadi n- apabila digunakan pada kata dasar yang diawali konsonan t (contoh: tulis menjadi nulis = menulis, tanya menjadi

nanya = bertanya).

- Rarangken N- berubah menjadi ng- apabila digunakan pada kata dasar

yang diawali konsonan k atau huruf vokal (contoh: karang menjadi

ngarang = mengarang, aku menjadi ngaku = mengaku).

- Rarangken N- berubah menjadi nga- apabila digunakan pada kata dasar

yang diawali konsonan b, d, g, h, j, l, m, n, w, dan y (contoh: badug

menjadi ngabadug = terbentur, dulag menjadi ngadulag = menabuh bedug,

goler menjadi ngagoler = berbaring, hampas menjadi ngahampas =

meremehkan/membuat ampas), juru menjadi ngajuru = melahirkan, liang

menjadi ngaliang = membuat lubang, ma’lum menjadi ngama’lum = memaklumi, riung menjadi ngariung = berkumpul, wadul menjadi

ngawadul = berbohong).

- Rarangken N- berubah menjadi nge- apabila digunakan pada kata dasar

yang diawali konsonan dan hanya terdiri dari satu suku kata (contoh: cet

menjadi ngecet = mengecat, bor menjadi ngebor = mengebor).

- Rarangken N- berubah menjadi ny- apabila digunakan pada kata dasar

yang diawali konsonan c dan s (contoh: colok menjadi nyolok = menusuk,

sapih menjadi nyapih = menyapih).

6. Rarangken hareup pa- (contoh: tani menjadi patani (petani), tugas menjadi

patugas = petugas, takol menjadi panakol = pemukul).

7. Rarangken hareup pada- (contoh: kepung menjadi padangepung (sedang

mengepung), dagang menjadi padadagang (sedang dagang), kuat menjadi

padakuat (sama-sama kuat)).

8. Rarangken hareup para- (contoh: guru menjadi paraguru (guru-guru), siswa

9. Rarangken hareup per- (contoh: lambang menjadi perlambang (tanda-tanda),

watak menjadi perwatak)

10. Rarangken hareup pi- (contoh: tuduh menjadi pituduh (petunjuk), ruhak

menjadi piruhak (arang yang masih membara), tapak menjadi pitapak (jejak),

damel menjadi pidamel (mengerjakan))

11. Rarangken hareup sa- (contoh: rupa menjadi sarupa (serupa), kilo menjadi

sakilo=sekilo)

12. Rarangken hareup sang- (contoh: hulu menjadi sanghulu (kepala mengarah ke suatu arah), hareup menjadi sanghareup (mengarah ke depan).

13. Rarangken hareup si- (contoh: dakep menjadi sidakep (posisi tangan dilipat didepan perut (seperti posisi shalat)), deang menjadi sideang (memanaskan badan di perapian)).

14. Rarangken hareup silih- (contoh: teunggeul menjadi silihteunggeul (saling pukul), tajong menjadi silihtajong (saling tendang).

15. Rarangken hareup ti- (contoh: tajong menjadi titajong (tertendang), teuleum

menjadi titeuleum (tenggelam)).

16. Rarangken hareup ting-/pating- (contoh: gerendeng menjadi tinggerendeng

(beberapa orang saling berbicara tapi tidak terlalu keras), burinyay menjadi

tingburinyay (berkilatan)).

2.1.1.2 Rarangken Tengah (Sisipan)

Rarangken tengah adalah imbuhan yang disisipkan di tengah kata dasar,

Rarangken tengah pada bahasa Sunda yaitu: -ar-, -in-, -um-. Berikut adalah

penjelasan rincinya.

1. Rarangken tengah

-ar-Pada rarangken tengah -ar- terdapat alomorf -al-, -ar-, dan

1) Digunakan pada kata dasar yang diawali konsonan l (contoh: lieur

menjadi lalieur (pusing-pusing), leuleus menjadi laleuleus (lemas- lemas)).

2) Digunakan pada kata dasar yang diakhiri konsonan r (contoh: bageur

menjadi balageur (banyak yang baik hati), pinter menjadi palinter

(banyak yang pintar).

3) Digunakan pada kata dasar yang mengandung konsonan gabung br, tr,

cr, kr, pr, jr, dan dr (contoh: kempreng menjadi kalempreng (tangan-

tangan yang kaku), gombrang menjadi galombrang (pakaian yang kedodoran)).

- Rarangken tengah -ar- berubah menjadi ar- apabila digunakan pada kata

dasar yang diawali huruf vokal (contoh: asup menjadi arasup (banyak yang masuk), ulin menjadi arulin (banyak yang main)).

- Rarangken tengah -ar- berubah menjadi ra- apabila digunakan pada kata

dasar yang hanya terdiri dari satu suku kata dan diawali huruf konsonan (contoh: cleng menjadi racleng (berloncatan), beng menjadi rabeng

(berterbangan)).

2. Rarangken tengah -in- (contoh: tulis menjadi tinulis (tertulis/ditulis), panggih

menjadi pinanggih (bertemu), sareng menjadi sinareng (bersama)).

3. Rarangken tengah -um- (contoh: sujud menjadi sumujud (bersujud), gantung

menjadi gumantung (tergantung), lengis menjadi lumengis (memelas-melas)).

Pada rarangken tengah -um- terdapat alomorf um-, yang terjadi apabila digunakan pada kata dasar yang diawali huruf vokal (contoh: amis menjadi

umamis (macam-macam manis), aing menjadi umaing (egois)).

2.1.1.3 Rarangken Tukang (Akhiran)

Rarangken tukang adalah imbuhan yang diletakkan pada akhir kata dasar.

Rarangken tukang pada bahasa Sunda yaitu: -an, -eun, -keun, -na, -ing/-ning.

1. Rarangken tukang -an (contoh: sakola menjadi sakolaan (sekolahan), tulis

menjadi tulisan (tulisan), omong menjadi omongan (omongan), meter

menjadi meteran (meteran).

2. Rarangken tukang -eun (contoh: dahar menjadi dahareun (untuk dimakan),

rujak menjadi rujakeun (untuk dirujak)).

3. Rarangken tukang -keun (contoh: kawih menjadi kawihkeun (nyanyikan),

gambar menjadi gambarkeun (gambarkan), tiung menjadi tiungkeun

(kerudungkan)).

4. Rarangken tukang -na

Pada Rarangken tukang -na terdapat alomorf -ana dan -nana

- Rarangken -na berubah menjadi -ana apabila:

1) Digunakan pada kata dasar yang sudah ditambahkan akhiran -eun

(contoh: bawa menjadi bawaeunana (hal yang harus dibawanya),

dahar menjadi dahareunana (makan yang harus dimakanannya)).

2) Digunakan pada kata dasar yang sudah ditambahkan akhiran -an

(contoh: tilu menjadi tiluanana = ketiga-tiganya, kabeh menjadi

kabehanana (semuanya)).

3) Digunakan pada kata dasar yang sudah ditambahkan akhiran -keun

(contoh: catet menjadi nyatetkeunana (mencatatkannya), bawa

menjadi mawakeunana (membawakan untuk orang lain)).

- Rarangken -na berubah menjadi -nana apabila digunakan pada kata dua

dan eta (contoh: dua menjadi duanana (kedua-duanya), eta menjadi

etanana (menunjukkan itu)).

5. Rarangken tukang -ing/-ning (contoh: bakat menjadi bakating (karena

terlalu),kersaning menjadi kersaning (keinginan, kehendak), awah menjadi

Rarangken -ing digunakan pada kata yang diakhiri konsonan (contoh:

mungguh menjadi munguhing (sesungguhnya), bakat menjadi bakating

(karena terlalu) sedangkan rarangken tengah -ning digunakan pada kata yang diakhiri vokal (contoh: estu menjadi estuning (sebenarnya), kersa menjadi

kersaning (ketentuan = kehendak)).

2.1.1.4 Rarangken Barung (Imbuhan Terbelah)

Rarangken barung adalah imbuhan yang dipakai di awal dan atau di akhir

kata dasar secara bersamaan. Ciri utama rarangken barung adalah apabila salah satu imbuhan (awalan atau akhiran) dihilangkan, kata tersebut tidak dapat berdiri sendiri. Rarangken barung pada bahasa Sunda yaitu: ka- -an, kapi-, pa- -an,

pang--na pang- -keun, pi- -eun, pika-, pika- -eun, sa- pang--na, dan sa- -eun.

1. Rarangken barung ka- -an (contoh: kaamanan = keamanan, kaolahan =

masakan, kaperluan = keperluan)

2. Rarangken barung kapi- (contoh: kapimilik = milik, kapiraray = selalu

terkenang-kenang)

3. Rarangken barung pa- -an (contoh: paguyuban = perkumpulan, pamandian =

kolam renang, pausahaan = perusahaan)

4. Rarangken barung pang- -na (contoh: panggeulisna = tercantik, pangagulna

= paling sombong, pangpinterna = paling pintar)

5. Rarangken barung pang- -keun (contoh: pangmawakeun = tolong bawakan,

pangdongengkeun = tolong ceritakan)

6. Rarangken barung pi- -eun (contoh: pibajueun = bahan baju, pigeuliseun =

akan cantik, pigedeeun = akan besar)

7. Rarangken barung pika- (contoh: pikareueus = membuat bangga,

pikameumeut = selalu rindu)

8. Rarangken barung pika- -eun (contoh: pikabungaheun = membuat gembira,

9. Rarangken barung sa- -na (contoh: salilana = selamanya, sakabehna = semuanya, sawaregna = sekenyangnya)

10. Rarangken barung sa- -eun (contoh: satujueun = setuju, sahadapeun = lebih

bawah, samobileun = untuk satu mobil)

2.1.1.5 Rarangken Bareng (Imbuhan Gabungan)

Rarangken bareng adalah imbuhan gabungan dari dua atau lebih imbuhan

sebelumnya. Rarangken bareng pada bahasa Sunda yaitu: + -ar-, + -an, di-+ -ar- di-+ -an, di- di-+ -keun, di- di-+-ar- di-+ -keun, di- di-+ -pi, di- di-+ -pika, di- di-+ pang- di-+ - keun, di- + pang- + N- + -keun, di- + pang- + N- + -ar- + -keun, di- + pang- + N- + -ar- +-an +-keun, N- + -ar-, N- + -an, N- + -ar- + -keun, N- + -pi-, N- + - , N- + pang- + -keun-, pa- + N-, pang- + di + -na, pang- + N- +

pika-+ -na, ting- pika-+ -ar-.

1. Rarangken bareng di- + -ar, contoh: diparacul = dicangkul oleh banyak

orang, ditarajong = ditendang oleh banyak orang.

2. Rarangken bareng di- + -an, contoh: dimandian = dimandikan, dibajuan =

dipakaikan baju.

3. Rarangken bareng di- + -ar- + -an, contoh: diparaculan = dicangkul

(jamak), ditarajongan = ditendang-tendang.

4. Rarangken bareng di- + -keun, contoh: dihurungkeun = dinyalakan,

dimakamkeun = dikuburkan.

5. Rarangken bareng di- +-ar- + -keun, contoh: dilalieurkeun = dibuat pusing.

6. Rarangken bareng di- + -pi, contoh dipiwarang =disuruh, dipidamel =

dikerjakan, dipirojong = didorong, dipireueus = dikasihani.

7. Rarangken bareng di- + -pika, contoh: dipikaresep = disenangi, dipikasieun =

ditakuti, dipikanyaah = disayangi, dipikatineung = teringat selalu.

8. Rarangken bareng di- + pang- + -keun, dipangdamelkeun = dikerjakan oleh

9. Rarangken bareng di- + pang- + N- + -keun, contoh: dipangmeulikeun = dibelikan oleh orang lain, dipangnuliskeun = dituliskan oleh orang lain.

10. Rarangken bareng di- + pang- + N- + -ar- + -keun, contoh:

dipangmaraculkeun = dicangkulkan oleh orang lain.

11. Rarangken bareng di- + pang- + N- + -ar- +-an +-keun, contoh:

dipangnaruliskeun = dituliskan oleh orang lain.

12. Rarangken bareng N- + -ar-, contoh: nyarapu = menyapu, narulis = menulis.

13. Rarangken bareng N- + -an, contoh: nyapuan = menyapui, nulisan =

menulisi.

14. Rarangken bareng N- + -ar- + -keun, contoh: maraculkeun = dicangkulkan,

naruliskeun = dituliskan.

15. Rarangken bareng N- + -pi-, contoh: mieling = diingatkan, miindung =

dijadikan ibu.

16. Rarangken bareng N- + -pika-, contoh: mikaeling = saling diingatkan,

mikahayang = saling ingin, mikatineung = saling rindu.

17. Rarangken bareng N- + pang- + -keun-, contoh: manghanjakalkeun =

menyayangkan.

18. Rarangken bareng pa- + N-, contoh: panumbak = sesuatu buat menombak,

panakol = sesuatu untuk memukul.

19. Rarangken bareng pang- + dipika- + -na, contoh: pangdipikanyaahna = yang

paling disayang.

20. Rarangken bareng pang- + N- + pika- + -na, contoh: pangmikameumeutna =

paling dirindukan.

2.1.2 Kata Ulang

Berbeda dengan bahasa Indonesia, kata ulang dalam bahasa Sunda sangat produktif dan dapat berbeda bentuk dengan kata dasarnya. Bahasa Sunda mempunyai kata ulang yang sangat beragam bentuk.

Kata ulang dalam bahasa Sunda adalah kata yang dibangun mengucapkan kata dua kali atau lebih dari kata dasarnya, sebagian atau seluruhnya (Sudaryat et al. 2007). Ilustrasi dari kata ulang dapat dilihat pada Gambar 2.

Gambar 2 Diagram pembentukan kata ulang.

Kata ulang dalam bahasa Sunda dapat dibagi menjadi dua yaitu gembleng dan

sabagian. Kata ulang juga dapat diberi imbuhan yang dalam bahasa Sunda diberi

nama rarangkenan.

2.1.2.1 Gembleng (seluruhnya)

Kata ulang gembleng (seluruhnya) dibagi lagi menjadi dua yaitu:

1. Dwilingga: Kata ulang dwilingga dibangun dengan cara mengucapkan dua

kali dari kata dasarnya. Terdapat dua dwilingga yaitu:

a. Dwimurni: kata dasar yang diulang tidak berubah, contohnya: bapa

b. Dwireka: kata dasar yang diulang berubah bunyi, contohnya: tajong

(tendang) menjadi tujang-tajong (tendang-tendang).

2. Trilingga: kata dasar diulang tiga kali, dan selalu berubah bunyi, contohnya:

plak-plik-pluk.

2.1.2.2 Sabagian (sebagian)

Kata ulang sabagian (sebagian) dibangun dengan cara mengulang kembali salah satu suku kata dasarnya. Ada dua bentuk kata ulang sabagian, yaitu:

1. dwipurwa, yaitu jika suku kata yang diulang adalah suku kata pertama,

contohnya: tajong (tendang) menjadi tatajong,

2. dwimadya, yaitu jika suku kata yang diulang ada di tengah kata, contohnya:

sabaraha (berapa) menjadi sababaraha.

2.1.2.3 Rarangkenan (kata ulang gabungan)

Kata ulang gembleng atau sabagian dapat digabung dengan imbuhan. Gabungan kata ulang dengan imbuhan dapat mempunyai bentuk sebagai berikut:

1. Rarangkenan di-R, suatu kata ulang dalam bentuk dwimurni atau dwireka

dan dwipurwa dapat diberi awalan di-. Contoh untuk bentuk ini adalah:

rasa menjadi dirasa-rasa, pikir manjadi dipikir-pikir, riung menjadi

diriung-riung (dikelilingi oleh banyak orang), dirarasa, dipipikir,

diririung.

2. Rarangkenan di-R-keun. Kata ulang dalam bentuk dwimurni, dwireka dan

dwipurwa dapat diberi awalan di- dan akhiran -keun, contohnya adalah:

asup menjadi diasup-asupkeun (dimasuk-masukkan), tawar menjadi

ditatawarkeun (ditawar-tawarkan).

3. Rarangkenan mang-R. Kata ulang dwilingga dapat diberi awalan mang-,

dengan contohnya adalah sebagai berikut: kata taun menjadi mangtaun-

4. Rarangkenan ka-R. Kata ulang dalam bentuk dwilingga (dwireka dan

dwimurni) dan dwipurwa dapat diberi awalan ka- dengan contoh sebagai

berikut: kata ombak menjadi kaombak-ombak (kena ombak), kata seuit

menjadi kaseuit-seuit, kata candak menjadi kacacandak.

5. Rarangkenan N-R. Kata ulang dalam bentuk dwilingga (dwireka dan

dwimurni) dapat diberi nasal (N-). Contohnya adalah sebagai berikut: kata

tunggu menjadi nunggu-nunggu (menunggu-nunggu), kata beda menjadi

ngabeda-beda (membeda-bedakan).

6. Rarangkenan N-R-keun. Kata ulang dwimurni dapat diberi nasal (N-) dan

akhiran -keun, contohnya adalah sebagai berikut: kata asup menjadi

ngasup-ngasupkeun (memasuk-masukan), kata sorot menjadi nyorot-

nyorotkeun (menyorot-nyorotkan).

7. Rarangkenan R-eun. Kata ulang dwipurwa dapat mendapat akhiran -eun.

Contohnya adalah sebagai berikut: kata lini (gempa) menjadi lilinieun

(terasa sepeti gempa), kata jauh menjadi jajauheun (terasa jauh)

8. Rarangkenan R-um. Kata ulang dwilingga juga bisa diberi sisipan -um-,

contohnya adalah sebagai berikut: kata tuluy (terus) menjadi tuluy-tumuluy

(keterus-terusan)

9. Rarangkenan pa-R. Kata ulang dwilingga dapat diberi awalan pa-,

contohnya adalah sebagai berikut: kata tarik menjadi patarik-tarik (saling menarik), palaun-laun (saling lambat-lambat).

10. Rarangkenan ti-R. Kata ulang dengan bentuk dwipurwa dapat diberi

awalan ti-, contohnya adalah sebagai berikut: tipoporose, tipaparetot.

11. Rarangkenan R-an. Kata ulang dengan bentuk dwilinga dan dwipurwa

dapat diberi akhiran -an, contohnya adalah: kata layar menjadi lalayaran

(berlayar-layar), kata indit (pergi) menjadi indit-inditan (pergi-pergian), kata kawih menjadi kakawihan (menyanyikan lagu).

12. Rarangkenan R-na. Kata ulang dwilingga dan dwipurwa dapat diberi akhiran -na, contohnya adalah sebagai berikut: kata gede (besar) menjadi

gegedena (yang besarnya), dalit (sahabat) menjadi dalit-dalitna (sahabat-

sahabatnya).

13. Rarangkenan pang-R-na. Kata ulang dwilingga dapat diberi awalan pang-

dan akhiran -na. Contohnya adalah sebagai berikut: alus (bagus) menjadi

pangalus-alusna (yang terbagus), bageur (baik hati ) menjadi pangbageur-

bageurna (yang terbaik hati).

14. Rarangkenan sa-R-na. Kata ulang dwilingga dapat diberi awalan sa- dan

akhiran -na. Contohnya adalah sebagai berikut: hade (bagus) menjadi

sahade-hadena (sebagus-bagusnya), bisa menjadi sabisa-bisana (sebisa-

bisanya).

2.2 Stemming

Stemming adalah proses penghilangan prefiks, infiks dan sufiks dari suatu

kata. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem

yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem

yang sama dengan query-nya. Proses stemming tersebut dapat diilustrasikan dengan Gambar 3.

Gambar 3 Ilustrasi proses stemming. Teknik-teknik stemming dapat dikategorikan menjadi:

- berdasarkan kamus,

- berdasarkan kemunculan bersama.

Stemming dalam sistem temu kembali informasi tergantung pada bahasa

yang digunakan dalam dokumen yang akan dicari. Algoritme stemming untuk bahasa Inggris kurang optimal untuk menangani dokumen dalam bahasa Indonesia. Selain itu bahasa Indonesia pastinya juga memiliki daftar kata buang

(stoplist) serta sistem pembentukan kata yang sangat berbeda dengan bahasa

Inggris, sehingga diperlukan algoritme stemming yang khusus untuk bahasa Indonesia. Demikian juga untuk bahasa Sunda, juga diperlukan algoritme

stemming khusus untuk mencari kata dasar dari suatu kata dalam bahasa Sunda.

Terdapat bermacam-macam jenis stemmer, di antaranya adalah: stemmer

infleksional yaitu stemmer yang membuang imbuhan (inflection) dari kata dengan

menggunakan aturan tata bahasanya. Contoh dari stemmer ini adalah stemmer

yang menggunakan algoritme Potter. Algoritme stemmer infleksional dalam bahasa Indonesia salah satunya diteliti oleh Adriani et al. (2007). Jenis stemmer

yang lain adalah stemmer corpus-based, yaitu stemmer yang menggunakan koleksi dokumen untuk mendapatkan kata dasar dari sebuah kata.

Siregar (1995) dalam penelitiannya menyatakan, untuk mendapatkan kata dasar dari suatu kata berimbuhan, dilakukan proses stemming dan untuk menguji apakah kata hasil stemming tersebut valid maka kata tersebut dibandingkan dengan Kamus Besar bahasa Indonesia. Adriani et al. (2007), meneliti stemmer

morfologi untuk bahasa Indonesia dengan mengemukakan algoritme stemming

yang juga membandingkan kata yang akan di-stem dengan Kamus Besar bahasa Indonesia. Pada penelitian lainnya, Ichsan (1996) mengemukakan teknik stemmer

corpus-based dengan menggunakan statistic co-occurace dari variasi kata untuk

mencari keakuratan hasil stemming. Tala (2003) melakukan modifikasi terhadap algoritme Potter untuk stemming bahasa Indonesia. Semua stemmer-stemmer yang diteliti oleh para peneliti di atas menghasilkan kata dasar dengan menghilangkan imbuhan, sisipan dan akhiran dari kata-kata berimbuhan bahasa Indonesia.

2.3 Kesalahan Stemming

Menurut Paice (1996), terdapat dua jenis kesalahan dalam stemming, yaitu:

1. Understemming, adalah proses stemming yang menghasilkan kata yang tidak

terkelompok dalam satu kelompok atau kelas. Hal ini menyebabkan konsep tunggal yang tersebar di beberapa hasil stem yang berbeda. Misalnya terdapat kata-kata sebagai berikut: disanghareupeunana, sanghareupeun, hareup,

hareupeun, nyanghareup. Kata yang diharapkan setelah proses stemming

adalah hareup, akan tetapi ternyata setelah proses stemming hasilnya adalah

sanghareup, hareup dan nyanghareup.

2. Overstemming, adalah proses stemming yang menghasilkan kata namun kata

tersebut seharusnya tidak diletakan dalam kelompok atau kelas tertentu. Pada proses stemming ternyata kata tersebut dimasukan dalam kelompok lainnya. Contoh overstemming adalah: kata cina menghasilkan ci, kata tini

menghasilkan ti, dan lain-lain.

Algoritme stemming yang lebih banyak menghasilkan understemming

dibandingkan overstemming dikatagorikan dalam algoritme light stemming, Sedangkan algoritme stemming yang lebih banyak menghasilkan overstemming

3. METODOLOGI PENELITIAN

3.1 Kerangka Penelitian

Keberhasilan suatu penelitian ditentukan dari perencanaan penelitian. Dalam perencanaan penelitian tersebut harus jelas apa saja yang akan dilakukan agar penelitian dapat berjalan dengan semestinya. Langkah-langkah penelitian ini secara umum dapat digambarkan seperti yang terlihat pada Gambar 4.

Gambar 4 Langkah-langkah penelitian. 3.2 Prosedur Penelitian

Berdasarkan langkah-langkah penelitian pada Gambar 4, tahapan penelitian yang dilakukan pada tiap langkah diuraikan pada pembahasan selanjutnya.

3.2.1 Tahap Pemahaman Masalah

Untuk dapat menyelesaikan penelitian ini, masalah yang ada harus dipahami dengan baik. Permasalahan yang ada digali dengan cara studi literatur dari sumber-sumber yang berkaitan dengan permasalahan penelitian ini. Selain itu, permasalahan dalam tentang tata bahasa Sunda dilakukan dengan cara melakukan

wawancara dengan nara sumber yang kompeten yaitu Bapak Dr. Yayat Sudaryat, M.Hum. (dosen Sastra Sunda Universitas Pendidikan Indonesia)

3.2.2 Tahap Pengumpulan Dokumen dan Pemasukan Data Kamus

Dokumen-dokumen dalam bahasa Sunda digunakan untuk pengujian pada tahap evaluasi stemming. Dokumen uji yang terkumpul adalah sebanyak 130 dokumen berbahasa Sunda dengan topik yang beragam. Topik dokumen berisi tentang sejarah, budaya, agama, berita dan lain-lain. Seluruh dokumen yang terkumpul, format penulisan dokumen kemudian diubah menjadi bentuk teks. Hal ini untuk memudahkan pembacaan dokumen oleh tokenizer.

Data kamus diperlukan untuk pembandingan kata pada proses stemming. Untuk memasukan data kamus, sumber data didapat dari Kamus Lengkep Sunda- Indonesia Indonesia Sunda Sunda-Sunda (Tamsyah 1996) dan dilengkapi dengan kamus Sunda – Indonesia (Satjadibrata 2011). Dari hasil pemasukan data kamus tersebut didapat 8 234 kata.

3.2.3 Tahap Perancangan Tokenizer

Tokenizer akan membaca kata per kata dari dokumen. Modul tokenizer

akan menerima masukan berupa dokumen dan keluarannya adalah kumpulan kata atau token. Tokenizer akan mengabaikan tanda baca, dan tanda-tanda lainnya yang tidak diperlukan. Tokenizer akan membaca dokumen dalam bentuk teks atau HTML. Program selengkapnya tokenizer dapat dilihat pada Lampiran 1.

3.2.4 Tahap Pembuatan Kata Uji dari Dokumen

Pada tahap ini, dokumen yang terkumpul akan dicari token atau kata yang ada dalam dokumen tersebut. Pembuatan kata uji ini akan menggunakan tokenizer

yang dirancang pada Bab 3.2.3. Kata atau token yang terkumpul akan disimpan dalam sebuah tabel dalam database yang berisi daftar kemunculan kata dalam dokumen. Kata yang disimpan dalam database adalah kata yang unik, artinya tidak akan ada kata yang sama.

Kata uji ini akan digunakan untuk pengujian algoritme stemming yang dirancang. Selanjutnya kata hasil stemming akan dievaluasi apakah hasil stemming

sesuai dengan kata yang diharapkan.

3.2.5 Tahap Pembuatan Stoplist

Pada tahapan ini akan dibuang semua kata-kata dalam bahasa Sunda yang kurang memiliki arti. Pembuatan daftar stoplist dibuat secara manual. Kata-kata yang kurang berarti yang ditemukan, akan dimasukan dalam database stoplist. Daftar stoplist ini dikelompokan dalam kelompok sepeti terlihat pada Tabel 1.

Tabel 1 Daftar stoplist

Jenis Kata Contoh

Kata Tanya saha, naon, mana, naha, iraha, kumaha, sabaraha

Kata Penunjuk ieu, eta, dieu, kieu

Kata Sambung jeung, sareng, nepi, jaba, lian, nu, lamun, tapi, atawa,

Dokumen terkait