• Tidak ada hasil yang ditemukan

PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA"

Copied!
13
0
0

Teks penuh

(1)

BAB IV PENENTUAN JENIS KATA (PART OF SPEECH TAGGING) UNTUK BAHASA INDONESIA

Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata dapat dilihat pada Gambar IV-1.

Gambar IV-1 Proses Penentuan Jenis Kata jika tidak dapat diprediksi

jika tidak ditemukan

jika dapat diprediksi jika ditemukan mengambil data

kata selanjutnya

melihat jenis kata di dalam kamus

memprediksi jenis kata dengan aturan morfologi

memprediksi jenis kata dengan metode bigram kalimat yang mengandung kata yang akan ditentukan jenis katanya diambil per kata untuk ditentukan jenis katanya

semua kata dalam kalimat masukan telah ditentukan jenis katanya memberikan tag jenis kata pada kata leksikon

POS tagging grammar

(2)

Proses penentuan jenis kata akan dilakukan dalam tiga tingkat, tapi jika penentuan jenis kata pada setiap tingkat telah berhasil maka tingkat selanjutnya tidak perlu dialui. Tingkat yang pertama adalah melihat pada kamus yang telah disiapkan, jika kata ada dalam kamus maka tag akan langsung diberikan pada kata, jika tidak maka akan dilanjutkan ke proses tingkat berikutnya. Tingkat berikutnya adalah memeriksa morfologi kata dan mencoba menentukan jenis kata menggunakan aturan morfologi pada bahasa Indonesia. Jika kata dapat diprediksi maka hasil dari tingkatan proses tersebut juga dapat digunakan untuk memperkaya kamus. Jika kata masih belum bisa ditentukan jenis katanya maka pada tingkatan ketiga akan digunakan metode bigram untuk memprediksi jenis kata. Jika kata dapat diprediksi maka hasil dari bigram juga akan digunakan untuk memperkaya kamus.

Jika kata belum dapat diprediksi jenis katanya maka kata akan diberi label X (unknown).

IV.1 Leksikon/Kamus

Proses POS tagging tidak akan berjalan tanpa adanya leksikon/kamus. Dipilih berbasis kamus karena menurut penelitian yang dilakukan Fadillah Z. Tala (2003) bahwa pemrosesan temu balik informasi POS tagging dan stemming untuk bahasa Indonesia lebih baik berbasis kamus yang menghasilkan lebih sedikit kesalahan dibanding berbasis aturan [26]. Kamus kata yang digunakan adalah kamus KEBI (Kamus Elektronik Bahasa Indonesia) yang didapat dari ITB. KEBI merupakan Kamus Bahasa Indonesia - Bahasa Inggris yang dikembangkan oleh Badan Pengkajian dan Penerapan Teknologi (BPPT) yang boleh digunakan untuk keperluan riset. Kamus ini mengandung 29.396 kata berbahasa Indonesia. Jenis kata dalam kamus dikelompokkan menjadi lima belas jenis kata antara lain kata sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru (interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan kata kerja (verba). Namun kamus KEBI tidak dapat langsung digunakan karena

(3)

harus diubah menjadi format leksikon pada pengurai Collins. Proses yang harus dilakukan untuk mempersiapkan kamus antara lain:

 Menghapus frase pada kamus (kamus KEBI juga memuat frase)

 Mengurutkan kata pada kamus KEBI

 Diubah formatnya menjadi

[kata] [jenis_kata] [klasifikasi]

misal menjadi

cangkul NN 0

dimana klasifikasi diisi dengan 0 jika kata termasuk jarang muncul (dihitung probabilitasnya pada file treebank) dan diisi dengan 1 jika kata tergolong sering muncul. Pengklasifikasian jarang atau sering muncul dihitung secara probabilistik kemunculan kata saat proses pembelajaran menggunakan treebank dengan nilai threshold yang ditentukan oleh penulis yaitu 0.3.

Kamus ini akan menjadi kamus awal yang disiapkan dan akan terus diperkaya seiring dengan banyaknya pohon kalimat pada treebank yang digunakan untuk pembelajaran. Pada saat sistem melakukan pembelajaran maka akan digunakan metode bootstrapping untuk memperkaya kamus seperti pada Gambar IV-2.

Bootstrapping dalam konteks tesis ini merupakan proses memperkaya leksikon kamus dengan menggunakan treebank untuk menambah leksikon beserta jenis katanya.

(4)

Gambar IV-2 Proses Memperkaya Kamus

IV.2 Morfologi Tata Bahasa Indonesia

Morfologi (ilmu tata kata) adalah cabang ilmu bahasa yang mengidentifikasi satuan-satuan dasar bahasa sebagai satuan makna yang dapat berubah-ubah bergantung pada urutan kata, intonasi, bentuk, serta kata tugas penentu kalimat (gramatikal). Morfologi dapat digunakan untuk mengidentifikasi jenis sebuah kata bentukan dari kata dasar yang berimbuhan. Oleh karena itu morfologi juga diperlukan untuk memprediksi jenis kata yang tidak ada di dalam kamus.

IV.2.1 Jenis Kata

Kata adalah satuan sintaksis (makna) dalam tutur atau kalimat. Penamaan jenis kata mengacu pada Penn treebank yang juga digunakan oleh pengurai Collins dengan penambahan jenis kata jika tidak ada pada Penn treebank [20] (misal untuk jenis tanda baca, pada tesis ini menggunakan PU sedangkan pada pengurai

treebank

Pembelajaran

diuraikan menjadi struktur pohon dalam struktur program per kalimat

pembangkitan events bootstrapping leksikon

file events

(5)

Collins diberi tag yang sama dengan tanda baca itu). Daftar penamaan jenis kata (tag) yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-1.

Tabel IV-1 Penamaan Jenis Kata yang Digunakan

Simbol Jenis Kata Keterangan Contoh

JJ Adjektiva Kata sifat; kata yang memberi penjelasan tentang suatu benda

cantik, baik, buruk

RB Adverbia Kata keterangan nanti, sekarang

AR Artikula Kata sandang si, sang

CC Konjungtor Koordinatif

Kata hubung yang menghubungkan klausa pada kalimat majemuk setara.

dan, lalu

CS Konjungtor

Subordinatif Kata hubung pada kalimat majemuk

bertingkat ketika,

walaupun MD Modal Kata Keterangan Modalitas boleh

PR Pronomina Kata ganti; kata yang dipakai untuk menggantikan kata atau yang dibendakan

saya, itu

WH Kata Tanya Kata yang digunakan untuk menanyakan sesuatu

siapakah, bagaimanakah NN Nomina Kata benda; kata yang menyebut benda

atau yang dibendakan

buku, meja, orang CD Numeralia Kata bilangan; kata yang menyatakan

jumlah benda atau jumlah kumpulan atau jurusan dari nama-nama benda

seribu

IN Preposisi Kata depan; kata yang merangkaikan kata- kata atau bagian-bagian kalimat

di, ke, dari

UH Interjeksi Kata seru ai, ah, ceile

RP Partikel Kata tugas partikel pun, per VB Verba Kata kerja; kata yang bermakna melakukan

aktivitas atau kegiatan, atau lebih jelas kalau dikatakan melakukan pekerjaan

mencoba, lempar, menari

AUX Kata bantu Kata bantu akan, dapat

FW Kata asing Kata asing download,

notebook PU Tanda baca Tanda baca ., , , :, (, ), “, ‘,

”, ’ SYM Simbol

matematika

Simbol matematika +, #, $

X unknown Kata yang tidak dapat diprediksi jenis katanya

(6)

Jenis kata akan menjadi simbol terminal pada tesis ini. Penjelasan selengkapnya mengenai jenis-jenis kata dapat dilihat di Lampiran 1. Simbol-simbol non terminal yang digunakan pada tesis juga meliputi simbol yang menyatakan sub kalimat atau frase (satuan makna yang terdiri lebih dari satu kata yang memiliki jabatan tertentu pada kalimat). Simbol-simbol non-terminal untuk sub- kalimat/frase yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-2.

Tabel IV-2 Simbol Non Terminal

Simbol Keterangan

S Kalimat

ADJP frase yang menyatakan sifat (frase

adjektiva)

ADVP frase yang menyatakan keterangan (frase

adverbia)

NP frase yang menyatakan benda (frase

nomina)

SBAR sub kalimat majemuk

SBARQ sub kalimat setelah kata tanya

VP frase yang menyatakan kerja (frase verba)

IV.2.2 Imbuhan

Imbuhan dalam bahasa Indonesia adalah tambahan yang melekat pada kata untuk membentuk sebuah makna baru [21]. Imbuhan dapat digunakan untuk memprediksi kata-kata yang tidak ada di dalam kamus. Imbuhan pada bahasa Indonesia antara lain prefiks atau awalan, sufiks atau akhiran, infiks atau sisipan, dan konfiks (imbuhan di depan dan di belakang kata dasar). Prefiks disebut juga awalan. Prefiks adalah afiks (imbuhan) yang ditempatkan di bagian muka suatu kata dasar. Kumpulan awalan yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran 2 berikut jenis kata yang dapat dibentuk dari awalan. Sufiks atau akhiran adalah afiks (imbuhan) yang digunakan di bagian belakang kata.

Kumpulan akhiran yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran 3 berikut jenis kata yang dapat dibentuk dari akhiran. Infiks atau sisipan adalah

(7)

afiks (imbuhan) yang diselipkan di tengah kata dasar. Infiks tidak digunakan pada tesis ini karena sangat sulit mendeteksinya. Infiks yang ada pada bahasa Indonesia misalnya –in-, -em-, -el-, dan –er-. Konfiks adalah afiks (imbuhan) yang ada di depan dan di belakang kata dasar secara bersamaan. Kumpulan konfiks yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran 4 berikut jenis kata yang dapat dibentuk dari konfiks. Kaidah bahasa Indonesia memiliki aturan imbuhan yang akan membentuk suatu jenis kata. Aturan-aturan imbuhan yang ada dalam bahasa Indonesia dapat dilihat pada Tabel IV-3.

Tabel IV-3 Aturan Imbuhan [21]

Pola Imbuhan Contoh Jenis Kata

meN + kata dasar (jenis kata bebas) + kan

mengantuk, mengkritik kata kerja (verba) peN-ber + kata dasar (jenis

kata bebas) + an

pelukis, pemburu kata benda (nomina) ke-ber- + kata dasar (jenis

kata bebas) + an

kebersamaan, keberterimaan

kata benda (nomina) kata dasar (jenis kata kerja,

kata benda, kata sifat) + i

terangi, sinari kata kerja (verba) beR- + kata dasar becermin, beserta,

berternak, bekerja kata kerja (verba) teR- + kata dasar terbawa, tertidur kata kerja (verba)

Penjelasan selengkapnya mengenai aturan imbuhan dan variasinya dapat dilihat pada Lampiran 5.

IV.2.3 Pengulangan Kata

Pengulangan kata dalam bahasa indonesia dipisahkan dengan menggunakan tanda hubung (-). Pengulangan juga dapat membentuk sebuah arti gramatikal (makna yang berubah sesuai dengan kalimat) dari bentuk kata dasarnya. Pengulangan kata dasar akan membentuk jenis kata sesuai dengan jenis kata jika tidak diulang misal

“cepat-cepat” memiliki kata dasar “cepat” yang berjenis kata keterangan maka kata “cepat-cepat” akan berjenis kata keterangan. Contoh lain misalnya buku- buku yang berarti kumpulan buku merupakan pengulangan dari kata dasar buku yang merupakan kata benda maka buku-buku juga merupakan kata benda. Adapun kata pengulangan yang merupakan satu kesatuan kata benda misal kupu-kupu,

(8)

laba-laba. Pengulangan juga dapat disertai imbuhan sehingga membentuk makna gramatikal yang bisa berbeda dengan kata dasarnya. Aturan pengulangan berimbuhan dalam bahasa Indonesia dapat dilihat pada Tabel IV-4.

Tabel IV-4 Aturan Pengulangan Kata Berimbuhan

Pola Contoh Jenis Kata

ke + kata dasar (jenis kata bebas) yang diulang + an

kebarat-baratan kata benda (nomina)

ber + kata dasar yang diulang (jenis kata kerja)

berlari-lari kata kerja (verba)

ber + kata dasar yang diulang (jenis kata benda)

berlama-lama, berjam- jam

kata keterangan (adverbia)

kata dasar (jenis kata kerja) + meN + kata dasar (jenis kata kerja)

tanam-menanam kata kerja (verba)

se- + kata dasar + -nya secepat-cepatnya, sepandai-pandainya, sebaik-baiknya

kata sifat atau edjektiva

Pengulangan juga ada yang merupakan pengulangan berubah bunyi seperti bolak- balik, sayur-mayur, gerak-gerik. Pengulangan ini akan dicari di kamus kedua katanya, jika ada salah satu maka dapat simpulkan jenis katanya karena jenis pengulangan ini akan membentuk kata sesuai kata asal yang diulang, tapi berubah bunyi.

IV.2.4 Proses Pemeriksaan Imbuhan

Mengacu pada penelitian yang dilakukan oleh Femphy Piceldo dkk (2008) [22]

mengenai penganalisis morfologi pada bahasa Indonesia bahwa pemeriksaan imbuhan pada sebuah kata memiliki urutan proses tertentu agar tidak terjadi kesalahan pengenalan kata dilihat dari segi morfologi pada bahasa Indonesia. Pada penelitian Femphy Piceldo [22], proses dimulai dengan memeriksa awalan kata.

Hasil kata dasar dari pemisahan awalan akan diperiksa di dalam kamus apakah

(9)

ada kata dasarnya, jika ada maka kata sudah dapat diprediksi jenis katanya dengan hanya menggunakan awalan. Jika kata belum dapat diprediksi maka akan diperiksa akhiran kata, dicari kata dasarnya beserta gabungan hasil proses sebelumnya (apakah ada pengulangan atau awalan), jika ada di kamus maka kata sudah dapat diprediksi jenis katanya. Jika kata tidak mengandung awalan maka akan diperiksa apakah kata merupakan pengulangan kata dasar, jika benar maka kata dasarnya diperiksa di kamus, jika ada maka kata dapat diprediksi jenis katanya. Jika kata masih belum dapat diprediksi maka dilakukan pemeriksaan apakah kata merupakan kata pengulangan berimbuhan dan dicoba mencari kata dasarnya di kamus, jika ada maka kata dapat diprediksi jenis katanya. Untuk semua tahapan pemeriksaan kata. jika hanya dengan menggunakan pola imbuhan kata sudah dapat diprediksi maka tidak perlu mencari kata dasar di dalam kamus, misal bila ada pola imbuhan tertentu yang digabungkan dengan kata dasar jenis apapun akan membentuk suatu jenis kata tertentu.

Pada tesis ini akan ditambahkan beberapa proses pemeriksaan untuk menentukan jenis kata, misalnya seperti pemeriksaan apakah kata termasuk kata singkatan yang ditandai dengan huruf besar semua, kata singkatan akan diberi label NN yang berarti kata benda, atau apakah kata termasuk kata bilangan jika ada karakter berupa angka pada kata, atau apakah kata termasuk kata nama yang ditandai dengan penulisan huruf besar di awal kata, kata nama diberi label NN yang berarti kata benda. Urutan proses yang harus dilakukan untuk menganalisis morfologi pembentukan kata pada bahasa Indonesia dapat dilihat pada Gambar IV-3.

Penjelasan mengenai struktur data dan format penulisan file untuk keperluan POS tagging menggunakan aturan morfologi yang digunakan pada tesis ini dapat dilihat pada Lampiran 14.

(10)

Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi

IV.3 Prediksi Jenis Kata dengan Metode Bigram

Model N-gram adalah sebuah tipe model probabilistik untuk memperkirakan elemen selanjutntya pada sebuah urutan. N-gram digunakan untuk berbagai area statistik dari pemrosesan bahasa alami dan analisis urutan genetik. Sebuah n-gram adalah sebuah sub-urutan dari sejumlah n elemen dari urutan yang diberikan.

Elemen dapat berupa fonem, huruf, kata tergantung dari kebutuhan aplikasi [27].

jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya jika belum dapat diprediksi jenis katanya

jika belum dapat diprediksi jenis katanya jika belum dapat diprediksi jenis katanya

jika sudah dapat diprediksi

jika belum dapat diprediksi jenis katanya jika belum dapat diprediksi jenis katanya jika belum dapat diprediksi jenis katanya

jika sudah dapat diprediksi jenis katanya

kata

Pemeriksaan awalan saja untuk mendapatkan kata dasarnya

Pemeriksaan akhiran

Pemeriksaan pengulangan

Penyimpulan tag (jenis kata)

tag (jenis kata) memprediksi jenis kata dengan metode bigram Pemeriksaan kata bilangan

Pemeriksaan kata singkatan

Pemeriksaan awalan dan akhiran

Pemeriksaan kata nama

(11)

Model bigram adalah model n-gram yang hanya melibatkan dua buah elemen.

Model bigram menggunakan teorema bayes dalam perhitungannya yaitu:

P(Wn|Wn-1) =

) (

) , (

1 1

n

n n

W P

W W

P (IV-1)

dimana P adalah probabilitas kata yang diberikan oleh kata sebelumnya. Sebuah kalimat akan memiliki probabilitas sebagai berikut:

)

| ( )

( 1

1

1

n k

k

n P wk w

w

P (IV-2)

sehingga jika probabilitas bigram diterapkan pada sebuah kalimat “I want to eat Chinese food” maka probabiltasnya adalah sebagai berikut:

P(I want to eat Chinese food) = P(I | <start>) * P(want | I) * P(to | want) * P(eat | to) * P(Chinese | eat) *

P(food | Chinese) (IV-3)

Metode bigram yang digunakan pada tesis ini menggunakan dua buah jenis aturan grammar untuk mencari jenis kata. Aturan grammar yang pertama adalah aturan grammar yang memiliki simbol jenis kata sama dengan kata di depan kata yang dicari jenis katanya, sedangkan jenis aturan grammar kedua adalah aturan grammar yang memiliki simbol jenis kata sama dengan kata di belakang kata yang dicari jenis katanya. Misalnya kata yang akan dicari jenis katanya adalah

“guru” dalam kalimat “Bapak guru menulis di papan tulis” maka aturan grammar yang akan dihitung probabilitasnya adalah aturan grammar yang memenuhi hal- hal berikut:

(12)

 Aturan grammar memiliki simbol awal yang sama dengan tag kata sebelum kata yang dicari, misal

NP → NN NN

NN yang pertama sama dengan tag kata “Bapak” maka aturan grammar ini masuk dalam kumpulan grammar yang akan dihitung probabilitasnya,

 Aturan grammar memiliki simbol akhir yang sama dengan tag kata setelah kata yang dicari, misal

VP → JJ VB

VB sama dengan tag kata “menulis” maka aturan grammar ini masuk dalam kumpulan grammar yang akan dihitung probabilitasnya

 Misalkan ada aturan grammar NP → NN NN

VP → NN VB

maka aturan VP → NN VB tidak akan dimasukkan pada kumpulan aturan grammar yang akan dihitung probabilitasnya karena memiliki kesimpulan tag yang sama untuk kata yang dicari tag-nya (NN), tapi kemunculan aturan grammar kedua akan dimasukkan dalam jumlah kemunculan aturan grammar pertama.

Aturan grammar pada pengurai Collins ditulis dengan aturan triple. Aturan penulisan aturan grammar pada pengurai Collins dapat dilihat pada Lampiran.7 dan Lampiran 13.

Perhitungan akan dilakukan dengan menggunakan probabilitas. Pada kumpulan aturan grammar yang terpilih akan dipilih probabilitas yang paling besar.

Perhitungan probabilitas aturan grammar dihitung dengan menggunakan rumus berikut:

P(untuk tag kata yang dicari) = ) (

) (

bahasa tata

pola jumlah

dicari yang kata untuk NN bagian memiliki

yang bahasa tata

pola jumlah

(IV-4)

(13)

Pola yang memiliki probabilitas terbesar akan digunakan untuk pelabelan pada kata yang dicari jenis katanya. Secara garis besar proses perhitungan probabilistik bigram pada tesis ini seperti pada Gambar IV-4.

Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram kalimat yang mengandung kata yang tidak

bisa diprediksi kelas katanya

periksa kata di depan dan di belakang kata yang tidak dapat diprediksi kelas katanya

cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di depan kata yang akan diprediksi jenis katanya

cari pola tata bahasa/aturan grammar yang mengandung simbol jenis kata di belakang kata yang akan diprediksi jenis katanya

memberikan tag pada kata yang tidak diketahui jenis katanya berdasarkan aturan grammar yang memiliki probabilitas terbesar

kelas kata/tag

Referensi

Dokumen terkait

Triangulasi sumber dilakukan dengan cara menanyakan hal yang sama melalui sumber yang berbeda, dalam hal ini sumber datanya adalah yaitu manajer cabang,

Aplikasi penelitian ini dimasa yang akan datang disarankan agar Hotel Grand Duta Syariah Palembang dapat membedakan fungsi penjualan dan fungsi kas agar tidak

Dalam penelitian ini, responden mengalami proses kultivasi melalui proses resonance dengan data yang menunjukkan bahwa semakin tinggi persamaan antara pengalaman responden

Infeksi 4irus dengue mengaki1atkan menifestasi kinis %ang 1er4ariasi muai dari asimtomatik&amp; pen%akit paing ringan&amp; demam 1erdarah dengue sampai sindrom

Berdasarkan tabel pengukuran kinerja kegiatan, menurut Badan Lingkungan Hidup Kabupaten Pasuruan dapat diketahui bahwa kinerja badan lingkungan hidup kabupaten

Membawa Dokumen Penawaran Asli dan Foto copy sesuai dengan yang telah diunggah. dalam

ditemukan seropositif MAP pada sapi perah dengan jumlah yang lebih banyak dari tahun sebelumnya bahkan diperoleh 2 isolat positif MAP yang tumbuh pada HEYM dan telah

atau faktor-faktor itu berbentuk pasangan- pasangan, dimana dalam satu pasangan dua elemennya mempunyai pengaruh yang berbeda, salah satu elemen mendominasi elemen