7
BAB II
TINJAUAN PUSTAKA
2.1 Tinjauan Empiris
Pada penelitian ini, ada beberapa penelitian terkait yang peneliti gunakan sebagai tinjauan studi. Berikut merupakan penelitian – penelitian terkait yang pernah dilakukan oleh peneliti lain :
a. HMM Based Part-of-Speech Tagger for Bahasa Indonesia (Wicaksono dan Purwarianti, 2010)
Pada penelitian ini, ada beberapa metode digabungkan untuk meningkatkan akurasi POS-Tagging untuk Bahasa Indonesia menggunakan metode HMM. Metode pertama adalah menggunakan pohon afiks yang mencakup akhiran kata dan awalan. Metode kedua adalah menggunakan succeeding POS-tag sebagai salah satu fitur untuk HMM. Metode terakhir dengan menggunakan leksikon tambahan (dari KBBI-Kateglo) untuk membatasi tag yang dihasilkan oleh pohon afiks. Model HMM menggunakan 15.000-token data corpus. Dalam percobaan, menggunakan 15% OOV tes corpus, akurasi terbaik adalah 96,50% dengan 99,4% untuk kata yang terdapat pada kamus dan 80,4% untuk OOV (out of vocabulary) atau kata yang tidak ada dalam kamus. Penelitian menunjukkan bahwa pohon afiks dan leksikon tambahan efektif dalam meningkatkan akurasi POS-Tagger, sedangkan penggunaan succeeding POS-tag tidak memberikan banyak perbaikan pada penanganan OOV. b. POS Tagging Bahasa Indonesia Dengan HMM dan Rule Based
(Kathryn Widhiyanti dan Agus Harjoko, 2012)
Pelabelan kelas kata bahas Indonesia menggunakan metode Hidden Markov Model dan Rule Based memiliki keakuratan yang tinggi yaitu 100% untuk teks yang ada di dalam corpus. Hasil ini lebih baik daripada hanya menggunakan metode HMM saja yang menghasilkan akurasi 99,29% untuk corpus yang sama. Namun, penelitian ini masih memiliki kekurangan, yaitu belum dapat membedakan kata yang memiliki makna ambigu atau kelas kata ganda.
c. Implementasi Brill Tagger untuk Memberikan POS-Tagging Pada Dokumen Bahasa Indonesia (Viny Christanti, 2012)
Program Brill Tagger dapat diimplementasikan dengan baik untuk memberikan kelas kata pada dokumen bahasa Indonesia. Aturan leksikal dan kontekstual yang dihasilkan oleh Brill Tagger dapat digunakan sebagai aturan untuk memberikan kelas kata untuk kalimat bahasa Indonesia dengan nilai akurasi 98,65%. Namun masih terdapat kesalahan aturan sehingga menghasilkan kelas kata yang tidak tepat. Setelah memperbaiki aturan leksikal dan kontekstual akurasi meningkat menjadi 99,75%. Penerapan aturan leksikal dan kontesktual yang tepat dapat meningkatkan keakuratan pelabelan kelas kata.
2.2 Tinjauan Teoritis
2.2.1 Part-of-SpeechTagging
Part-of-Speech tagging (atau disingkat tagging) merupakan suatu proses memberi tanda (mark) kelas kata pada setiap kata dalam korpus (Jurafsky,2000). Tagging dapat dimanfaatkan pada aplikasi Natural Language Processing seperti : Question and Answering (Q&A), Machine Translation, Text Summarization dll. Penelitian mengenai Part-of-Speech Tagging sudah banyak dilakukan menggunakan berbagai metode seperti : Genetic Brill Tagger (W Joose,2006) dengan nilai akurasi 97% untuk dokumen bahasa Belanda, Hidden Markov Models dan Rule Based (Kathryn & Agus, 2012) dengan nilai akurasi 92,2% untuk dokumen bahasa Indonesia, dan Brill Tagger (Viny,dkk.,2012) dengan nilai akurasi 99,75% untuk dokumen bahasa Indonesia.
2.2.2 Penentuan Kelas Kata
Proses part-of-speech tagging memerlukan kamus/leksikon untuk dapat digunakan dalam penentuan kelas kata. Leksikon merupakan kumpulan kata dasar disertai dengan tag atau kelas katanya. Leksikon dalam bahasa Bali hingga saat ini masih terbatas keberadaannya, sehingga digunakan kumpulan kata dasar yang didapatkan dari dataset sebagai leksikon dalam penelitian. Bentuk penulisan leksikon adalah sebagai berikut :
Tabel 2. 1 Contoh Lexicon
Word Most Frequent Tag Other Possible Tags
Bisa NN RB ... L1
Lima NN CD ... L2
Gunting NN VB ... L2
Deretan L1 menunjukkan bahwa kata “bisa” memiliki most frequent tag NN dan pada suatu kondisi juga dapat diberi tag RB. Deretan L2 menunjukkan bahwa kata “lima” memiliki most frequent tag NN dan pada suatu kondisi juga dapat diberi tag CD. L3 menunjukkan bahwa kata “aji” memiliki most frequent tag NN dan pada suatu kondisi juga dapat diberi tag VB. Begitu selanjutnya untuk setiap kata yang terdapat dalam leksikon.
2.2.3 Morfologi Tata Bahasa Bali
Morfologi merupakan bagian dari ilmu bahasa (linguistik) khususnya tata bahasa. Objek analisisnya meliputi satuan gramatikal pada tingkat morfem dan kata. Bagaimana tata bentuk, struktur, dan klasifikasi kata – kata adalah merupakan masalah pokok kajian morfologi. Oleh karena itu morfologi juga diperlukan untuk memprediksi kelas kata yang tidak ada di dalam kamus.
2.2.3.1 Kelas Kata
Menurut (Granoka,dkk.,1984), kata dasar maupun kata turunan dapat dikelompokkan atas suatu kategori atau kelas. Penggolongan kata seperti itu disebut kategori kata atau kelas kata. Penggolongan kategori kata atau kelas kata seperti itu dapat dilakukan dengan melihat prilaku satuan tersebut secara gramatikal dalam tataran yang lebih kompleks yaitu pada tingkat frase maupun kalimat. Secara garis besar, terdapat sejumlah kata yang dapat menduduki fungsi objek dalam suatu kalimat, di samping terdapat pula sejumlah kata yang tidak dapat menduduki fungsi objek, tetapi dapat menduduki fungsi predikat. Untuk kedua kelas kata di atas, diberikan istilah yaitu, kelas kata yang pertama disebut nominal, dan yang kedua disebut adjektiva. Sedangkan kata – kata yang lainnya yang tidak dapat digolongkan ke dalam kelas nominal maupun adjektiva dimasukkan dalam suatu kelas kata yang disebut partikel.
Ketiga kategori atau kelas kata di atas dapat diperinci lagi menjadi beberapa sub kategori. Kelas kata nominal dibedakan menjadi tiga sub kategori, yaitu : kata benda, kata ganti, dan kata bilangan. Kelas kata adjektiva dibedakan menjadi dua sub kategori, yaitu : kata kerja dan kata sifat. Sedangkan kelas kata partikel dapat diperinci menjadi enam sub kategori, yaitu : kata penjelas, kata keterangan, kata penanda, kata perangkai, kata tanya, dan kata seru. Namun, kelas kata yang digunakan dalam penelitian ini disesuaikan dengan kelas kata yang saat ini lebih banyak digunakan dalam bahasa Bali. Sehingga kelas kata penjelas dan penanda tidak digunakan dalam penelitian ini.
Penentuan kelas kata menggunakan tagset pada Penn Treebank (Santorini,1991). Kelas kata dalam bahasa Bali jika disesuaikan dengan tag pada Penn Treebank, maka diperoleh kelas kata sifat (JJ), kata keterangan (RB), kata perangkai yang dibagi menjadi konjungtor koordinatif (CC) dan konjungtor subordinatif (CS), kata ganti (PR), kata Tanya (WH), kata benda (NN), kata bilangan (CD), kata seru (UH), dan kata kerja (VB). Ada beberapa kelas kata yang ditambahkan peneliti, yaitu : kelas kata sandang (AR), kata benda khusus (NNP), kata depan (IN), kata asing (FW), tanda baca (TB), dan simbol (SYM). Sehingga total kelas kata yang digunakan dalam kelas kata ini sebanyak 16 kelas kata. Berikut merupakan daftar kelas kata yang dilengkapi dengan deskripsi dan contohnya:
Tabel 2. 2 Daftar Kelas Kata yang Digunakan dalam Penelitian
Tag Kelas Kata Deskripsi Contoh
JJ Adjectiva Kata sifat; kata yang memberi penjelasan tentang suatu benda
Gede, putih, miik
RB Adverbia Kata Keterangan Teken, olih, lakar
AR Artikula Kata Sandang I, Ni, Ipun
CC Konjungtor Koordinatif
Kata perangkai yang menghubungkan klausa pada kalimat majemuk setara
Lan, tur, muah
CS Konjungtor Subordinatif
Kata hubung pada kalimat majemuk bertingkat
Sawireh, Sane
PR Pronomina Kata ganti; kata yang dipakai untuk menggantikan kata atau yang
Tiang, ragane, cai, ento, ia, niki
dibendakan
WH Kata Tanya Kata yang digunakan untuk menanyakan sesuatu
Sire, kenapi
NN Nomina Kata benda; kata yang menyebut benda atau yang dibendakan
Sate, umah, gegaen
NNP Kata Benda Khusus
Kata benda khusus adalah kata benda yang mewakili suatu entitas tertentu
Jawa, Jakarta, Ani
CD Numeralia Kata bilangan; kata yang menyatakan jumlah benda atau jumlah kumpulan nama benda
Abesik, dadua, seket, karo belah.
IN Preposisi Kata depan; kata yang merangkaikan kata – kata atau bagian – bagian kalimat
di, ke, uli, ring, saking
UH Interjeksi Kata seru Ih, beh, aduh, aruh
VB Verba Kata kerja; kata yang bermakna melakukan aktivitas atau kegiatan atau lebih jelas kalau dikatakan melakukan pekerjaan
Adep, meli, melaib, dingeh
FW Kata asing Kata asing Online, handphone
TB Tanda baca Tanda baca ., , , ; , (, ), “, ‘
SYM Simbol
Matematika
Simbol matematika +, #, $
2.2.3.2 Kata Berimbuhan
Menurut (Granoka,dkk.,1984), kata berimbuhan adalah kata turunan yang dihasilkan melalui proses morfologis dengan penambahan imbuhan. Imbuhan adalah berupa morfem terikat yang dapat dibedakan, menurut tempatnya melekat pada kata dasar, yaitu : prefiks (awalan), infiks (sisipan), sufiks (akhiran), dan konfiks atau disebut juga simulfiks.
1. Prefiks (awalan)
Prefiks atau awalan yaitu imbuhan yang terletak di depan kata dasar. Dalam bahasa Bali disebut pengater. Pengater dalam bahasa Bali, yaitu :N- , ma- , ka- , pa- , sa- , a- , pra- , pari- , pati- , maka- , saka- , kuma- .
Dari penjelasan di atas, akan dibuat aturan imbuhan prefiks yang dirangkum pada tabel berikut :
Tabel 2. 3 Aturan Imbuhan Prefiks (Awalan)
No Pola Imbuhan Kelas Kata Contoh
1 N- + kata dasar Kata Kerja Ngidih, Ngalih,
Ngwangun
2 ma- + kata dasar Kata Kerja Makarya, maburuh,
madagang
3 ka- + kata dasar Kata Kerja Kacrita, katulung,
kakaplug
4 pa- + kata dasar Kata Benda, Kata Kerja Patakon, pangrasa, padengok
5 sa- + kata dasar Kata Keterangan Sawai, sapeteng, sarahina 6 a-+ kata dasar Kata Benda,Kata
Bilangan
Apeteng, adiri, aukud
7 pra-+ kata dasar Kata Benda Prabekel, prajani 8 pari- + kata dasar Kata Benda Paribahasa, pariboya 9 pati-+ kata dasar Kata Kerja Patigrape, patijemak 10 maka-+ kata dasar Kata Bilangan Sakaukud, sakabungkul 11 saka- + kata dasar Kata Bilangan Sakabesik, sakatugel 11 kuma-+ kata dasar Kata Benda Kumajaum, kumalipan
2. Infiks (sisipan)
Infiks adalah imbuhan yang terletak di tengah kata dasar. Dalam bahasa Bali disebut seselan. Jika sebuah kata dasar memiliki huruf vokal, maka seselan yang ditambahkan sebelum huruf vocal. Sedangkan, jika sebuah kata dasar memiliki huruf konsonan, maka seselan terletak di akhir huruf konsonan pertama pada kata dasar tersebut. Seselan dalam bahasa Bali, seperti :-in-, -um-, -el-, dan-er-.
Tabel 2. 4 Aturan Imbuhan Infiks (Sisipan)
No Pola Imbuhan Kelas Kata Contoh
1 kata dasar + -in- Kata Kerja Sinurat, tinulung 2 kata dasar + -um- Kata Kerja Tumurun, sumeken 3 kata dasar + -el- Kata Benda Telapak, telusuk 4 kata dasar + -er- Kata Benda Gerudug
3. Sufiks (akhiran)
Sufiks adalah imbuhan yang terletak di akhir kata dasar. Dalam bahasa Bali disebut pengiring, yang termasuk pengiring yaitu :ang,in, an, a, n, ing, -é, -né.
Tabel 2. 5 Aturan Imbuhan Sufiks (Akhiran)
No Pola Imbuhan Kelas Kata Contoh
1 kata dasar + -ang Kata Kerja Nyemakang, alihang, suratang
2 kata dasar + -in Kata Kerja Jagurin, tanemin, tegakin 3 kata dasar + -an Kata Benda Diwangan, ketekan 4 kata dasar + -a Kata Kerja, Kata
Benda
Abana, batisa
5 kata dasar + -e Kata Benda Temboke, dagange, payuke 6 kata dasar + -ne Kata Benda Umahne, tanahne, gigine
Akhiran –n dan –ing tidak memiliki pola yang pasti karena kedua akhiran ini bukan pembentuk kata. Akhiran –n dan –ing digunakan sebagai alat untuk menyatakan hubungan antara dua kata dalam bentuk frase secara nyata (eksplesit). Terutama akhiran –n diikuti dengan unsur kepemilikan. Berikut adalah contoh akhiran –n dan –ing :
Akhiran –n : liman tiange. Akhiran –ing : kalaning purnama. 4. Konfiks (awalan dan akhiran)
Konfiks adalah gabungan imbuhan terdiri dari dua buah imbuhan yaitu (pangater dan pengiring). Gabungan imbuhan dalam bahasa Bali, seperti : pa-an, ma-an, ka-an, bra-an, dan n-ang.
Tabel 2. 6 Aturan Imbuhan Konfiks
No Pola Imbuhan Kelas Kata Contoh
1 pa + kata dasar + an Kata Benda pasirepan, panyemuhan 2 ma + kata dasar + an Kata Kerja mangkidan, majemakan 3 ka + kata dasar + an Kata Benda kalacuran, karahayuan 4 bra + kata dasar + an Kata Sifat brakapakan, bramahan 5 N + kata dasar + ang Kata Kerja nyenikang, ngamaelang 2.2.3.3 Proses Morfofonemis
Sebagai akibat pertemuan sebuah morfem dengan morfem lainnya dapat terjadi suatu perubahan bentuk morfem. Misalnya, morfem N- apabila dipasangkan dengan morfem ‘gae’ yang berarti kerja, ‘jagur’ yang berarti pukul sebagai kata dasarnya dapat menghasilkan bentuk baru menjadi ‘ngae’ yang berarti membuat, ‘nyagur’ yang berarti memukul. Berikut merupakan daftar perubahan morfem dalam Bahasa Bali (Kamus Bahasa Bali, 1990) :
Tabel 2. 7 Daftar Proses Hilangnya Fonem
No Bentuk Dasar Berawalan Menjadi
1 k,g ng kutang ngutang gambar ngambar 2 c,j,s ny cacad nyacad jaring nyaring sampat nyampat 3 t,d n tegul negul dandan nandan 4 p,b m papag mapag batek matek
5 ny,n,m nga + (ny,n,m) nyanggluh nganyanggluh
nengneng nganengneng maling ngamaling
6 y,r,l,w ng + (y,r,l,w) yasaang ngyasaang
rasa ngrasa
lawan nglawan wangun ngwangun
7 vokal ng + vokal alih ngalih
ibing ngibing ubuh ngubuh ebet ngebet olah ngolah ejuk ngejuk Contoh
Pada tabel di atas dapat dilihat pembubuhan morfem terhadap bentuk kata dasar berawalan fonem konsonan diikuti dengan meluluhnya fonem konsonan tersebut, sehingga diperoleh rumusan kaidah di atas dengan penjelasan sebagai berikut :
1. Fonem k,g yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem ng, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
2. Fonem c,j,s yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem ny, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
3. Fonem t,d yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem n, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
4. Fonem p,b yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem m, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
2.2.4 Brill Tagger
Brill Tagger diperkenalkan pertama kali oleh Eric Brill pada tahun 1995. Algoritma ini mencapai tingkat akurasi 95% pada tagging bahasa inggris (Bjerva,2013). Secara umum Brill Tagger disebut juga Transformation-based Error-driven Learning (TEL). Faktanya Tagger adalah dasar transformation atau rules dan belajar dari mendeteksi nilai errors. Pada gambar 2.1 deskripsi dari TEL yaitu pertama input merupakan unannotated text kemudian diberi tag inisialisasi dan keluaran dari inisialisasi adalah inisialisasi pada temporary corpus (TC) yang akan dibandingkan dengan corpus tujuan (training corpus). Temporary corpus menghasilkan rule baru dan rule dihasilkan secara berurutan.
Brill Tagger melakukan pemberian anotasi pada corpus dengan duaaturan, yaitu :Aturan leksikal untuk memberi tag pada unknown word dan aturan kontekstual untuk memperoleh aturan yang meningkatkan akurasi dari perbaikan skor. Kedua aturan ini menggunakan dua jenis corpus, yaitu corpus tujuan (training corpus) dan corpus sementara (Temporary Corpus) untuk meningkatkan akurasi rule yang dihasilkan tahap demi tahap.
Brill Tagger dengan metode rule based banyak dilatih untuk berbagai macam bahasa, seperti Inggis, Belanda, dan Indonesia. Dalam bahasa Indonesia telah tersedia rule based Tagger-nya, tetapi untuk bahasa Bali belum tersedia. Oleh karena itu, pada penelitian ini akan dilakukan proses training terlebih dahulu
sehingga aturan seperti aturan leksikal sebagai rule based Tagger untuk bahasa Bali dapat terbentuk. Algoritma Brill Tagger terdiri dari (Christanti,2012) :
1. Proses Inisialisasi
a. Known words (di dalam kosakata) : menentukan tag yang paling sering diberikan ke suatu bentuk kata.
b. Uknown word (di luar kosakata) :
Kata benda umum (NNP) jika diawali dengan huruf kapital dan kata benda lainnya (NN) jika sebaliknya.
2. Fase Pembelajaran
a. Pengulangan dalam menghitung nilai kesalahan dari setiap calon aturan (perbedaan antara jumlah kesalahan sebelum dan sesudah menerapkan aturan).
b. Pilih aturan yang terbaik (skor yang lebih tinggi).
c. Tambahkan dalam daftar aturan dan diterapkan pada teks.
d. Ulangi sampai tidak ada aturan yang memiliki skor di atas ambang tertentu atau yang telah diberikan (jika ambang yang dipilih adalah nol).
Gambar 2. 1 Error-driven learning module(Brill,1995)
Pada aturan leksikal, corpus tujuan adalah daftar kata yang terdiri dari informasi mengenai frekuensi tag pada training corpus. Kemudian corpus
Unannotated corpus Initial state annotator Temporary corpus Lexical / Contextual Learner Rules Goal corpus
sementara (temporary corpus) adalah daftar kata yang sama dengan corpus tujuan. Pada aturan kontekstual, corpus tujuan adalah training corpus yang di tag secara manual dan copus sementara menampung perbaikan jika masih terjadi error atau skor belum mencapai threshold. Berikut merupakan contoh dari Transformation-based Error Driven Learning(Brill,1995).
Pada gambar 2.2 diasumsikan ada 4 transformasi (T) yang mungkin, yaitu T1 – T4. Training corpus yang belum di tag diproses pada tahap inisialisasi dan menghasilkan errors = 5,100, diperoleh dari membandingkan keluaran dari inisialisasi dengan tag manual corpus. Selanjutnya, transformasi yang mungkin yang digunakan, yaitu T2 yang mengalami reduksi error tertinggi pada pembelajaran pertama dan pembelajaran selanjutnya T3 yang mengalami reduksi error tertinggi. Transformasi berhenti saat nilai skor sudah mencapai threshold.
Gambar 2. 2 Contoh Transformation-based Error Driven Learning(Brill,1995) 2.2.4.1 Pembelajaran Aturan Leksikal
Pada aturan leksikal adalah menemukan aturan (rule) untuk memberi tag pada kata dengan most likely tag pada training corpus. Contohnya adalah tag kata dengan tag yang memiliki nilai probabilitas tertinggi atau frekuensi tertinggi. Permasalahan yang muncul adalah menentukan tag pada unknown word.
T2 Annotated Corpus Errors = 1,410 Annotated Corpus Errors = 1,251 Annotated Corpus Errors = 1,231 Annotated Corpus Errors = 1,231 T1 T3 T4 Unannotated Corpus Initial State Annotator Annotated Corpus Errors = 5,100 Annotated Corpus Errors = 5,100 Annotated Corpus Errors = 3,145 Annotated Corpus Errors = 3,910 Annotated Corpus Errors = 6,300 T1 T3 T4 Annotated Corpus Errors = 3,310 Annotated Corpus Errors = 2,110 Annotated Corpus Errors = 1,231 Annotated Corpus Errors = 4,255 T1 T3 T4 T2 T2
Dalam mempelajari aturan leksikal, diperlukan smallwordtaglist yang terdiri dari kata-kata pada small corpus yang sudah diberi tag secara manual, berfungsi sebagai goal corpus dan mengandung frekuensi setiap word. Freq (W, T) digunakan untuk menghitung most likely tag T untuk word W.
P(T|W) = Freq(W,T) / Freq(W) 2.1
Selain smallwordtaglist, dalam aturan leksikal juga digunakan bigwordlist dan bigbigramlist. Bigwordlist mengandung semua word yang muncul pada corpus yang belum diberi tag (unannotated corpus). Sedangkan, bigbigramlist adalah list yang berisi semua pasangan word (bigram) dalam unannotated corpus.
Pada fase training, pertama-tama dibuat word list dari smallwordtaglist yang sudah dibuat, namun kali ini tagnya dihilangkan. Tag setiap kata di-assign dengan inisialisasi default most likely tag (NNP untuk kata yang diawali dengan huruf kapital dan NN untuk kata yang tidak diawali dengan huruf kapital). Word list yang didapat dari initial temporary corpus TC0 dinamakan WL0. Setelah itu,
generate Permissable Rules (PR) dari semua kemungkinan instansiasi dari lexical template (smallwordtaglist) yang sudah ditentukan, lalu hitung skor untuk setiap rule R pada PR. Rule dengan skor tertinggi menjadi rule nomor satu pada output. Dengan mengaplikasikan rule tersebut, WL0 sekarang menjadi WL1.Lanjutkan
dengan menghitung skor semua rule pada PR, kemudian pilih satu rule dengan skor tertinggi, outputkan rule ini sebagai rule nomor dua dan aplikasikan pada WL1 untuk memperoleh WL2. Proses ini terus diulangi sampai tidak ada lagi rule
yang dapat dipilih yang skornya lebih besar dari nilai threshold. Menghitung skor pada rule:
Misalkan terdapat rule R dengan template: if Trigger then change X to tag Y,
dan w adalah word pada WLi dengan tag sebelumnya X yang memenuhi kondisi
rule R. Maka, skor R adalah P(Y|w) - P(X|w) untuk word w. Total skor R diperoleh dari menjumlahkan semua ‘skor word’.
skor(R) = 2.2 Misalkan terdapat rule R dengan template:
dan w adalah word pada WLi yang memenuhi kondisi rule R, maka skor R adalah
P(Y|w) - P(current tag of w | w) untuk word w. Total skor R diperoleh dari menjumlahkan semua ‘skor word’.
skor(R) = 2.3 Skor yang diperoleh R akan selalu berbentuk P(new tag|w) - P(old tag|w). Skor positif menunjukkan tag yang baru more likely dibandingkan tag sebelumnya, sedangkan skor negatif menunjukkan tag yang baru less likely dibanding tag sebelumnya. Kondisi triggernya dites dengan menggunakan bigwordlist dan bigbigramlist, dan perhitungan probabilitas digunakan frekuensi pada smallwordtaglist. Lexical rule yang didapatkan dari modul pembelajaran leksikal ini akan digunakan untuk memberi tag pada unknown words pada contextual training corpus.
2.2.4.2 Pembelajaran Aturan Kontekstual
Saat Tagger telah mempelajari most likely tag untuk setiap word pada corpus yang diberi tag secara manual dan metode untuk memprediksi most likely tag untuk unknown words, aturan kontekstual dipelajari untuk disambiguation. Dicari rule sebagai basis konteks dari token-token word.
Proses pembelajaran kontekstual ini memerlukan initially annotated text. Input pada initial state annotator adalah corpus yang belum diberi tag. List traininglexicon digunakan untuk menampung list word dengan beberapa tag yang melabeli setiap word. Tag-tag tersebut didapat dari modul leksikal. Tag pertama adalah most likely tag.
word tag1, tag2, …, tagn
Dengan bantuan traininglexicon, bigbigramlist, dan lexical rules, most likely tag dilabelkan pada setiap known word pada corpus yang belum diberi tag (untagged corpus). Known word yang dimaksud adalah word-word pada traininglexicon dengan most frequent tag. Sedangkan, untuk unknown words diberi tag dengan lexical rules. Input dari pembelajaran kontekstual ini adalah goal corpus, initial temporary corpus RT0, dan traininglexicon. Pertama,
di-generate semua Permissable Rules(PR) dari semua kemungkinan instansiasi dari semua template kontekstual yang sudah ditetapkan. PR pada modul kontekstual dengan PR pada leksikal modul adalah berbeda karena kedua modul
menggunakan template transformasi yang berbeda. Berikut ini trigger-trigger pada template transformasi kontekstual:
change taga to tag b when : 1. Jika kata sebelumnya ditag z.
2. Jika dua kata sebelumnya ditag z.
3. Salah satu dari dua kata sebelumnyaditag z. 4. Salah satu dari tiga kata sebelumnyaditag z. 5. Kata sebelumnya ditag z dan kata berikut ditag w.
6. Jika kata sebelumnyaditag z dan dua kata sebelumnya ditag w. Keterangan : a, b, z dan w adalah variabel part-of-speech.
Setiap rule pada PR dengan kondisi trigger yang terpenuhi, skor temporary corpus RT0 dihitung. Diambil rule dengan skor tertinggi R1 yang kemudian
ditempatkan pada output list. Lalu aplikasikan R1 pada RT0 dan menghasilkan
RT1, dan seterusnya. Jika R merupakan rule pada PR, maka skor dihitung dengan
membandingkan tag pada kata di RTdengan correct tag pada goal corpus. Setelah rule diaplikasikan ada word w score rule dihitung dengan menjumlahkan frekuensi semua tag yang sebelumnya salah menjadi benar (fixed) dikurangi dengan jumlah tag yang sebelumnya benar menjadi salah (broken) atau dapat dirumuskan sebagai berikut :