ANALISIS DAN IMPLEMENTASI UNSUPERVISED HIDDEN MARKOV MODEL UNTUK PENENTUAN JENIS KATA BAHASA INDONESIA

Loading....

Loading....

Loading....

Loading....

Loading....

Teks penuh

(1)

ANALISIS DAN IMPLEMENTASI UNSUPERVISED HIDDEN MARKOV MODEL UNTUK PENENTUAN JENIS KATA BAHASA INDONESIA

Ketut Gde Manik Karvana¹, Imelda Atastina², Alfian Akbar Gozali³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Dalam pemakaian Part-of-Speech Tagging bahasa Indonesia diperlukan biaya yang sangat besar. Untuk itu diperlukan sebuah metode dimana dalam pengimplementasiannya tidak diperlukannya data training atau teks yang sudah ternotasi. Unsupervised Hidden Markov Model memungkinkan sistem untuk melakukan penotasian teks tanpa adanya teks training. Unsupervised Hidden Markov Model dibagi menjadi 2 proses utama yaitu evaluation/training dan decoding. Proses evaluation/training menggunakan algoritma Baum-Welch dan forward untuk mencari probabilitas π, probabilitas transisi dan probabilitas emisi yang akan digunakan untuk pencarian notasi kata. Algoritma Baum-Welch memungkinkan sistem untuk mengestimasi probabilitas awal dan algoritma forward berguna untuk mendapatkan probabilitas yang paling optimal. Dalam proses decoding, digunakan algoritma viterbi yang berfungsi untuk memilih jalur state yang paling baik. Pengujian dilakukan untuk mengetahui pengaruh jumlah tag dan jumlah kata terhadap akurasi yang dihasilkan sistem. Dari hasil pengujian dapat diambil kesimpulan bahwa metode

Unsupervised Hidden Markov Model dapat digunakan untuk kasus Part-of-Speech Tagging bahasa Indonesia namun masih menghasilkan akurasi dan konsistensi yang buruk. Jumlah tag yang menghasilkan akurasi terbaik adalah 7 tag, dan tag yang menghasilkan akurasi yang paling konsisten adalah 36 tag. Panjang kalimat tidak terlalu berpengaruh namun memiliki kecenderungan pada jumlah variasi katanya. Rata-rata akurasi terbaik yang didapat hanya sebesar 14,52 %.

Kata Kunci : Part-of-Speech Tagging bahasa Indonesia, Unsupervised Hidden Markov Model, Baum-Welch, Viterbi

Abstract

Part-of-Speech Tagging for Indonesian required a very large cost. It required a method in which the implementation does not need training data or text that has been tagged. Unsupervised Hidden Markov Models allow the system to perform text tagging without any training text. Unsupervised Hidden Markov Model is divided into two main process evaluation / training and decoding. The process of evaluation / training using Baum-Welch algorithm and forward algorithm to get the p probabilities, transition probabilities and emission probabilities that will be used to search for the word notation. Baum-Welch algorithm allows the system to estimate the probability of initial and forward algorithm is useful to obtain the most optimal probability. In the process of decoding, viterbi algorithm is used which to select the best of state sequence. Testing conducted to determine the effect of the number of tags and the number of words as to the accuracy of the system result. From the test results can be concluded that the method Unsupervised Hidden Markov Models can be used for the case of Part-of-Speech Tagging Indonesian but still produced poor accuracy and consistency. The number of tags that produces the best accuracy is 7 tag, and tags that generate the most consistent accuracy is 36 tags. The length of the sentence is not very influential, but has a tendency on the number of word variations. The best average accuracy are obtained only at 14.52%.

Keywords : Part-of-Speech Tagging for Indonesian, Unsupervised Hidden Markov Model, Baum-Welch, Viterbi

(2)

1

1.

Pendahuluan

1.1.

Latar Belakang

Bahasa merupakan alat berkomunikasi antar manusia. Mulai dari bahasa tubuh, isyarat dan sampai huruf terangkai membentuk kalimat-kalimat yang dapat digunakan oleh seluruh manusia. Bahasa Indonesia adalah bahasa nasional Indonesia yang digunakan oleh lebih dari 222 juta jiwa. Bahasa Indonesia banyak digunakan di Indonesia untuk berkomunikasi di sekolah, kantor, kehidupan sehari-hari dan lain-lain. Bahasa Indonesia menjadi bahasa resmi negara dan mempersatukan warganya yang berbicara dalam beragam bahasa. Bahasa Indonesia telah menjadi bahasa yang menjembatani kendala bahasa antar penduduk Indonesia yang memiliki perbedaan bahasa daerah asal.

Banyak terdapat jenis kata yang dipakai dalam bahasa Indonesia, diantaranya adalah kata kerja, kata benda, kata sifat, kata tugas dan kata keterangan. Tiap jenis kata memiliki keunikan dan fungsi masing-masing, namun ada beberapa kata yang memiliki dua arti yang berbeda, kata ini dapat diartikan sebagai kata yang ambigu. Dalam penentuan jenis kata secara manual, diperlukan biaya yang besar dan waktu pengerjaan yang relatif lama oleh karena itu minat dalam mengotomatiskan pengenalan jenis kata sangat besar. Dalam penerapannya, pengotomatisan pengenalan jenis kata diperlukan sebuah teknik yang bernama Part-of-Speech Tagging.

Part-of-Speech (POS) Tagging merupakan suatu sistem pemrosesan kalimat untuk mengenali

jenis kata sesuai tata bahasa[3]. Dalam Part-of-Speech (POS) tagging, terdapat proses pelabelan teks secara otomatis yang merupakan hal yang terpenting dalam menemukan struktur bahasa. Dalam menerapkan POS Tagging, terdapat beberapa metode yang dapat dipakai, salah satunya adalah metode Markov Model. Markov Model adalah salah satu

metode Markov Chain yang mengacu pada model probabilitas. Hidden Markov Model

(HMM) merupakan pengembangan dari Markov Model berupa model grafis probabilitas yang

mewakili satu set variabel acak dan depedensi kondisional dimana terdapat model yang tersembunyi[3].

Dalam pengimplementasiannya, HMM tetap memerlukan data training yaitu data yang telah dinotasikan yang berarti tetap diperlukannya penotasian kata secara manual. Untuk itu diperlukan metode yang dapat menanggulangi masalah tersebut. Unsupervised Hidden Markov Model adalah model Hidden Markov yang memiliki proses tidak terawasi dimana untuk menghitung probabilitasnya diperlukan sebuah algoritma yang dapat dipadukan dengan metode Unsupervised Hidden Markov Model. Salah satu algoritma yang sering dipakai

adalah dengan menggunakan algoritma Forward-Backward yang merupakan algoritma yang

biasa digunakan dalam metode Markov. Dengan algoritma ini, sistem dapat mempelajari probabilitas dari suatu kumpulan data yang tidak memiliki notasi awal[5].

(3)

1.2.

Perumusan Masalah

Penelitian ini mencoba untuk menganalisis dan mengimplementasikan metode Unsupervised

Hidden Markov Model dengan menggunakan algoritma forward-backward dalam kasus

penentuan jenis kata pada kalimat berbahasa Indonesia dan mencoba untuk menarik kesimpulan dari hasil analisis nantinya.

1.3.

Tujuan

Berdasarkan rumusan masalah diatas, maka tujuan yang ingin dicapai pada tugas akhir ini adalah :

1. Merancang dan membangun aplikasi yang dapat mengenal jenis kata dari sebuah

kalimat berbahasa Indonesia menggunakan metode Markov Model.

2. Menganalisis performansi pengimplementasian metode Markov Model pada

kasus pengenalan jenis kata dalam kalimat berbahasa Indonesia menggunakan parameter akurasi.

1.4.

Batasan Masalah

Batasan masalah atau ruang lingkup dari rumusan masalah diatas adalah :

1. Pengujian hanya memakai sebuah kalimat dengan jumlah kata yang berbeda-beda.

2. Bentuk kalimat yang dipakai memiliki jumlah kata rata-rata dalam bahasa Indonesia baku.

3. Kalimat yang dipakai merupakan kalimat baku dalam bahasa Indonesia.

1.5.

Hipotesis

Hipotesis yang dapat diangkat dari rumusan masalah dan tujuan dari tugas akhir ini adalah : 1. Part of Speech Tagging untuk bahasa Indonesia dapat dilakukan menggunakan

metode Unsupervised Hidden Markov Model dengan menggunakan algoritma

Forward-Backward.

2. Dengan menggunakan algoritma Forward-Backward, sistem dapat mempelajari probabilitas dari suatu kumpulan data yang tidak memiliki notasi awal. Algoritma ini dapat mengatur atau menentukan parameter tiap kata untuk mendapatkan ekspektasi probabilitas yang maksimal berdasarkan kalimat tersebut.

1.6.

Metodologi Penyelesaian Masalah

Metode yang digunakan dalam menyelesaikan tugas akhir ini memiliki langkah kerja sebagai berikut :

1. Tahap Studi Pustaka

Membaca dan mempelajari sumber tertulis seperti buku, artikel, internet dan literatur yang berhubungan dengan metode Markov Model dan Part of Speech Tagging.

(4)

3

2. Tahap Perencanaan

Pada tahap ini penulis melakukan kegiatan perencanaan dan persiapan dalam pembuatan tugas akhir ini, seperti :

a. Membuat draf jadwal dan perkiraan waktu yang dibutuhkan untuk

menyelesaikan proposal dan aplikasi dari tugas akhir ini.

b. Mencari artikel-artikel berbahasa Indonesia yang akan digunakan sebagai data inputan pada tugas akhir ini.

3. Tahap Analisis dan Perancangan Sistem

Dalam tahap ini akan ditentukan rancangan sistem yang akan dibuat seperti :

a. Membuat model pemograman dan algoritma dari skema yang telah dibuat

b. Merancang penerapan metode Markov Model secara tepat pada sistem

c. Mengimplementasikan algoritma Forward-Backward untuk mencari

probabilitas dari tiap kata

Berikut adalah skema dari sistem pengenalan jenis kata yang akan dibuat, yaitu :

4. Tahap Implementasi Sistem

Tahap implementasi dari sistem ini adalah dengan membangun sebuah sistem

yang telah dirancang untuk pengenalan jenis kata menggunakan metode Markov

Model dengan algoritma Forward-Backward pada artikel berbahasa Indonesia. Dalam mengimplementasikannya dibutuhkan perangkat keras dan perangkat lunak yang memadai. Berikut adalah daftar perangkat keras dan perangkat lunak yang diperlukan, yaitu :

a. Spesifikasi perangkat keras

1. Processor : Intel(R) Core(TM) 2 Duo CPU

2. Memory : 2,00 GB

3. Harddisk : 256 GB

b. Spesifikasi perangkat lunak

1. Sistem Operasi : Microsoft Windows 7

2. Bahasa Pemograman : Java- NetBeans IDE 6.0.1

Tag Set

Teks

Tokenisasi

Teks yang sudah dinotasikan Algoritma

Forward-Backward Markov Model

Gambar 1.1 Skema Sistem

(5)

5. Tahap Pengujian dan Analisis Hasil

Pada tahap ini teks inputan akan di pecah menjadi kumpulan kata, lalu tiap-tiap kata dicari probabilitasnya untuk mendapatkan makna kata dan jenis katanya. Data percobaan yang didapat lalu dianalisis untuk mendapatkan performansi dari metode dan algoritma yang dipakai sebagai Part of Speech (POS) Tagger bahasa Indonesia.

6. Tahap Pengambilan Kesimpulan dan Penyusunan Laporan

Pengambilan kesimpulan didasari oleh ketepatan atau kebenaran dari hasil analisis dan implementasi metode yang dipakai pada studi kasus yang ditentukan, untuk kemudian disusun laporan berdasarkan hasil analisis tersebut.

1.7. Sistematika Penulisan

Penulisan Tugas Akhir ini dibagi dalam lima bab, yang terdiri atas:

Bab I Pendahuluan

Pada bab ini berisi uraian mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi penelitian serta sistematika penulisan.

Bab II Landasan Teori

Bab ini berisi literatur yang relevan dengan permasalahan yang diangkat yang diperoleh dari berbagai sumber mengenai part of speech tagging, metode markov model dan algoritma forward-backward.

Bab III Analisis dan Perancangan Sistem

Bab ini berisi uraian mengenai aplikasi seperti spesifikasi kebutuhan perangkat, perancangan struktur data dan spesifikasi proses dari aplikasi yang dibuat.

Bab IV Implementasi dan Analisis Pengujian Hasil

Bab ini berisi uraian mengenai implementasi dari sistem yang telah dirancang serta analisis sistem dalam mengolah data klasifikasi yang digunakan serta analisis hasil pengujian sistem

Bab V Kesimpulan dan Saran

Bab ini berisi kesimpulan dari seluruh sistem yang dibuat serta saran untuk pengembangan perangkat lunak.

(6)

35

5.

Penutup

5.1.

Kesimpulan

Berdasarkan hasil implementasi, pengujian dan analisis yang telah dilakukan, maka dapat diambil kesimpulan, yaitu :

1. Dapat dibangunnya sebuah sistem pengenalan jenis kata untuk bahasa Indonesia

menggunakan metode Hidden Markov Model.

2. Jumlah tag yang dipakai akan sangat mempengaruhi nilai probabilitas dalam menotasikan sebuah kalimat. Pemilihan jumlah tag yang tepat akan mempengaruhi akurasi sistem karena untuk struktur ergodic maka semakin besar jumlah state yang digunakan akan menyebabkan semakin banyak pula kemungkinan atau probabilitas perpindahan dari suatu state ke state yang lain. Akurasi terbaik didapatkan dengan menggunakan jumlah tag yang paling sedikit yaitu hanya berjumlah 7 tag namun jika dilihat dari konsistensi akurasi yang didapat maka dapat disimpulkan bahwa jumlah tag yang paling baik digunakan adalah tag dengan jumlah notasi sebanyak 36 tag. 3. Jumlah kata dalam sebuah kalimat tidak terlalu mempengaruhi akurasi sistem, namun

terdapat kecenderungan terhadap varian dari kata yang digunakan. Jumlah kata berpengaruh dalam konsistensi akurasi yang didapat. Semakin banyak jumlah kata maka semakin konsisten akurasi yang didapat. Dari hasil pengujian didapat bahwa kalimat yang menghasilkan akurasi yang paling konsisten adalah kalimat dengan jumlah kata sebanyak 17 kata.

4. Dilihat dari akurasi dan nilai deviasi yang didapat maka metode Unsupervised Hidden Markov Model disimpulkan dapat diimplementasikan namun masih kurang cocok untuk dipakai dalam Part-of-Speech Tagging pada bahasa Indonesia. Ini dikarenakan saat pencarian probabilitas π, transisi dan emisi hanya mencapai lokal maksimum saja dan ini belum cukup untuk mendapatkan akurasi yang maksimal. Rata-rata akurasi yang maksimal bisa didapat metode ini sangat buruk yaitu hanya sebesar 14,52 % .

5.2.

Saran

1. Perlu adanya penelitian lebih lanjut mengenai penanganan lokal maksimum pada proses estimasi probabilitas dari algoritma Baum-Welch seperti menggunaan nilai matriks yang tidak terlalu acak dengan cara melihat peluang kemunculan tiap state jika dibandingkan dengan state lainnya sehingga diharapkan dapat meningkatkan akurasi dari sistem.

2. Pada pengestimasian probabilitas transisi dapat ditambahkan proses smoothing untuk memperbaiki probabilitas transisi yang didapat salah satu proses smoothing yang biasa digunakan adalah Zue Smoothing dan Jelinek Mercer Smoothing. Smoothing dapat membantu dapat pencarian probabilitas transisi dengan menggabungkan antara probabilitas bigram dan probabilitas unigram dari tiap state yang berkemungkinan akan muncul.

Powered by TCPDF (www.tcpdf.org)

(7)

Daftar Pustaka

[1] Akbar Gozali, Alfian, Analisis Penggunaan Metode Hidden Markov Model dalam Ekstraksi Kalimat Utama Suatu Dokumen pada Information Retrieval, Tugas Akhir Institut Teknologi Telkom, 2010.

[2]Alfan Farizki Wicaksono,Ayu Purwarianti,HMM Based Part-of-Speech Tagger for Bahasa Indonesia,School of Electrical Engineering and Informatics-Insitut Teknologi Bandung,2010

[3] Blog. (2011). Part of Speech Tagging : Sederhanakan Langkah. [Online]. Tersedia : http://seagatejogja.blog.ugm.ac.id/2010/03/22/part-of-speech-tagging [20 November 2011]

[4]Blog.(2012).Yasinta. analisa-rantai-markov, Tersedia : http://yasinta.wordpress.com /2008/09/16/analisa-rantai-markov/, Tanggal akses : 20 Juni 2012

[5]Brants, Thorsten. 2000. "TnT - A Statistical Part-of-Speech Tagger". Proceedings of the sixth conference on Applied Natural Language Processing (2000) 224.231.

[6]Depdikbud. Kamus Besar Bahasa Indonesia-Edisi Kedua.Balai Pustaka.1989

[7] Julia Hockenmaier. POS-tagging with Hidden Markov Models (HMMs).[Online].

Tersedia : http://www.cs.uiuc.edu/class/fa09/cs498jh/Slides/Lecture06.pdf [20

November2011]

[8]Kamus Besar Bahasa Indonesia. http://www.pusatbahasa.diknas.go.id , tanggal akses : 21 Juni 2012.

[9] L. Rabiner. A tutorial on Hidden Markov Models and selected applications in speech recognition. Proc. of IEEE, 77(2):257-286, 1989.

[10] Lance C. Pérez, The Shannon Lecture-Hidden Markov Models and the Baum-Welch

Algorithm,IEEE Information Theory Society Newsletter,ISSN 1059-2362,2003

[11] Leser Ulf,Part-Of-Speech Tagging using Hidden Markov Models,Humboldt

Universitat,2010

[12] Mark Stamp*,A Revealing Introduction to Hidden Markov Models,Associate

Professor-Department of Computer Science,San Jose State University,2012

[13] Meyers, Adam, HMM and Part of Speech Tagging,New York University,2011

[14] Phil Blunsom,Hidden Markov Models,2004

[15] Shinyama,Yusuke,A Practical Part-of-Speech Tagger, ANLP Presentation, 2004 [16] Sophia Ananiadou. Research Methods for Text Mining Standford.[Online]. Tersedia

: http://www.google.com/Research Methods for Text Mining Standford [20 November 2011]

[17] Sri Mulyana, Afiahayati, Wijaya Adhi Surya,Penerapan Hidden Markov Model

Dalam Clustering Sequence Protein Globin, Program Studi Ilmu

Komputer-FMIPA-Universitas Gadjah Mada,ISBN : 978-979-3980-15-7,2008

[18] Unknown.2006.Part-of-Speech (POS) Tagging and Hidden Markov Models

(HMMs). Tersedia : http://www9.georgetown.edu/faculty/mad87/06/420/slides/tag

ging-3x3 [20 November 2011]

[19] Unknown.[Online].tersedia : www.oc.its.ac.id/ambilfile.php?idp=64 , [20 November 2011]

Figur

Memperbarui...

Referensi

Memperbarui...

Related subjects :