EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT
OPINI BERBAHASA INDONESIA
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Oleh :
Sri Miranti
201010370311012
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2015
LEMBAR PENGESAHAN
Ekstraksi Opinion Holder Menggunakan Metode Maximum Entropy pada Kalimat Opini Berbahasa Indonesia
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun oleh : Sri Miranti 201010370311012
Tugas Akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji pada tanggal 27 Januari 2015
Menyetujui,
Penguji I
Agus Eko Minarno, M.Kom NIDN : 0729118203
Penguji II
Ilyas Nuryasin, S.Kom, M.Kom NIDN : 0723118601
Mengetahui,
Ketua Jurusan Teknik Informatika
Yuda Munarko, S.Kom, M.Sc NIP. 108.0611.443
KATA PENGANTAR
Puji syukur kehadirat Allah SWT atas segala limpahan rahmat dan hidayah-Nya, serta shalawat dan salam kepada Rasulullah SAW sehingga penulis dapat menyelesaikan tugas akhir yang berjudul :
“EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA”
Di dalam tulisan ini disajikan pokok-pokok bahasan yang meliputi Opinion Holder, Part-of-Speech Tagging dan juga penerapan algoritma Maximum Entropy untuk mengekstraksi holder dari kalimat opini berbahasa Indonesia.
Selain itu juga diuraikan beberapa tahapan ekstraksi fitur untuk menghasilkan holder yang sesuai.
Penulisan tugas akhir ini dimaksudkan sebagai salah satu syarat kelulusan dari pembelajaran jenjang S1 pada Program Studi Teknik Informatika di Universitas Muhammadiyah Malang.
Penulis menyadari sepenuhnnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu penulis mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan kedepan.
Malang, Januari 2015
Penulis
DAFTAR ISI
LEMBAR PERSETUJUAN ... i
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN ... iii
ABSTRAK ... iv
ABSTRACT ... v
LEMBAR PERSEMBAHAN ... vi
KATA PENGANTAR ... vii
DAFTAR ISI ... viii
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xiii
BAB I ... 1
PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 2
1.3 Batasan Masalah ... 2
1.4 Tujuan Penelitian ... 2
1.5 Metodologi Penelitian ... 2
1.5.1 Studi Literatur ... 2
1.5.2 Analisa dan Desain Sistem ... 3
1.5.3 Implementasi ... 3
1.5.4 Pengujian ... 3
1.5.5 Pembuatan Laporan ... 4
1.6 Sistematika Penulisan ... 4
BAB II ... 5
LANDASAN TEORI ... 5
2.1 Opinion Holder ... 5
2.2 Part-of-speech Tagging ... 6
2.2.1 HMM Based Part-of-speech Tagger ... 7
2.3 Maximum Entropy ... 9
2.3.1 Entropy ... 9
2.3.2 Model Maximum Entropy ... 10
2.3.3 Perhitungan Parameter ... 13
2.4 Bahasa Pemrograman Java ... 14
2.5 SQLite ... 14
BAB III ... 16
ANALISA DAN PERANCANGAN SISTEM ... 16
3.1 Teknologi yang Digunakan ... 16
3.2 Persiapan Data ... 16
3.3 Perancangan Sistem ... 17
3.4 Analisa Perancangan Sistem ... 17
3.4.1 Desain Perangkat Lunak ... 17
3.4.2 Pemodelan dengan Maximum Entropy ... 20
3.5 Perancangan Sistem ... 22
3.5.1 Usecase Diagram dan Scenario ... 22
3.5.2 Activity Diagram ... 23
3.5.3 Class Diagram ... 24
3.5.4 Sequence Diagram ... 25
3.6 Rancangan User Interface ... 26
BAB IV ... 28
IMPLEMENTASI DAN PENGUJIAN ... 28
4.1 Implementasi Training ... 28
4.1.1 Preprocessing ... 28
4.1.2 Part-of-speech Tagging ... 29
4.1.3 Ekstraksi Fitur ... 30
4.2 Implementasi Sistem ... 34
4.2.1 Implementasi Preprocessing ... 34
4.2.2 Implementasi POS Tagging ... 35
4.2.3 Implementasi Ekstraksi Fitur ... 36
4.2.4 Implementasi Algoritma Maximum Entropy ... 39
4.3 Pengujian Sistem ... 40
4.2.1 Pengujian Fungsionalitas Sistem ... 40
4.2.2.1 Tampilan Awal ... 40
4.2.2.2 Tampilan Hasil Ekstraksi ... 41
4.2.2 Pengujian Keberhasilan Sistem ... 44
BAB V ... 51
KESIMPULAN DAN SARAN ... 51
5.1 Kesimpulan ... 51
5.2 Saran ... 51
DAFTAR PUSTAKA ... 52
DAFTAR GAMBAR
Gambar 3.1 Rancangan sistem ekstraksi Opinion Holder ... 17
Gambar 3.2 Flowchart proses training ... 18
Gambar 3.3 Flowchart proses testing ... 19
Gambar 3.4 Flowchart algoritma Maximum Entropy ... 21
Gambar 3.5 Usecase diagram sistem ekstraksi Opinion Holder ... 22
Gambar 3.6 Activity diagram sistem ekstraksi Opinion Holder ... 24
Gambar 3.7 Class diagram sistem ekstraksi Opinion Holder ... 25
Gambar 3.8 Sequence diagram sistem ekstraksi Opinion Holder ... 26
Gambar 3.9 Rancangan halaman awal sistem ekstraksi Opinion Holder ... 26
Gambar 3.10 Rancangan halaman hasil sistem ekstraksi Opinion Holder ... 27
Gambar 4.1 Implementasi preprocessing pada training ... 29
Gambar 4.2 Implementasi part-of-speech Tagging pada training ... 29
Gambar 4.3 Ekstraksi F1 (“kata” + kandidat) di data training ... 30
Gambar 4.4 Ekstraksi F2 (“menurut” + kandidat) di data training ... 31
Gambar 4.5 Ekstraksi F3 (kandidat terdekat dari verbs) di data training ... 32
Gambar 4.6 Ekstraksi F3 (kandidat terdekat dari verbs) di data training ... 32
Gambar 4.7 Ekstraksi F4 (kalimat diawali dengan kandidat) di data training .... 33
Gambar 4.8 Ekstraksi F5 (kandidat diawali huruf kapital) di data training ... 33
Gambar 4.9 Implementasi preprocessing di sistem ekstraksi Opinion Holder ... 35
Gambar 4.10 Implementasi POS Tagging di sistem ekstraksi Opinion Holder .. 35
Gambar 4.11 Implementasi ekstraksi fitur F1 dan F2 di sistem ekstraksi Opinion Holder ... 36
Gambar 4.12 Implementasi ekstraksi VBI dan VBT di sistem ekstraksi Opinion Holder ... 37
Gambar 4.13 Implementasi hitung jarak antara kandidat dan verb di sistem
ekstraksi Opinion Holder ... 37
Gambar 4.14 Implementasi mencari jarak terkecil antara kandidat dan verb di sistem ekstraksi Opinion Holder ... 38
Gambar 4.15 Implementasi ekstraksi fitur F4 di sistem ekstraksi Opinion Holder ... 38
Gambar 4.16 Implementasi ekstraksi fitur F5 di sistem ekstraksi Opinion Holder ... 39
Gambar 4.17 Implementasi algoritma Maximum Entropy di sistem ekstraksi Opinion Holder ... 39
Gambar 4.18 Implementasi perangkingan di sistem ekstraksi Opinion Holder ... 40
Gambar 4.19 Tampilan awal sistem ekstraksi Opinion Holder ... 41
Gambar 4.20 Tampilan ketika user menekan tombol “browse file” ... 41
Gambar 4.21 Tampilan halaman hasil preproses ... 42
Gambar 4.22 Tampilan kandidat holder ... 42
Gambar 4.23 Tampilan hasil perhitungan algoritma Maximum Entropy ... 43
Gambar 4.24 Tampilan hasil sistem ekstraksi Opinion Holder ... 43
DAFTAR TABEL
Tabel 2.1 POS Tag yang digunakan ... 7
Tabel 2.2 Fitur yang digunakan pada sistem ekstraksi Opinion Holder ... 11
Tabel 3.1 Tabel skenario usecase ekstraksi Opinion Holder ... 23
Tabel 4.1 Hasil proses Training ... 34
Tabel 4.2 Tabel hasil uji sistem ekstraksi Opinion Holder ... 44
DAFTAR PUSTAKA
Anon, About SQLite. Available at: http://www.sqlite.org/about.html [Accessed January 28, 2015].
Berger, a L., Pietra, V.J.D. & Pietra, S. a D., 1996. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics, 22, pp.39–71. Available at: http://portal.acm.org/citation.cfm?id=234289.
Bethard, S. et al., 2004. Automatic extraction of opinion propositions and their holders. 2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text, (3), p.2224.
Brill, E., 1992. A simple rule-based part of speech tagger. Proceedings of the workshop on Speech and Natural Language - HLT ’91, p.112. Available at:
http://portal.acm.org/citation.cfm?doid=1075527.1075553.
Choi, Y. et al., 2005. Identifying sources of opinions with conditional random fields and extraction patterns. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing HLT 05, (2003), pp.355–362. Available at:
http://portal.acm.org/citation.cfm?doid=1220575.1220620.
Greene, B.B. & Rubin, G.M., 1971. Automatic Grammatical Tagging of English, Available at:
http://books.google.co.id/books/about/Automatic_Grammatical_Tagging_of_
English.html?id=VznTygAACAAJ&pgis=1 [Accessed January 28, 2015].
Hariyanto, B., 2007. Esensi-Esensi Bahasa Pemrograman Java, Bandung:
Informatika Bandung.
Kim, S.-M. & Hovy, E., 2005. Identifying opinion holders for question answering in opinion texts. Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains, pp.1367–1373. Available at:
http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:Identifyin g+Opinion+Holders+for+Question+Answering+in+Opinion+Texts#0.
Kim, Y., Jung, Y. & Myaeng, S.H., 2007. Identifying opinion holders in opinion text from online newspapers. Proceedings - 2007 IEEE International Conference on Granular Computing, GrC 2007, pp.699–702.
Manurung, R., 2008. Machine Learning-based Sentiment Analysis of Automatic Indonesian Translations of English Movie Reviews. Proceedings of the International Conference on Advanced Computational Intelligence and Its Applications 2008, 1. Available at:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.210.2302&rep=rep 1&type=pdf.
McCallum, A. & Freitag, D., 2000. Maximum entropy markov models for information extraction and segmentation. Proceedings of the 17th
International Conference on Machine Learning, pp.591–598. Available at:
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.116.2034.
Nigam, K., Lafferty, J. & Mccallum, A., 1999. Using Maximum Entropy for Text Classification. IJCAI-99 Workshop on Machine Learning for Information Filtering, pp.61–67.
Pisceldo, F., Adriani, M. & Manurung, R., 2009. Probabilistic Part of Speech Tagging for Bahasa Indonesia. Proceedings of the 3rd International MALINDO Workshop, colocated event ACL-IJCNLP.
Prasetyo, M.E.B., 2011. Teori Dasar Hidden Markov Model. Makalah Probabilitas Statistik STEI.
Tang, B., Wang, X. & Wang, X., 2010. Comparisons of sequence labeling algorithms. ICIC Express Letters, Part B: Applications, 1, pp.241–246.
Tang, H., Tan, S. & Cheng, X., 2009. A survey on sentiment detection of reviews.
Expert Systems with Applications, 36(7), pp.10760–10773. Available at:
http://dx.doi.org/10.1016/j.eswa.2009.02.063.
Wahana Komputer, 2008. Membuat Aplikasi Database dengan Java dan MySQL B. Rini W, ed., Semarang: CV. ANDI OFFSET.
Wicaksono, a. F. & Purwarianti, a., 2010. HMM Based Part-of-Speech Tagger for Bahasa Indonesia. Proceedings of the 4th International Malindo (Malaysia- Indonesia) Workshop.