PENDEKATAN NER PADA BAHASA INDONESIA - METODE-METODE PENYELESAIAN NAMED ENTITY RECOGNITION

METODE-METODE PENYELESAIAN NAMED ENTITY RECOGNITION

3. PENDEKATAN NER PADA BAHASA INDONESIA

Penggunaan named entity recognition pada Bahasa Indonesia memiliki masalah dan kompleksitas yang secara umum sama dengan yang ada pada bahasa Inggris terutama jika menggunakan pendekatan machine learning. Perbedaan mendasar ada pada saat digunakan metode rule-based untuk penyelesaian ataupun menggunakan pendekatan hybrid model anatara rule-based dan machine learning.

Persoalan yang sering dihadapi dalam NER anatara lain adalah tidak adanya konsistensi dari penggunaan huruf kapital, misal sebuah kata ada yang ditulis dalam huruf kapital semua maupun tanpa menggunakan huruf kapital. Hal ini menjadi masalah bagi metode-metode yang secara umum susah dibahas di atas.

Pendekatan yang diusulkan menggunakan sequential patern mining dan

natural language processing. Metode ini

mengadaptasi penelitian yang dilakukan oleh [35]. Ide dasar dari usulan ini adalah menemukan

linguistic patern dari data yang dimiliki untuk enghasilkan patern yang dapat digunakan untuk mengektrak patern dari sekumpulan text. Pendekatan ini akan menggunakan unsupervised

learning sehingga tidak membutuhkan data

berlabel untuk proses pembelajaran.

Tahapan proses dari metode yang diusulkan adalah sebagai berikut :

1. Penyiapan data untuk sequential patern mining: Pada langkah ini disiapkan kalimat- kalimat yang memiliki named entity di dalamnya untuk dapat digenerate paternnya pada setiap kemunculan entitas. Untuk menghindari banyaknya patern yang dihasilkan maka proses ekstraksi atern hanya dibatasi pada 5 kata sebelum dan sesudah kemunculan entiti.

2. Sequential Patern Mining: Pada langkah ini akan diterapkan algoritma dalam [36] yang ada pada data pembelajaran untuk menghasilkan patern yang dikehendaki.

3. Patern Maching dan Ekstrak Kandidat:

Dataset untuk pengujian disiapkan untuk dilakukan pengujian kesuaian dengan patern yang dihasilkan. Hasilnya akan diurutkan sesuai dengan tingkat confidence dan

supportnya.

4. Candidate Prunning: Pada tahap ini

candidate entiti yang dihasilkan pada tahap sebelumnya akan disesuaikan dengan menggunakan Part of Speech Tagger(POS) untuk memastikan bahwa tipe entitas yang muncul sesuai dengan struktur yang dilakukan oleh POS. Proses ini dilakukan untuk meningkatkan akurasi dari named entity yang dihasilkan.

4. KESIMPULAN

Dari review yang dilakukan pada beberapa metode dalam penyelesaian NER dapat diambil kesimpulan sebagai berikut :

1. Secara garis besar metode penyelesaian NER dapat dikelompokkan ke dalam metode rule based, machine learning dan hybrid.

2. Dalam metode machine learning, beberapa pendekatan yang banyak digunakan adalah HMM, Maximum Entropy, MEMM,

Decision Tree dan CRF.

3. Metode hybrid yang memiliki capaian bagus antara lain maximum entropy hybrid dengan

rule dan maximum entropy hybrid dengan HMM dan rule.

4. Sebagai metode usulan penyelesaian NER pada Bahasa Indonesai diusulkan penggunaan tahapan penyiapan data untuk

sequential patern mining, sequential patern mining, patern maching dan ektrak kandidat serta diakhiri dengan candidate prunning.

DAFTAR PUSTAKA

Chincor, N., Brown, E., Ferro, L., dan Robinson, P., 1999, Named Entity Task Definition, Version 1.4 The MITRE Corporation and SAIC.

Chincor, N., Brown, E., Ferro, L., dan Robinson, P., 1998, MUC-7 Information Extraction Task Definition, The MITRE Corporation and SAIC.

A. Mansouri, L. S. Affendey, A Mamat, Named Entity Recognition Approaches, IJCSNS International Journal of Computer Science and Network Security, VOL.8 No.2, February 2008

Daniel M. Bikel, Scott Miller, Richard Schwartz and Ralph Weischedel. 1997 “Nymble: a

highperformance learning name-finder” in the

proceedings of the fifth conference on Applied natural language processing, pages

194-201, San Francisco, CA, USA Morgan Kaufmann Publishers Inc.

Andrew Borthwick. 1999. “Maximum Entropy

Approach to Named Entity Recognition”

Ph.D. thesis, New York University.

Hideki Isozaki. 2001. “Japanese named entity

recognition based on a simple rule generator

and decision tree learning” in the proceedings

of the Association for Computational Linguistics, pages 306-313. India.

Takeuchi K. and Collier N. 2002. “Use of Support

Vector Machines in extended named entity

recognition” in the proceedings of the sixth

Conference on Natural Language Learning (CoNLL-2002), Taipei, Taiwan, China. John D. Lafferty, Andrew McCallum, and

Fernando C. N. Pereira. 2001. “Conditional

Random Fields:Probabilistic Models for

Segmenting and Labeling Sequence Data” in

the proceedings of International Conference on Machine Learning, pages 282-289, Williams College, Williamstown, MA, USA. D Kaur, V Gupta, A Survey of Named Entity

Recognition in English and othe Indian Language, IJCSI International Journal of Computer Science Issues, Vol. 7, Issue 6, November 2010 ISSN (Online): 1694-0814

R. Grishman. 1995. “The NYU system for MUC-

6 or Where‟s the Syntax” in the proceedings

of Sixth Message Understanding Conference (MUC-6) , pages 167-195, Fairfax, Virginia. Wakao T., Gaizauskas R. and Wilks Y. 1996.

“Evaluation of an algorithm for the

Recognition and Classification of Proper

Names”, in the proceedings of COLING-96.

I. Budi, S. Bressan, "Association Rules Mining for Name Entity Recognition", Proceedings of the Fourth International Conference on Web Information Systems Engineering, 2003.

D. Appelt, and et. al., “SRI International FASTUS

system MUC-6 test results and analysis”,

Proceedings of the MUC-6, NIST, Morgan- Kaufmann Publisher, Columbia, 1995.

D. Appelt, and et. al., “FASTUS: A finite state

processor for information extraction from real-world text”, Proceedings of IJCAI, 1993.

L. Iwanska, M. Croll, T. Yoon, and M. Adams,

“Wayne state university: Description of the

UNO processing system as used for MUC-6”,

In Proc. of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995. D.M. Bikel, S. Miller, R. Schwartz, R,

Weischedel, "a High-Performance Learning Name-finder", fifth conference on applied natural language processing, PP 194-201, 1998.

A. Borthwick, J. Sterling, E, Agichtein, and R.

Grishman, “Exploiting diverse knowledge

sources via maximum entropy in named entity recognition”, Proceedings of the Sixth

workshop on Very Large Corpora, Montreal, Canada, 1998.

A. Borthwick, J. Sterling, E. Agichtein and R. Grishman, "NYU: Description of the MENE Named Entity System as Used in MUC-7", In Proceedings of the Seventh Message Understanding Conference (MUC-7), 1998. F. Bechet, A. Nasr and F. Genet, "Tagging

Unknown Proper Names Using Decision Trees", In proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, 2000.

Y.C. Wu, T.K. Fan, Y.S. Lee, S.J Yen,

“Extracting Named Entities Using Support

Vector Machines", Spring-Verlag, Berlin Heidelberg, 2006.

Collins, Michael and Y. Singer. "Unsupervised models for named entity classification", In proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999. A. Mikheev, C. Grover, M. Moens, "Description

OF THE LTG SYSTEM FOR MUC-7", In Proceedings of the seventh Message Understanding Conference (MUC-7), 1998 R. Sirhari, C. Niu, W. Li, "A Hybrid Approach for

Named Entity and Sub-Type Tagging" Proceedings of the sixth conference on Applied natural language processing ,Acm Pp. 247 - 254 , 2000.

Charles L. Wayne. 1991., “A snapshot of two

DARPA speech and Natural Language

Programs” in the proceedings of workshop on

Speech and Natural Languages, pages 103- 404, Pacific Grove, California. Association for Computational Linguistics.

MacKay, DJC (2003) Information theory, inference and learning algorithms, Cambridge University Press.

Chris Manning and Hinrich Schütze, 1999, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge.

Agrawal, R. and Srikant, R. 1994. Fast algorithms for mining association rules. In Proc. 20th Int. Conf. Very Large Data Bases, VLDB, J. B. Bocca, M. Jarke, and C. Zaniolo, Eds. Morgan Kaufmann.

Agrawal, R. and Srikant, R. 1995. Mining sequential patterns. In Eleventh International Conference on Data Engineering, P. S. Yu and A. S. P. Chen, Eds. IEEE Computer Society Press, Taipei, Taiwan.

Srikant, R. and Agrawal, R. 1996. Mining sequential patterns: Generalizations and performance improvements. In Proc. 5th Int. Conf. Extending Database Technology, EDBT, P. M. G. Apers, M. Bouzeghoub, and G. Gardarin, Eds. Vol. 1057. Springer- Verlag.

Zaki, M. J. 2001. SPADE: An e±cient algorithm for mining frequent sequences. Machine Learning 42.

Han, J. and Kamber, M. 2000. Data Mining Concepts and Techniques. Morgan Kanufmann.

Pei, J., Han, J., Pinto, H., Chen, Q., Dayal, U., and Hsu, M. C. 2001. Pre¯ xspan: Mining sequential patterns e±ciently by pre¯ x- projected pattern growth. Int. Conf. on Data Engineering.

Lin, M.-Y. and Lee, S.-Y. 2002. Fast discovery of sequential patterns by memory indexing. In Proc. of 2002 DaWaK.

Garofalakis, M. N., Rastogi, R., and Shim, K. 1999. Spirit: Sequential pattern mining with regular expression constraints. In VLDB'99, Proceedings of 25th International Conference on Very Large Data Bases, September 7-10, 1999, Edinburgh, Scotland, UK, M. P. Atkinson, M. E. Orlowska, P. Valduriez, S. B. Zdonik, and M. L. Brodie, Eds. Morgan Kaufmann

X Ding, 2011,” Opinion and Entity Mining on Web Content”, Disertation on University of

Illionois Chicago, USA

Jiawei Han and Micheline Kamber., 2006, Data Mining: Concepts and Techniques, 2nd ed. Morgan Kaufmann Publishers, March

SISTEM PENDUKUNG KEPUTUSAN SELEKSI PENERIMAAN

Dalam dokumen Seminar Nasional Informatika SNIf 2013 (1) (Halaman 145-148)