METODE-METODE PENYELESAIAN NAMED ENTITY RECOGNITION
3. PENDEKATAN NER PADA BAHASA INDONESIA
Penggunaan named entity recognition pada Bahasa Indonesia memiliki masalah dan kompleksitas yang secara umum sama dengan yang ada pada bahasa Inggris terutama jika menggunakan pendekatan machine learning. Perbedaan mendasar ada pada saat digunakan metode rule-based untuk penyelesaian ataupun menggunakan pendekatan hybrid model anatara rule-based dan machine learning.
Persoalan yang sering dihadapi dalam NER anatara lain adalah tidak adanya konsistensi dari penggunaan huruf kapital, misal sebuah kata ada yang ditulis dalam huruf kapital semua maupun tanpa menggunakan huruf kapital. Hal ini menjadi masalah bagi metode-metode yang secara umum susah dibahas di atas.
Pendekatan yang diusulkan menggunakan sequential patern mining dan
natural language processing. Metode ini
mengadaptasi penelitian yang dilakukan oleh [35]. Ide dasar dari usulan ini adalah menemukan
linguistic patern dari data yang dimiliki untuk enghasilkan patern yang dapat digunakan untuk mengektrak patern dari sekumpulan text. Pendekatan ini akan menggunakan unsupervised
learning sehingga tidak membutuhkan data
berlabel untuk proses pembelajaran.
Tahapan proses dari metode yang diusulkan adalah sebagai berikut :
1. Penyiapan data untuk sequential patern mining: Pada langkah ini disiapkan kalimat- kalimat yang memiliki named entity di dalamnya untuk dapat digenerate paternnya pada setiap kemunculan entitas. Untuk menghindari banyaknya patern yang dihasilkan maka proses ekstraksi atern hanya dibatasi pada 5 kata sebelum dan sesudah kemunculan entiti.
2. Sequential Patern Mining: Pada langkah ini akan diterapkan algoritma dalam [36] yang ada pada data pembelajaran untuk menghasilkan patern yang dikehendaki.
3. Patern Maching dan Ekstrak Kandidat:
Dataset untuk pengujian disiapkan untuk dilakukan pengujian kesuaian dengan patern yang dihasilkan. Hasilnya akan diurutkan sesuai dengan tingkat confidence dan
supportnya.
4. Candidate Prunning: Pada tahap ini
candidate entiti yang dihasilkan pada tahap sebelumnya akan disesuaikan dengan menggunakan Part of Speech Tagger(POS) untuk memastikan bahwa tipe entitas yang muncul sesuai dengan struktur yang dilakukan oleh POS. Proses ini dilakukan untuk meningkatkan akurasi dari named entity yang dihasilkan.
4. KESIMPULAN
Dari review yang dilakukan pada beberapa metode dalam penyelesaian NER dapat diambil kesimpulan sebagai berikut :
1. Secara garis besar metode penyelesaian NER dapat dikelompokkan ke dalam metode rule based, machine learning dan hybrid.
2. Dalam metode machine learning, beberapa pendekatan yang banyak digunakan adalah HMM, Maximum Entropy, MEMM,
Decision Tree dan CRF.
3. Metode hybrid yang memiliki capaian bagus antara lain maximum entropy hybrid dengan
rule dan maximum entropy hybrid dengan HMM dan rule.
4. Sebagai metode usulan penyelesaian NER pada Bahasa Indonesai diusulkan penggunaan tahapan penyiapan data untuk
sequential patern mining, sequential patern mining, patern maching dan ektrak kandidat serta diakhiri dengan candidate prunning.
DAFTAR PUSTAKA
Chincor, N., Brown, E., Ferro, L., dan Robinson, P., 1999, Named Entity Task Definition, Version 1.4 The MITRE Corporation and SAIC.
Chincor, N., Brown, E., Ferro, L., dan Robinson, P., 1998, MUC-7 Information Extraction Task Definition, The MITRE Corporation and SAIC.
A. Mansouri, L. S. Affendey, A Mamat, Named Entity Recognition Approaches, IJCSNS International Journal of Computer Science and Network Security, VOL.8 No.2, February 2008
Daniel M. Bikel, Scott Miller, Richard Schwartz and Ralph Weischedel. 1997 “Nymble: a
highperformance learning name-finder” in the
proceedings of the fifth conference on Applied natural language processing, pages
194-201, San Francisco, CA, USA Morgan Kaufmann Publishers Inc.
Andrew Borthwick. 1999. “Maximum Entropy
Approach to Named Entity Recognition”
Ph.D. thesis, New York University.
Hideki Isozaki. 2001. “Japanese named entity
recognition based on a simple rule generator
and decision tree learning” in the proceedings
of the Association for Computational Linguistics, pages 306-313. India.
Takeuchi K. and Collier N. 2002. “Use of Support
Vector Machines in extended named entity
recognition” in the proceedings of the sixth
Conference on Natural Language Learning (CoNLL-2002), Taipei, Taiwan, China. John D. Lafferty, Andrew McCallum, and
Fernando C. N. Pereira. 2001. “Conditional
Random Fields:Probabilistic Models for
Segmenting and Labeling Sequence Data” in
the proceedings of International Conference on Machine Learning, pages 282-289, Williams College, Williamstown, MA, USA. D Kaur, V Gupta, A Survey of Named Entity
Recognition in English and othe Indian Language, IJCSI International Journal of Computer Science Issues, Vol. 7, Issue 6, November 2010 ISSN (Online): 1694-0814
R. Grishman. 1995. “The NYU system for MUC-
6 or Where‟s the Syntax” in the proceedings
of Sixth Message Understanding Conference (MUC-6) , pages 167-195, Fairfax, Virginia. Wakao T., Gaizauskas R. and Wilks Y. 1996.
“Evaluation of an algorithm for the
Recognition and Classification of Proper
Names”, in the proceedings of COLING-96.
I. Budi, S. Bressan, "Association Rules Mining for Name Entity Recognition", Proceedings of the Fourth International Conference on Web Information Systems Engineering, 2003.
D. Appelt, and et. al., “SRI International FASTUS
system MUC-6 test results and analysis”,
Proceedings of the MUC-6, NIST, Morgan- Kaufmann Publisher, Columbia, 1995.
D. Appelt, and et. al., “FASTUS: A finite state
processor for information extraction from real-world text”, Proceedings of IJCAI, 1993.
L. Iwanska, M. Croll, T. Yoon, and M. Adams,
“Wayne state university: Description of the
UNO processing system as used for MUC-6”,
In Proc. of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995. D.M. Bikel, S. Miller, R. Schwartz, R,
Weischedel, "a High-Performance Learning Name-finder", fifth conference on applied natural language processing, PP 194-201, 1998.
A. Borthwick, J. Sterling, E, Agichtein, and R.
Grishman, “Exploiting diverse knowledge
sources via maximum entropy in named entity recognition”, Proceedings of the Sixth
workshop on Very Large Corpora, Montreal, Canada, 1998.
A. Borthwick, J. Sterling, E. Agichtein and R. Grishman, "NYU: Description of the MENE Named Entity System as Used in MUC-7", In Proceedings of the Seventh Message Understanding Conference (MUC-7), 1998. F. Bechet, A. Nasr and F. Genet, "Tagging
Unknown Proper Names Using Decision Trees", In proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, 2000.
Y.C. Wu, T.K. Fan, Y.S. Lee, S.J Yen,
“Extracting Named Entities Using Support
Vector Machines", Spring-Verlag, Berlin Heidelberg, 2006.
Collins, Michael and Y. Singer. "Unsupervised models for named entity classification", In proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999. A. Mikheev, C. Grover, M. Moens, "Description
OF THE LTG SYSTEM FOR MUC-7", In Proceedings of the seventh Message Understanding Conference (MUC-7), 1998 R. Sirhari, C. Niu, W. Li, "A Hybrid Approach for
Named Entity and Sub-Type Tagging" Proceedings of the sixth conference on Applied natural language processing ,Acm Pp. 247 - 254 , 2000.
Charles L. Wayne. 1991., “A snapshot of two
DARPA speech and Natural Language
Programs” in the proceedings of workshop on
Speech and Natural Languages, pages 103- 404, Pacific Grove, California. Association for Computational Linguistics.
MacKay, DJC (2003) Information theory, inference and learning algorithms, Cambridge University Press.
Chris Manning and Hinrich Schütze, 1999, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge.
Agrawal, R. and Srikant, R. 1994. Fast algorithms for mining association rules. In Proc. 20th Int. Conf. Very Large Data Bases, VLDB, J. B. Bocca, M. Jarke, and C. Zaniolo, Eds. Morgan Kaufmann.
Agrawal, R. and Srikant, R. 1995. Mining sequential patterns. In Eleventh International Conference on Data Engineering, P. S. Yu and A. S. P. Chen, Eds. IEEE Computer Society Press, Taipei, Taiwan.
Srikant, R. and Agrawal, R. 1996. Mining sequential patterns: Generalizations and performance improvements. In Proc. 5th Int. Conf. Extending Database Technology, EDBT, P. M. G. Apers, M. Bouzeghoub, and G. Gardarin, Eds. Vol. 1057. Springer- Verlag.
Zaki, M. J. 2001. SPADE: An e±cient algorithm for mining frequent sequences. Machine Learning 42.
Han, J. and Kamber, M. 2000. Data Mining Concepts and Techniques. Morgan Kanufmann.
Pei, J., Han, J., Pinto, H., Chen, Q., Dayal, U., and Hsu, M. C. 2001. Pre¯ xspan: Mining sequential patterns e±ciently by pre¯ x- projected pattern growth. Int. Conf. on Data Engineering.
Lin, M.-Y. and Lee, S.-Y. 2002. Fast discovery of sequential patterns by memory indexing. In Proc. of 2002 DaWaK.
Garofalakis, M. N., Rastogi, R., and Shim, K. 1999. Spirit: Sequential pattern mining with regular expression constraints. In VLDB'99, Proceedings of 25th International Conference on Very Large Data Bases, September 7-10, 1999, Edinburgh, Scotland, UK, M. P. Atkinson, M. E. Orlowska, P. Valduriez, S. B. Zdonik, and M. L. Brodie, Eds. Morgan Kaufmann
X Ding, 2011,” Opinion and Entity Mining on Web Content”, Disertation on University of
Illionois Chicago, USA
Jiawei Han and Micheline Kamber., 2006, Data Mining: Concepts and Techniques, 2nd ed. Morgan Kaufmann Publishers, March