METODE-METODE NER METODE RULE-BASED - METODE-METODE PENYELESAIAN NAMED ENTITY RECOGNITION

METODE-METODE PENYELESAIAN NAMED ENTITY RECOGNITION

2. METODE-METODE NER METODE RULE-BASED

Grisman pada tahun 1995 mengembangkan rule-based NER dengan memanfaatkan kamus data yang terdiri dari nama negara, kota, perusahaan dan beberapa nama-nama sejenis[10]. Dengan menggunakan pendekatan rule-based pengenalan entitas dilakukan dengan mendefinisikan aturan mengenai pola-pola posisi kata anggota entitas pada sebuah frase atau kalimat. Kendala implementasi dari metode ini berada pada kemampuan definisi pola yang biasanya dilakukan oleh ahli bahasa. Rule-based

NER juga memiliki ketergantungan yang besar dengan bahasa yang digunakan. Sementara itu tahun 1996, sebuah penelitian yang menggunakan pendekatan rule-based dilakukan dengan menambahkan gazetteer seperti nama organisasi, nama lokasi, title dan nama organisasi[11].

Secara umum sistem NER yang menggunakan pendekatan rule based memiliki komponen part of speech(POS) tagger, syntaks

kalimat atau frase dan orthografik seperti pola kapitalisasi kata yang digabungkan dengan kamus

data[12]. Pada kalimat: “Presiden Suharto

memerintahkan pengamanan seluruh wilayah Kalimantan yang berpotensi diduduki oleh

Malaysia.” Pada contoh tersebut sebuah kata benda

dan yang berupa kata yang didahului dengan huruf kapital.

Penelitian yang dilakukan oleh Appel dkk[13,14], menggunakan metode yang diberi nama FASTUS dengan memanfaatkan rule yang disusun secara manual. Proses yang dilakukan terdiri atas Recognizing Phrases, Recognizing Patterns dan Merging incidents, sementara[15] menggunakan tambahan gazetteer dan yellow pages.

METODE MACHINE LEARNING

Metode machine learning dalam NER digunakan untuk melakukan klasifikasi dan menggunakan model klasifikasi statistik untuk mengenali named-entity. Pada metode ini, sistem mencari patern/pola dan hubungannya pada sebuah text untuk membuat model dengan pendekatan statistik dan allgoritma machine learning. Sistem tersebut digunakan untuk mengidentifikasi dan mengklasifikasi kata benda ke dalam beberapa kelas seperti orang, lokasi, waktu[3].

Pendekatan machine learning dapat dikelompokkan ke dalam model supervised dan

unsupervised. Supervised learning menggunakan pendekatan pembelajaran dengan menggunakan data yang sudah diberi label untuk menghasilkan feature dalam klasifikasi. Model ini akan menghasilkan performance yang bagus jika sistem di training dengan menggunakan data label yang berkualitas dan dalam jumlah data yang besar. Beberapa metode yang menggunakan pendekatan

supervised seperti penelitian yang dilakukan oleh

Bikel et. al., dengan menggunakan Hiden markov Model [16], sementara Borthwick et. al., menggunakan metode maximum entropy [17,18]. Penelitian lain menggunakan Decision Tree Model

diajukan oleh Bechet et. al. [19], sementara Wu et. al., menggunakan Support Vector Machine

untuk NER[20].

Pada pendekatan unsupervised learning

pembelajaran dilakukan tanpa menggunakan feedback dengan tujuan menghasilkan dan membangun representasi dari data. Representasi tersebut dapat digunakan untuk kompresi data, klasifikasi, pengambilan keputusan dan beberapa tujuan lain. Implementasi model unsupervised biasanya tidak dilakukan dengan mandiri, tetapi digabungkan dengan metode-metode lain. Pada penelitian yang dilakukan oleh Collins dkk[21] menggunakan metode unsupervised untuk NER dengan klasifikasi dengan menggunakan data pelatihan tanpa label. Keunggunaan metode ini karena patern dibangun dari proses pembelajaran maka model yang diihasilkan menjadi tidak terlalu bergantung kepada bahasa yang digunakan sehingga dapat di-port ke dalam bahasa yang berbeda[16].

Pendekatan lain yang bisa digunakan adalah Hybrid NER yang menggabungkan metode

rule-based dan machine learning dengan

mengambil keunggulan dari masing-masing metode yang digunakan. Penggabungan ini dilakukan oleh Mikheev dkk[22], Sirihari dkk[23] yang menggabungkan antara HMM, Maxent dan rule yang dibangun secara manual. Hasil yang diperoleh cukup baik jika dibandingkan masing- masingnya, tetapi kendala yang dihadapi masih ada pada rule yang dikembangkan secara manual. Hidden Markov Model (HMM) merupakan pengembangan model statistik dari model Markov. Model ini dikembangkan pertama kali oleh Andreyevich Markov, seorang ilmun Rusia pada awal abad 20. Model ini dipandang sebagai proses bivariatite parametric dalam waktu diskrit.

Proses yang terjadi dalam HMM merupakan

finite-state yang homogen dari Markov Model dan tidak dapat diamati. Proses kedua merupakan aliran variabel acak kondisional yang diberikan oleh Merkov Model. Pada saat apapun, distribusi untuk setiap variabel acak dipengaruhi oleh nilai Markov Model pada waktu tersebut saja, Oleh karena itu, HMM merupakan bagian dari statistik parametrik[24].

Dalam Markov Model biasa, setiap keadaaan dapat terlihat langsung oleh pengamat. Oleh karena itu, kemungkinan dari transisi antar kondisi menjadi sat-satunya parameter teramati. Dalam HMM, keadaan tidak terliha secara langsung, tetapi output yang tergantung terhadap keadaan tersebut terlihat. Setiap kondisi memiliki distribusi kemungkinan disetiap output yang mungkin. Oleh karena itu, urutan langkah yang dibuat oleh HMM memberikan suatu informasi tentang urutan dari keadaan. Sifat hidden

menunjuk kepada kondisi langkah yang dilewai model, bukan kepada parameter dari model tersebut.

HMM dalam NER berfungsi untuk menggabungkan peluang gabungan ke pasangan observasi dan urutan label. Parameter dilatih untuk memaksimalkan kemungkinan gabungan dari himpunan pelatihan. Secara teoritis konsep yang ada dalam HMM mudah untuk diimplementasikan ke dalam kasus NER. Dari sifat HMM itu sendiri memunculkan kelemahan dimana harus semua urutan pasangan observasi harus sudah dimunculkan, sehingga menyebabkan kondisi bahwa label sekarang sangat bergantung kepada label sebelumnya. Disamping itu, HMM membutuhkan parameter dan data yang besar untuk mendapatkan performance yang baik. Pada beberapa kondisi, peluang kecil dari sebuah hasil observasi belum tentu merupakan kejadian yang tidak mungkin terjadi, hanya selalu memiliki peluang terpilih yang kecil.

Metode maximum entropy menggunakan statistika dalam prosesnya untuk mencari distribusi p(a|b) yang akan memberikan nilai entropy maksimum. Pada [25], maximum entropy didefinsikan sebagai rata-rata nilai informasi yang maksimum untuk suatu himpunan kejadian X dengan distribusi nilai probabilitas yang seragam. Yang dimaksud dengan distribusi nilai probabilitas seragam adalah distribusi yang menggunakan faktor ketidakpastian yang minimum atau dapat disebut sebagai distribusi yang memakai asumsi paling sedikit. Dengan menggunakan asusmsi yang minimal, maka distribusi yang didapatkan merupakan distribusi yang paling mendekati kenyataan. Pencarian distribusi probabilitas yang paling memberikan nilai entropy yang maksimum dilakukan dengan tujuan mendapatkan distribusi probabilitas terbaik yang mendekati kenyataan.

Dalam melakukan proses klasifikasi, penggunaan maximum entropy mirip dengan pendekatan Naïve Bayes, dimana dengan

menggunakan metode ini akan dicari nilai

conditional probability p(a|b) dari suatu kelas a jika diketahui dokumen b, untuk suatu himpunan

kelas A={a1, a2, a3,…, ap} dan B={b1, b2, b3,…,

bq}. Penentuan kelas a dari dokumen b akan dilihat dengan mencari nilai probabilitas p(a|b) yang maksimum dari distribusi probabilitas dengan entropy maksimum.

Dokumen pelatihan yang dimasukkan ke dalam sistem akan digunakan untuk menciptakan suatu model melalui proses yang disebut

Generalized Iterative Scaling(GIS). Resolusi

koreferensi pada Bahasa Inggris dengan menggunakan metode maximum entropy pernah dilakukan oleh Denis dan Baldridge. Untuk Bahasa Indonesia, Markus membandingkan metode ini dengan metode association rules

dalam penelitian untuk mengenali named entity

[26]. .

Untuk sejumlah fitur dan data pelatihan yang digunakan dalam penelitian, dihitung conditional probability untuk suatu keadaan (y|x) sebagai

Algoritma Generalized Iterative Scaling (GIS)

digunakan untuk mencari nilai α untuk suatu fitur.

Maximum Entropy Markov

Model(MEMM) merupakan sebuah kodisional

probabilistik sequence model yang mendasarkan pada prinsip maksimum entropy dimana state

yang paling tidak diketahui secara pasti dihubungkan pada Markov chain. Setiap state asal memiliki model eksponensial yang menjadikan feature yang diobservasi sebagai input dan output sebagai sebuah distribusi diantara kemungkinan state berikutnya. Keunggulan dari MEMM ini adalah kemampuan untuk menyelesaikan persoalan representasi multi feature dan longterm

dependency yang menjadi masalah pada HMM.

Metode decision tree pernah digunakan dalam menyelesaikan masalah resolusi koreferensi dalam Bahasa Inggris. Metode ini menggunakan struktur data tree dalam pegambilan keputusan. Tree dibangun dengan menggunakan algoritma C4.5 dengan menggunakan prinsip information gain, yaitu berapa banyak informasi yang benar yang dapat diperoleh dari dokumen pelatihan untuk suatu ciri tertentu. Dalam information gain ini dikenal adanya istilah entropy, yang merupakan derajat ketidakpastian dari suatu kondisi[26].

Entropy dituliskan dengan rumus: H(p) = -p log2 p -(1-p)log2(1-p)

Sedangkan rumus dari information gain sendiri adalah sebagai berikut:

I = 1 –ΣH(p)

Conditional Random Field (CRF) merupakan varian dari model diskriptif probabilistik yang memiliki kelebihan dari MEMM tanpa ada persoalan bias label. CRF menggunakan model undirected graph yang digunakan untuk menghitung conditional probability dari nilai pada node output yang dihasilkan untuk dijadikan sebagai node input bagi node yang lain.

Sebagai bagian dari proses yang menggunakan metode pembelajaran, secara umum menggunakan pola atau patern untuk dapat mengindentifikasi adanya named entity pada sebuah text. Salah satu yang dapat digunakan untuk mengekstrak patern yang ada pada sekumpulan text dengan menggunakan metode

sequetial patern mining(SPM). Metode ini

bertujuan mencari keterhubungn antar beberapa kejadian dari sequential event dan mencari urut- urutan kejadian pada sebuah sequential event. Pada pengolahan text, sequential event adalah aliran streams text yang ada pada sebuah kalimat dikaitkan dengan struktur dan pola kalimatnya.

SPM pertama kali dikemukan oleh [27]. Pendekatan yang bisa digunakan dalam penyelesaian persoalan tersebut antara lain dengan menggunakan algoritma kelompok Apriori (AprioriAll, AprioriSome, DynamicSome) dalam [28], Generalized Sequential Patern[29], SAPDE[30], Freespan [31], PrefixSpan [32],

MEMISP [33] dan SPIRIT [34] yang menggabungkan dengan kemampuan regular ekspression.

Sementara itu pendekatan Hybrid menggabungkan dari model rule-based dengan machine learning. Beberapa penelitian yang dilakukan pada bahasa Inggris dan bahasa-bahasa Eropa lain menunjukkan akurasi yang cukup bagus seperti berikut :

฀ MaxEnt + Rule : Borthwick[5] – 92% f- measure

฀ MaxEnt + Rule: Edinburgh Univ.–

93.39% f-measure

฀ MaxEnt +HMM + Rule: Srihari et al.[24]–93.5% f-measure.

3. PENDEKATAN NER PADA BAHASA

Dalam dokumen Seminar Nasional Informatika SNIf 2013 (1) (Halaman 142-145)