NAME ENTITY RECOGNITION
NATURAL LANGUAGE PROCESSING TEKNIK INFORMATIKA - UNIKOM
PENDAHULUAN
Fungsi dari NER adalah mendeteksi kata atau kumpulan
kata yang merupakan entitas dan mengkategorikan kata
tersebut ke dalam tipe yang sesuai
MANFAAT
Aplikasi NLP (Natural Language Processing) seperti question- answering, rangkuman dan sistem dialog.
Task information extraction lainnya seperti dengan relation
detection, event detection dan temporal analysis
MASALAH
Ada dua jenis ambiguitas yang dapat ditemui NER.
Kata yang sama dapat berarti dua entitas yang berbeda. Misalnya kata Soekarno dapat berarti presiden pertama Indonesia, atau nama belakang seorang seniman (Enrico
Soekarno), keduanya entitas berbeda walaupun tipenya sama (orang/person).
Nama yang sama tapi tipe berbeda. Contohnya adalah Bung Karno sebagai stadion dengan Bung Karno sebagai orang. Ambiguitas umumnya ditangani dengan
menggunakan kamus.
CONTOH
“19.55: Banjir setinggi 80-100 cm di Jln yos sudarso, dekat pelabuhan 1 Cirebon, hati2 pengendara“
“19:55” bertipe waktu / TIME
“banjir” bertipe kejadian / EVENT
“80-100cm” bertipe ukuran / MEASUREMENT
“Jln. yos sudarso”, “pelabuhan 1” dan “Cirebon” bertipe lokasi / LOCATION
METODE
Deteksi named entity dapat dilakukan dengan melihat pola kata disekitarnya.
Misalnya frasa yang didahului oleh kalimat “pergi ke … “ atau “datang dari … “ kemungkinan besar adalah named entity bertipe lokasi.
Contoh “pergi ke Bandung” dan “datang dari Amerika Serikat”. Tentu pola ini sangat banyak kombinasinya sehingga cara manual kurang feasible.
Makin banyaknya data tersedia, machine learning dapat digunakan untuk
mempelajari pola secara otomatis dan melakukan prediksi label kategori.
METODE (MACHINE LEARNING)
NER dapat diselesaikan dengan pelabelan urutan kata statistik (statisctical sequence- labeling) yang mendeteksi batas atau segmen dan tipe dari named-entity.
Fitur yang dapat digunakan untuk learning antara lain:
shape (uppercase atau lowercase, penggunaan angka),
kata dikiri dan dikanan,
jenis kata,
apakah kata ada di dalam kamus atau gazetter,
predictive words dan N-Gram.
Setelah fitur dikumpukan, pelabelan dapat diselesaikan dengan menggunakan Hidden Markov Model atau Maximum Entropy Model.
EVALUASI NER
PRECISION, RECALL AND F MEASURE
CONTOH KASUS
Menurut Laks, status multi-listing bagi
Telkom penting dalam rangka menjaga citra perseroan, walaupun sebetulnya saham
Telkom bisa diserap investor lokal. PT
Telekomunikasi Indonesia Tbk ( Telkom) akan melakukan pembiayaan kembali utang (debt refinancing) dalam valuta asing (valas), guna mengurangi rugi valas akibat fluktuasi nilai tukar. Menurutnya, siapapun yang berbisnis di Indonesia harus legal dan memenuhi semua aturan.
KELAS ORG PERSON LOCATION
PREDIKSI NER
Penghitungan performa berdasarkan per entitas bukan per token
FP = False Positif : bukan NE tapi diprediksi NE
FN : benar NE tp system gagal mendeteksinya
Aktual
Prediksi TP FP
TN FN
TOKEN NAME ENTITY
Laks PER
Telkom ORG
Telkom ORG
PT
Telekomunikasi Indonesia Tbk
ORG
Indonesia LOC
MACHINE LEARNING UNTUK NE
TRAINING
1. Kumpulkan data training
2. Berikan label kelas entitas atau Other untuk tiap token
3. Rancang fitur ekstraksi yg tepat untuk teks
4. Latih rangkaian data untuk prediksi label
TESTING
Terima dokumen testing
Jalankan model inferensi untuk label tiap token
Kelas entitas akan dikenali berdasarkan data latih