• Tidak ada hasil yang ditemukan

Name entity recognition - UNIKOM Kuliah Online

N/A
N/A
Protected

Academic year: 2023

Membagikan "Name entity recognition - UNIKOM Kuliah Online"

Copied!
11
0
0

Teks penuh

(1)

NAME ENTITY RECOGNITION

NATURAL LANGUAGE PROCESSING TEKNIK INFORMATIKA - UNIKOM

(2)

PENDAHULUAN

Fungsi dari NER adalah mendeteksi kata atau kumpulan

kata yang merupakan entitas dan mengkategorikan kata

tersebut ke dalam tipe yang sesuai

(3)

MANFAAT

 Aplikasi NLP (Natural Language Processing) seperti question- answering, rangkuman dan sistem dialog. 

 Task information  extraction lainnya seperti  dengan relation

detection,  event detection dan temporal analysis

(4)

MASALAH

Ada dua jenis ambiguitas yang dapat ditemui NER.

Kata yang sama dapat berarti dua entitas yang berbeda. Misalnya kata Soekarno dapat berarti presiden pertama Indonesia, atau nama belakang seorang seniman (Enrico

Soekarno),  keduanya entitas berbeda walaupun tipenya sama (orang/person). 

Nama yang sama tapi tipe berbeda. Contohnya adalah Bung Karno sebagai stadion dengan Bung Karno sebagai orang.  Ambiguitas umumnya ditangani dengan

menggunakan kamus.

(5)

CONTOH

“19.55Banjir setinggi 80-100 cm di Jln yos sudarso, dekat pelabuhan 1 Cirebon, hati2 pengendara“

“19:55” bertipe waktu / TIME

“banjir”  bertipe kejadian / EVENT

“80-100cm” bertipe ukuran / MEASUREMENT

“Jln. yos sudarso”, “pelabuhan 1” dan “Cirebon”  bertipe  lokasi / LOCATION

(6)

METODE

Deteksi named entity  dapat dilakukan dengan melihat pola kata disekitarnya.

Misalnya frasa yang didahului oleh kalimat “pergi ke … “ atau “datang dari … “ kemungkinan besar adalah named entity bertipe lokasi.

Contoh “pergi ke Bandung”  dan “datang dari Amerika Serikat”.   Tentu pola ini sangat banyak kombinasinya sehingga cara manual kurang feasible.

Makin banyaknya data tersedia, machine learning dapat digunakan untuk

mempelajari pola secara otomatis dan melakukan prediksi label kategori.

(7)

METODE (MACHINE LEARNING)

NER dapat diselesaikan dengan pelabelan urutan kata statistik (statisctical sequence- labeling) yang mendeteksi batas atau segmen  dan tipe dari named-entity. 

Fitur yang dapat digunakan untuk learning antara lain:  

shape (uppercase atau lowercase, penggunaan angka),  

kata dikiri dan dikanan,

jenis kata,

apakah kata ada di dalam kamus atau gazetter,  

predictive words dan N-Gram.  

Setelah fitur dikumpukan, pelabelan dapat diselesaikan dengan menggunakan Hidden Markov Model atau Maximum Entropy Model.

(8)

EVALUASI NER

PRECISION, RECALL AND F MEASURE

(9)

CONTOH KASUS

Menurut Laks, status multi-listing bagi

Telkom penting dalam rangka menjaga citra perseroan, walaupun sebetulnya saham

Telkom bisa diserap investor lokal. PT

Telekomunikasi Indonesia Tbk ( Telkom) akan melakukan pembiayaan kembali utang (debt refinancing) dalam valuta asing (valas), guna mengurangi rugi valas akibat fluktuasi nilai tukar. Menurutnya, siapapun yang berbisnis di Indonesia harus legal dan memenuhi semua aturan.

KELAS ORG PERSON LOCATION

(10)

PREDIKSI NER

Penghitungan performa berdasarkan per entitas bukan per token

FP = False Positif : bukan NE tapi diprediksi NE

FN : benar NE tp system gagal mendeteksinya

Aktual

Prediksi TP FP

TN FN

TOKEN NAME ENTITY

Laks PER

Telkom ORG

Telkom ORG

PT

Telekomunikasi Indonesia Tbk

ORG

Indonesia LOC

(11)

MACHINE LEARNING UNTUK NE

TRAINING

1. Kumpulkan data training

2. Berikan label kelas entitas atau Other untuk tiap token

3. Rancang fitur ekstraksi yg tepat untuk teks

4. Latih rangkaian data untuk prediksi label

TESTING

Terima dokumen testing

Jalankan model inferensi untuk label tiap token

Kelas entitas akan dikenali berdasarkan data latih

Referensi

Dokumen terkait

Kata kerja aktif transitif merupakan kata kerja yang mampu menghadirkan kata benda yang berfungsi sebagai objek atau dengan kata lain kata kerja yang membutuhkan

Kata KristusChrist dalam bahasa Inggris berasal dari kata Yunani Χριστός Christos11, yang merupakan terjemahan dari kata Ibrani ַ חי ִׁש ָמ Meshiakh, artinya yang "diurapi" dan