TOKENISASI, PARSING & CHUNKING
NATURAL LANGUAGE PROCESSING TEKNIK INFORMATIKA - UNIKOM
SEGMENTASI KALIMAT
Memecah dokumen menjadi beberapa kalimat
Tujuan : memisahkan antar kalimat dalm suatu dokumen
Metode : mendeteksi titik (.) / tanda tanya (?) / tanda seru (!)
TOKENISASI
Memecah suatu teks menjadi kata, frase, symbol atau elemen lain yang memiliki makna atau yg disebut TOKEN
Tujuan untuk mengetahui banyak kata dalam suatu kalimat atau dokumen
Metode mendeteksi pemisah kata misalnya spasi, tab, baris baru
MASALAH TOKENISASI /SEGMENTASI KALIMAT
C.V. C / V (bukan kalimat)
Situ patenggang situ / patenggang
Meja hijau meja / hijau
Pada beberapa Bahasa tertentu tidak memiliki spasi (contoh: Bahasa mandarin atau jepang)
GRAMMAR DAN PARSERS
Grammar
Grammar adalah suatu aturan yang menentukan bagaimana suatu kalimat dalam suatu bahasa dibentuk. Grammar berisi kumpulan sintax yang baku/benar dari suatu bahasa.
Contoh : Dalam bahasa Indonesia, suatu kalimat biasanya terdiri dari
Subject-Predikat-Object-Keterangan
Parser
Parsers adalah suatu metode atau suatu program (sering disebut suatu mesin) yang dapat memproduksi/menghasilkan kalimat atau bahasa yang sesuai dengan Grammar yang sudah ditentukan atau diinginkan.
Parsers juga dapat memeriksa apakah suatu kalimat yang dimasukkan sesuai dengan Grammar atau tidak.
JENIS PARSERS
Parsers terdiri dari dua jenis, yaitu :
1. Top-Down Parsing
memulai proses parsing dari simbol start dan menggunakan aturan grammar sampai simbol-simbol terminal pada tree terhubung ke komponen kalimat yang di parsing
2. Bottom-Up Parsing
memulai proses parsing dari kalimat yang akan di parsing dan menggunakan aturan grammar secara terbalik untuk memproduksi kata menjadi terminal, terminal menjadi kalimat sampai tree/ pohon lengkap dan simbol start tercapai
PARSING
Suatu proses menganalisa suatu kumpulan kata dengan memisahkan kata-kata itu dan menentukan struktur sintaktis dari tiap kata tersebut.
Mempunyai 2 pendekatan:
Top-down parsing
Bottom-up parsing
CONTOH
kucing makan
kucing makan
KataBenda KataKerja Kalimat
Bottom-up
parsing
KATEGORI KATA
NOUN Kata benda Bangku, awan, tetikus
VERB Kata kerja Belajar, lari, makan ADJ Kata sifat Ungu, tinggi, lucu
ADV Kata
keterangan Yang biru / dengan lincah
DETERMINER Kata penentu Itu, ini
PUNCT Tanda baca (.) / (,) / (?) / (!) dll PRONOUN Kata ganti Dia, kamu, mereka ADP Preposisi Di atas, di bawah
SYM Simbol $ / @ /
NUM Angka 1 / 3 / 45 / 1975
X Lain-lain
SYNTACTIC ANALYSIS - GRAMMAR
Kalimat -> frase_NOUN, frase_VERB
frase_NOUN -> PRONOUN
frase_NOUN -> DETEMINER, NOUN
frase_VERB -> VERB, frase_NOUN
PRONOUN -> [Boni]
noun -> [sepeda]
verb -> [menaiki]
determiner -> [itu]
SYNTACTIC ANALYSIS - PARSING
Kalimat
Frase NOUN Frase VERB
Pronoun Frase Frase NOUN VERB
NOUN DETERMINE R
Boni menaiki Sepe
da it
u
CONTOH LAIN PARSING
CONTOH LAIN PARSING
PENN TREEBANK TAGSET
TUGAS 3
Buat 5 buah kalimat Bahasa Indonesia
Buat grammar dan parsing untuk masing-masing kalimat
file diunggah ke https://kuliahonline.unikom.ac.id/ kelas: NLP 1 atau NLP 2 sesuai kelas masing-masing paling lambat 1 hari sebelum jadwal
perkuliahan
Pada bagian akhir file buat pernyataan bahwa anda sendiri yang menyusun membuat tersebut.