• Tidak ada hasil yang ditemukan

Bottom-up parsing - UNIKOM Kuliah Online

N/A
N/A
Protected

Academic year: 2023

Membagikan "Bottom-up parsing - UNIKOM Kuliah Online"

Copied!
16
0
0

Teks penuh

(1)

TOKENISASI, PARSING & CHUNKING

NATURAL LANGUAGE PROCESSING TEKNIK INFORMATIKA - UNIKOM

(2)

SEGMENTASI KALIMAT

Memecah dokumen menjadi beberapa kalimat

Tujuan : memisahkan antar kalimat dalm suatu dokumen

Metode : mendeteksi titik (.) / tanda tanya (?) / tanda seru (!)

(3)

TOKENISASI

Memecah suatu teks menjadi kata, frase, symbol atau elemen lain yang memiliki makna atau yg disebut TOKEN

Tujuan  untuk mengetahui banyak kata dalam suatu kalimat atau dokumen

Metode  mendeteksi pemisah kata misalnya spasi, tab, baris baru

(4)

MASALAH TOKENISASI /SEGMENTASI KALIMAT

C.V.  C / V (bukan kalimat)

Situ patenggang  situ / patenggang

Meja hijau  meja / hijau

Pada beberapa Bahasa tertentu tidak memiliki spasi (contoh: Bahasa mandarin atau jepang)

(5)

GRAMMAR DAN PARSERS

Grammar

Grammar adalah suatu aturan yang menentukan bagaimana suatu kalimat dalam suatu bahasa dibentuk. Grammar berisi kumpulan sintax yang baku/benar dari suatu bahasa.

Contoh : Dalam bahasa Indonesia, suatu kalimat biasanya terdiri dari

Subject-Predikat-Object-Keterangan

Parser

Parsers adalah suatu metode atau suatu program (sering disebut suatu mesin) yang dapat memproduksi/menghasilkan kalimat atau bahasa yang sesuai dengan Grammar yang sudah ditentukan atau diinginkan.

Parsers juga dapat memeriksa apakah suatu kalimat yang dimasukkan sesuai dengan Grammar atau tidak.

(6)

JENIS PARSERS

Parsers terdiri dari dua jenis, yaitu :

1. Top-Down Parsing

memulai proses parsing dari simbol start dan menggunakan aturan grammar sampai simbol-simbol terminal pada tree terhubung ke komponen kalimat yang di parsing

2. Bottom-Up Parsing

memulai proses parsing dari kalimat yang akan di parsing dan menggunakan aturan grammar secara terbalik untuk memproduksi kata menjadi terminal, terminal menjadi kalimat sampai tree/ pohon lengkap dan simbol start tercapai

(7)

PARSING

Suatu proses menganalisa suatu kumpulan kata dengan memisahkan kata-kata itu dan menentukan struktur sintaktis dari tiap kata tersebut.

Mempunyai 2 pendekatan:

Top-down parsing

Bottom-up parsing

(8)

CONTOH

kucing makan

kucing makan

KataBenda KataKerja Kalimat

Bottom-up

parsing

(9)

KATEGORI KATA

NOUN Kata benda Bangku, awan, tetikus

VERB Kata kerja Belajar, lari, makan ADJ Kata sifat Ungu, tinggi, lucu

ADV Kata

keterangan Yang biru / dengan lincah

DETERMINER Kata penentu Itu, ini

PUNCT Tanda baca (.) / (,) / (?) / (!) dll PRONOUN Kata ganti Dia, kamu, mereka ADP Preposisi Di atas, di bawah

SYM Simbol $ / @ /

NUM Angka 1 / 3 / 45 / 1975

X Lain-lain

(10)

SYNTACTIC ANALYSIS - GRAMMAR

Kalimat -> frase_NOUN, frase_VERB

frase_NOUN -> PRONOUN

frase_NOUN -> DETEMINER, NOUN

frase_VERB -> VERB, frase_NOUN

PRONOUN -> [Boni]

noun -> [sepeda]

verb -> [menaiki]

determiner -> [itu]

(11)

SYNTACTIC ANALYSIS - PARSING

Kalimat

Frase NOUN Frase VERB

Pronoun Frase Frase NOUN VERB

NOUN DETERMINE R

Boni menaiki Sepe

da it

u

(12)

CONTOH LAIN PARSING

(13)

CONTOH LAIN PARSING

(14)

PENN TREEBANK TAGSET

(15)

TUGAS 3

Buat 5 buah kalimat Bahasa Indonesia

Buat grammar dan parsing untuk masing-masing kalimat

file diunggah ke https://kuliahonline.unikom.ac.id/ kelas: NLP 1 atau NLP 2 sesuai kelas masing-masing paling lambat 1 hari sebelum jadwal

perkuliahan

Pada bagian akhir file buat pernyataan bahwa anda sendiri yang menyusun membuat tersebut.

Tanpa pernyataan tersebut tugas tidak akan dinilai dan dianggap tidak

hadir

(16)

Referensi

Dokumen terkait

Hasil perhitungan dan permodelan desain rawa, diperoleh tinggi jenjang rawa 3 m, kemiringan jenjang rawa 23 o (7 : 3), lebar jenjang rawa 10 m, tinggi lereng keseluruhan rawa 21 m

Dari hasil kuesioner tersebut , diperoleh beberapa poin pada website BIMAWA saat ini, yang fokus untuk dilakukan perbaikan: (1) penggunaan warna link yang kurang jelas