Apa NLP?
2
Natural Language Processing adalah bidang dalam ilmu komputer yang mengolah naskah dalam
bahasa manusia
Aneka ragam sistem NLP :
•
Naskah tulisan (written) vs. lisan (speech)
•
Mengolah : memahami (understanding), menghasilkan (generation), keduanya (dialogue, Question Answering / QA)
•
Bahasa Manusia : inggris, indonesia, jawa
•
Domain : penyakit, pariwisata, hiburan dll.
Contoh Sistem & Aplikasi NLP
3
Contoh Sistem & Aplikasi NLP
4
Summarization / peringkasan dokumen
menghasilkan ringkasan suatu atau beberapa dokumen.
❑
Sentiment Analisis /Analisa Sentimen
Proses memahami data teks secara otomatis untuk
mendapatkan informasi sentimen yang terkandung
dalam suatu kalimat opini.
5
Information Extraction
proses mengekstrak informasi terstruktur dari dokumen yang unstructured atau semistructured.
Subject: curriculum meeting Date: January 15, 2012
To: Dan Jurafsky
Hi Dan, we’ve now scheduled the curriculum meeting.
It will be in Gates 159 tomorrow from 10:00-11:30.
-Chris
5
Create new Calendar entry
Event: Curriculum mtg
Date: Jan-16-2012
Start: 10:00am
End: 11:30am
Where: Gates 159
Contoh Sistem & Aplikasi NLP
Language Technology
6
Coreference resolution
Question answering (QA)
Part-of-speech (POS) tagging
Word sense disambiguation (WSD)
Paraphrase
Named entity recognition (NER)
Parsing Summarization
Information extraction (IE) Machine translation (MT)
Dialog Sentiment analysis
mostly solved
making good progress
still really hard
Spam detection
Let’s go to Agra!
Buy V1AGRA …
✓✗
Colorless green ideas sleep furiously.
ADJ ADJ NOUN VERB ADV
Einstein met with UN officials in Princeton PERSON ORG LOC
You’re invited to our dinner party, Friday May 27 at 8:30
Party May 27 add Best roast chicken in San Francisco!
The waiter ignored us for 20 minutes.
Carter told Mubarak he shouldn’t run again.
I need new batteries for my mouse.
The 13thShanghai International Film Festival…
第13届上海国际电影节开幕…
The Dow Jones is up Housing prices rose
Economy is good Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?
I can see Alcatraz from the window!
XYZ acquired ABC yesterday ABC has been taken over by XYZ
Where is Citizen Kane playing in SF?
Castro Theatre at 7:30. Do you want a ticket?
The S&P500 jumped
7
Speech recognition
aplikasi yang dapat mengubah sinyal lisan (speech) menjadi tulisan (text ).
Contoh : Sphinx (cmusphinx.sf.net)
Aplikasi NLP (berbasis suara)
Berhasilkah sistem-sistem ini?
Ya dan tidak. Pada umumnya, butuh pemahaman yang lebih baik mengenai bahasa dan teknik mengolah bahasa. Kedua hal tsb. dipelajari pada kuliah ini.
Mengapa belajar NLP?
8
Engineering
✓
Agar mesin dapat mengolah natural language dengan baik (mis: aplikasi yang sudah dijelaskan).
✓
Bahasa menyatakan knowledge. Jika bisa “dipahami”
oleh mesin maka dapat diolah untuk berbagai cara.
❑
Science
Bagaimana manusia menghasilkan bahasa?
Memahami bahasa? Menggunakannya untuk berkomunikasi?
→ Pemodelan dgn komputer dapat membantu
Bahasa Manusia
9
Ketika mempelajari bahasa manusia, kita dapat membaginya ke dalam beberapa bidang:
Phonetics
Bagaimana mengubah sinyal suara menjadi fonem dan sebaliknya? Mis: peras — /pɘras/
Morphology
Bentuk dan makna kata, mis: pukul, memukul, pukulan, dipukul
Syntax
Bagaimana merangkai kata ke dalam kalimat yang sah?
- John loves Mary vs. (*) John love Mary.
- Budi memakan bakso vs. (?) Budi dimakan bakso.
Bahasa Manusia
10
Semantics
Bagaimana memahami makna dari sebuah teks?
Mis: apel & apel
Discourse
Bagaimana memahami unit linguistik yang lebih besar dari sebuah kalimat / ungkapan lisan?
Pragmatics
Bagaimana interpretasi makna di dalam konteks (wacana, domain, dll.)
→ Humor dan sarkasme dalam teks
Teknik mengolah bahasa
11
Pendekatan Linguist (“top-down”)
Implementasikan algoritma dan struktur data berdasarkan teori dan model linguistik.
Pendekatan Empiricist (“bottom-up”)
Gunakan model “black-box” berdasarkan statistik atau machine learning.
Kedua pendekatan ini membutuhkan sumber informasi mengenai bahasa: linguistic resources, mis: kamus
(lexicon), aturan tata bahasa (grammar), kumpulan
dokumen (corpus), dll.
Contoh
12
Bagaimana caranya menginterpretasikan sebuah sinyal lisan:
1 “I scream is delicious”.
2 “Ice cream is delicious”.
Model linguistik
Kalimat (1) tidak valid, sedangkan kalimat (2) adalah valid.
Model empiris
“Ice cream is” lebih sering dijumpai daripada “I scream is”.
Mengapa mempelajari &
memodelkan bahasa itu sulit?
13
Kerancuan (ambiguity) pada banyak tingkat:
- Bisa ular bisa mematikan.
- Anto makan mie dengan sumpit.
Budi makan bakso dengan Ani.
- The boy saw the man with the telescope.
- Anto memukul Budi. Dia meraung kesakitan.
Ada aturan (rule), tapi banyak pengecualian (exception). Ex : irregular verb
Bahasa senantiasa berubah (mis: secara, baper)
Kita tidak mengerti dengan jelas bagaimana manusia mengolah bahasa.
Kata empiricist: abaikan manusia, pelajari (banyak) data!
Sejarah NLP
14
1940-1950
Pembentukan teori dasar
◼ Teori bahasa formal (Chomsky)
◼ Noisy channel model, information theory (Shannon & Weaver)
1957-1970
Mulai terbentuk komunitas simbolik (FIB) vs. statistik (FT)
Model simbolik berdasarkan context-free grammar dan transformational grammar-nya Chomsky.
Program NLU/dialogue sederhana berdasarkan pattern-
matching, mis: ELIZA (Weizenbaum)
Sejarah NLP
15
1970-1983
Penggunaan grammar dan parser yang semakin canggih.
Pendekatan logic-based untuk syntax & semantics → PROLOG (Colmerauer)
Going beyond the sentence: discourse modeling (Grosz &
Sidner)
Hidden Markov Models (HMM) untuk speech recognition
1983-1993
Bangkit kembali: finite-state model, terutama untuk morphology
Bangkit kembali: probabilistic model (speech recognition-
nya lab IBM): part-of-speech tagging, statistical parsing, dll.
Riset ke dalam NLG (Natural Language Generation)
Sejarah NLP
16
1994-1999
Makin maraknya penggunaan model probabilistik dan empiris, dengan bantuan teori linguistik.
Ilmu semakin matang, metodologi evaluasi yang jelas.
Meledak! WWW, Google, data, hardware, uang!
2000- sekarang
Berkembangnya pendekatan machine learning
Tersedianya material tulisan dan lisan dalam jumlah besar:
LDC (Linguistic Data Corsortium), Penn Treebank, dsb.
Berkembangnya high performance computing system → era big data. Teknik: Naive Bayes, SVM, Logistic Regression
(tren sampai 2010-an)
setelah 2015, pendekatan Deep Learning populer terutama untuk bahasa Inggris
References
17
Daniel Jurafsky & James H. Martin, Speech and Language Processing: An Introduction to Natural
Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2000.
Sumber materi : ACL Anthology
Terima Kasih
18