• Tidak ada hasil yang ditemukan

introduction to natural language processing - Spada UNS

N/A
N/A
Protected

Academic year: 2023

Membagikan "introduction to natural language processing - Spada UNS"

Copied!
18
0
0

Teks penuh

(1)

INTRODUCTION TO NATURAL LANGUAGE PROCESSING

Denis Eka Cahyani, M.Kom [email protected]

1

(2)

Apa NLP?

2

Natural Language Processing adalah bidang dalam ilmu komputer yang mengolah naskah dalam

bahasa manusia

Aneka ragam sistem NLP :

Naskah tulisan (written) vs. lisan (speech)

Mengolah : memahami (understanding), menghasilkan (generation), keduanya (dialogue, Question Answering / QA)

Bahasa Manusia : inggris, indonesia, jawa

Domain : penyakit, pariwisata, hiburan dll.

(3)

Contoh Sistem & Aplikasi NLP

3

(4)

Contoh Sistem & Aplikasi NLP

4

Summarization / peringkasan dokumen

menghasilkan ringkasan suatu atau beberapa dokumen.

Sentiment Analisis /Analisa Sentimen

Proses memahami data teks secara otomatis untuk

mendapatkan informasi sentimen yang terkandung

dalam suatu kalimat opini.

(5)

5

Information Extraction

proses mengekstrak informasi terstruktur dari dokumen yang unstructured atau semistructured.

Subject: curriculum meeting Date: January 15, 2012

To: Dan Jurafsky

Hi Dan, we’ve now scheduled the curriculum meeting.

It will be in Gates 159 tomorrow from 10:00-11:30.

-Chris

5

Create new Calendar entry

Event: Curriculum mtg

Date: Jan-16-2012

Start: 10:00am

End: 11:30am

Where: Gates 159

Contoh Sistem & Aplikasi NLP

(6)

Language Technology

6

Coreference resolution

Question answering (QA)

Part-of-speech (POS) tagging

Word sense disambiguation (WSD)

Paraphrase

Named entity recognition (NER)

Parsing Summarization

Information extraction (IE) Machine translation (MT)

Dialog Sentiment analysis

mostly solved

making good progress

still really hard

Spam detection

Let’s go to Agra!

Buy V1AGRA …

Colorless green ideas sleep furiously.

ADJ ADJ NOUN VERB ADV

Einstein met with UN officials in Princeton PERSON ORG LOC

You’re invited to our dinner party, Friday May 27 at 8:30

Party May 27 add Best roast chicken in San Francisco!

The waiter ignored us for 20 minutes.

Carter told Mubarak he shouldn’t run again.

I need new batteries for my mouse.

The 13thShanghai International Film Festival…

13届上海国际电影节开幕

The Dow Jones is up Housing prices rose

Economy is good Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?

I can see Alcatraz from the window!

XYZ acquired ABC yesterday ABC has been taken over by XYZ

Where is Citizen Kane playing in SF?

Castro Theatre at 7:30. Do you want a ticket?

The S&P500 jumped

(7)

7

Speech recognition

aplikasi yang dapat mengubah sinyal lisan (speech) menjadi tulisan (text ).

Contoh : Sphinx (cmusphinx.sf.net)

Aplikasi NLP (berbasis suara)

Berhasilkah sistem-sistem ini?

Ya dan tidak. Pada umumnya, butuh pemahaman yang lebih baik mengenai bahasa dan teknik mengolah bahasa. Kedua hal tsb. dipelajari pada kuliah ini.

(8)

Mengapa belajar NLP?

8

Engineering

Agar mesin dapat mengolah natural language dengan baik (mis: aplikasi yang sudah dijelaskan).

Bahasa menyatakan knowledge. Jika bisa “dipahami”

oleh mesin maka dapat diolah untuk berbagai cara.

Science

Bagaimana manusia menghasilkan bahasa?

Memahami bahasa? Menggunakannya untuk berkomunikasi?

→ Pemodelan dgn komputer dapat membantu

(9)

Bahasa Manusia

9

Ketika mempelajari bahasa manusia, kita dapat membaginya ke dalam beberapa bidang:

Phonetics

Bagaimana mengubah sinyal suara menjadi fonem dan sebaliknya? Mis: peras — /pɘras/

Morphology

Bentuk dan makna kata, mis: pukul, memukul, pukulan, dipukul

Syntax

Bagaimana merangkai kata ke dalam kalimat yang sah?

- John loves Mary vs. (*) John love Mary.

- Budi memakan bakso vs. (?) Budi dimakan bakso.

(10)

Bahasa Manusia

10

Semantics

Bagaimana memahami makna dari sebuah teks?

Mis: apel & apel

Discourse

Bagaimana memahami unit linguistik yang lebih besar dari sebuah kalimat / ungkapan lisan?

Pragmatics

Bagaimana interpretasi makna di dalam konteks (wacana, domain, dll.)

→ Humor dan sarkasme dalam teks

(11)

Teknik mengolah bahasa

11

Pendekatan Linguist (“top-down”)

Implementasikan algoritma dan struktur data berdasarkan teori dan model linguistik.

Pendekatan Empiricist (“bottom-up”)

Gunakan model “black-box” berdasarkan statistik atau machine learning.

Kedua pendekatan ini membutuhkan sumber informasi mengenai bahasa: linguistic resources, mis: kamus

(lexicon), aturan tata bahasa (grammar), kumpulan

dokumen (corpus), dll.

(12)

Contoh

12

Bagaimana caranya menginterpretasikan sebuah sinyal lisan:

1 “I scream is delicious”.

2 “Ice cream is delicious”.

Model linguistik

Kalimat (1) tidak valid, sedangkan kalimat (2) adalah valid.

Model empiris

“Ice cream is” lebih sering dijumpai daripada “I scream is”.

(13)

Mengapa mempelajari &

memodelkan bahasa itu sulit?

13

Kerancuan (ambiguity) pada banyak tingkat:

- Bisa ular bisa mematikan.

- Anto makan mie dengan sumpit.

Budi makan bakso dengan Ani.

- The boy saw the man with the telescope.

- Anto memukul Budi. Dia meraung kesakitan.

Ada aturan (rule), tapi banyak pengecualian (exception). Ex : irregular verb

Bahasa senantiasa berubah (mis: secara, baper)

Kita tidak mengerti dengan jelas bagaimana manusia mengolah bahasa.

Kata empiricist: abaikan manusia, pelajari (banyak) data!

(14)

Sejarah NLP

14

1940-1950

Pembentukan teori dasar

Teori bahasa formal (Chomsky)

Noisy channel model, information theory (Shannon & Weaver)

1957-1970

Mulai terbentuk komunitas simbolik (FIB) vs. statistik (FT)

Model simbolik berdasarkan context-free grammar dan transformational grammar-nya Chomsky.

Program NLU/dialogue sederhana berdasarkan pattern-

matching, mis: ELIZA (Weizenbaum)

(15)

Sejarah NLP

15

1970-1983

Penggunaan grammar dan parser yang semakin canggih.

Pendekatan logic-based untuk syntax & semantics → PROLOG (Colmerauer)

Going beyond the sentence: discourse modeling (Grosz &

Sidner)

Hidden Markov Models (HMM) untuk speech recognition

1983-1993

Bangkit kembali: finite-state model, terutama untuk morphology

Bangkit kembali: probabilistic model (speech recognition-

nya lab IBM): part-of-speech tagging, statistical parsing, dll.

Riset ke dalam NLG (Natural Language Generation)

(16)

Sejarah NLP

16

1994-1999

Makin maraknya penggunaan model probabilistik dan empiris, dengan bantuan teori linguistik.

Ilmu semakin matang, metodologi evaluasi yang jelas.

Meledak! WWW, Google, data, hardware, uang!

2000- sekarang

Berkembangnya pendekatan machine learning

Tersedianya material tulisan dan lisan dalam jumlah besar:

LDC (Linguistic Data Corsortium), Penn Treebank, dsb.

Berkembangnya high performance computing system → era big data. Teknik: Naive Bayes, SVM, Logistic Regression

(tren sampai 2010-an)

setelah 2015, pendekatan Deep Learning populer terutama untuk bahasa Inggris

(17)

References

17

Daniel Jurafsky & James H. Martin, Speech and Language Processing: An Introduction to Natural

Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2000.

Sumber materi : ACL Anthology

(18)

Terima Kasih

18

Referensi

Dokumen terkait

And produce of result biodiesel which is best obtained at fence castor oil ( Jatropha Curcas Oil) ace heavy 100 grams, methanol [ 40%(b/b)] and % KOH [ 1,5%(b/b)], and