• Tidak ada hasil yang ditemukan

CCS512 Language Engineering (Kejuruteraan Bahasa)

N/A
N/A
Protected

Academic year: 2021

Membagikan "CCS512 Language Engineering (Kejuruteraan Bahasa)"

Copied!
7
0
0

Teks penuh

(1)

SULIT

First Semester Examination 2017/2018 Academic Session January 2018

CCS512 – Language Engineering

(Kejuruteraan Bahasa)

Duration : 2 hours (Masa : 2 jam)

Please ensure that this examination paper contains SEVEN (7) printed pages before you begin the examination.

[Sila pastikan bahawa kertas peperiksaan ini mengandungi TUJUH (7) muka surat yang bercetak sebelum anda memulakan peperiksaan ini.]

Instructions: Answer FIVE (5) questions. [Arahan: Jawab LIMA (5) soalan.]

You may answer the questions either in English or in Bahasa Malaysia.

[Anda dibenarkan menjawab soalan sama ada dalam bahasa Inggeris atau bahasa Malaysia.]

In the event of any discrepancies, the English version shall be used.

[Sekiranya terdapat sebarang percanggahan pada soalan peperiksaan, versi bahasa Inggeris hendaklah diguna pakai.]

(2)

1. Finite state automaton is a model of computation consisting of a set of states.

Automata keadaan terhingga adalah model perhitungan yang terdiri daripada satu set keadaan.

(a) Write a regular expression for the language accepted by the non-deterministic finite state automaton (NFSA).

Tulis ungkapan biasa untuk bahasa yang diterima oleh automaton keadaan terhingga tak berketentuan (NFSA).

A Mystery Language Suatu Bahasa Misteri

(2/100)

(b) Design a finite state automaton for a dialogue manager to check your bank balance and withdraw money at an automated teller machine.

Reka suatu automata keadaan terhingga untuk pengurus dialog untuk memeriksa baki bank anda dan mengeluarkan wang di mesin juruwang automatik.

(5/100)

(c) Design a finite state automaton that accepts any of the stated strings, i.e. ART or ARTS or ARTIST or ABLE.

Reka suatu automata keadaan terhingga yang menerima rentetan-rentetan yang dinyatakan, iaitu ART atau ARTS atau ARTIST atau ABLE.

(3/100)

2. Part of Speech (POS) tagging is the process of marking up a word in a text (corpus) with its corresponding part of speech.

Penandaan kelas kata (POS) adalah proses menandakan perkataan dalam teks (corpus) dengan kelas kata yang sepadan.

(3)

(a) Find one tagging error in each of the following sentence that is tagged with the Penn Treebank Part of Speech tagset:

Kenal pasti satu kesilapan penandaan dalam setiap ayat berikut yang ditandakan dengan set penandaan Kelas Kata Penn Treebank:

1. I/PRP need/VBP a/DT flight/NN from/IN Atlanta/NN 2. Does/VBZ this/DT flight/NN serve/VB dinner/NNS

3. I/PRP have/VB a/DT friend/NN living/VBG in/IN Denver/NNP

(3/100)

(b) Named Entity Recognition (NER) is a process of identifying entities in text which in general based on Part of Speech tagging. Identify and list every named entity (and its type, e.g. Person) in the following text:

Pengecaman Entiti Nama (NER) adalah proses mengenal pasti entiti dalam teks yang secara amnya berdasarkan penandaan kelas kata. Kenal pasti dan senaraikan setiap entiti nama (dan jenisnya, contohnya Orang) dalam teks berikut:

"The domestic cat is believed to have evolved from the Near Eastern wildcat, whose range covers vast portions of the Middle East westward to the Atlantic coast of Africa. Between 70,000 and 100,000 years ago the animal gave rise to the genetic lineage that eventually produced all domesticated cats, having diverged from the Near Eastern wildcat around 8,000 BC in the Middle East."

(4/100)

(c) Ambiguity in the meaning of a word within a sentence can be linked to its Part of Speech (POS). List two (2) words that are ambiguous when having different POS. For each of the word, list two (2) example sentences to demonstrate the differences in meanings. In each example sentence, specify the POS of the word.

Kekaburan dalam erti untuk suatu perkataan dalam satu ayat boleh dikaitkan dengan kelas katanya (POS). Senaraikan dua (2) perkataan yang kabur ertinya apabila mempunyai POS yang berbeza. Untuk setiap perkataan, senaraikan dua (2) contoh ayat untuk menunjukkan perbezaan makna. Dalam setiap ayat contoh, nyatakan POS untuk perkataan tersebut.

(4)

(d) Part of Speech (POS) tagging is needed as processing step for many end user applications. List two (2) of these applications and describe the POS tagging process in detail. You may use diagram to help in illustrating the flow of the application and POS tagging process.

Penandaan kelas kata (POS) diperlukan sebagai langkah pemprosesan untuk banyak aplikasi yang melibatkan pengguna akhir. Senaraikan

dua (2) aplikasi ini dan huraikan proses penandaan POS secara terperinci.

Anda boleh menggunakan gambar rajah untuk membantu dalam menggambarkan aliran proses aplikasi and penandaan POS.

(10/100)

3. (a) What is an information retrieval task? Give an example of such a task, based on your given answer for information retrieval task.

Apakah yang dimaksudkan dengan tugas dapatan kembali maklumat? Berikan satu contoh tugas sedemikian berdasarkan jawapan anda untuk tugas dapatan kembali maklumat.

(2/100)

(b) The performance of an information retrieval system can be evaluated in terms of its precision, P, and recall, R. Give the definition of these two terms.

Prestasi sistem dapatan kembali maklumat boleh dinilai dari segi kepersisan, P, dan perolehan kembali, R. Beri takrifan kedua-dua istilah ini.

(4/100)

(c) Precision and recall are computed as follows:

Kepersisan dan perolehan kembali boleh dikira seperti berikut:

ܲ ൌ ܶܲ

ܶܲ ൅ ܨܲ

ܴ ൌ ܶܲ

ܶܲ ൅ ܨܰ

(5)

(d) Two retrieval systems, X and Y, are being compared. Both are given the same query, applied to a collection of 1500 documents. System X returns 400 documents, of which 40 are relevant to the query. System Y returns 30 documents, of which 15 are relevant to the query. Within the whole collection there are in fact 50 documents relevant to the query. Tabulate the results for each system, and compute the precision and recall for both X and Y. Show the calculation steps.

Dua sistem dapatan kembali maklumat, X dan Y, dibandingkan. Kedua-dua diberi pertanyaan yang sama untuk koleksi 1500 dokumen. Sistem X mengembalikan 400 dokumen, yang mana 40 adalah berkaitan dengan pertanyaan. Sistem Y mengembalikan 30 dokumen, yang mana 15 berkaitan dengan pertanyaan. Di dalam koleksi keseluruhan terdapat 50 dokumen yang berkaitan dengan pertanyaan itu. Tabulasikan keputusan untuk setiap sistem, dan hitungkan kepersisan dan perolehan kembali untuk kedua-dua X dan Y. Tunjukkan langkah-langkah pengiraan.

(8/100)

(e) Both precision and recall need to be taken into account when evaluating retrieval systems. Why is it not sufficient to pick one and use only that?

Kedua-dua kepersisan dan perolehan kembali perlu diambil kira apabila menilai sistem dapatan kembali. Mengapa ia tidak mencukupi untuk memilih dan hanya menggunakan salah satu daripadanya?

(2/100)

4. (a) Speech production is the process by which thoughts are translated into speech. Explain how human produce speech.

Hasil pertuturan ialah proses yang mana pemikiran diterjemahkan ke dalam bentuk pertuturan. Terangkan bagaimana manusia menghasilkan pertuturan.

(6/100)

(b) Describe the source filter model of speech production.

Huraikan model penapis sumber bagi penghasilan pertuturan.

(6)

(c) Sketch one process diagram of speech synthesis and one process diagram of speech recognition. Explain the main component of both diagram.

Lakarkan satu gambar rajah proses sentesis pertuturan dan satu gambar rajah pengecaman pertuturan. Terangkan komponen penting bagi kedua-dua gambar rajah itu.

(12/100)

(d) What are the challenges when synthesising and recognising speech?

Apakah cabaran-cabaran apabila mensentesis dan mengecam pertuturan?

(2/100)

(e) (i) How does Hidden Markov Model in Automatic Speech Recognition work?

Bagaimanakah proses Model Markov Tersembunyi dalam Pengecaman Pertuturan secara Automatik?

(ii) How does Waveform Synthesis in Text-to-Speech (TTS) work?

Bagaimanakah proses Sentesis Bentuk-gelombang dalam Teks-ke-Pertuturan (TTS)?

(4/100)

5. (a) We usually name constituents as phrases based on the word that heads the constituent. List 3 types of main phrases in English with their examples.

Kita selalunya menamakan konstituen sebagai frasa-frasa berdasarkan kepada perkataan yang mengepalai konstituen itu. Senaraikan 3 jenis frasa utama dalam bahasa Inggeris berserta contoh-contohnya.

(7)

(b) Context free grammar is the most common way of modelling constituency. The sentence can be represented in parse tree structure form. Write the rule for the following sentences and draw the parse tree for each sentences.

Tatabahasa bebas konteks ialah cara yang paling biasa bagi pemodelan konstituen. Ayat-ayat boleh diperwakilkan dalam bentuk struktur pepohon huraian. Tulis rumus bagi ayat-ayat berikut dan lukiskan pepohon huraian bagi setiap ayat.

The waiter brought the meal to the table. The waiter brought the meal of the day.

(10/100)

(c) The task of selecting the correct sense for a word is called word sense disambiguation (WSD). How WSD improved machine translation tasks? Fungsi memilih makna yang betul bagi sesuatu perkataan dikenali sebagai

penyahtaksaan perkataan (WSD). Bagaimana WSD menambah baik

tugas-tugas penterjemahan mesin?

(4/100)

Referensi

Dokumen terkait

Pelaksanaan pembelajaran pada Mata Kuliah Pembuatan Busana Wanita dosen memberikan teori yang harus dipelajari terlebih dahulu sebelum melaksanakan praktik sebagai bekal

“Vendor” bermaksud entiti yang dikenal pasti di sini sebagai menyediakan Penyelesaian kepada anda; “Dokumentasi” bermaksud mana-mana manual pengguna dan arahan yang disediakan

Diagram alir entiti juga berbeda dengan OPC yang terdapat pada Lampiran 2 dan Lampiran 3, karena OPC menggambarkan aliran proses yang dialami oleh entiti penyusun produk.. Pada

Sebagai kesimpulan, projek ini telah berjaya mencapai objektif kajian iaitu untuk melakukan pengecaman entiti nama terhadap teks terjemahan Al-Quran, membandingkan

Andaikan setiap unsur dalam model ialah perkataan, jelaskan bagaimana model bigram boleh digunakan untuk menganggarkan kebarangkalian "the" dalam ayat

Pengadukan akhir (pengadukan kering) dilakukan selama 3 menit. Kadar air adonan berpengaruh terhadap proses gelatinisasi. Karena apabila kadar air terlalu tinggi akan

Pada awal tahun 2001, partner KAP Andersen melakukan evaluasi terhadap kemungkinan mempertahankan atau melepaskan Enron sebagai klien

Lengkapkan maklumat majikan yang diperlukan iaitu nama penuh dan nombor pendaftaran syarikat / perniagaan / persatuan , t arikh penubuhan, tarikh mula mengambil pekerja, entiti