• Tidak ada hasil yang ditemukan

BAB I PENDAHULUAN. I.1 Latar Belakang

N/A
N/A
Protected

Academic year: 2021

Membagikan "BAB I PENDAHULUAN. I.1 Latar Belakang"

Copied!
6
0
0

Teks penuh

(1)

BAB I PENDAHULUAN

I.1 Latar Belakang

Pola tata bahasa memiliki manfaat dalam pemrosesan bahasa alami. Pemrosesan bahasa alami berawal dari keinginan manusia untuk berkomunikasi dengan komputer menggunakan bahasa manusia. Untuk memahami makna bahasa manusia dengan benar maka komputer perlu mengetahui tata bahasa manusia. Perangkat untuk memahami pola tata bahasa alami inilah yang disebut pengurai (parser). Pengurai akan membentuk pohon pola tata bahasa sehingga dapat disimpulkan dimana inti dari sebuah kalimat berbahasa manusia.

Selama ini penelitian yang banyak dilakukan menggunakan bahasa Inggris. Oleh karena itu di dalam tesis ini akan dibuat sebuah sistem yang melakukan proses penguraian kalimat untuk bahasa Indonesia dengan pendekatan probabilistik (probabilistic parsing). Pemrosesan yang dilakukan pada tesis ini secara garis besar adalah melakukan pemrosesan awal (preprocessing) untuk menyesuaikan masukan dari sebuah pengurai (parser) hasil disertasi milik Michael Collins [12]. Pengurai Collins merupakan pengurai yang memiliki lisensi GNU (open source). Pengurai Collins dianggap sebagai pengurai berbasis statistik yang cukup cepat pemrosesannya dan pada setiap level pohon memiliki kepala kata. Pengurai Collins dibuat untuk bahasa Inggris. Oleh karena itu diperlukan adanya pemrosesan awal untuk menghasilkan beberapa file masukan dengan format file masukan pengurai Collins dengan bahasa Indonesia. Selain itu pekerjaan menyesuaikan beberapa bagian pada pengurai Collins juga perlu dilakukan pada tesis ini agar benar-benar dapat digunakan untuk bahasa Indonesia.

(2)

Sebelumnya telah dilakukan beberapa penelitian mengenai topik tesis ini untuk bahasa Czech yang dibuat oleh Michael Collins, Jan Hajic dan beberapa rekannya [13]. Pembentukan pola tata bahasa untuk bahasa Inggris menggunakan metode probabilistik telah dibahas pada buku karangan Daniel Jurafsky dan James H. Martin terbitan tahun 2000 [17]. Pada buku tersebut penguraian dengan metode probabilistik (probabilistic parsing) digunakan untuk memilih pohon-pohon pola tata bahasa terbaik yang dibangkitkan dari teks masukan berisi kumpulan kalimat dalam bahasa Inggris. Pembangkitan pohon pola tata bahasa juga digunakan untuk membangkitkan pola tata bahasa Melayu Malaysia sebagai jenis bahasa yang serumpun dengan bahasa Indonesia [3]. Pada Penelitian tersebut pola tata bahasa telah didefinisikan dan pendefinisian fungsi nilai digunakan untuk memilih pohon yang terbaik dari pohon-pohon pola tata bahasa yang mungkin. Sebelumnya telah ada penelitian mengenai pengurai dengan metode probabilistik yang dilakukan oleh Ria Hari Gusmita dan Ruli Manurung [14]. Dalam penelitian tersebut digunakan sebuah perangkat PC-PATR. Sampai saat ini belum ada paper atau penelitian yang dipublikasikan secara resmi (telah mengikuti seminar paper) mengenai pengurai dengan metode statistik untuk bahasa Indonesia menggunakan pengurai Collins. Penelitian-penelitian yang mendukung pemrosesan dalam tesis ini juga telah dilakukan oleh Jelita Asian dengan tesisnya mengenai pemrosesan temu balik informasi bahasa Indonesia [2]. Representasi pohon pola tata bahasa dengan menggunakan probabilistic context-free grammar (PCFG) juga telah dibahas pada paper Mark Johnson [16].

Dari tesis ini, nantinya di masa depan dapat menjadi bagian dari sebuah sistem pemrosesan bahasa alami untuk bahasa Indonesia. Pekerjaan yang harus dilakukan selanjutnya setelah tesis ini adalah membuat komponen fungsi-fungsi lain yang belum diimplementasikan dan mendukung sebuah sistem pemrosesan bahasa alami untuk bahasa Indonesia. Sehingga bangsa ini nantinya akan memiliki sebuah mesin pemrosesan bahasa alami untuk bahasa Indonesia.

(3)

I.2 Rumusan Masalah

Rumusan masalah dalam tesis ini adalah sebagai berikut:

1. Bagaimana melakukan penyesuaian kumpulan file masukan dari pengurai Collins dengan bahasa Indonesia,

2. Bagaimana melakukan penentuan jenis kata (POS tagging) untuk bahasa Indonesia guna mendukung pemrosesan awal.

3. Bagaimana kinerja pengurai Collins setelah menerima masukan kumpulan

file hasil pemrosesan awal (apakah sudah cukup mampu

merepresentasikan pola tata bahasa Indonesia).

I.3 Tujuan

Tujuan dari tesis ini adalah sebagai berikut:

1. Mengimplementasikan pemrosesan awal kumpulan file masukan dari pengurai Collins menggunakan contoh-contoh teks yang berisi kumpulan kalimat berbahasa Indonesia; modul pemrosesan awal pengurai Collins akan diimplementasikan dalam sebuah program,

2. Mengimplementasikan POS tagging untuk bahasa Indonesia guna mendukung pemrosesan awal.

3. Melakukan evaluasi kinerja model pola tata bahasa yang dihasilkan;

hasil model pola tata bahasa akan dievalusi kinerjanya, apakah sudah sesuai dengan pola tata bahasa Indonesia baku.

I.4 Ruang Lingkup

Pekerjaan yang dilakukan dalam tesis ini yang akan dilaksanakan oleh penulis adalah:

1. Mengimplementasikan pemrosesan awal (preprocessing) dan penentuang jenis kata (POS tagging) untuk mempersiapkan kumpulan file masukan dari pengurai Collins dari file teks yang berisi kumpulan kalimat berbahasa Indonesia,

(4)

I.5 Batasan Masalah

Batasan-batasan pada tesis ini adalah:

1. Proses-proses yang dilakukan untuk pemrosesan awal (preprocessing) dan penentuan jenis kata (POS tagging) menggunakan jenis kalimat berbahasa Indonesia tanpa melibatkan ahli bahasa,

2. Tidak semua aturan grammar (tata bahasa) bahasa Indonesia dipakai dalam tesis ini.

3. Permasalahan ambiguitas penguraian kalimat tidak diujikan pada tesis ini.

I.6 Metode Penelitian

Tesis yang dilakukan adalah berupa penelitian dan membuat pemrosesan awal pengurai Collins untuk bahasa Indonesia. Metode yang dipergunakan dalam Tesis ini adalah sebagai berikut:

1. Studi literatur yang berkaitan dengan:

a. Penguraian dengan metode probabilistik (probabilistic parsing), digunakan untuk pembangkitan pohon-pohon pola tata bahasa, kemudian memilih yang terbaik dari pohon-pohon yang dibangkitkan untuk setiap kalimat. Setiap kalimat dapat menghasilkan lebih dari satu pohon pola tata bahasa (struktur kalimat) pada setiap proses pembangkitan,

b. Tata penulisan bahasa Indonesia yang terkait dengan penguraian probabilistik untuk bahasa Indonesia,

seperti kaidah makna imbuhan dan kata dasar agar diketahui jenis kata yang digunakan untuk membentuk model pola tata bahasa, c. Penelitian-penelitian terkait pemrosesan temu balik informasi

bahasa Indonesia dan tesis ini,

misalnya mengenai pemrosesan awal bagaimana sebuah kalimat dapat dibangkitkan pohon pola tata bahasanya dengan menggunakan pengurai Collins (meliputi proses penguraian kalimat sesuai kaidah bahasa Indonesia, proses penguraian kalimat

(5)

menjadi kumpulan kata, proses penentuan jenis kata, dan proses pembentukan pohon atau model pola tata bahasa),

2. Analisis masalah,

menganalisa proses-proses apa saja beserta cara kerjanya yang dibutuhkan untuk penguraian kalimat,

3. Implementasi metode dan algoritma untuk memodelkan pola tata bahasa Indonesia dari contoh-contoh teks yang berisi kumpulan kalimat berbahasa Indonesia,

4. Pengujian hasil implementasi metode dan algoritma untuk memodelkan pola tata bahasa Indonesia dengan menggunakan beberapa contoh teks yang terdiri dari kumpulan kalimat berbahasa Indonesia,

5. Evaluasi dan penarikan kesimpulan,

evaluasi kinerja pengurai Collins untuk bahasa Indonesia dan penarikan kesimpulan sebagai hasil dari penelitian yang dilakukan dalam tesis ini.

I.7 Sistematika Pembahasan

Laporan tesis ini berisi beberapa bab yang terdiri dari Pendahuluan, Tinjauan Pustaka, Penyesuaian Pengurai Collins untuk Bahasa Indonesia, Penentuan Jenis Kata (Part of Speech Tagging) untuk Bahasa Indonesia, Pengujian, dan Penutup. Penjelasan untuk tiap bab tersebut adalah sebagai berikut:

1. Bab Pendahuluan berisi penjelasan mengenai latar belakang ide judul, rumusan masalah, tujuan, ruang lingkup, batasan masalah, metodologi, dan sistematika pembahasan. Bab ini bertujuan untuk memudahkan pemanfaatan laporan tesis ini.

2. Bab Tinjauan Pustaka berisi bahasan penelitian-penelitian yang pernah dilakukan oleh orang lain sebelumnya dan berkaitan dengan topik tesis ini. 3. Bab Penyesuaian Pengurai Collins untuk Bahasa Indonesia berisi analisis

sistem pemrosesan awal (preprocessing) untuk menyesuaikan kumpulan file masukan pada pengurai Collins. Bab ini bertujuan untuk mempermudah memahami proses apa saja yang akan diimplementasikan.

(6)

bahasa Indonesia yang mendukung sistem pemrosesan awal (preprocessing) pada tesis ini.

5. Bab Pengujian berisi implementasi pengujian beserta hasil dan analisis hasil pengujian perangkat lunak.

6. Bab Penutup berisi kesimpulan hasil tesis ini dan saran untuk kedepannya yang terkait tesis ini.

Referensi

Dokumen terkait

Pendapatan Desa sebagaimana dimaksud dalam Pasal 71 ayat (2) bersumber dari pendapatan asli Desa terdiri atas hasil usaha, hasil aset, swadaya dan partisipasi, gotong

Tinea pedis adalah infeksi dermatofita pada kaki terutama mengenai sela jari kaki dan telapak kaki, dengan lesi terdiri dari beberapa tipe, bervariasi dari ringan, kronis

algoritma kompresi LZW akan membentuk dictionary selama proses kompresinya belangsung kemudian setelah selesai maka dictionary tersebut tidak ikut disimpan dalam file yang

[r]

- SAHAM SEBAGAIMANA DIMAKSUD HARUS DIMILIKI OLEH PALING SEDIKIT 300 PIHAK & MASING2 PIHAK HANYA BOLEH MEMILIKI SAHAM KURANG DARI 5% DARI SAHAM DISETOR SERTA HARUS DIPENUHI

Oleh karena itu, peristiwa turunnya Al Qur’an selalu terkait dengan kehidupan para sahabat baik peristiwa yang bersifat khusus atau untuk pertanyaan yang muncul.Pengetahuan

anita usia subur - cakupan yang tinggi untuk semua kelompok sasaran sulit dicapai ;aksinasi rnasai bnntuk - cukup potensial menghambat h-ansmisi - rnenyisakan kelompok

Hasil penelitian menunjukkan bahwa penggunaan bahasa Indonesia dalam publikasi tersebut belum memuaskan karena terdapat beberapa kesalahan, seperti kesalahan penulisan kata