• Tidak ada hasil yang ditemukan

1. BAB I PENDAHULUAN 1.1. Latar Belakang

N/A
N/A
Protected

Academic year: 2022

Membagikan "1. BAB I PENDAHULUAN 1.1. Latar Belakang"

Copied!
6
0
0

Teks penuh

(1)

1

1. BAB I

PENDAHULUAN

1.1. Latar Belakang

Riset di bidang sistem pengenalan ucapan otomatis (Automatic Speech Recognition) merupakan salah satu riset yang banyak ditekuni dan terus dikembangkan hingga saat ini. Riset tersebut telah diteliti dan dikembangkan sejak lebih dari empat dekade lalu (Rabiner dan Juang, 1993). Salah satu tujuan dari pengembangannya adalah untuk menciptakan era baru dalam interaksi antara manusia dengan komputer, yang selama ini lebih banyak dilakukan dengan tangan atau jari, menjadi lebih mudah dengan hanya mengucapkan suatu kata atau kalimat tertentu.

Saat ini, riset di bidang speech recognition telah dilakukan dalam beberapa bahasa, seperti Bahasa Arab, Malaysia, Mandarin, Inggris, Indonesia, dll, tetapi riset untuk Bahasa Indonesia masih tergolong sedikit dibandingkan dengan bahasa- bahasa lain seperti Bahasa Arab dan Mandarin. Hal ini ditunjukkan dengan perbandingan jumlah publikasi riset ASR antara Bahasa Indonesia, Malaysia, Arab, Mandarin, dan Inggris pada situs IEEE Xplore (http://www.ieeeexplorer.ieee.org) yang diakses pada Agustus 2014 yakni 21, 72, 319, 608, dan 1036.

Beberapa riset di bidang speech recognition pada Bahasa Indonesia, antara lain membahas tentang pengembangan sistem Large Vocabulary Continuous Speech Recognition (LVCSR) untuk Bahasa Indonesia (Lestari dkk., 2006), pengenalan suku kata pada Bahasa Indonesia (Abriyono, 2011), pengenalan vokal pada Bahasa Indonesia (Sitanggang, 2002), dan pengenalan suara untuk SMS dictation (Suyanto dkk, 2012). Hal ini menunjukkan bahwa masih banyak area riset di bidang speech recognition pada Bahasa Indonesia, sehingga pada penelitian ini diusulkan topik mengenai sistem pengenalan ucapan otomatis untuk mengenali pengucapan angka di dalam Bahasa Indonesia.

Beberapa metode yang sering dipakai pada riset di bidang speech recognition antara lain Hidden Markov Model (HMM) dan Artificial Neural Network (ANN).

(2)

Kedua metode tersebut mampu memberikan performa yang memuaskan pada bidang speech recognition dengan akurasi rata-rata di atas 90%. Merujuk pada penelitian-penelitian yang telah dilakukan oleh El Choubassi dkk. (2003), Ismail dan Manan (2004), Venkateswarlu dkk. (2011), dan terutama oleh Alotaibi (2004, 2008) yang telah berhasil membandingkan performa antara HMM dan Elman Recurrent Neural Network (ERNN) pada pengenalan ucapan angka Bahasa Arab, maka pada penelitian ini diusulkan metode ERNN yang telah terbukti mampu menghasilkan akurasi 99,5%, lebih baik daripada akurasi yang diperoleh HMM, yakni sebesar 98,1% pada penelitian yang dilakukan oleh Alotaibi tersebut.

Modifikasi yang dilakukan pada penelitian ini, yakni menggunakan Particle Swarm Optimization (PSO) pada proses pelatihan ERNN. Hal ini merujuk pada hasil penelitian yang dilakukan oleh Aziz dkk. (2008) yang melakukan riset untuk mengidentifikasi ada tidaknya penyakit kanker pada manusia menggunakan ERNN yang dilatih oleh PSO. Kesimpulan riset tersebut menyatakan bahwa PSO mampu memberikan hasil pelatihan ERNN yang lebih baik dibandingkan dengan metode pelatihan konvensional seperti backpropagation maupun optimasi bobot melalui Genetic Algorithm (GA). Oleh karena itu, PSO diharapkan mampu memberikan performa yang optimal pada proses pelatihan ERNN untuk mengenali sinyal suara.

1.2. Rumusan Masalah

Rumusan masalah dalam penelitian ini adalah:

1) Bagaimana membangun sistem pengenalan suara untuk mengenali pengucapan angka dalam Bahasa Indonesia menggunakan ERNN sebagai recognizer.

2) Bagaimana mendesain parameter PSO untuk melakukan proses pelatihan terhadap ERNN pada penelitian ini.

3) Bagaimana perbandingan performa antara PSO dengan algoritma Backpropagation dalam melakukan proses pelatihan ERNN untuk mengenali sinyal ucapan angka dalam Bahasa Indonesia.

(3)

1.3. Batasan Masalah

1) Ucapan yang dikenali adalah angka dalam Bahasa Indonesia, yakni angka 0 s.d.

angka 9. Angka 0 tidak diucapkan dengan kata “kosong”, tetapi menggunakan kata “nol”.

2) Data suara yang digunakan diperoleh dari hasil rekaman terhadap 20 orang pembicara pribumi (native speaker) yang terdiri dari 10 orang laki-laki dan 10 orang perempuan. Setiap pembicara mengucapkan setiap angka sebanyak 5 kali, sehingga akan dihasilkan sebanyak 1000 sampel suara (10 angka x 20 orang x 5 kali pengucapan).

3) Data suara yang telah direkam dipotong per angka secara manual untuk meminimalisasi kesalahan dalam pemotongan sinyal ucapan.

4) Pengujian sistem menggunakan data suara yang direkam dalam kondisi lingkungan yang tenang (low noisy environment).

1.4. Tujuan dan Manfaat Penelitian

Tujuan dari penelitian ini adalah membuat sistem pengenalan ucapan untuk angka dalam Bahasa Indonesia yang mampu mengenali sinyal suara yang diucapkan, serta mengetahui performa PSO dalam mengoptimalkan bobot ERNN.

Penelitian ini diharapkan bisa memberikan beberapa manfaat, antara lain sebagai berikut:

1) Hasil penelitian dapat diimplementasikan pada aplikasi sehari-hari yang membutuhkan input berupa angka.

2) Hasil penelitian dapat membuka jalan untuk pengembangan riset di bidang serupa.

3) Hasil penelitian akan memperbanyak ragam metode yang digunakan di bidang speech recognition, sehingga akan ada komparasi antara metode-metode yang pernah digunakan di bidang tersebut.

(4)

1.5. Metode Penelitian

Tahapan-tahap yang dilakukan dalam penelitian ini adalah sebagai berikut:

1) Studi pustaka dan literatur

Studi kepustakaan dilakukan dengan mencari referensi-referensi valid, baik dari jurnal, prosiding, maupun buku teks. Studi kepustakaan yang dilakukan mencakup dua hal. Pertama, mencari dan menelaah referensi-referensi terkait penelitian di bidang Automatic Speech Recognition (ASR) beserta metode- metode yang diterapkannya. Kedua, mencari dan menelaah referensi-referensi terkait penggunaan konsep Particle Swarm Optimization untuk mengoptimasi arsitektur Artificial Neural Network (ANN).

2) Proses perekaman suara

Proses ini dilakukan dengan merekam suara pembicara yang terdiri dari 10 orang pria dan 10 orang wanita. Masing-masing orang akan diminta mengucapkan sepuluh buah bilangan dalam Bahasa Indonesia (0-9) secara perlahan sebanyak lima kali perulangan, artinya jumlah sampel suara yang akan diperoleh adalah sebanyak 1000 sampel suara (20 orang x 10 angka x 5 perulangan). Perekaman dilakukan di ruangan tertutup (dengan tingkat kebisingan yang rendah) menggunakan aplikasi Audacity.

3) Penyiapan basis data suara (speech corpus)

Proses ini dilakukan dengan melakukan segmentasi sinyal suara untuk setiap kata/ angka, lalu mengekstrak cirinya menggunakan metode MFCC, kemudian menyimpan koefisien-koefisien MFCC tersebut ke dalam berkas yang terbagi menjadi dua bagian, yakni berkas untuk data latih dan berkas untuk data uji.

4) Analisis dan perancangan sistem

Sistem ASR yang dibangun dibuat ke dalam dua buah modul, yakni modul pelatihan (training modul) dan modul pengujian (testing modul). Training modul berisi proses pre-processing untuk melakukan normalisasi sinyal dan melakukan framing awal pada sinyal agar meringankan proses komputasi berikutnya, selanjutnya sinyal suara tersebut diolah pada proses emphasizing dan kemudian windowing, lalu dilakukan transformasi sinyal ke domain frekuensi

(5)

menggunakan Discrete Fourier Transform (DFT). Kemudian, dilakukan proses feature extraction pada sinyal hasil pre-processing menggunakan metode MFCC. Sejumlah koefisien yang dihasilkan pada proses MFCC tersebut selanjutnya menjadi input bagi proses berikutnya, yakni optimasi ERNN oleh PSO. Pada proses optimasi ini, modul PSO berfungsi untuk mengoptimasi bobot-bobot jaringan (melakukan proses pelatihan (training)) ERNN. Keluaran dari proses optimasi oleh PSO ini menghasilkan sebuah jaringan ERNN yang siap digunakan pada testing modul.

Kemudian, pada testing modul, alur prosesnya mirip dengan proses pada training modul, perbedaan hanya terdapat pada proses setelah feature extraction.

Sejumlah koefisien MFCC yang dihasilkan pada proses feature extraction menjadi input bagi ERNN untuk menghasilkan output berupa teks dari ucapan yang diterima oleh sistem.

5) Implementasi

Sistem yang dirancang diimplementasikan menggunakan software Matlab 7.11.0 (R2010b).

6) Pengujian dan pembahasan

Sistem ERNN dilatih menggunakan PSO dengan beberapa variasi jumlah data, yakni 100, 250, dan 500 data latih. Total keseluruhan data adalah 1000 (20 orang x 10 digit x 5 kali pengucapan). Setelah sistem dilatih, sistem diuji menggunakan data uji yang merupakan sisa data yang tidak digunakan untuk proses pelatihan.

Performa sistem dibandingkan dengan metode pelatihan konvensional, yakni metode Back Propagation.

1.6. Sistematika Penelitian

BAB I PENDAHULUAN

Bab ini berisi latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan dalam penyusunan tesis ini.

(6)

BAB II TINJAUAN PUSTAKA

Bab ini berisi hasil kajian terhadap penelitian-penelitian sebelumnya yang berkaitan isolated speech recognition dan optimasi ANN menggunakan PSO, sebagai bahan referensi dalam penelitian ini.

BAB III LANDASAN TEORI

Bab ini berisi uraian dasar teori yang berkaitan dengan penelitian ini yang digunakan untuk menyelesaikan permasalahan dalam penelitian ini.

BAB IV ANALISIS DAN PERANCANGAN SISTEM

Bab ini berisi analisis dan perancangan sistem yang digunakan sebagai acuan dalam penyelesaian masalah, serta rancangan pelatihan dan pengujian yang akan dilakukan dalam penelitian.

BAB V IMPLEMENTASI

Bab ini berisi kode program dari analisis dan perancangan yang telah diuraikan pada bagian sebelumnya.

BAB VI HASIL DAN PEMBAHASAN

Bab ini berisi hasil dan pembahasan pengujian (analisis hasil percobaan) penelitan yang telah dilakukan.

BAB VII KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dari penelitian yang telah dilakukan dan saran untuk penelitian selanjutnya.

Referensi

Dokumen terkait

Artikel dari rubrik Medien menjadi fokus penelitian karena penggunaan kata-kata bahasa Inggris dalam artikel tersebut memiliki bentuk kata yang beragam dan menarik

Sementara itu verba memakai dalam bahasa Indonesia memiliki 6 makna yang berbeda, maka perlu adanya analisis untuk mencari kata yang memiliki relasi kedekatan makna dengan

Bila dilihat berdasarkan tujuannya, bahasa memiliki fungsi artistik yaitu sebagai alat untuk menyampaikan rasa estetis (keindahan) manusia melalui seni sastra. Alat yang

Apakah model penentuan intonasi secara otomatis pada sintesis ucap- an (text-to-speech) dalam Bahasa Indonesia yang melibatkan pola intonasi dari rekaman suara kalimat dapat dibuat

Manfaat tersebut berupa pemahaman tentang jenis afiks pada kata majemuk bahasa Indonesia, pemahaman tentang macam kategori pada kata majemuk bahasa Indonesia, dan

Dalam pembelajaran bahasa Indonesia pada materi menemukan gagasan utama suatu teks yang dibaca dengan kecepatan 75 kata permenit dengan menerapkan metode quantum

Alasan peneliti memilih judul dan pembahasan ini dikarenakan dalam KUHP RI banyak terdapat kata-kata serapan khususnya dari Bahasa Arab serta pendayagunaan kata dan ketepatan

Pengertian kata dispensasi menurut Kamus Besar Bahasa Indonesia adalah pengecualian dari aturan karena adanya pertimbangan yang khusus; pembebasan dari suatu kewajiban atau larangan;