Penerapan Metode Power Spektrum pada Proses Konversi
Suara Ucapan menjadi Teks
TUGAS AKHIR
Oleh:
Yoga Arifianto 1208 100 018
Pembimbing:
Drs. Nurul Hidayat, M. Kom 19630404 198903 1 002
CONTENTS
Pendahuluan Tinjauan Pustaka Metode Penelitian
Perancangan &
Implementasi Sistem
Implementasi & Uji Coba
Perangkat Lunak Penutup
1 2 3
4 5 6
PENDAHULUAN
Bab 1
Latar Belakang
• Pengenalan suara ucapan memungkinkan perangkat mengenali dan memahami kata-kata yang diucapkan.
• Dilakukan dengan digitalisasi ucapan dan
mencocokkan sinyal ucapan dengan pola tertentu dalam perangkat.
• Hasil identifikasi diproses sistem untuk melakukan pekerjaan yang diinginkan manusia.
Bab 1 Pendahuluan 5
Latar Belakang
• Dimulai sejak 1940 oleh AT & T. Berhasil menciptakan perangkat pengenal kata
• Pada 1960-an, penelitian berhasil
mengidentifikasi kata-kata yang berbeda.
• 1970-an, dihasilkan perangkat yang dapat mengenali ucapan secara kontinu.
• Penelitian terus berkembang hingga saat ini.
Perkembangan Alat Pengenal Ucapan
Bab 1 Pendahuluan 6
American Telephone &
Telegraph Company
Latar Belakang
Penelitian oleh CMU beserta anggota Sphinx Group (MIT, USCS, Sun
Microsystem, MERL, dan HP Laboratory) berhasil menghasilkan perangkat untuk identifikasi ucapan (1999).
Perkembangan Alat Pengenal Ucapan
Bab 1 Pendahuluan 7
Latar Belakang
• Keterbatasan: Bahasa yang dikembangkan awalnya hanya Bahasa Inggris.
• Belum tersedia dalam Bahasa Indonesia
Perkembangan Alat Pengenal Ucapan
Bab 1 Pendahuluan 8
Latar Belakang
• Dalam Tugas akhir dikembangkan aplikasi pengenal ucapan.
• Aplikasi berfungsi mengkonversi suara ucapan menjadi teks.
• Digunakan Bahasa Indonesia
• Digunakan metode Power Spektrum dalam Sphinx
Bab 1 Pendahuluan 9
Latar Belakang
• Kata-kata yang diucapkan bisa dikonversi menjadi teks oleh sistem.
• Perangkat bisa menggantikan fungsi
keyboard, sehingga pengetikan lebih cepat.
Bab 1 Pendahuluan 10
Rumusan Masalah (1)
Bab 1 Pendahuluan 11
Rumusan Masalah (2)
Bab 1 Pendahuluan 12
Batasan Masalah
1. Parameter Input Gelombang Suara:
• Sampling rate audio : 16 KHz
• Jumlah bit rate : 16
• Channel audio : mono
Bab 1 Pendahuluan 13
Batasan Masalah
2. Perintah berupa kata/kalimat yang sudah ditentukan
3. Suara untuk proses Training dan Testing menggunakan suara Penulis.
Bab 1 Pendahuluan 14
4. Kata-kata berbahasa Indonesia
Tujuan
1. Mendapat rancangan sistem pengenal suara ucapan untuk konversi suara ucapan menjadi teks
2. Perangkat lunak untuk konversi suara ucapan menjadi teks berhasil diimplementasikan
Bab 1 Pendahuluan 15
1. Mengembangkan Sistem Pengenal Suara Ucapan dalam Bahasa Indonesia
Bab 1 Pendahuluan 16
Manfaat
Manfaat
2. Memudahkan penulisan dokumen
Bab 1 Pendahuluan 17
Manfaat
3. Memperlancar komunikasi dengan tunarungu
Bab 1 Pendahuluan 18
Manfaat
4. Membantu anak yang kesulitan baca tulis
Bab 1 Pendahuluan 19
Manfaat
5. Menggantikan notulensi manual
Bab 1 Pendahuluan 20
Manfaat
6. Dikembangkan untuk mengontrol perangkat komputer
Bab 1 Pendahuluan 21
Manfaat
7. Dikembangkan untuk menulis email & SMS via ucapan
Bab 1 Pendahuluan 22
Manfaat
8. Membantu pembelajaran baca tulis untuk anak- anak
Bab 1 Pendahuluan 23
TINJAUAN PUSTAKA
Bab 2
Bab 2 Tinjauan Pustaka 2
Studi Penelitian (1)
• Pengenalan ucapan (kata) dengan Bahasa Hindi (2008)
• Metode : Power Spektrum & HMM
• Hasil penelitian: akurasi mencapai 83.24%
• Jenis kata: terbatas angka dalam Bahasa Hindi
• Uji coba : pengucapan per kata
Ripul Gupta
25
“Speech Recognition for Hindi”
Studi Penelitian (2)
• Pengenalan ucapan (kata) dengan Bahasa Bangla (2010)
• Metode : Power Spektrum & HMM dalam SPHINX
• Jumlah objek kata yang diteliti : 30
• Akurasi pengenalan ucapan : 86.79%
• Penelitian hanya menggunakan Bahasa
Bangla, sehingga Bahasa Indonesia tidak bisa dikenali
Shammur Absar Chowdbury
Bab 2 Tinjauan Pustaka 226
“Implementation of Speech Recognition System for Bangla”
Studi Penelitian (3)
• Penelitian tentang pengenalan ucapan dengan Bahasa Indonesia (2011)
• Metode : Power Spektrum & HMM dalam SPHINX
• Menggunakan Acoustic Model berbasis Bahasa Inggris.
• Jumlah objek kata yang diteliti : 100
• Akurasi pengenalan kata & kalimat : 63.33% dan 49.32%
Very Ferdiansyah
Ayu Purwarianti, ST, MT, Ph.D
Bab 2 Tinjauan Pustaka 227
“Indonesian Automatic Speech Recognition System using English-Based Acoustic Model”
Dasar Teori
Diagram Proses Konversi Suara Ucapan menjadi Teks
Bab 2 Tinjauan Pustaka 228
Akuisisi Suara Ekstraksi Ciri Proses Pengenalan Suara Ucapan
Dasar Teori
1. Akuisisi Suara Ucapan
Sinyal suara akan dideteksi melalui microphone agar bisa diproses
dalam Ekstraksi Ciri.
Bab 2 Tinjauan Pustaka 229
Dasar Teori
2. Ekstraksi Ciri
• Mengurangi jumlah data pada sinyal suara dengan tetap mempertahankan nilai atau feature tertentu yang membedakan pola suara input.
• Proses dalam Ekstraksi Ciri: Pre-emphasis, Windowing, Power Spectrum, Mel Spectrum, dan Mel Cepstrum
Bab 2 Tinjauan Pustaka 230
Dasar Teori
2.1 Pre-emphasis
Pre-emphasis filter diaplikasikan pada input berupa gelombang suara.
y = input suara
x = input suara sebelumnya n = indeks input
α (konstanta pre-emphasis) = 0.97
Bab 2 Tinjauan Pustaka 231
Dasar Teori
2.2 Windowing
Digunakan metode Hamming Window
w = window
n = panjang window N = panjang frame
Bab 2 Tinjauan Pustaka 232
Dasar Teori
2.3 Power Spektrum
Power Spectrum setiap frame dihitung dengan TFD.
Lalu dihitung magnitude kuadrat dari Power Spektrum
S = magnitude
Bab 2 Tinjauan Pustaka 233
Dasar Teori
2.4 Mel Spectrum
Mel Spectrum dari Power Spectrum dihitung dengan mengalikan tiap triangular mel weighting filters dengan magnitude kuadrat dari Power Spektrum
= nilai mel Spectrum
= magnitude
M = triangular mel weighting filters
L = jumlah banyaknya triangular mel weigting filters
Bab 2 Tinjauan Pustaka 234
Dasar Teori
2.5 Mel Cepstrum
Transformasi Cosinus Diskrit diterapkan dalam logaritma natural mel spectrum untuk mendapat mel cepstrum
c = mel cepstrum
= nilai mel Spectrum 2L = periode
C = jumlah cepstral coefficient
Bab 2 Tinjauan Pustaka 235
Dasar Teori
3. Pengenalan Pola Suara Ucapan
Bab 2 Tinjauan Pustaka 236
Language Model
Acoustic Model
Teks Hasil Ekstraksi Ciri
Dasar Teori
Memodelkan hasil training secara statistik
Template
Bab 2 Tinjauan Pustaka 237
Dasar Teori
Dasar Teori
Berfungsi untuk membatasi proses pencarian & pengenalan
suara ucapan
Bab 2 Tinjauan Pustaka 238
Dasar Teori
4. CMU-Sphinx
Sphinx-4 diciptakan anggota Sphinx group :
• Carnegie Mellon University,
• Sun Microsystems Laboratories,
• Mitsubishi Electric Research Labs (MERL),
• Hewlett Packard (HP)
• kontribusi dari University of California di Santa Cruz (UCSC) dan Massachusetts Institute of Technology (MIT)
Bab 2 Tinjauan Pustaka 239
Dasar Teori
4. CMU-Sphinx
• Sphinx-4 Adalah SPSU berbasis Power Spectrum dan HMM
• Digunakan untuk penelitian tentang Suara Ucapan
Bab 2 Tinjauan Pustaka 240
Dasar Teori
4.1 Arsitektur Sphinx-4
2 Application
input Control Result Instrumentation
FrontEnd
Acoustic Model Dictionary Language Model ActiveList
Scorer
Feature SearchGraph
Conf. Manager
Linguist Decoder
SearchManager Recognizer
Pruner
41
METODE PENELITIAN
Bab 3
Metode Penelitian
Bab 3 Metode Penelitian 43
Analisis Sistem
Perancangan Sistem dan Perangkat Lunak
Implementasi Perangkat Lunak
Persiapan Data dan Training Data
Uji Coba dan Evaluasi
PERANCANGAN &
IMPLEMENTASI SISTEM
Bab 4
Persiapan Lingkungan Sistem
1. Microphone Philips SHM 1600 2. Notebook Acer 4736 Series
• Processor Core 2 Duo @2.20 GHz
• RAM 2GB
Spesifikasi Hardware
Bab 4 Perancangan & Implementasi Sistem 45
Persiapan Lingkungan Sistem
1. Sistem Operasi Debian GNU/Linux 6.0 (Squeeze) 2. Java sebagai compiler
3. Wavesurfer 4. Perl
5. C++
6. Sphinx component
• Sphinxtrain (tools untuk acoustic modelling)
• CMU-CLMTK (tools untuk training language model)
Spesifikasi Software (Training)
Bab 4 Perancangan & Implementasi Sistem 46
Persiapan Lingkungan Sistem
1. Sistem Operasi Windows 7 Home Premium 2. Java sebagai compiler
3. Netbeans IDE
Spesifikasi Software (Testing)
Bab 4 Perancangan & Implementasi Sistem 47
Sistem Konversi Suara Ucapan menjadi Teks
Bab 4 Perancangan & Implementasi Sistem 48
TRAINER
DECODER Language
Dictionary Transcription File Filler Dictionary
Wav Files
Acoustic Model
Teks
Language Model Speech Signal
Persiapan Data
1. Sumber: BSE “Aku Bisa Bahasa Indonesia” untuk kelas 1 SD/MI + kata tambahan.
2. Terdiri dari 219 kata berbeda.
Data Teks
Bab 4 Perancangan & Implementasi Sistem 49
Persiapan Data
1. File audio tiap kata disimpan dalam format .wav 2. Setiap file .wav diberi nama dengan format:
<ID pemilik suara>_<ID kata>
Speech Corpus (Proses Perekaman)
Bab 4 Perancangan & Implementasi Sistem 50
Persiapan Data
1. Untuk merepresentasikan kata dalam file audio . 2. Format:
<s> kata </s> (nama file)
Transcription File
Bab 4 Perancangan & Implementasi Sistem 51
Persiapan Data
Transcription File
Bab 4 Perancangan & Implementasi Sistem 52
Persiapan Data
1. File yang berisi setiap pasangan kata + lafal 2. File disimpan dengan ekstensi .dic
Pronunciation Dictionary
Bab 4 Perancangan & Implementasi Sistem 53
Persiapan Data
Pronunciation Dictionary
Bab 4 Perancangan & Implementasi Sistem 54
Persiapan Data
1. Mendeskripsikan peluang kata dipanggil saat kata/kalimat diucapkan.
2. Berfungsi untuk membatasi proses pencarian &
pengenalan suara ucapan
3. Format yang digunakan adalah format ARPA.
Language Model
Bab 4 Perancangan & Implementasi Sistem 55
Persiapan Data
Language Model
Bab 4 Perancangan & Implementasi Sistem 56
Persiapan Data
1. File teks yang mengandung semua nama file audio untuk proses training.
2. Nama file teks_final_train.fields
Control File
Bab 4 Perancangan & Implementasi Sistem 57
Persiapan Data
Control File
Bab 4 Perancangan & Implementasi Sistem 58
Persiapan Data
1. Merupakan Language Dictionary yang berisi non- speech sounds.
Contoh:
Filler Dictionary
Bab 4 Perancangan & Implementasi Sistem 59
Persiapan Data
1. Teks sederhana untuk memberi penjelasan pada trainer bahwa fonem yang dicantumkan merupakan bagian
dari file training.
2. Terdiri dari satu fonem tiap baris
Phone File
Bab 4 Perancangan & Implementasi Sistem 60
Persiapan Data
Phone File
Bab 4 Perancangan & Implementasi Sistem 61
File yang diperlukan untuk training:
• Teks_final.dic
• Teks_final.filler
• Teks_final.phone
• Teks_final_train.fields
• Teks_final_train.transcription
• File .wav representasi dari kata
Training Sistem
Bab 4 Perancangan & Implementasi Sistem 62
Training Sistem
Data Suara untuk Training
Bab 4 Perancangan & Implementasi Sistem 63
1599
1225 219
File suara
detik kata
75
38 3
detik filler
File suara
Speech Non-Speech
Desain Antarmuka Perangkat Lunak
Bab 4 Perancangan & Implementasi Sistem 64
IMPLEMENTASI & UJI COBA PERANGKAT LUNAK
Bab 5
Implementasi Perangkat Lunak
outptSTT
keterangan
btnSimpanTeks
Bab 5 Implementasi & Uji Coba Perangkat Lunak 66
Hasil Konversi Suara Ucapan menjadi Teks
Bab 5 Implementasi & Uji Coba Perangkat Lunak 67
A3
Slide 67
A3 Sebaiknya dihapus. Diganti dengan DEMO!
Arifianto, 1/6/2013
Uji Coba
Perangkat Lunak
• Jumlah objek penelitian:
133 kata 67 kalimat
• Jumlah percobaan tiap objek : 30x
Bab 5 Implementasi & Uji Coba Perangkat Lunak 68
6570
5675
86.4%
percobaan
akurat
Bab 5 Implementasi & Uji Coba Perangkat Lunak 69
Uji Coba Pengucapan Kata
Bab 5 Implementasi & Uji Coba Perangkat Lunak 70
Uji Coba Pengucapan Kata
2940
1728
58.8%
percobaan
akurat
Bab 5 Implementasi & Uji Coba Perangkat Lunak 71
Uji Coba Pengucapan Kalimat
Bab 5 Implementasi & Uji Coba Perangkat Lunak 72
Uji Coba Pengucapan Kalimat
Evaluasi
Hasil Uji Coba Sistem
1. Perbedaan akurasi pengenalan tiap kata & kalimat 2. Akurasi pengenalan dipengaruhi:
• Acoustic model
• Language model
• Tingkat kemiripan pengucapan kata
Bab 5 Implementasi & Uji Coba Perangkat Lunak 73
Kesalahan Pengenalan Sistem
Kata yang diucapkan Kata yang dikenali
adik pagi
enter pintar
Ke eko
Kalimat yang diucapkan Kalimat yang dikenali Nama adik saya gilang Nama pagi saya gilang
Ani sering pergi ke perpustakaan Ani sore pagi pak perpustakaan
Bab 5 Implementasi & Uji Coba Perangkat Lunak 74
Evaluasi Hasil Uji Coba
90.2% 65.2%
Pengenalan kata Pengenalan kalimat
>
Bab 5 Implementasi & Uji Coba Perangkat Lunak 75
Evaluasi Hasil Uji Coba
PENUTUP
Bab 6
Kesimpulan
Akuisisi Sinyal
Suara Ucapan Ekstraksi Ciri
1. Proses Konversi Suara Ucapan menjadi Teks
Pengenalan Pola Suara Ucapan
Bab 6 Penutup 77
Kesimpulan
86.4%
2. Tingkat Keberhasilan Pengenalan 219 kata dan 98 kalimat
58.8%
Pengucapan kata Pengucapan kalimat
Bab 6 Penutup 78
Kesimpulan
3. Akurasi pengenalan dipengaruhi:
• Acoustic model
• Language model
• Tingkat kemiripan pengucapan kata
Bab 6 Penutup 79
4. Sistem Konversi Suara Ucapan berhasil
diimplementasikan dalam perangkat lunak yang user friendly.
Saran
1. Untuk menghasilkan pengenalan suara yang maksimal, butuh jumlah data dan peneliti yang besar. Disarankan penelitian dilakukan dalam sebuah tim.
Bab 6 Penutup 80
Data training yang diperlukan:
• Acoustic Model, Language Model yang tepat.
• Data suara ucapan yang berasal dari peneliti dengan jenis kelamin, umur, daerah yang berbeda-beda.
Saran
Power Spectum Power Spectum
Bispectrum Bispectrum
Trispectrum Trispectrum
Bab 6 Penutup 81
2. Pengembangan Metode :
Saran
3. Meningkatkan akurasi dengan cara menggunakan microphone yang berkualitas tinggi.
Bab 6 Penutup 82
Saran
4. Mengembangkan penelitian dengan mengubah metode ekstraksi ciri maupun pengenalan pola ucapan dalam Sphinx-4.
Bab 6 Penutup 83
Saran
5. Meningkatkan nilai tambah penelitian dengan cara:
• membuat aplikasi konversi suara ucapan dalam berbagai perangkat pengolah kata (Ms. Office, dll)
• Membuat aplikasi notulensi otomatis.
Bab 6 Penutup 85
Daftar Pustaka
[1] Bachtiar, Irfan Syafur. 2007. Aplikasi Pengenalan Wicara HMM untuk Kendali Robot PDA. Surabaya: Politeknik Elektronika Negeri Surabaya.
[2] Chowdhury, Shammur Absar. 2010. Implementation of Speech Recognition System for Bangla. Dhaka: School of Engineering and Computer Science BRAC University.
[3] Ferdiansyah, Veri dan Purwarianti, Ayu. 2011. "Indonesian Automatic Speech Recognition System Using English-Based Acoustic Model". Bandung: Institut Teknologi Bandung
[4] Gupta, Ripul. 2005. Speech Recognition for Hindi. Mumbai:
Indian Institute of Technology
Bab 6 Penutup 84
Daftar Pustaka
[5] LumenVox. History of Speech Recognition.
http://www.lumenvox.com/resources/tips/
historyOfSpeechRecognition.aspx (diakses tanggal 19 Oktober 2012).
[6] Mustofa, Ali. "Sistem Pengenalan Penutur dengan metode Mel- frequency Wrapping". Jurnal Teknik Elektro. Vol.7, No.2.pp 88- 96, 2007.
[7] Seltzer, Michael. 1999. SPHINX III Signal Processing Front End Specification. Oakland: CMU Speech Group.
[8] Sigurdsson, S., dkk. 2006. "Mel Frequency Cepstral Coeffcient:
An Evaluation of Robustness of MP3 Encoded Music". Lyngby:
University of Denmark.
[9] Walker, Willie, dkk. 2004. Sphinx-4: A Flexible Open Source Framework for Speech Recognition. Oakland: Sun Microsystem.
[10] Young, Steve, dkk. 2009. The HTK Book. Cambridge:
Cambridge University Engineering Department.
Bab 6 Penutup 85