Penerapan Metode Power Spektrum pada Proses Konversi Suara Ucapan menjadi Teks

(1)

(2)

Penerapan Metode Power Spektrum pada Proses Konversi

Suara Ucapan menjadi Teks

TUGAS AKHIR

Oleh:

Yoga Arifianto 1208 100 018

Pembimbing:

Drs. Nurul Hidayat, M. Kom 19630404 198903 1 002

(3)

1 2 3

4 5 6

(4)

PENDAHULUAN

Bab 1

(5)

Latar Belakang

• Pengenalan suara ucapan memungkinkan perangkat mengenali dan memahami kata-kata yang diucapkan.

• Dilakukan dengan digitalisasi ucapan dan

mencocokkan sinyal ucapan dengan pola tertentu dalam perangkat.

• Hasil identifikasi diproses sistem untuk melakukan pekerjaan yang diinginkan manusia.

Bab 1 Pendahuluan 5

(6)

Latar Belakang

• Dimulai sejak 1940 oleh AT & T. Berhasil menciptakan perangkat pengenal kata

• Pada 1960-an, penelitian berhasil

mengidentifikasi kata-kata yang berbeda.

• 1970-an, dihasilkan perangkat yang dapat mengenali ucapan secara kontinu.

• Penelitian terus berkembang hingga saat ini.

Perkembangan Alat Pengenal Ucapan

Bab 1 Pendahuluan 6

American Telephone &

Telegraph Company

(7)

Latar Belakang

Penelitian oleh CMU beserta anggota Sphinx Group (MIT, USCS, Sun

Microsystem, MERL, dan HP Laboratory) berhasil menghasilkan perangkat untuk identifikasi ucapan (1999).

Perkembangan Alat Pengenal Ucapan

Bab 1 Pendahuluan 7

(8)

Latar Belakang

• Keterbatasan: Bahasa yang dikembangkan awalnya hanya Bahasa Inggris.

• Belum tersedia dalam Bahasa Indonesia

Perkembangan Alat Pengenal Ucapan

Bab 1 Pendahuluan 8

(9)

Latar Belakang

• Dalam Tugas akhir dikembangkan aplikasi pengenal ucapan.

• Aplikasi berfungsi mengkonversi suara ucapan menjadi teks.

• Digunakan Bahasa Indonesia

• Digunakan metode Power Spektrum dalam Sphinx

Bab 1 Pendahuluan 9

(10)

Latar Belakang

• Kata-kata yang diucapkan bisa dikonversi menjadi teks oleh sistem.

• Perangkat bisa menggantikan fungsi

keyboard, sehingga pengetikan lebih cepat.

Bab 1 Pendahuluan 10

(11)

Rumusan Masalah (1)

(12)

Rumusan Masalah (2)

(13)

Batasan Masalah

1. Parameter Input Gelombang Suara:

• Sampling rate audio : 16 KHz

• Jumlah bit rate : 16

• Channel audio : mono

(14)

Batasan Masalah

2. Perintah berupa kata/kalimat yang sudah ditentukan

3. Suara untuk proses Training dan Testing menggunakan suara Penulis.

4. Kata-kata berbahasa Indonesia

(15)

Tujuan

1. Mendapat rancangan sistem pengenal suara ucapan untuk konversi suara ucapan menjadi teks

2. Perangkat lunak untuk konversi suara ucapan menjadi teks berhasil diimplementasikan

(16)

1. Mengembangkan Sistem Pengenal Suara Ucapan dalam Bahasa Indonesia

Manfaat

(17)

Manfaat

2. Memudahkan penulisan dokumen

(18)

Manfaat

3. Memperlancar komunikasi dengan tunarungu

(19)

Manfaat

4. Membantu anak yang kesulitan baca tulis

(20)

Manfaat

5. Menggantikan notulensi manual

(21)

Manfaat

6. Dikembangkan untuk mengontrol perangkat komputer

(22)

Manfaat

7. Dikembangkan untuk menulis email & SMS via ucapan

(23)

Manfaat

8. Membantu pembelajaran baca tulis untuk anak- anak

(24)

TINJAUAN PUSTAKA

Bab 2

(25)

Bab 2 Tinjauan Pustaka 2

Studi Penelitian (1)

• Pengenalan ucapan (kata) dengan Bahasa Hindi (2008)

• Metode : Power Spektrum & HMM

• Hasil penelitian: akurasi mencapai 83.24%

• Jenis kata: terbatas angka dalam Bahasa Hindi

• Uji coba : pengucapan per kata

Ripul Gupta

25

“Speech Recognition for Hindi”

(26)

Studi Penelitian (2)

• Pengenalan ucapan (kata) dengan Bahasa Bangla (2010)

• Metode : Power Spektrum & HMM dalam SPHINX

• Jumlah objek kata yang diteliti : 30

• Akurasi pengenalan ucapan : 86.79%

• Penelitian hanya menggunakan Bahasa

Bangla, sehingga Bahasa Indonesia tidak bisa dikenali

Shammur Absar Chowdbury

“Implementation of Speech Recognition System for Bangla”

(27)

Studi Penelitian (3)

• Penelitian tentang pengenalan ucapan dengan Bahasa Indonesia (2011)

• Metode : Power Spektrum & HMM dalam SPHINX

• Menggunakan Acoustic Model berbasis Bahasa Inggris.

• Jumlah objek kata yang diteliti : 100

• Akurasi pengenalan kata & kalimat : 63.33% dan 49.32%

Very Ferdiansyah

Ayu Purwarianti, ST, MT, Ph.D

“Indonesian Automatic Speech Recognition System using English-Based Acoustic Model”

(28)

Dasar Teori

Diagram Proses Konversi Suara Ucapan menjadi Teks

Akuisisi Suara Ekstraksi Ciri Proses Pengenalan Suara Ucapan

(29)

Dasar Teori

1. Akuisisi Suara Ucapan

Sinyal suara akan dideteksi melalui microphone agar bisa diproses

dalam Ekstraksi Ciri.

(30)

Dasar Teori

2. Ekstraksi Ciri

• Mengurangi jumlah data pada sinyal suara dengan tetap mempertahankan nilai atau feature tertentu yang membedakan pola suara input.

• Proses dalam Ekstraksi Ciri: Pre-emphasis, Windowing, Power Spectrum, Mel Spectrum, dan Mel Cepstrum

(31)

Dasar Teori

2.1 Pre-emphasis

Pre-emphasis filter diaplikasikan pada input berupa gelombang suara.

y = input suara

x = input suara sebelumnya n = indeks input

α (konstanta pre-emphasis) = 0.97

(32)

Dasar Teori

2.2 Windowing

Digunakan metode Hamming Window

w = window

n = panjang window N = panjang frame

(33)

Dasar Teori

2.3 Power Spektrum

Power Spectrum setiap frame dihitung dengan TFD.

Lalu dihitung magnitude kuadrat dari Power Spektrum

S = magnitude

(34)

Dasar Teori

2.4 Mel Spectrum

Mel Spectrum dari Power Spectrum dihitung dengan mengalikan tiap triangular mel weighting filters dengan magnitude kuadrat dari Power Spektrum

= nilai mel Spectrum

= magnitude

M = triangular mel weighting filters

L = jumlah banyaknya triangular mel weigting filters

(35)

Dasar Teori

2.5 Mel Cepstrum

Transformasi Cosinus Diskrit diterapkan dalam logaritma natural mel spectrum untuk mendapat mel cepstrum

c = mel cepstrum

= nilai mel Spectrum 2L = periode

C = jumlah cepstral coefficient

(36)

Dasar Teori

3. Pengenalan Pola Suara Ucapan

Language Model

Acoustic Model

Teks Hasil Ekstraksi Ciri

(37)

Dasar Teori

Memodelkan hasil training secara statistik

Template

(38)

Dasar Teori

Berfungsi untuk membatasi proses pencarian & pengenalan

suara ucapan

(39)

Dasar Teori

4. CMU-Sphinx

Sphinx-4 diciptakan anggota Sphinx group :

• Carnegie Mellon University,

• Sun Microsystems Laboratories,

• Mitsubishi Electric Research Labs (MERL),

• Hewlett Packard (HP)

• kontribusi dari University of California di Santa Cruz (UCSC) dan Massachusetts Institute of Technology (MIT)

(40)

Dasar Teori

4. CMU-Sphinx

• Sphinx-4 Adalah SPSU berbasis Power Spectrum dan HMM

• Digunakan untuk penelitian tentang Suara Ucapan

(41)

Dasar Teori

4.1 Arsitektur Sphinx-4

2 Application

input Control Result Instrumentation

FrontEnd

Acoustic Model Dictionary Language Model ActiveList

Scorer

Feature SearchGraph

Conf. Manager

Linguist Decoder

SearchManager Recognizer

Pruner

41

(42)

METODE PENELITIAN

Bab 3

(43)

Metode Penelitian

Bab 3 Metode Penelitian 43

Analisis Sistem

Perancangan Sistem dan Perangkat Lunak

Implementasi Perangkat Lunak

Persiapan Data dan Training Data

Uji Coba dan Evaluasi

(44)

PERANCANGAN &

IMPLEMENTASI SISTEM

Bab 4

(45)

Persiapan Lingkungan Sistem

1. Microphone Philips SHM 1600 2. Notebook Acer 4736 Series

• Processor Core 2 Duo @2.20 GHz

• RAM 2GB

Spesifikasi Hardware

Bab 4 Perancangan & Implementasi Sistem 45

(46)

1. Sistem Operasi Debian GNU/Linux 6.0 (Squeeze) 2. Java sebagai compiler

3. Wavesurfer 4. Perl

5. C++

6. Sphinx component

• Sphinxtrain (tools untuk acoustic modelling)

• CMU-CLMTK (tools untuk training language model)

Spesifikasi Software (Training)

(47)

1. Sistem Operasi Windows 7 Home Premium 2. Java sebagai compiler

3. Netbeans IDE

Spesifikasi Software (Testing)

(48)

Sistem Konversi Suara Ucapan menjadi Teks

TRAINER

DECODER Language

Dictionary Transcription File Filler Dictionary

Wav Files

Acoustic Model

Teks

Language Model Speech Signal

(49)

Persiapan Data

1. Sumber: BSE “Aku Bisa Bahasa Indonesia” untuk kelas 1 SD/MI + kata tambahan.

2. Terdiri dari 219 kata berbeda.

Data Teks

(50)

Persiapan Data

1. File audio tiap kata disimpan dalam format .wav 2. Setiap file .wav diberi nama dengan format:

<ID pemilik suara>_<ID kata>

Speech Corpus (Proses Perekaman)

(51)

Persiapan Data

1. Untuk merepresentasikan kata dalam file audio . 2. Format:

<s> kata </s> (nama file)

Transcription File

(52)

Persiapan Data

Transcription File

(53)

Persiapan Data

1. File yang berisi setiap pasangan kata + lafal 2. File disimpan dengan ekstensi .dic

Pronunciation Dictionary

(54)

Persiapan Data

Pronunciation Dictionary

(55)

Persiapan Data

1. Mendeskripsikan peluang kata dipanggil saat kata/kalimat diucapkan.

2. Berfungsi untuk membatasi proses pencarian &

pengenalan suara ucapan

3. Format yang digunakan adalah format ARPA.

Language Model

(56)

Persiapan Data

Language Model

(57)

Persiapan Data

1. File teks yang mengandung semua nama file audio untuk proses training.

2. Nama file teks_final_train.fields

Control File

(58)

Persiapan Data

Control File

(59)

Persiapan Data

1. Merupakan Language Dictionary yang berisi non- speech sounds.

Contoh:

Filler Dictionary

(60)

Persiapan Data

1. Teks sederhana untuk memberi penjelasan pada trainer bahwa fonem yang dicantumkan merupakan bagian

dari file training.

2. Terdiri dari satu fonem tiap baris

Phone File

(61)

Persiapan Data

Phone File

(62)

File yang diperlukan untuk training:

• Teks_final.dic

• Teks_final.filler

• Teks_final.phone

• Teks_final_train.fields

• Teks_final_train.transcription

• File .wav representasi dari kata

Training Sistem

(63)

Training Sistem

Data Suara untuk Training

1599

1225 219

File suara

detik kata

75

38 3

detik filler

File suara

Speech ^Non-Speech

(64)

Desain Antarmuka Perangkat Lunak

(65)

IMPLEMENTASI & UJI COBA PERANGKAT LUNAK

Bab 5

(66)

Implementasi Perangkat Lunak

outptSTT

keterangan

btnSimpanTeks

Bab 5 Implementasi & Uji Coba Perangkat Lunak 66

(67)

Hasil Konversi Suara Ucapan menjadi Teks

A3

(68)

Slide 67

A3 Sebaiknya dihapus. Diganti dengan DEMO!

Arifianto, 1/6/2013

(69)

Uji Coba

Perangkat Lunak

• Jumlah objek penelitian:

133 kata 67 kalimat

• Jumlah percobaan tiap objek : 30x

(70)

6570

5675

86.4%

percobaan

akurat

Uji Coba Pengucapan Kata

(71)

Uji Coba Pengucapan Kata

(72)

2940

1728

58.8%

percobaan

akurat

Uji Coba Pengucapan Kalimat

(73)

Uji Coba Pengucapan Kalimat

(74)

Evaluasi

Hasil Uji Coba Sistem

1. Perbedaan akurasi pengenalan tiap kata & kalimat 2. Akurasi pengenalan dipengaruhi:

• Acoustic model

• Language model

• Tingkat kemiripan pengucapan kata

(75)

Kesalahan Pengenalan Sistem

Kata yang diucapkan Kata yang dikenali

adik pagi

enter pintar

Ke eko

Kalimat yang diucapkan Kalimat yang dikenali Nama adik saya gilang Nama pagi saya gilang

Ani sering pergi ke perpustakaan Ani sore pagi pak perpustakaan

Evaluasi Hasil Uji Coba

(76)

90.2% 65.2%

Pengenalan kata Pengenalan kalimat

>

Evaluasi Hasil Uji Coba

(77)

PENUTUP

Bab 6

(78)

Kesimpulan

Akuisisi Sinyal

Suara Ucapan Ekstraksi Ciri

1. Proses Konversi Suara Ucapan menjadi Teks

Pengenalan Pola Suara Ucapan

Bab 6 Penutup 77

(79)

Kesimpulan

86.4%

2. Tingkat Keberhasilan Pengenalan 219 kata dan 98 kalimat

58.8%

Pengucapan kata Pengucapan kalimat

Bab 6 Penutup 78

(80)

Kesimpulan

3. Akurasi pengenalan dipengaruhi:

• Acoustic model

• Language model

• Tingkat kemiripan pengucapan kata

Bab 6 Penutup 79

4. Sistem Konversi Suara Ucapan berhasil

diimplementasikan dalam perangkat lunak yang user friendly.

(81)

Saran

1. Untuk menghasilkan pengenalan suara yang maksimal, butuh jumlah data dan peneliti yang besar. Disarankan penelitian dilakukan dalam sebuah tim.

Bab 6 Penutup 80

Data training yang diperlukan:

• Acoustic Model, Language Model yang tepat.

• Data suara ucapan yang berasal dari peneliti dengan jenis kelamin, umur, daerah yang berbeda-beda.

(82)

Saran

Power Spectum Power Spectum

Bispectrum Bispectrum

Trispectrum Trispectrum

Bab 6 Penutup 81

2. Pengembangan Metode :

(83)

Saran

3. Meningkatkan akurasi dengan cara menggunakan microphone yang berkualitas tinggi.

Bab 6 Penutup 82

(84)

Saran

4. Mengembangkan penelitian dengan mengubah metode ekstraksi ciri maupun pengenalan pola ucapan dalam Sphinx-4.

Bab 6 Penutup 83

(85)

Saran

5. Meningkatkan nilai tambah penelitian dengan cara:

• membuat aplikasi konversi suara ucapan dalam berbagai perangkat pengolah kata (Ms. Office, dll)

• Membuat aplikasi notulensi otomatis.

Bab 6 Penutup 85

(86)

Daftar Pustaka

[1] Bachtiar, Irfan Syafur. 2007. Aplikasi Pengenalan Wicara HMM untuk Kendali Robot PDA. Surabaya: Politeknik Elektronika Negeri Surabaya.

[2] Chowdhury, Shammur Absar. 2010. Implementation of Speech Recognition System for Bangla. Dhaka: School of Engineering and Computer Science BRAC University.

[3] Ferdiansyah, Veri dan Purwarianti, Ayu. 2011. "Indonesian Automatic Speech Recognition System Using English-Based Acoustic Model". Bandung: Institut Teknologi Bandung

[4] Gupta, Ripul. 2005. Speech Recognition for Hindi. Mumbai:

Indian Institute of Technology

Bab 6 Penutup 84

(87)

Daftar Pustaka

[5] LumenVox. History of Speech Recognition.

http://www.lumenvox.com/resources/tips/

historyOfSpeechRecognition.aspx (diakses tanggal 19 Oktober 2012).

[6] Mustofa, Ali. "Sistem Pengenalan Penutur dengan metode Mel- frequency Wrapping". Jurnal Teknik Elektro. Vol.7, No.2.pp 88- 96, 2007.

[7] Seltzer, Michael. 1999. SPHINX III Signal Processing Front End Specification. Oakland: CMU Speech Group.

[8] Sigurdsson, S., dkk. 2006. "Mel Frequency Cepstral Coeffcient:

An Evaluation of Robustness of MP3 Encoded Music". Lyngby:

University of Denmark.

[9] Walker, Willie, dkk. 2004. Sphinx-4: A Flexible Open Source Framework for Speech Recognition. Oakland: Sun Microsystem.

[10] Young, Steve, dkk. 2009. The HTK Book. Cambridge:

Cambridge University Engineering Department.

Bab 6 Penutup 85

(88)

Penerapan Metode Power Spektrum pada Proses Konversi Suara Ucapan menjadi Teks