• Tidak ada hasil yang ditemukan

Penerapan Metode Power Spektrum pada Proses Konversi Suara Ucapan menjadi Teks

N/A
N/A
Protected

Academic year: 2022

Membagikan "Penerapan Metode Power Spektrum pada Proses Konversi Suara Ucapan menjadi Teks"

Copied!
88
0
0

Teks penuh

(1)
(2)

Penerapan Metode Power Spektrum pada Proses Konversi

Suara Ucapan menjadi Teks

TUGAS AKHIR

Oleh:

Yoga Arifianto 1208 100 018

Pembimbing:

Drs. Nurul Hidayat, M. Kom 19630404 198903 1 002

(3)

CONTENTS

Pendahuluan Tinjauan Pustaka Metode Penelitian

Perancangan &

Implementasi Sistem

Implementasi & Uji Coba

Perangkat Lunak Penutup

1 2 3

4 5 6

(4)

PENDAHULUAN

Bab 1

(5)

Latar Belakang

• Pengenalan suara ucapan memungkinkan perangkat mengenali dan memahami kata-kata yang diucapkan.

• Dilakukan dengan digitalisasi ucapan dan

mencocokkan sinyal ucapan dengan pola tertentu dalam perangkat.

• Hasil identifikasi diproses sistem untuk melakukan pekerjaan yang diinginkan manusia.

Bab 1 Pendahuluan 5

(6)

Latar Belakang

• Dimulai sejak 1940 oleh AT & T. Berhasil menciptakan perangkat pengenal kata

• Pada 1960-an, penelitian berhasil

mengidentifikasi kata-kata yang berbeda.

• 1970-an, dihasilkan perangkat yang dapat mengenali ucapan secara kontinu.

• Penelitian terus berkembang hingga saat ini.

Perkembangan Alat Pengenal Ucapan

Bab 1 Pendahuluan 6

American Telephone &

Telegraph Company

(7)

Latar Belakang

Penelitian oleh CMU beserta anggota Sphinx Group (MIT, USCS, Sun

Microsystem, MERL, dan HP Laboratory) berhasil menghasilkan perangkat untuk identifikasi ucapan (1999).

Perkembangan Alat Pengenal Ucapan

Bab 1 Pendahuluan 7

(8)

Latar Belakang

• Keterbatasan: Bahasa yang dikembangkan awalnya hanya Bahasa Inggris.

• Belum tersedia dalam Bahasa Indonesia

Perkembangan Alat Pengenal Ucapan

Bab 1 Pendahuluan 8

(9)

Latar Belakang

• Dalam Tugas akhir dikembangkan aplikasi pengenal ucapan.

• Aplikasi berfungsi mengkonversi suara ucapan menjadi teks.

• Digunakan Bahasa Indonesia

• Digunakan metode Power Spektrum dalam Sphinx

Bab 1 Pendahuluan 9

(10)

Latar Belakang

• Kata-kata yang diucapkan bisa dikonversi menjadi teks oleh sistem.

• Perangkat bisa menggantikan fungsi

keyboard, sehingga pengetikan lebih cepat.

Bab 1 Pendahuluan 10

(11)

Rumusan Masalah (1)

Bab 1 Pendahuluan 11

(12)

Rumusan Masalah (2)

Bab 1 Pendahuluan 12

(13)

Batasan Masalah

1. Parameter Input Gelombang Suara:

Sampling rate audio : 16 KHz

Jumlah bit rate : 16

Channel audio : mono

Bab 1 Pendahuluan 13

(14)

Batasan Masalah

2. Perintah berupa kata/kalimat yang sudah ditentukan

3. Suara untuk proses Training dan Testing menggunakan suara Penulis.

Bab 1 Pendahuluan 14

4. Kata-kata berbahasa Indonesia

(15)

Tujuan

1. Mendapat rancangan sistem pengenal suara ucapan untuk konversi suara ucapan menjadi teks

2. Perangkat lunak untuk konversi suara ucapan menjadi teks berhasil diimplementasikan

Bab 1 Pendahuluan 15

(16)

1. Mengembangkan Sistem Pengenal Suara Ucapan dalam Bahasa Indonesia

Bab 1 Pendahuluan 16

Manfaat

(17)

Manfaat

2. Memudahkan penulisan dokumen

Bab 1 Pendahuluan 17

(18)

Manfaat

3. Memperlancar komunikasi dengan tunarungu

Bab 1 Pendahuluan 18

(19)

Manfaat

4. Membantu anak yang kesulitan baca tulis

Bab 1 Pendahuluan 19

(20)

Manfaat

5. Menggantikan notulensi manual

Bab 1 Pendahuluan 20

(21)

Manfaat

6. Dikembangkan untuk mengontrol perangkat komputer

Bab 1 Pendahuluan 21

(22)

Manfaat

7. Dikembangkan untuk menulis email & SMS via ucapan

Bab 1 Pendahuluan 22

(23)

Manfaat

8. Membantu pembelajaran baca tulis untuk anak- anak

Bab 1 Pendahuluan 23

(24)

TINJAUAN PUSTAKA

Bab 2

(25)

Bab 2 Tinjauan Pustaka 2

Studi Penelitian (1)

• Pengenalan ucapan (kata) dengan Bahasa Hindi (2008)

• Metode : Power Spektrum & HMM

• Hasil penelitian: akurasi mencapai 83.24%

Jenis kata: terbatas angka dalam Bahasa Hindi

• Uji coba : pengucapan per kata

Ripul Gupta

25

“Speech Recognition for Hindi”

(26)

Studi Penelitian (2)

• Pengenalan ucapan (kata) dengan Bahasa Bangla (2010)

• Metode : Power Spektrum & HMM dalam SPHINX

• Jumlah objek kata yang diteliti : 30

• Akurasi pengenalan ucapan : 86.79%

• Penelitian hanya menggunakan Bahasa

Bangla, sehingga Bahasa Indonesia tidak bisa dikenali

Shammur Absar Chowdbury

Bab 2 Tinjauan Pustaka 226

“Implementation of Speech Recognition System for Bangla”

(27)

Studi Penelitian (3)

• Penelitian tentang pengenalan ucapan dengan Bahasa Indonesia (2011)

• Metode : Power Spektrum & HMM dalam SPHINX

• Menggunakan Acoustic Model berbasis Bahasa Inggris.

• Jumlah objek kata yang diteliti : 100

• Akurasi pengenalan kata & kalimat : 63.33% dan 49.32%

Very Ferdiansyah

Ayu Purwarianti, ST, MT, Ph.D

Bab 2 Tinjauan Pustaka 227

“Indonesian Automatic Speech Recognition System using English-Based Acoustic Model”

(28)

Dasar Teori

Diagram Proses Konversi Suara Ucapan menjadi Teks

Bab 2 Tinjauan Pustaka 228

Akuisisi Suara Ekstraksi Ciri Proses Pengenalan Suara Ucapan

(29)

Dasar Teori

1. Akuisisi Suara Ucapan

Sinyal suara akan dideteksi melalui microphone agar bisa diproses

dalam Ekstraksi Ciri.

Bab 2 Tinjauan Pustaka 229

(30)

Dasar Teori

2. Ekstraksi Ciri

• Mengurangi jumlah data pada sinyal suara dengan tetap mempertahankan nilai atau feature tertentu yang membedakan pola suara input.

• Proses dalam Ekstraksi Ciri: Pre-emphasis, Windowing, Power Spectrum, Mel Spectrum, dan Mel Cepstrum

Bab 2 Tinjauan Pustaka 230

(31)

Dasar Teori

2.1 Pre-emphasis

Pre-emphasis filter diaplikasikan pada input berupa gelombang suara.

y = input suara

x = input suara sebelumnya n = indeks input

α (konstanta pre-emphasis) = 0.97

Bab 2 Tinjauan Pustaka 231

(32)

Dasar Teori

2.2 Windowing

Digunakan metode Hamming Window

w = window

n = panjang window N = panjang frame

Bab 2 Tinjauan Pustaka 232

(33)

Dasar Teori

2.3 Power Spektrum

Power Spectrum setiap frame dihitung dengan TFD.

Lalu dihitung magnitude kuadrat dari Power Spektrum

S = magnitude

Bab 2 Tinjauan Pustaka 233

(34)

Dasar Teori

2.4 Mel Spectrum

Mel Spectrum dari Power Spectrum dihitung dengan mengalikan tiap triangular mel weighting filters dengan magnitude kuadrat dari Power Spektrum

= nilai mel Spectrum

= magnitude

M = triangular mel weighting filters

L = jumlah banyaknya triangular mel weigting filters

Bab 2 Tinjauan Pustaka 234

(35)

Dasar Teori

2.5 Mel Cepstrum

Transformasi Cosinus Diskrit diterapkan dalam logaritma natural mel spectrum untuk mendapat mel cepstrum

c = mel cepstrum

= nilai mel Spectrum 2L = periode

C = jumlah cepstral coefficient

Bab 2 Tinjauan Pustaka 235

(36)

Dasar Teori

3. Pengenalan Pola Suara Ucapan

Bab 2 Tinjauan Pustaka 236

Language Model

Acoustic Model

Teks Hasil Ekstraksi Ciri

(37)

Dasar Teori

Memodelkan hasil training secara statistik

Template

Bab 2 Tinjauan Pustaka 237

(38)

Dasar Teori

Dasar Teori

Berfungsi untuk membatasi proses pencarian & pengenalan

suara ucapan

Bab 2 Tinjauan Pustaka 238

(39)

Dasar Teori

4. CMU-Sphinx

Sphinx-4 diciptakan anggota Sphinx group :

Carnegie Mellon University,

Sun Microsystems Laboratories,

Mitsubishi Electric Research Labs (MERL),

Hewlett Packard (HP)

kontribusi dari University of California di Santa Cruz (UCSC) dan Massachusetts Institute of Technology (MIT)

Bab 2 Tinjauan Pustaka 239

(40)

Dasar Teori

4. CMU-Sphinx

Sphinx-4 Adalah SPSU berbasis Power Spectrum dan HMM

Digunakan untuk penelitian tentang Suara Ucapan

Bab 2 Tinjauan Pustaka 240

(41)

Dasar Teori

4.1 Arsitektur Sphinx-4

2 Application

input Control Result Instrumentation

FrontEnd

Acoustic Model Dictionary Language Model ActiveList

Scorer

Feature SearchGraph

Conf. Manager

Linguist Decoder

SearchManager Recognizer

Pruner

41

(42)

METODE PENELITIAN

Bab 3

(43)

Metode Penelitian

Bab 3 Metode Penelitian 43

Analisis Sistem

Perancangan Sistem dan Perangkat Lunak

Implementasi Perangkat Lunak

Persiapan Data dan Training Data

Uji Coba dan Evaluasi

(44)

PERANCANGAN &

IMPLEMENTASI SISTEM

Bab 4

(45)

Persiapan Lingkungan Sistem

1. Microphone Philips SHM 1600 2. Notebook Acer 4736 Series

Processor Core 2 Duo @2.20 GHz

RAM 2GB

Spesifikasi Hardware

Bab 4 Perancangan & Implementasi Sistem 45

(46)

Persiapan Lingkungan Sistem

1. Sistem Operasi Debian GNU/Linux 6.0 (Squeeze) 2. Java sebagai compiler

3. Wavesurfer 4. Perl

5. C++

6. Sphinx component

Sphinxtrain (tools untuk acoustic modelling)

CMU-CLMTK (tools untuk training language model)

Spesifikasi Software (Training)

Bab 4 Perancangan & Implementasi Sistem 46

(47)

Persiapan Lingkungan Sistem

1. Sistem Operasi Windows 7 Home Premium 2. Java sebagai compiler

3. Netbeans IDE

Spesifikasi Software (Testing)

Bab 4 Perancangan & Implementasi Sistem 47

(48)

Sistem Konversi Suara Ucapan menjadi Teks

Bab 4 Perancangan & Implementasi Sistem 48

TRAINER

DECODER Language

Dictionary Transcription File Filler Dictionary

Wav Files

Acoustic Model

Teks

Language Model Speech Signal

(49)

Persiapan Data

1. Sumber: BSE “Aku Bisa Bahasa Indonesia” untuk kelas 1 SD/MI + kata tambahan.

2. Terdiri dari 219 kata berbeda.

Data Teks

Bab 4 Perancangan & Implementasi Sistem 49

(50)

Persiapan Data

1. File audio tiap kata disimpan dalam format .wav 2. Setiap file .wav diberi nama dengan format:

<ID pemilik suara>_<ID kata>

Speech Corpus (Proses Perekaman)

Bab 4 Perancangan & Implementasi Sistem 50

(51)

Persiapan Data

1. Untuk merepresentasikan kata dalam file audio . 2. Format:

<s> kata </s> (nama file)

Transcription File

Bab 4 Perancangan & Implementasi Sistem 51

(52)

Persiapan Data

Transcription File

Bab 4 Perancangan & Implementasi Sistem 52

(53)

Persiapan Data

1. File yang berisi setiap pasangan kata + lafal 2. File disimpan dengan ekstensi .dic

Pronunciation Dictionary

Bab 4 Perancangan & Implementasi Sistem 53

(54)

Persiapan Data

Pronunciation Dictionary

Bab 4 Perancangan & Implementasi Sistem 54

(55)

Persiapan Data

1. Mendeskripsikan peluang kata dipanggil saat kata/kalimat diucapkan.

2. Berfungsi untuk membatasi proses pencarian &

pengenalan suara ucapan

3. Format yang digunakan adalah format ARPA.

Language Model

Bab 4 Perancangan & Implementasi Sistem 55

(56)

Persiapan Data

Language Model

Bab 4 Perancangan & Implementasi Sistem 56

(57)

Persiapan Data

1. File teks yang mengandung semua nama file audio untuk proses training.

2. Nama file teks_final_train.fields

Control File

Bab 4 Perancangan & Implementasi Sistem 57

(58)

Persiapan Data

Control File

Bab 4 Perancangan & Implementasi Sistem 58

(59)

Persiapan Data

1. Merupakan Language Dictionary yang berisi non- speech sounds.

Contoh:

Filler Dictionary

Bab 4 Perancangan & Implementasi Sistem 59

(60)

Persiapan Data

1. Teks sederhana untuk memberi penjelasan pada trainer bahwa fonem yang dicantumkan merupakan bagian

dari file training.

2. Terdiri dari satu fonem tiap baris

Phone File

Bab 4 Perancangan & Implementasi Sistem 60

(61)

Persiapan Data

Phone File

Bab 4 Perancangan & Implementasi Sistem 61

(62)

File yang diperlukan untuk training:

Teks_final.dic

Teks_final.filler

Teks_final.phone

Teks_final_train.fields

Teks_final_train.transcription

File .wav representasi dari kata

Training Sistem

Bab 4 Perancangan & Implementasi Sistem 62

(63)

Training Sistem

Data Suara untuk Training

Bab 4 Perancangan & Implementasi Sistem 63

1599

1225 219

File suara

detik kata

75

38 3

detik filler

File suara

Speech Non-Speech

(64)

Desain Antarmuka Perangkat Lunak

Bab 4 Perancangan & Implementasi Sistem 64

(65)

IMPLEMENTASI & UJI COBA PERANGKAT LUNAK

Bab 5

(66)

Implementasi Perangkat Lunak

outptSTT

keterangan

btnSimpanTeks

Bab 5 Implementasi & Uji Coba Perangkat Lunak 66

(67)

Hasil Konversi Suara Ucapan menjadi Teks

Bab 5 Implementasi & Uji Coba Perangkat Lunak 67

A3

(68)

Slide 67

A3 Sebaiknya dihapus. Diganti dengan DEMO!

Arifianto, 1/6/2013

(69)

Uji Coba

Perangkat Lunak

• Jumlah objek penelitian:

133 kata 67 kalimat

• Jumlah percobaan tiap objek : 30x

Bab 5 Implementasi & Uji Coba Perangkat Lunak 68

(70)

6570

5675

86.4%

percobaan

akurat

Bab 5 Implementasi & Uji Coba Perangkat Lunak 69

Uji Coba Pengucapan Kata

(71)

Bab 5 Implementasi & Uji Coba Perangkat Lunak 70

Uji Coba Pengucapan Kata

(72)

2940

1728

58.8%

percobaan

akurat

Bab 5 Implementasi & Uji Coba Perangkat Lunak 71

Uji Coba Pengucapan Kalimat

(73)

Bab 5 Implementasi & Uji Coba Perangkat Lunak 72

Uji Coba Pengucapan Kalimat

(74)

Evaluasi

Hasil Uji Coba Sistem

1. Perbedaan akurasi pengenalan tiap kata & kalimat 2. Akurasi pengenalan dipengaruhi:

Acoustic model

Language model

Tingkat kemiripan pengucapan kata

Bab 5 Implementasi & Uji Coba Perangkat Lunak 73

(75)

Kesalahan Pengenalan Sistem

Kata yang diucapkan Kata yang dikenali

adik pagi

enter pintar

Ke eko

Kalimat yang diucapkan Kalimat yang dikenali Nama adik saya gilang Nama pagi saya gilang

Ani sering pergi ke perpustakaan Ani sore pagi pak perpustakaan

Bab 5 Implementasi & Uji Coba Perangkat Lunak 74

Evaluasi Hasil Uji Coba

(76)

90.2% 65.2%

Pengenalan kata Pengenalan kalimat

>

Bab 5 Implementasi & Uji Coba Perangkat Lunak 75

Evaluasi Hasil Uji Coba

(77)

PENUTUP

Bab 6

(78)

Kesimpulan

Akuisisi Sinyal

Suara Ucapan Ekstraksi Ciri

1. Proses Konversi Suara Ucapan menjadi Teks

Pengenalan Pola Suara Ucapan

Bab 6 Penutup 77

(79)

Kesimpulan

86.4%

2. Tingkat Keberhasilan Pengenalan 219 kata dan 98 kalimat

58.8%

Pengucapan kata Pengucapan kalimat

Bab 6 Penutup 78

(80)

Kesimpulan

3. Akurasi pengenalan dipengaruhi:

Acoustic model

Language model

Tingkat kemiripan pengucapan kata

Bab 6 Penutup 79

4. Sistem Konversi Suara Ucapan berhasil

diimplementasikan dalam perangkat lunak yang user friendly.

(81)

Saran

1. Untuk menghasilkan pengenalan suara yang maksimal, butuh jumlah data dan peneliti yang besar. Disarankan penelitian dilakukan dalam sebuah tim.

Bab 6 Penutup 80

Data training yang diperlukan:

Acoustic Model, Language Model yang tepat.

Data suara ucapan yang berasal dari peneliti dengan jenis kelamin, umur, daerah yang berbeda-beda.

(82)

Saran

Power Spectum Power Spectum

Bispectrum Bispectrum

Trispectrum Trispectrum

Bab 6 Penutup 81

2. Pengembangan Metode :

(83)

Saran

3. Meningkatkan akurasi dengan cara menggunakan microphone yang berkualitas tinggi.

Bab 6 Penutup 82

(84)

Saran

4. Mengembangkan penelitian dengan mengubah metode ekstraksi ciri maupun pengenalan pola ucapan dalam Sphinx-4.

Bab 6 Penutup 83

(85)

Saran

5. Meningkatkan nilai tambah penelitian dengan cara:

• membuat aplikasi konversi suara ucapan dalam berbagai perangkat pengolah kata (Ms. Office, dll)

• Membuat aplikasi notulensi otomatis.

Bab 6 Penutup 85

(86)

Daftar Pustaka

[1] Bachtiar, Irfan Syafur. 2007. Aplikasi Pengenalan Wicara HMM untuk Kendali Robot PDA. Surabaya: Politeknik Elektronika Negeri Surabaya.

[2] Chowdhury, Shammur Absar. 2010. Implementation of Speech Recognition System for Bangla. Dhaka: School of Engineering and Computer Science BRAC University.

[3] Ferdiansyah, Veri dan Purwarianti, Ayu. 2011. "Indonesian Automatic Speech Recognition System Using English-Based Acoustic Model". Bandung: Institut Teknologi Bandung

[4] Gupta, Ripul. 2005. Speech Recognition for Hindi. Mumbai:

Indian Institute of Technology

Bab 6 Penutup 84

(87)

Daftar Pustaka

[5] LumenVox. History of Speech Recognition.

http://www.lumenvox.com/resources/tips/

historyOfSpeechRecognition.aspx (diakses tanggal 19 Oktober 2012).

[6] Mustofa, Ali. "Sistem Pengenalan Penutur dengan metode Mel- frequency Wrapping". Jurnal Teknik Elektro. Vol.7, No.2.pp 88- 96, 2007.

[7] Seltzer, Michael. 1999. SPHINX III Signal Processing Front End Specification. Oakland: CMU Speech Group.

[8] Sigurdsson, S., dkk. 2006. "Mel Frequency Cepstral Coeffcient:

An Evaluation of Robustness of MP3 Encoded Music". Lyngby:

University of Denmark.

[9] Walker, Willie, dkk. 2004. Sphinx-4: A Flexible Open Source Framework for Speech Recognition. Oakland: Sun Microsystem.

[10] Young, Steve, dkk. 2009. The HTK Book. Cambridge:

Cambridge University Engineering Department.

Bab 6 Penutup 85

(88)

Gambar

Diagram Proses Konversi Suara Ucapan menjadi Teks

Referensi

Dokumen terkait

mengatur jalannya beragam tahapan dan kepentingan untuk dirumuskan dalam koridor bersama demi tercapainya tujuan bersama dimana dalam konteks koordinasi pemerinta-

mengikat unsur hara antara tanah dengan pupuk yang digunakan. Manfaat pupuk ini adalah meningkatkan kemampuan penyerapan unsur hara, meningkatkan efisiensi pupuk

Kegiatan KKN Tematik Covid-19 Berbasis Kemitraan dan Bina Desa dilaksanakan dengan total waktu 40 hari yang setara dengan 320 Jam Kerja Efektik Mahasiswa (JKEM).. Untuk

Hasil pengujian terhadap produk intrasel pada volume bakteri uji 10 µL menggunakan berbagai pelarut organik seperti kloroform, aseton, n-heksan dan etil

Berdasarkan hasil penelitian yang dilakukan, maka dapat disimpulkan bahwa ada pengaruh yang positif penerapan model pembelajaran Course Review Horay terhadap penguasaan

[r]

Usulan alternatif perbaikan yang dihasilkan dari kedua permasalahan kontradiksi diatas adalah yang pertama membuat pisau yang tajam dan tipis agar dapat meminimalisir gaya

(Yogya Ardi Winata) 1 PENERAPAN ANALISIS KOVARIANS MULTIVARIAT PADA BIDANG GIZI (Study Kasus: Pengaruh Perbedaan Tingkat Kelas Terhadap Rata-rata Frekuensi Makan, Asupan Energi,