IMPLEMENTASI SPEECH RECOGNITION PADA PERMAINAN TODDLER CARD UNTUK ANAK USIA TODDLER BERBASIS ANDROID SKRIPSI MUSTIKA AGUNG MAULANA

(1)

IMPLEMENTASI SPEECH RECOGNITION PADA PERMAINAN TODDLER CARD UNTUK ANAK USIA TODDLER

BERBASIS ANDROID

SKRIPSI

MUSTIKA AGUNG MAULANA 091401005

PROGRAM STUDI S1 ILMU KOMPUTER

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2013

(2)

IMPLEMENTASI SPEECH RECOGNITION PADA PERMAINAN TODDLER CARD UNTUK ANAK USIA TODDLER

BERBASIS ANDROID

SKRIPSI

Diajukanuntukmelengkapitugasdanmemenuhisyarat memperoleh ijazah Sarjana Ilmu Komputer

MUSTIKA AGUNG MAULANA 091401005

PROGRAM STUDI S1 ILMU KOMPUTER

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2013

(3)

PERSETUJUAN

Judul : IMPLEMENTASI SPEECH RECOGNITION PADA

PERMAINAN TODDLER CARD UNTUK ANAK USIA TODDLER BERBASIS ANDROID

Kategori : SKRIPSI

Nama : MUSTIKA AGUNG MAULANA

Nomor Induk Mahasiswa : 091401005

Program Studi : SARJANA (S1) ILMU KOMPUTER

Departemen : ILMU KOMPUTER

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI Diluluskan di

Medan, 24 Oktober 2013 Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

M. Anggia Muchtar, ST, MM.IT Dr. Poltak Sihombing, M.Kom NIP. 198001102008011010 NIP.196203171991031001

Diketahui/Disetujui oleh

Program Studi S1 Ilmu Komputer Ketua,

Dr. Poltak Sihombing, M.Kom NIP.196203171991031001

(4)

PERNYATAAN

IMPLEMENTASI SPEECH RECOGNITION PADA PERMAINAN TODDLER CARD UNTUK ANAK USIA TODDLER BERBASIS ANDROID

SKRIPSI

Saya menyatakan bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 26 September2013

Mustika Agung Maulana 091401005

(5)

PENGHARGAAN

Puji dan syukur kehadirat Allah SWT, yang hanya dengan rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulis sampaikan kepada:

1. Bapak Prof.Dr.Muhammad Zarlis selaku Dekan Fasilkom-TI Universitas Sumatera Utara dan Pembimbing Akademik.

2. Bapak Dr. Poltak Sihombing, M.Kom selaku Ketua Program Studi S1 Ilmu Komputer Universitas Sumatera Utara dan Dosen Pembimbing.

3. Ibu Maya Silvi Lydia, B.Sc, M.Sc selaku Sekretaris Program Studi S1IlmuKomputer Universitas Sumatera Utara.

4. Bapak M. Anggia Muchtar, ST, MM.IT selaku Dosen Pembimbing.

5. Bapak Dr. Syahril Efendi, S.Si, MIT selaku Dosen Pembanding 6. Bapak Ade Candra, ST, M.Kom selaku Dosen Pembanding.

7. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, seluruhtenaga pengajar dan pegawai diProgram Studi S1Ilmu Komputer Fasilkom-TIUSU.

8. Bapak M. Andri Budiman, ST, M.CompSc, MEM dan Bapak Romi Fadilla Rahmat, B.Sc.Comp, M.Sc sebagai dosen Fasilkom-TI USU yang telah banyak memberikan motivasi dan dukungan kepada penulis.

9. Ayahanda Bambang S dan ibunda Efita, serta adindaGunawan Lazuardy dan Ratih Keumala Intanserta seluruh keluarga besar yang selalu memberikan kasih sayang dan dukungannya kepada penulis.

10. Rekan-rekan Demisioner pengurus IMILKOM 2012-2013 yang telah banyak memberikan dukungan kepada penulis.

11. Rekan-rekan kuliah, khususnya Fithri, Suri, Sandy, Fauzi, Azhar, Gamal, Tami, Ainun, Eka, Febri, Yudi dan Dewa yang selalu memberikan semangat dan dorongan kepada penulisselama menyelesaikan skripsi ini.

12. Adik-adik junior stambuk 2011 dan 2012 terutama Yati, Abidah, Farid, Rifai, Roni, Ahda, Deka, Atepe, dan Indah yang selalu memberikan semangat dan dorongan kepada penulisselama menyelesaikan skripsi ini.

(6)

13. Pihak-pihak yang terlibat langsung maupun tidak langsung yang membantu penyelesaian laporan ini.

Semoga Allah SWT melimpahkan berkahkepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.Akhirnya, semoga skripsi ini bermanfaat bagi pribadi, keluarga, masyarakat, organisasi dan negara.

Medan, Oktober 2013

Penulis

(7)

ABSTRAK

Seiring dengan berkembangnya teknologi yang semakin pesat, gadget seperti smartphones dantabletberbasis Android memang mempermudah orang tua untuk memberikan pengajaran kepada anak-anak di usia dini. Terutama untuk melatih anak mengucapkan sesuatu seperti nama benda, sebutan keluarga, warna dan lain-lain haruslah menjadi prioritas utama orang tua, karena diusia toddler (1-3 tahun) belajar berkomunikasi atau berbicara merupakan waktu yang sangat penting bagi orang tua untuk melihat bakat serta pertumbuhan anak tersebut. Dengan berkembangnya teknologi pengenalan suara, proses belajar anak usia toddleruntuk mengenal nama- nama benda dan berlatih untuk mengucapkannya akan akan sangat efektif dan menyenangkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat.Sistem pengenalan suara modern secara umum berdasarkan pada Hidden Markov Models (HMMs). Dari HMMs diperoleh sinyal suara yang dapat dikarakteristikkan sebagai proses parameter acak, serta parameter dari proses stokastik yang dapat ditentukan dengan tepat.Dengan menggunakan bantuan API speech recognition dan Text-To-Speech (TTS) milik Googledapat dirancang dan dikembangkan permainan toddler card untuk melatih anak usiatoddler mengucapkan sesuatu yang ditampilkan pada layarperangkatAndroid menggunakan masukan suara.

FiturAndroid speech akan bekerja dengan cara menangkap suara sebagai input.

Kata Kunci: Android, Speech Recognition,Hidden MarkovModels (HMMs).

(8)

IMPLEMENTATION OF ANDROID BASED SPEECH RECOGNITION ON THE TODDLER CARD GAME

ABSTRACT

Along with the fast development of technology, gadget like smartphones and tablet based on Android arefacilitating parents to teach an early age children. Especially to train them to say something like the name of objects, family title, colors and excetary should be parents main priority, because of age toddler (1-3 years)learning to communicate or talk is a very important time for parents to see the talent and the growth of the child. With the speech recognition technology development, the learning process for children at toddler ages to know the name of things and practice to say it would be very effective and fun. This technology allows a device to recognize and understand the words spoken by word digitizing and match the digital signal with a certain pattern stored in a device. Modern speech recognition systems are generally based on Hidden Markov Models (HMMs). The voice signal that obtained from the HMMs can be characterized as a process of random parameters , and the parameters of the stochastic processes which can be determined precisely. With the help of speech recognition API and Text-To-Speech (TTS) of Google, the toddler games can be designed and developed to train the toddler age children to say something that is displayed on the screen of Android device using voice input. Android speech featureworks by capturing the voice as an input.

Keyword: Android, Speech Recognition,Hidden MarkovModels (HMMs).

(9)

DAFTAR ISI

Halaman

Persetujuan ii

Pernyataan iii

Penghargaan iv

Abstrak vi

Abstract vii

Daftar Isi viii

Daftar Tabel x

Daftar Gambar xi

Daftar Lampiran xii

Bab I Pendahuluan

1.1 Latar Belakang 1

1.2 Rumusan Masalah 2

1.3 Tujuan Penelitian 3

1.4Batasan Masalah 3

1.5 Manfaat Penelitian 3

1.6 Metode Penelitian 3

1.7 Sistematika Penulisan 4

BabII Landasan Teori

2.1 Pengenalan Suara 5

2.1.1 Definisi Pengenalan Suara 5

2.1.2 Sejarah Pengenalan Suara 6

2.1.3 Kelebihan dan Kekurangan Aplikasi Pengenalan Suara 8 2.1.3 Speech Recognition Service Pada Perangkat Android 9

2.2 Proses Pengenalan Suara 10

2.2.1 Pre-Processing 11

2.2.2 Ekstraksi ciri 11

2.3 Hidden Markov Models (HMM) 12

2.4 Pemodelan Bahasa 16

2.5 Penulisan Fonetik 17

2.6 Text To Speech 18

2.7 Anak Usia Toddler 21

2.7.1 Kembang Tumbuh Anak Usia Toddler 21

2.7.2 Manfaat Penggunaan Gadget Pada Anak Usia Toddler 23

2.8 Sistem Operasi Android 23

2.8.1 Sejarah Android 23

2.8.2 The Dalvik Virtual Machine (DVM) 24

2.8.3Android SDK (Software Development Kit) 25

2.8.4Siklus Activity 27

2.9 API Android Speech Recognition 30

2.10 Penelitian Yang Relevan API Android Speech Recognition 31

(10)

Bab III Analisis dan Perancangan

3.1 Analisis Sistem 32

3.1.1 Analisis Masalah 32

3.1.2Analisis Kebutuhan (Requirement Analyst) 33

3.1.2.1 Analisis Fungsional 33

3.1.2.2Analisis NonFungsional 34

3.1.2.3Pemodelan Persyaratan Sistem Dengan Use Case 34

3.1.2.4Activity Diagram 36

3.1.2.5Sequence Diagram 37

3.2Perancangan 38

3.3.1Mockup 38

3.3.1.1 Splash Screen 38

3.3.1.2Index Page 38

3.3.1.3Tutorial Page 39

3.3.1.4System Page 39

Bab IV Implementasi dan Pengujian

4.1Implementasi 42

4.1.1Implementasi Speech recognition Service 42

4.2Pengujian 44

4.2.1 Tempat Penyimpanan Gambar di SD Card Gadget Android 44

4.2.2 Splash Screen 45

4.2.3IndexPage 45

4.2.4 Tutorial Page 46

4.2.5 SystemPage 47

4.2.6Pengujian Alfa 51

4.2.7Pengujian Beta 53

Bab V Kesimpulan dan Saran

5.1 Kesimpulan 58

5.2Saran 59

Daftar Pustaka 60

(11)

DAFTAR TABEL

Nomor

Tabel Nama Tabel Halaman

2.1 2.2 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9

Packages Yangh Tersedia Pada SDK Manager Daftar Method Activity

Kode menjalankan fungsi Speech Recognition

Kode untuk memeriksa kebenaran suara yang diucapkanTabel Hasil Pengujian Pengucapan

Jawaban Kusioner

Hasil pengujian kuisioner soal nomor 1 Hasil pengujian kuisioner soal nomor 2 Hasil pengujian kuisioner soal nomor 3 Hasil pengujian kuisioner soal nomor 4 Hasil pengujian kuisioner soal nomor 5

25 28 42 43 52 54 54 55 55 56 56

(12)

DAFTAR GAMBAR

Nomor

Gambar Nama Gambar Halaman

2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10

4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12

Proses verifikasi suara

Konsep Kerja ADC (Analog To Digital Converter) Diagram Analisis LPC

Pengkodean Suara

Model Pembangkit Markov

Blok diagram text to speech synthesis system Blok diagram text pre-processing

Blok diagram prosody Siklus Activity

Diagram Ishikawa Untuk Analisa Masalah

Usecase Diagram User (Orang Tua) speech recognition Pada Permainan Toddler Card

Usecase Diagram User (Anak) speech recognition Pada Permainan Toddler Card

Activity Diagram speech recognition Pada Permainan Toddler Card

Sequence Diagram speech recognition Pada Permainan Toddler Card

Mockup Splash Screen Mockup Index page Mockup Tutorial Page Mockup System Page Blank Mockup System Page

Letak Konten Gambar Yang Digunakan Splash Screen

Index Page

Menu Keluar Aplikasi Tutorial Page

Konten card di System Page

Tampilan halaman pada saat anak mengucapkan kata di System Page

Konten card yang diucapkan sesuai dengan gambar (kata yang diucapkan “mobil”) di System Page

Konten card yang diucapkan tidak sesuai dengan gambar (kata yang diucapkan “kapal”) di System Page

Tampilan layar apabila sistem tidak dapat mendeteksi kata yang diucapkan di System Page

Tampilan Splash Screen Aplikasi Tahap Pertama Tampilan Splash Screen

10 11 11 12 14 19 19 20 27 33 35 35 36 37 38 39 39 40 40 44 45 45 46 47 48 48 49 50 50 51 52

(13)

DAFTAR LAMPIRAN

Halaman

A. Listing Program A-1

B. Kuisioner B-1

C. Curiculum Vitae C-1

(14)

BAB I PENDAHULUAN

1.1 Latar Belakang

Teknologi speech recognition (pengenalan suara) adalah teknologi yang menggunakan peralatan dengan sumber masukannya adalah suara, seperti mikrofon untuk menginterpretasikan suara manusia untuk transkripsi atau sebagai metode alternatif interaksi dengan komputer.Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat.

Perusahaan ternama seperti Google sangat cepat dalam mengembangkan aplikasi pengenalan suara.Salah satunya fitur Google Voicepada perangkatAndroid.Sebenarnya Google sudah menyediakan berupa package libarary speech recognition untuk para developer yang biasanya disebut Google API (Application Programming Interface) untuk mengembangkan aplikasi yang menggunakan suara sebagai masukkannya.

Pada dasarnya melatih mengucapkan sesuatu sudah kita lakukan pada saat usia dini. Pada usiatoddler lah orang tua mengajarkan anaknya bagaimana mengucapkan suatu kata dengan ejaan dan intonasi yang benar sesuai dengan bahasa ibu, karena kemampuan berbahasa merupakan indikator seluruh perkembangan anak. Dengan pengembangan teknologi pengenalan suara pembelajaran untuk mengenal nama-nama benda dan mengucapkannya berbasis mobile, diharapkan dapat membuatproses belajar menjadi menyenangkan dan mudah dipelajari untuk semua kalangan khususnya anak usia toddler.

(15)

Penelitian - penelitiansebelumnyadengan topik speech recognitionsudahmenunjukkan hasil yang cukupbaikdengantingkatkeakuratan rata-rata antara 70% hingga 90%.Beberapadiantaranyayaitu Skripsi Vera Monika pada tahun 2012 dengan judul skripsi “Perancangan Program Aplikasi Android Speech To Text Bahasa Indonesia dan Inggris Menggunakan Metode Hidden Markov Models” dengan presentase keakuratan hingga 91,76%. Pada penelitian Ayunisa dan Dian dengan judul “Perancangan Sistem Pengenalan Suara Untuk Pengamanan Dan Pemantauan Fasilitas PLTA”. Dan penelitian berikutnya tahun 2010 yang dilakukan oleh Yani dengan judul

“Pengembangan Hidden Markov Tersembunyi Untuk Pengenalan Kata Berbahasa Indonesia”. Berdasarkan uraian di atas, maka penulis mengambil tugas akhir dengan judul “ImplementasiSpeech Recognation Untuk Permainan Toddler Card Untuk Anak Usia Toddler Berbasis Android”.

1.2 Rumusan Masalah

Berdasarkan uraian pada latar belakang di atas, rumusan masalah yang akan dibahas ialah menerapkan fungsi speech recognation menggunakan APIGoogle speech recognition pada aplikasi toddle card untuk anak usia toddler untuk mengenal nama- nama benda, sebutan untuk keluarga, mengetahui jenis - jenis warna, dan lain-lain berbasis Android.

1.3 Batasan Masalah

Adapun dalam pembuatan aplikasi permainan toddler card berbasis Android ini, dilakukan beberapa batasan sebagai berikut:

1. Untuk setiap card memiliki tiga buah konten yaitu gambar, suara, dan teks.

2. Anak usiatoddler mengucapkan kata dari konten yang ditampilkan pada smartphone.

3. Aplikasi ini menggunakan bahasa pemrograman javadan Android SDK.

4. Perangkat keras yang digunakan adalah Gadget berbasis Androidminimal versi Ice Cream Sandwich (ICS)yang sudah meng-install fitur “Google Voice Search”.

(16)

1.4 Tujuan Penelitian

Penelitian ini bertujuan untuk membuat anak usia toddler belajar mengucapkan nama- nama benda dalam aplikasi permainan toddlercard berbasisAndroid.

1.5 Manfaat Penelitian

Penelitian ini diharapkan dapat bermanfaatbagiorang tua untuk mengajarkan anaknya mengenal nama-nama benda, sebutan untuk keluarga, mengetahui jenis-jenis warna, dan lain-lain.

1.6 Metodologi Penelitian

Metode penelitian yang dilakukan dalam penelitian ini adalah:

1. Studi literatur

Dilakukan peninjauan terhadap buku, jurnal, serta hasil penelitian yang membahas tentang speech recognition.

2. Analisis dan Perancangan

Dengan adanya rumusan dan batasan masalah, permasalahan dan kebutuhan dianalisis disertai pembuatan UML.

3. Implementasi

Speech Recognation diimplementasikan ke dalam aplikasi permainan toddlercard berbasisi Android.

4. Pengujian

Pengujian dilakukan terhadap keberhasilan proses yang dilakukan dalam mengenal kata yang diucapkan pada perangkat Android.

5. Dokumentasi

Selama pembuatan aplikasi hingga pengujian, dilakukan pendokumentasian berupa laporan skripsi.

(17)

1.7 Sistematika Penulisan

Agar pembahasan lebih sistematis, maka tulisan ini dibuat dalam lima bab, yaitu:

BAB I PENDAHULUAN

Dalam bab ini diuraikan latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaatpenelitian, metodepenelitian dan sistematika penulisan.

BAB II LANDASAN TEORI

Dalambab iniakandijelaskanteoridasardan metode yang dilakukanuntukmendukunganalisisdanperancangan yang dilakukan.

BAB III ANALISIS DAN PERANCANGAN

Bab ini membahas tentang analisis dan perancangan sistem dengan menggunakan Google library speech recognition pada perangkat Android.

BAB IV IMPLEMENTASI DAN PENGUJIAN

Pada bab ini akan menjelaskan implementasi speech recognation menggunakan Google library speech recognition, serta pengujian terhadap sistem yang telah dibangun.

BAB V KESIMPULAN DAN SARAN

Bab ini akan memuat kesimpulan dari keseluruhan uraian bab- bab sebelumnya dan saran berdasarkan hasil pengujian yang diharapkan dapat bermanfaat untuk pengembangan selanjutnya.

(18)

BAB II

LANDASAN TEORI

2.1 Pengenalan Suara

2.1.1 Definisi Pengenalan Suara

Pengenalan suara(voice recognition) adalah suatu teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang diucapkan. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi. [9]

Voice recognition sendiri dibagi menjadi dua jenis, yaitu speech recognition dan speaker recognition. Berbeda dengan speaker recognition yang merupakan pengenalan identitas yang diklaim oleh seseorang dari suaranya (khusus dapat berupa intonasi suara, tingkat kedalaman suara, dan sebagainya), speech recognitionadalah proses yang dilakukan komputer untuk mengenali kata yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait. Implementasi speech recognition misalnya perintah suara untuk menjalankan aplikasi komputer.

Secara umum, speechrecognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem.

(19)

Teknologi pengenalan suara berkembang dengan begitu pesat. Beberapa jenis diantaranya yaitu:

a. Sintesis suara (speech synthesis): dari teks ke suara.

b. Pengenalan pembicara (speaker recognition): dari suara ke identitas pembicara.

c. Pendiktean (dictation): dari suara ke teks.

d. Rangkuman suara (speech summarization): dari suara ke teks sederhana.

e. Pengkategorian suara (speech categorization): dari suara ke label kelas.

f. Pengertian suara (speech understanding): dari suara ke representasi makna suara.

g. Pemrosesan dialog (dialog processing): dari suara ke makna suara yang interaktif.

h. Penerjemah suara (speech translation): dari suara ke suara dalam bahasa lain.

Sumber: (http://web.iti.upv.es/~evidal/students/doct/ta/transp/t4mtS2S2p.pdf).

Ukuran kosakata (vocabulary) dari sistem pengenalan suara mempengaruhi kompleksitas, parameter pelatihan dan akurasi sistem.Beberapa aplikasi pengenalan suara hanya memerlukan beberapa kata, sedangkan yang lainnya memerlukan kamus yang sangat besar (misalnya mesin pendiktean). Terdapat 4 jenis ukuran kosakata, yaitu:

a. Kosakata ukuran kecil (small vocabulary) yang terdiri dari puluhan kata.

b. Kosakata ukuran sedang (medium vocabulary) yang terdiri dari ratusan kata.

c. Kosakata ukuran besar(large vocabulary) yang terdiri dari ribuan kata,

d. Kosakata ukuran sangat besar (very large vocabulary)yang terdiri dari puluhan ribu kata.

Sumber: (http://www.speech.cs.cmu.edu/comp.speech/Section6/Q6.1.html)

2.1.2 Sejarah Pengenalan Suara

Penelitian dalam Pengenalan Percakapan Otomatis (Automatic Speec Recognition—

ASR) sudah dimulai lebih dari 60 tahun yang lalu).Percobaan pertama untuk membuat sistem ASR dengan mesin berlangsung pada tahun 1950-an, saat banyak peneliti berusaha mengeksploitasi ide-ide mendasar dari fonetika akustik. Pada tahun 1952 di Laboratorium Bell, Davis, Biddulph, dan Balashek membangun sebuah sistem untuk mengenali digit yang diucapkan oleh satu pembicara. Sistem tersebut bekerja dengan cara mengukur resonansi spektral di daerah vokal pada tiap digitnya. Dengan

(20)

usaha mandiri di RCALaboratories pada tahun 1956, Olson dan Belar mencoba untuk mengenali sepuluh suku kata berbeda pada satu pembicara, yang kemudian diwujudkan dalam sepuluh kata dengan suku kata satu (monosyllabic words). Sistem tersebut juga bekerja dengan pengukuran spektral terutama di daerah vokal.Pada tahun 1959, pada sebuah Universitas di Inggris,Fry dan Denes mencoba membuatpengenal fonem untuk mengenali 4 vokal dan 9 konsonan. Mereka menggunakan Spectrum Analyzer dan pattern matcher untuk membuat keputusan pengenalan. Aspek yang tergolong baru dalam penelitian ini adalah penggunaan informasi statistik tentang urutan fonem di Inggris yang diperbolehkan (sintaks bahasa yang belum sempurna). Kasusnya adalah untuk meningkatkan akurasi fonem keseluruhan untuk kata-kata yang terdiri dari dua fonem atau lebih. Usaha lain yang dilakukan dalam periode ini adalah pengenal vokal dari Forgie, yang dibuat di MIT Lincoln Laboratories pada tahun 1959, yang mana mengenali 10 vokal yang melekat dalam format /b/-vokal-/t/ tanpa tergantung pada pembicaranya. Pada sistem ini digunakanFilter Bank Analyzer untuk menghasilkan informasi spektral, dan estimasi variasi waktu dari resonansi pernapasan manusia dibuat untuk menentukan vokal mana yang dibicarakan.

Pada tahun 1960-an beberapa ide-ide mendasar dalam pengenalan percakapan bermunculan dan dipublikasikan. Namun, ide-ide tersebut berawal di Jepang saat beberapa peneliti Jepang membuat special-purpose hardware sebagai bagian dari sistemnya.Satu sistemnya, yang dibuat oleh Suzuki dan Nakata dari Lab Radio Research di Tokyo, adalah perangkat keras pengenal vokal. Sistem tersebut menggunakan elaborated filter bank spectrum analyzer yang menghubungkan semua output dari tiap kanal analis spektrum (dengan diberi nilai) ke sirkuitvowel-decision.

Disini menggunakan skema logis keputusan mayoritas yang digunakan untuk memilih vokal yang diucapkan. Perangkat keras Jepang lainnya yang dibuat oleh Doshita dari Universitas Kyoto pada tahun 1962 adalah pengenal fonem. Dalam perangkat keras ini, diperlukan pembagi percakapan dengan analisis zero-crossingdari banyak daerah berbeda di suara input untuk menghasilkan output yang terkenali.

Usaha orang Jepang yang ketiga adalah perangkat keras pengenal digit dari Nagata di Laboratorium NEC pada tahun 1963. Perangkat keras ini merupakan yang paling

(21)

terkenal sebagai percobaan pertama dalam pengenalan percakapan di NEC dan merupakan awal dari program riset yang lama dan sangat produktif.

Penelitian percakapan pada tahun 1980-an dicirikan dengan adanya pergeseran teknologi dari pendekatan berdasarkan cetakan (template) ke metoda modeling statisticalterutama pendekatan Hidden Markov Model (HMM). Walaupun metodologi HMM dapat dipahami oleh beberapa laboratorium (terutama IBM, Institute for Defense Analyses(IDA), dan Dragon Systems), namun belum dapat disebarluaskan sebelum pertengahan tahun 1980-an, dimana pada saat itu tehnik ini telah diaplikasikan ke seluruh laboratorium riset pengenalan percakapan di dunia.

Teknologi baru lainnya yang dikenalkan di akhir tahun 1980-an adalah ide atau gagasan mengaplikasikan jaringan syaraf tiruan (JST) atau Artificial Neural Network (ANN) pada permasalahan pengenalan percakapan. JST pertama kali dikenalkan pada tahun 1950-an, namun tidak pernah terbukti berguna karena memiliki banyak masalah dalam prakteknya. Namun, pada tahun 1980-an, pemahaman mendalam tentang keuntungan dan kerugian dari JST dipelajari, sebagaimana dengan hubungan teknologi tersebut dengan metode klasifikasi sinyal klasik. Beberapa cara baru untuk mengimplementasikan sistem juga dikenalkan. [9]

2.1.3 Kelebihan dan Kekurangan Aplikasi Pengenalan Suara

Adapun kegunaan aplikasi pengenal suara yaitu:

1) Pada bidang komunikasi:

a. Sebagai komando suara pada komputer untuk melakukan perintah seperti membuka, menyimpan, menutup file dan sebagainya.

b. Sebagai alat pendiktean untuk membuat laporan dimana aplikasi akan menuliskan teks sesuai dengan yang diucapkan pembicara.

2) Pada bidang kesehatan, alat pengenal ucapan digunakan untuk membantu para penyandang cacat agar dapat beraktivitas dengan memerintahkan alat-alat bantu melalui suaranya.

3) Pada bidang militer, aplikasi alat pengenal ucapan digunakan pada pengatur lalu lintas udara yang dikenal dengan Air Traffic Controllers (ATC). Alat ini

(22)

dipakai untuk memberi keterangan mengenai keadaan lalu lintas udara seperti radar, cuaca, dan navigasi dengan kata lain sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.

4) Secara umum, pengenal ucapan banyak digunakan karena mudah yakni hanya menggunakan suara dan cepat prosesnya.

Adapun Kekurangan pengenalan ucapan yaitu:

1) Rawan terhadap gangguan sinyal suara lain terutama di tempat yang ramai.

2) Kata-kata yang diucapkan dapat sulit dikenali karena cara pengucapan yang berbeda walaupun oleh pembicara yang sama. Intonasi, logat, dan kecepatan pengucapan sangat mempengaruhi.

3) Bahasa lisan seringkali diucapkan tidak sesuai dengan kaidah tata bahasa yang baku.

4) Jumlah kata yang dapat dikenali masih terbatas.

Sumber:(http://www.faqs.org/docs/Linux-HOWTO/Speech-Recognition-OWTO.html)

2.1.4 Speech RecognitionService Pada Perangkat Android

Pengembangan aplikasi pengenalan suara dimungkinkan dengan adanya framework speech recognation yang sudah disediakan dalam SDK Android. Speech Recognition menggunakan suara yang masuk melaluiperangkat mikrofon dan dideteksi oleh perangkat lunak yang menafsirkan suara tersebut dan menerjemahkannya ke dalam kata atau kalimat. Speech recognition services dapat digunakan untuk perintah pendek seperti kalimat tanpa jeda, namunbelum mampu untuk kalimat yang relatif panjang. SDK Android2.1 dan SDK Android yang lebih tinggi dapat mendukung Speech Recognition sampai batas tertentu. Android.speech.Recognizer Intent digunakan untuk meluncurkan perekam suara. File suara akan dikirim ke server Google kemudian akan diproses, hasil dari pengelohan speech recognition akan menghasilkan beberapa pilihan kata yang keluar dari pengolahan server, sehingga fitur ini memerlukan jaringan internet yang mendukung. [Conder, Shane, & Darcey, Lauren, Android Wireless Aplication Development Second Edition,2011, Boston:

Pearson Education, Inc.].

(23)

2.2 Proses Pengenalan Suara

Umumnya pengenalan suara memiliki tahap identifikasi dan verifikasi. Pada proses identifikasi memiliki tahap normalisasi, ekstraksi ciri, klasifikasi. Pada Proses pengenalan suara terdapat proses identifikasi namun terdapat perbedaan pada proses verifikasi, pada pengenalan suara yang pasif verifikasi dilakukan dengan cara suara yang akan dikenali direkam terlebih dahulu sebelum memulai proses pengenalan suara sedangkan jika pada proses secara dinamis yaitu menggunakan pengucapan suara langsung tanpa melalui proses perekaman terlebih dahulu.

Gambar 2.1: Proses Verifikasi Suara

Beberapa faktor dapat menyebabkan kesalahan dalam proses verifikasi dan identifikasi suara antara lain:

1. Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa 2. Keadaan emosional yang ekstrim (misalnya stres)

3. Pergantian penempatan mikropon (intrasession atau intersession) 4. Kekurangan atau ketidak-konsistenan akustik dari ruangan (misalnya

multipath dan noise)

5. Sakit (misalnya flu yang dapat merubah vocal tract) 6. Aging (model vocal tract dapat berubah berdasarkan usia).

Faktor-faktor ini secara umum di luar area algoritma atau koreksi yang lebih baik dengan pengertian lain dari algoritma, misalnya mikropon yang lebih baik.

Faktor-faktor ini penting, bagaimanapun, karena tidak ada materi sebaik sebuah algoritma dari speech recognition, human error (misalnya misspeaking atau misreading) pada akhirnya mengurangi performa pengenalan suara.

Ekstraksi Ciri Klasifikasi

Hasil pengamatan

Prapemprosesan suara

(24)

2.2.1 Pre-Processing

Sinyal suara yang akan diproses bersifat analog sehingga jika akandilakukan pengolahan secara digital, sinyal suara tersebut harus dikonversi menjadi sinyal digital, berupa urutan angka dengan tingkat presisi tertentu yang dinamakan analog to digital conversion dengan menggunakan analog-to-digital converter (ADC).

Konsep Kerja ADC terdiri dari tiga proses :

Gambar 2.2: Konsep Kerja ADC (Analog To Digital Converter) Keterangan konsep kerja ADC :

1. Sampling adalah konversi sinyal kontinu dalam domain waktu menjadi sinyal diskrit, melalui proses sampling sinyal pada selang waktu tertentu. Sehingga jika x0(t) adalah sinyal input, maka outputnya adalah x0(nT), dengan T adalah interval sampling.

2. Kuantisasi adalah proses untuk membulatkan nilai data kedalam bilangan-bilangan tertentu yang telah ditentukan terlebih dahulu.

3. Coding, pada proses ini, tiap nilai diskrit yang telah didapat, direpresentasikan dengan angka binary n-bit.

2.2.2 Ekstraksi Ciri

Ciri sinyal ucapan sangat berguna pada sistem pengenalan suara. Salah satu metode yangdigunakan untuk proses ekstraksi ciri adalah LPC. Analisis prediksi linear adalah suatu cara yang digunakan untuk mendapatkan sebuah pendekatan sinyal suara.

Peramalan linear secara khusus merupakan metode yang cocok dalam pengolahan sinyal suara. Metode ini dapat juga diterapkan dalam pengenalan kata. Tujuan dari digunakannya metode ini adalah untuk mencari nilai koefisien LPC dari suatu sinyal.

Gambar 2 menunjukkan blok diagram analisis LPC.

Gambar 2.3: Blok diagram analisis LPC

(25)

Prinsip dasar dari ekstraksi ciri sinyal dengan menggunakan LPC adalah bahwa contoh sinyal ucapan s(n) pada waktu ke-n dapat diperkirakan sebagai kombinasi linear p sampel sinyal ucapan sebelumnya yaitu :

s(n) ≈ a1 s(n - 1) + a2 s(n - 2) + … + ap s(n - p) (1)

LPC melakukan analisis dengan cara memperkirakan formant, memisahkan formant dari sinyal, yang dinamakan proses inverse filtering, lalu mengestimasi intensitas dan frekuensi dari sinyal percakapan yang tersisa, yang disebut residue. Karena sinyal percakapan bervariasi seiring waktu, estimasi tersebut dilakukan untuk setiap potongan kecil dari sinyal, yang dinamakan frame.

2.3 Hidden Markov Models (HMM)

HMM merupakan model statistik dimana suatu sistem yang dimodelkan diasumsikan sebagai markov proses dengan dengan kondisi yang tidak terobservasi. Suatu HMM dapat dianggap sebagai jaringan Bayesian dinamis yang sederhana (simplest dynamic Bayesian network). HMM merupakan perluasan dari teori yang lebih sederhana yaitu markov chain. Markov chain merupakan teori yang menjabarkan kemungkinanan terjadinya suatu kejadian berdasarkan rangkaiankejadian sebelumnya dari data - data probabilitas kemunculan setiap kejadian yang mungkin serta probabilitas kemunculan dua kejadian berurutan.

Gambar 2.4: Pengkodean Suara

(Sumber: jbptunikompp-gdl-badrimunaw-22249-3-unikom_b-i.pdf)

(26)

Sistem pengenalan suara modern secara umum berdasarkan kepada Hidden Markov Models (HMM). HMM merupakan model statistika dimana mempunyai keluaran rangkaian simbol dan kuantitas. Dengan memiliki sebuah model yang memberikan kemungkinan dari rangkaian akustik data yang telah diobservasi darisebuah atau banyak kata (rangkaian kata) akan dapat menyebabkan sistem bekerja dengan rangkaian kata tersebut sesuai dengan aplikasi aturan.

Pr (word/acoustic) = pr (acoustic|word)pr(word) (2) pr(acoustic)

Dari rangakaian data akustik yang ada, pr(acoustic) adalah konstan data tidak dapat diabaikan. Pr(word) adalah merupakan kemungkinan terbesar dari suatu kata.

Pr(acoustic|word) masa yang paling terlibat didalam persamaan dan diperoleh dari HMM. Untuk dapat digunakan sebagai aplikasi pada dunia nyata, tiga masalah yang mendasar harus dapat diselesaikan.

Diberikan :

Rangkaian Pengamatan

O = ( O 1 O 2 O 3 ………O T ) (3)

Model λ = (A, B, π)

Jadi O itu adalah sebuah tahapan pengamatan, yang terdiri dari pengamatan pertama sampai pengamatan ke-T, dan Model λ = (A, B, π) adalah sebuah suatu prosedur evaluasi untuk mencari-cari dan menemukan kemungkinan menghasilkan pengamatan yang diberi O oleh suatu model yang diberi. Ini bisa digunakan untuk menemukan model terbaik di antara banyak yang menghasilkan pengamatan yang diberi.

Salah satu bentuk pemodelan suara adalah HMM .Dalam pemodelan ini suara dapat diasumsikan sebagai parameter acak yang dapat diperkirakan secara tepat.

Sinyal suara dianalisis dan dicari nilai probabilitas yang maksimum sehingga bisa dikenali dalam pemodelan HMM. Hasil dari pemodelan yaitu akan didapatkan parameter yang selanjutnya digunakan dalam proses pengenalan.

(27)

HMM adalah analisis statistika yang memodelkan sinyal suara dan mencari bentuk kata yang paling sesuai. HMM berkembang dengan sangat cepat karena pemodelan ini sangat kaya dalam struktur matematika dan mengacu pada fungsi probabilitas rantai markov.

Pemodelan HMM adalah pemodelan statistik sinyal suara yang populer dan bagus. Diberikan suatu ucapan, misalkan X = (x1, x2, x3, ..., xT) menjadi fitur urutan vektorterekstraksi dari gelombang suara, dimana X_T menunjukkan suatu pengukuran vektor jangka pendek dan secara konvensional sebuah vektor cepstral.

Misal suatu ucapan kata didefinisikan sebagai vektor-vektor suara berurutan atau pengarnatan O, yaitu:

O = O₁, O₂, ,O_T (4)

dengan O_T adalah vektor suara yang diamati pada waktu T. Masalah pengenalan kataterisolasi dapat dilihat sebagai suatu perhitungan probabilitas posterior:

arg max {P(ωi) | O)} (5)

dengan ωi adalah kosa kata ke-i. Probabilitas ini tidak dihitung langsung tetapi melalui aturan Bayes:

P(ω_i| O) = ^P(ωⁱ^{| O) P(ω}_P(O) ⁱ⁾ (6)

Jadi untuk suatu probabilitas P(ωi), peluang kata yang diucapkan tergantung hanyapada probabilitas keserupaan (likelihood) P(ωi| O). Masalah untuk memperkirakankondisi kelas kerapatan pengamatan P(ω_i| O)diganti menjadi masalah lebih sederhanauntuk mengestimasi parameter -parameter model Markov.

Gambar 2.5 Model Pembangkit Markov

(Sumber : jbptunikompp-gdl-badrimunaw-22249-3-unikom_b-i.pdf)

(28)

Dalam pengenalan suara berbasis HMM, diumpamakan vektor-vektor suarayang diamati berhubungan dengan setiap kata yang dibangkitkan oleh model Markovseperti pada Gambar 8.3. Di sini diperlihatkan proses di mana enam model keadaanbergerak melalui suatu urutan keadaan X = 1, 2, 2, 3, 4, 4, 5, 6 dalam rangka membangkitkan urutan 01 sampai 06. Maka urutan keadaan X adalah:

P(O, x | M) = a12 b2 (O1) + a22 b2(O2) +... (7)

Dalam praktek, hanya urutan pengamatan 0 yang diketahui clan urutan keadaan Xbersifat tersembunyi. Oleh karena itu mengapa metoda ini disebut sebagai ModelMarkov Tersembunyi.

Contoh permasalahan pada rantai markov:

Cuaca dalam satu hari dimodelkan ke dalam tiga status :rainy (1), cloudy (2) dan sunny (3). Aturan probabilitas dari setiap transisi status dideskripsikan sebagai berikut

A ={a Cuaca dalam satu hari dimodelkan ke dalam tiga status : rainy (1), cloudy (2) dan sunny (3). Aturan probabilitas dari setiap transisi status dideskripsikan sebagai berikut

A ={aij }=0.4 0.3 0.3 0.2 0.60.2 0.1 0.10.8

Probabilitas cuaca untuk 8 hari berturut-turut “sun-sun-sun-rain-rain-sun- cludysun” adalah :

Misalkan O adalah tahap pengamatan O={sunny, sunny, sunny, rainy, rainy, sunny, cloudy, sunny}={3,3,3,1,1,3,2,3}

P(O|Model)=P[3,3,3,1,1,3,2,3|Model]

=P[3] P[3|3]²P[1|3]P[1|1] P[3|1] P[2|3] P[3|2]

=II₃ .(a₃₃ )² a₃₁ a₁₁ a₁₃ a₃₂ a₂₃

= (1.0) (0.8)²(0.1)(0.4)(0.3)(0.1)(0.2)

= 1.536 x 10^-4 Dengan,

II₃= p[q_t =I] , 1< i < N

(29)

2.4 Pemodelan Bahasa

Pemodelanbahasa(languagemodeling)menangkapaturandalam bahasalisandan digunakandalam pengenalansuarauntukmemperkirakanprobabilitasurutan kata.Sementara kendala gramatikal yangdijelaskan dengan tata bahasa bebas konteks(context free grammars)telahdigunakanuntukkosakataukurankecildan sedang.Untukkosakata berukuran besar seperti LargeVocabularyContinuous SpeechRecognition (LVCSR) biasanyaselaludidasarkanpadadatamengacupada pendekatan.Metodestatistik yang paling populer adalahmodeln-gram,yang mencoba untuk menangkap kendala sintaksis dan semantik bahasa dengan memperkirakanfrekuensiurutansejumlah nkata.Asumsiyangdibuat untukpeluang dari string kata tertentu yaitu ( W = ω1, ω2,ω3, … ωk) yang dapat diperkirakanolehdekomposisiurutanmaju(forwardsequential decomposition) berikut ini:

(8) Sebagai contoh misalnya terdapat kumpulan kata W= {w1,w2,w3,w4},maka peluang P(W) yaitu:

P(W) = P(W₂ | W₁). P(W₃ | W₂).P(W₄ | W₃) (9) (Chou, Wu., Biing H. Juang, 2003, p165).

(30)

2.5 Penulisan Fonetik

Dalam filetranskrip misalnyaterdapat tiga kalimat sebagai berikut:

THIS CAR THAT CAT(file1) CAT THATRAT (file2) THESE STARS (file3)

dan kamus bahasa dari kata-kata di atas yaitu:

CAT K AE T CAR K AA R RAT R AE T

STARS S T AA R S THIS DH I S

THAT DH AE T THESE DH IY Z

makafrekuensiterjadinyauntuksetiapfonetikadalahsebagaiberikut(dalam skenario nyatadi manaharus melatih model triphone, maka harus menghitung triphonesjuga):

K 3 S 3 AE 5 IY 1 T 6 I 1 AA 2 DH 4 R 3 Z 1

sumber: (http://www.speech.cs.cmu.edu/sphinx/tutorial.html)

(31)

2.6Text To Speech

Pada dasarnya Text-to-Speech adalah suatu sistem yang dapat mengubah teks menjadi ucapan.Text to Speech pada prinsipnya terdiri dari dua sub sistem, yaitu :

a. Bagian konverter teks ke fonem (Text to Phoneme) b. Bagian konverter fonem ke ucapan (Phoneme to Speech)

Bagian konverter teks ke fonem berfungsi untuk mengubah kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi yang biasanya direpresentasikan dengan kode fonem, durasi serta pitch-nya. Bagian konverterfonem ke ucapan akan menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan oleh bagian sebelumnya. Berdasarkan kode-kode tersebut, bagian konverter fonem ke ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan.

Konversi dari teks ke fonem sangat dipengaruhi oleh aturan-aturan yang berlaku dalam suatu bahasa. Pada prinsipnya proses ini melakukan konversi dari simbol-simbol tekstual menjadi simbol-simbol phonetik yang merepresentasikan unit bunyiterkecil dalam suatu bahasa.

Pada perangkat Android Text-to-speech (TTS) dimulai dengan Android 1.6 (API Tingkat4).Platform Android memiliki kemampuan Text-to-Speech, disebut juga"speech synthesis", TTS memungkinkan perangkat Android untuk "berbicara" dari teks bahasa yang berbeda.Engine TTS pada platform Android akan mengubah kata menjadi suara, suara yang dihasilkan dari Engine TTS dapat diatur dengan aksen suara dari sejumlah bahasa yaitu Inggris, Perancis, Jerman, Italia dan Spanyol. Jika aksen suara yang dipilih dari bahasa Inggris(Us) maka pengucapan kata-kata tersebut diucapkan dengan aksen bahasa Inggri(Us).

(Sumber:AndroidDeveloper,2011,UsingTexttospeech,http://developer.android.com/re sources/articles/tts.html)

Text to Speech synthesis system terdiri dari 3 bagian, yaitu text pre-processing, pembangkitan prosody dan concatenation. Di bawah ini adalah diagram blok ext to speech synthesis system :

(32)

Gambar 2.6 Blok diagram text to speech synthesis system

a. Text pre-processing

Yaitu pengkonversian dari input yang berupa teks menjadi diphone (gabungan dua buah fonem). Ketika input yang berupa teks, akronim (singkatan) ataupun angka maka bagian ini akan mengkonversikan menjadi diphone yang telah tersedia di database diphone. Diagram blok untuk proses text pre-processingadalah :

Gambar 2.7 Blok diagram text pre-processing

Dari blok diagram sistem dapat dijelaskan cara kerja sistem yaitu : 1. Number Converter

Jika input pada sistem berupa angka, maka system mengkonversikan angka ke dalam representasi diphone (gabungan dua buah fonem), misal 0.25 menjadi point two five.

(33)

2. Acronym Converter

Jika input pada sistem berupa kata singkatan dalam bahasa Inggris, maka sistem mengkonversika singkatan ke dalam representasi diphone (gabungan dua buah fonem), misalnya Mr. menjadiMister

3. Word Segmenter

Jika input pada sistem berupa kata atau kalimat maka sistem mengkonversikan kata atau kalimat ke dalam representasi diphone (gabungan dua buah fonem).

4. Diphone Dictionary

Merupakan database yang berupa kumpulan dari diphone – diphone.Pembuatan diphone dilakukan dengan melakukan pelabelan pada sinyal wicara.

5. MLDS (Multi Level Data Structure)

Terdiri dari semua data yang diperlukan untuk sub system berikutnya, dalam hal ini adalah proses prosody. MLDS terdiri dari representasi diphone-diphone hasil pengkonversian inputan

b. Prosody

Yaitu untuk mendapatkan ucapan yang lebih alami, ucapan yang dihasilkan harus memiliki intonasi (prosody). Secara kuantisasi, prosodi adalah perubahan nilai pitch (frekuensi dasar) selama pengucapan kalimat dilakukan atau pitch sebagai fungsi waktu. Prosodi bersifat sangat spesifik untuk setiap bahasa, sehingga model yang diperlukan untuk membangkitkan data-data prosodi menjadi sangat spesifik juga untuk suatu bahasa. Diagram blok untuk prosodi adalah :

Gambar 2.8 Blok diagram prosody

(34)

1. Diphone Retrieval

Didalamnya terdapat tiga tahapan yang terjadi, yaitu database hasil perekaman diphone, menyimpan bentuk gelombang diphone dan Prosodic parameter dalam variabel.

2. Accoustic Manipulation

Di dalamnya terdapat proses pengenalan file-file gelombang .WAV(load, play, write), vast array dari peralatan signal processing, builtin function, ease debugging , GUI-capable

c. Concatenation

Yaitu penggabung-gabungan segmen-segmen bunyi yang telah direkam sebelumnya.Setiap segmen berupa diphone (gabungan dua buah fonem).Padaperekaman suara dilakukan beberapa kali agar mendapatkan hasil yang akurat.

2.7Anak UsiaToddler

2.7.1 Kembang Tumbuh Anak Usia Toddler

Anak usia toddler adalah anak usia 12 – 36 bulan ( 1 – 3 tahun ) pada periode ini anak berusaha mencari tahu bagaimana sesuatu bekerja dan bagaimana menngontrol orang lain melalui kemarahan, penolakan, dan tindakan keras kepala. Hal ini merupakan periode yang sangat penting untuk mencapai pertumbuhan dan perkembangan intelektual secara optimal ( Perry, 1998 ).

Usia 1 tahun merupakan usia yang penuh berbagai hal yang menarik antara lain berubah dalam cara makan, cara bergerak, juga dalam keinginan dan sikap atau perasaan si kecil apabila disuruh melakukan sesuatu yang tidak ia sukai, ini akan menyatakan sikap dan nalurinya mengatakan “tidak” baik dengan kata – kata maupun perbuatan, meskipun sebetulnya hal itu disukai (psikolog menyebutnya negatifisme).

Kenyataan ini berbeda pada saat usia di bawah satu tahun, si kecil akan menjadi seseorang penyidik yang sangat menjengkelkan, mereka akan menyelinap masuk

(35)

setiap sudut rumah, menyentuh semua benda yang ditemukannya, menggoyangkan meja dan kursi, menjatuhkan benda apapun yang bisa dijatuhkan, memanjat apa yang bisa di oanjat, memasukkan benda kecil ke dalam benda yang lebih besar dan sebagainya. ( Hurlock, 2002 )

Pada usia 2 tahun si kecil cenderung mengikuti orang tuanya kesana kemari, ikut – ikutan menyapu, mengepel, menyiram tanaman, semua ini dilakukan dengan penuh kesungguhan. Pada usia 2 tahun anak sudah mulai belajar bergaul, ia senang sekali menonton anak lain bermain, perasaan tauk dan cemas sering terjadi apabila orang tuanya meninggalkan anak sendiri. Seandainya orang tua harus bepergian lama atau memutuskan untuk kembali.

Anak pada usia 3 tahun biasanya lebih mudah dikendalikan karena anak sudah dalam perkembangan emosi, sehingga mereka mengenggap ayah dan ibunya sebagai orang yang istimewa. Sikap permusuhan dan kebandelan yang muncul pada usia antara 2,5 sampai 3 tahun tampaknya makin berkurang, sikap pada orang tua bukan saja bersahabat tapi sangat ramah dan hangat. Anak menjadi sangat patuh pada orang tuanya, sehingga mereka akan bertingkah laku baik dan menurut sekali. Jika keinginan mereka bertentangan dengan kehendak orang tuanya, karena mereka tetap mahluk hidup yang mempunyai pendapat sendiri. Pada usia 3 tahun, anak cenderung meniru siapapun yang dilakukan orang tuanya sehari – hari, disebut proses identifikasi. Dalam proses inilah karakter anak dibentuk jauh lebih banyak dibentuk dari petunjuk yang diterima dari orang tuanya, seperti membentuk model diri mereka, membina kepribadian, membentuk sikap dasar bai terhadap pekerjaan, orang tua dan dirinya sendiri. ( Hurlock, 2002 ).

2.7.2 Manfaat Penggunaan Gadget Pada Anak Usia Toddler

Seiring dengan berkembangnya teknologi yang semakin pesat, beberapa gadget seperti smartphones, tablet, atau notebookini memang mempermudah orang tua untuk memberikan pengajaran kepada anak-anak di usia dini. Mereka dapat belajar bernyanyi, berhitung, dan membaca dari program-program yang memang

(36)

ditawarkan.Salah satu dampak positif dari penggunaan gadget adalah memberikan rangsangan atau stimulasi kepada otak anak.

Umumnya ketertarikan anak akan suatu hal adalah warna, layar bergerak, serta suara. Dari permainan atau aplikasi yang dimainkan maka orang tua bisa melihat bakat serta pertumbuhan anak tersebut.Gadgetakan membantu perkembangan fungsi adaptif seorang anak. Artinya kemampuan seseorang untuk bisa menyesuaikan diri dengan keadaan lingkungan sekitar dan perkembangan zaman.

2.8 Sistem Operasi Android 2.8.1 SejarahAndroid

Android adalah sistem operasi berbasis Linux yang dibangun untuk mobile seperti smartphone dan komputer tablet. Sistem operasi ini telah dikembangkan oleh Google yang merupakan modifikasi kernel Linux 2.6.Pada awalnya sistem operasi Android dikembangkan oleh Android Inc. Lalu dibeli oleh Google pada tahun 2005.Android berbeda dari sistem operasi mobile lainnya yang memiliki kekurangan seperti keterbatasan dari aplikasi pihak ketiga untuk mendapatkan data asli ponsel, keterbatasan berkomunikasi antar proses serta keterbatasan distribusi aplikasi pihak ketiga untuk platform mereka. Keunggulan Androidyaitu setiap aplikasi memiliki tingkatan yang sama antara aplikasi inti dengan aplikasi pihak ketiga. Application Programming Interface (API) yang disediakan menawarkan akses ke hardware, data- data ponsel atau data sistem sendiri.Pengguna bahkan dapat menghapus aplikasi inti dan menggantinya dengan aplikasi pihak ketiga. [13]

Empat prinsip pengembangan sistem operasi dan aplikasi Android menurut (Hermawan S., 2011),yaitu:

1. Terbuka

Android dibangun untuk menjadi benar-benar terbuka. Sebagai contoh, sebuah aplikasi dapat mengambil dan mengakses fungsi-fungsi utama ponsel seperti membuat panggilan, mengirim pesan teks, menggunakankamera.Hal ini memungkinkan para pengembang untuk membuat aplikasi yang lebih baik.

(37)

2. Semua aplikasi dibuat sama Android tidak membedakan antara aplikasi inti dan aplikasi pihak ketiga, jadi keduanya dapat dibangun dan memiliki akses yang sama ke ponsel.

3. Mendobrak batasan-batasan aplikasi Pengembang dapatmenggabungkan informasi misalnya dari website dengan data individu dari ponsel. Selain itu pengembang juga dapat membuat aplikasi untuk melihat lokasi dan terkoneksi dengan teman-temannya.

4. Pengembangan aplikasi yang cepat dan mudah Android menyediakan akses ke berbagai library dan tool sehingga aplikasi menjadi lebih kaya akan fitur-fitur canggih.

2.8.2 The Dalvik Virtual Machine (DVM)

Salah satu elemen kunci dari Android adalah Dalvik Virtual Machine (DVM). Android berjalan di Dalvik Virtual Machine (DVM) bukan di Java Virtual Machine (JVM), sebenarnya banyak persamaanya dengan Java Virtual Machine (JVM) seperti Java ME (Java Mobile Edition), tetapi Android menggunakan virtual machine sendiri yang dikustomisasi dan dirancang untuk memastikan bahwa beberapa fitur berjalan lebih efisien pada perangkat mobile.

Dalvik Virtual Machine (DVM) adalah "register based" sementara Java Virtual Machine (JVM) adalah "stack based", DVM didesain dan ditulis oleh Dan Bornsten dan beberapa engineers Google lainnya. Jadi bisa kita katakan "Dalvik Equals (java) == False".Dalvik Virtual Machine menggunakan kernel Linux untuk menangani fungsionalitas tingkat rendah termasuk keamanan, threading serta proses manajemen memori. Ini memungkinkan kita untuk menulis aplikasi C/C+sama halnya seperti pada OSLinux kebanyakan. Meskipun dalam kenyataannya kita harus banyak memahami arsitektur dan proses sistem dari kernel Linux yang digunakan dalam Android tersebut.

Semua hardware yang berbasis Android diajalankan dengan menggunakan virtual machine untuk eksekusi aplikasi, pengembang tidak perlu khawatir tentang implementasi perangkat kera tertentu.Dalvik Virtual Machine mengeksekusi

(38)

executable file, sebuah format yang dioptimalkan untuk memastikan memori yang digunakan sangat kecil.The executable file diciptakan dengan mengubah kelas bahasa java dan dikompilasi menggunakan tools yang digunakan dalam SDK Android. [14]

2.8.3 Android SDK (Software Development Kit)

AndroidSDK merupakan sebuah tools yang diperlukan untuk mengembangkan aplikasi berbasisAndroid menggunakan bahasa pemrograman Java. Pada saat ini Android SDK telah menjadi alat bantudan API (Application Programming Interface) untuk mengembangkan aplikasi bebasis Android. AndroidSDK dapat Anda lihat dan unduh pada situs resminya, yaitu http://www.developer.android.com/. Android SDK bersifat gratis dan bebas Anda distribusikan karena Android bersifat open source. (Sumber: http://developer.android.com/sdk/index.html)

AndroidSDK terdiri dari modular packagesyang dapat di-download secara terpisah menggunakan Android SDK Manager. Misalnya, ketika toolsSDK yang diperbarui atau dirilis versi terbaru dari Android platform, developer dapat menggunakan SDK manager dengan cepat men-download ke dalam komputer.

Packages yang tersedia:

Tabel 2.1Packages Yangh Tersedia Pada SDK Manager

Packages Deskripsi Lokasi File

SDK Tools Berisi tools untuk debugging dan pengujian, ditambah utilitas lain yang diperlukan untuk mengembangkan sebuah aplikasi.

<sdk>/tools/

SDK platform-tools Berisi tools yang tergantung pada platform untuk mengembangkan dan debugging aplikasi. Tools ini mendukung fitur terbaru dari platform Android dan biasanya diperbarui hanya ketika platform baru telah tersedia. Tools ini selalu kompatibel dengan platform yang sebelumnya.

<sdk>/platfor m-tools/

Dokumentasi Sebuah salinan offline dokumentasi terbaru dari API platform Android.

<sdk>/docs/

(39)

SDK Platform Hanya ada satu platform SDKyang tersedia untuk setiap versi Android. Ini mencakup android.jar berkas dengan libarary Android sepenuhnya kompatibel. Dalam membangun sebuah aplikasi Android, developer harus menentukan sebuah platform SDK sebagai target tujuan membangun aplikasi.

<sdk>/platfor ms/<android- version>/

System Images Setiap versi platform menawarkan satu atau lebih gambar sistem yang berbeda (seperti untuk ARM dan x86). Emulator Android memerlukan gambar sistem untuk beroperasi.

Developer harus selalu menguji aplikasi pada versi terbaru dari Android dan menggunakan emulator dengan gambar sistem terbaru adalah cara yang baik.

<sdk>/

platform/

<android- version> /

Source For Android SDK

Salinan source code platform Android berguna untuk menjalankan melalui kode saat debugging aplikasi.

<sdk>/sources /

Dalam beberapa kasus, SDK packages mungkin memerlukan revisi minimum tertentu dari packages lain atau tools SDK. Sebagai contoh, mungkin ada ketergantungan antara ADT Plugin untuk Eclipse dan Packages SDK Tools.Ketika menginstal Packages SDK Tools, developer juga harus meng-upgrade ke versi yang dibutuhkan dari ADT (jika menggunakan di Eclipse). Dalam hal ini, nomor versi utama untuk Plugin ADT harus selalu sesuai dengan nomor versi dari tools SDK (misalnya, ADT 8.x membutuhkan SDK tools r8).

2.8.4 Siklus Activity

(40)

Setiap User Interface diwakili oleh kelas Activity (Activity class).Sebuah aplikasi dapat terdiri dari satu atau lebih activity yang diproses dalam Linux.

Gambar 2.9. Siklus Activity

Selama siklus ini berjalan, activity bisa mempunyai lebih dari 2 status seperti yang terlihat pada gambar 2.9.User tidak bisa mengontrol setiap status karena semuanya sudah ditangani oleh sistem. Namun user akan mendapat pesan saat terjadi perubahan status melalaui method onXX(). Berikut penjelasan setiap status:

Tabel 2.2Method Activity

Status Method Deskripsi

*Optional onDestroy()

<process Killed> or (1) onResume() (2) onStart() (3) onRestart()

(1) onSaveIntanaceState()*

(2) onStop() onResume

(1) onSaveInstanceState()*

(2) onPause() (1) onCreate()

(2) onStart()

(3) onRestoreInstancesState()*

(4) onResume

Starting

Running

Paused Stopped

Destroyed

(41)

onCreate(Bundle) Dipanggil saat pertama kali aplikasi dijalankan. Kita dapat menggunakan ini untuk deklarasi variabel atau membuat user interface.

onStart() Mengindikasikan activity yang ditampilkan

ke pengguna (user).

onResume() Dipanggil saat aplikasi mulaiberinteraksi

dengan pengguna.Disini sangat cocok untuk meletakkan animasi ataupun musik.

onPause() Dipanggil saat applikasi yang dijalankan

kembali ke halaman sebelumnya atau biasanya karena ada activity baru yang dijalankan. Disini cocok untuk meletakkan algoritma penyimpanan (save).

onStop() Diapnggil saat aplikasi berjalan di belakang layar dalam waktu cukup lama.

onRestart() Activity kembali menampilkan user interface setelah status stop.

onDestroy() Dipanggil saat aplikasi benar-benar berhenti.

onSaveInstanceState(Bu ndle)

Method ini mengijinkan activity untuk menyimpan setiap status intance. Misalnya dalam mengedit teks, kursor bergerak dari kiri ke kanan.

onRestoreInstanceState (Bundle)

Diapanggil saat activity kembali menginisialisasi dari status sebelumnya yang disimpan oleh

onSaveInstanceState(Bundle).

a. Activity

Normalnya setiap activity menampilkan satu buah user interface kepada pengguna.

Misalnya sebuah activity menampilkan daftar menu minuman, kemudian pengguna dapat memilih satu jenis minuman.Contoh lainnya pada aplikasi SMS, dimana satu activity digunakan untuk menulis pesan, activity berikutnya untuk menampilkan

(42)

nomor kontak tujuan, atau activity lainnya digunakan untuk menampilkan pesan- pesan lama. Meskipun activity-activity diatas terdapat dalam satu aplikasi SMS, namun masing-masing activity berdiri sendiri. Untuk pindah dari satu activity ke activity lainnya dapat melakukan suatu event misalnya tombol diklik atau melalui trigger tertentu.

b. Service

Service tidak memliki user interface, namun berjalan di belakang layar. Misalnya music player, sebuah activitydigunakan untuk memilih lagu kemudian di-play. Agar music player bisa berjalan dibelakang aplikasi lain maka harus menggunakan service.

c.Intens

Intens adalah mekanisme untuk menggambarkan sebuah action secara detail seperti bagaimana cara mengambil sebuah poto.

d. Content Providers

Menyediakan cara untuk mengakses data yang dibutuhkan oleh suatu activity, misalnya kita menggunakan applikasi berbasis peta (MAP). Activitymembutuhkan cara untuk mengakses data kontak untuk prosedur navigasi. Disinilah peran content providers.

e. Resource

Resource digunakan untuk menyimpan file-file non-codingyang diperlukan pada sebuah aplikasi misalnya file icon, file gambar, file audio, file video atau yang lain.

Gambar berformat JPG atau PNG sebuah aplikasi biasanya disimpan dalam folder res/drawable, icon applikasi disimpan dalam res/drawable-ldpi dan file audio disimpan dalam folder res/raw. File XML untuk membentuk sebuah user interface disimpan dalam folder res/layout. (Sumber: PintarPemrogramanAndroid#1.pdf) 2.9API AndroidSpeech Recognition

Pengembangan aplikasi pengenalan suara dimungkinkan dengan adanya frameworkspeech recognation yang sudah disediakan dalam SDK Android.Seperti kita ketahuibahwaAndroidadalah platform terbuka, sehinggaaplikasi yang kita buatdapat membuatpenggunaan layananpengenalan suarapada perangkatuntuk

(43)

menerimaRecognizerIntent.Android.speech.RecognizerIntent digunakan untuk meluncurkan perekam suara. File suara akan dikirim ke server Google kemudian akan diproses, hasil dari pengelohan Speech Recognition akan menghasilkan beberapa pilihan kata yang keluar dari pengolahan server.

RecognizerIntentdidefinisikan untukmendukungpengenalan suaramelalui intent.Android.speech.RecognizerIntent.ACTION_

RECOGNIZE_SPEECHakanmemulaikegiatan yangakanmeminta pengguna untukberbicara danmengirimnya melaluispeech recognizerdan Android.speech.

RecognizerIntent.EXTRA_LANGUAGE_MODE

akanmenginformasikanrecognizeryangbicaramodeluntuk memilihketika melakukanACTION_RECOGNIZE_SPEECH.

Android SDK membuat mudah untuk mengintegrasikan masukan suara langsung ke aplikasi sendiri hanya copy paste.Android adalah platform terbuka, sehingga aplikasi berpotensi dapat membuat penggunaan teknologi pengenalan suara pada perangkat yang support untuk menerima RecognizerIntent.Aplikasi Google Voice Search, yang sudah terinstall pada perangkat Android, merespon

RecognizerIntent dengan menampilkan fitur "Speak Now" dialog dan streaming audio ke server-server Google yang sama yang digunakan saat pengguna menekan tombol mikrofon pada widget pencarian atau keyboard suara yang sudah diaktifkan.

Server Google saat ini mendukung bahasa Inggris, Mandarin, dan Jepang.

2.10 Penelitian Yang Relevan

Berikut penelitian tentang speech recognition dalam beberapa implementasi:

(44)

1. Dalam jurnal Achmad Hidayatno [6]. Penelitian yang intensif dalam bidang pengolahan sinyal menyebabkan teknologi komunikasi berkembang dengan pesat. Salah satunya adalah pengenalan ucapan (speech recognition). Pengenalan ucapan merupakan upaya agar manusia dan mesin dapat berkomunikasi dengan media suara.

2. Pada penelitian Agus Buono[3],penerapan model HMM sebagai pengenal kata dengan ekstraksi ciri menggunakan teknik MFCC yang berbasis nilai power spektrum dari suara.

3. Pada Tugas Akhir Vera Monika [9]. Perangkat keras yang mudah dibawa dan digunakan oleh hampir semua orang di zaman yang modern ini adalah telepon seluler atau telepon pintar (smartphone). Dengan menggunakan sistem operasi Android dan metode Hidden MarkovModel(HMM), penulis akan menciptakan program aplikasi penerjemah dari Bahasa Inggris ke Bahasa Indonesia dan sebaliknya. Aplikasi pengenalan suara (speech recognition)yaitu Android speech to textini akan bekerja dengan cara menangkap suara sebagai input. Suara tersebut diproses dengan metode HMM dimana akan dicari peluang terbesar yang cocok dengan model bahasa yang ada dan akan ditampilkan dalam bentuk teks. Hasil teks tersebut dapat diterjemahkan ke bahasa yang berlawanan dalam hal ini antara Bahasa Inggris dan Bahasa Indonesia.

(45)

BAB III

ANALISIS DAN PERANCANGAN

3.1 Analisis Sistem

Analisis sistem dapat didefinisikan sebagai penguraian dari suatu sistem yang utuh kedalam bagian-bagian komponennnyadengan maksud untuk mengidentifikasi dan mengevaluasi permasalahan-permasalahan yang terjadi dan kebutuhan - kebutuhan yang diharapkan sehingga dapat diusulkan perbaikan-perbaikannya.

3.1.1 Analisis Masalah

Speech recognitionmemilikibanyakkegunaan terutama di bidangteknologiinformasi.Seiringdenganmeningkatnyajumlah penggunan gadgetAndroidbaikbentuksmartphonemaupuntablet, mulai bertambah pula aplikasi - aplikasimenarikdan bermanfaat yang diciptakanolehparadeveloper. Penulis melihat teknologi speech recognition belum diaplikasikan ke dalam pembelajaran untuk anak usiatoddler dalam melatih berbicara. Oleh karena itu aplikasi ini sekiranya dapat membantu anak usiatoddler untuk berlatih mengucapkan sesuatu. Aplikasi permainan ini akan dibangun dengan menggunakan API Libarary Google speech recognition sebagai engine untuk mengenali kata yang diucapkan oleh anak usia toddler.

Analisis masalah digambarkan dengan Diagram Ishikawa(fishbone Diagram) berikut ini.Bagian kepala atau segiempat yang berada di sebelah kanan merupakan masalah.Sementara di bagian tulang-tulangnya merupakan penyebab.

(46)

Pengenalan Kata Yang Diucapkan Anak

Usia Toddler User (Orang Tua) Metode

User (Anak)

Hidden Markov Models User Meng-upload

Konten Card

User Dapat Mengucapkan Kata

Material

Konten Card Yang Dinamis API Google Speech Recognition

Gambar 3.1 Diagram Ishikawa Untuk Analisa Masalah

3.1.2 Analisis Kebutuhan (Requirement Analyst)

Analisis persyaratan terdiri atas dua bagian yaitu analisis fungsional dan analisis nonfungsional.Kedua analisis ini merupakan hal penting untuk menentukan hal-hal yang harus dimiliki sistem.

3.1.2.1 Analisis Fungsional

Analisis fungsional dibutuhkan untuk mengetahui hal-hal yang bisa dikerjakan oleh sistem.Berikut dijabarkan fungsi-fungsi yang dapat dikerjakan oleh sistem.

1. Sistem akan menampilkan konten card yang sudah di-upload oleh user (orang tua).

2. Sistem melakukan validasi suara masukan dari user(anak usiatoddler).

3. Untuk memberikan hasil dari validasi suara, sistem akan memberikan jawaban dengan keluaran suara benar atau salah dengan memberikan jawaban yang benar.

3.1.2.2 Analisis Nonfungsional