IMPLEMENTASI SPEECH RECOGNITION SEBAGAI SISTEM KONTROL PADA SMART HOME BERBASIS MIKROKONTROLER MENGGUNAKAN METODE HIDDEN MARKOV MODEL (HMM)

(1)

IMPLEMENTASI SPEECH RECOGNITION SEBAGAI

SISTEM KONTROL PADA SMART HOME BERBASIS

MIKROKONTROLER MENGGUNAKAN METODE HIDDEN

MARKOV MODEL (HMM)

Ratna Aisuwarya

1)

, Khadijah Icha Putri

2)

, Mohammad Hafiz Hersyah

3) 1,2,3)

Sistem Komputer Universitas Andalas

Jl. Kampus Unand Limau Manis, Padang 25163 Indonesia

email :[email protected], [email protected],u [email protected]

ABSTRACT

Speech Recognition is a system to identify letters, words, or sentences spoken. Speech Recognition has not yet implemented commonly as the system to control Smart Homes, so it need to be develop for ease in controlling household tools. For that purpose, this research intended to make smart home controllong system by using speech recognition. There are 4 words which will be processed in this research, namely on, off, open and close “Hidup”, “Mati”, “Buka”, and “Tutup” which will be marked by LED turning on and off and motor servo right and left.

Voice recognition was trained by using Hidden Markov Model (HMM) and Hidden Markov Model Toolkit software (HTK) to represent voice recognition pattern and using python programming. Based on the test results from the trainer’s voice, voice of 2 women and 2 men from different age as respondents, obtained that the device can work and the voice command can be recognized but has different level of respons for each command. It can be conclude that the voice command can be recognized and the device can function according to the command given.

Keywords

Speech Recognition, Smart Home, Ardunio Mega ADK, HMM, HTK

1. Pendahuluan

Rumah pada dasarnya merupakan tempat tinggal, tempat beristirahat setelah melakukan aktifitas sehari-hari, dan tempat untuk berkumpul bersama keluarga, kerabat ataupun teman, dengan begitu rumah merupakan hal yang penting dan rumah harus menjadi tempat yang nyaman. Untuk mencapai kenyamanan tersebut maka dirancanglah suatu sistem yang dinamakan smart home system (sistem

rumah pintar). Sekarang ini perkembangan otomatisasinya lebih banyak atau lebih umum menggunakan remote control sedangkan remote contol itu mudah rusak misalnya saja ketika terkena air ataupun terjatuh bahkan hilang. Sedangkan pengontrolan dengan mengunakan suara dirasa jauh lebih efektif, namun belum banyak diaplikasikan baru sekedar suara tepukan tangan atau siulan.

Dari hal tersebut maka dibuat suatu sistem rumah pintar yang dapat mengontrol alat-alat elektronik dengan pengontrolan suara berupa kata atau ucapan. Cukup dengan perintah suara yang diucapkan oleh pemilik rumah alat-alat elektronik tersebut bisa dikontrol. Perintah dengan suara dapat dikenali dengan menggunakan speech recognition system. Pada implementasinya input berupa perintah suara, lalu output aplikasi akan bergerak sesuai dengan perintah yang diucapkan. Diharapkan sistem yang akan dibuat ini dapat menjadi salah satu alternatif untuk pengontrolan alat elektronik yang berada di rumah, agar lebih praktis dan nyaman saat berada dirumah. Juga dapat membantu bagi orang-orang yang memiliki keterbatasan seperti tunanetra, lumpuh, cacat atau sebagainya.

2. Landasan Teori

2.1 Smart Home

(Rumah Pintar)

Konsep smart home saat ini sedang menjadi trend untuk rumah tinggal pribadi di Indonesia, mulai dipopulerkan beberapa pengembang di Jakarta. Sebenarnya konsep smart home bukanlah hal yang baru, sudah dikembangkan di Eropa pada awal 1980, terus berkembang hingga saat ini seiring dengan perkembangan teknologi dan gatget. Smart home system (Sistem rumah pintar) adalah sebuah sistem berbantuan komputer yang

(2)

akan memberikan segala kenyamanan, keselamatan, keamanan dan penghematan energi, yang berlangsung secara otomatis dan terprogram melalui komputer, pada gedung atau rumah tinggal[1].

Gambar 1. Smart Home

2.2 Speech Recognition

(Pengenalan Suara)

Speech recognition adalah suatu proses untuk mengenali huruf, kata atau kalimat yang diucapkan. Pengenalan suara lebih dikenal dengan istilah Automatic Speech Recognition atau Computer Speech Recognition dimana penggunaan sebuah mesin/komputer untuk mengenali sebuah suara atau identitas seseorang dari suara yang diucapkan. Umumnya pengucap berbicara di depan komputer/mesin kemudian komputer/mesin mengenali suara/identitas seseorang dengan tepat sesuai yang diucapkan[3].

2.2.1 Pemrosesan Sinyal Suara

Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung [6]. Pemrosesan suara itu sendiri merupakan teknik menransformasi sinyal suara menjadi informasi yang berarti sesuai dengan yang diinginkan [5].

Sinyal secara umum dapat dikategorikan sesuai dengan peubah bebas waktu, yaitu:

1. Sinyal waktu kontinyu: kuantitas sinyal terdefinisi pada setiap waktu dalam selang kontinyu. Sinyal waktu kontinyu disebut juga sinyal analog.

2. Sinyal waktu diskret: kuantitas sinyal terdefinisi pada waktu diskret tertentu, yang dalam hal ini jarak antar waktu tidak harus sama.

Secara umum proses transformasi tersebut, terdiri atas digitalisasi sinyal analog, ekstraksi ciri dan diakhiri dengan pengenalan pola untuk klasifikasi.

Gambar 2. Transformasi sinyal suara menjadi informasi 2.2.2 Hidden Markov Model

Hidden markov model (HMM) merupakan suatu model stokastik yang menggambarkan dua keterkaitan antar peubah yaitu peubah yang tak teramati (hidden state) dari waktu ke waktu, serta peubah yang teramati (observable state) [7].

Dalam implementasinya, HMM dibagi menjadi dua tipe dasar yaitu:

1. HMM ergodic

Pada HMM model ergodic, perpindahan state yang satu ke state yang lain semuanya memungkinkan atau bisa juga dikatakan perpindahan (transisi) state-nya bebas, seperti yang ditunjukkan pada gambar 3.

(3)

2. HMM left-right

Pada HMM left-right, perpindahan state hanya dapat berpindah dari kiri ke kanan saja tidak dapat mundur ke belakang, seperti yang ditunjukkan pada gambar 4.

Gambar 4. HMM model left-right 2.2.3 Hidden Markov Model Toolkit (HTK)

Hidden Markov Model Toolkit (HTK) adalah tool atau perangkat lunak yang mudah digunakan untuk membangun dan memanipulasi Hidden Markov Model[7]. HTK pada dasarnya digunakan untuk penelitian mengenai pengenalan suara meskipun juga digunakan untuk sejumlah aplikasi yang lain termasuk penelitian dalam suara sintetis, pengenalan karakter, dan pengurutan DNA. Perangkat– perangkat tersebut memberikan fasilitas yang handal untuk speech analysis, HMM training, testing dan results analisis. Perangkat lunak ini mendukung HMM baik yang menggunakan continuous density mixture gaussians atau discrete distributions dan juga bisa digunakan untuk membangun sistem HMM yang komplek.

Arsitektur perangkat lunak HTK dibangun dari modul modul sebagaimana yang dapat dilihat seperti pada gambar 5 di bawah ini :

Gambar 5. Arsitektur HTK

2.3 Arduino Mega ADK

Mikrokontroler arduino mega ADK memiliki prosesor Atmel AVR dan softwarenya memiliki bahasa pemrograman sendiri[2]. Hardware yang diprogram menggunakan bahasa berbasis Wiring (sintaks + perpustakaan), mirip dengan C dengan beberapa penyederhanaan dan modifikasi, dan pengolahan berbasis IDE.

Gambar 5. Arduino Mega ADK

Arduino Mega ADK adalah board Arduino terbaru dan merupakan mikrokontroler yang berdasarkan pada ATmega 2560. Arduino Mega ADK ini mempunyai USB host interface yang dapat dihubungkan dengan handphone berbasis Android. Cocok (compatible) dengan contoh Android's Accessory Development Kit. Mempunyai 54 pin digital input/ouput (14 diantaranya dapat digunakan sebagai PWM output), 16 pin input analog, 4 UART (hardware serial ports), sebuah cristal osilator 16 MHz, koneksi USB, sebuah dc jack power, sebuah header ICSP dan tombol reset.

3. Metodologi Penelitian

3.1. Perancangan

Hardware

Perancangan perangkat keras sistem alat pemantau pernapasan pada penelitian ini dapat dilihat pada gambar 6:

Input Suara

PC

Mikrokontroler

Arduino Mega

ADK

Lampu

Garasi

Gambar 6. Blog Diagram

3.2. Perancangan

Software

Untuk perancangan perangkat lunak, tahap awal yang harus dilakukan adalah inisialisasi awal supaya system yang dibuat dapat bekerja. Tahapannya terdiri atas:

(4)

a. Pengaturan Mikrofon b. Perekaman Suara c. Instalasi HTK dan Julius d. Instalasi Python

e. Instalasi Arduino

3.2.1 Perancangan Proses Speech Recognition menggunakan HTK berdasarkan metode HMM

Start Perekaman HTK Output Texts Stop F T Input Suara (Mikropon)

Gambar 7. Flowchart Pengenalan Suara

1. Langkah pertama dalam pengenalan suara yaitu melakukan penginputan serta perekaman suara dengan perintah Hidup, Mati, Buka dan Tutup. Serta kata-kata yang lainya sebanyak 250 kata yang berbeda-beda. Yang nantinya akan digunakan sebagai data training pada sistem pengenalan suara. Pada penelitian ini digunakan sampel suara dari satu orang dengan jenis suara wanita.

2. Suara manusia berupa sinyal analog yang ditangkap oleh mikrofon dan sinyal tersebut akan diolah menjadi sinyal digital. Perekaman dan pelabelan adalah cara awal yang di lakukan dalam pengenalan suara. Setiap pengenalan dibuat terlebih dahulu database sebagai standar yang digunakan nantinya pada saat analisis maupun training.

3. Kemudian data akan diolah menggunakan software HTK dan Julius sehingga dapat membangun dan memanipulasi Hidden Markov Model. Dan nantinya ucapan dapat dikenali.

3.2.2 Pengenalan suara/Pengenalan Pola menggunakan HTK

Untuk memanipulasi HMM ada empat langkah seperti yang diilustrasikan pada gambar 8 yaitu:

Persiapan Data

Pelatihan (Training)

Analisis Pengujian (Testing/Recognition)

Gambar 8. Tahapan pada HTK 1. Persiapan Data

a. Pembuatan Tata Bahasa

Pada pembuatan tata bahasa nantinya dibutuhkan file dengan ektensi .voca dan .grammar digunakan sebagai parameter untuk membuat tata bahasa yang dapat dikenali oleh system pengenalan suara.

b. Pembuatan Kamus Bahasa (dictionary)

Untuk pembuatan dictionary dalam HTK maka harus membuat file prompts dan file lexicon. File promts berisi daftar kata-kata yang akan direkam nantinya dan file lexicon berisi kata-kata umum dan kata-kata yang digunakan dalam proses perekaman suara. Bertujuan sebagai titik acuan untuk tahap pengenalan suara.

c. Data Audio

Data audio dapat diimport dari system lain, dengan menggunakan perintah HCopy dimana nantinya data tadi akan dikonversi dari format wav menjadi mfc. Folder suara ini nantinya akan disimpan dalam folder train, nantinya dalam folder train berisi folder wav dan folder mfcc. wav folder merupakan data yang berisi file suara Voice1.wav, Voice2.wav, Voice3.wav, Voice4.wav dan seterusnya, kemudian file suara .wav akan diubah (convert) menjadi data .mfc, mfcc folder berisi file dengan estensi .mfc seperti Voice1.mfc, Voice2.mfc, Voice3.mfc, Voice4.mfc,dan seterusnya.

Nama pada masing-masing file perekaman harus sama dengan file prompt. Peroses ini merubah sinyal suara analog menjadi sinyal suara digital sehingga bisa dimengerti oleh komputer dan pada proses training nantinya akan terjadi proses pencocokkan kata-kata yang telah direkam dengan kamus kata yang telah dibuat. 2. Pelatihan (Training)

Pada tahap pelatihan ini dilakukan beberapa tahapan agar hasil yang didapat lebih valid. Selanjutnya yaitu dengan membuat akustik model. Akustik model merupakan representasi statistikal dari tiap bunyi yang membentuk kata. Akustik model berisi suara dari masing-masing kata yang telah dibuat pada kamus bahasa.

(5)

Sehingga akan didapatkan sub kata atau kata dasar, hasil proses dari pencocokan antara file suara dengan kamus bahasa atau daftar kata-kata yang telah dibuat. Ilustrasi prosesnya dapat dilihaat pada gambar 9 berikut:

Gambar 9. Tahap Speech Recognition 3. Pengujian (Testing/Recognition) dan Analisa

Pada tahap pengujian data file suara akan diuji menggunakan perintah $julius –input mic –C Julian.jconf, kemudian akan diperoses apakah kata dapat dikenali atau tidak. Data yang diperoleh akan ditampilkan sehingga kita mendapat mengambil kesimpulan dari proses pengenalan suara yang telah dilakukan.

3.3 Implementasi

Setelah program dibuat maka selanjutnya mengimplementasikan berupa prototype smart home. Dalam tahap ini direalisasikan apa yang terdapat pada tahap sebelumnya menjadi sebuah aplikasi yang sesuai dengan apa yang direncanakan. Untuk mengetahui proses kerja dari sistem ini, akan dapat lebih dipahami melalui gambar 10 berikut ini:

13 ft. x 5 ft.

L1

TIRAI TIRAI

Pintu Garase

Gambar 10. Prototipe Smart Home

Pada prototype ini akan dirancang beberapa ruangan yaitu: 1. Pintu garase, pada bagian ini pintu garase akan

terbuka atau tertutup otomatis dengan menggunakan perintah suara “buka atau tutup”.

2. L1 (lampu ruang tamu), lampu akan hidup atau mati dengan menggunakan perintah suara “hidup atau mati” .

4. Hasil dan Analisa

Implementasi sistem pengenalan suara yang berhasil diterapkan untuk sistem control pada smart home dapat dilihat pada gambar 11 :

Gambar 11. Implementasi Speech Recognition pada Prototype Smart Home

4.1 Pengujian dan Analisa

Setelah mengimplementasikan rancangan yang dibuat maka tahap selanjutnya adalah pengujian beserta evaluasi dari system yang telah dibuat. Tujuan dari pengujian ini adalah untuk menganalisa apakah alat dapat dikontrol dengan menggunakan perintah suara berdasarkan metode HMM,

Sebelum melakukan pengujian perlu dilakukan inisialisasi awal seperti mengatur jarak antara microfon dengan pengguna. Berikut beberapa hasil pengujian yang diperoleh dengan parameter suara trainer dan non-trainer.

1. Pengujian dengan suara trainer dengan suara orang yang berbeda tetapi memiliki jenis suara yang sama yaitu suara perempuan.

(6)

Tabel 1. Pengujian dengan Suara Perempuan

No Perintah Output

Perintah

Hasil Sistem

Trainer Non-Trainer

1 Hidup Lampu menyala Lampu menyala

Lampu menyala 2 Mati Lampu mati Lampu mati Tidak

merespon 3 Buka Garase terbuka Garase

terbuka

Garase terbuka 4 Tutup Garasi tertutup Garasi

tertutup

Tidak merespon 5 Hidup Lampu menyala Lampu

menyala

Lampu menyala 6 Mati Lampu mati Lampu mati Lampu mati 7 Buka Garase terbuka Garase

terbuka

Garase terbuka 8 Tutup Garasi tertutup Tidak

merespon

menyala

terbuka

Tidak Merespon 12 Tutup Garasi tertutup Garasi

tertutup

Tidak Merespon 13 Hidup Lampu menyala Lampu

menyala

terbuka

Tidak merespon 16 Tutup Garasi tertutup Garase

Tertutup

menyala

terbuka

Tidak merespon 20 Tutup Garasi tertutup Garasi

tertutup

Tidak merespon

Dapat dilihat pada Tabel 1, sistem masih mampu mengenali beberapa perintah yang diucapkan oleh user non-trainer. Hal ini dikarenakan kemiripan jenis suara, yaitu suara perempuan.

2. Pengujian dengan suara non-trainer dengan jenis suara yang berbeda yaitu suara laki-laki.

Tabel 2. Pengujian dengan Suara Laki-laki

No Perintah Output

Perintah Hasil Sistem Ket

1 Hidup Lampu

menyala Tidak Merespon Gagal 2 Mati Lampu mati Tidak Merespon Gagal 3 Buka Garase terbuka Garase terbuka Sukses 4 Tutup Garasi tertutup Tidak Merespon Gagal

5 Hidup Lampu

menyala Lampu menyala Sukses 6 Mati Lampu mati Lampu mati Sukses 7 Buka Garase terbuka Tidak Merespon Gagal 8 Tutup Garasi tertutup Garasi tertutup Sukses

9 Hidup Lampu

menyala Lampu menyala Sukses 10 Mati Lampu mati Tidak Merespon Gagal 11 Buka Garase terbuka Tidak Merespon Gagal 12 Tutup Garasi tertutup Tidak Merespon Gagal

13 Hidup Lampu

menyala Tidak Merespon Gagal 14 Mati Lampu mati Lampu mati Sukses 15 Buka Garase terbuka Tidak Merespon Gagal 16 Tutup Garasi tertutup Tidak Merespon Gagal

17 Hidup Lampu

menyala Tidak Merespon Gagal 18 Mati Lampu mati Tidak Merespon Gagal 19 Buka Garase terbuka Tidak Merespon Gagal 20 Tutup Garasi tertutup Tidak Merespon Gagal

Berdasarkan Tabel 2 dapat dilihat bahwa hanya beberapa perintah yang dapat dikenali oleh sistem.

Hal ini disebabkan oleh data suara trainer yang hanya satu jenis perempuan saja. Sehingga keberhasilan menjadi lebih rendah jika diujikan dengan jenis suara yang berbeda.

Secara keseluruhan pengujian yang dilakukan dalam menganalisa sistem pengenalan suara yang dibuat adalah seperti berikut :

1. Mengucapkan perintah yang sesuai dengan perancangan.

Perintah yang digunakan dalam sistem pengenalan suara ini terdiri dari 4 buah yaitu : hidup, mati, buka dan tutup. Hasil yang diharapkan adalah semua perintah yang diucapkan berhasil dikenali oleh sistem dan dapat mengontrol peralatan elektronik yang telah dihubungkan.

2. Suara orang lain

Perintah suara dilakukan dengan menggunakan suara orang yang berbeda yaitu dengan mengambil data 2 orang perempuan yang berbeda umur dan 2 orang

(7)

laki-laki yang berbeda umur. Dengan menggunakan orang yang berbeda seharusnya system tidak dapat merespon atau dapat merespon alat tetapi tidak seakurat trainer.

3. Berada dilingkungan yang terdapat noice

Perintah dilakukan ditempat yang terdapat noise atau berisik, dengan demikian seharusnya alat dapat tetap bisa merespon walaupun tidak sebaik ketika dilingkungan yang tidak terdapat noice.

4. Menggunakan perintah yang salah

Perintah yang salah disini adalah perintah yang tidak terdapat pada model pengucapan yang telah dibuat. Dengan mengucapkan perintah yang tidak terdaftar maka seharusnya sistem tidak dapat mengenali perintah yang diucapkan sehingga tidak ada respon terhadap peralatan yang dikontrol.

5. Menggunakan perintah yang hampir sama dengan kata hidup, mati, buka dan tutup.

Perintah yang hampir sama disini akan diujikan apakah nantinya alat tetap bisa merespon apabila diperintahkan kata yang hampir sama dengan kata hidup, mati, buka, dan tutup atau alat sama sekali tidak bisa merespon apabila diperintahkan selain kata perintah yang telah ditetapkan tersebut.

Berdasarkan pengujian yang telah dilakukan dengan data inputan dan hasil yang diperoleh seperti yang terdapat pada table diatas maka dapat dievaluasi dengan menggunakan grafik keberhasilan seperti gambar 12:

Gambar 12. Grafik tingkat kesuksesan alat

Analisa yang diambil dari hasil pengujian yang telah dilakukan sebagai berikut:

1. Pengujian 1

Berdasarkan data diatas tingkat keberhasilan 100% untuk kata hidup, 100% untuk kata mati, 100% untuk kata buka dan 80% untuk kata tutup. Menggunakan suara perintah dari trainer, system pengenalan suara

dapat merespon perintah yang diberikan dengan sangat baik.

2. Pengujian 2 dan Pengujian 3

Berdasarkan data diatas yang diambil dari suara perempuan yang memili umur yang berbeda yaitu 38 tahun dengan 23 tahun, memiliki tingkat keberhasilan 100%:100% untuk kata hidup, 80%:80% untuk kata mati, 40%:40% untuk kata buka dan 0%:20% untuk kata tutup. Responsifitanya berbeda karena pengaruh umur mempengaruhi frekuensi suara dan nada/intonasi pengucapan. Dengan begitu sistem tetap bisa dikontrol meskipun dengan orang yang berbeda asalkan kata dan nada pengucapannya hampir sama tetapi tidak seresponsif ketika yang melakukan pengujian adalah trainer.

3. Pengujian 4 dan Pengujian 5

Sistem tetap dapat berfungsi berdasarkan perintah dari suara laki-laki namun memiliki responsifitas yang sangat kecil dibandingkan dengan perintah oleh suara perempuan dikarenakan suara trainer merupakan suara perempuan. Hal ini berpengaruh terhadap frekuensi suara perempuan dan laki-laki yang memiliki perbeda dan intonasi/nada juga mempengaruhi system ini. Berdasarkan data diatas M. Wanatli umur 28 tahun dan Ridwan umur 54 tahun memiliki tingkat keberhasilan untuk kata hidup 40%:40%, mati 40%:40%, buka 20%:0% dan tutup 20%:0%.

4. Pengujian 6

Sistem pengenalan suara ini sangat berpengaruh terhadap noice, apabila dalam keadaan yang hening atau tanpa noise system dapat merespon dengan sangat baik namun apabila berada dalam kondisi yang ribut maka system akan mengambil kesimpulan sendiri atau tidak dapat merespon dengan benar perintah yang diucapkan tingkat keberhasilan untuk kata hidup 20%, mati 20%, buka 0% dan tutup 0%. 5. Pengujian 7

Sistem tidak dapat merespon atau mengerti perintah selain hidup, mati, buka, dan tutup. Apabila disebutkan kata selain hidup, mati, buka atau tutup maka sistem tidak dapat merespon atau akan mengambil kesimpulan sendiri dan pengujian ini memiliki tingkat keberhasilan 100%.

6. Pengujian 8

Berdasarkan pengujian yang telah dilakukan system bisa merespon perintah dengan menggunakan kata yang mirip dengan hidup, mati, buka, atau tutup beberapa dapat dikenali oleh system. Maka tingkat keberhasilan dari pengujian ini memiliki persentasi untuk kata hidup 60%, mati 20%, buka 20% dan tutup 60%.

(8)

5. Kesimpulan

Berdasarkan penelitian yang telah dilakukan dengan menerapkan rancangan yang dibuat maka dapat diambil kesimpulan seperti berikut :

1. Rancangan yang dibuat berhasil diimplementasikan menjadi sebuah sistem yang dapat mengenali perintah yang diucapkan.

2. Sistem pengenalan suara yang dibuat dapat diterapkan pada perangkat PC dengan menggunakan HTK berdasarkan metode HMM untuk mengontrol peralatan elektronik (LED dan Servo).

3. Menggunakan HTK dapat memudahkan dalam proses memanupulasi metode HMM dan hasil pengenalan suaranya jauh lebih baik dari system yang tidak memiliki proses pelatihan seperti penggunaan modul EasyVR. Dan juga system ini lebih aman daripada system sensor suara yang sebelumnya.

4. Tingkat keberhasilan alat memiliki persentase responsifitas yang berbeda-beda antara tiap-tiap kata yang diucapkan yaitu hidup 76%, mati 68%, buka 52% dan tutup 48%.