Sistem Pengenalan Ucapan Suara Manusia Untuk Pengaturan Nyala LED Hias

BAB III PERANCANGAN

3.1. Sistem Pengenalan Ucapan Suara Manusia Untuk Pengaturan Nyala LED Hias

Sistem pengenalan ucapan suara manusia untuk pengaturan nyala LED hias mengunakan 2 macam software untuk dipergunakan sebagai user interface dan sebagai bahasa pemrograman. Software yang digunakan sebagai user interface yaitu program bernama MATLAB dan software yang digunakan sebagai bahasa pemrograman yaitu menggunakan program CodeVision AVR. Kedua software tersebut bertujuan untuk mempermudah user untuk melakukan pengenalan suara manusia dan mengaturan nyala LED hias.

Sistem pengenalan ucapan suara manusia dilakukan secara real time. Dalam sistem pengenalan ucapan suara manusia untuk pengaturan nyala LED hias memerlukan beberapa komponen yang diperlukan untuk mendukung sistem, yaitu mikrofon, soundcard yang sudah terdapat dalam komputer. Gambar 3.1 memperlihatkan Diagram Blok dari keseluruhan sistem pengenalan ucapan suara manusia untuk pengaturan nyala LED hias.

3.1.1

Ucapan Manusia

Suara manusia berfungsi sebagai sumber suara dalam sistem ini. Dalam sistem ini suara manusia bersumber dari suara yang dikeluarkan oleh peneliti. Suara yang dikeluarkan peneliti berkisar antara 20 Hz sampai dengan 20 KHz, dan ucapan yang akan dikenali adalah kanan, kiri, cepat, lambat dan stop.

3.1.2

Mikrofon

Mikrofon yang digunakan adalah jenis desktop microphone SONIC GEAR dengan model DM150 (gambar 2.7). Desktop microphone daya tangkap yang baik jika jarak antara sumber suara dengan mikrofon sekitar + 10 cm. Penentuan jarak mikrofon dengan sumber suara berdasarkan berapa kali peneliti melakukan percobaan. Spesifikasi dari desktop mikrofon SONIC GEAR dengan model DM150 terdapat pada tabel 3.2.

Table 3.1 Spesifikasi Desktop Microphone SONIC GEAR dengan model DM150

Frequency Response 50 Hz -13 KHz

Sensitivity -58 dB - +3 dB

Operating Range 2V – 8V

S/N Ratio >50 db

Audio Output Connector 3.5 mm

3.1.3

Soundcard

Soundcard berfungsi suatu jenis transduser yang mengubah gelombang suara menjadi sinyal listrik atau mengubah sinyal analog dari mikrofon menjadi sinyal digital. Dalam proses mengubah dari sinyal analog ke digital kemudian disimpan diperlukan pengaturan sampling rate. Pengaturan sampling rate dapat dilakukan didalam program dalam software MATLAB.

3.1.4

Proses Perekaman

Proses perekaman adalah sebuah proses memasukan atau merekam sinyal digital yang berasal dari suara manusia. Pada saat proses perekaman yang menggunakan sebuah mikrofon untuk menangkap sinyal analog yang berasal dari ucapan manusia kemudian diubah menjadi sinyal digital. Proses ini sudah ditentukan dalam sekali perekaman menggunakan frekuensi sample sebesar 6000 Hz dikarenakan frekuensi tertinggi ucapan

P rep ro cess in g

manusia yaitu sbesar 3000 Hz kemudian dikalikan dua, perekamannya selama 1,5 detik, dan sepuluh kali perekaman.

3.1.5

Pengenalan Suara

Dalam proses pengenalan suara ini, suara peneliti akan terekam dan dikenali. Proses ini suara akan terekam secara real time, data input berupa *.Wav dan dari perekaman tersebut akan menghasilkan keluaran yang berupa nyala LED hias. Proses ini menggunakan beberapa subproses sampling, pemotongan sinyal, jendela blackman, ekstraksi ciri, k-Nearest Neighbor, fungsi jarak dan keluaran. Pada Gambar 3.2. adalah diagram blok sistem pengenalan.

Gambar 3.2. Diagram Blok sistem pengenalan ucapan

3.1.5.1Perekaman

Proses perekaman ini berfungsi sebagai data masukan uang berupa suara manusia yang berupa sinyal analog kemudian akan diubah menjadi sinyal digital ketika melalui soundcard yang terdapat di dalam komputer. Suara direkam dengan memakai frekuensi sampling sebesar 6000 Hz, frekuensi ini ditentukan berdasarkan frekuensi suara yang dapat dihasilkan manusia dari 300 – 3000 Hz dilanjutkan dengan berdasar kriteria Nyquist yaitu minimal frekuensi sampling harus dua kali dari frekuensi sebenarnya.

� ≥2� (3.1)

� ≥2 × 3000 (3.2)

� ≥6000 (3.3)

Ekstraksi ciri Jarak Clark

Output Pengenalan Ucapan

Database Ucapan Manusia Perekaman Pemotongan Sinyal Normalisasi Jendela Blackman Zero Padding k-Nearest Neighbor

Maka dengan batas maksimal frekuensi manusia yang dapat didengar yaitu 3000 Hz, maka batas maksimal frekuensi tersebut kemudian dikalikan dua yaitu menjadi 6000 Hz. Dalam sekali perekaman peneliti membutuh 1,5 detik dikarenakan untuk setiap kali perekeman, peneliti mengucapkan 2 suku kata.

3.1.5.2 Suara Uji

Suara uji ini merupakan suara terekam yang bertujuan untuk menjalankan proses program secara offline. Suara uji ini untuk menentukan nilai batas potong dan lebar segment averaging, agar mendapatkan hasil pengenalan ucapan yang paling baik. Gambar 3.3. menunjukan pembuatan suara referensi sama dengan pembuatan suara uji.

3.1.6. Preprocessing

a. Normalisasi

Pada proses normalisasi ini berfungsi untuk menyamakan besar nilai amplitudo dalam setiap database. Dalam proses ini setiap database akan mempunyai besar skala amplitudo puncak sebesar 1 dan -1 dan skala yang lainnya akan menyesesuaikan. Dalam proses normalisasi ini mengunakan rumus (3.4) untuk menyamakan skala amplitudo puncak :

� = �_� ( )

max⁡( �_� )^(3.4) b. Pemotongan Sinyal

Dalam proses perekaman, sering kali adanya data sebelum dan sesudah data ucapan peneliti yang terdapat dalam setiap perekaman. Proses pemotongkan data ucapan ditentukan oleh variabel batas potong pada program peneliti. Dalam proses ini akan menghasilkan data yang berisi ucapan saja.

c. Jendela Blackman

Jendela Blackman adalah suatu jendela yang dapat digunakan untuk keperluan windowing. Dalam subproses ini merupakan perkalian antar elemen yang berfungsi untuk mengurangi efek diskontinuitas dari sinyal digital hasil perekaman.

d. Zero Padding

Dalam proses ini berfungsi sebagai penyamaan jumlah data sinyal dalam setiap database. Dengan cara menambahkan deretan nilai nol setelah data yang berisi ucapan. Penambahan deretan nilai nol tersebut ditentukan dengan rumus 2ⁿ, disebabkan dalam sinyal suara dibagi dalam beberapa grup darri n sampel, dimana n dapat mengambil nilai sebasar 64, 128, 256, 512, 1024, 2048, 4096 dan 8192.

3.1.7 Ekstrasi Ciri

Discrete Cosine Transform berfungsi sebagai proses ekstraksi ciri. Teknik ini untuk mengubah sinyal ke dalam komponen frekuensi dasar. Discrete Cosine Transform proses ekstraksi ciri suatu data suara maupun gambar. Setelah mengekstraksi ciri, setiap koefisien transform dapat dikodekan secara independen tanpa kehilangan efisiensi kompresi.

3.1.8 Jarak Clark

Proses ini untuk membandingkan suara manusia yang terekam dengan 10 nada referensi yang terdapat di database. Hasil yang diperoleh dari perbandingan yaitu jarak minimum dengan suara terekam, yang kemudian akan digunakan dalam proses selanjutnya. Dalam proses ini peneliti menggunakan fungsi jarak Clark.

3.1.9 Proses k-Nearest Neighbor (k-NN)

Dalam proses ini hasil dari pembanding fungsi jarak kemudian k-Nearest Neighbor (k-NN) akan mengurutkan hasil perhitungan jarak dari nilai yang paling kecil sampai yang besar. Hasil nilai yang paling terkecil atau paling minimum akan diambil sesuai dengan banyaknya k seperti 1, 3, 5, dan 7.

3.1.10 Output Pengenalan Ucapan Manusia

Setelah penentuan keluaran mendapatkan hasil, maka output pengenalan ucapan manusia akan dikomunikasikan secara serial ke modul mikrokontroler AVR berbasis ATMega8535 dan kemudian modul mikrokontroler tersebut memberikan instruksi ke 30 buah lampu LED.

P rep ro cess in g

Dalam dokumen Aplikasi pengenalan ucapan secara real time untuk mengatur nyala led hias dengan ekstraksi ciri DCT dan Jarak Clark. (Halaman 46-51)