hal ini sangatlah menguntungkan karena data pada domain frekuensi dapat diproses dengan lebih

mudah dibandingkan data pada domain waktu,

karena pada domain frekuensi, keras lemahnya

suara tidak seberapa berpengaruh. Persamaan

matematika yang digunakan adalah:

kn n n j n n

w

kn

n

x

k

x

=

−

≈

− =

ε

,

.

)

(

)

(

2 1 0 (2) Cepstrum

Cepstral Coefficients (cepstrum) merupakan hasil utama

dari proses pengambilan ekstraksi ciri sinyal wicara ini.

Proses mendapatkan nilai cepstrum ini harus melewati beberapa urutan blok diagram sebelumnya yaitu dari proses FFT yang menghasilkan spectrum harus di-invers

dahulu untuk mengubah sinyal suara dari domain frekuensi menjadi domain waktu, dan nilai cepstrum itu dihasilkan dari nilai invers proses spectrum. Pada pengujian analisa ini mengambil 8 buah data yang dapat mewakili seluruh data. Banyak nilai 8 buah data inilah yang nantinya dipakai sebagai fitur yang dapat mempresentasikan masing–masing frame. Setelah itu data dari nilai cepstrum yang berupa numerik ini disimpan dalam codebook untuk dijadikan penghitungan panjang jarak suara.

Vector Quantization

Setelah mendapatkan ciri fitur suara yang melewati proses pelatihan, maka langkah selanjutnya adalah melakukan pembandingan suara yang sudah dimiliki nilainya dengan suara baru yang akan diujikan, hingga dapat disimpulkan bahwa suara ini adalah cocok untuk nilai yang disimpan.

Vector Quantization (kuantisasi vektor) adalah proses

untuk memetakan vektor dari ruang vektor yang sangat luas, menjadi jumlah terbatas didaerah ruang vektor. Masing-masing daerah disebut dengan kluster dan dapat direpresentasikan oleh pusatnya yang disebut codeword. Kumpulan dari codeword adalah codebook.

Kuantisasi vektor merupakan strategi pelatihan tanpa

supervised (tidak ada “guru” yang mengarahkan proses

pelatihan), hal ini tepat digunakan dalam pengenalan pola. Dalam fase pengenalan ini, membandingkan penghitungan nilai jarak distorsi masukan suara dari pembicara yang tidak dikenal dengan menggunakan masing-masing codebook yang dilatih. Pembicara dengan nilai distorsi terkecil dari nilai codebook maka akan di identifikasi sebagai pembicaranya.

Euclidean Distance

Untuk proses identifikasinya yaitu dengan pengukuran jarak distorsi dari dua buah kumpulan vektor yang berdasarkan jarak minimum pengukuran jarak. Jarak

Frame blocking windowin g FF T |log | IFF T cepstru m spectru C(.) Speech signal S(.)

C-95

euclidean adalah jarak antar dua titik yang akan diukur dengan suatu aturan, yang dapat dibuktikan oleh aplikasi teorema phythagorean. Persamaan yang digunakan untuk menghitung jarak euclidean dapat didefinisikan dengan jarak antara dua titik: A=(a1,a2,a3,...,an) dan

B=(b1,b2,b3,...,bn).

(

)

(

)

(

)

(

)

2 3 3 2 2 2 2 1 1

b

a

b

a

b

...

a

b

a

−

+

−

+

−

+

−

=

(

)

−

n i i i

b

a

1 2 (3) Fitur Ekstraksi

Setelah melewati beberapa langkah blok diagram diatas pada proses ekstraksi ciri suara, maka akan menghasilkan beberapa fitur atau yang dinamakan dengan feature

vector. Langkah selanjutnya adalah menyimpan nilai ciri

tersebut kedalam database. Database yang digunakan pada tugas akhir ini adalah penyimpanan pada aplikasi

notepad. Sehinga semua nilai fitur disimpan pada

aplikasi yang memiliki ekstensi *.txt tersebut.

Setelah ditentukan mengambil 20 buah file suara, maka setiap file suara tersebut akan melewati proses ekstraksi ciri dan menghasilkan sebuah ciri fitur. Karena file suara yang diambil berjumlah 20, maka akan menghasilkan 20 buah file ciri fitur pula.

Hasil ekstraksi file fitur ciri tersebut langsung disimpan kedalam database dan nilai tersebut dijadikan feature

vector untuk jenis suara dengan pola kata yang

ditentukan. Jumlah pola kata yang digunakan sebanyak 1 buah, dan jumlah pengucap adalah sebanyak 12 orang dengan pembagian jenis kelamin menjadi 6 untuk jenis kelamin pria dan 6 lainnya untuk jenis kelamin wanita. Sehingga jumlah keseluruhan file yang dijadikan feature

vector sebanyak 20*(6+6)=240 buah file

Susunan pada setiap file akan berisi didalamnya seperti: identitas dari pembicara, yang dimasukkan secara otomatis menggunakan fungsi, bersamaan dengan nilai fitur cepstrum tersebut. Jumlah nilai cepstrum yang diambil adalah sebanyak 8 sedangkan banyak frame yang digunakan adalah sebanyak 98 frame, sehingga banyak keseluruhan fitur dari sebuah pola kata suara adalah 98 x 8 = 784 data fitur yang tersimpan pada sebuah file fitur suara.

Keseluruhan pola kata yang direkam akan mendapatkan data nilai sama seperti hasil diatas, jumlah datanya sebanyak 784 data untuk setiap pola katanya. Data-data nilai yang dihasilkan tersebut akan dibandingkan dengan nilai data lainnya untuk didapatkan sebuah keputusan bahwa data nilai tersebut sama dengan data yang sudah tersimpan di media penyimpanan tersebut.

Sebagai contoh gambaran, sebuah suara yang diuji cobakan dengan beberapa referensi data suara yang dimiliki adalah sebagai berikut: pola kata yang akan diujicobakan adalah /quran/ dengan pengucap bernama

/bagas/, data referensi yang dimiliki adalah beberapa pola kata dan beberapa pengucap, maka nilainya tersebut akan dibandingkan setiap data.

Setelah semua fitur suara didapatkan, maka langkah selanjutnya adalah membandingkan dengan nilai suara baru sebagai masukan untuk mengenali bahwa suara yang dimasukkan tersebut apakah ada didalam nilai fitur suara yang tersimpan, pengujiannya akan memiliki dua buah perbedaan. Seperti: (i) Pengujian terhadap file suara yang telah direkam sebelumnya dan (ii) File suara yang diujikan secara Realtime oleh pengucap yang terdaftar

.

Pengenalan Suara

Pada proses ini melakukan pengujian masukan suara baru dengan membandingkannya dengan fitur suara yang sudah tersimpan sebelumnya. Proses membandingkannya adalah sama seperti proses ekstraksi ciri yaitu mendapatkan nilai cepstrum yang dijadikan fitur untuk suara baru tetapi fitur ini tidak disimpan kedalam

database. Selanjutnya fitur suara yang baru tersebut

dibandingkan dengan masing-masing fitur suara yang sudah tersimpan.

Tahap-tahap untuk proses pengenalan suara dapat terlihat pada blok diagram dibawah ini:

Gambar 7. Blok Diagram Ekstraksi Ciri Suara Cara kerja dari proses ini adalah sebagai berikut, sinyal suara yang baru saja dimasukkan atau suara yang ingin diuji akan melewati proses sama seperti pada waktu mendapatkan fitur ciri dari suara, setelah didapatkan hasil nilai fitur cepstrum, nilai tersebut tidak disimpan menjadi

feature vector tetapi langsung dibandingkan dengan nilai

C-96 Index ke - Data Ke 1 2 3 4 5 ... ... 94 95 96 97 98 a b c d e f …

Gambar 8. Feature Vector

Cara kerjanya adalah pada kolom pengujian, nilai yang dimiliki tersebut akan dibandingkan satu demi satu kedalam kolom referensi data suara yang sudah dimiliki. Jika sudah dibandingkan semua data, maka setiap kolom pada referensi data suara tersebut akan menghasilkan sebuah nilai yang menggambarkan nilai jarak antara kedua buah suara yang diujikan.

Proses ini akan digunakan pada keseluruhan pengujian, yaitu pengujian secara Offline dan pengujian secara

Realtime, hanya saja pengujian secara Offline

sebelumnya harus memasukkan file suara yang sudah direkam dan disimpan untuk digunakan pada kolom pengujian file. Sedangkan pengujian Realtime adalah masukkan suaranya belum dimiliki atau belum mempunyai file suara sebelumnya, nilai yang dimasukkan pada file pengujian tersebut adalah nilai dari suara yang melakukan perekaman pada saat aplikasi tersebut digunakan.

Nilai-nilai yang tersimpan di dalam database tersebut akan dipanggil kembali dan dimasukkan kedalam vektor ciri. Jumlah vektor ciri tersebut tergantung dari jumlah fitur yang tersimpan didalam database, dan proses membandingkannya adalah fitur sinyal masukan baru akan dibandingkan satu-persatu dengan fitur yang tersimpan didalam database. Sehingga jika digambarkan secara visual, maka feature vector tersebut akan seperti kumpulan nilai-nilai dalam bentuk matriks yang memiliki panjang data sama. Setelah semua data terbentuk seperti gambar diatas, langkah selanjutnya adalah membandingkan nilai menggunakan penghitungan

Euclidean distance yaitu mencari nilai minimum dari

proses perhitungan, menggunakan teorema

phythagorean. Hasil pengujian akan tampak seperti pada

tabel dibawah ini:

Data Pengujian Offline

Tabel dibawah ini adalah data terhadap keseluruhan pembicara yang diujikan suaranya secara Offline, hasil pengenalannya dan kegagalannya serta jarak nilai pengenalannya dapat diketahui dengan jelas.Pengujiannya dengan cara setiap pembicara akan diujikan file suaranya yang sudah tersimpan sebanyak 10

file. Data pengujian tersebut, hasilnya seperti berikut: Tabel. 1 Pengujian Offline

Nama Dikenali Tidak

Dikenali Persentase Pria 1 7 3 70% Pria 2 10 0 100% Pria 3 8 2 80% Pria 4 8 2 80% Pria 5 5 5 50% Pria 6 7 3 70% Wanita 1 6 4 60% Wanita 2 6 4 60% Wanita 3 6 4 60% Wanita 4 5 5 50% Wanita 5 9 1 90% Wanita 6 7 3 70% Hasil 84 36 70%

Hasil nilai data yang didapatkan secara keseluruhan pada tabel diatas, maka akan menghasilkan nilai prosentase keberhasilan dari pengujian suara pembicara secara

Offline. Jumlah file suara yang diujikan sebanyak 120 buah, dari 12 pembicara dan setiap pembicara diujikan sebanyak 10 file.Maka, nilai yang didapatkan adalah:

%

70 %

100

120

84 =

×

Data Pengujian Realtime

Pada pengujian Realtime ini, proses pengujiannya yaitu dengan mengisikan suara pembicara secara langsung kedalam aplikasi pengenalan suara ini, suara yang diujikan tersebut disesuaikan dengan intonasi dari setiap pembicara. Hasilnya tersebut akan menampilkan identitas dari pembicara yang melakukan pengujian data tersebut. Tabel dibawah ini adalah data terhadap keseluruhan pembicara yang diujikan suaranya secara Realtime, data pengujian tersebut, hasilnya seperti berikut:

1 2 … … 9 9

Data suara Fe

C-97 Tabel. 2 Pengujian Realtime

Nama Dikenali Tidak

Dikenali Persentase Pria 1 5 5 50% Pria 2 8 2 80% Pria 3 8 2 80% Pria 4 6 4 60% Pria 5 9 1 90% Pria 6 8 2 80% Wanita 1 5 5 50% Wanita 2 10 0 100% Wanita 3 6 4 60% Wanita 4 7 3 70% Wanita 5 9 1 90% Wanita 6 7 3 70% Hasil 89 31 74.167%

Hasil nilai data yang didapatkan secara keseluruhan pada tabel diatas, maka akan menghasilkan nilai prosentase keberhasilan dari pengujian suara pembicara secara

Realtime. Jumlah file suara yang diujikan sebanyak 120 buah, dari 12 pembicara dan setiap pembicara diujikan sebanyak 10 suara.Maka, nilai yang didapatkan adalah :

%

74.167 %

100

120

89 =

×

Kesimpulan

Berdasarkan beberapa hal yang telah dijelaskan pada bab-bab sebelumnya seperti latar belakang, teori penunjang, perancangan pembuatan sistem dan analisa pengujian sistem, maka dapat diberikan beberapa kesimpulan sebagai berikut:

1. Cara membuat model suara yaitu dengan cara merekam suara dari setiap pembicara yang akan dijadikan bahan sampel masukan suara dan dalam perekamannya akan melakukan beberapa kali pengulangan untuk menambah fitur yang dibutuhkan. Karena suara pada setiap orang pasti memiliki ciri atau fitur tersendiri, perbedaan suara tersebut dibedakan dengan nilai frekuensi dari suaranya;

2. Cara mendapatkan nilai ciri suara dari manusia dapat menggunakan nilai cepstrum. Nilai tersebut dihasilkan dari beberapa jumlah frame dan nilai cepstrum

yang digunakan;

3. Cara mengidentifikasi suara manusia yang sudah direkam sebelumnya dengan melakukan penghitungan jarak, antara referensi suara yang sudah dimiliki dengan suara baru yang akan dijadikan suara

pengujian, hasil jarak minimal akan menunjukkan identitas pembicara;

4. Proses pengerjaan pengenalan suara secara garis besar terbagi menjadi tiga buah bagian, diantaranya: (i) Perekaman suara, (ii) Ekstraksi ciri suara, ekstraksi ciri suara ini menggunakan metode MFCC yang akan menghasilkan nilai keluaran berupa cepstrum, nilai tersebut yang akan dijadikan data referensi dari sebuah file suara; dan (iii) Pengenalan suara, setelah memiliki beberapa data fitur dari hasil ekstraksi ciri, proses selanjutnya akan mengelompokkan ciri data tersebut menjadi kumpulan data pada kelompoknya masing-masing (proses VQ). Data yang dikelompokkan tersebut akan dihitung nilai pembandingan jaraknya menggunakan algoritma euclidean distance, hasil akhirnya adalah nilai terpendek dari proses pembandingan diasumsikan sebagai file suara aslinya.

5. Kondisi lingkungan disekitar microphone pembicara, akan berpengaruh pada hasil pengambilan sampel suara. Karena akan menghasilkan sinyal-sinyal noise

yang dapat mengganggu dalam pengolahan sinyal suara tersebut;

6. Jumlah pembicara dalam perekaman perlu dipertimbangkan, semakin banyak orang yang akan diuji-cobakan, maka akan dibutuhkan sampel suara yang banyak pula untuk satu orang. Waktu yang dihasilkan juga cukup lama jika jumlah sampel diperbanyak, untuk menghasilkan keluaran berupa keputusan pembicara;

7. Pengucapan dalam perekaman suara sebaiknya diucapkan dengan nada yang datar atau netral, sehingga tidak mempersulit peng-ekstraksi-an ciri suara tersebut. Pengucapan dengan intonasi yang berbeda-beda, akan memperkecil tingkat keberhasilan pengenalan suara, meskipun diucapkan oleh pembicara yang sama;

8. Tingkat keberhasilan pada saat pengenalan suara secara offline adalah sebesar 70% untuk pengujian sebanyak 10 kali dan pengenalan suara secara

realtime adalah sebesat 74.167% untuk pengujian

sebanyak 10 kali.

Daftar Pustaka

[1] _____,.(2009).

http://www.ifp.uiuc.edu/~minhdo/teaching/speaker_re cognition

[2] Oppenheim, Alan V. dan Ronald W. Schafer. 1994.

Digital Signal Processing. Prentice-Hall. Englewood

Cliffs, New Jersey.

[3] http://www.dspguide.com/. The scientific and

engineer’s guide to digital signal processing by Steven W. Smith, Ph.D.

C-98 http://www.telecom.tuc.gr/~ntsourak/tutorial_sr.htm [5] _____,.(2008). http://www.willamette.edu/~gorr/classes/competitive. html [6] _____,.(2008). http://svr-www.eng.cam.ac.uk/comp.speech/ [7] _____, 2009. http://www.mathworks.com/

[8] Buono, Agus dan Benyamin Kusumoputro.

Pengembangan Model HMM Berbasis maksimum lokal menggunakan jarak Euclid untuk Sistem

Identifikasi Pembicara. Prosiding Of Seminar

Conference On Computer Science And Information Technology Universitas Indonesia, 29-30 2007. [9] Basuki, Ahmad, Miftahul Huda, Tria Silvie Amalia.

Paper Aplikasi Pengolahan Suara Untuk Request

Lagu. Teknologi Informasi - Teknik

Telekomunikasi: PENS-ITS.

[10] Hanselman, Duane dan Bruce Littlefield. 1997.

Matlab Bahasa Komputasi Teknis. Andi:

Yogyakarta.

[11] Huda, Miftahul dan Tri Budi Santoso. Praktikum

Sinyal dan Sistem. Diktat Kuliah Sinyal Sistem.

Surabaya: PENS-ITS. 2008.

[12] Mustofa, Ali. Paper Sistem Pengenalan Penutur

dengan Metode Mel-Frequency Wrapping. Teknik

Elektro: Universitas Brawijaya.

[13] Paulus, Erick, S.Si, M.Kom. dan Yessica Nataliani, S.Si., M.Kom. 2007. GUI Matlab. Andi:Yogyakarta. [14] Proakis, John G. dan Dimitris G. Manolakis. 1992.

Digital Signal Processing Principles, Algorithms,

and Applications. Macmillan, New York.

[15] Sugiharto, Aris. 2006. Pemrograman GUI dengan

C-99

Dalam dokumen Pengembangan Sistem Informasi Perijinan. pdf (Halaman 94-99)