INFRM 55 013 KLASTERING SUARA BERDASARKAN GENDER

(1)

INFRM 364

Pengenalan suara merupakan salah satu bidang artificial intellegent. Klasteing suara berdasar gender dibuat dengan tujuan agar komputer dapat membedakan suara pria dan wanita. Untuk mengenali sebuah pola suara, komputer memerlukan sebuah mekanisme standar dan logis. Permasalahan utama yang terjadi apabila hendak mengenali suatu pola tertentu adalah bagaimana proses akuisisi data dilakukan hingga menghasilkan sejumlah data numerik yang representatif dan konsisten terhadap sampel yang diberikan.

Untuk sistem pengenalan suara disini, digunakan teknik ekstraksi ciri berbasis domain waktu dengan dua metode yaitu short time energy dan zero crossing rate. Tahapan yang dilakukan adalah disiapkan data sampel 10 audio .wav kemudian dilakukan proses ekstraksi ciri berbasis time domain dengan metode short time energy dan zero crossing rate. Dari data yang telah diekstraksi berupa file pola.txt, dilakukan perhitungan ekstraksi ciri sinyal audio sehingga diperoleh data rata-rata masing-masing metode. Dari data pola.txt diubah ke dalam bentuk matrik, selanjutnya dilakukan klasifikasi data menggunakan fungsi K-means.

Dari hasil penelitian disimpulkan bahwa klastering suara berdasarkan gender dapat dilakukan dengan teknik ekstraksi ciri sinyal suara berbasis domain waktu dengan metode short time energy dan zero crossing rate.

Kata kunci : Klastering suara, Time domain, K-means

1. Pendahuluan

Secara awam, aspek yang cukup penting yang mendasari berbagai teori dalam AI adalah sistem pengenalan pola (Pattern Recognizing). Sistem pengenalan pola merupakan komponen penting dalam proses peniruan kemampuan inderawi manusia terutama penglihatan dan pendengaran. Sebagai contoh, untuk meniru indera pendengaran manusia, komputer harus mempunyai suatu mekanisme standar dan logis dalam mengenali pola yang ada pada suara yang sedang diproses. Dari sinilah diperoleh motivasi untuk mencoba suatu konsep sederhana untuk mengenali pola dari suara sehingga dapat diidentifikasi dengan baik oleh komputer.

Permasalahan utama yang terjadi apabila hendak mengenali suatu pola tertentu adalah bagaimana proses akuisisi data dilakukan sehingga menghasilkan sejumlah data numerik yang representatif dan konsisten terhadap sampel yang diberikan. Dalam penulisan ini, kita mencoba mengaplikasikan suatu metode sederhana untuk mengenali suara dan mengklasifikasikannya berdasarkan gender sehingga dapat diidentifikasi dengan baik oleh komputer dengan memanfaatkan berbagai teori ekstraksi ciri untuk data audio.

Program bantu yang penulis buat untuk mensimulasikan metode ini dibuat dengan menggunakan Matlab 7.1 pada sistem operasi yang mendukung. Tujuan utama dari penulisan ini adalah untuk menganalisis dan membuktikan bahwa metode sederhana untuk mengekstraksi data suara dari sampel yang berupa input suara dari 10 orang, yang terdiri dari 8 pria dan 2 wanita dapat diimplementasikan dengan baik sesuai dengan tujuannya sehingga komputer dapat mengidentifikasi suara secara baik dan konsisten.

2. Dasar Teori

2.1 Pengenalan Suara

(2)

INFRM 365

Error!

}

Gambar 1

Struktur Pengenalan Pola [2]

1. Input Transducer

Menganalisa sinyal elektronik yang diinput. Alat yang digunakan ; scanner

2. Preprocessor

Melakukan penambahan kondisi sinyal, termasuk fungsi penguatan sinyal, analisa spektrum dan konversi analog ke digital.

Output system mungkin berupa suara, gambar atau video yang sesuai dengan hasil proses aplikasi.

2.2. Klastering

Salah satu teknik utama yang terkandung dalam sistem pengenalan pola adalah analisis cluster, yaitu identifikasi substruktur dalam data set berlabel [3]. Beberapa teknik klastering yang paling sederhana dan umum adalah klastering K-means. Secara detil teknik ini menggunakan ukuran ketidakmiripan untuk mengelompokkan objek. Ketidakmiripan dapat diterjemahkan dalam konsep jarak. Dua objek dikatakan mirip jika jarak dua objek tersebut dekat. Semakin tinggi nilai jarak, semakin tinggi nilai ketidakmiripannya. Secara ringkas, algoritma K-means dapat dijelaskan seperti dalam Gambar 2.

Gambar 2 Algoritma K-means [4] 2.2. Sinyal Audio

Tujuan melakukan estimasi dalam domain waktu adalah untuk mendapatkan nilai autokorelasi sinyal audio. Nilai auto korelasi suatu sinyal audio akan menunjukkan bagaimana bentuk gelombang itu membentuk suatu korelasi pada dirinya sendiri sebagai fungsi perubahan waktu ke waktu. Bentuk-bentuk yang sama atau mirip pada setiap delay waktu tertentu menunjukkan perulangan bentuk atau periodisitas pola sinyal audio. Dengan demikian akan dapat kita lakukan estimasi nilai frekuensi fundamentalnya.

2.3. Analisa Spectral Sinyal Audio

Proses ekstraksi ciri sinyal audio didasarkan pada sebuah diagram blok yang cukup popular seperti berikut.

(3)

INFRM 366

Dengan mengikuti diagram blok diatas, kita akan mendapatkan langkah-demi langkah ekstraksi ciri. Pada sub bab ini pembicaraan berkisar pada proses melihat short time fourier analisys dari sinyal audio, atau yang juga kita kenal sebagai

power spectral density (PSD) sebuah sinyal audio pada durasi atau frame tertentu. Dengan mengetahui bentuk power spectral density (PSD) sinyal audio kita akan mampu melakukan ekstraksi ciri sinyal audio tersebut. Sebelum proses pada gambar diatas dilakukan ada baiknya kita melihat gambaran sebuah sinyal audio yang telah kita simpan dalam bentuk file “a.wav”. Setelah kita dapatkan bentuknya dalam domain waktu seperti pada Gambar 4 bagian atas, selanjutnya kita coba melihatnya sebagai fungsi dari sampling. Dalam hal ini kita lihat bentuk sinyal audio sesuai dengan urutan sampel yang ada. Seperti kita lihat bahwa untuk nilai sampel ke-700 sampai dengan sampel ke-8200, menunjukkan nilai magnitudo sinyal yang relatif stabil.

Kita lanjutkan dengan melakukan pembentukan frame sebuah sinyal audio seperti pada Gambar 5 bagian atas. Dengan melakukan windowing kita akan mendapatkan bentuk frame sinyal audio terwindow seperti pada Gambar 5 bagian bawah. Sudah tentu kita paham untuk apa proses windowing dilakukan disini. Dengan demikian tidak salah apabila kita mengambil satu frame sinyal dari sampel ke-2000 sampai dengan sampel ke 2480. Karena dalam satu frame kita bentuk dari:

Sampel/frame = (sample/detik)*(detik/frame) = 16000 * 0,06

= 480 sampel/frame

Hal ini dilakukan dengan menetapkan bahwa satu frame sinyal audio sepanjang 50 ms.

Gambar 4 Gambar 5

Gambar 4 Sinyal audio dalam domain waktu dan sebagai fungsi sample ke-n [5] Gambar 5 Satu frame sinyal audio dalam domain waktu [5]

Proses dilanjutkan dengan melakukan transformasi sinyal ke dalam domain frekuensi.Dengan menggunakan fft dan proses logaritmik akan kita dapatkan nilai power spectral density(PSD) sinyal audio seperti pada Gambar 6.

Gambar 6

Power spectral density sinyal audio

3. Ekstraksi Ciri

Untuk mendapatkan data yang akurat dan konsisten dari setiap sampel, digunakan suatu metode ekstraksi ciri sinyal suara dengan time domain [6]. Time domain adalah pemaparan teknik sinyal audio dasar, dimana sinyal digambarkan sebagai amplitudo dengan satuan waktu, sinyal dapat bernilai positif atau negatif tergantung pada tekanan suara. Pada makalah ini penulis menggunakan dua metode, yaitu sort time energy dan zero crossing rate. Adapun metode yang digunakan adalah sebagai berikut :

a. Sort Time Energy

(4)

INFRM 367

(1)

Keterangan:

STE = Sort time energy N = Jumlah Sampel X(n) = Nilai sinyal dari sampel b. Zero Crossing Rate

Sampel berurutan pada sebuah sinyal digital memiliki perbedaan tanda, ukuran dari noise sebuah sinyal pada fitur domain

(2)

Keterangan:

ZC = Zero Crossing Rate

sgn x(n) = nilai dari x(n) , bernilai 1 jika x(n) positif, -1 jika x(n) negatif N = jumlah sampel

Setiap metode ciri diambil rata-rata nya, menggunakan standart deviasi, berikut adalah tabel penggunaan rata-rata untuk tiap-tiap metode ciri.

Tabel 1. penggunaan rata-rata untuk tiap-tiap metode ciri.

Ciri Statistik

Sort Time Energy Standart Deviasi (std)

Zero Crossing Rate Standart Deviasi (std)

4. Algoritma Program

5. Implementasi

5.1 Persiapan Peralatan

(5)

INFRM 368

Gambar 7

Desain perangkat perekaman pengukuran energi sinyal audio

PC harus dilengkapi dengan peralatan multimedia seperti sound card, speaker active dan microphone. Untuk microphone

dan speaker active bias juga digantikan dengan head set lengkap. Sebelum anda memulai praktikum, sebaiknya anda tes dulu, apakah seluruh perangkat multimedia anda sudah terintegrasi dengan PC

.

5.2 Perhitungan Ekstraksi Ciri Sinyal Audio

Data hasil perhitungan ekstraksi ciri sinyal audio yang diperoleh dari 10 sampel suara dan direkam pada file “pola.txt”, data yang disimpan adalah data rata-rata dari masing-masing metode ekstraksi ciri.

Tabel 2. Data rata-rata dari metode ekstraksi ciri

No Nama Mahasiswa Nama File Short Time Energy Zero Crossing Rate

1 Desi nesi1.wav 0.0538388 0.02373

2 Ramadan ednofri4.wav 0.0730546 0.0305071

3 David david4.wav 0.0662328 0.023269

4 Sofyan sofyan4.wav 0.137326 0.0199186

5 Gunawan gunawan4.wav 0.0923871 0.0449648

6 Herlambang herlambang4.wav 0.112719 0.0181066

7 Hendy hendy4.wav 0.115847 0.0283285

8 Susapto susapto1.wav 0.129537 0.0441993

9 Arif Arif4.wav 0.0664739 0.0190522

10 Retno retno1.wav 0.0866736 0.0283818

Pemanggilan data dari pola .txt diubah ke bentuk matrik. Matrik M yang diperoleh:

M=

0.0538388 0.02373 0.0893531 0.13844 0.0730546 0.0305071 0.123814 0.473905 0.0662328 0.023269 0 0.511881 0.137326 0.0199186 0 0.732067 0.0923871 0.0449648 0.124977 0.483487 0.112719 0.0181066 0.181973 0.586998 0.115847 0.0283285 0.116744 0.540119 0.129537 0.0441993 0 0.655706 0.0664739 0.0190522 0.173884 0.409927 0.0866736 0.0283818 0.126805 0.313418

5.3 Klasifikasi Data Menggunakan Fungsi K-Means

(6)

INFRM 369

Atau dengan algoritma K-means bawaan matlab: X =

1 2 2 2 2 2 2 2 2 1 Keterangan :

1 = Wanita 2 = Pria

6. Hasil dan Pembahasan

Gambar 8 Grafik ciri suara Desi dengan file desi1.wav Gambar 9 Grafik ciri suara Ramadan file ramadan4.wav

Gambar 10 Grafik ciri suara David dengan file david4.wav Gambar 11 Grafik ciri suara Sofyan dengan file sofyan4.wav

Gambar 12Grafik ciri suara Gunawan file gunawan4.wav Gambar 13 Grafik ciri suara Herlambang file herlambang4.wav

(7)

INFRM 370

Gambar 16 Grafik ciri suara Arif dengan file arif4.wav Gambar 17 Grafik ciri suara Retno file retno4.wav

7. Kesimpulan

Dari hasil makalah yang penulis susun, dapat disimpulkan bahwa pengklasifikasian suara berdasarkan jenis kelamin atau gender dapat dilakukan dengan suatu metode ekstraksi ciri sinyal suara berbasis domain waktu dan domain frekuensi. Ekstraksi ciri yang digunakan bisa bermacam-macam, diantaranya adalah dengan Sort Time Energy, Zero Crossing Rate, Spectral Centroid, dan Spectral Flux. Nilai rata-rata dari masing-masing ciri dihitung dengan standart deviasi, untuk memperoleh rata-rata nya, lalu diolah untuk pengklasifikasian.

DAFTAR PUSTAKA

[1] Minh N. Do, "Digital Signal Processing Mini-Project “An Automatic Speaker Recognition System”," 2001.

[2] Agus Sasmito Aribowo, "MODEL PENELUSURAN CITRA DIGITAL PADA DATABASE CITRA ," Seminar Nasional Informatika (semnasIF), May 2009.

[3] Richard J. Hathaway and James C. Bezdek, "Recent Convergence Results for the Fuzzy c-Means," Journal of Classification, vol. 5, pp. 237-247, 1988.

[4] Budi Santoso, Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu, 2007. [5] E. Darren Ellis, "Design of a Speaker Recognition Code using MATLAB," May 2001.