METODE PENELITIAN - Identifikasi Pembicara pada Lingkungan yang Mengandung Noise Menggunakan Le

 ^M n n u w(n) i y 1 ) ( . ) (

4.Hitung residual sinyal (sinyal suara hasil noise cancelling) dengan persamaan e(i)d(i)y(i)

5.Ubah bobot dengan cara w(n)_neww(n)2.e(i).u(n)

3 METODE PENELITIAN

Bagian ini akan menjelaskan tahapan-tahapan yang ada di penelitian ini. Ilustrasi tahapan-tahapan pada penelitian ini dapat dilihat pada Gambar 13. Penelitian ini dimulai dengan studi pustaka. Studi pustaka dilakukan untuk mencari teori-teori yang mendukung penelitian ini. Detail tentang tahap pertama ini akan dibahas pada subbahasan studi pustaka. Setelah itu pada tahap kedua dilakukan penentuan data suara. Data suara pada penelitian ini adalah data suara yang telah digunakan pada penelitian Reda et. al (2011). Detail tentang data suara yang digunakan akan dijelaskan pada subbahasan data suara.

Mulai Studi pustaka - Sinyal suara - Identifikasi pembicara - MFCC - SOM - Noise - LMS - Jarak Euclidean Data latih Pengumpulan data suara Evaluasi Selesai Data uji Praproses

-Penghilangan silent Penambahan Noise

Praproses -Penghilangan noise -Penghilangan silent Ekstrasi ciri - MFCC Ekstrasi ciri - MFCC Pembuatan codebook - SOM Pengukuran kemiripan -Jarak euclidean

Dokumentasi dan laporan

Gambar 13. Diagram alir tahapan penelitian

Tahap ketiga adalah membagi data suara menjadi data uji dan data latih. Pada data latih akan dilakukan proses penghilangan waktu diam, MFCC dan SOM sedangkan pada data uji akan dilakukan proses penambahan noise, penghilangan

noise, penghilangan waktu diam dan MFCC. Detail tentang proses-proses yang dilakukan pada tahap ketiga ini akan dibahas pada subbahasan perancangan model identifikasi pembicara. Tahap keempat adalah pengukuran kemiripan. Tahap keempat ini juga akan dijelaskan secara detail pada subbahasan perancangan model identifikasi pembicara. Tahap kelima adalah evaluasi terhadap teknik yang dilakukan pada penelitian ini. Detail tentang bagaimana evaluasi dilakukan akan dijelaskan pada subbahasan pengujian identifikasi pembicara. Tahapan terkahir adalah dokemuntasi dan pembuatan laporan.

Studi Pustaka

Bagian studi pustaka merupakan bagian untuk mengumpulkan teori-teori yang dibutuhkan untuk penelitian ini. Teori-teori dapat bersumber dari buku, jurnal atau apapun media yang dapat dijamin kebenarannya. Pada penelitian ini teori-teori yang diperlukan untuk dilakukan studi pustaka adalah teori tentang sinyal suara, identifikasi pembicara, noise, MFCC, SOM, LMS dan jarak

Euclidean.

Data Suara

Data suara yang digunakan adalah data suara yang pernah digunakan oleh Reda et. al (2011) dalam penelitian mereka tentang penelusuran seatu kehadiran. Data suara yang dikumpulkan memang ditujuan untuk identifikasi pembicara. Data suara terdiri dari 83 orang pembicara, yang terbagi menjadi 35 pembicara perempuan dan 48 pembicara laki-laki. Kata-kata yang diucapkan pembicara merupakan kombinasi dari angka-angka. Masing-masing pembicara memiliki 5

file data suara dalam bentuk wav. Panjang masing-masing file antara 1 detik sampai 39 detik, untuk lebih rincinya dapat dilihat pada Lampiran 6.

Pengumpulan data dilakukan dengan bekerja sama dengan Microsoft Research India. Perekaman dilakukan melalui telepon menggunakan sistem IVR (Interactive Voice Response) pada bulan Maret tahun 2011 di India. Sampling rate

yang digunakan adalah 8000 Hz. Para peserta adalah warga negara India dari berbagai latar belakang. Setiap peserta diberi beberapa deretan angka, dan diminta untuk membaca angka dengan menggunakan bahasa Inggris. Karena setiap pembicara memiliki 5 file suara, berarti ada 5 deretan angka yang masing-masing pembicara harus ucapkan. Berikut adalah contoh deretan angka yang diberikan kepada peserta.  File ke 1: 26503897147819045236217896345001376258948  File ke 2: 02154368  File ke 3: 6704352918719  File ke 4: 0635748219561047289  File ke 5: 7852934016275316948052843

Data-data suara yang digunakan dijadikan dalam bentuk format Matlab 2010b, ilustrasi dapat dilihat pada Gambar 14. Pada gambar tersebut terlihat bahwa kolom pertama berisi kode unik pembicara, kolom kedua sampai kolom kelima secara berturut adalah file suara pertama sampai kelima untuk masing-msing pembicara. Pada tersebut juga terlihat baris tertentu mewakili data pembicara tertentu. Baris pertama sampai ke 35 adalah pembicara perempuan dan baris 36 sampai 83 adalah pembicara laki-laki.

Kode unik pembicara

Data suara pertama

Data suara kedua

Data suara ketiga

Data suara keempat

Data suara kelima

Setiap baris mewakili pembicara

tertentu

Gambar 14. Ilustrasi data suara

Perancangan Model Identifikasi Pembicara

Secara garis besar model identifikasi pembicara yang dirancang oleh penelitian ini memiliki dua bagian utama, yaitu bagian pembuatan codebook dan bagian pengukuran kemiripan. Ilustrasi tentang model yang dibuat dapat dilihat pada Gambar 15.

Model identifikasi pembicara yang dibuat dimulai dengan tahapan pembuatan codebook. Codebook dibuat untuk masing-masing suara pembicara yang ada. Suara pembicara yang digunakan untuk membuat codebook adalah suara pembicara yang tanpa noise. Suara pembicara yang masuk dipraproses terlebih dahulu untuk menghilangkan waktu diam (silent). Waktu diam adalah waktu dimana tidak ada sinyal suara pembicara terdeteksi pada sinyal suara yang masuk. Cara ini akan membantu MFCC untuk menghasilkan ekstraksi ciri sinyal suara yang lebih baik. Hal ini disebabkan karena dengan cara ini sinyal suara yang diproses oleh MFCC adalah sinyal suara yang benar-benar berasal dari pembicara.

Suara pembicara tanpa noise Ekstrasi Ciri dengan MFCC Pembuatan codebook dengan SOM Pengukuran kemiripan dengan jarak Euclidean

Hasil identifikasi pembicara TAHAP PEMBUATAN CODEBOOK TAHAP PENGUKURAN KEMIRIPAN Suara pembicara ditambah noise Praproses: - Penghilangan silent - Penghilangan noise dengan LMS Ekstrasi Ciri dengan MFCC Praproses: - Penghilangan silent Noise referensi

Codebook dibuat dengan menggunakan metode SOM. Hal pertama yang harus dilakukan untuk menggunakan SOM adalah menentukan berapa jumlah kluster yang diinginkan untuk vektor-vektor hasil MFCC. Setelah itu barulah vektor-vektor hasil MFCC milik masing-masing pembicara tersebut dilakukan proses SOM, sehingga untuk setiap pembicara dihasilkan sejumlah vektor pewakil sesuai dengan jumlah kluster yang ditentukan. Vektor-vektor pewakil tersebutlah yang akan dijadikan codebook. Vektor-vektor tersebut bisa juga disebut codeword. Sebenarnya semua vektor hasil MFCC bisa saja dijadikan codebook, tetapi tentu saja jumlah codeword pada codebook menjadi sebesar jumlah vektor.Dengan mengambil vektor-vektor centroid hasil SOM saja untuk dijadikan codebook, ini sama artinya mengurangi jumlah codeword, sehingga nantinya akan mempercepat proses perhitungan kemiripan pada saat mengidentifikasi suatu sinyal suara. Setiap codebook yang dihasilkan oleh setiap pembicara akan dikumpulan dalam suatu tempat yang disebut kumpulan codebook. Untuk lebih memperjelas cara kerja pembuatan codebook, perhatikan ilustrasi pada Gambar 16.

Suara pembicara ke 1 (Tanpa noise) Suara pembicara ke 2 (Tanpa noise) Suara pembicara ke N (Tanpa noise) Ekstrasi Ciri dengan MFCC Pembuatan codebook dengan SOM Ekstrasi Ciri dengan MFCC Pembuatan codebook dengan SOM Ekstrasi Ciri dengan MFCC Pembuatan codebook dengan SOM Kumpulan codebook Praproses: - Penghilangan silent Praproses: - Penghilangan silent Praproses: - Penghilangan silent

Gambar 16. Ilustrasi pembuatan codebook

Kumpulan codebook yang telah dibuat selanjutnya akan digunakan untuk mengidentifikasi sinyal suara yang masuk. Pada penelitian ini, sinyal suara yang akan diidentifikasi adalah suara yang ditambah noise. Sinyal suara yang mengalami noise digunakan untuk menguji ketahanan model yang dirancang terhadap noise. Sinyal suara yang mengalami noise tersebut akan dipraproses terlebih dahulu. Jika pada proses pembuatan codebook hanya menghilangkan sinyal pada waktu diam, maka praproses pada tahap identifikasi ditambah dengan penghilangan noise dengan menggunakan LMS (lihat Gambar 17). Setelah itu baru dilakukan ekstrasi ciri dengan menggunakan MFCC. Berbeda dengan tahap pembuatan codebook, vektor-vektor hasil MFCC tidak akan di cluster dengan SOM, tetapi akan langsung dilakukan proses pengukuran kemiripan dengan data yang ada pada kumpulan codebook. Untuk lebih memperjelas proses ini perhatikan ilustrasi pada Gambar 17.

Pengukuran kemiripan dengan jarak Euclidean

Suara pembicara ditambah noise Praproses: - Penghilangan silent - Penghilangan noise dengan LMS Ekstrasi Ciri dengan MFCC Kumpulan codebook Codebook pembicara ke 1 Codebook pembicara ke 2 Codebook pembicara ke 3 ... Codebook pembicara ke n Vektor-vektor hasil MFCC Vektor ke 1 Vektor ke 2 Vektor ke 3 ... Vektor ke n

Gambar 17. Ilustrasi pengukuran kemiripan

Seperti yang dijelaskan sebelumnya, pengukuran kemiripan dilakukan dengan menggunakan jarak Euclidean. Teknik penggunaan jarak Euclidean untuk pengukuran kemiripan yang dilakukan pada penelitian ini sedikit berbeda dengan penelitian sebelumnya (Wisnudisastra dan Buono 2010, Fruandta dan Buono 2011). Pada penelitian sebelumnya pengukuran kemiripan dilakukan dengan menggunakan hasil penjumlahan pasangan vektor. Setiap vektor hasil MFCC suara masukan yang akan diidentifikasi memiliki pasangan dengan sebuah vektor di setiap codebookpembicara yang ada. Pasangan vektor disini merupakan jarak terkecil suatu vektor masukan terhadap salah satu vektor yang ada pada codebook

tertentu. Pasangan yang berada pada codebook yang sama dijumlahkan jaraknya, sehingga setiap codebook memiliki hasil penjumlah jarak pasangan vektor. Lalu dipilih codebook yang hasil penjumlahannya terkecil sebagai pembicara yang mewakili suara yang diidentifikasi. Untuk lebih jelasnya perhatikan ilustrasi yang ada pada Gambar 18.

CB1 CB2 Kumpulan codebook Vektor-vektor hasil MFCC sebuah suara masukkan

+

Pilih hasil penjumlahan paling kecil

Setiap vektor hasil MFCC memiliki pasangan dengan sebuah vektor di setiap codebook yang ada. Pasangan merupakan jarak terkecil suatu vektor masukkan terhadap salah satu vektor pada yang ada pada codebook tertentu. Jarak pasangan yang berada pada codebook yang sama dijumlahkan, sehingga setiap codebook memiliki hasil penjumlah jarak pasangan. Lalu dipilih codebook yang hasil penjumlahannya terkecil sebagai pembicara yang mewakili suara yang dimasukkan

Teknik pengukuran kemiripan sebelumnya

Vektor masukkan hasil MFCC dari sebuah suara masukkan Vektor yang ada di codebook

Jarak terkecil antara vektor masukkan hasil MFCC dengan vektor di suatu codebook tertentu

Pada penelitian ini pengukuran kemiripan dilakukan dengan cara memilih pembicara yang vektor-vektor pada codebook-nya memiliki pasangan dengan vektor-vektor hasil MFCC suara yang ingin diidentifikasi paling banyak. Pasangan vektor disini merupakan jarak terkecil yang didapat sebuah vektor hasil MFCC dengan salah satu vektor di kumpulan codebook. Pembicara yang vektor-vektor pada codebook-nya memiliki pasangan tersebut dipilih sebagai pembicara yang mewakili suara yang ingin didentifikasi. Jika jumlah pasangan vektor tersebar merata maka dipilih pasangan vektor yang mempuyai jarak terkecil. Untuk lebih jelasnya perhatikan ilustrasi pada Gambar 19.

Vektor masukkan hasil MFCC dari sebuah suara masukkan Vektor yang ada di codebook

Jarak terkecil antara vektor masukkan hasil MFCC dengan vektor di kumpulan codebook

CB1

CB2

Setiap vektor hasil MFCC suara masukkan memiliki pasangan pada salah satu vektor yang ada di kumpulan codebook. Pasangan merupakan jarak terkecil yang didapat sebuah vektor hasil MFCC dengan salah sati vektor di kumpulan codebook. Dipilih codebook yang memiliki paling banyak pasangan sebagai pembicara yang mewakili suara yang dimasukkan

Kumpulan codebook

Vektor-vektor hasil MFCC sebuah suara

masukkan

Teknik pengukuran kemiripan yang ditawarkan

Gambar 19. Ilustrasi teknik pengukuran kemiripan yang diusulkan Pengujian Identifikasi Pembicara

Pengujian dilakukan untuk mengukur pengaruh beberapa parameter terhadap akurasi identifikasi pembicara. Parameter yang digunakan dapat dilihat pada Tabel 1. Akurasi identifikasi pembicara dihitung dengan cara berikut ini.

100 ) / (   B N Akurasi Dimana

B = jumlah data yang yang teridentifikasi secara benar N = jumlah seluruh data yang diidentifikasi

Tabel 1. Parameter-parameter yang akan dilihat pengaruhnya terhadap hasil identifikasi

Parameter Keterangan Ektrasi ciri (MFCC)

1 Panjang bingkai Panjang bingkai merupakan panjang waktu (biasanya millisecond) yang diinginkan untuk satu bingkai. Pada penelitian ini panjang bingkai yang akan diuji adalah 25 ms.

2 Overlap Overlap menjelaskan darimana bingkai selanjutnya dimulai. Nilai overlap harus lebih kecil dari 1.

Overlap yang digunakan adalah 0.4.

3 Koefesien cepstral Koefesien cepstral menjelaskan berapa jumlah spektrum yang dihasilkan untuk setiap bingkai. Koefesian yang digunakan pada penelitian ini adalah 13, 15 dan 20.

Pembuatan codebook

(SOM)

4 Jumlah kluster Jumlah kluster disini merupakan jumlah vektor yang ada pada setiap codebook pembicara. Jumlah kluster yang digunakan adalah 9, 16, 25, 36, 49, 64, 81 dan 100.

5 Radius tetangga Merupakan tetangga vektor pemenang yang akan ikut diperbaharui nilai bobotnya bersama vektor pemenang. Radius yang digunakan adalah 3.

6 Topologi Topologi yang akan digunakan pada SOM. Hal ini berpengaruh juga pada tetangga yang akan diperbaharui nilainya. Topologi yang akan digunakan pada penelitian ini adalahheksagonal.

Noise

7 dB noise Noise yang digunakan sebesar 20 dB terhadap suara asli.

Pra-proses 8 Learning rate pada

LMS

Pengujian ini dilakukan untuk mengukur pengaruh

learning rate pada LMS terhadap hasil akurasi identifikasi pembicara. Algoritma LMS digunakan pada suara yang telah diberi noise.

Pada bagian ini juga dibandingkan hasil identifikasi pembicara pada data yang mengalami noiseantara yang menggunakan LMS dengan yang tidak menggunakan LMS.

Nilai learning rate LMS yang dicoba adalah 0.1, 0.3, 0.5, 0.7 dan 0.9

Pengukuran kemiripan 9 Teknik penggunaan

jarak Euclidean

Pengujian ini membandingkan antara teknik penggunaan jarak Euclidean sebelumnya (Wisnudisastra dan Buono 2010, Fruandta dan Buono 2011) dengan teknik yang diusulkan.

Seperti yang telah dijelaskan pada subbahasan tentang data suara bahwa jumlah file suara untuk setiap pembicara pada penelitian ini adalah lima, oleh karena itu untuk setiap kombinasi parameter dilakukan 5 kali percobaan. Pada setiap percobaan, satu buah file suara masing-masing pembicara akan dijadikan data untuk untuk membuat codebook dan semuafile suara yang ada akan dijadikan data pengujian. Hal ini dilakukan 5 kali hingga akhirnya semua file suara untuk masing-masing pembicara pernah menjadi data untuk membuat codebook. Misalnya untuk percobaan pertama file suara pertama dijadikan data pembuat

codebook, percobaan kedua file suara kedua yang dijadikan untuk pembuat

codebook, dan begitu seterusnya. Setiap percobaan dihitung akurasinya untuk selanjutnya hitung rata-rata akurasinya. Rata-rata akurasi tersebut digunakan sebagai pengukuran tingkat akurasi untuk sebuah kombinasi parameter tertentu.

Dalam dokumen Identifikasi Pembicara pada Lingkungan yang Mengandung Noise Menggunakan Least Mean Square (Halaman 31-39)