Pengembangan Model Jaringan Syaraf Tiruan Resilient Backpropagation Untuk Identifikasi Pembicara Dengan Praproses MFCC

(1)

PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN

RESILIENT BACKPROPAGATION

UNTUK IDENTIFIKASI PEMBICARA

DENGAN PRAPROSES MFCC

Oleh:

NURHADI SUSANTO

G64103059

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

PENGEMBANGAN MODEL JARINGAN SYARAF TIRUAN

DENGAN PRAPROSES MFCC

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

NURHADI SUSANTO

G64103059

INSTITUT PERTANIAN BOGOR

(3)

ABSTRAK

NURHADI SUSANTO. Pengembangan Model Jaringan Syaraf Tiruan Resilient Backpropagation

untuk Identifikasi Pembicara dengan Praproses MFCC. Dibimbing oleh AGUS BUONO dan IRMAN HERMADI.

Suara manusia dapat digunakan sebagai sarana identifikasi diri. Dari suara seseorang dapat diambil suatu fitur yang kemudian dimodelkan dan digunakan untuk mengenali seseorang berdasarkan suaranya. Pada penelitian ini, dikembangkan suatu model jaringan syaraf tiruan resilient backpropagation untuk identifikasi pembicara. Untuk ekstraksi ciri sinyal suara digunakan fitur MFCC. Jenis identifikasi pembicara pada penelitian ini adalah Closed-Set Identification yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui dan kata yang dilatih maupun diujikan telah ditentukan.

Data suara yang digunakan dalam penelitian ini adalah data suara yang diambil secara unguided

atau tanpa panduan. Selain itu diamati pula pengaruh noise terhadap akurasi identifikasi dengan cara menambahkan white gaussian noise pada data yang digunakan.

Hasil penelitian ini berupa tingkat akurasi kebenaran dari data yang diujikan. Secara keseluruhan, model terbaik yang dikembangkan menghasilkan nilai akurasi rata-rata sebesar 92,8%. Dengan data yang menggunakan noise 30 dB, nilai akurasi rata-rata yang dihasilkan turun menjadi 71,0% dan dengan data yang menggunakan noise 20 dB, nilai akurasi rata-rata yang dihasilkan turun menjadi 48,3%.

(4)

Judul : Pengembangan Model Jaringan Syaraf Tiruan

Resilient Backpropagation

untuk Identifikasi Pembicara dengan Praproses MFCC

Nama : Nurhadi Susanto

NRP : G64103059

Menyetujui:

Pembimbing I,

Pembimbing II

Ir. Agus Buono, M.Si., M.Kom.

Irman Hermadi, S.Kom., MS

NIP 132 045 532

NIP 132 321 422

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP 131 473 999

(5)

RIWAYAT HIDUP

(6)

PRAKATA

Alhamdulillahi Rabbil ‘alamin, puji dan syukur Penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Pengembangan Jaringan Syaraf Tiruan Resilient Backpropagation untuk Identifikasi Pembicara Berbasis Data MFCC ini dapat diselesaikan. Dalam menyelesaikan karya tulis ini penulis mendapatkan banyak sekali bantuan, bimbingan dan dorongan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada semua pihak yang telah membantu kelancaran penelitian ini, antara lain kepada:

1. Orangtuaku tercinta, Bapak Sunaryoto dan Ibunda Khasanah atas segala do’a, kasih sayang, dan dukungan baik dari moril maupun materiil yang telah diberikan selama ini.

2. Adik-adikku tersayang Santi, Peni, Rio dan Ponco yang memberi tambahan motivasi dalam penyelesaian karya tulis ini.

3. Bapak Ir. Agus Bouno, M.Si, M.Komp selaku pembimbing pertama atas bimbingan dan arahannya selama penyusunan karya tulis ini.

4. Bapak Irman Hermadi, S.Kom, MS selaku pembimbing kedua atas bimbingan dan arahannya selama penyusunan karya tulis ini.

5. Abdul Nasrah, seorang teman sekamar terbaik yang selalu memberikan yang terbaik untuk teman-temannya

6. M.Nono Suhartono, Vicky Zilvan, dan Wini Purnamasari, rekan seperjuangan dalam penelitian di bidang speaker recognizing.

7. Dhany, Gemma, Ryan, Inang, Mulyadi, dan Iqbal yang sudah memberikan banyak sekali kenangan selama tinggal bersama.

8. Pandi, Ghoffar, Dona, Mulyadi, Nanik, Vita, Thessy, Yustin, dan seluruh rekan yang telah ikut menymbangkan suranya untuk dijadikan bahan penelitian.

9. Seluruh teman-teman Ilkom 40 yang tidak dapat disebutkan namanya satu-persatu.

Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak. Semoga penelitian ini dapat memberi manfaat.

Bogor, Mei 2007

(7)

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... vi

DAFTAR TABEL... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN...1

Latar Belakang ...1

Tujuan...1

Ruang Lingkup...1

Manfaat...1

TINJAUAN PUSTAKA ...1

Jenis Pengenalan Pembicara ...1

Dijitasi Gelombang Suara ...2

Signal to Noise Ratio (SNR) ...2

Ekstraksi Ciri Sinyal Suara ...2

MFCC (Mel-Frequency Cepstrum Coefficients)...3

Resilient Backpropagation ...5

METODOLOGI PENELITIAN...6

Data ...6

Proses Pengenalan Suara...6

Arsitektur Jaringan Syaraf Tiruan ...7

Parameter-parameter Resilient Backpropagation ...7

Lingkungan Pengembangan ...7

HASIL DAN PEMBAHASAN...7

Hasil Pengambilan Data...7

Praproses dengan MFCC ...7

Pengembangan Model Jaringan Syaraf Tiruan...8

Pengambilan Threshold ... 11

Hasil Identikasi Pembicara Model JST Terbaik pada Data Tanpa Noise... 11

KESIMPULAN DAN SARAN... 14

Kesimpulan ... 14

Saran... 14

DAFTAR PUSTAKA... 14

(8)

DAFTAR GAMBAR

Halaman

1 Diagram blok dari proses MFCC (Do 1994). ...3

2 Arsitektur JST lapis tunggal...4

3 Grafik fungsi sigmoid biner dengan selang (0,1)...4

4 Arsitektur jaringan propagasi balik (Fu 1994)...5

5 Proses pengenalan pembicara...6

6 Grafik perbandingan nilai akurasi rata-rata terhadap jumlah neuron tersembunyi pada pelatihan dengan data tanpa noise. ...8

7 Grafik perbandingan jumlah epoh rata-rata terhadap jumlah neuron tersembunyi pada pelatihan dengan data tanpa noise. ...9

8 Grafik perbandingan nilai akurasi rata-rata terhadap jumlah neuron tersembunyi pada pelatihan dengan data ber-noise 30 dB. ... 10

10 Grafik perbandingan nilai akurasi rata-rata terhadap jumlah neuron tersembunyi. ... 11

11 Grafik perbandingan jumlah data suara yang teridentifikasi dengan benar pada data tanpa noise. 13 DAFTAR TABEL Halaman 1 Struktur JST Resilient Backpropagation...7

2 Hasil identifikasi model JST terbaik dari dua puluh data pembicara tanpa threshold... 12

3 Hasil identifikasi model JST terbaik dari dua puluh data pembicara dengan threshold... 12

4 Hasil identifikasi dua puluh data suara tanpa noise dari pembicara yang tidak ikut serta dalam pelatihan dengan menggunakan threshold... 14

DAFTAR LAMPIRAN Halaman 1 Algoritma JST RPROP ... 17

2 Hasil Pelatihan dan Pengujian Model JST dari tiga puluh perlakuan jumlah neuron tersembunyi pada data tanpa noise. ... 19

3 Hasil Pelatihan dan Pengujian Model JST dari tiga puluh perlakuan jumlah neuron tersembunyi pada data dengan SNR 30 dB... 21

(9)

PENDAHULUAN Latar Belakang

Suara manusia dapat digunakan sebagai sarana identifikasi diri. Suara yang dihasilkan tersebut diperlakukan sebagai data yang dapat diolah sehingga dapat dimanfaatkan. Sinyal suara yang kontinu dicuplik dengan rentang waktu tertentu sehingga menghasilkan sinyal dijital. Setelah sinyal suara tersebut menjadi sinyal dijital, berbagai perlakuan dapat diterapkan pada data suara tersebut. Salah satu perlakuan yang bermanfaat adalah mengolah data tersebut sedemikian rupa sehingga dapat digunakan untuk mengenali pembicara.

Berbagai metode dapat dipakai untuk mengolah data suara tadi. Beberapa metode yang pernah digunakan diantaranya model markov tersembunyi (Purnamasari 2006) dan jaringan syaraf tiruan propagasi balik standar (Oktavianto 2004). Penggunaan metode jaringan syaraf tiruan propagasi balik tersebut masih dapat dikembangkan dengan penggunaan metode praproses dan juga penggunaan jaringan syaraf tiruan yang lain dan juga diperlukan kombinasi percobaan yang lebih banyak.

Model jaringan saraf tiruan terinspirasi oleh cara kerja otak manusia. Untuk berpikir, otak manusia mendapat rangsangan dari neuron

-neuron yang terdapat pada indera manusia dan kemudian hasil rangsangan tersebut diolah sehingga menghasilkan suatu informasi. Pada komputer, rangsangan-rangsangan yang diberikan diibaratkan sebagai masukan dimana masukan tersebut dikalikan dengan suatu nilai, yang dikenal dengan bobot, dan kemudian diolah dengan fungsi aktivasi tertentu untuk menghasilkan suatu keluaran. Pada saat pelatihan, pemasukan tersebut dilakukan berulang-ulang sampai tercapai keluaran seperti yang diinginkan. Dengan metode propagasi balik, keluaran yang diinginkan berusaha dicapai dengan melakukan pembaharuan yang terhadap nilai bobot. Setelah proses pelatihan, diharapkan komputer dapat mengenali suatu masukan baru berdasarkan informasi yang telah diperoleh pada saat pelatihan.

Beberapa modifikasi dari prosedur propagasi balik telah diajukan untuk menambah kecepatan pembelajaran. Martin Riedmiller dan Heinrich Braun telah mengembangkan suatu metode yang disebut Resilient Backpropagation

(Riedmiller & Braun 1993). Metode ini telah terbukti sebagai metode yang memiliki kecepatan pembelajaran yang baik dan juga andal (Saputro 2006).

Tujuan

Penelitian ini bertujuan untuk mengembangkan model jaringan syaraf tiruan

resilient backpropagation untuk mengidentifikasi pembicara pada data yang direkam tanpa pengarahan. Selain itu, dilakukan pula perbandingan tingkat akurasi model untuk suara yang diberi noise dan tanpa noise.

Ruang Lingkup

Ruang lingkup penelitian ini adalah: 1.Penelitian difokuskan pada tahapan

pemodelan identifikasi suara manusia dengan menggunakan jaringan syaraf tiruan dan tidak pada pemrosesan sinyal analog sebagai praproses dari sistem.

2. Model pengenalan dibangun dengan menggunakan jaringan syaraf tiruan model

Multi Layer Preceptron dengan menggunakan metode pembelajaran resilient backpropagation.

3. Analisis dilakukan untuk pengenalan pembicara tertutup bergantung teks dengan data yang direkam tanpa pengarahan. Uji kinerja dilakukan dengan menghitung tingkat akurasi identifikasi sistem terhadap input yang diberikan.

Manfaat

Penelitian ini diharapkan dapat memberikan informasi mengenai akurasi jaringan syaraf tiruan model Multi Layer Preceptron dengan menggunakan metode pembelajaran resilient backpropagation untuk identifikasi pembicara. Di samping itu, diharapkan pula pengaruh noise

terhadapnilai akurasi identifikasi dapat diamati. Selanjutnya, diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.

TINJAUAN PUSTAKA Jenis Pengenalan Pembicara

Menurut Campbell (1997), Pengenalan pembicara berdasarkan jenis aplikasinya dibagi menjadi:

1. Identifikasi pembicara adalah proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:

• Identifikasi tertutup (closed-set identification) yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.

(10)

ada pada kumpulan suara pembicara yang telah terdaftar.

2. Verifikasi pembicara adalah proses menerima atau menolak permintaan identitas dari seseorang berdasarkan suaranya.

Berdasarkan teks yang digunakan, pengenalan pembicara dibagi menjadi dua (Campbell 1997):

1. Pengenalan pembicara bergantung teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama, baik pada pelatihan maupun pengenalan. 2. Pengenalan pembicara bebas teks yang tidak

mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama, baik pada pelatihan maupun pengenalan.

Dijitasi Gelombang Suara

Suara adalah sebuah gelombang yang dilewatkan melalui suatu medium dan sampai ke telinga manusia sehingga dapat didengarkan. Medium perantara yang biasa digunakan adalah udara. Gelombang suara merupakan gelombang analog, sehingga untuk dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital (Boomkamp (2004) dalam Musthofa 2005).

Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitasi suara. Proses dijitasi suara terdiri dari dua tahap yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling

adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil

sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didijitasikan serta sampling rate yang digunakan pada proses dijitasinya. Sampling rate sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan

sampling rate dan panjangnya data suara yang didijitasikan dapat dinyatakan secara sederhana sebagai berikut:

S = Fs* T dengan,

S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

Setelah melalui tahap sampling, proses dijitasi suara selanjutnya adalah kuantisasi yaitu

menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Signal to Noise Ratio (SNR)

Signal-to-noise ratio (yang biasa disingkat menjadi SNR atau S/N) adalah suatu konsep yang mendefinisikan perbandingan antara kekuatan sinyal dengan kekuatan noise yang merusak sinyal. Secara sederhana, signal-to-noise ratio membandingkan level dari sinyal yang diinginkan (seperti suara piano dalam suatu konser) dengan level dari sinyal yang tidak diinginkan (seperti suara orang yang bercakap-cakap dalam suatu konser). Semakin kecil nilai SNR, semakin tinggi pengaruh noise

dalam merusak sinyal asli.

Secara umum, SNR didefinisikan sebagai

2









=

noise signal noise signal

A

P

SNR

dengan P adalah rata-rata dari daya (power) dan A adalah akar kuadrat rata-rata dari amplitudo. Pada umumnya, sinyal suara memiliki jangkauan dinamis yang sangat tinggi. Hal ini menyebabkan SNR akan lebih efisien jika diekspresikan dalam skala logarithmic decibel.

Pada desibel, SNR didefinisikan sebagai 10 dikali logaritma dari perbandingan daya. Jika sinyal dan noise dihitung dalam impedansi yang sama maka nilai SNR bisa didapatkan dengan

( )

=









noise signal

P

dB

SNR

10

log

₁₀









=

noise signal

A

10

log

20

sehingga semakin kecil nilai SNR dalam desibel, semakin tinggi pengaruhnya dalam merusak sinyal asli.

Ekstraksi Ciri Sinyal Suara

(11)