• Tidak ada hasil yang ditemukan

Menurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi menjadi:

1. Identifikasi pembicara adalah proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:

• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.

• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar

2. Verifikasi pembicara adalah proses menerima atau menolak permintaan identitas dari seseorang berdasarkan suaranya.

Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:

1. Pengenalan pembicara bergantung teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang

tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.

Dijitalisasi Gelombang Suara

Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat cair, padat, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.

Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut digitalisasi suara.

Proses dijitalisasi suara terdiri dari dua tahap yaitu sampling dan kuantisasi (Jurafsky

& Martin 2000). Sampling adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo (besar/kecilnya) volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didijitalisasikan serta sampling rate yang digunakan pada proses dijitalisasinya.

Sampling rate itu sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate

yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didijitalisasikan dapat dinyatakan secara sederhana sebagai berikut:

S = Fs * T, dengan S = panjang vektor,

Fs = sampling rate yang digunakan (Hertz),

T = panjang suara (detik).

Setelah melalui tahap sampling, proses dijitalisasi suara selanjutnya adalah kuantisasi yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Signal to Noise Ratio (SNR)

Signal-to-noise ratio (yang biasa disingkat menjadi SNR atau S/N) adalah suatu konsep yang mendefinisikan perbandingan antara kekuatan sinyal dengan kekuatan noise yang merusak sinyal. Secara sederhana, signal-to-noise ratio

membandingkan level dari sinyal yang diinginkan (seperti suara piano dalam suatu konser) dengan level dari sinyal yang tidak diinginkan (seperti suara orang yang bercakap-cakap dalam suatu konser). Semakin kecil nilai SNR, semakin tinggi pengaruh noise dalam merusak sinyal asli.

Secara umum, SNR didefinisikan sebagai berikut: , 2     = = noise signal noise signal A A P P SNR

dengan P adalah rata-rata dari daya (power) dan A adalah akar kuadrat rata-rata dari amplitudo. Pada umumnya, sinyal suara memiliki jangkauan dinamis yang sangat tinggi. Hal ini menyebabkan SNR akan lebih efisien jika diekspresikan dalam skala

logarithmic decibel. Pada desibel, SNR didefinisikan sebagai 10 dikali logaritma dari

Bertingkat menggunakan Fuzzy C-Means

(FCM) untuk Identifikasi Pembicara. Selain itu, model yang dihasilkan diharapkan dapat digunakan untuk mengembangkan sistem identifikasi yang bersifat tertutup dan bergantung pada teks.

TINJAUAN PUSTAKA Jenis Pengenalan Pembicara

Menurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi menjadi:

1. Identifikasi pembicara adalah proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:

• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.

• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar

2. Verifikasi pembicara adalah proses menerima atau menolak permintaan identitas dari seseorang berdasarkan suaranya.

Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:

1. Pengenalan pembicara bergantung teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang

tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.

Dijitalisasi Gelombang Suara

Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat cair, padat, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.

Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut digitalisasi suara.

Proses dijitalisasi suara terdiri dari dua tahap yaitu sampling dan kuantisasi (Jurafsky

& Martin 2000). Sampling adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo (besar/kecilnya) volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didijitalisasikan serta sampling rate yang digunakan pada proses dijitalisasinya.

Sampling rate itu sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate

yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didijitalisasikan dapat dinyatakan secara sederhana sebagai berikut:

S = Fs * T, dengan S = panjang vektor,

Fs = sampling rate yang digunakan (Hertz),

T = panjang suara (detik).

Setelah melalui tahap sampling, proses dijitalisasi suara selanjutnya adalah kuantisasi yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Signal to Noise Ratio (SNR)

Signal-to-noise ratio (yang biasa disingkat menjadi SNR atau S/N) adalah suatu konsep yang mendefinisikan perbandingan antara kekuatan sinyal dengan kekuatan noise yang merusak sinyal. Secara sederhana, signal-to-noise ratio

membandingkan level dari sinyal yang diinginkan (seperti suara piano dalam suatu konser) dengan level dari sinyal yang tidak diinginkan (seperti suara orang yang bercakap-cakap dalam suatu konser). Semakin kecil nilai SNR, semakin tinggi pengaruh noise dalam merusak sinyal asli.

Secara umum, SNR didefinisikan sebagai berikut: , 2     = = noise signal noise signal A A P P SNR

dengan P adalah rata-rata dari daya (power) dan A adalah akar kuadrat rata-rata dari amplitudo. Pada umumnya, sinyal suara memiliki jangkauan dinamis yang sangat tinggi. Hal ini menyebabkan SNR akan lebih efisien jika diekspresikan dalam skala

logarithmic decibel. Pada desibel, SNR didefinisikan sebagai 10 dikali logaritma dari

perbandingan daya. Jika sinyal dan noise

dihitung dalam impedansi yang sama maka nilai SNR bisa didapatkan dengan menggunakan rumus berikut:

( )

=  noise  signal P P dB SNR 10log10 , log 20 10     = noise signal A A

sehingga semakin kecil nilai SNR dalam desibel, semakin tinggi pengaruhnya dalam merusak sinyal asli.

Ekstraksi Ciri Sinyal Suara

Sinyal suara merupakan sinyal bervariasi yang diwaktukan dengan lambat atau biasa disebut quasi-stationary (Do 1994). Ketika diamati dalam jangka waktu yang sangat pendek (5 - 100 ms), karakteristiknya hampir sama. Namun, dalam jangka waktu yang panjang (0,2 detik atau lebih) karakteristik sinyal berubah dan merefleksikan perbedaan sinyal suara yang diucapkan. Oleh karena itu, digunakan spektrum waktu pendek (short-time spectral analysis) untuk mengkarakterisasi sinyal suara.

Beberapa fitur yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan Mel-Frequency Cepstrum Coefficients.

MFCC (Mel-Frequency Cepstrum

Coefficients)

MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia dengan frekuensi. Filter dipisahkan secara linear pada frekuensi rendah dan logaritmik pada frekuensi tinggi. Hal ini telah dilakukan untuk menangkap karakteristik penting dari sinyal suara.

Tujuan utama MFCC adalah untuk meniru perilaku telinga manusia. Selain itu MFCC telah terbukti bisa menyebutkan variasi dari gelombang suara itu sendiri. Diagram blok dari proses MFCC dapat dilihat pada Gambar 1.

Gambar 1 Diagram blok dari proses MFCC (Do 1994)

Penjelasan tiap tahapan pada proses MFCC sebagai berikut (Do 1994):

1. Frame Blocking. Pada tahap ini sinyal suara (continous speech) dibagi ke dalam

frame-frame. Tiap frame terdiri dari N

sampel.

2. Windowing. Proses selanjutnya adalah melakukan windowing pada tiap frame

untuk meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Konsepnya adalah meminimisasi distorsi spektral dengan menggunakan window

untuk memperkecil sinyal hingga mendekati nol pada awal dan akhir tiap

frame. Jika window didefinisikan sebagai

w(n), 0 ≤ n ≤ N-1, dengan N adalah banyaknya sampel tiap frame, maka hasil dari windowing adalah sinyal dengan persamaan:

Yt(n)=x1(n)w(n), 0 ≤ n ≤ N-1.

Pada umumnya, window yang digunakan adalah hamming window, dengan persamaan:

w(n)=0.54-0.46cos(2πn/N-1), 0 ≤ n ≤ N-1.

3. Fast Fourier Transform (FFT). Tahap ini mengkonversi tiap frame dengan N sampel dari time domain menjadi

frequency domain. FFT adalah suatu algoritma untuk mengimplementasikan

Discrete Fourier Transform (DFT) yang didefinisikan pada himpunan N sampel

{xn} sebagai berikut: ∑ = = − = 1 0 , 0,1,2,..., 1 / 2 N k n N N jkn e k x n X π , j digunakan untuk menotasikan unit imajiner, yaitu j = −1. Secara umum Xn adalah bilangan kompleks. Barisan {Xn} yang dihasilkan diartikan sebagai berikut: frekuensi nol berkorespondensi dengan n = 0, frekuensi positif 0 < f <

Fs/2berkorespondensi dengan nilai 1 ≤ n

N/2-1, sedangkan frekuensi negatif –

Fs/2 < f < 0 berkorespondensi dengan

N/2+1 < n < N-1. Dalam hal ini Fs adalah

sampling frequency. Hasil yang didapatkan dalam tahap ini biasa disebut dengan spektrum sinyal atau

periodogram.

4. Mel-frequency Wrapping. Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linear. Oleh karena itu, untuk

setiap nada dengan frekuensi aktual f

(dalam Hertz), tinggi subjektifnya diukur dengan skala ‘mel’. Skala mel-frequency

adalah selang frekuensi di bawah 1000 Hz dan selang logaritmik untuk frekuensi di atas 1000 Hz, sehingga pendekatan berikut dapat digunakan untuk menghitung mel-frequency untuk frekuensi f dalam Hz:

Mel(f) = 2595*log10(1+f/700). 5. Cepstrum. Langkah terakhir, konversikan

log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral spektrum suara merupakan representasi properti spektral lokal yang baik dari suatu sinyal untuk analisis frame. Mel spectrum coefficients (dan logaritmanya) berupa bilangan real, sehingga dapat dikonversikan ke domain waktu dengan menggunakan

Discrete Cosine Transform (DCT). Fuzzy C-Means (FCM)

Menurut Jang et al. (1997), Fuzzy C-Means

merupakan algoritma clustering data di mana setiap titik data masuk dalam sebuah cluster

dengan ditandai oleh derajat keanggotaan. FCM membagi sebuah koleksi dari n data vektor xj (j=1, 2, …, n) menjadi c cluster, dan menemukan sebuah pusat cluster (center) untuk tiap kelompok dengan meminimalisasi ukuran dari fungsi objektif. Pada FCM hasil dari clustering adalah sebuah titik data dapat menjadi anggota untuk beberapa cluster yang ditandai oleh derajat keanggotaannya antara 0 dan 1.

Berikut tahapan clustering menggunakan algoritma FCM:

1. Inisialisasi keanggotaan matriks U yang berisi derajat keanggotan terhadap cluster

dengan nilai antara 0 dan 1, sehingga . ,..., 1 , 1 1 n u c i j ij= ∀ =

=

2. Penghitungan c sebagai pusat cluster, ci , i = 1, …, c dengan menggunakan

= = = n j m ij n j j m ij i u x u c 1 1 ) ( ) ) (( .

3. Penghitungan fungsi objektif (Ji):

∑ ∑

= = = = c i n j ij m ij c i i c J u d c c U J 1 2 1 1,..., ) , ( di mana:

• uij adalah elemen matriks U yang bernilai antara 0 dan 1,

• dij = ||ci - xj|| adalah jarak antara pusat cluster ke-i dan titik data ke-j,

• ci adalah pusat cluster ke-i,

• m

[1,

] adalah parameter

fuzzifikasi. Nomalnya, nilai m berada pada selang [1.25,2] (Cox 2005).

Kemudian kondisi berhenti dicek:

• Jika (|Jt –Jt-1| < nilai toleransi terkecil yang diharapkan) atau (t > maksimal iterasi) maka proses berhenti.

• Jika tidak : t = t + 1.

4. Sebelum perhitungan diulangi kembali dari langkah 2, matriks U baru dihitung terlebih dahulu menggunakan formula berikut : ( ) . 1 1 1 2 ∑     = = c k m ij d d u kj ij

Jaringan Saraf Tiruan

Jaringan saraf tiruan diinspirasi oleh cara kerja otak manusia dimana untuk berpikir, otak manusia mendapat rangsangan dari neuron-neuron yang terdapat pada indera manusia, kemudian hasil rangsangan tersebut diolah sehingga menghasilkan suatu informasi. Pada komputer, masukan yang diberikan diumpamakan sebagai neuron-neuron dimana masukan tersebut dikalikan dengan suatu nilai dan kemudian diolah dengan fungsi tertentu untuk menghasilkan suatu keluaran. Pada saat pelatihan, pemasukan tersebut dilakukan berulang-ulang hingga dicapai keluaran seperti yang diinginkan. Setelah proses pelatihan, diharapkan komputer dapat mengenali suatu masukan baru berdasarkan data yang telah diberikan pada saat pelatihan.

Dibandingkan dengan teknologi lainnya, pendekatan komputasi menggunakan jaringan saraf tiruan untuk beberapa bidang aplikasi jauh lebih baik dan dapat mempersingkat waktu. Kekuatan jaringan saraf tiruan ini dapat digunakan untuk aplikasi seperti pemrosesan sinyal kontrol, pengenalan pola, kesehatan, dan pengenalan suara (Fausett 1994).

Probabilistic Neural Network

Probabilistic Neural Network

diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic

Neural Network” yang merupakan

penyempurnaan ide-ide sebelumnya yang telah dilakuannya sejak tahun 1966. Probabilistic Neural Network dirancang berdasarkan ide dari teori probabilitas klasik yaitu Bayesian dan estimator pengklasifikasi Parzen untuk

Probability Density Function. Dengan menggunakan pengklasifikasi Bayesian dapat ditentukan bagaimana sebuah data masukan diklasifikasi sebagai anggota suatu kelas dari beberapa kelas yang ada, yaitu yang mempunyai nilai maksimum pada kelas tersebut.

Adapun struktur dari PNN ini dapat dilihat pada Gambar 2, yang terdiri atas empat layer

yaitu input layer, pattern layer, summation layer, dan decision layer. Dengan menerima vektor tes x dari input layer, keluaran dari

pattern layer dapat dihitung melalui persamaan sebagai berikut :

( )

       − =

= j ih j d j h x x k x f 1 , dengan : d = dimensi vektor, k(z) = 0.5z2 e × ,

xj = vektor input kolom ke-j,

xij = vektor bobot baris ke-i kolom ke-j,

hj = smoothing parameter

(simpangan baku ke-j×n1/5 ). Di sisi lain, untuk summation layer dihitung dengan persamaan sebagai berikut :

( ) ( )

= =

 −

Π

=

n i j ij nj d j d d

h

x

x

k

n

h

h

h

x

p

1 1 2 1 2 /

...

2

1

π

,

dengan n adalah banyaknya observasi. Suatu vektor tes x diklasifikasikan pada

desicion layer sebagai kelas Y jika nilai DY(x) paling besar untuk kelas Y.

Gambar 2 Struktur Probabilistic Neural Network (Ganchev 2005)

Dokumen terkait