TINJAUAN PUSTAKA Jenis Pengenalan Pembicara

Menurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi menjadi:

1. Identifikasi pembicara adalah proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:

• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.

• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar

2. Verifikasi pembicara adalah proses menerima atau menolak permintaan identitas dari seseorang berdasarkan suaranya.

Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:

1. Pengenalan pembicara bergantung teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang

tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.

Dijitalisasi Gelombang Suara

Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat cair, padat, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.

Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut digitalisasi suara.

Proses dijitalisasi suara terdiri dari dua tahap yaitu sampling dan kuantisasi (Jurafsky

& Martin 2000). Sampling adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo (besar/kecilnya) volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didijitalisasikan serta sampling rate yang digunakan pada proses dijitalisasinya.

Sampling rate itu sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate

yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didijitalisasikan dapat dinyatakan secara sederhana sebagai berikut:

S = Fs * T, dengan S = panjang vektor,

Fs = sampling rate yang digunakan (Hertz),

T = panjang suara (detik).

Setelah melalui tahap sampling, proses dijitalisasi suara selanjutnya adalah kuantisasi yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Signal to Noise Ratio (SNR)

Signal-to-noise ratio (yang biasa disingkat menjadi SNR atau S/N) adalah suatu konsep yang mendefinisikan perbandingan antara kekuatan sinyal dengan kekuatan noise yang merusak sinyal. Secara sederhana, signal-to-noise ratio

membandingkan level dari sinyal yang diinginkan (seperti suara piano dalam suatu konser) dengan level dari sinyal yang tidak diinginkan (seperti suara orang yang bercakap-cakap dalam suatu konser). Semakin kecil nilai SNR, semakin tinggi pengaruh noise dalam merusak sinyal asli.

Secara umum, SNR didefinisikan sebagai berikut: , 2     = = noise signal noise signal A A P P SNR

dengan P adalah rata-rata dari daya (power) dan A adalah akar kuadrat rata-rata dari amplitudo. Pada umumnya, sinyal suara memiliki jangkauan dinamis yang sangat tinggi. Hal ini menyebabkan SNR akan lebih efisien jika diekspresikan dalam skala

logarithmic decibel. Pada desibel, SNR didefinisikan sebagai 10 dikali logaritma dari

Bertingkat menggunakan Fuzzy C-Means

(FCM) untuk Identifikasi Pembicara. Selain itu, model yang dihasilkan diharapkan dapat digunakan untuk mengembangkan sistem identifikasi yang bersifat tertutup dan bergantung pada teks.

TINJAUAN PUSTAKA Jenis Pengenalan Pembicara