Menurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi dua, yaitu:
1. Identifikasi pembicara yaitu proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:
• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.
• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar
2. Verifikasi pembicara yaitu proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.
Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:
1. Pengenalan pembicara bergantung pada teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang
tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Dijitalisasi Gelombang Suara
Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat padat, cair, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.
Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses
PENDAHULUAN
Latar BelakangSinyal suara dapat memberikan informasi mengenai identitas pembicara. Proses mengekstrak informasi yang diinginkan dari sinyal suara disebut speech processing. Speech processing memiliki beberapa cabang kajian. Salah satu kajian dalam speech processing adalah identifikasi pembicara. Identifikasi pembicara (speaker identification) adalah suatu proses mengenali seseorang berdasarkan suaranya (Campbell 1997).
Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti konferensi audio dan penyelidikan polisi. Berbagai metode yang dapat digunakan untuk identifikasi pembicara, antara lain Dynamic Time Warping (DTW), Hidden Markov Model
(HMM), Vector Quantization (VQ), dan Jaringan Syaraf Tiruan seperti Multi Layer Perceptron dan Probabilistic Neural Network.
Pada penelitian ini akan dilakukan identifikasi pembicara menggunakan
Probabilistic Neural Network. Hal ini dikarenakan Probabilistic Neural Network
telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96%. (Sarimollaoglu et al. 2004).
Tujuan
Tujuan penelitian ini adalah mengembangkan model Probabilistic Neural Network untuk identifikasi pembicara. Penelitian ini juga dilakukan untuk membandingkan hasil identifikasi tanpa
threshold dan dengan threshold.
Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada: 1. Identifikasi bersifat tertutup dan
bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang terdaftar dan menggunakan kata “komputer” dalam pelatihan dan pengujian.
2. Ekstraksi ciri sinyal suara menggunakan
Mel-Frequency Cepstrum Coefficients
(MFCC).
3. Pembahasan difokuskan pada tahap pemodelan pembicara dengan
Probabilistic Neural Network, tidak pada pemrosesan sinyal analog sebagai praproses sistem.
Manfaat
Penelitian ini diharapkan dapat memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network untuk identifikasi pembicara. Selain itu juga diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.
TINJAUAN PUSTAKA
Jenis Pengenalan PembicaraMenurut Campbell (1997), pengenalan pembicara berdasarkan jenis aplikasinya dibagi dua, yaitu:
1. Identifikasi pembicara yaitu proses mengenali seseorang berdasarkan suaranya. Identifikasi pembicara dibagi dua, yaitu:
• Identifikasi tertutup (closed-set identification) di mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui.
• Identifikasi terbuka (open-set identification) di mana suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar
2. Verifikasi pembicara yaitu proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.
Pengenalan pembicara berdasarkan aspek kebahasaan dibagi menjadi dua (Ganchev 2005), yaitu:
1. Pengenalan pembicara bergantung pada teks yang mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. 2. Pengenalan pembicara bebas teks yang
tidak mengharuskan pembicara untuk mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Dijitalisasi Gelombang Suara
Suara adalah gelombang longitudinal yang merambat melalui medium. Medium atau zat perantara ini dapat berupa zat padat, cair, atau gas. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain, sampai ke gendang telinga manusia.
Gelombang suara merupakan gelombang analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses
mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitalisasi suara.
Proses dijitalisasi suara terdiri atas dua tahap yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah proses pengambilan nilai dalam jangka waktu tertentu. Nilai ini menyatakan amplitudo (besar/kecilnya) volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini bergantung pada panjang atau lamanya suara yang didijitalisasikan serta sampling rate yang digunakan pada proses dijitalisasinya.
Sampling rate itu sendiri adalah banyaknya nilai yang diambil setiap detik. Sampling rate
yang biasa digunakan adalah 8000 Hz dan 16000 Hz (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang didijitalisasikan dapat dinyatakan secara sederhana sebagai berikut: , T F S = s× dengan S = panjang vektor
Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)
Setelah melalui tahap sampling, proses dijitalisasi suara selanjutnya adalah kuantisasi. Kuantisasi adalah menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).
Ekstraksi Ciri Sinyal Suara
Sinyal suara merupakan sinyal bervariasi yang diwaktukan dengan lambat atau biasa disebut quasi-stationary (Do 1994). Ketika diamati dalam jangka waktu yang sangat pendek (5 - 100 ms), karakteristiknya hampir sama. Namun, dalam jangka waktu yang panjang (0,2 detik atau lebih) karakteristik sinyal berubah dan merefleksikan perbedaan sinyal suara yang diucapkan. Oleh karena itu, digunakan spektrum waktu pendek (short-time spectral analysis) untuk mengkarakterisasi sinyal suara.
Beberapa fitur sinyal suara yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan
Mel-Frequency Cepstrum Coefficients. Pada penelitian ini, fitur yang digunakan adalah
Mel-Frequency Cepstrum Coefficients.
Mel-Frequency Cepstrum Coefficients (MFCC)
MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia terhadap frekuensi. Filter dipisahkan secara linier pada frekuensi rendah dan logaritmik pada frekuensi tinggi. Hal ini dilakukan untuk menangkap karakteristik penting dari sinyal suara.
Tujuan utama MFCC adalah untuk meniru perilaku telinga manusia. Selain itu MFCC telah terbukti bisa menyebutkan variasi dari gelombang suara itu sendiri. Diagram blok dari proses MFCC dapat dilihat pada Gambar 1.
ambar 1 Diagram blok dari proses MFCC G MF 1. 2. untuk m ngga mende ir tiap
3. Fast Fourier Transform (FFT). Tahap ini mengkonversi tiap frame dengan N sampel dari time domain menjadi fr quency domain. FFT adalah suatu algoritma untuk mengimplementasikan Discrete Fourier
(Do 1994)
Penjelasan tiap tahapan pada proses CC sebagai berikut (Do 1994):
Frame Blocking. Pada tahap ini sinyal suara (continous speech) dibagi ke dalam
frame-frame. Tiap frame terdiri atas N sample.
Windowing. Proses selanjutnya adalah melakukan windowing pada tiap frame
untuk meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Konsepnya adalah meminimisasi distorsi spektral dengan menggunakan window
emperkecil sinyal hi kati nol pada awal dan akh
frame. Jika window didefinisikan sebagai
w(n), 0 ≤ n ≤ N-1, dengan N adalah banyaknya sampel tiap frame, maka hasil dari windowing adalah sinyal dengan persamaan:
Yl(n)=xl(n)w(n), 0 ≤ n ≤ N-1
Pada umumnya, window yang digunakan adalah hamming window, dengan persamaan:
w(n)=0.54-0.46cos(2πn/N-1), 0 ≤ n ≤ N-1
Transform (DFT) yang didefinisikan pada himpunan N sampel {xn} sebagai berikut:
∑
− = − = 1 0 / 2 N k N jkn k n x e X π , Dengan n=0, 1, 2,….., N-1, j digunakan untuk menotasikan unit imajiner, yaitu1 − =
j . Secara umum Xn adalah bilangan kompleks. Barisan {Xn} yang dihasilkan diartikan sebagai berikut: frekuensi nol berkorespondensi dengan n = 0, frekuensi positif 0 < f < Fs/2 berkorespondensi dengan nilai 1 ≤ n ≤
N/2-1, sedangkan frekuensi negatif –Fs/2 <
f < 0 berkorespondensi dengan N/2+1 < n
< N-1. Dalam hal ini Fs adalah sampling frequency. Hasil yang didapatkan dalam tahap ini biasa disebut dengan spektrum sinyal atau periodogram.
Mel-frequency Wrapping. Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f
(dalam Hertz), tinggi subjektifnya diuk 4. ur dengan uency adalah 00 Hz 5. sentasi g baik dari suatu
frame. Mel spectrum
at pelatihan, pem
ruan untuk beberapa bidang aplikasi rsingkat uan ini dap
De
hat pada Gambar 2 yang ter mpat layer yaitu
yer, summation layer, cision ayer. Dengan menerima sebuah i input layer, itung skala ‘mel’. Skala mel-freq
selang frekuensi di bawah 10 dan selang logaritmik untuk frekuensi di atas 1000 Hz, sehingga pendekatan berikut dapat digunakan untuk menghitung mel-frequency untuk frekuensi f dalam Hz:
Mel(f) = 2595*log10(1+f/700)
Cepstrum. Langkah terakhir, konversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral
spektrum suara merupakan repre properti spektral lokal yan
sinyal untuk analisis
coefficients (dan logaritmanya) berupa bilangan riil, sehingga dapat dikonversikan ke domain waktu dengan menggunakan
Discrete Cosine Transform (DCT). Jaringan Saraf Tiruan
Jaringan saraf tiruan diinspirasi oleh cara kerja otak manusia dimana untuk berpikir, otak manusia mendapat rangsangan dari neuron-neuron yang terdapat pada indera manusia, kemudian hasil rangsangan tersebut diolah sehingga menghasilkan suatu informasi. Pada komputer, masukan yang diberikan diumpamakan sebagai neuron-neuron dimana masukan tersebut dikalikan dengan suatu nilai dan kemudian diolah
dengan fungsi tertentu untuk menghasilkan suatu keluaran. Pada sa
asukan tersebut dilakukan berulang-ulang hingga dicapai keluaran seperti yang diinginkan. Setelah proses pelatihan, diharapkan komputer dapat mengenali suatu masukan baru berdasarkan data yang telah diberikan pada saat pelatihan.
Dibandingkan dengan teknologi lainnya, pendekatan komputasi menggunakan jaringan saraf ti
jauh lebih baik dan dapat mempe waktu. Kekuatan jaringan saraf tir
at digunakan untuk aplikasi seperti pemrosesan sinyal, kontrol, pengenalan pola, kesehatan, dan pengenalan suara (Fausett 1994).
Probabilistic Neural Network (PNN)
Probabilistic Neural Network
diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966 (Fausett 1994).
Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability
nsity Function. Dengan menggunakan pengklasifikasi Bayesian dapat ditentukan bagaimana sebuah data masukan diklasifikasi sebagai anggota suatu kelas dari beberapa kelas yang ada, yaitu yang mempunyai nilai maksimum pada kelas tersebut (Fausett 1994).
Adapun strukturnya dapat dili diri atas e
input layer, pattern la
dan de l
masukan vektor tes x dar u
kel aran dari pattern layer dapat dih melalui persamaan sebagai berikut :
⎟ ⎟ ⎠ ⎜ ⎝ = j j 1 h d = dimen i v ⎞ ⎜ ⎛ − Π = d xj x k x f( ) ij , dengan s ektor 5)
Untuk summation layer dihitung melalui persamaan: k(z) =e− × x 2 5 . 0 z
j = vektor input kolom ke-j
xij = vektor bobot baris ke-i kolom ke-j hj = 2.24×(standar deviasi ke-j)×n-1/5
(Silverman 198
( )
∑
= = ⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = n i j ij j d j d d h x x k h h h x p 1 1 2 1 2 / ... 2 1 ) ( πdengan n adalah banyaknya observasi. Suatu vektor tes x diklasifikasikan pada desicion layer sebagai kelas Y jika nilai pY(x) paling besar untuk kelas Y.
Gambar 2 Struktur Probabilistic Neural Network (Ganchev 2005)
METODE PENELITIAN
Proses identifikasi pembicara dengan menggunakan Probabilistic Neural Network
dalam penelitian ini dapat dilihat pada Gambar 3. Proses identifikasi terdiri atas dua fase, yaitu fase pelatihan dan pengujian. Pada fase pelatihan, contoh suara akan
umpulkan dari setiap pembicara untuk dikenali. Sedangkan
ontoh suara untuk diketahui pem pan me z. dib 1. 2.
embicara laki-laki sedangkan
set
2.
digunakan sebagai threshold
dalam identifikasi yang menggunakan
threshold.
dik
pada fase pengujian,
diberikan c
ilik suara tersebut. Data suara
Data yang digunakan pada penelitian ini adalah gelombang suara yang telah didijitasi dan direkam dari 20 pembicara, yaitu 10 pembicara laki-laki dan 10 pembicara perempuan dengan rentang usia 20-23 tahun dan masing-masing pembicara diambil suaranya selama satu detik. Suara dari tiap pembicara diambil menggunakan fungsi
wavrecord pada Matlab, dan disim njadi file berekstensi WAV. Setiap suara diambil dengan sampling rate 16000 H
Pembicara yang terdiri atas 20 orang agi menjadi dua kelompok, yaitu :
Kelompok 1 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang digunakan sebagai data pelatihan, threshold, dan pengujian. Pembicara 1 s.d. 5 merupakan pembicara laki-laki sedangkan pembicara 6 s.d. 10 merupakan pembicara perempuan.
Kelompok 2 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang hanya digunakan sebagai data pengujian. Pembicara 1 s.d. 5 merupakan p
pembicara 6 s.d. 10 merupakan pembicara perempuan.
Khusus untuk kelompok 1, data suara iap pembicara dibagi menjadi tiga, yaitu : 1. Data pelatihan yaitu data yang digunakan
sebagai bobot dalam Probabilistic Neural Network.
Data threshold yaitu data yang pada tahap awal digunakan sebagai data pengujian. Dari pengujian ini akan dicari nilai minimum untuk setiap pembicara. Nilai inilah yang
m identifikasi pembicara Gambar 3 Blok diagram siste
dengan n adalah banyaknya observasi. Suatu vektor tes x diklasifikasikan pada desicion layer sebagai kelas Y jika nilai pY(x) paling besar untuk kelas Y.
Gambar 2 Struktur Probabilistic Neural Network (Ganchev 2005)
METODE PENELITIAN
Proses identifikasi pembicara dengan menggunakan Probabilistic Neural Network
dalam penelitian ini dapat dilihat pada Gambar 3. Proses identifikasi terdiri atas dua fase, yaitu fase pelatihan dan pengujian. Pada fase pelatihan, contoh suara akan
umpulkan dari setiap pembicara untuk dikenali. Sedangkan
ontoh suara untuk diketahui pem pan me z. dib 1. 2.
embicara laki-laki sedangkan
set
2.
digunakan sebagai threshold
dalam identifikasi yang menggunakan
threshold.
dik
pada fase pengujian,
diberikan c
ilik suara tersebut. Data suara
Data yang digunakan pada penelitian ini adalah gelombang suara yang telah didijitasi dan direkam dari 20 pembicara, yaitu 10 pembicara laki-laki dan 10 pembicara perempuan dengan rentang usia 20-23 tahun dan masing-masing pembicara diambil suaranya selama satu detik. Suara dari tiap pembicara diambil menggunakan fungsi
wavrecord pada Matlab, dan disim njadi file berekstensi WAV. Setiap suara diambil dengan sampling rate 16000 H
Pembicara yang terdiri atas 20 orang agi menjadi dua kelompok, yaitu :
Kelompok 1 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang digunakan sebagai data pelatihan, threshold, dan pengujian. Pembicara 1 s.d. 5 merupakan pembicara laki-laki sedangkan pembicara 6 s.d. 10 merupakan pembicara perempuan.
Kelompok 2 yang terdiri atas lima pembicara laki-laki dan lima pembicara perempuan yang hanya digunakan sebagai data pengujian. Pembicara 1 s.d. 5 merupakan p
pembicara 6 s.d. 10 merupakan pembicara perempuan.
Khusus untuk kelompok 1, data suara iap pembicara dibagi menjadi tiga, yaitu : 1. Data pelatihan yaitu data yang digunakan
sebagai bobot dalam Probabilistic Neural Network.
Data threshold yaitu data yang pada tahap awal digunakan sebagai data pengujian. Dari pengujian ini akan dicari nilai minimum untuk setiap pembicara. Nilai inilah yang
m identifikasi pembicara Gambar 3 Blok diagram siste
3. Data pengujian yaitu data yang digunakan dalam pengujian model yang telah dibuat.
dil
(20
s identifikasi pembicara baik
dua
thr suara
Tab
fun g
dik
Jenis identifikasi pembicara yang akukan bersifat bergantung pada teks. Kata yang diucapkan baik untuk pelatihan maupun pengujian telah ditentukan yaitu “komputer” dan diucapkan sebanyak 60 kali untuk setiap pembicara pada kelompok 1 dan lima kali untuk setiap pembicara pada kelompok 2 sehingga terdapat 650 file data. Setiap pembicara mengucapkan kata “komputer” dan dilakukan secara berulang sebanyak 60 kali untuk kelompok 1 dan lima kali untuk kelompok 2 didasarkan pada penelitian sebelumnya yang dilakukan oleh Mandasari
05) dan Purnamasari (2006). Prose
kelompok 1 maupun kelompok 2 terdiri atas macam, yaitu tanpa threshold dan dengan
eshold. Struktur percobaan data untuk setiap pembicara dapat dilihat pada
el 1.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada implementasi MFCC digunakan gsi dari Auditory Toolbox yan embangkan oleh Slaney pada tahun 1998.
Auditory Toolbox dapat diperoleh secara
bebas di http://rv14.ecn.purdue.edu/~malcolm/interval/
1998-010/. Fungsi ini menggunakan lima parameter, yaitu :
4. Lap yaitu overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5.
5. Cepstral coefficient yaitu jumlah cepstrum
yang diinginkan sebagai output. Cepstral coefficient yan
1. Input yaitu masukan suara yang berasal dari setiap pembicara.
2. Sam yaitu bany
diambil dalam satu detik. itian
i guna in 000
3. am a an
untuk satu a ime
frame yan n
g digunakan sebanyak 13. iap pembicara,
matriks berukuran 13 × 66. Hasil ini merupakan masukan untuk Probabilistic Neural Network.
Probabilistic Neural Network
kan matriks berukuran
mi
tern
a ihan ke ebagai beriku
pling rate aknya nilai Dalam penel
yang
ni di Hz.
Time fr
kan sampl g rate sebesar 16
e yaitu w ktu yang diingink
frame (d g digunaka
lam milidetik). T
adalah 30 ms.
Setiap data suara dari set
baik kelompok 1 maupun kelompok 2, akan dibagi menjadi 66 frame dimana masing-masing frame berukuran 30 ms dengan overlap 50% dan tanpa noise. Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing
frame. Dengan demikian setiap data suara menjadi
Input layer merupa
13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengala proses ekstraksi ciri sinyal suara. Pada pat layer, dihitung ”jarak” vektor pel t vektor pengujian dengan persamaan s
t ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Π = = j ij j d j h x x k x f 1 ) ( , dengan d = dimensi vektor k(z) =
ktor input kolom ke-j, j=1,2,..,858
ij = vektor bobot b -j, ,...,
24×(st i ke-j)
j=1,2 ,40
Setiap tte layer akan
a an
layer lainn kela Banyaknya kelas dalam ad ah 10 yang
Tabel 1 Struk a p p 2 5 . 0 z e− × xj = ve
x aris ke-i kolom ke
58 i=1,2 h n, j=1,2,...,8 andar devias j = 2. ×n-1/5 , ,...,858, n=20,30 keluaran dari pa rn
dijumlahk n dengan keluar dari pattern
ya yang satu s. penelitian ini al
tur percob an data suara setia embicara
Tanpa thre old sh Dengan threshold
Identifikasi
Kelompok 1 Kelompok 2 Kelompok 1 Kelompok 2
Pelatihan Data ke-1 s.d. 20 - Data ke-1 s.d. 20 -
Threshold - - Data ke-21 s.d. 40 - 20
Pelatihan
Pengujian Data ke-41 s.d. 60 Data ke-1 s.d. 5 Data ke-41 s.d. 60 Data ke-1 s.d. 5
Pelatihan Data ke-1 s.d. 30 - Data ke-1 s.d. 30 -
Threshold - - Data ke-31 s.d. 45 - 30
Pelatihan
Pengujian Data ke-46 s.d. 60 Data ke-1 s.d. 5 Data ke-46 s.d. 60 Data ke-1 s.d. 5
Pelatihan Data ke-1 s.d. 40 - Data ke-1 s.d. 40 -
Threshold - - Data ke-41 s.d. 50 - 40
Pelatihan
berasal dari banyaknya pembicara yang digunakan untuk pelatihan. Proses ini termasuk dalam summation layer yang dihitung melalui persamaan sebagai berikut :