IV. HASIL DAN PENGUJIAN SISTEM
4.3 Pengujian sistem terhadap file suara
Pada pengujian ini file suara yang diambil dengan selang 2 detik dan dengan pengucapan kata “MAKAN, MINUM, dan BELAJAR,” dilakukan terhadap 1 orang, hal ini ditunjukan untuk mendapatkan perbedaan koefisien terhadap setiap pengucapan kata pada sinyal suara. Sinyal suara tersebut akan dianalisa berdasarkan nilai N dan M yang diubah – ubah sesuai dengan ketentuan tertentu. Adapun perbedaan koefisien diantara pengucapan kata tersebut ditunjukkan pada Gambar 4.1 untuk N = 256 dan M = 100.
Gambar 4.1Grafik perbandingan koefisien untuk N = 256 dan M = 100
Pada Grafik yang ditunjukkan pada Gambar 4.1, data 1 merupakan pengucapan kata “MAKAN”, data 2 merupakan pengucapan kata “MINUM”, data 3 merupakan pengucapan kata “BELAJAR”.
Berdasarkan hasil pengujian dari perbandingan koefisien sinyal suara yang telah dilakukan dapat dilihat bahwa besar nilai koefisien untuk pengucapan kata “MAKAN” bernilai mulai dari 1.8341 mv sampai 3.1374 mv dan rata – rata 2.82171 mv dengan jumlah total koefisien 69 buah. Untuk koefisien pengucapan kata “MINUM” bernilai mulai dari 1.8972 mv sampai 3.1374 mv dan nilai rata – rata 2.559138 mv dengan jumlah total koefisien 71 buah. Kemudian untuk koefisien pengucapan kata “BELAJAR” bernilai mulai dari 1.7493 mv sampai 3.1523 mv dan rata – rata 2.82171 mv dengan jumlah total koefisien 68 buah.
Pengucapan kata “MAKAN” memiliki selisih jumlah koefisien terhadap pengucapan kata “MINUM” sebesar 2 koefisien, pengucapan kata “MAKAN” terhadap koefisien pengucapan kata “BELAJAR” memiliki selisih 3 koefisien.
Pengucapan kata “MINUM” terhadap koefisien pengucapan kata “BELAJAR” memiliki selisih 3 koefisien. Sedangkan untuk perbedaan koefisien sinyal suara untuk N = 512 dan M = 100 ditunjukkan pada Gambar 4.2
Gambar 4.2 Grafik perbandingan koefisien untuk N = 512 dan M = 100
Berdasarkan hasil pengujian dari perbandingan koefisien sinyal suara yang telah dilakukan dapat dilihat bahwa besar nilai koefisien untuk pengucapan kata “MAKAN” bernilai mulai dari 1.8457 mv sampai 3.1418 mv dan rata – rata 2.835658 mv dengan jumlah total koefisien 75 buah. Untuk koefisien pengucapan kata “MINUM” bernilai mulai dari 1.3071 mv sampai 3.0152 mv dan nilai rata – rata 2.613931 mv dengan jumlah total koefisien 74 buah. Kemudian untuk
koefisien pengucapan kata “BELAJAR” bernilai mulai dari 2.0437 mv sampai 3.1589 mv dan rata – rata 2.775177 mv dengan jumlah total koefisien 71 buah.
Pengucapan kata “MAKAN” memiliki selisih jumlah koefisien terhadap pengucapan kata “MINUM” sebesar 1 koefisien, pengucapan kata “MAKAN” terhadap koefisien pengucapan kata “BELAJAR” memiliki selisih 4 koefisien.
Pengucapan kata “MINUM” terhadap koefisien pengucapan kata “BELAJAR” memiliki selisih 3 koefisien.. Sedangkan untuk perbedaan koefisien sinyal suara untuk N = 1024 dan M = 100 ditunjukkan pada Gambar 4.3
Gambar 4.3 Grafik perbandingan koefisien untuk N = 1024 dan M = 100
Berdasarkan hasil pengujian dari perbandingan koefisien sinyal suara yang telah dilakukan dapat dilihat bahwa besar nilai koefisien untuk pengucapan kata “MAKAN” bernilai mulai dari 1.8534 mv sampai 3.1243 mv dan rata – rata 2.904102 mv dengan jumlah total koefisien 81 buah. Untuk koefisien pengucapan
kata “MINUM” bernilai mulai dari 1.8532 mv sampai 2.9992 mv dan nilai rata – rata 2.652034 mv dengan jumlah total koefisien 79 buah. Kemudian untuk koefisien pengucapan kata “BELAJAR” bernilai mulai dari 1.9730 mv sampai 3.1204 mv dan rata – rata 2.665712 mv dengan jumlah total koefisien 76 buah.
Pengucapan kata “MAKAN” memiliki selisih jumlah koefisien terhadap pengucapan kata “MINUM” sebesar 2 koefisien, pengucapan kata “MAKAN” terhadap koefisien pengucapan kata “BELAJAR” memiliki selisih 5 koefisien. Pengucapan kata “MINUM” terhadap koefisien pengucapan kata “BELAJAR” memiliki selisih 3 koefisien.
Jumlah koefisien pada N = 256 dengan pengucapan kata “MAKAN” memiliki selisih sebesar 6 buah terhadap N = 512 dan selisih sebasar 12 buah terhadap N = 1024 dan selisih antara N = 512 terhadap N = 1024 sebesar 6 buah. Sedangkan untuk pengucapan kata “MINUM” memiliki selisih sebesar 3 buah terhadap N = 256 dan selisih sebesar 8 terhadap N =1024 dan selisih antara N = 512 terhadap N = 1024 sebesar 5 buah. Sedangkan untuk pengucapan kata “BELAJAR” memiliki selisih sebesar 3 buah terhadap N = 256 dan selisih sebesar 6 terhadap N = 1024 dan selisih antara N = 512 terhadap N = 1024 sebesar 5 buah.
BAB V
PENUTUP
5.1 Kesimpulan
1. Sinyal suara dapat diidentifikasi berdasarkan jumlah koefisien yang dihasilkan.
2. Rentang koefisien berbanding lurus dengan frekuensi sinyal suara walaupun berbeda sumber suara tersebut.
3. Penggunaan frame blocking yang berbeda mempengaruhi rentang dan jumlah koefisien setiap sinyal suara.
4. Pengucapan jumlah suku kata sangat mempengaruhi jumlah koefisien setiap sinyal suara.
5. Pada penelitian ini Frame Blocking dengan nilai N = 256 adalah yang terbaik untuk menganalisa karakteristik sinyal suara manusia.
5.2 Saran
1. Lebih banyak melakukan sampel sinyal suara untuk mengahasilkan nilai koefisien yang lebih baik.
2. Diharapkan Tugas Akhir ini dapat menjadi acuan untuk melakukan penelitian pada sistem pengenalan suara.
3. Diharapkan adanya kelanjutan untuk membuat penilitian sistem pengenalan suara sampai ketahap automasi.
BAB II
DASAR TEORI
2.1 Suara (Speaker)
Suara adalah sinyal atau gelombang yang merambat dengan frekuensi dan amplitudo tertentu melalui media perantara yang dihantarkannya seperti media air, udara maupun benda padat. Manusia dapat berkomunikasi dengan manusia lainnya dengan suara. Pembangkitan ucapan manusia dimulai dengan awal konsep dari gagasan yang ingin disampaikan pada pendengar. Pengucap mengubah gagasan tadi dalam struktur linguistic dengan memilih kata atau frasa yang secara tepat dapat mewakili dan membawakannya dengan tata bahasa yang dimengerti antara pengucap dan pendengar. Ucapan yang diucapkan memiliki tujuan tertentu dengan asumsi bahwa ucapan tersebut diucapkan secara benar, dapat diterima, dan dipahami oleh pendengar yang dituju.
Pembangkitan ucapan pada hakekatnya berhubungan dengan kemampuan mendengar. Sinyal ucapan dibangkitkan oleh organ vokal dan ditransmisikan melalui udara menuju telinga pendengar. Pada Gambar 2.1 diperlihatkan proses antara pengucap dengan pendengar serta mekanisme dalam produksi suara dan pemahaman suara oleh manusia [1].
Gambar 2.1 Lingkaran komunikasi Suara
Sinyal suara terjadi secara perlahan waktu variasi sinyal (disebut sebagai kuasi stasioner). Contoh dari sinyal suara yang ditunjukkan pada Gambar 2.2 dibawah. Ketika diperiksa selama periode yang cukup singkat (5 sampai 100 msec), karakteristiknya cukup stasioner. Namun, selama jangka waktu yang lama (diurutan 1/5 detik atau lebih) sinyal karakteristik dapat mengubah pantulan berbicara berbeda dengan suara yang diucapkan. Oleh karena itu, waktu singkat spectral analisis adalah cara yang paling umum untuk mengkarakteristik sinyal suara.
Gambar 2.2 Contoh sinyal suara
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 Time (second)
Pada dasarnya banyak macam kemungkinan parameter yang mewakili sinyal suara untuk melakukan pengenalan pembicara, seperti Linear Prediksi Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan lain –lain. MFCC mungkin yang paling dikenal dan paling popular, dan akan dijelaskan dalam tulisan ini.
MFCC (mel frequency cepstrum coefficients) yang didasarkan pada variasi Bandwidth yang dikenali telinga manusia dengan frekuensi, filter spasi linear pada frekuensi rendah dan logaritmik pada frekuensi tinggi telah digunakan untuk menangkap karakteristik penting dari pembicara. Hal ini dinyatakan dalam skala mel frequency, yang merupakan frekuensi linier berada dibawah 1000 Hz dan logaritmik diatas 1000 Hz [2].
2.2 Pengolahan suara
Pengolahan suara adalah suatu perkembangan teknik dan sistem yang memungkinkan komputer suatu perangkat untuk mengenali dan memahami kata – kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata - kata diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode – kode tertentu untuk mengidentifikasikan kata – kata tersebut, hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan [3].
2.2.1 Produksi Pengolahan Ucapan
Untuk dapat memahami bagaimana produksi ucapan dilakukan, maka kita perlu mengetahui bagaimana Mekanisme vocal manusia dibangun. Pada Gambar 2.3 bagian yang paling penting dari mekanisme vocal manusia adalah saluran vocal bersama dan rongga nasal, yang dimulai pada velum. Velum merupakan sebuah mekanisme seperti pintu jebakan yang digunakan untuk merumuskan bunyi nasal saat diperlukan. Ketika velum diturunkan, rongga nasal digabungkan bersama-sama dengan saluran vocal untuk merumuskan sinyal ucapan yang diinginkan. Daerah crossectional dari saluran vocal dibatasi oleh lidah, bibir, rahang dan velum dan bervariasi 0-20 cm2 [4].
2.2.2 Sifat ucapan manusia
Salah satu tolak ukur yang paling penting dari ucapan adalah frekuensi ucapan itu sendiri. Ucapan dapat dibedakan satu sama lain dengan bantuan frekuensi. Ketika frekuensi ucapan meningkat, nada ucapan menjadi tinggi dan menyakitkan. Ketika frekuensi ucapan berkurang, ucapan akan lebih dalam. Gelombang ucapan adalah gelombang yang terjadi dari getaran materi ucapan. Nilai tertinggi dari frekuensi yang manusia dapat hasilkan sekitar 10 kHz. Dan nilai terendah adalah sekitar 70 Hz.
Ini adalah nilai – nilai maksimum dan minimum. Interval frekuensi ini berubah untuk setiap orang. Dan besarnya ucapan dinyatakan dalam decibel (dB). Ucapan manusia normal memiliki Interval frekuensi 100 Hz – 3200 Hz dan besarmya antara 16 Hz dan 20 kHz. Dan 0,5 % perubahan frekuensi adalah kepekaan telinga manusia [4].
Karakteristik Pembicara :
a) Berdasarkan perbedaan panjang saluran vocal, laki-laki, perempuan, dan ucapan anak-anak yang berbeda.
b) Aksen daerah adalah perbedaan frekuensi resonansi, jangka waktu, dan nada.
c) Individu memiliki pola frekuensi resonansi dan pola durasi yang unik (memungkinkan kita untuk mengidentifikasi pembicara).
2.3 Mel Frequency Cepstrum Coefficients (MFCC)
Mel Frequency Cepstrum Coefficients (MFCC) merupakan satu metode yang banyak dipakai dalam bidang speech recognition. Metode ini digunakan untuk melakukan feature extraction, sebuah proses yang mengkonversikan sinyal suara menjadi beberapa parameter. Masukan suara biasanya direkam pada sampling rate diatas 10000 Hz. Frekuensi sampling ini dipilih untuk meminimalkan atau mengkonversi efek aliasing dari analog ke digital. Sinyal-sinyal ini dapat menangkap semua frekuensi sampai dengan 5 Hz, yang meliputi sebagian besar energi suara yang dihasilkan oleh manusia. Seperti yang telah dibahas sebelumnya, tujuan utama dari proses MFCC adalah untuk mengikuti perilaku telinga manusia. Lihat Gambar 2.4 [2].
Gambar 2.4 Block diagram proses MFCC
Keunggulan dari metode MFCC ini adalah :
a. Mampu menangkap karakteristik suara yang sangat penting bagi pengenalan suara atau dengan kata lain mampu menangkap informasi-informasi yang terkandung dalam sinyal suara.
mel cepstrum mel spectrum frame continuous speech Frame Blocking Windowing FFT spectrum Mel-frequency Wrapping Cepstrum
b. Menghasilkan data seminimal mungkin tanpa menghilangkan informasi-informasi penting yang ada.
c. Mereplikasi organ pendengaran manusia dalam melakukan persepsi sinyal suara.
2.4 Frame Blocking
Frame Blocking adalah pembagian sinyal audio menjadi beberapa frame yang nantinya dapat memudahkan dalam perhitungan dan analisa sinyal, suatu frame terdiri dari beberapa sampel tergantung tiap berapa detik suara akan disampel dan berapa frekuensi samplingnya. Pada proses ini dilakukan pemotongan sinyal dalam slot-slot tertentu agar memenuhi syarat yaitu linear dan timeinvariant.
Dalam langkah ini sinyal suara yang kontinyu diblock menjadi frame sampel N, dengan frame yang berdekatan dipisahkan oleh M (M<N). Frame pertama terdiri dari N sampel, Frame kedua dimulai sampel M setelah frame yang pertama, dan melawati dari sampel N-M dan seterusnya. Proses ini berlanjut sampai semua suara dicatat dalam satu frame atau lebih. Nilai-nilai untuk N dan M akan berubah-rubah sesuai dengan pengujian yang akan dilakukan [5].
2.5 Windowing
Dalam melakukan pemrosesan sinyal, maka dari input yang dimasukkan akan terbentuk sinyal yang magnitudenya bervariasi pada awal maupun akhir frame. Hal tersebut menghambat pemrosesan sinyal dan menghasilkan keluaran
yang kurang akurat. Untuk itu perlu diaplikasikan suatu window penghalus pada setiap frame dengan melakukan overlapping antara satu frame dengan frame yang lain, sehingga dapat dibangkitkan suatu feature yang lebih halus sepanjang durasi waktu tersebut. Dalam proyek ini akan digunakan metode Hamming. Digunakan Hamming window karena Hamming window memiliki side lobe yang paling kecil dan Main lobe yang paling besar sehingga hasil windowing akan lebih dalam menghasilkan efek diskontinuitas. Konsep disini adalah untuk meminimalkan distorsi spectral dengan menggunakan window untuk sinyal ke nol pada awal dan akhir disetiap frame. Jika kita mendefenisikan window seperti ini, dimana N adalah jumlah sampel disetiap frame, maka hasil windowing adalah sinyal [2].
Sebuah fungsi window yang baik harus menyempit pada bagian main lobe dan melebar pada bagian side lobe-nya.
Berikut ini adalah representasi dari fungsi window terhadap signal suara yang diinputkan :
y1(n) = x1(n)w(n), 0 ≤ n ≤ N – 1 (2.1) Dimana :
x(n) = x1(n)w(n) n = 0,1,….,N-1
x(n) = nilai sampel signal hasil windowing x1(n) = nilai sampel dari frame signal ke i w(n) = fungsi window
Windowing Hamming biasa digunakan sebagai berikut :
w(n) = 0.54 – 0.46.cos
(
2.�.�
�−1
)
, 0 ≤ n ≤ N – 1 (2.2) Dimana :w (n) = windowing
N = jumlah data dari sinyal n = waktu diskrit
2.6 Fast Fourier Transform (FFT)
Langkah pengolahan selanjutnya adalah Fast Fourier Transform (FFT), yang mengubah setiap frame sampel N dari domain waktu ke domain frekuensi. FFT adalah algoritma cepat untuk mengimplementasikan Discrete Fourier Transform (DFT), yang didefenisikan pada himpunan N sampel {xn} sebagai berikut :
∑
=− − = − = 1 0 / 2 1 ,..., 2 , 1 , 0 , N n N kn j n k x e k N X π (2.3)Dalam Xk’s adalah bilangan kompleks dan hanya mempertimbang kan nilai tersebut (besaran frekuensi). Urutan yang dihasilkan {Xk} ditafsirkan sebagai berikut : frekuensi positif 0 ≤ f < Fs / 2 sesuai dengan nilai-nilai 0 ≤ n ≤ N / 2 – 1, sedangkan frekuensi negative – Fs / 2 < 0 sesuai dengan N/2+1≤n≤N−1. Dimana Fs menunjukkan frekuensi sampling [2].
2.7 Mel Frequency Wrapping
Studi psikofisik telah menunjukkan bahwa persepsi manusia tentang frekuensi suara untuk sinyal ucapan tidak mengikuti skala linear. Jadi, untuk setiap suara dengan frekuensi seseungguhnya f, dalam Hz, sebuah pola diukur dalam sebuah skala yang disebut “mel”. Skala “mel frequency” adalah skala frekuensi linear dibawah 1000 Hz dan skala logaritmik diatas 1000 Hz. Salah satu pendekatan untuk simulasi spectrum subjektif adalah dengan menggunakan filterbank, jarak pada mel skala (lihat Gambar 2.5). Artinya Filter bank memiliki respon frekuensi Bandpass segitiga, dan jarak bandwidth ditentukan oleh interval frekuensi mel konstan. Jumlah koefisien spectrum mel, K, biasanya dipilih sebagai 20.
Gambar 2.5 Contoh Mel - spasi filterbank
0 1000 2000 3000 4000 5000 6000 7000 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Mel-spaced filterbank Frequency (Hz)
Filterbank ini dapat diterapkan dalam domain frekuensi, sehingga hanya sebesar yang diterapkan dijendela segitiga, bentuk seperti pada gambar diatas sampai spectrum. Sebuah cara yang digunakan tentang Filter bank mel frequency ini adalah untuk melihat setiap filter sebagai histogram bin (dimana bins memiliki kemampuan) dalam domain frekuensi [2].
Skala ini didefenisikan oleh Stanley Smith, John Volkman dan Edwin Newman sebagai :
���(�) = 2595∗log10 (1 + �
700) (2.4)
Dalam mel frequency wrapping, sinyal hasil FFT dikelompokkan kedalam berkas filter triangular ini. Maksud pengelompokan disini adalah setiap nilai FFT dikalikan terhadap gain filter yang bersesuaian dan hasilnya dijumlahkan.
2.8 Cepsturm
Cepstrum adalah sebutan kabalikan untuk spectrum. Cepstrum biasa digunakan untuk mendapatkan informasi dari suatu sinyal suara yang diucapkan oleh manusia. Pada langkah terakhir ini, spectrum log mel dikonversikan menjadi cepstrum menggunakan Discrete Cosine Transform (DCT). Oleh karena itu jika kita menunjukkan tersebut koefisien spectrum daya mel yang merupakan hasil dari langkah terakhir S~0,k =0,2,...,K −1, kita dapat menghitung MFCC seperti :
K-1 (2.5) n K k n S c K k k n , 0,1,..., 2 1 cos ) ~ (log ~ 1 = − = ∑ =
π
Perhatikan bahwa kita mengecualikan komponen pertama, dari DCT karena merupakan nilai rata-rata dari sinyal input, yang dilakukan speaker informasi spesifik [2].
1.1 Latar Belakang
Perkembangan teknologi pengolahan sinyal suara manusia pada akhir-akhir ini banyak digemari dan dikembangkan. Salah satu contoh pengolahan sinyal suara manusia yang sedang dikembangkan adalah sistem pengenalan pembicara (speaker recognitionsystem). Manusia mampu membedakan identitas dari orang yang mereka kenal hanya melalui suara saja. Hal ini dikarenakan setiap orang memiliki karakteristik suara tersendiri. Proses pengidentifikasian seseorang melalui karakteristik suaranya disebut speaker recognition.
Pengenalan pembicara (Speaker recognition) memungkinkan untuk menggunakan suara untuk mengontrol atau memverifikasi identitas sumber suara, Sistem tersebut mampu mengontrol keamanan untuk daerah informasi rahasia, dan remote akses layanan informasi. Sinyal suara memiliki banyak parameter yang sangat rumit. Hal ini menjadi alasan penulis menggunakan teknik ekstraksi sinyal suara yang sangat kompleks. Metode ekstraksi suara MFCC (Mel Frequency Cepstrurm Coefficient) dapat menjadi alternatif untuk menyelesaikan masalah yang diakibatkan karena terjadinya kebocoran spektral atau aliasing pada sinyal suara.
Untuk memfokuskan pembahasan tugas akhir ini, maka pembahasan masalah dirumuskan pada hal - hal sebagai berikut:
1. Bagaimana MFCC (Mel Frequency Cepstrum Coefficients) mampu mengolah data suara dengan baik.
2. Bagaimana MFCC ditujukan untuk meminimalkan kebocoran yang terjadi pada sinyal suara yang diakibatkan oleh frame blocking.
3. Bagaimana menggunakan MFCC dapat mengurangi noise pada pengolahan sinyal suara.
4. Bagaimana menentukan N frame blocking pada algoritma MFCC untuk memaksimalkan kinerja algoritma tersebut.
5. Bagaimana MFCC untuk pengolahan data suara yang efektif pada rentang frekuensi pendengaran manusia.
1.3 Tujuan Penelitian
Adapun tujuan dari penulisan Tugas Akhir ini adalah :
Untuk menganalisa algoritma MFCC (mel frequency cepstrum coefficients) dalam mengekstraksi ciri dari suara masukan sehingga suara dapat diidentifikasikan.
Agar isi dan pembahasan Tugas Akhir ini menjadi terarah, maka penulis perlu membuat batasan masalah yang akan dibahas. Adapun batasan masalah pada penulisan Tugas Akhir ini adalah sebagai berikut :
1. Data suara yang akan dianalisa berasal dari file audio atau hasil tangkapan menggunakan mikrofon yang telah difilter menggunakan filter anti aliasing.
2. Metode Ekstraksi yang digunakan adalah metode MFCC (mel frequency cepstrum coefficients).
3. Program dikembangkan dengan menggunakan bahasa pemograman MATLAB sebagai alat bantu untuk pemrosesan data suara.
1.5 Metode Penelitian
Dalam penulisan Tugas Akhir ini digunakan beberapa metode untuk mendapatkan data-data yang diperlukan dalam menulis laporan Tugas Akhir ini. Metode-metode tersebut adalah :
1. Studi Pustaka menggunakan beberapa literatur berupa buku-buku teks dan jurnal nasional maupun internasional.
2. Perancangan Sistem yang terdiri dari dua bagian utama, yaitu bagian perangkat keras dan perangkat lunak.
3. Pengujian Sistem dilakukan untuk dapat mengenali suara dengan tepat, pengujian juga dilakukan dengan mengambil sampel suara dari beberapa reponden dengan menggunakan mikrofon.
4. Analisa Sistem diperlukan untuk memastikan apakah sudah sesuai dengan ketentuan yang telat dipelajari selama Studi Pustaka.
5. Kesimpulan dan Saran digunakan untuk menyampaikan informasi yang diperoleh selama melakukan penelitian.
1.6 Sistematika Penelitian
Penulisan Tugas Akhir ini ditulis dan disusun dalam urutan sebagai berikut:
BAB I PENDAHULUAN
Bab ini menjelaskan secara singkat tentang latar belakang, tujuan penelitian, pembatasan masalah dan metodologi. BAB II LANDASAN TEORI
Membuat model sistem untuk penyelesaian proyek akhir ini sesuai dengan teori dasar yang diberikan meliputi : Pembuatan algoritma MFCC (mel frequency cepstrum coefficient), Pemrosesan data suara dari analog kedigital.
BAB III PERANCANGAN DAN PENGUJIAN SISTEM
Dalam bab ini akan mengenai sistem speaker recognition dengan menggunakan MFCC (mel frequency cepstrum coefficients).
BAB IV HASIL PENGUJIAN DAN ANALISA DATA
Bab ini membahas hasil dan analisa sistem yang dilakukan untuk menguji apakah hasil yang diperoleh sesuai dengan studi literature yang telah dipelajari.