SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN
MENGGUNAKAN MFCC DAN
CODEBOOK
PUSPITA KARTIKA SARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR
BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Penilaian Berdasarkan Suara Tepuk Tangan Menggunakan MFCC dan Codebook adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, April 2013
Puspita Kartika Sari
ABSTRAK
PUSPITA KARTIKA SARI. Sistem Penilaian Berdasarkan Tepuk Tangan Menggunakan MFCC dan Codebook. Dibimbing oleh KARLISA PRIANDANA.
Sistem penilaian berdasarkan suara tepuk tangan sering digunakan dalam acara perlombaan di Indonesia. Namun, penentuan pemenang dengan cara konvensional cenderung subjektif. Penelitian ini mengembangkan sistem penilaian otomatis berbasis komputer untuk menghitung jumlah orang bertepuk tangan dan menentukan pemenang dari perlombaan berdasarkan tepuk tangan. Penelitian ini mengusulkan Mel Frequency Cepstral Coefficient (MFCC) digunakan sebagai metode ekstraksi ciri, sedangkan codebook sebagai metode pengenalan pola. Metode tersebut menghasilkan model berupa kelas-kelas yang diklasterkan oleh K-Means. Parameter penting dalam proses MFCC dan
Codebook adalah jumlah koefisien cepstral, overlap, time frame, dan jumlah klaster. Sistem ini mengimplementasikan parameter optimum dengan akurasi terbaik yaitu 83.3%. Namun, akurasi sistem pada pengujian langsung hanya 50%, lebih rendah dibandingkan akurasi sistem dengan metode threshold yang lebih sederhana yaitu . %. Dengan demikian, penelitian ini menunjukkan bahwa metode MFCC yang berbasis frekuensi tidak cocok untuk diterapkan pada aplikasi ini. Sebaliknya, disarankan untuk menggunakan metode berbasis amplitudo. Kata kunci: Mel Frequency Cepstral Coefficients (MFCC), Speaker Recognition, Codebook, K-means
ABSTRACT
PUSPITA KARTIKA SARI. Scoring System Based on Applause Using MFCC and Codebook. Supervised by KARLISA PRIANDANA.
Scoring system based on sound of applause is often used in many contests in Indonesia. However, determining the winner in a conventional way tend to be subjective. This research develops automated computer-based scoring system to count the number of people who applauded and determine the winner of a competition based on applause. This research proposes Mel Frequency Cepstral Coefficient (MFCC) as a method of feature extraction, while Codebook as the pattern recognition. They produce a model in the form of classes that are clustered by K-Means method. The important parameter in MFCC and Codebook are the number of cepstral coefficients, overlap, the time frame, and the number of clusters. The system implements optimum parameters with maximum accuracy of 83.3%. However the accuracy of the real system is only 50%, lower than the accuracy obtained by using a simpler threshold, which is %. Thus, this study shows that the frequency-based MFCC method is not suitable to be applied for this application. Rather, it is recommended to use an amplitude-based method. Keywords: Mel Frequency Cepstral Coefficients (MFCC), Speaker Recognition, Codebook, K-means
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer
SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN
MENGGUNAKAN MFCC DAN
CODEBOOK
PUSPITA KARTIKA SARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR
BOGOR 2013
Judul Skripsi : Sistem Penilaian Berdasarkan Tepuk Tangan Menggunakan MFCC dan Codebook
Nama : Puspita Kartika Sari NIM : G64104016
Disetujui oleh
Karlisa Priandana, ST, MEng Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi, MKom Ketua Departemen Ilmu Komputer
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wata’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret 2012 ini ialah ekstraksi ciri dan pengenalan pola, dengan judul Sistem Penilaian Berdasarkan Tepuk Tangan Menggunakan MFCC dan Codebook.
Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat. Adapun penulis mengucapkan terima kasih kepada:
1 Kedua orang tua dan adik yang telah memberikan dukungan, perhatian, dan doa sehingga penulis dapat menyelesaikan penelitian ini.
2 Ibu Karlisa Priandana S.T, M.Eng selaku pembimbing yang telah banyak memberikan saran dan ide.
3 Dosen penguji, Bapak Dr Eng Heru Sukoco, SSi, MT dan Bapak Toto Haryanto, SKom, MSi atas saran dan bimbingannya.
4 Teman-teman kos M15 yang telah membantu dalam pengumpulan data tepuk tangan, serta memberikan dukungan dan perhatian.
5 Teman-teman kantor Tradewind yang telah membantu dalam pengumpulan data tepuk tangan, serta memberikan dukungan dan perhatian.
6 R. Ahmad Somadi yang telah membantu dalam pengumpulan data tepuk tangan, serta memberikan dukungan dan perhatian.
7 Teman-teman Alih Jenis Ilkom angkatan 5, atas kerjasamanya selama penelitian.
8 Semua pihak yang telah membantu yang belum disebutkan di atas. Semoga penelitian ini bermanfaat bagi semua pihak yang membutuhkan.
Bogor, April 2013
DAFTAR ISI
DAFTAR TABEL x DAFTAR GAMBAR x PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 1 Manfaat Penelitian 2Ruang Lingkup Penelitian 2
METODE PENELITIAN 2
Pengumpulan Data 5
Ekstraksi Ciri dengan MFCC 6
Pengenalan Pola dengan Codebook 8
Pengujian 9
Lingkungan Pengembangan Sistem 9
HASIL DAN PEMBAHASAN 10
Pengumpulan Data 10
Ekstraksi Ciri dengan MFCC 10
Pemodelan Codebook 10
Pencarian Parameter Optimum 10
Implementasi Sistem 14
Evaluasi Sistem 15
SIMPULAN DAN SARAN 17
Simpulan 17
Saran 17
DAFTAR PUSTAKA 18
DAFTAR TABEL
1 Hasil pengujian sebanyak 640 percobaan 11
2 Pengaruh nilai timeframe dan jumlah klaster pada tingkat akurasi (%) 12 3 Pengaruh nilai overlap dan jumlah klaster pada tingkat akurasi dengan
jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms 12 4 Matriks konfusi hasil pengujian tak langsung data tepuk tangan acak
dengan MFCC 14
5 Matriks konfusi hasil pengujian langsung data tepuk tangan acak
dengan MFCC 15
6 Pemodelan batas jumlah amplitudo tiap kelas berdasarkan nilai
threshold 15
7 Matriks konfusi hasil pengujian langsung data 16
DAFTAR GAMBAR
1 Tahapan transformasi sinyal suara menjadi informasi 2
2 Alur penelitian 3
3 Diagram alur proses sistem penilaian otomatis dengan data tepuk
tangan periodik untuk mencari parameter optimum 4
4 Diagram alur proses pembuatan sistem penilaian otomatis dengan data
tepuk tangan acak 5
5 Diagram alur MFCC 6
6 Ilustrasi sebaran Codebook 8
7 Sinyal suara tepuk tangan satu orang 10
8 Grafik pengaruh nilai time frame dan jumlah klaster pada tingkat akurasi dengan jumlah koefisien cepstral 10 ms dan overlap 0.4 12 9 Grafik pengaruh overlap dan jumlah klaster terhadap akurasi pada
jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms 13 10 Grafik pengaruh nilai koefisien cepstral terhadap tingkat akurasi
dengan overlap 0.4 13
11 Tampilan antarmuka Sistem Identifikasi Tepuk Tangan 14 12 Perbandingan hasil akurasi berdasarkan nilai threshold 16
PENDAHULUAN
Latar Belakang
Sistem penilaian berdasarkan suara tepuk tangan sering digunakan dalam acara–acara perlombaan di Indonesia. Pemenang ditentukan berdasarkan suara tepuk tangan terbanyak dari para penontonnya. Namun, pembawa acara, juri, atau siapapun yang menentukan pemenang berdasarkan tepuk tangan cenderung subjektif dalam menentukan pemenang.
Penggunaan komputer sebagai sistem penilaian merupakan salah satu solusi yang dapat dilakukan, karena sifat komputer yang tidak subjektif dan konsisten terhadap tugas yang diperintahkan.
Pada proses pengenalan jumlah orang yang bertepuk tangan, salah satu fitur yang penting untuk dianalisis adalah frekuensi. Metode yang sering digunakan untuk mengekstraksi fitur dalam domain frekuensi pada suara di antaranya adalah MFCC, LPCC, dan Wavelet. Pada penelitian sebelumnya, disebutkan bahwa metode LPCC memiliki keunggulan dalam hal komputasi yang lebih sederhana. Namun, tingkat akurasinya tidak sebaik MFCC (Li dan Chang, 2007). Pernyataan ini diperkuat dengan pernyataan bahwa dalam pengenalan suara, MFCC dapat merepresentasikan sinyal lebih baik dibandingkan dengan LPCC dan teknik lainnya (Ganchev 2005). Penelitian lain menyimpulkan bahwa penggunaan metode Wavelet sebagai ekstraksi ciri pada pengenalan pola tidak memberikan hasil yang lebih baik daripada penggunaan metode MFCC (Taufani 2011).
Oleh karena itu, metode MFCC digunakan pada penelitian ini sebagai metode ekstraksi ciri. Teknik ini menghitung jumlah koefisien cepstral dengan mempertimbangkan persepsi sistem pendengaran manusia terhadap frekuensi suara. Teknik MFCC sebagai ekstraksi ciri suara telah banyak digunakan pada berbagai bidang dalam pemrosesan suara. Kelebihan utama dari MFCC adalah dapat meniru perilaku dari telinga manusia. Setelah ekstraksi ciri, langkah lain yang diperlukan adalah pengenalan pola. Beberapa contoh metode pengenalan pola yaitu codebook, jaringan saraf tiruan, probabilistic neural network, dan
hidden markov model. Pada penelitian ini, metode codebook akan digunakan untuk melakukan pengenalan pola.
Pemilihan MFCC sebagai metode ekstraksi ciri dan codebook sebagai metode identifikasi suara diharapkan dapat memberikan hasil berupa jumlah orang yang bertepuk tangan dengan akurasi yang baik dan waktu komputasi yang relatif singkat.
Tujuan Penelitian Tujuan dari penelitian ini adalah:
1 Mengimplementasikan MFCC sebagai metode ekstraksi ciri dan codebook
sebagai metode pengenalan pola untuk identifikasi jumlah suara orang yang bertepuk tangan.
2 Mengetahui pengaruh overlap, time frame, jumlah klaster, dan jumlah koefisien cepstral terhadap tingkat akurasi.
2
3 Membuat sistem penilaian otomatis berbasis komputer untuk menghitung jumlah orang yang bertepuk tangan sekaligus menentukan siapa pemenang dari suatu perlombaan.
4 Mengevaluasi sistem yang telah dibangun dengan MFCC dan Codebook. Manfaat Penelitian
Penelitian ini diharapkan dapat membantu pihak-pihak yang melakukan penilaian berdasarkan suara tepuk tangan terbanyak dengan memberikan keputusan yang lebih akurat dan objektif.
Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah:
1 Penelitian difokuskan pada tahapan pemodelan dan pengujian identifikasi suara tepuk tangan.
2 Pada penelitian ini sistem hanya dapat melakukan identifikasi suara tepuk tangan maksimal untuk 10 orang.
METODE PENELITIAN
Terdapat beberapa tahap agar komputer dapat memproses suara tepuk tangan menjadi suatu informasi. Tahapan tersebut terdiri dari digitalisasi sinyal analog, pembacaan sinyal, ekstraksi ciri, dan pengenalan pola, seperti yang disajikan pada Gambar 1.
1 Suara tepuk tangan yang berupa sinyal analog diubah menjadi sinyal digital melalui proses sampling dan kuantisasi. Sampling adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didigitalisasikan serta sampling rate yang digunakan pada proses digitalisasinya. Sampling rate adalah banyaknya nilai yang diambil setiap detik. Sampling rate yang biasa digunakan adalah 8000 Hz dan 16000 Hz
Sinyal suara analog Digitalisasi (sampling dan kuantisasi) Sinyal suara digital Pembacaan sinyal per frame Frame sinyal digital Ekstraksi Ciri Vektor Ciri Pengenalan pola Informasi
3 (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang digitalisasikan dapat dinyatakan secara sederhana sebagai berikut:
S = Fs * T S = panjang vektor
Fs = sampling rate yang digunakan (Hertz)
T = panjang suara (detik)
Proses selanjutnya adalah kuantisasi, yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).
2 Pada tahap pembacaan sinyal, sinyal digital dipartisi menjadi beberapa frame
yang saling tumpang tindih untuk menghindari kehilangan informasi. 3 Ekstraksi ciri dilakukan untuk setiap frame sehingga didapatkan vektor ciri. 4 Pengenalan pola dilakukan untuk setiap vektor ciri sehingga diperoleh
informasi yang diinginkan.
Pada penelitian ini, alur penelitian secara keseluruhan ditunjukkan pada Gambar 2. Gambar 3 dan Gambar 4 merupakan bagian dari alur penelitian (Gambar 2). Data periodik digunakan untuk memperoleh parameter optimum karena data periodik merupakan kondisi terburuk dari segi penciri frekuensi. Alur proses sistem penilaian otomatis berdasarkan suara tepuk tangan menggunakan data periodik ditunjukkan pada Gambar 3, sedangkan alur proses menggunakan data acak ditunjukkan Gambar 4. Data acak digunakan untuk diimplementasikan pada sistem yang dibangun agar dapat mengenali tepuk tangan secara real time.
Parameter optimum yang diperoleh dengan data tepuk tangan periodik akan diimplementasikan ke sistem. Hasil pengujian akan dianalisis dan dievaluasi agar sistem dapat menghasilkan akurasi yang baik saat pengujian langsung.
Mulai Pengambilan data Data Tepuk Tangan periodik Data Tepuk Tangan acak Selesai
Pencarian Parameter Optimum
Implementasi Sistem Pengujian Sistem
Evaluasi dan Analisis Sistem
4
Ya Mulai
Ekstraksi ciri MFCC Ekstraksi ciri MFCC
Pengenalan pola dengan Codebook
Pemodelan
Pengambilan suara tepuk tangan 10 Jenis @ 13
kali = 130 suara
Pengujian
Pembuatan Model Pengujian
Pengambilan Data Data Latih 10 Jenis @ 10 kali Data Uji 10 jenis @ 3 kali Selesai Implementasi sistem Evaluasi sistem Tidak Akurasi terbaik?
Gambar 3 Diagram alur proses sistem penilaian otomatis dengan data tepuk tangan periodik untuk mencari parameter optimum
5
Pengumpulan Data Data Tepuk Tangan Periodik
Data suara yang digunakan pada penelitian ini berasal dari 10 orang. Pengambilan data suara dilakukan dengan merekam suara tepuk tangan 1 orang sebanyak 13 kali, lalu suara tepuk tangan 2 orang sebanyak 13 kali, dan seterusnya sehingga diperoleh 130 data suara. File data suara disimpan dalam bentuk *.wav. Setiap perekaman suara menggunakan sampling rate 11000 Hz. Dari 13 data suara dari masing-masing kelas, sebanyak 10 data akan dijadikan data latih, sedangkan 3 data suara akan dijadikan data uji.
Seratus data suara yang terdiri atas 10 jenis tepuk tangan akan digunakan untuk pelatihan. Terdapat 10 kelas yang dibuat untuk mewakili jenis tepuk tangan periodik, yaitu kelas 1, 2, 3, 4, 5, 6, 7, 8, 9, dan 10. Data latih ini selanjutnya akan diproses pada tahap MFCC dan codebook untuk menghasilkan suatu model. Model ini berfungsi sebagai alat penentu keputusan dari hasil pengujian.
Data uji tepuk tangan periodik merupakan 30 buah suara dari data yang direkam dan bukan merupakan data latih. Masing-masing kelas diwakili oleh tiga buah suara. Data uji ini akan diproses dengan tahap MFCC, selanjutnya data tersebut akan diuji menggunakan model yang telah terbentuk dari tahap pelatihan.
Mulai
Ekstraksi ciri MFCC Ekstraksi ciri MFCC
Pengenalan pola dengan Codebook
Pemodelan
Pengambilan suara tepuk tangan acak 3 Jenis @ 13 kali = 39
suara
Pengujian
Selesai
Pembuatan Model Pengujian
Pengambilan Data
Data Latih 3 Jenis @ 10 kali
Data Uji 3 jenis @ 3 kali
Gambar 4 Diagram alur proses pembuatan sistem penilaian otomatis dengan data tepuk tangan acak
6
Data Tepuk Tangan Acak
Data tepuk tangan acak dikumpulkan sebanyak 30 data latih dan 9 data uji. Kelas yang dibentuk yaitu kelas 1(0-2 orang), kelas 2(3-7 orang), dan kelas 3 (lebih dari orang). Data uji tepuk tangan acak yaitu 9 buah suara.
Ekstraksi Ciri dengan MFCC
Ciri-ciri file suara (*.wav) yang diperoleh akan diekstraksi menggunakan metode feature extraction MFCC (Mel Frequency Cepstrum Coefficient). Tahap-tahap dalam teknik MFCC lebih jelasnya disajikan pada Gambar 5 (Buono 2009).
Sinyal Suara
Frame ke t
O = O1+ O2+ …,Ot, … , OT
Gambar 5 Diagram alur MFCC Cj= Xi
M
i=0
cos j(i-1)2π M
Cepstrum Coefficients : Discrete Cosine Transform (Do 1994)
Cj=nilai koefisien C ke j, j = jumlah koefisien cepstral
M = jumlah filter , Xi =hasil Mel Frequency Wrapping pada frekuensi ke i,
i = jumlah wrapping Windowing (Do 1994): yt(n)= xt(n)* w (n), 0 ≤ n ≤ N-1
w(n) = 0.54 – 0.46 cos (2πn/(N-1))
𝑦𝑡 𝑛 = hasil 𝑤𝑖𝑛𝑑𝑜𝑤𝑖𝑛𝑔 pada frame ke 𝑛 dalam domain waktu
N = jumlah sampel pada setiap frame, n = frame ke-… W = formula hamming window, 𝑥𝑡 𝑛 = nilai data ke n
Xn= xk
N-1
k=0
e-2πjki/N
Xk=nilai-nilai sampel yang akan diproses pada domain frekuensi
Xn=magnitude frekuensi
Fast Fourier Transform (FFT) (Do 1994):
N = jumlah data pada domain frekuensi, j=bilangan imajiner, k = N/2 + 1, i = n x t
𝑋𝑖 = 𝑙𝑜𝑔10 𝑋 𝑘 𝐻𝑖 𝑁−1
𝑘=0
𝑘 , 𝑖 = 1,2,3, … , 𝑀
Mel Frequency Wrapping (Nilsson dan Ejnarsson 2002): mel(f) = 2595 log (1 + f / 700) dari sini diperoleh M filter, dan dihitung spektrum Mel:
𝐻𝑖 (k) = nilai filter segitiga ke i, X k =nilai data ke k hasil proses FFT M = jumlah filter, N = banyaknya data
7 Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Teknik ini berbasis power spectrum dalam domain frekuensi sebagai penentu ciri sinyal suara. Berdasarkan Gambar 5, sinyal dibaca dari frame ke frame dengan nilai
overlap tertentu lalu dilakukan windowing untuk setiap frame. Kemudian, transformasi Fourier dilakukan untuk mengubah dimensi suara dari domain waktu ke domain frekuensi. Dari hasil transformasi Fourier, spectrum mel dihitung menggunakan sejumlah filter yang dibentuk untuk mengikuti persepsi sistem pendengaran manusia yang bersifat linear. Proses ini dikenal dengan Mel Frequency Wrapping. Koefisien MFCC merupakan hasil transformasi Cosinus
dari spectrum mel tersebut dan dipilih koefisien cepstral. Transformasi Cosinus
berfungsi untuk mengembalikan dari domain frekuensi ke domain waktu. Frame Blocking
Pada tahap ini, sinyal suara dibagi dalam frame-frame. Tiap frame terdiri atas N sampel dengan lebar tertentu yang saling tumpang tindih (overlap). Panjang frame biasanya 5 sampai 100 milisecond dengan overlap antar frame
yang berurutan sebanyak 0%, 25%, 50%, atau 75%. Proses ini dikenal dengan
frame blocking. Pada penelitian ini, akan digunakan time frame 10 sampai 100 ms, overlap 25%, koefisien cepstral akan dicoba sebesar 13 dan 26.
Windowing
Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame demi
frame dan pada setiap frame-nya dilakukan windowing dengan fungsi window
tertentu. Proses windowing bertujuan untuk meminimalisasi ketidakberlanjutan sinyal pada awal dan akhir setiap frame (Do 1994). Dengan pertimbangan kesederhanaan formula dan nilai kinerja window, maka penggunaan window
Hamming cukup beralasan (Buono 2009). Transformasi Fourier (FFT)
Analisis Fourier muncul dari paper yang ditulis oleh Jean Baptiste Joseph Fourier (1768-1830) yang di-review oleh Joseph Louise Louis Lagrange (1736-1813) dan Pierre Simon de Laplace (1749-1827). Analisis ini merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda, harus dilihat dari domain frekuensi karena kalau dilihat dari domain waktu perbedaanya sulit terlihat. Untuk itu, sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). Dengan algoritme FFT, kompleksitas menjadi rendah (Buono 2009). Dengan alasan inilah maka pada penelitian ini, transformasi Fourier yang digunakan adalah algoritme FFT.
Mel Frequency Wrapping
Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz) tinggi subjektifnya diukur dengan skala mel (Melody). Skala mel-frequency adalah selang frekuensi di bawah 1000 Hz dan selang logaritmik untuk frekuensi di atas 1000Hz (Do 1994).
8
Transformasi Kosinus (Discrete Cosine Transform)
Langkah terakhir yaitu mengonversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral spectrum suara merupakan representasi property spectral local yang baik dari suatu sinyal untuk analisis frame. Mel spectrum coefficients dan logaritmanya berupa bilangan riil sehingga dapat dikonversikan ke domain waktu dengan menggunakan Discrete Cosine Transform (DCT).
Pengenalan Pola dengan Codebook
Pengenalan pola dengan codebook dilakukan untuk data latih, setelah vektor ciri diperoleh dari proses MFCC. Codebook adalah kumpulan titik (vektor) yang mewakili distribusi suara dari suara tertentu dalam ruang suara. Setiap titik pada
codebook dikenal sebagai codeword. Codebook merupakan cetakan yang dihasilkan suara setelah melakukan proses training. Setiap suara yang sudah direkam dibuat codebook yang terdiri dari beberapa codeword untuk merepresentasikan ciri suaranya.
Codebook dibentuk dengan cara membentuk cluster semua vektor ciri yang dijadikan sebagai training set dengan menggunakan clustering algorithm. Algoritme clustering yang akan dipakai adalah K-means. Langkah pertama yang dilakukan oleh algoritma ini adalah menentukan K-initial centroid, dengan K adalah parameter spesifik yang ditentukan user, yang merupakan jumlah cluster
yang diinginkan. Setiap titik atau objek kemudian ditempatkan pada centroid
terdekat. Kumpulan titik atau objek pada tiap centroid disebut cluster. Kemudian langkah penempatan objek dan perubahan centroid diulangi sampai tidak ada objek yang berpindah cluster. Gambar 6 merupakan ilustrasi sebaran data suara di sekitar codebook.
Gambar 6 Ilustrasi sebaran Codebook
Setiap suara yang masuk, akan dihitung jaraknya dengan codebook setiap kelas. Kemudian jarak setiap sinyal suara ke codebook dihitung sebagai jumlah jarak setiap frame sinyal suara tersebut ke setiap codeword yang ada pada
codebook. Kemudian dipilih codeword dengan jarak minimum. Setelah itu, setiap sinyal suara yang masuk akan diidentifikasi berdasarkan jumlah dari jarak
9 minimum tersebut. Perhitungan jarak dilakukan dengan menggunakan jarak euclid
yang didefinisikan sebagai berikut (Buono dan Kusumoputro, 2007):
deuclidean x y = xi - yi 2 i=1
x dan y adalah vektor yang ada sepanjang D. Jika dalam sinyal suara input
O terdapat T frame dan codewordk merupakan masing-masing codeword yang ada
pada codebook, jarak sinyal input dengan codebook dapat dirumuskan:
ja ak 0 codebook = min d(Ob codewo dk) t=1
Pengujian
Pengujian dilakukan pada MFCC menggunakan data uji dengan codebook
data latih. Setiap data yang diuji, akan dilihat jumlah suara tepuk tangan yang teridentifikasi dari 10 jenis/kelas tepuk tangan. Sistem penilaian otomatis ini akan mengklasifikasikan suara tepuk tangan tadi masuk ke kelas yang sesuai. Output
yang akan dihasilkan berupa jumlah orang yang bertepuk tangan.
Tingkat akurasi sistem akan dihitung untuk mengevaluasi hasil penelitian. Persentase tingkat akurasi dihitung dengan rumus sebagai berikut:
asil akurasi =jumlah suara yang enar
jumlah suara yang diuji 100
Lingkungan Pengembangan Sistem
Penelitian ini menggunakan perangkat lunak dan perangkat keras dengan spesifikasi sebagai berikut :
Perangkat Lunak :
Sistem operasi Microsoft Windows 7 Ultimate 64 bit Matlab R2010b sebagai code editor dan GUIeditor
Perangkat Keras :
Intel Core i5 @32.49 Ghz RAM 4 GB
HDD 640 GB Microphone
Pengaturan Sound di Control Panel: Microphone level : 100 %
10
HASIL DAN PEMBAHASAN
Pengumpulan Data
Perekaman suara tepuk tangan dilakukan selama 5 detik. Seluruh data yang telah dikumpulkan berjumlah 130 data suara tepuk tangan periodik dan 39 data suara tepuk tangan acak, 130 data tepuk tangan periodik dibagi menjadi 100 data data latih dan 30 data uji. Data suara tepuk tangan acak sebanyak 39 dibagi menjadi 30 data latih dan 9 data uji. File data suara tersebut disimpan dengan format *.wav yang direkam menggunakan software Audacity. Salah satu bentuk sinyal suara tepuk tangan satu orang yang dihasilkan dapat dilihat pada Gambar 7.
Gambar 7 Sinyal suara tepuk tangan satu orang
Data tersebut tersusun dari sinyal – sinyal yang mengandung nilai. Nilai tersebut akan menghasilkan sebuah vektor yang nantinya akan diolah pada tahap MFCC. Pada software Matlab perintah yang digunakan untuk mengubah sinyal menjadi vektor yaitu, x= wavread(‘data.wav’). Selanjutnya, data-data vektor yang
telah didapatkan akan masuk ke proses MFCC.
Ekstraksi Ciri dengan MFCC
Pada penelitian ini, ekstraksi ciri data suara dilakukan dengan MFCC. Terdapat lima parameter yang harus dimasukkan pada fungsi MFCC yang dibuat, yaitu vektor suara, sampling rate, time frame, overlap, dan jumlah cepstral coefficient. Vektor suara diperoleh dari data suara yang diubah menjadi vektor dan
sampling rate yang digunakan adalah 11000 Hz. Nilai parameter lainnya diubah-ubah sehingga diperoleh nilai parameter-parameter optimum yang menghasilkan akurasi terbaik untuk data suara tepuk tangan periodik.
Pemodelan Codebook
Pada proses pembuatan model codebook, data yang digunakan adalah data latih yang sudah berupa ciri dari suara tepuk tangan yang telah diperoleh pada tahap MFCC. Data latih tersebut kemudian dikelompokkandengan menggunakan
K-means. Jumlah cluster yang diujicobakan pada proses k-means untuk tepuk tangan periodikyaitu 2, 3, 4, dan 5.
Pencarian Parameter Optimum
Pada penelitian ini, parameter-parameter yang diujicobakan adalah: 1 Time frame sebesar {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} ms
11 2 Overlap 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.6, 0.75. Nilai-nilai ini dipilih karena
besar overlap yang biasa digunakan yaitu 0.0, 0.25, 0.5, 0.75. 3 Jumlah koefisien cepstral 13 dan 26
4 Jumlah klaster pada k-means 2, 3, 4, 5
Hasil akurasi dari 640 percobaan dapat dilihat pada Tabel 1. Tabel 1 menunjukkan variasi tingkat akurasi dari masing-masing parameter yang digunakan.
Tabel 2 merepresentasikan pengaruh jumlah klaster dan time frame terhadap akurasi. Dapat dilihat bahwa semakin besar jumlah cluster, semakin tinggi juga tingkat akurasinya. 0.25 0.3 0.35 0.4 0.45 0.5 0.6 0.75 0.25 0.3 0.35 0.4 0.45 0.5 0.6 0.75 10 60.00 60.00 66.67 63.33 63.33 63.33 63.33 63.33 63.33 63.33 66.67 63.33 63.33 63.33 63.33 63.33 20 60.00 63.33 56.67 56.67 56.67 56.67 56.67 56.67 60.00 63.33 60.00 60.00 60.00 60.00 56.67 60.00 30 53.33 60.00 50.00 53.33 56.67 56.67 56.67 56.67 53.33 63.33 53.33 60.00 60.00 56.67 56.67 60.00 40 53.33 56.67 60.00 50.00 50.00 53.33 56.67 56.67 50.00 56.67 60.00 53.33 50.00 53.33 56.67 56.67 50 50.00 43.33 36.67 50.00 53.33 50.00 53.33 53.33 50.00 46.67 36.67 53.33 56.67 56.67 53.33 60.00 60 43.33 53.33 56.67 53.33 60.00 43.33 53.33 46.67 46.67 60.00 60.00 53.33 56.67 50.00 53.33 50.00 70 43.33 56.67 53.33 53.33 46.67 53.33 50.00 46.67 53.33 56.67 56.67 56.67 46.67 56.67 50.00 46.67 80 56.67 43.33 56.67 60.00 46.67 50.00 50.00 50.00 60.00 50.00 60.00 56.67 50.00 56.67 50.00 53.33 90 56.67 70.00 53.33 60.00 43.33 53.33 50.00 56.67 63.33 70.00 53.33 70.00 50.00 53.33 50.00 56.67 100 56.67 43.33 53.33 56.67 46.67 60.00 60.00 56.67 60.00 43.33 53.33 63.33 50.00 63.33 60.00 60.00 10 66.67 66.67 70.00 66.67 70.00 70.00 70.00 66.67 70.00 66.67 70.00 66.67 70.00 70.00 70.00 73.33 20 66.67 70.00 66.67 66.67 70.00 63.33 66.67 66.67 63.33 73.33 73.33 66.67 73.33 66.67 66.67 70.00 30 66.67 63.33 66.67 60.00 66.67 66.67 70.00 73.33 63.33 70.00 66.67 70.00 70.00 66.67 70.00 73.33 40 56.67 63.33 63.33 63.33 73.33 56.67 70.00 63.33 63.33 73.33 70.00 63.33 73.33 66.67 70.00 66.67 50 70.00 66.67 60.00 66.67 63.33 60.00 70.00 73.33 70.00 70.00 60.00 70.00 66.67 66.67 70.00 76.67 60 70.00 63.33 63.33 66.67 60.00 66.67 63.33 70.00 76.67 60.00 63.33 63.33 60.00 66.67 63.33 70.00 70 70.00 60.00 63.33 70.00 66.67 70.00 60.00 70.00 70.00 60.00 63.33 60.00 73.33 60.00 60.00 70.00 80 56.67 60.00 70.00 60.00 73.33 73.33 70.00 70.00 63.33 63.33 66.67 63.33 73.33 70.00 70.00 70.00 90 50.00 73.33 70.00 60.00 56.67 60.00 70.00 66.67 50.00 70.00 66.67 60.00 60.00 63.33 70.00 66.67 100 63.33 53.33 56.67 50.00 76.67 70.00 63.33 66.67 63.33 56.67 60.00 50.00 73.33 73.33 63.33 66.67 10 63.33 70.00 70.00 66.67 66.67 73.33 70.00 66.67 63.33 70.00 70.00 66.67 66.67 73.33 70.00 70.00 20 66.67 56.67 73.33 70.00 66.67 70.00 70.00 70.00 63.33 56.67 76.67 70.00 70.00 73.33 66.67 70.00 30 60.00 66.67 66.67 60.00 66.67 70.00 63.33 73.33 73.33 66.67 76.67 70.00 70.00 70.00 66.67 73.33 40 66.67 66.67 60.00 63.33 66.67 66.67 70.00 66.67 70.00 63.33 66.67 66.67 63.33 73.33 73.33 66.67 50 70.00 66.67 63.33 66.67 70.00 63.33 63.33 70.00 76.67 70.00 63.33 63.33 70.00 70.00 63.33 70.00 60 60.00 66.67 66.67 60.00 60.00 73.33 73.33 70.00 56.67 66.67 73.33 66.67 63.33 76.67 70.00 70.00 70 56.67 66.67 63.33 66.67 60.00 63.33 63.33 66.67 56.67 70.00 56.67 66.67 63.33 66.67 70.00 70.00 80 76.67 53.33 50.00 70.00 63.33 60.00 70.00 63.33 70.00 56.67 53.33 73.33 76.67 60.00 80.00 73.33 90 63.33 60.00 53.33 56.67 70.00 66.67 66.67 73.33 53.33 63.33 56.67 60.00 73.33 66.67 76.67 76.67 100 73.33 63.33 60.00 70.00 63.33 60.00 70.00 80.00 73.33 60.00 56.67 66.67 63.33 66.67 66.67 76.67 10 70.00 73.33 76.67 80.00 66.67 73.33 70.00 73.33 66.67 76.67 73.33 83.33 70.00 73.33 66.67 73.33 20 73.33 70.00 63.33 66.67 73.33 73.33 73.33 70.00 66.67 63.33 63.33 63.33 70.00 73.33 73.33 70.00 30 73.33 63.33 66.67 73.33 73.33 73.33 63.33 70.00 70.00 70.00 80.00 70.00 73.33 73.33 66.67 63.33 40 66.67 73.33 73.33 66.67 63.33 73.33 73.33 73.33 63.33 70.00 73.33 76.67 63.33 70.00 70.00 73.33 50 70.00 53.33 53.33 70.00 60.00 66.67 70.00 73.33 70.00 63.33 50.00 70.00 60.00 66.67 70.00 73.33 60 56.67 60.00 56.67 70.00 63.33 70.00 73.33 73.33 63.33 66.67 60.00 66.67 66.67 70.00 73.33 73.33 70 56.67 70.00 66.67 66.67 66.67 73.33 70.00 70.00 50.00 63.33 53.33 66.67 66.67 66.67 80.00 73.33 80 56.67 46.67 43.33 63.33 63.33 60.00 60.00 73.33 53.33 56.67 50.00 76.67 80.00 80.00 66.67 70.00 90 46.67 76.67 43.33 63.33 63.33 70.00 66.67 73.33 46.67 60.00 63.33 60.00 60.00 60.00 73.33 73.33 100 70.00 60.00 60.00 70.00 63.33 60.00 70.00 76.67 63.33 70.00 63.33 80.00 66.67 63.33 63.33 80.00 5 k time fram 2 3 4 koefisien = 26 koefisien = 13
12
Data suara sepanjang 3 detik dipotong selama 10 ms sehingga masing-masing time frame mewakili ciri suara dengan lebih detail. Rata-rata akurasi pada saat cluster sebanyak 5 dan time frame sebesar 10 ms yaitu 73%, nilai rata-rata ini lebih baik dibandingkan lainnya.
Representasi besarnya pengaruh time frame dapat dilihat pada Gambar 8. Dapat dilihat dari kurva yang fluktuatif bahwa pengaruh time frame terhadap tingkat akurasi tidak terlihat jelas, sedangkan semakin banyak jumlah klaster semakin baik akurasi yang dihasilkan. Akurasi pada saat klaster sebanyak 5 dan
time frame sebesar 10 ms yaitu 83.3%. Jadi, dapat diambil kesimpulan bahwa penggunaan jumlah klaster sebanyak 5 dan time frame sebesar 10 ms menghasilkan nilai akurasi terbaik.
Gambar 8 Grafik pengaruh nilai time frame dan jumlah klaster pada tingkat akurasi dengan jumlah koefisien cepstral 10 ms dan overlap 0.4 Tabel 3 Pengaruh nilai overlap dan jumlah klaster pada tingkat akurasi dengan
jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms
overlap k 0.25 0.30 0.35 0.40 0.45 0.50 0.60 0.75 2 63.33 63.33 66.67 63.33 63.33 63.33 63.33 63.33 3 70.00 66.67 70.00 66.67 70.00 70.00 70.00 73.33 4 63.33 70.00 70.00 66.67 66.67 73.33 70.00 70.00 5 66.67 76.67 73.33 83.33 70.00 73.33 66.67 73.33
Tabel 3 menunjukkan pengaruh nilai parameter overlap dan jumlah klaster dengan jumlah koefisien cepstral adalah 26 dan time frame 10 ms. Pada penelitian ini, overlap 0.4 dan jumlah klaster sebanyak 5 menghasilkan akurasi maksimum sebesar 83.3%. Nilai overlap sebesar 0.4 mewakili bagian suara dari suatu frame.
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 0 10 20 30 40 50 60 70 80 90 100 Tingka t A kur as i (% ) Time frame (ms) k = 2 k = 3 k = 4 k = 5 k 10 20 30 40 50 60 70 80 90 100 2 63.3 60.0 60.0 53.3 53.3 53.3 56.6 56.6 70.0 63.3 3 66.6 66.6 70.0 63.3 70.0 63.3 60.0 63.3 60.0 50.0 4 66.6 70.0 70.0 66.6 63.3 66.6 66.6 73.3 60.0 66.6 5 83.3 63.3 70.0 76.6 70.0 66.6 66.6 76.6 60.0 80.0 Tabel 2 Pengaruh nilai timeframe dan jumlah klaster pada tingkat akurasi (%)
13 Namun, nilai overlap tidak memiliki pengaruh yang jelas terhadap tingkat akurasi. Gambar 9 merepresentasikan Tabel 3 agar dapat terlihat perbandingannya secara jelas.
Gambar 9 Grafik pengaruh overlap dan jumlah klaster terhadap akurasi pada jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms Gambar 9 menggambarkan seberapa besar pengaruh nilai overlap dan jumlah cluster terhadap tingkat akurasi ketika jumlah koefisien cepstral dan time frame yang tetap, yaitu 26 dan 10 ms. Tingkat akurasi maksimum yang diperoleh adalah sebesar 83.3% yaitu pada saat nilai overlap 0.40 dan jumlah klaster sebanyak 5. Sedangkan, tingkat akurasi minimum yang diperoleh sebesar 63.3% ketika jumlah cluster sebanyak 2. Penggunaan jumlah jumlah klaster sebanyak 2 dianggap kurang baik, karena akurasi yang dihasilkan tidak lebih dari 70%.
Selain parameter overlap, time frame, jumlah klaster, terdapat satu parameter lagi yang dapat mempengaruhi tingkat akurasi yaitu jumlah koefisien
cepstral. Jumlah koefisien cepstral dan frame menampung vektor ciri suara. Koefisien yang digunakan pada penelitian Wisnudisastra dan Buono (2010) adalah 13 dan 26. Pada penelitian ini, nilai koefisien tidak terlalu berpengaruh. Ketika koefisien sebesar 13, akurasi maksimum yang dihasilkan adalah 80%, sedangkan jumlah koefisien cepstral sebesar 26 menghasilkan akurasi maksimum sebesar 83.3% (Gambar 10).
Gambar 10 Grafik pengaruh nilai koefisien cepstral terhadap tingkat akurasi dengan overlap 0.4 60.00 65.00 70.00 75.00 80.00 85.00 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 T ing k at A k ur as i (% ) Overlap k=2 k=3 k=4 k=5 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 0 2 4 6 Tin gka t Aku ra si (% ) Jumlah klaster 13 26
14
Implementasi Sistem
Sistem dibuat untuk tepuk tangan acak dengan menggunakan parameter optimum yaitu jumlah klaster sebanyak 5, time frame 10 ms, overlap sebesar 0.4, jumlah koefisien cepstral sebanyak 26.
Sistem penilaian otomatis berdasarkan suara tepuk tangan ini dibuat menggunakan Matlab R2010b. Untuk memudahkan sistem pengujian, dibuat antarmuka sistem yang memiliki 3 fungsi utama yaitu record, recognize, dan
reset. Fungsi record dibuat untuk merekam suara tepuk tangan selama 5 detik, fungsi recognize dibuat untuk mengidentifikasi suara tepuk tangan, dan reset
untuk mengembalikan antarmuka seperti awal. Tiga data uji akan dibandingkan untuk menentukan pemenang. Hasil identifikasi jumlah suara tepuk tangan akan tampil pada textbox berwarna oranye. Identifikasi ditampilkan dalam rentang nilai yaitu 0-2 orang, 3-7 orang, dan lebih dari 7 orang. Gambar 11 merupakan gambar antarmuka dari sistem ini.
Gambar 11 Tampilan antarmuka Sistem Identifikasi Tepuk Tangan
Akurasi sistem yang diuji dengan data tepuk tangan periodik adalah 83.3%. Pada saat sistem diuji dengan data tepuk tangan acak yang diambil pada kondisi yang sama dengan data latihnya, akurasi yang diperoleh adalah 100% (Tabel 4). Namun saat sistem diuji langsung, akurasinya hanya 50% (Tabel 5). Pengujian langsung dilakukan sebanyak 10 kali untuk setiap kelas.
Tabel 4 Matriks konfusi hasil pengujian tak langsung data tepuk tangan acak dengan MFCC
Kelas 1 Kelas 2 Kelas 3
Kelas 1 3 0 0 Kelas 2 0 3 0 Kelas 3 0 0 3 Hasil akurasi = 1 = 1 Prediksi Aktual
15 Tabel 5 Matriks konfusi hasil pengujian langsung
data tepuk tangan acak dengan MFCC Kelas 1 Kelas 2 Kelas 3
Kelas 1 4 6 0
Kelas 2 2 6 2
Kelas 3 0 5 5
Hasil akurasi = 1 30 1 = Evaluasi Sistem
Banyak faktor yang menyebabkan penurunan hasil akurasi pada saat pengujian langsung, misalnya (1) adanya noise yang disebabkan oleh lingkungan, (2) variasi setiap suara tepuk tangan, (3) distorsi alat/hardware, dan (4) terbatasnya julah data latih. Oleh karena itu, meskipun hasil penelitian telah menunjukkan akurasi yang tinggi, hal ini masih terbatas pada sinyal suara yang dikondisikan, sehingga akurasi sistem akan menurun secara nyata saat diujicobakan dalam real life situation. Dalam kondisi real, adanya noise, distorsi, dan variasi tepuk tangan adalah fakta yang tak bisa dihindari, sehingga penelitian di bidang ini masih diperlukan dan layak untuk dilakukan guna memperoleh hasil yang lebih baik.
Hal lain yang menyebabkan turunnya hasil akurasi yaitu pemilihan metode pengenalan suara. Metode MFCC menggunakan power spectrum sebagai penentu ciri. Power spectrum bersifat sensitif terhadap gangguan noise. Dari fakta ini dapat disimpulkan bahwa rendahnya akurasi disebabkan oleh kelemahan dari metode yang digunakan untuk menangkap ciri sinyal. Oleh karena itu, dilakukan percobaan menggunakan metode sederhana berbasis amplitudo yang dibatasi nilai
threshold sebagai pembanding. Metode Threshold
Langkah awal pada proses ini yaitu pengidentifikasian amplitudo untuk tiap sinyal suara yang sudah diubah menjadi. Nilai vektor yang memiliki amplitudo di atas nilai threshold tertentuakan dihitung satu. Nilai threshold yang diujicobakan pada sistem ini adalah 0.1, 0.2, 0.3, 0.4, dan 0.5. Masing-masing data latih akan memiliki nilai yang menampung jumlah amplitudo di atas threshold tertentu. Nilai tersebut merupakan pemodelan yang terbentuk.
Terdapat 3 kelas yang digunakan pada percobaan ini, yaitu kelas 1 (0-2 orang), kelas 2 (3-7 orang), dan kelas 3 (lebih dari 7 orang). Tabel 6 menunjukkan bahwa semakin kecil nilai threshold, maka nilai batas kelas juga akan semakin sedikit.
Tabel 6 Pemodelan batas jumlah amplitudo tiap kelas berdasarkan nilai threshold
Batas Kelas Nilai threshold
≥ 0.1 ≥ 0.2 ≥ 0.3 ≥ 0.4 ≥ 0.5
Batas Kelas 1 1338 473 202 77 36
Batas Kelas 2 2176 887 471 312 246
Batas Kelas 3 3440 1334 786 492 321
16
Pengujian langsung dilakukan sebanyak 10 kali untuk masing-masing kelas. Setiap data uji yang masuk akan dihitung jumlah amplitudo-nya. Kemudian jumlah amplitudo tersebut akan dibandingkan dengan batas masing-masing kelas yang telah dimodelkan. Data uji akan teridentifikasi ke suatu kelas berdasarkan selisih minimum antara jumlah ampitudo data uji dan rata-rata amplitudo masing-masing kelas. Tabel 7 merupakan hasil akurasi maksimum dari percobaan evaluasi sistem berdasarkan nilai threshold.
Tabel 7 Matriks konfusi hasil pengujian langsung data tepuk tangan acak dengan threshold 0.4
Kelas 1 Kelas 2 Kelas 3
Kelas 1 7 3 0
Kelas 2 3 6 1
Kelas 3 0 3 7
Hasil akurasi = 2030 1 =
Gambar 12 menunjukkan perbandingan hasil akurasi berdasarkan nilai
threshold. Dapat dilihat bahwa nilai threshold 0.4 menghasilkan akurasi maksimum yaitu %, sedangkan nilai threshold 0.1 menghasilkan akurasi minimum yaitu 50%. Hal ini menunjukkan bahwa nilai threshold 0.1 tidak mewakili suara tepuk tangan secara jelas. Suara dengan nilai amplitudo 0.1 bisa saja merupakan suara noise, sehingga suara noise yang seharusnya tidak sebagai pengenal ciri menjadi bagian dari pengenal ciri. Nilai threshold 0.5 juga tidak menunjukkan akurasi sebaik nilai threshold 0.4. Hal ini bisa terjadi disebabkan, nilai 0.5 terlalu tinggi untuk dijadikan batas sehingga ciri suara tidak dapat dikenal dengan baik.
Gambar 12 Perbandingan hasil akurasi berdasarkan nilai threshold
Hasil evaluasi sistem menunjukkan bahwa metode threshold lebih baik dibandingkan teknik MFCC. Hal ini menunjukkan bahwa metode MFCC tidak cocok untuk menghitung banyaknya orang yang bertepuk tangan, melainkan untuk mengidentifikasi suatu suara misalnya suara pembicara. Hal ini juga disebabkan karena metode MFCC merupakan teknik pengenalan suara berbasis
0% 10% 20% 30% 40% 50% 60% 70% 80% 0 0.1 0.2 0.3 0.4 0.5 0.6 T ing k at A k ur as i Nilai threshold Aktual Prediksi
17 pada power spectrum dalam domain frekuensi, sedangkan dalam mengidentifikasi jumlah orang yang bertepuk tangan lebih cocok menggunakan teknik berbasis amplitudo.
SIMPULAN DAN SARAN
Simpulan
Penelitian ini menunjukkan bahwa nilai-nilai parameter sangat mempengaruhi akurasi sistem. Semakin besar jumlah cluster, nilai akurasi semakin baik. Untuk parameter lainnya, nilai akurasi menunjukkan hasil yang fluktuatif bergantung jenis datanya. Pada pengujian tak langsung dengan data periodik, akurasi maksimum yang dihasilkan sebesar 83.3% diperoleh pada nilai parameter overlap, time frame, jumlah cluster, dan jumlah koefisien cepstral
sebesar 0.4, 10 ms, 5, dan 26.
Hasil akurasi pada pengujian langsung sistem dengan MFCC dan tepuk tangan acak yaitu 50%. Pada tahap evaluasi, didapat bahwa akurasi ini jauh lebih rendah daripada akurasi sistem yang dibangun dengan metode threshold yang mencapai %. Penelitian ini menunjukkan bahwa metode MFCC tidak cocok untuk diterapkan untuk aplikasi ini.
Saran
Penulis menyarankan agar sistem penilaian otomatis berdasarkan suara tepuk tangan dibangun dengan metode yang berbasis amplitudo. Dalam pengembangannya, diperlukan suatu tahap praproses untuk menghilangkan noise
seperti suara sorakan penonton. Selain itu, diperlukan pula kalibrasi yang baik dan bergantung pada karakteristik ruangan, mengingat kemungkinan adanya penguatan amplitudo karena gema/gaung. Metode berbasis frekuensi seperti MFCC juga masih mungkin diimplementasikan, namun diperlukan data latih yang banyak dan beragam.
18
DAFTAR PUSTAKA
Buono A. 2009. Representasi nilai HOS dan model MFCC sebagai ekstraksi ciri pada sistem identifikasi pembicara di lingkungan ber-noise menggunakan HMM. [Disertasi]. Depok: Program Pascasarjana, Universitas Indonesia. Buono A, Kusumoputro B. 2007. Pengembangan model HMM berbasis
maksimum lokal menggunakan jarak euclid untuk sistem identifikasi pembicara. Di dalam: Prosiding pada workshop NACSIIT; 2007 Jan 29-30;
Depok, Indonesia.
Do MN. 1994. Digital signal processing mini-project: an automatic recognition system. Audio Visual Communication Laboratory, Switzerland :Swiss Federal Institute of Technology.
Ganchev T. 2005. Speaker recognition. [Disertasi]. Patras: Department of Computer and Electrical Engineering, University of Patras.
Jurafsky D, Martin JH. 2000. Speech and language processing an introduction to natural language processing, computational linguistic, and speech recognition. New Jersey: Prentice Hall.
Li TF, Chang SC. 2007. Speech recognition of Mandarin syllables using both LPCC and MFCC. Di dalam: Proceedings of The 19th Conference on Computational Linguistics and Speech Processing; 2007 Sep 6-7,Taipei, Taiwan.
Nilsson M, Ejnarsson M. 2002. Speech recognition using hidden markov model : Performance Evaluation in Noisy Environment. [Tesis]. Karlskrona: Department of Telecommunications and Speech Processing, Blekinge Institute of Technology.
Taufani MF. 2011. Perbandingan pemodelan wavelet dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan teknik jaringan saraf tiruan sebagai classifier. [Skripsi]. Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Wisnudisastra E, Buono A. 2010. Pengenalan Chord pada Alat Musik Gitar Menggunakan CodeBook dengan Teknik Ekstraksi Ciri MFCC. Jurnal Ilmiah Ilmu Komputer, 14(1):16-21.
19
RIWAYAT HIDUP
Penulis dilahirkan di Bandar Lampung pada tanggal 27 Januari 1989 dari Ibu Hapsari Yulia Saparina dan Bapak Sudarto. Penulis merupakan anak pertama dari 2 bersaudara. Pada tahun 2007, penulis lulus dari Sekolah Menengah Atas (SMA) Al-Kautsar Bandar Lampung, dan pada tahun yang sama diterima di Diploma IPB Program Keahlian Manajemen Informatika. Pada tahun 2010 penulis lulus dari Diploma IPB dan melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.