SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN MENGGUNAKAN MFCC DAN CODEBOOK PUSPITA KARTIKA SARI

(1)

SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN

MENGGUNAKAN MFCC DAN

CODEBOOK

PUSPITA KARTIKA SARI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR

BOGOR 2013

(2)

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*

Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Penilaian Berdasarkan Suara Tepuk Tangan Menggunakan MFCC dan Codebook adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, April 2013

Puspita Kartika Sari

(4)

ABSTRAK

PUSPITA KARTIKA SARI. Sistem Penilaian Berdasarkan Tepuk Tangan Menggunakan MFCC dan Codebook. Dibimbing oleh KARLISA PRIANDANA.

Sistem penilaian berdasarkan suara tepuk tangan sering digunakan dalam acara perlombaan di Indonesia. Namun, penentuan pemenang dengan cara konvensional cenderung subjektif. Penelitian ini mengembangkan sistem penilaian otomatis berbasis komputer untuk menghitung jumlah orang bertepuk tangan dan menentukan pemenang dari perlombaan berdasarkan tepuk tangan. Penelitian ini mengusulkan Mel Frequency Cepstral Coefficient (MFCC) digunakan sebagai metode ekstraksi ciri, sedangkan codebook sebagai metode pengenalan pola. Metode tersebut menghasilkan model berupa kelas-kelas yang diklasterkan oleh K-Means. Parameter penting dalam proses MFCC dan

Codebook adalah jumlah koefisien cepstral, overlap, time frame, dan jumlah klaster. Sistem ini mengimplementasikan parameter optimum dengan akurasi terbaik yaitu 83.3%. Namun, akurasi sistem pada pengujian langsung hanya 50%, lebih rendah dibandingkan akurasi sistem dengan metode threshold yang lebih sederhana yaitu . %. Dengan demikian, penelitian ini menunjukkan bahwa metode MFCC yang berbasis frekuensi tidak cocok untuk diterapkan pada aplikasi ini. Sebaliknya, disarankan untuk menggunakan metode berbasis amplitudo. Kata kunci: Mel Frequency Cepstral Coefficients (MFCC), Speaker Recognition, Codebook, K-means

ABSTRACT

PUSPITA KARTIKA SARI. Scoring System Based on Applause Using MFCC and Codebook. Supervised by KARLISA PRIANDANA.

Scoring system based on sound of applause is often used in many contests in Indonesia. However, determining the winner in a conventional way tend to be subjective. This research develops automated computer-based scoring system to count the number of people who applauded and determine the winner of a competition based on applause. This research proposes Mel Frequency Cepstral Coefficient (MFCC) as a method of feature extraction, while Codebook as the pattern recognition. They produce a model in the form of classes that are clustered by K-Means method. The important parameter in MFCC and Codebook are the number of cepstral coefficients, overlap, the time frame, and the number of clusters. The system implements optimum parameters with maximum accuracy of 83.3%. However the accuracy of the real system is only 50%, lower than the accuracy obtained by using a simpler threshold, which is %. Thus, this study shows that the frequency-based MFCC method is not suitable to be applied for this application. Rather, it is recommended to use an amplitude-based method. Keywords: Mel Frequency Cepstral Coefficients (MFCC), Speaker Recognition, Codebook, K-means

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer

pada

Departemen Ilmu Komputer

SISTEM PENILAIAN BERDASARKAN TEPUK TANGAN

MENGGUNAKAN MFCC DAN

CODEBOOK

PUSPITA KARTIKA SARI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR

BOGOR 2013

(6)

(7)

Judul Skripsi : Sistem Penilaian Berdasarkan Tepuk Tangan Menggunakan MFCC dan Codebook

Nama : Puspita Kartika Sari NIM : G64104016

Disetujui oleh

Karlisa Priandana, ST, MEng Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom Ketua Departemen Ilmu Komputer

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wata’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret 2012 ini ialah ekstraksi ciri dan pengenalan pola, dengan judul Sistem Penilaian Berdasarkan Tepuk Tangan Menggunakan MFCC dan Codebook.

Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga karya ilmiah ini bermanfaat. Adapun penulis mengucapkan terima kasih kepada:

1 Kedua orang tua dan adik yang telah memberikan dukungan, perhatian, dan doa sehingga penulis dapat menyelesaikan penelitian ini.

2 Ibu Karlisa Priandana S.T, M.Eng selaku pembimbing yang telah banyak memberikan saran dan ide.

3 Dosen penguji, Bapak Dr Eng Heru Sukoco, SSi, MT dan Bapak Toto Haryanto, SKom, MSi atas saran dan bimbingannya.

4 Teman-teman kos M15 yang telah membantu dalam pengumpulan data tepuk tangan, serta memberikan dukungan dan perhatian.

5 Teman-teman kantor Tradewind yang telah membantu dalam pengumpulan data tepuk tangan, serta memberikan dukungan dan perhatian.

6 R. Ahmad Somadi yang telah membantu dalam pengumpulan data tepuk tangan, serta memberikan dukungan dan perhatian.

7 Teman-teman Alih Jenis Ilkom angkatan 5, atas kerjasamanya selama penelitian.

8 Semua pihak yang telah membantu yang belum disebutkan di atas. Semoga penelitian ini bermanfaat bagi semua pihak yang membutuhkan.

Bogor, April 2013

(9)

DAFTAR ISI

DAFTAR TABEL x DAFTAR GAMBAR x PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 1 Manfaat Penelitian 2

Ruang Lingkup Penelitian 2

METODE PENELITIAN 2

Pengumpulan Data 5

Ekstraksi Ciri dengan MFCC 6

Pengenalan Pola dengan Codebook 8

Pengujian 9

Lingkungan Pengembangan Sistem 9

HASIL DAN PEMBAHASAN 10

Pengumpulan Data 10

Ekstraksi Ciri dengan MFCC 10

Pemodelan Codebook 10

Pencarian Parameter Optimum 10

Implementasi Sistem 14

Evaluasi Sistem 15

SIMPULAN DAN SARAN 17

Simpulan 17

Saran 17

DAFTAR PUSTAKA 18

(10)

DAFTAR TABEL

1 Hasil pengujian sebanyak 640 percobaan 11

2 Pengaruh nilai timeframe dan jumlah klaster pada tingkat akurasi (%) 12 3 Pengaruh nilai overlap dan jumlah klaster pada tingkat akurasi dengan

jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms 12 4 Matriks konfusi hasil pengujian tak langsung data tepuk tangan acak

dengan MFCC 14

5 Matriks konfusi hasil pengujian langsung data tepuk tangan acak

dengan MFCC 15

6 Pemodelan batas jumlah amplitudo tiap kelas berdasarkan nilai

threshold 15

7 Matriks konfusi hasil pengujian langsung data 16

DAFTAR GAMBAR

1 Tahapan transformasi sinyal suara menjadi informasi 2

2 Alur penelitian 3

3 Diagram alur proses sistem penilaian otomatis dengan data tepuk

tangan periodik untuk mencari parameter optimum 4

4 Diagram alur proses pembuatan sistem penilaian otomatis dengan data

tepuk tangan acak 5

5 Diagram alur MFCC 6

6 Ilustrasi sebaran Codebook 8

7 Sinyal suara tepuk tangan satu orang 10

8 Grafik pengaruh nilai time frame dan jumlah klaster pada tingkat akurasi dengan jumlah koefisien cepstral 10 ms dan overlap 0.4 12 9 Grafik pengaruh overlap dan jumlah klaster terhadap akurasi pada

jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms 13 10 Grafik pengaruh nilai koefisien cepstral terhadap tingkat akurasi

dengan overlap 0.4 13

11 Tampilan antarmuka Sistem Identifikasi Tepuk Tangan 14 12 Perbandingan hasil akurasi berdasarkan nilai threshold 16

(11)

PENDAHULUAN

Latar Belakang

Sistem penilaian berdasarkan suara tepuk tangan sering digunakan dalam acara–acara perlombaan di Indonesia. Pemenang ditentukan berdasarkan suara tepuk tangan terbanyak dari para penontonnya. Namun, pembawa acara, juri, atau siapapun yang menentukan pemenang berdasarkan tepuk tangan cenderung subjektif dalam menentukan pemenang.

Penggunaan komputer sebagai sistem penilaian merupakan salah satu solusi yang dapat dilakukan, karena sifat komputer yang tidak subjektif dan konsisten terhadap tugas yang diperintahkan.

Pada proses pengenalan jumlah orang yang bertepuk tangan, salah satu fitur yang penting untuk dianalisis adalah frekuensi. Metode yang sering digunakan untuk mengekstraksi fitur dalam domain frekuensi pada suara di antaranya adalah MFCC, LPCC, dan Wavelet. Pada penelitian sebelumnya, disebutkan bahwa metode LPCC memiliki keunggulan dalam hal komputasi yang lebih sederhana. Namun, tingkat akurasinya tidak sebaik MFCC (Li dan Chang, 2007). Pernyataan ini diperkuat dengan pernyataan bahwa dalam pengenalan suara, MFCC dapat merepresentasikan sinyal lebih baik dibandingkan dengan LPCC dan teknik lainnya (Ganchev 2005). Penelitian lain menyimpulkan bahwa penggunaan metode Wavelet sebagai ekstraksi ciri pada pengenalan pola tidak memberikan hasil yang lebih baik daripada penggunaan metode MFCC (Taufani 2011).

Oleh karena itu, metode MFCC digunakan pada penelitian ini sebagai metode ekstraksi ciri. Teknik ini menghitung jumlah koefisien cepstral dengan mempertimbangkan persepsi sistem pendengaran manusia terhadap frekuensi suara. Teknik MFCC sebagai ekstraksi ciri suara telah banyak digunakan pada berbagai bidang dalam pemrosesan suara. Kelebihan utama dari MFCC adalah dapat meniru perilaku dari telinga manusia. Setelah ekstraksi ciri, langkah lain yang diperlukan adalah pengenalan pola. Beberapa contoh metode pengenalan pola yaitu codebook, jaringan saraf tiruan, probabilistic neural network, dan

hidden markov model. Pada penelitian ini, metode codebook akan digunakan untuk melakukan pengenalan pola.

Pemilihan MFCC sebagai metode ekstraksi ciri dan codebook sebagai metode identifikasi suara diharapkan dapat memberikan hasil berupa jumlah orang yang bertepuk tangan dengan akurasi yang baik dan waktu komputasi yang relatif singkat.

Tujuan Penelitian Tujuan dari penelitian ini adalah:

1 Mengimplementasikan MFCC sebagai metode ekstraksi ciri dan codebook

sebagai metode pengenalan pola untuk identifikasi jumlah suara orang yang bertepuk tangan.

2 Mengetahui pengaruh overlap, time frame, jumlah klaster, dan jumlah koefisien cepstral terhadap tingkat akurasi.

(12)

2

3 Membuat sistem penilaian otomatis berbasis komputer untuk menghitung jumlah orang yang bertepuk tangan sekaligus menentukan siapa pemenang dari suatu perlombaan.

4 Mengevaluasi sistem yang telah dibangun dengan MFCC dan Codebook. Manfaat Penelitian

Penelitian ini diharapkan dapat membantu pihak-pihak yang melakukan penilaian berdasarkan suara tepuk tangan terbanyak dengan memberikan keputusan yang lebih akurat dan objektif.

Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah:

1 Penelitian difokuskan pada tahapan pemodelan dan pengujian identifikasi suara tepuk tangan.

2 Pada penelitian ini sistem hanya dapat melakukan identifikasi suara tepuk tangan maksimal untuk 10 orang.

METODE PENELITIAN

Terdapat beberapa tahap agar komputer dapat memproses suara tepuk tangan menjadi suatu informasi. Tahapan tersebut terdiri dari digitalisasi sinyal analog, pembacaan sinyal, ekstraksi ciri, dan pengenalan pola, seperti yang disajikan pada Gambar 1.

1 Suara tepuk tangan yang berupa sinyal analog diubah menjadi sinyal digital melalui proses sampling dan kuantisasi. Sampling adalah proses pengambilan nilai setiap jangka waktu tertentu. Nilai ini menyatakan amplitudo volume suara pada saat itu. Hasilnya adalah sebuah vektor yang menyatakan nilai-nilai hasil sampling. Panjang vektor data ini tergantung pada panjang atau lamanya suara yang didigitalisasikan serta sampling rate yang digunakan pada proses digitalisasinya. Sampling rate adalah banyaknya nilai yang diambil setiap detik. Sampling rate yang biasa digunakan adalah 8000 Hz dan 16000 Hz

Sinyal suara analog Digitalisasi (sampling dan kuantisasi) Sinyal suara digital Pembacaan sinyal per frame Frame sinyal digital Ekstraksi Ciri Vektor Ciri Pengenalan pola Informasi

(13)

3 (Jurafsky & Martin 2000). Hubungan antara panjang vektor data yang dihasilkan dengan sampling rate dan panjangnya data suara yang digitalisasikan dapat dinyatakan secara sederhana sebagai berikut:

S = Fs * T S = panjang vektor

Fs = sampling rate yang digunakan (Hertz)

T = panjang suara (detik)

Proses selanjutnya adalah kuantisasi, yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

2 Pada tahap pembacaan sinyal, sinyal digital dipartisi menjadi beberapa frame

yang saling tumpang tindih untuk menghindari kehilangan informasi. 3 Ekstraksi ciri dilakukan untuk setiap frame sehingga didapatkan vektor ciri. 4 Pengenalan pola dilakukan untuk setiap vektor ciri sehingga diperoleh

informasi yang diinginkan.

Pada penelitian ini, alur penelitian secara keseluruhan ditunjukkan pada Gambar 2. Gambar 3 dan Gambar 4 merupakan bagian dari alur penelitian (Gambar 2). Data periodik digunakan untuk memperoleh parameter optimum karena data periodik merupakan kondisi terburuk dari segi penciri frekuensi. Alur proses sistem penilaian otomatis berdasarkan suara tepuk tangan menggunakan data periodik ditunjukkan pada Gambar 3, sedangkan alur proses menggunakan data acak ditunjukkan Gambar 4. Data acak digunakan untuk diimplementasikan pada sistem yang dibangun agar dapat mengenali tepuk tangan secara real time.

Parameter optimum yang diperoleh dengan data tepuk tangan periodik akan diimplementasikan ke sistem. Hasil pengujian akan dianalisis dan dievaluasi agar sistem dapat menghasilkan akurasi yang baik saat pengujian langsung.

Mulai Pengambilan data Data Tepuk Tangan periodik Data Tepuk Tangan acak Selesai

Pencarian Parameter Optimum

Implementasi Sistem Pengujian Sistem

Evaluasi dan Analisis Sistem

(14)

4

Ya Mulai

Ekstraksi ciri MFCC Ekstraksi ciri MFCC

Pengenalan pola dengan Codebook

Pemodelan

Pengambilan suara tepuk tangan 10 Jenis @ 13

kali = 130 suara

Pengujian

Pembuatan Model Pengujian

Pengambilan Data Data Latih 10 Jenis @ 10 kali Data Uji 10 jenis @ 3 kali Selesai Implementasi sistem Evaluasi sistem Tidak Akurasi terbaik?

Gambar 3 Diagram alur proses sistem penilaian otomatis dengan data tepuk tangan periodik untuk mencari parameter optimum

(15)

5

Pengumpulan Data Data Tepuk Tangan Periodik

Data suara yang digunakan pada penelitian ini berasal dari 10 orang. Pengambilan data suara dilakukan dengan merekam suara tepuk tangan 1 orang sebanyak 13 kali, lalu suara tepuk tangan 2 orang sebanyak 13 kali, dan seterusnya sehingga diperoleh 130 data suara. File data suara disimpan dalam bentuk *.wav. Setiap perekaman suara menggunakan sampling rate 11000 Hz. Dari 13 data suara dari masing-masing kelas, sebanyak 10 data akan dijadikan data latih, sedangkan 3 data suara akan dijadikan data uji.

Seratus data suara yang terdiri atas 10 jenis tepuk tangan akan digunakan untuk pelatihan. Terdapat 10 kelas yang dibuat untuk mewakili jenis tepuk tangan periodik, yaitu kelas 1, 2, 3, 4, 5, 6, 7, 8, 9, dan 10. Data latih ini selanjutnya akan diproses pada tahap MFCC dan codebook untuk menghasilkan suatu model. Model ini berfungsi sebagai alat penentu keputusan dari hasil pengujian.

Data uji tepuk tangan periodik merupakan 30 buah suara dari data yang direkam dan bukan merupakan data latih. Masing-masing kelas diwakili oleh tiga buah suara. Data uji ini akan diproses dengan tahap MFCC, selanjutnya data tersebut akan diuji menggunakan model yang telah terbentuk dari tahap pelatihan.

Mulai

Ekstraksi ciri MFCC Ekstraksi ciri MFCC

Pengenalan pola dengan Codebook

Pemodelan

Pengambilan suara tepuk tangan acak 3 Jenis @ 13 kali = 39

suara

Pengujian

Selesai

Pembuatan Model Pengujian

Pengambilan Data

Data Latih 3 Jenis @ 10 kali

Data Uji 3 jenis @ 3 kali

Gambar 4 Diagram alur proses pembuatan sistem penilaian otomatis dengan data tepuk tangan acak

(16)

6

Data Tepuk Tangan Acak

Data tepuk tangan acak dikumpulkan sebanyak 30 data latih dan 9 data uji. Kelas yang dibentuk yaitu kelas 1(0-2 orang), kelas 2(3-7 orang), dan kelas 3 (lebih dari orang). Data uji tepuk tangan acak yaitu 9 buah suara.

Ekstraksi Ciri dengan MFCC

Ciri-ciri file suara (*.wav) yang diperoleh akan diekstraksi menggunakan metode feature extraction MFCC (Mel Frequency Cepstrum Coefficient). Tahap-tahap dalam teknik MFCC lebih jelasnya disajikan pada Gambar 5 (Buono 2009).

Sinyal Suara

Frame ke t

O = O1+ O2+ …,Ot, … , OT

Gambar 5 Diagram alur MFCC Cj= Xi

M

i=0

cos j(i-1)2π M

Cepstrum Coefficients : Discrete Cosine Transform (Do 1994)

Cj=nilai koefisien C ke j, j = jumlah koefisien cepstral

M = jumlah filter , Xi =hasil Mel Frequency Wrapping pada frekuensi ke i,

i = jumlah wrapping Windowing (Do 1994): y_t(n)= xt(n)* w (n), 0 ≤ n ≤ N-1

w(n) = 0.54 – 0.46 cos (2πn/(N-1))

𝑦𝑡 𝑛 = hasil 𝑤𝑖𝑛𝑑𝑜𝑤𝑖𝑛𝑔 pada frame ke 𝑛 dalam domain waktu

N = jumlah sampel pada setiap frame, n = frame ke-… W = formula hamming window, 𝑥𝑡 𝑛 = nilai data ke n

X_n= x_k

N-1

k=0

e-2πjki/N

Xk=nilai-nilai sampel yang akan diproses pada domain frekuensi

Xn=magnitude frekuensi

Fast Fourier Transform (FFT) (Do 1994):

N = jumlah data pada domain frekuensi, j=bilangan imajiner, k = N/2 + 1, i = n x t

𝑋𝑖 = 𝑙𝑜𝑔10 𝑋 𝑘 𝐻𝑖 𝑁−1

𝑘=0

𝑘 , 𝑖 = 1,2,3, … , 𝑀

Mel Frequency Wrapping (Nilsson dan Ejnarsson 2002): mel(f) = 2595 log (1 + f / 700) dari sini diperoleh M filter, dan dihitung spektrum Mel:

𝐻_𝑖(k) = nilai filter segitiga ke i, X k =nilai data ke k hasil proses FFT M = jumlah filter, N = banyaknya data

(17)

7 Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Teknik ini berbasis power spectrum dalam domain frekuensi sebagai penentu ciri sinyal suara. Berdasarkan Gambar 5, sinyal dibaca dari frame ke frame dengan nilai

overlap tertentu lalu dilakukan windowing untuk setiap frame. Kemudian, transformasi Fourier dilakukan untuk mengubah dimensi suara dari domain waktu ke domain frekuensi. Dari hasil transformasi Fourier, spectrum mel dihitung menggunakan sejumlah filter yang dibentuk untuk mengikuti persepsi sistem pendengaran manusia yang bersifat linear. Proses ini dikenal dengan Mel Frequency Wrapping. Koefisien MFCC merupakan hasil transformasi Cosinus

dari spectrum mel tersebut dan dipilih koefisien cepstral. Transformasi Cosinus

berfungsi untuk mengembalikan dari domain frekuensi ke domain waktu. Frame Blocking

Pada tahap ini, sinyal suara dibagi dalam frame-frame. Tiap frame terdiri atas N sampel dengan lebar tertentu yang saling tumpang tindih (overlap). Panjang frame biasanya 5 sampai 100 milisecond dengan overlap antar frame

yang berurutan sebanyak 0%, 25%, 50%, atau 75%. Proses ini dikenal dengan

frame blocking. Pada penelitian ini, akan digunakan time frame 10 sampai 100 ms, overlap 25%, koefisien cepstral akan dicoba sebesar 13 dan 26.

Windowing

Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame demi

frame dan pada setiap frame-nya dilakukan windowing dengan fungsi window

tertentu. Proses windowing bertujuan untuk meminimalisasi ketidakberlanjutan sinyal pada awal dan akhir setiap frame (Do 1994). Dengan pertimbangan kesederhanaan formula dan nilai kinerja window, maka penggunaan window

Hamming cukup beralasan (Buono 2009). Transformasi Fourier (FFT)

Analisis Fourier muncul dari paper yang ditulis oleh Jean Baptiste Joseph Fourier (1768-1830) yang di-review oleh Joseph Louise Louis Lagrange (1736-1813) dan Pierre Simon de Laplace (1749-1827). Analisis ini merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda, harus dilihat dari domain frekuensi karena kalau dilihat dari domain waktu perbedaanya sulit terlihat. Untuk itu, sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). Dengan algoritme FFT, kompleksitas menjadi rendah (Buono 2009). Dengan alasan inilah maka pada penelitian ini, transformasi Fourier yang digunakan adalah algoritme FFT.

Mel Frequency Wrapping

Studi psikofisik menunjukkan bahwa persepsi manusia terhadap frekuensi sinyal suara tidak berupa skala linier. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz) tinggi subjektifnya diukur dengan skala mel (Melody). Skala mel-frequency adalah selang frekuensi di bawah 1000 Hz dan selang logaritmik untuk frekuensi di atas 1000Hz (Do 1994).

(18)

8

Transformasi Kosinus (Discrete Cosine Transform)

Langkah terakhir yaitu mengonversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Representasi cepstral spectrum suara merupakan representasi property spectral local yang baik dari suatu sinyal untuk analisis frame. Mel spectrum coefficients dan logaritmanya berupa bilangan riil sehingga dapat dikonversikan ke domain waktu dengan menggunakan Discrete Cosine Transform (DCT).

Pengenalan Pola dengan Codebook

Pengenalan pola dengan codebook dilakukan untuk data latih, setelah vektor ciri diperoleh dari proses MFCC. Codebook adalah kumpulan titik (vektor) yang mewakili distribusi suara dari suara tertentu dalam ruang suara. Setiap titik pada

codebook dikenal sebagai codeword. Codebook merupakan cetakan yang dihasilkan suara setelah melakukan proses training. Setiap suara yang sudah direkam dibuat codebook yang terdiri dari beberapa codeword untuk merepresentasikan ciri suaranya.

Codebook dibentuk dengan cara membentuk cluster semua vektor ciri yang dijadikan sebagai training set dengan menggunakan clustering algorithm. Algoritme clustering yang akan dipakai adalah K-means. Langkah pertama yang dilakukan oleh algoritma ini adalah menentukan K-initial centroid, dengan K adalah parameter spesifik yang ditentukan user, yang merupakan jumlah cluster

yang diinginkan. Setiap titik atau objek kemudian ditempatkan pada centroid

terdekat. Kumpulan titik atau objek pada tiap centroid disebut cluster. Kemudian langkah penempatan objek dan perubahan centroid diulangi sampai tidak ada objek yang berpindah cluster. Gambar 6 merupakan ilustrasi sebaran data suara di sekitar codebook.

Gambar 6 Ilustrasi sebaran Codebook

Setiap suara yang masuk, akan dihitung jaraknya dengan codebook setiap kelas. Kemudian jarak setiap sinyal suara ke codebook dihitung sebagai jumlah jarak setiap frame sinyal suara tersebut ke setiap codeword yang ada pada

codebook. Kemudian dipilih codeword dengan jarak minimum. Setelah itu, setiap sinyal suara yang masuk akan diidentifikasi berdasarkan jumlah dari jarak

(19)

9 minimum tersebut. Perhitungan jarak dilakukan dengan menggunakan jarak euclid

yang didefinisikan sebagai berikut (Buono dan Kusumoputro, 2007):

deuclidean x y = xi - y_i 2 i=1

x dan y adalah vektor yang ada sepanjang D. Jika dalam sinyal suara input

O terdapat T frame dan codewordk merupakan masing-masing codeword yang ada

pada codebook, jarak sinyal input dengan codebook dapat dirumuskan:

ja ak 0 codebook = min d(Ob codewo dk) t=1

Pengujian

Pengujian dilakukan pada MFCC menggunakan data uji dengan codebook

data latih. Setiap data yang diuji, akan dilihat jumlah suara tepuk tangan yang teridentifikasi dari 10 jenis/kelas tepuk tangan. Sistem penilaian otomatis ini akan mengklasifikasikan suara tepuk tangan tadi masuk ke kelas yang sesuai. Output

yang akan dihasilkan berupa jumlah orang yang bertepuk tangan.

Tingkat akurasi sistem akan dihitung untuk mengevaluasi hasil penelitian. Persentase tingkat akurasi dihitung dengan rumus sebagai berikut:

asil akurasi =jumlah suara yang enar

jumlah suara yang diuji 100

Lingkungan Pengembangan Sistem

Penelitian ini menggunakan perangkat lunak dan perangkat keras dengan spesifikasi sebagai berikut :

 Perangkat Lunak :

 Sistem operasi Microsoft Windows 7 Ultimate 64 bit  Matlab R2010b sebagai code editor dan GUIeditor

 Perangkat Keras :

 Intel Core i5 @32.49 Ghz  RAM 4 GB

 HDD 640 GB  Microphone

 Pengaturan Sound di Control Panel:  Microphone level : 100 %

(20)

10

HASIL DAN PEMBAHASAN

Pengumpulan Data

Perekaman suara tepuk tangan dilakukan selama 5 detik. Seluruh data yang telah dikumpulkan berjumlah 130 data suara tepuk tangan periodik dan 39 data suara tepuk tangan acak, 130 data tepuk tangan periodik dibagi menjadi 100 data data latih dan 30 data uji. Data suara tepuk tangan acak sebanyak 39 dibagi menjadi 30 data latih dan 9 data uji. File data suara tersebut disimpan dengan format *.wav yang direkam menggunakan software Audacity. Salah satu bentuk sinyal suara tepuk tangan satu orang yang dihasilkan dapat dilihat pada Gambar 7.

Gambar 7 Sinyal suara tepuk tangan satu orang

Data tersebut tersusun dari sinyal – sinyal yang mengandung nilai. Nilai tersebut akan menghasilkan sebuah vektor yang nantinya akan diolah pada tahap MFCC. Pada software Matlab perintah yang digunakan untuk mengubah sinyal menjadi vektor yaitu, x= wavread(‘data.wav’). Selanjutnya, data-data vektor yang

telah didapatkan akan masuk ke proses MFCC.

Ekstraksi Ciri dengan MFCC

Pada penelitian ini, ekstraksi ciri data suara dilakukan dengan MFCC. Terdapat lima parameter yang harus dimasukkan pada fungsi MFCC yang dibuat, yaitu vektor suara, sampling rate, time frame, overlap, dan jumlah cepstral coefficient. Vektor suara diperoleh dari data suara yang diubah menjadi vektor dan

sampling rate yang digunakan adalah 11000 Hz. Nilai parameter lainnya diubah-ubah sehingga diperoleh nilai parameter-parameter optimum yang menghasilkan akurasi terbaik untuk data suara tepuk tangan periodik.

Pemodelan Codebook

Pada proses pembuatan model codebook, data yang digunakan adalah data latih yang sudah berupa ciri dari suara tepuk tangan yang telah diperoleh pada tahap MFCC. Data latih tersebut kemudian dikelompokkandengan menggunakan

K-means. Jumlah cluster yang diujicobakan pada proses k-means untuk tepuk tangan periodikyaitu 2, 3, 4, dan 5.

Pencarian Parameter Optimum

Pada penelitian ini, parameter-parameter yang diujicobakan adalah: 1 Time frame sebesar {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} ms

(21)

11 2 Overlap 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.6, 0.75. Nilai-nilai ini dipilih karena

besar overlap yang biasa digunakan yaitu 0.0, 0.25, 0.5, 0.75. 3 Jumlah koefisien cepstral 13 dan 26

4 Jumlah klaster pada k-means 2, 3, 4, 5

Hasil akurasi dari 640 percobaan dapat dilihat pada Tabel 1. Tabel 1 menunjukkan variasi tingkat akurasi dari masing-masing parameter yang digunakan.

Tabel 2 merepresentasikan pengaruh jumlah klaster dan time frame terhadap akurasi. Dapat dilihat bahwa semakin besar jumlah cluster, semakin tinggi juga tingkat akurasinya. 0.25 0.3 0.35 0.4 0.45 0.5 0.6 0.75 0.25 0.3 0.35 0.4 0.45 0.5 0.6 0.75 10 60.00 60.00 66.67 63.33 63.33 63.33 63.33 63.33 63.33 63.33 66.67 63.33 63.33 63.33 63.33 63.33 20 60.00 63.33 56.67 56.67 56.67 56.67 56.67 56.67 60.00 63.33 60.00 60.00 60.00 60.00 56.67 60.00 30 53.33 60.00 50.00 53.33 56.67 56.67 56.67 56.67 53.33 63.33 53.33 60.00 60.00 56.67 56.67 60.00 40 53.33 56.67 60.00 50.00 50.00 53.33 56.67 56.67 50.00 56.67 60.00 53.33 50.00 53.33 56.67 56.67 50 50.00 43.33 36.67 50.00 53.33 50.00 53.33 53.33 50.00 46.67 36.67 53.33 56.67 56.67 53.33 60.00 60 43.33 53.33 56.67 53.33 60.00 43.33 53.33 46.67 46.67 60.00 60.00 53.33 56.67 50.00 53.33 50.00 70 43.33 56.67 53.33 53.33 46.67 53.33 50.00 46.67 53.33 56.67 56.67 56.67 46.67 56.67 50.00 46.67 80 56.67 43.33 56.67 60.00 46.67 50.00 50.00 50.00 60.00 50.00 60.00 56.67 50.00 56.67 50.00 53.33 90 56.67 70.00 53.33 60.00 43.33 53.33 50.00 56.67 63.33 70.00 53.33 70.00 50.00 53.33 50.00 56.67 100 56.67 43.33 53.33 56.67 46.67 60.00 60.00 56.67 60.00 43.33 53.33 63.33 50.00 63.33 60.00 60.00 10 66.67 66.67 70.00 66.67 70.00 70.00 70.00 66.67 70.00 66.67 70.00 66.67 70.00 70.00 70.00 73.33 20 66.67 70.00 66.67 66.67 70.00 63.33 66.67 66.67 63.33 73.33 73.33 66.67 73.33 66.67 66.67 70.00 30 66.67 63.33 66.67 60.00 66.67 66.67 70.00 73.33 63.33 70.00 66.67 70.00 70.00 66.67 70.00 73.33 40 56.67 63.33 63.33 63.33 73.33 56.67 70.00 63.33 63.33 73.33 70.00 63.33 73.33 66.67 70.00 66.67 50 70.00 66.67 60.00 66.67 63.33 60.00 70.00 73.33 70.00 70.00 60.00 70.00 66.67 66.67 70.00 76.67 60 70.00 63.33 63.33 66.67 60.00 66.67 63.33 70.00 76.67 60.00 63.33 63.33 60.00 66.67 63.33 70.00 70 70.00 60.00 63.33 70.00 66.67 70.00 60.00 70.00 70.00 60.00 63.33 60.00 73.33 60.00 60.00 70.00 80 56.67 60.00 70.00 60.00 73.33 73.33 70.00 70.00 63.33 63.33 66.67 63.33 73.33 70.00 70.00 70.00 90 50.00 73.33 70.00 60.00 56.67 60.00 70.00 66.67 50.00 70.00 66.67 60.00 60.00 63.33 70.00 66.67 100 63.33 53.33 56.67 50.00 76.67 70.00 63.33 66.67 63.33 56.67 60.00 50.00 73.33 73.33 63.33 66.67 10 63.33 70.00 70.00 66.67 66.67 73.33 70.00 66.67 63.33 70.00 70.00 66.67 66.67 73.33 70.00 70.00 20 66.67 56.67 73.33 70.00 66.67 70.00 70.00 70.00 63.33 56.67 76.67 70.00 70.00 73.33 66.67 70.00 30 60.00 66.67 66.67 60.00 66.67 70.00 63.33 73.33 73.33 66.67 76.67 70.00 70.00 70.00 66.67 73.33 40 66.67 66.67 60.00 63.33 66.67 66.67 70.00 66.67 70.00 63.33 66.67 66.67 63.33 73.33 73.33 66.67 50 70.00 66.67 63.33 66.67 70.00 63.33 63.33 70.00 76.67 70.00 63.33 63.33 70.00 70.00 63.33 70.00 60 60.00 66.67 66.67 60.00 60.00 73.33 73.33 70.00 56.67 66.67 73.33 66.67 63.33 76.67 70.00 70.00 70 56.67 66.67 63.33 66.67 60.00 63.33 63.33 66.67 56.67 70.00 56.67 66.67 63.33 66.67 70.00 70.00 80 76.67 53.33 50.00 70.00 63.33 60.00 70.00 63.33 70.00 56.67 53.33 73.33 76.67 60.00 80.00 73.33 90 63.33 60.00 53.33 56.67 70.00 66.67 66.67 73.33 53.33 63.33 56.67 60.00 73.33 66.67 76.67 76.67 100 73.33 63.33 60.00 70.00 63.33 60.00 70.00 80.00 73.33 60.00 56.67 66.67 63.33 66.67 66.67 76.67 10 70.00 73.33 76.67 80.00 66.67 73.33 70.00 73.33 66.67 76.67 73.33 83.33 70.00 73.33 66.67 73.33 20 73.33 70.00 63.33 66.67 73.33 73.33 73.33 70.00 66.67 63.33 63.33 63.33 70.00 73.33 73.33 70.00 30 73.33 63.33 66.67 73.33 73.33 73.33 63.33 70.00 70.00 70.00 80.00 70.00 73.33 73.33 66.67 63.33 40 66.67 73.33 73.33 66.67 63.33 73.33 73.33 73.33 63.33 70.00 73.33 76.67 63.33 70.00 70.00 73.33 50 70.00 53.33 53.33 70.00 60.00 66.67 70.00 73.33 70.00 63.33 50.00 70.00 60.00 66.67 70.00 73.33 60 56.67 60.00 56.67 70.00 63.33 70.00 73.33 73.33 63.33 66.67 60.00 66.67 66.67 70.00 73.33 73.33 70 56.67 70.00 66.67 66.67 66.67 73.33 70.00 70.00 50.00 63.33 53.33 66.67 66.67 66.67 80.00 73.33 80 56.67 46.67 43.33 63.33 63.33 60.00 60.00 73.33 53.33 56.67 50.00 76.67 80.00 80.00 66.67 70.00 90 46.67 76.67 43.33 63.33 63.33 70.00 66.67 73.33 46.67 60.00 63.33 60.00 60.00 60.00 73.33 73.33 100 70.00 60.00 60.00 70.00 63.33 60.00 70.00 76.67 63.33 70.00 63.33 80.00 66.67 63.33 63.33 80.00 5 k time fram 2 3 4 koefisien = 26 koefisien = 13

(22)

12

Data suara sepanjang 3 detik dipotong selama 10 ms sehingga masing-masing time frame mewakili ciri suara dengan lebih detail. Rata-rata akurasi pada saat cluster sebanyak 5 dan time frame sebesar 10 ms yaitu 73%, nilai rata-rata ini lebih baik dibandingkan lainnya.

Representasi besarnya pengaruh time frame dapat dilihat pada Gambar 8. Dapat dilihat dari kurva yang fluktuatif bahwa pengaruh time frame terhadap tingkat akurasi tidak terlihat jelas, sedangkan semakin banyak jumlah klaster semakin baik akurasi yang dihasilkan. Akurasi pada saat klaster sebanyak 5 dan

time frame sebesar 10 ms yaitu 83.3%. Jadi, dapat diambil kesimpulan bahwa penggunaan jumlah klaster sebanyak 5 dan time frame sebesar 10 ms menghasilkan nilai akurasi terbaik.

Gambar 8 Grafik pengaruh nilai time frame dan jumlah klaster pada tingkat akurasi dengan jumlah koefisien cepstral 10 ms dan overlap 0.4 Tabel 3 Pengaruh nilai overlap dan jumlah klaster pada tingkat akurasi dengan

jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms

overlap k 0.25 0.30 0.35 0.40 0.45 0.50 0.60 0.75 2 63.33 63.33 66.67 63.33 63.33 63.33 63.33 63.33 3 70.00 66.67 70.00 66.67 70.00 70.00 70.00 73.33 4 63.33 70.00 70.00 66.67 66.67 73.33 70.00 70.00 5 66.67 76.67 73.33 83.33 70.00 73.33 66.67 73.33

Tabel 3 menunjukkan pengaruh nilai parameter overlap dan jumlah klaster dengan jumlah koefisien cepstral adalah 26 dan time frame 10 ms. Pada penelitian ini, overlap 0.4 dan jumlah klaster sebanyak 5 menghasilkan akurasi maksimum sebesar 83.3%. Nilai overlap sebesar 0.4 mewakili bagian suara dari suatu frame.

0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 0 10 20 30 40 50 60 70 80 90 100 Tingka t A kur as i (% ) Time frame (ms) k = 2 k = 3 k = 4 k = 5 k 10 20 30 40 50 60 70 80 90 100 2 63.3 60.0 60.0 53.3 53.3 53.3 56.6 56.6 70.0 63.3 3 66.6 66.6 70.0 63.3 70.0 63.3 60.0 63.3 60.0 50.0 4 66.6 70.0 70.0 66.6 63.3 66.6 66.6 73.3 60.0 66.6 5 83.3 63.3 70.0 76.6 70.0 66.6 66.6 76.6 60.0 80.0 Tabel 2 Pengaruh nilai timeframe dan jumlah klaster pada tingkat akurasi (%)

(23)

13 Namun, nilai overlap tidak memiliki pengaruh yang jelas terhadap tingkat akurasi. Gambar 9 merepresentasikan Tabel 3 agar dapat terlihat perbandingannya secara jelas.

Gambar 9 Grafik pengaruh overlap dan jumlah klaster terhadap akurasi pada jumlah koefisien cepstral sebanyak 26 dan time frame sebesar 10 ms Gambar 9 menggambarkan seberapa besar pengaruh nilai overlap dan jumlah cluster terhadap tingkat akurasi ketika jumlah koefisien cepstral dan time frame yang tetap, yaitu 26 dan 10 ms. Tingkat akurasi maksimum yang diperoleh adalah sebesar 83.3% yaitu pada saat nilai overlap 0.40 dan jumlah klaster sebanyak 5. Sedangkan, tingkat akurasi minimum yang diperoleh sebesar 63.3% ketika jumlah cluster sebanyak 2. Penggunaan jumlah jumlah klaster sebanyak 2 dianggap kurang baik, karena akurasi yang dihasilkan tidak lebih dari 70%.

Selain parameter overlap, time frame, jumlah klaster, terdapat satu parameter lagi yang dapat mempengaruhi tingkat akurasi yaitu jumlah koefisien

cepstral. Jumlah koefisien cepstral dan frame menampung vektor ciri suara. Koefisien yang digunakan pada penelitian Wisnudisastra dan Buono (2010) adalah 13 dan 26. Pada penelitian ini, nilai koefisien tidak terlalu berpengaruh. Ketika koefisien sebesar 13, akurasi maksimum yang dihasilkan adalah 80%, sedangkan jumlah koefisien cepstral sebesar 26 menghasilkan akurasi maksimum sebesar 83.3% (Gambar 10).

Gambar 10 Grafik pengaruh nilai koefisien cepstral terhadap tingkat akurasi dengan overlap 0.4 60.00 65.00 70.00 75.00 80.00 85.00 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 T ing k at A k ur as i (% ) Overlap k=2 k=3 k=4 k=5 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 0 2 4 6 Tin gka t Aku ra si (% ) Jumlah klaster 13 26

(24)

14

Implementasi Sistem

Sistem dibuat untuk tepuk tangan acak dengan menggunakan parameter optimum yaitu jumlah klaster sebanyak 5, time frame 10 ms, overlap sebesar 0.4, jumlah koefisien cepstral sebanyak 26.

Sistem penilaian otomatis berdasarkan suara tepuk tangan ini dibuat menggunakan Matlab R2010b. Untuk memudahkan sistem pengujian, dibuat antarmuka sistem yang memiliki 3 fungsi utama yaitu record, recognize, dan

reset. Fungsi record dibuat untuk merekam suara tepuk tangan selama 5 detik, fungsi recognize dibuat untuk mengidentifikasi suara tepuk tangan, dan reset

untuk mengembalikan antarmuka seperti awal. Tiga data uji akan dibandingkan untuk menentukan pemenang. Hasil identifikasi jumlah suara tepuk tangan akan tampil pada textbox berwarna oranye. Identifikasi ditampilkan dalam rentang nilai yaitu 0-2 orang, 3-7 orang, dan lebih dari 7 orang. Gambar 11 merupakan gambar antarmuka dari sistem ini.

Gambar 11 Tampilan antarmuka Sistem Identifikasi Tepuk Tangan

Akurasi sistem yang diuji dengan data tepuk tangan periodik adalah 83.3%. Pada saat sistem diuji dengan data tepuk tangan acak yang diambil pada kondisi yang sama dengan data latihnya, akurasi yang diperoleh adalah 100% (Tabel 4). Namun saat sistem diuji langsung, akurasinya hanya 50% (Tabel 5). Pengujian langsung dilakukan sebanyak 10 kali untuk setiap kelas.

Tabel 4 Matriks konfusi hasil pengujian tak langsung data tepuk tangan acak dengan MFCC

Kelas 1 Kelas 2 Kelas 3

Kelas 1 3 0 0 Kelas 2 0 3 0 Kelas 3 0 0 3 Hasil akurasi = 1 = 1 Prediksi Aktual

(25)

15 Tabel 5 Matriks konfusi hasil pengujian langsung

data tepuk tangan acak dengan MFCC Kelas 1 Kelas 2 Kelas 3

Kelas 1 4 6 0

Kelas 2 2 6 2

Kelas 3 0 5 5

Hasil akurasi = 1 ₃₀ 1 = Evaluasi Sistem

Banyak faktor yang menyebabkan penurunan hasil akurasi pada saat pengujian langsung, misalnya (1) adanya noise yang disebabkan oleh lingkungan, (2) variasi setiap suara tepuk tangan, (3) distorsi alat/hardware, dan (4) terbatasnya julah data latih. Oleh karena itu, meskipun hasil penelitian telah menunjukkan akurasi yang tinggi, hal ini masih terbatas pada sinyal suara yang dikondisikan, sehingga akurasi sistem akan menurun secara nyata saat diujicobakan dalam real life situation. Dalam kondisi real, adanya noise, distorsi, dan variasi tepuk tangan adalah fakta yang tak bisa dihindari, sehingga penelitian di bidang ini masih diperlukan dan layak untuk dilakukan guna memperoleh hasil yang lebih baik.

Hal lain yang menyebabkan turunnya hasil akurasi yaitu pemilihan metode pengenalan suara. Metode MFCC menggunakan power spectrum sebagai penentu ciri. Power spectrum bersifat sensitif terhadap gangguan noise. Dari fakta ini dapat disimpulkan bahwa rendahnya akurasi disebabkan oleh kelemahan dari metode yang digunakan untuk menangkap ciri sinyal. Oleh karena itu, dilakukan percobaan menggunakan metode sederhana berbasis amplitudo yang dibatasi nilai

threshold sebagai pembanding. Metode Threshold

Langkah awal pada proses ini yaitu pengidentifikasian amplitudo untuk tiap sinyal suara yang sudah diubah menjadi. Nilai vektor yang memiliki amplitudo di atas nilai threshold tertentuakan dihitung satu. Nilai threshold yang diujicobakan pada sistem ini adalah 0.1, 0.2, 0.3, 0.4, dan 0.5. Masing-masing data latih akan memiliki nilai yang menampung jumlah amplitudo di atas threshold tertentu. Nilai tersebut merupakan pemodelan yang terbentuk.

Terdapat 3 kelas yang digunakan pada percobaan ini, yaitu kelas 1 (0-2 orang), kelas 2 (3-7 orang), dan kelas 3 (lebih dari 7 orang). Tabel 6 menunjukkan bahwa semakin kecil nilai threshold, maka nilai batas kelas juga akan semakin sedikit.

Tabel 6 Pemodelan batas jumlah amplitudo tiap kelas berdasarkan nilai threshold

Batas Kelas Nilai threshold

≥ 0.1 ≥ 0.2 ≥ 0.3 ≥ 0.4 ≥ 0.5

Batas Kelas 1 1338 473 202 77 36

Batas Kelas 2 2176 887 471 312 246

Batas Kelas 3 3440 1334 786 492 321

(26)

16

Pengujian langsung dilakukan sebanyak 10 kali untuk masing-masing kelas. Setiap data uji yang masuk akan dihitung jumlah amplitudo-nya. Kemudian jumlah amplitudo tersebut akan dibandingkan dengan batas masing-masing kelas yang telah dimodelkan. Data uji akan teridentifikasi ke suatu kelas berdasarkan selisih minimum antara jumlah ampitudo data uji dan rata-rata amplitudo masing-masing kelas. Tabel 7 merupakan hasil akurasi maksimum dari percobaan evaluasi sistem berdasarkan nilai threshold.

Tabel 7 Matriks konfusi hasil pengujian langsung data tepuk tangan acak dengan threshold 0.4

Kelas 1 Kelas 2 Kelas 3

Kelas 1 7 3 0

Kelas 2 3 6 1

Kelas 3 0 3 7

Hasil akurasi = 20₃₀ 1 =

Gambar 12 menunjukkan perbandingan hasil akurasi berdasarkan nilai

threshold. Dapat dilihat bahwa nilai threshold 0.4 menghasilkan akurasi maksimum yaitu %, sedangkan nilai threshold 0.1 menghasilkan akurasi minimum yaitu 50%. Hal ini menunjukkan bahwa nilai threshold 0.1 tidak mewakili suara tepuk tangan secara jelas. Suara dengan nilai amplitudo 0.1 bisa saja merupakan suara noise, sehingga suara noise yang seharusnya tidak sebagai pengenal ciri menjadi bagian dari pengenal ciri. Nilai threshold 0.5 juga tidak menunjukkan akurasi sebaik nilai threshold 0.4. Hal ini bisa terjadi disebabkan, nilai 0.5 terlalu tinggi untuk dijadikan batas sehingga ciri suara tidak dapat dikenal dengan baik.

Gambar 12 Perbandingan hasil akurasi berdasarkan nilai threshold

Hasil evaluasi sistem menunjukkan bahwa metode threshold lebih baik dibandingkan teknik MFCC. Hal ini menunjukkan bahwa metode MFCC tidak cocok untuk menghitung banyaknya orang yang bertepuk tangan, melainkan untuk mengidentifikasi suatu suara misalnya suara pembicara. Hal ini juga disebabkan karena metode MFCC merupakan teknik pengenalan suara berbasis

0% 10% 20% 30% 40% 50% 60% 70% 80% 0 0.1 0.2 0.3 0.4 0.5 0.6 T ing k at A k ur as i Nilai threshold Aktual Prediksi

(27)

17 pada power spectrum dalam domain frekuensi, sedangkan dalam mengidentifikasi jumlah orang yang bertepuk tangan lebih cocok menggunakan teknik berbasis amplitudo.

SIMPULAN DAN SARAN

Simpulan

Penelitian ini menunjukkan bahwa nilai-nilai parameter sangat mempengaruhi akurasi sistem. Semakin besar jumlah cluster, nilai akurasi semakin baik. Untuk parameter lainnya, nilai akurasi menunjukkan hasil yang fluktuatif bergantung jenis datanya. Pada pengujian tak langsung dengan data periodik, akurasi maksimum yang dihasilkan sebesar 83.3% diperoleh pada nilai parameter overlap, time frame, jumlah cluster, dan jumlah koefisien cepstral

sebesar 0.4, 10 ms, 5, dan 26.

Hasil akurasi pada pengujian langsung sistem dengan MFCC dan tepuk tangan acak yaitu 50%. Pada tahap evaluasi, didapat bahwa akurasi ini jauh lebih rendah daripada akurasi sistem yang dibangun dengan metode threshold yang mencapai %. Penelitian ini menunjukkan bahwa metode MFCC tidak cocok untuk diterapkan untuk aplikasi ini.

Saran

Penulis menyarankan agar sistem penilaian otomatis berdasarkan suara tepuk tangan dibangun dengan metode yang berbasis amplitudo. Dalam pengembangannya, diperlukan suatu tahap praproses untuk menghilangkan noise

seperti suara sorakan penonton. Selain itu, diperlukan pula kalibrasi yang baik dan bergantung pada karakteristik ruangan, mengingat kemungkinan adanya penguatan amplitudo karena gema/gaung. Metode berbasis frekuensi seperti MFCC juga masih mungkin diimplementasikan, namun diperlukan data latih yang banyak dan beragam.

(28)

18

DAFTAR PUSTAKA

Buono A. 2009. Representasi nilai HOS dan model MFCC sebagai ekstraksi ciri pada sistem identifikasi pembicara di lingkungan ber-noise menggunakan HMM. [Disertasi]. Depok: Program Pascasarjana, Universitas Indonesia. Buono A, Kusumoputro B. 2007. Pengembangan model HMM berbasis

maksimum lokal menggunakan jarak euclid untuk sistem identifikasi pembicara. Di dalam: Prosiding pada workshop NACSIIT; 2007 Jan 29-30;

Depok, Indonesia.

Do MN. 1994. Digital signal processing mini-project: an automatic recognition system. Audio Visual Communication Laboratory, Switzerland :Swiss Federal Institute of Technology.

Ganchev T. 2005. Speaker recognition. [Disertasi]. Patras: Department of Computer and Electrical Engineering, University of Patras.

Jurafsky D, Martin JH. 2000. Speech and language processing an introduction to natural language processing, computational linguistic, and speech recognition. New Jersey: Prentice Hall.

Li TF, Chang SC. 2007. Speech recognition of Mandarin syllables using both LPCC and MFCC. Di dalam: Proceedings of The 19th Conference on Computational Linguistics and Speech Processing; 2007 Sep 6-7,Taipei, Taiwan.

Nilsson M, Ejnarsson M. 2002. Speech recognition using hidden markov model : Performance Evaluation in Noisy Environment. [Tesis]. Karlskrona: Department of Telecommunications and Speech Processing, Blekinge Institute of Technology.

Taufani MF. 2011. Perbandingan pemodelan wavelet dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan teknik jaringan saraf tiruan sebagai classifier. [Skripsi]. Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Wisnudisastra E, Buono A. 2010. Pengenalan Chord pada Alat Musik Gitar Menggunakan CodeBook dengan Teknik Ekstraksi Ciri MFCC. Jurnal Ilmiah Ilmu Komputer, 14(1):16-21.

(29)

19

RIWAYAT HIDUP

Penulis dilahirkan di Bandar Lampung pada tanggal 27 Januari 1989 dari Ibu Hapsari Yulia Saparina dan Bapak Sudarto. Penulis merupakan anak pertama dari 2 bersaudara. Pada tahun 2007, penulis lulus dari Sekolah Menengah Atas (SMA) Al-Kautsar Bandar Lampung, dan pada tahun yang sama diterima di Diploma IPB Program Keahlian Manajemen Informatika. Pada tahun 2010 penulis lulus dari Diploma IPB dan melanjutkan pendidikan di Program Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB.