• Tidak ada hasil yang ditemukan

IMPLEMENTASI MEL FREQUENCY CEPSTRAL COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK PENGENALAN NADA PADA ALAT MUSIK BELLYRA

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI MEL FREQUENCY CEPSTRAL COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK PENGENALAN NADA PADA ALAT MUSIK BELLYRA"

Copied!
8
0
0

Teks penuh

(1)

IMPLEMENTASI MEL FREQUENCY CEPSTRAL

COEFFICIENT DAN DYNAMIC TIME WARPING UNTUK

PENGENALAN NADA PADA ALAT MUSIK BELLYRA

Yusup Miftahuddin

1)

Mira Musrini B

2)

Muhammad Rifqi Hakim

3)

1) 2) 3)

Teknik Informatika Institut Teknologi Nasional

Jl. PKH Mustofa No.23 Bandung Indonesia

email : ymiftahuddin@gmail.com

ABSTRACT

Clarification of sound is one of the Artificial Intelligent fields on Pattern Recognition. The analysis of tone classification aims to enable computer recognizing every tone/chord on bellyra music instruments by using sound as recognition system or sound matching. In the process of recognition, Mel Frequency Cepstral Coefficient (MFCC) algorithm is applied to conduct the feature extraction process from the sound signal. Meanwhile, the matching sound signal process tested uses Dynamic Time Warping (DTW) algorithm. The technic aims to carry out the accommodation of time difference between recording process on the testing and the available database on reference signal. The process of MFCC will convert the sound signal to several beneficial vector for the sound recognition process. The result of feature vector from MFCC process will be compared with feature vector stored in database using DTW.

Keywords

Voice Recognition, Tone, Mel Frequency Cepstral Coefficient, Dynamic Time Warping

1. Latar Belakang

Bellyra adalah salah satu alat musik yang digunakan sebagai melodi drum band. Bellyra ini terbuat dari deretan besi, dimana besi ini memiliki nada tersendiri dan tersusun sesuai not yaitu do, re, mi, fa, so, la, si, do, dan dipasangkan dengan alat pukul yaitu stik yang ujungnya bulat tebuat dari mika.

Ketepatan posisi pukul dan kekuatan memukul bellyra merupakan salah satu faktor dalam menentukan nada yang dihasilkan oleh bellyra. Posisi setiap not yang berdekatan dan setiap not yang dikeluarkan oleh bellyra hampir mirip

sehingga pengguna kesulitan dalam menentukan not/ nada yang sesuai.

Untuk mengatasi masalah tersebut, dibangun sebuah sistem yang dapat mengenali nada pada bellyra. Metode yang digunakan adalah Mel Frequency Ceptral Coefficient dalam proses ekstraksi ciri pada proses mengubah pola suara menjadi susunan nada. Dalam proses pencocokan dan pengklasifikasian antara data latih dengan data uji menggunakan metode Dynamic Time Wraping.

Rumusan Masalah

Dari permasalahan latar belakang di atas, maka dapat dirumuskan beberapa permasalahan sebagai berikut : 1. Bagaimana mempersiapkan data latih.

2. Bagaimana proses ekstraksi sinyal nada bellyra menggunakan metode Mel Frequency Ceptral Coefficient.

3. Bagaimana mencocokan data latih dan data uji dengan menggunakan metode Dynamic Time Warping.

4. Bagaimana mengidentifikasi nada dari data uji tersebut.

Tujuan

Tujuan dari penelitian ini adalah mengklasifikasikan nada menggunakan proses ekstraksi Mel Frequency Ceptral Coefficient dan menggunakan Dynamic Time Warping.

Ruang Lingkup

Untuk memfokuskan tujuan pada penelitian, maka pembahasan akan dibatasi. Adapun yang menjadi batasan masalah penelitian diantaranya, yaitu :

1.

Format suara yang dikenali adalah .wav.

2.

Menampilkan nada yang dibunyikan oleh alat musik Bellyra.

(2)

Mel Frequency Ceptral Coefficient (MFCC)

MFCC adalah metode yang digunakan untuk melakukan feature extraction, sebuah proses yang mengkonversikan signal suara menjadi beberapa parameter.

DC-REMOVAL EMPHASIZEPRE BLOCKINGFRAME WINDOWING

FAST FOURIER TRANSFORM MEL FREQUENCY WARPING DISTANCE COSINE TRANSFORM CEPSTRAL FILTERING SUARA EKSTRAKSI FEATURE

Gambar 1. Tahapan pada MFCC DC Removal

DC Removal bertujuan untuk menghitung rata-rata dari data sampel suara, dan mengurangkan nilai setiap sampel suara dengan nilai rata-rata tersebut. Tujuannya adalah mendapat normalisasi dari data suara input.

Persamaan untuk melakukan proses DC-Removal adalah sebagai berikut,

Keterangan:

= sampel sinyal hasil proses DC Removal

= sampel sinyal asli

= nilai rata-rata sampel sinyal asli = panjang signal

Input dari proses ini adalah sample suara dalam bentuk array dan outputnya adalah array sample suara yang sudah di normalisasi.

Pre – emphasize Filetering

Pre – emphasize Filetering merupakan salah satu jenis filter yang sering digunakan sebelum sebuah signal diproses lebih lanjut. Filter ini mempertahankan frekuensi-frekuensi tinggi pada sebuah spektrum, yang umumnya tereliminasi pada saat proses produksi suara. Persamaan untuk melakukan proses Pre-emphasize adalah sebagai berikut,

Keterangan :

= sinyal hasil pre-emphasize filter = sinyal sebelum pre-emphasize filter = 0,97 (nilai di ambil dari daftar pustaka)

Default nilai alpha yang digunakan dalam proses ini adalah 0,97.

Frame Blocking

Karena signal suara terus mangalami perubahan akibat adanya pergeseran artikulasi dari organ produksi vocal, signal harus diproses secara short segments (short frame). Panjang frame yang biasanya digunakan untuk pemrosesan signal adalah antara 10-30 milidetik. Panjang frame yang digunakan sangat mempengaruhi keberhasilan dalam analisa spektral. Di satu sisi, ukuran dari frame harus sepanjang mungkin untuk dapat menunjukkan resolusi frekuensi yang baik. Tetapi di lain sisi, ukuran frame juga harus cukup pendek untuk dapat menunjukkan resolusi waktu yang baik. Persamaan untuk melakukan proses Frame Blocking,

Keterangan : I = sample rate

N = sample point (sample rate * waktu framing(S))

M = N/2

Hasil perekaman suara merupakan sinyal analog yang masih bergantung terhadap waktu atau sering disebut variant time. Oleh karena itu sinyal tersebut harus di potong-potong dalam slot-slot waktu tertentu agar bisa di anggap invariant.

Frame Blocking adalah suatu proses yang bertujuan untuk membagi sampel suara menjadi beberapa frame atau slot dengan panjang tertentu.

Windowing

Proses framing dapat menyebabkan terjadinya kebocoran spektral (spectral leakage) atau aliasing. Aliasing adalah signal baru dimana memiliki frekuensi yang berbeda dengan signal aslinya. Efek ini dapat terjadi karena rendahnya jumlah sampling rate, ataupun karena proses frame blocking dimana menyebabkan signal menjadi discontinue. Untuk mengurangi kemungkinan terjadinya kebocoran spektral, maka hasil dari proses framing harus melewati proses window. Sebuah fungsi window yang baik harus menyempit pada bagian main lobe dan melebar pada bagian side lobe-nya.

Persamaan untuk melakukan windowing adalah sebagai berikut,

Keterangan :

= nilai sampel signal hasil windowing = nilai sampel dari frame signal ke i

(3)

N = frame size, merupakan kelipatan 2 Analisis Fourier

Discrete Fourier Transform (DFT)

DFT merupakan perluasan dari transformasi fourier yang berlaku untuk signal-signal diskrit dengan panjang yang terhingga. Semua signal periodik terbentuk dari gabungan signal- signal sinusoidal yang menjadi satu yang dapat dirumuskan sebagai berikut :

Keterangan :

N = Jumlah sampel yang akan diproses

S[n] = Nilai sampel signal

K = Variabel frekuensi discrete, dimana akan bernilai

Fast Fourier Transform (FFT)

Persamaan untuk melakukan FFT,

Keterangan:

= Sinyal hasil FFT = Nilai imaginary

= Jumlah titik sampling sinyal

Mel Frequency Wrapping

Mel Frequency Wrapping umumnya dilakukan dengan menggunakan Filterbank. Filterbank adalah salah satu bentuk dari filter yang dilakukan dengan tujuan untuk mengetahui ukuran energi dari frequency band tertentu dalam signal suara. Filterbank dapat diterapkan baik pada domain waktu maupun pada domain frekuensi, tetapi untuk keperluan MFCC, filterbank harus diterapkan dalam domain frekuensi. Filterbank menggunakan representasi konvolusi dalam melakukan filter terhadap signal. Konvolusi dapat dilakukan dengan melakukan multiplikasi antara spektrum signal dengan koefisien filterbank. Berikut ini adalah rumus yang digunakan dalam perhitungan filterbanks. Rumus untuk melakukan proses Mel Frequency Warping,

Keterangan :

= jumlah magnitude spectrum = magnitude spectrum pada

frekuensi j

= koefisien filterbank pada frekuensi j(

= jumlah channel dalam filterbank

Setelah berhasil memperoleh koefisien filterbank, maka proses konvolusi filterbank dapat dilaksanakan.

Persepsi manusia terhadap frekuensi dari signal suara tidak mengikuti linear scale. Frekuensi yang sebenarnya (dalam Hz) dalam sebuah signal akan diukur manusia secara subyektif dengan menggunakan mel scale. Mel frequency scale adalah linear frekuensi scale pada frekuensi dibawah 1000 Hz, dan merupakan logarithmic scale pada frekuensi diatas 1000 Hz.

Discrete Cosine Transform (DCT)

DCT merupakan langkah terakhir dari proses utama MFCC feature extraction. Konsep dasar dari DCT adalah mendekorelasikan mel spectrum sehingga menghasilkan representasi yang baik dari property spektral local. Pada dasarnya konsep dari DCT sama dengan inverse fourier transform. Namun hasil dari DCT mendekati PCA (principle component analysis). PCA adalah metode static klasik yang digunakan secara luas dalam analisa data dan kompresi. Hal inilah yang menyebabkan seringkali DCT menggantikan inverse fourier transform dalam proses MFCC feature extraction.

Berikut adalah formula yang digunakan untuk menghitung DCT.

Keterangan :

= Keluaran dari proses filterbank pada index k

= Jumlah koefisien yang diharapkan

Cepstral Liftering

Hasil dari proses utama MFCC feature extraction memiliki beberapa kelemahan. Low order dari cepstral coefficients sangat sensitif terhadap spectral slope, sedangkan bagian high ordernya sangat sensitif terhadap noise. Oleh karena itu, cepstral liftering menjadi salah satu standar teknik yang diterapkan untuk meminimalisasi sensitifitas tersebut. Cepstral liftering dapat dilakukan dengan mengimplementasikan fungsi window.

(4)

Keterangan :

= Jumlah ceptral coefficients = Index dari cepstral coefficients

Dynamic Time Warping

Dynamic Time Warping (DTW) yaitu algoritma yang menghitung warping path yang optimal antara dua runtun data sehingga outputnya adalah nilai-nilai warping path dan jarak diantara kedua runtun tersebut (Sakoe,H & S.Chiba).

Algoritma DTW disebut juga sebagai non-linear sequence alignment, sehingga algoritma ini lebih realistis untuk digunakan dalam mengukur kemiripan suatu pola (pattern/template matching). Data yang diolah selalu berada dalam kawasan waktu, sehingga rentetan data yang kita punya dianggap bervariasi terhadap waktu.

Jarak Dynamic Time Warping dapat dihitung dengan persamaan:

Keterangan :

= Sinyal Uji = = Sinyal Latih

Analisis Sistem

Gambar 2. Alur kerja sistem pengenalan nada

Gambar 2 merupakan workflow sistem, berikut adalah tahapan penjelasan setiap proses yang dilakukan sesuai dengan penomoran yang telah ditentukan:

1. User melakukan perekaman suara alat musik bellyra 2. User membuka aplikasi sistem pengenalan pola

suara pada dekstop.

3. Sistem menampilkan form fitur-fitur untuk memangil file pada Library.

4. User memilih file audio yang dibutuhkan sistem untuk pencarian pola nada.

5. Sistem melakukan Ektraksi file audio

6. Sistem melakukan Matching dimana file audio yang telah dipilih oleh user sebelumnya akan dicocokkan kedalam bentuk nada.

7. Sistem menampilkan hasil dari pencocokan pola suara menjadi susunan nada sesuai dengan suara yang terdengar melaui transducer (speaker). Output dari aplikasi ini adalah nama-nama nada yang akan ditampilkan setelah aplikasi menerima input pola nada.

Use Case Diagram

Use case diagram digunakan untuk mengambarkan user di luar lingkungan sistem dan hubunganya ke use case yang dibarikan oleh sistem. Use case di gambarkan hanya yang dilihat dari luar oleh user (keadaan lingkungan sistem yang dilihat user) dan bagaimana fungsi yang ada didalam sistem. Berdasarkan analisis sistem yang telah dilakukan, maka aplikasi pengenalan nada ini memerlukan fungsionalitas pelatihan sampel suara dan pengujian suara seperti pada gambar 3.

Berikut adalah penjelasan dari use case diagram yang digunakan berdasarkan aplikasi yang dibuat :

Gambar 3. Use Case Sistem Diagram

Implementasi

Sampel data nada Bellyra

Gambar 4. Sampel Suara Bellyra

Proses DC Removal

Implementasi proses DC Removal pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 5.

(5)

Gambar 5. Hasil DC Removal

Proses Pre-Emphasize

Implementasi proses Pre-Emphasize pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 6.

Gambar 6. Pre Emphasize

Proses Frame Blocking

Implementasi proses Frame Blocking pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 7.

Gambar 7. Frame Blocking

Proses Windowing

Implementasi proses windowing pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 8.

Gambar 8. Hasil Windowing

Proses FFT

Implementasi proses windowing pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 9.

(6)

Proses Filterbank

Implementasi proses filterbank pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 10.

Gambar 10. Hasil Filterbank

Proses DCT

Implementasi proses DCT pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 11.

Gambar 11. Hasil DCT

Proses Cepstral Liftering

Implementasi proses Cepstral Litering pada bahasa pemrograman dan hasil outputnya ditampilkan pada gambar 12.

Gambar 12. Hasil Cepstral Liftering

Tampilan Menu Utama

Tampilan menu utama merupakan tampilan awal yang ditunjukan pada aplikasi pengenalan nada.

Gambar 13. Form Menu Utama

Tampilan Form Data Latih

Tampilan Form ini digunakan untuk melakukan perekaman nada yang berguna sebagai data latih yang kemudian akan disimpan pada database.

Gambar 14. Form Data Latih

Tampilan Pengujian

Tampilan Form pengujian digunakan untuk menentukan nada pada alat musik yang akan disesuaikan pada database data latih

(7)

Gambar 15. Form Pengujian

Pengujian

Pengujian pada aplikasi yang dibangun dilakukan untuk melihat tingkat akurasi metode yang digunakan pada aplikasi ini, pengujian dilakukan sebanyak 10 kali untuk masing-masing nada, dan setiap nada yang di uji dilakukan oleh user yang berbeda-beda.

Tabel 1. Hasil pengujian pada nada G Rendah

Nama Nada Pengujian Hasil

G Rendah Pengujian 1 Pengujian 2 Pengujian 3 Pengujian 4 Pengujian 5 Pengujian 6 Pengujian 7 Pengujian 8 Pengujian 9 Pengujian 10 G Rendah F Sedang G Rendah G Rendah G Rendah G Rendah G Rendah F Sedang F Sedang F Sedang Dari hasil pengujian dari ke-1 maka tingkat keberhasilan aplikasi hitung dengan (%) dan menggunakan persamaan 11, seperti pada persamaan dibawah ini. .

Dari hasil perhitungan di atas maka di dapatkan tingkat keberhasilan dari pengujian pertama sebesar

Tabel 2. Hasil Pengujian pada nada G Sedang

Nama Nada Pengujian Hasil

G Sedang Pengujian 1 Pengujian 2 Pengujian 3 Pengujian 4 Pengujian 5 Pengujian 6 Pengujian 7 Pengujian 8 Pengujian 9 Pengujian 10 G Sedang F Rendah G Sedang F Rendah F Rendah F Rendah G Sedang F Rendah F Rendah F Rendah Dari hasil pengujian dari ke-2 maka tingkat keberhasilan aplikasi hitung dengan (%) dan menggunakan persamaan 11, seperti pada persamaan dibawah ini.

Tabel 3. Hasil Pengujian pada nada G Tinggi

Nama Nada Pengujian Hasil

G Tinggi Pengujian 1 Pengujian 2 Pengujian 3 Pengujian 4 Pengujian 5 Pengujian 6 Pengujian 7 Pengujian 8 Pengujian 9 Pengujian 10 A Tinggi G Tinggi G Tinggi G Tinggi G Tinggi G Tinggi G Tinggi G Tinggi G Tinggi G Tinggi

Dari hasil pengujian ke-3 maka tingkat keberhasilan aplikasi hitung dengan (%) dan menggunakan persamaan 11, seperti pada persamaan dibawah ini.

(8)

Kesimpulan

Berdasarkan hasil pengujian dan pembahasan dari bab-bab sebelumnya, maka dapat di ambil kesimpulan sebagai berikut:

1. Aplikasi yang dibangun dapat mengenali nada dengan tingkat akurasi yang berbeda-beda.

2. Dengan mengacu pada tabel 1 maka didapat kesimpulan bahwa tingkat akurasi aplikasi pengenalan nada adalah sebesar 60 % dengan nada yang di uji adalah nada G Rendah yang di ulang sebanyak 10 kali percobaan.

3. Dengan mengacu pada tabel 2 maka didapat kesimpulan bahwa tingkat akurasi aplikasi pengenalan nada adalah sebesar 30 % dengan nada yang di uji adalah nada G Sedang yang di ulang sebanyak 10 kali percobaan.

4. Dengan mengacu pada tabel 3 maka didapat kesimpulan bahwa tingkat akurasi aplikasi pengenalan nada adalah sebesar 90 % dengan nada yang di uji adalah nada G Tinggi yang di ulang sebanyak 10 kali percobaan.

REFERENSI

1. Adrian Hafiz David. 2015. Implementasi Voice Recognition menggunakan MFCC dan DTW pada aplikasi pendeteksi emosi manusia.

2. Ahmad Hayam Brilian,dkk. 2016. Pengenalan Sandi Morse Dari Sinyal Electroencephalogram yang direkam perangkat neurosky mindwave menggunakan DTW.

3. Alexander A.S. Gunawan,dkk. 2013. Pembelajaran bahasa isyarat dengan kinect dengan menggunakan metode Dynamic Time Warping (Online).

(http://researchdashboard.binus.ac.id/uploads/paper/d ocument/publication/Journal/MatsTat/Vol.%2013%2

0No.%202%MatStat_Alexander%20Ashadi.pdf ,

Diakses 21 Oktober 2016) .

4. Darma Putra, dkk. 2011. Verifikasi Biometrika suara menggunakan metode Mel Frequency Ceptral Coefficient dan Dynamic Time Warping(Online). (http://ojs.unud.ac.id/index.php/lontar/article/view/37 11/2734, Di akses tanggal 15 oktober 2016).

5. Indrajit P, Iwan I, Ratri Dwi A. 2013. Sistem identifikasi suara manusia berdasarkan jangkauan vokal menggunakan jaringan saraf tiruan Backpropagation dan Mel Frequency Ceptral Coefficient.

6. Irham Sidik Permana. 2015. Implementasi metode MFCC dan DTW untuk pengenalan jenis suara pria dan wanita.

7. Rachman, 2011. Visualisasi pengenalan vokal bahasa indonesia menggunakan Linear Predictive Coding dan Dynamic Time Warping (Online).

(http://eprints.undip.ac.id/ , Diakses pada 21 Oktober 2016).

Gambar

Gambar 5. Hasil DC Removal
Gambar 10. Hasil Filterbank  Proses DCT
Gambar 15. Form Pengujian  Pengujian

Referensi

Dokumen terkait

You could merely hunt for the floor tile right here and you will certainly obtain the book The Ultimate Guide To Low & Fluctuating Blood Pressure: Causes, Symptoms, Home Tests,

(1) Fasilitas bagi Ketua dan Anggota Dewan Jaminan sosial Nasional sebagaimana dimaksud dalam pasal 1 diberikan dalam bentuk biaya perjalanan dinas. (2) Biaya

Gangguan yang dapat terjadi pada NPB myogenik , yaitu nyeri tekan pada region lumbal, spasme pada otot-otot punggung bawah, sehingga potensial adanya keterbatasan saat

Pendidikan Ilmu Pengetahuan Sosial merupakan salah satu mata pelajaran yang sulit dipelajari oleh peserta didik, karena dalam proses pembelajarannya memerlukan

Ketika liabilitas keuangan awal digantikan dengan liabilitas keuangan lain dari pemberi pinjaman yang sama dengan persyaratan yang berbeda secara substansial, atau

Besar erosi dan tingkat bahaya erosi diketahui dengan cara pengambilan contoh tanah di 4 lokasi yang terdiri dari 2 lokasi yang masih alami dan 2 lokasi yang telah mengalami

Informasi dan pengawasan yang didapatkan dari keluarga sudah cukup untuk menghindarkan remaja dari perilaku seksual pranikah.. 0

Indikator kinerja dalam penelitian tindakan kelas ini adalah diharapkan dengan pembelajaran kooperatif tipe Team Game Tournament minat belajar IPA pada siswa kelas V SD