Aplikasi Pengenalan Suara Digital Nada Dasar Piano

(1)

APLIKASI PENGENALAN SUARA DIGITAL NADA DASAR PIANO

SKRIPSI

M. ARDIANSYAH

091402062

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

APLIKASI PENGENALAN SUARA DIGITAL NADA DASAR PIANO

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Sarjana Teknologi Informasi

M. ARDIANSYAH

091402062

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(3)

PERSETUJUAN

Judul : APLIKASI PENGENALAN SUARA DIGITAL

NADA DASAR PIANO

Kategori : SKRIPSI

Nama : MUHAMMAD ARDIANSYAH

Nomor Induk Mahasiswa : 091402062

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI

Diluluskan di

Medan, 23 Agustus 2014

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Drs. Marihat Situmorang, M.Kom NIP. 19631214 198903 1 001

Romi Fadillah Rahmat,B.Comp.Sc.,M.Sc. NIP. 19860303 201012 1 004

Diketahui/Disetujui oleh

Program Studi Teknologi Informasi Ketua,

(4)

PERNYATAAN

APLIKASI PENGENALAN SUARA DIGITAL NADA DASAR PIANO

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, 23 Agustus 2014

Muhammad Ardiansyah

(5)

PENGHARGAAN

Puji dan syukur penulis panjatkan kepada Allah SWT Yang Maha Pengasih dan Maha Penyayang, dengan segala rahmat dan karuniaNya lah penulis bisa menyelesaikan penyusunan tugas akhir ini.

Proses penyusunan skripsi ini tidak lepas dari dukungan dan bantuan dari pihak lain. Oleh karena itu penulis mengucapkan terima kasih banyak kepada :

1. Keluarga penulis, terutama kedua orang tua penulis. Ibunda, Adriaty Handayani dan Ayahanda, R. Epidaryanto yang selalu sabar dalam mendidik dan membesarkan penulis. Adik penulis Ananda Listiarini dan Kakak penulis Annisa Yunita yang selalu memberikan semangat kepada penulis.

2. Bapak Romi Fadillah Rahmat,B.Comp.Sc.,M.Sc. dan Bapak Drs. Marihat Situmorang, M.Kom selaku pembimbing yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis.

3. Bapak dan Ibu dosen pembanding.

4. Ketua dan Sekretaris Program Studi Teknologi Informasi Bapak M. Anggia Muchtar, ST.,MM.IT. dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT.

5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, semua dosen serta pegawai di Fakultas Ilmu Komputer dan Teknologi Informasi.

6. Kepada Melinda Agustien yang selalu memberikan motivasi, memberikan nasihat agar penulis dapat menyelesaikan penulisan tugas akhir ini dengan baik.

7. Kepada Nurul Khadijah, Ade Maulana yang selalu membantu penulis sehingga dapat menyelesaikan tugas akhir dengan baik.

8. Seluruh sahabat terbaik penulis yang selalu memberikan dukungan, Ade Tambunan, Ammar Adianshar, Ridzuan Ikram Fadjri, Julia Annisa, Yunisya Aulia Putri, Reza Elfandra, Ibnu setiawan, Raisha Ariani, Fanny sari wulandari, Yogi, Bora, Sheila, Septi, Aat, Ijal,Uti serta seluruh angkatan 09, serta teman-teman seluruh angkatan mahasiswa USU lainnya yang tidak dapat penulis sebutkan satu persatu, Semoga Allah SWT membalas kebaikan kalian dengan nikmat yang berlimpah.

(6)

ABSTRAK

Dalam bermain musik khususnya bermain piano, seorang pianist membutuhkan partitur dalam panduan untuk bermain musik. Partitur merupakan tulisan yang digunakan seorang pianist untuk menyimpan atau menyampaikan sebuah lagu. Banyak pianist yang tidak mempunyai keahlian dalam pembuatan partitur, khusunya dalam pembuatan musik yang spontan. Karena itu, diperlukan sebuah aplikasi yang dapat membantu dalam pembuatan partitur dari suara musik piano. Metode ekstraksi

Mel-Frequency Cepstral Coefficient dan metode pencocokan Learning Vector Quantization digunakan untuk membuat aplikasi tersebut. Metode MFCC digunakan untuk mengambil Vector – vector yang berada didalam sebuah lagu. Dan metode LVQ digunakan untuk mencocokkan data uji dengan data acuan yang telah disimpan terlebih dahulu. Output yang dihasilan dari sistem ini berupa partitur musik dari lagu yang telah diinput kedalam sistem.

(7)

VOICE RECOGNITION APPLICATIONS BASIC DIGITAL PIANO TONE

ABSTRACT

In playing music especially playing the piano, a pianist needs score to play music in the guide. Scores are writing who used by a pianist to store or deliver a song. Many pianists do not have expertise in the making of sheet music, especially in spontaneous music-making. Therefore, we need an application that can help in the making of the music scores. Methods for extracting is Mel - Frequency cepstral coefficient and Learning Vector Quantization matching method is used to create such applications. MFCC method is used to retrieve Vectors which resides in a song. And LVQ method is used to match test data with reference data that has been stored in advance. output of this system in the form of sheet music of a song that has been inputed into the system.

(8)

DAFTAR ISI

Persetujuan i

Pernyataan ii

Penghargaan iii

Abstrak iv

Abstract v

Daftar isi vi

Daftar tabel vii

Daftar gambar viii

Bab 1 Pendahuluan 1

1.1 Latar Belakang 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 3

1.5 Manfaat Penelitian 3

1.6 Metodologi Penelitian 3

1.7 Sistematika Penulisan 4

Bab 2 Landasan Teori 5

2.1 Latar Belakang Pengenalan Ucapan 6

2.2 Suara Musik 7

2.3 Pengolahan Audio 7

2.4 Mel-Frequency Cepstrum Coefficient ( MFCC ) 9

2.4.1 DC – Removal 9

2.4.2 Pre – Emphasize Filtering 10

(9)

2.4.4 Windowing 12

2.4.5 Analisis Fourier 13

a. Discrete Fourier Transform ( DFT ) 15

2.4.6 Fast Fourier Transform 16

2.4.7 Mel-Frequency Warping 18

2.4.8 DCT 19

2.5 Jaringan Syaraf Tiruan 19

2.5.1 Learning Vector Quantization ( LVQ ) 20

2.6 Penelitian Terdahulu 21

Bab 3 Analisis dan Perancangan 23

3.1 Analisis Sinyal Suara 24

3.2 Analisis Ekstraksi Fitur Suara Menggunakan MFCC 24

3.2.1 Input Suara 24

3.2.2 DC- Removal 25

3.2.3 Pre-Emphasize 26

3.2.4 Frame Blocking 27

3.2.5 Windowing 28

3.2.6 Analisis Fourier 28

3.2.7 Filter Bank 29

3.2.8 Discrete Cosine Transform ( DCT ) 29

3.3 Pencocokan dengan Metode Learning Vector Quantization 30

3.3.2 Algoritma LVQ 30

3.4 Database 34

3.5 Antarmuka Sistem 35

Bab 4 Impelemntasi dan Pengujian Sistem 38

(10)

4.2 Skenario Uji Coba Sistem 39

Bab 5 Kesimpulan dan Saran 50

5.1 Kesimpulan 50

5.2 Saran 52

(11)

DAFTAR TABEL

Hal

Tabel 2.1. Fungsi – fungsi window dan Formulanya 13

Tabel 2. 2 Penelitian Terdahulu 21

Tabel 4.1 Rencana Pengujian Sistem 45

Tabel 4.2 Pengujian Sistem ( input data acuan ) 46

Tabel 4.3 Pengujian Sistem ( pengenalan data ) 46

Tabel 4.4 Sampe data pengujian sistem 47

Tabel 4.5 Processing time 48

(12)

DAFTAR GAMBAR

Hal

Gambar 2.1 Tahapan dalam Speech Recognition 7

Gambar 2.2 Struktur WAV 8

Gambar 2.3 Contoh Dari Pre- Emphasize Pada Sebuah Frame 10

Gambar 2.4 Contoh Frame Blocking 11

Gambar 2.5 Contoh Dari Spectogram 14

Gambar 2.6 Tiga Gelombang Sinusoidal Dan Superposisinya 15

Gambar 2.7 Domain Waktu Menjadi Domain Frekuensi 16

Gambar 2.8 Grafik Perbandingan Kecepatan Direct Calculation Dengan

Algoritma FFT 17

Gambar 2.9 Pembagian Sinyal Suara Menjadi Dua Kelompok 17

Gambar 2.10 Arsitektur Jaringan LVQ 20

Gambar 3.1Arsitektur Umum Aplikasi 23

Gambar 3.2 Flowchart DC-Removal 25

Gambar 3.3 Flowchart Pre-Emphasize Filter 26

Gambar 3.4 Flowchart Frame Blocking 27

Gambar 3.5 Database Aplikasi 35

Gambar 3.6 Rancangan Halaman Awal 36

Gambar 3.7 Rancangan Halaman Pengenalan 36

(13)

Gambar 4.1 Tampilan Awal Aplikasi 40

Gambar 4.2 Tampilan Menu Pengenalan 40

Gambar 4.3 Tampilan Menu Pengenalan 41

Gambar 4.4 Tampilan Spectogram Untuk Suara Input 41

Gambar 4.5 Tampilan Spectogram Suara Potong 42

Gambar 4.6 Partitur Hasil 43

Gambar 4.7 Tampilan Menu Admin 44

(14)

ABSTRAK

Dalam bermain musik khususnya bermain piano, seorang pianist membutuhkan partitur dalam panduan untuk bermain musik. Partitur merupakan tulisan yang digunakan seorang pianist untuk menyimpan atau menyampaikan sebuah lagu. Banyak pianist yang tidak mempunyai keahlian dalam pembuatan partitur, khusunya dalam pembuatan musik yang spontan. Karena itu, diperlukan sebuah aplikasi yang dapat membantu dalam pembuatan partitur dari suara musik piano. Metode ekstraksi

Mel-Frequency Cepstral Coefficient dan metode pencocokan Learning Vector Quantization digunakan untuk membuat aplikasi tersebut. Metode MFCC digunakan untuk mengambil Vector – vector yang berada didalam sebuah lagu. Dan metode LVQ digunakan untuk mencocokkan data uji dengan data acuan yang telah disimpan terlebih dahulu. Output yang dihasilan dari sistem ini berupa partitur musik dari lagu yang telah diinput kedalam sistem.

(15)

VOICE RECOGNITION APPLICATIONS BASIC DIGITAL PIANO TONE

ABSTRACT

In playing music especially playing the piano, a pianist needs score to play music in the guide. Scores are writing who used by a pianist to store or deliver a song. Many pianists do not have expertise in the making of sheet music, especially in spontaneous music-making. Therefore, we need an application that can help in the making of the music scores. Methods for extracting is Mel - Frequency cepstral coefficient and Learning Vector Quantization matching method is used to create such applications. MFCC method is used to retrieve Vectors which resides in a song. And LVQ method is used to match test data with reference data that has been stored in advance. output of this system in the form of sheet music of a song that has been inputed into the system.

(16)

BAB 1

PENDAHULUAN

1.1Latar Belakang

Semua bangsa maju di dunia seperti Jerman, Amerika, Jepang, Inggris, Australia dan

negara Eropa pada umumnya adalah bangsa yang musical. Pengertian musical yang

dimaksud disini adalah pertama dapat memainkan instrument musik atau menyanyi

dengan baik, pengertian kedua tidak dapat bermain musik atau bernyanyi dengan baik.

Tapi dapat mengapresiasi musik Yuriandran (2008).

Musik adalah salah satu stimulus yang menyenangkan dan telah lama hadir dalam

kehidupan manusia. Rentfrom dan Gosling (2007) menemukan bahwa pertanyaan

mengenai jenis musik yang paling disukai adalah topik utama percakapan pada

individu yang berkenalan. Selain media hiburan, msuik mempunya fungsi yang amat

kompleks . Scripp dan Subotnik (2003) menjelaskan bahwa musik mewakili proses

kognitif pada bidang lain dan meliputi aktivitas mental. Musik merupakan instrumen

pendidikan yang sangat kuat. Musik mampu merangsang alam bawah sadar kreatif.

Kebiasaan mendengarkan musik menjadi konsep penting terkait musik dan

kecerdasan. Musik adalah hasil seni budaya yang terdiri dari unsur – unsur suara atau

bunyi yang teratur sehingga terjadi harmoni yang memuaskan pendengarnya. Musik

dapat berfungsi sebagai perangsang semangat kreatif dan alternatif untuk keluar dari

kejenuhan serta penyeimbang tugas linguistik dan logis. Gallahue (dalam Sudjito dkk,

2007) menyatakan bahwa mendengarkan musik mampu menstimulasi kemampuan

belajar melalui ritme. Melodi dan harmoni. Berbicara tentang musik tidak bisa

diabaikan penjelasan Gardner(1999) mengenai intelegensi. Intelegensi menunjukkan

kemahira dan keterampilan memecahkan kesulitan yang ditemukan, serta menciptkan

persoalan yang memungkinkan pengembangan pengetahuan. Hal menarik dari

penjelasan Gardner adalah intelegensi musik dapat mengorganisir cara berfikir dan

bekerja sehingga membantu pengembangan kemampuan matematika. Spasial dan

(17)

Kreativitas dalam bermusik memerupakan faktor yang sangat penting dihayati

perkembangannya karena sangat berpengaruh dalam kehidupan sehari – hari.

Kreativitas dalam musik dapat juga diaplikasikan pada kehidupabn sehari- hari oleh

siapa saja dan dimana saja. Karena ada potensi kreativitas dimasing – masing individu

tergantung cara mengembangkannya. Kreativitas merupakan fenomena yang melekat

dengan kehidupan manusia dan merupakan hasil interaksi antar manusia dengan

lingkungan atau kebudayaan dan sejarah dimana kreatifias dapat tumbuh dan

meningkat tergantung kepada kondusif kebudayaan dan orangnya (Munandar, 2009 )

Penelitian – penelitian membuktikan bahwa musik memberikan banyak manfaat

kepada manusia seperti merangsang pikiran. Memperbaiki konsentrasi dan ingatan,

meningkatkan aspek kognitif, membangun kecerdasan emosional dan lain – lain.

Musik juga dapat menyeimbangkan fungsi otak kanan dan otak kiri yang berarti

menyeimbangkan perkembangan aspek intelektual dan emosional . anak – anak yang

mendapatkan pendidikan musik jika kelak dewasa akan menjadi manusia yang

berpikiran logis sekaligus cerdas, kreatif dan mampu mengambil keputusan serta

mempunyai empati. Penting sekali untuk memperkuat musikalitas anak sejak dini

karena musikalitas itu sangat istimewa mencakup perkembangan intelektual bagi

anak, emosional, sosial dan kemauan yang bakal mempengaruhi anak di masa yang

akan datang. Musik pada anak – anak akan meningkatkan kemampuan intelegensi

spesialnya sebesar 46 persen dibandingkan anak – anak yang jarang bermusik. Mereka

membuktikan adanya kaitan erat antara kemahiran bermusik dengan penguasaan level

matematika yang tinggi dan kemampuan sains lainya Deporter (2000).

Dewasa kini penggunaan piano, keyboard maupun pianika sudah merupakan

barang yang tidak mahal , banyak orang dapat mencoba belajar musik dari alat musik

piano.

1.2Rumusan Masalah

Dalam bermain alat musik piano, seorang pianis yang baru mulai belajar bermain

(18)

Diperlukannya sebuah software yang dapat merubah suara instrumen piano menjadi

partitur.

1.3Batasan Masalah

Batasan masalah dalam penelitian ini adalah :

1. Aplikasi dijalankan di dekstop.

2. Nada yang digunakan adalah nada dasar mayor.

3. Format input nada suara yang dimasukkan adalah WAV.

4. Menggunakan not ¼

1.4Tujuan Penelitian

Penelitian ini bertujuan untuk mengunakan metode Learning Vector Quantization

dalam mengkonversi nada suara digital piano menjadi partitur, dimana ekstraksi

cirinya menggunakan Mel-Frequency Cepstral Coefficient ( MFCC ) untuk

memudahkan user dalam membuat partitur berdasarkan nada yang dimainkannya.

1.5Manfaat Penelitian

Manfaat penelitian ini adalah :

1. Dapat mengetahui nada dari sebuah lagu tanpa mempunyai partiturnya.

2. Menghemat waktu dalam membuat partitur.

3. Sebagai bahan referensi untuk penelitian selanjutnya yang berkenaan dengan

voice recognition.

1.6Metodologi Penelitian

Langkah – langkah yang ditempuh dalam menyelesaikan penelitian adalah sebagai

(19)

1. Studi Literatur

Studi Literatur dilakukan dengan mengumpulkan informasi lebih lanjut mengenai

permasalahan yang akan dibahas seperti penelitian terdahulu, pengumpulan musik

yang ingin digunakan didalam aplikasi, relasi data yang ingin dibuat dan metode –

metode yang akan digunakan untuk permasalahan ini.

2. Pengumpulan Data

Pada tahap ini dilakukan pengumpulan data yang mendukung dalam penyelesaian

masalah yang diteliti secara sistematis.

3. Analisa dan Perancangan Sistem

Pada tahapan ini dilakukan analisis terhadap materi dan data yang telah didapat

sebelumnya untuk kemudian digunakan dalam penyelesaian suatu masalah dan

dapat digunakan untuk merancang sebuah sistem yang akan diimplementasikan

nantinya.

4. Implementasi Sistem

Pada tahapan ini penulis mengimplementasikan metode ekstraksi ciri

Mel-frequency Cepstral Coefficient dan metode Learning Vector Quantization kedalam

sistem. Implementasi meliputi pembuatan program untuk digunakan sebagai

aplikasi dari metode diatas.

5. Pengujian Sistem

Pada tahapan ini, dilakukan pengujian terhadap metode MFCC dan LVQ yang

telah diimplementasikan kedalam sistem untuk mengetahui kehandalannya apakah

telah sesuai dengan yang diharapkan dalam penelitian ini.

6. Dokumentasi Sistem

Pada tahap dokumentasi sistem ini, penulis menyusun laporan terhadap metode

MFCC dan LVQ dari aplikasi yang telah dibuat.

1.7Sistematika Penulisan

Metodologi penelitian yang digunakan pada penelitian ini adalah :

Bab I Pendahuluan

Bab ini akan berisikan tentang latar belakang, rumusan masalah, tujuan

penelitian, batasan masalah, manfaat penelitian, metodologi penelitian,

(20)

Bab II Tinjauan Pustaka

Bab ini menguraikan tentang metode Mel-Frequency Cepstrum

Coefficient dan metode Learning Vector Quantization, hal- hal yang

mendukung metode tersebut dan penelitian terdahulu.

Bab III Analisis dan Perancangan Sistem

Pada bab ini akan dijelaskan beberapa hal seperti deksripsi umum

perangkat lunak yang dibangun, analisa data dan arsitektur perangkat

lunak, dan sampai kepada perancangan sistem antarmuka.

Bab IV Analisis dan Perancangan Sistem

Pembahasan pada bab ini diarahkan pada bagaimana hasil dari Metode

MFCC dan LVQ yang telah dibangun dan bagaimana pengujiannya

dengan menggunakan sistem yang dibuat.

Bab V Kesimpulan dan Saran

Bab ini berisi tentang kesimpulan hasil penelitian dan saran – saran

yang berkaitan dengan penelitian selanjutnya untuk pengembangan

(21)

BAB 2

LANDASAN TEORI

2.1 Latar Belakang Pengenalan Ucapan

Pengenalan ucapan atau pengenalan wicara dalam istilah bahasa inggirisnya automatic

speech recognition (ASR) adalah suatu pengembangan teknik dan sistem yang

memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan.

Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata –

kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital

tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata – kata

yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah

gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode – kode tertentu untuk mengidentifikasi kata – kata tersebut, Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh

perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan.

Misalnya penekanan tombol pada telelpon genggam yang dilakukan secara otomatis

dengan komando suara Lestary (2009).

Perkembangan teknologi dalam bidang speech recognition bertujuan untuk

mewujudkan keinginan manusia dalam memaksimalkan fungsi PC sebagai alat yang

mampu mempermudah pekerjaan manusia disegala aspek. Hal yang hendak dicapai

adalah menciptakan PC yang mampu berinteraksi dengan manusia secara langsung

menggunakan bahasa manusia sehari – hari sesuai tata bahasa yang berlaku, studi

tentang pengenalan ucapan sudah dilakukan selama bertahun – tahun untuk mencapai

sukses yang ideal. Tetapi hal tersebut belum juga dapat terpenuhi sampai saat ini.

Masih perlu dilakukan penelitian dan peningkatan lebih lanjut terhadap metode

pengenalan yang sudah ada.

Secara umum , proses pengenalan ucapan dimulai dengan meng-input-kan suara

melalui microphone, sinyal suara yang menjadi input bersifat continue, untuk itu

diperlukan pemrosesan awal ( pre-processing) untuk mengubah sinyal tersebut

(22)

melalui proses ekstraksi ciri ( feature extraction ) untuk mendapatkan parameter

khusus yang menjadi bahan pembanding dalam proses pencocokan pola. Pada tahap

selanjutnya yaitu pencocokan pola, maka program akan membandingkan sinyal

ucapan masukan dengan sinyal pembanding lalu program menentukan keputusan.

Tahapan dalam speech recognition dapat dilihat pada gambar 2.1 Rachman (2006).

Sumber : Rachman (2006)

Gambar 2.1. Tahapan dalam Speech Recognition.

2.2 Suara Musik

Kehadiran musik sebagai bagian dari kehidupan manusia bukanlah hal yang baru.

Setiap budaya di dunia memiliki musik yang khusus diperdengarkan atau dimainkan

berdasarkan peristiwa – peristiwa bersejarah dalam perjalanan hidup anggota

masyarakatnya. Ada musik yang dimainkan untuk mengungkapkan rasa syukur atas

kelahiran seorang anak. Ada juga musik yang khusus mengiringi upacara – upacara

tertentu seperti pernikahan dan kematian. Musik juga menjadi pendukung utama untuk

melengkapi dan menyempurnakan beragam bentuk kesenian dan berbagai budaya.

Musik adalah suara yang disusun demikian rupa sehingga mengandung irama.

Lagu, dan keharmonisan terutama suara yang dihasilkan dari alat- alat yang dapat

menghasilkan bunyi – bunyian, walaupun musik adalah sejenis fenomena intuisi,

untuk mencipta, memperbaiki dan mempersembahkannya adalah suatu bentuk seni ,

mendengar musik adalah sejenis hiburan. Musik adalah sebuah fenomena yang sangat

unik yang bisa dihasilkan oleh beberapa alat musik.

2.3 Pengolahan Audio

Suara adalah sebuah sinyal yang merambat melalui perantara, suara dapat dihantarkan

dengan media air, udara, maupun benda padat, Dengan kata lain, suara adalah

(23)

didengar manusia berkisar antara 20 Hz sampai dengan 20 KHz, dimana Hz adalah

satuan frekuensi yang artinya banyak getaran per-detik (cps / cycle per second)

Rabiner (1993).

Perlengkapan produksi suara pada piano konvensional terdapat palu pemukul (

Hammer ),tuts ( Keys ), senar piano ( Strings ). Secara garis besar terdiri atas tuts

ditekan oleh manusia, tuts ditekan menggerakan palu pemukul yang selanjutnya akan

memukul strings yang ada. Setiap tuts berbeda bunyinya.

Format file “.WAV” merupakan bagian dari spesifikasi RIFF milik Microsoft

yang digunakan untuk penyimpanan file-file mulitimedia. File wav dimulai dengan

bagian header dan diikuti oleh rentetan data chunk. File wav terdiri dari 3 bagian,

yaitu main chunk, format chunk, dan data chunk.

Sinyal suara yang direpresentasikan file WAV dalam bentuk discrete, berupa deret

bilangan yang merepresentasikan amplitude dalam domain waktu. Pada bagian file

header terdapat informasi tentang file WAV tersebut, diantaranya menyatakan nilai

sample rate, jumlah channel, dan bit per sample. Dari keterangan pada file header

tersebut dapat diketahui berapa sampel yang dicuplik dari sinyal analog tiap detik

Wilson (2003). Struktur WAV dapat dilihatp ada gambar 2.2 :

Sumber: Wilson(2003)

(24)

2.4 Mel Frequency Cepstrum Coefficient ( MFCC )

Mel Frequency Cepstrum Coefficient ( MFCC ) merupakan salah satu metode yang

banyak digunakan dalam bidang speech recognition. Metode ini digunakan untuk

melakukan feature extraction, sebuah proses yang mengkonversikan sinyal suara

menjadi beberapa parameter. Keunggulan dari metode ini adalah :

 Mampu menangkap karakteristik suara yang sangat penting bagi pengenalan suara atau dengan kata lain mampu menangkap informasi – informasi penting

yang terkandung dalam sinyal suara

 Menghasilkan data seminimal mungkin tanpa menghilangkan informasi – informasi penting yang ada.

 Mereplikasi organ pendengaran manusia dalam melakukan persepsi sinyal suara.

Perhitungan yang dilakukan dalam MFCC menggunakan dasar dasar perhitungan

short-term analysis. Hal ini dilakukan mengingat sinyal suara yang bersifat quasi

stationary. Pengujian yang dilakukan untuk periode waktu yang cukup pendek (sekitar

10 sampai 30 milidetik) akan menunjukkan karakteristik sinyal suara yang stationary.

Tetapi bila dilakukan dalam periode waktu yang lebih panjang, karakteristik sinyal

suara akan berubah sesuai dengan kata yang diucapkan.

MFCC feature extraction sebenarnya merupakan adaptasi dari sistem pendengaran

manusia, dimana sinyal suara akan di-filter secara linear untuk frekuensi rendah (

dibawah 1000Hz ) dan secara logaritmik untuk frekuensi tinggi ( diatas 1000Hz),

berikut blok diagram untuk MFCC Manunggal(2005).

2.4.1 DC- Removal

Remove DC Components bertujuan untuk menghitung rata-rata dari data sampel

suara, dan mengurangkan nilai setiap sampel suara dengan nilai rata-rata tersebut.

Tujuannya adalah mendapat normalisasi dari data suara input Putra(2011).

– ……..(1)

(25)

= sampel signal asli

= nilai rata-rata sampel signal asli = panjang signal

2.4.2 Pre – Emphasize Filtering

Pre – empahsize filtering merupakan salah satu jenis filter yang sering digunakan

sebelum sebuah signal diproses lebih lanjut, Filter ini mempertahankan frekuensi –

frekuensi tinggi pada sebuah spektrum, yang umumnya tereleminasi pada saat proses

produksi suara. Tujuan dari Pre – emphasize Filtering ini adlaah ( Manunggal , 2005)

a. Mengurangi noise ratio pada signal, sehingga dapat meningkatkan kualitas

signal

b. Menyeimbangkan spektrum dari voice sound.

Sumber : Manunggal, 2005

Gambar 2.3 Contoh dari Pre-Emphasize pada sebuah frame

Pada gambar diatas terlihat bahwa distribusi energi pada setiap frekuensi terlihat

lebih seimbang setelah diimplementasikan pre-emphasize filter. Bentuk yang paling

umum digunakan dalam pre-emphasize filter adalah sebagai berikut.

(26)

dimana :

= signal hasil pre-emphasize filter

= signal sebelum pre-emphasize filter

2.4.3 Frame Blocking

Karena sinyal suara terus mengalami perubahan akibat adanya pergeseran artikulasi

dari organ produksi suara, sinyal harus diproses secara short segments ( short frame ).

Panjang frame yang biasanya digunakan untuk pemrosesan sinyal adalah antara 10-30

milidetik. Panjang frame yang digunakan, sangat mempengaruhi keberhasilan dalam

analisa spektral, di satu sisi, ukuran frame harus diperpanjang sepanjang mungkin

untuk dapat menunjukkan resolusi frekuensi yang baik, tetapi dalam slain sisi, ukuran

frame juga harus cukup pendek untuk dapat menunjukkan resolusi waktu yang baik

Ridwan(2011).

Sumber : Ridwan(2011)

Gambar 2.4 Contoh Frame Blocking

Proses frame yang dilakukan terus sampai seluruh sinyal dapat terproses. Selain

(27)

Panjang daerah overlap yang umum digunakan adalah kurang lebih 30% sampai 50%

dari panjang frame.

2.4.4 Windowing

Proses framing dapat menyebabkan terjadinya kebocoran spektral ( Spectral leakage )

atau aliasing, aliasing adalah timbulnya sinyal baru dimana memiliki frekuensi yang

berbeda dengan sinyal aslinya. Efek ini dapat terjadi karena rendahnya jumlah

sampling rate, ataupun karena proses frame blocking dimana menyebablan sinyal

menjadi discontinue, Untuk mengurangi kemungkinan terjadinya kebocoran spektral

maka hasil dari proses framing harus melewati proses window.

Ada banyak fungsi window, w(n), seperti yang ditabel 2.1 sebuah fungsi window

yang baik harus menyempit pada bagian main lobe, dan melebar pada bagian side

lobe-nya.

Berikut ini adalah representasi fungsi window terhadap sinyal suara yang

di-inputkan.

………..(3)

=Nilai sampel sinyal

=Nilai sampel dari frame sinyal ke i =Fungsi window

=Frame size, merupakan kelipatan 2

Setiap fungsi windows mempunyai karakteristik masing-masing, diantara berbagai

fungsi window tersebut, Blackman windows menghasilkan sidelobe level yang paling

tinggi ( kurang dari -58 dB ). Tetapi fungsi ini juga menghasilkan noise paling besar (

kurang dari 1,73 BINS), Oleh karena itum fungsi ini jarang sekali digunakan baik

untuk speaker recognition maupun speech recognition.

Fungsi Rectangle window adalah fungsi window yang paling mudah untuk

diaplikasikan , Fungsi ini menghasilkan noise yang paling rendah yaitu sekitar 1.00

(28)

Sidelobe level yang rendah tersebut menyebabkan besarnya kebocoran spektral yang

terjadi dalam proses feature extraction.

Fungsi window yang paling sering digunakan dalam aplikasi speech recognition

adalah Hamming window. Fungsi window ini menghasilkan sidelobe level yang tidak

terlalu tinggi (kurang dari -43 dB), selain itu noise yang dihasilkan pun tidak terlalu

besar ( kurang lebih 1.36 BINS ) Darmawan (2011).

Tabel 2.1 Fungsi – fungsi window dan Formulanya

Nama

window

Sequence domain waktu

Rectangular 1

Bartlett

Hanning

Hamming

Blackman

Tukey

Sumber : Darmawan(2011)

2.4.5 Analisis Fourier

Analisis Fourier adalah sebuah bentuk yang memungkinkan untuk menganalisa

terhadap spectral propertis dari sinyal yang diinputkan. Representasi dari spectral

(29)

Dalam spectogram terhadap hubungan yang sangat erat antara waktu dan

frekuensi. Hubungan antara frekuensi dan waktu adalah hubungan berbanding

terbalik. Bila resolusi waktu yang digunakan tinggi. Maka resolusi frekuensi yang

digunakan akan semakin rendah. Kondisi seperti ini akan menghasilkan narrowband

spectogram, sedangkan wideband spectogram adalah kebalikan dari narrowband

spectogram

Sumber : Darmawan (2011)

Gambar 2.5 Contoh dari Spectogram

Inti dari transformasi fourier adalah menguraikan sinyal ke dalam komponen-

komponen bentuk sinus yang berbeda – beda frekuensinya. Gambar 2.11

menunjukkan tiga gelombang sinus dan superposisinya. Sinyal semula yang periodik

dapat diuraikan menjadi beberapa komponen bentuk sinus dengan frekuensi berbeda,

jika sinyal semula tidak periodik maka transformasi fourier-nya merupakan fungsi

frekuensi yang continue, artinya merupakan penjumlahan bentuk sinus dari segala

frekuensi, jadi dapat disimpulkan bahwa transformasi fourer merupakan representasi

domain frekuensi dari suatu sinyal. Representasi ini mengandung informasi yang tepat

(30)

Sumber : darmawan(2011)

Gambar 2.6 Tiga Gelombang Sinusoidal dan Superposisinya

a. Discrete Fourier Transform ( DFT )

DFT merupakan perluasan dari transformasi fourier yang berlaku untuk sinyal – sinyal

diskrit dengan panjang yang terhingga. Semua sinyal periodik terbentuk dari

gabungan sinyal – sinyal sinusoidal yang menjadi satu dalam perumusanya dapat

ditulis:

∑

………(4)

= Jumlah sampel yang akan diproses = Nilai Sampel sinyal

= Variabel frekuensi discrete, dimana akan bernilai

Dengan rumus diatasa. Suatu sinyal suara dalam domain waktu dapat kita cari

frekuensi pembentuknya. Hal inilah tujuan dari penggunaan analisa Fourer pada data

(31)

domain frekuensi, Untuk pemrosesan sinyal suara, hal ini sangatlah menguntungkan

karena data pada frekuensi dapat diproses dengan lebih mudah dibandingkan data

pada domain waktu, karena pada domain frekuensi, keras lemahnya suara tidak

seberapa berpengaruh.

Sumber : darmawan(2011)

Gambar 2.7 Domain waktu menjadi domain frekuensi

Untuk mendapatkan spektrum dari sebuah sinyal dengan DFT diperlukan N buah

sampel data berurutan pada domain waktu, yaitu data x[m] sampai dengan x[m+N-1].

Data tersebut dimasukkan dalam fungsi DFT maka akan menghasilkan N buah data,

Namun karena hasil DFT adalah simetris, maka hanya N/2 data yang diambil sebagai

spektrum Darmawan (2011).

2.4.6 Fast Fourier Transform

Perhitungan DFT secara langsung dalam komputerisasi dapat menyebabkan proses

perhitungan yang sangat lama. Hal itu disebabkan karena DFT, dibutuhkan N2

perkalian bilangan kompleks. Karena itu dibutuhkan cara lain untuk meghitung DFT

dengan cepat. Hal itu dilakukan dengan menggunakan algoritma Fast Fourier

Transform ( FFT ) dimana FFT menghilangkan proses perhitungan yang kembar

dalam DFT. Algoritma FFT hanya membutuhkan N log2 N perkalian kompleks.

(32)

(33)

Algoritma recombine (DFT) melakukan N perkalian kompleks, dan dengan

metode pembagian seperti ini. Maka terdapat log2(N) langkah perkalian kompleks.

Hal ini berarti jumlah perkalian kompleks berkurang dari N2 (pada DFT) menjadi N

log2(N).

Hasil dari proses FFT adalah simetris antara indek – dan Oleh karena itu , umumnya hanya blok pertama saja yang akan digunakan dalam proses-proses selanjutnya.

2.4.7 Mel Frequency Warping

Mel frequency Warping umumnya dilakukan dengan menggunakan filterbank.

Filterbank adalah salah satu bentuk dari filter yang dilakukan dengan tujuan untuk

mengetahui ukuran energi dari frequency band tertentu dalam sinyal suara. Filterbank

dapat diterapkan baik pada domain waktu maupun domain frekuensi, tetapi untuk

keperluan MFCC, filterbank harus diterapkan dalam domain frekuensi,

Filterbank menggunakan representasi konvolusi dalam melakukan filter terhadap

signal konvolusi dapat dilakukan dengan melakukan multiplikasi antara spektrum

signal dengan koefesien filterbank. Berikut ini adalah rumus yang digunakan dalam

perhitungan filterbanks.

∑ ………..(5)

= Jumlah magintude spectrum = Magnitude spectrum pada frekuensi

= koefesien filterbank pada frekuensi = Jumlah channel dalam filterbank

Persepsi manusia terhadap frekuensi dari signal suara tidak mengikuti linear scale

, frekuensi yang sebenarnya (dalam Hz) dalam sebuah signal akan diukur manusia

secara subyektif dengan menggunakan Mel scale, Mel frequency scale adalah linear

frekuensi scale pada frekuensi dibawah 1000 Hz, dan merupakan logarithmic scale

(34)

2.4.8 DCT

DCT merupakan langkah terakhir dari proses utama MFCC feature extraction.

Konsep dasar dari DCT adalah mendekorelasikan mel spectrum sehingga

menghasilkan representasi yang baik dari property spektral local. Pada dasarnya

konsep dari DCT sama dengan inverse fourier transform. Namun hasil dari DCT

mendekati PCA ( principle component analysis). PCA adalah metode static klasik

yang digunakan secara luas dalam analisa data dan kompresi. Hal inilah yang

menyebabkan seringkali DCT menggantikan inverse fourier transform dalam proses

MFCC Feature Extraction. Berikut adalah formula yang digunakan untuk menghitung

DCT.

∑ ………..(6) = Keluaran dari proses filterbank pada index K

= Jumlah koefesien yang diharapkan

Koefesien ke nol dari DCT pada umumnya akan dihilangkan, walaupun

sebenarnya mengindikasikan energi dari frame signal tersebut. Hal ini dilakukan

karena, berdasarkan penelitian – penelitian yang pernah dilakukan , koefesien ke nol

tidak reliable terhadap speaker recognition Putra(2011).

2.5 Jaringan Syaraf Tiruan

Semakin berkembangnya teknologi komputer menyebabkan pemanfaatan teknologi

jaringan syaraf untuk mempermudah manusia dalam memecahkan masalah tertentu

semakin banyak diterapkan. Tetapi banyak masalah yang kelihatan mudah bagi

manusia cukup sulit dilakukan oleh komputer, misalnya dalam pengenalan suatu tanda

tangan yang telah dikenal sebelumnya. Kemudahan yang dirasakan oleh manusia

tersebut disebabkan otak manusia memproses informasi yang didapat dengan

menggunakan elemen-elemen yang saling terkoneksi dalam suatu jaringan yang

disebut Neuron, sebaliknya jika masalah-masalah tersebut dipecahkan komputer,

maka menimbulkan berbagai kesulitan (marimin,2002)

Didasar pada kemudahan otak manusia melakukan hal-hal tersebut, para ahli

merancang suatu jaringan yang memiliki konsep menyerupai jaringan otak manusia

(35)

sehingga dapat berpikir dan mengambil keputusan seperti yang dilakukan oleh otak

manusia, jaringan tersebut disebut jaringan syaraf tiruan (JST).

2.5.1 Learning Vector Quantization (LVQ)

Menurut Jang, et al.(1997) LVQ merupakan metode klasifikasi data adaptif

berdasarkan pada data pelatihan dengan informasi kelas yang diinginkan. Walaupun

merupakan suatu metoda pelatihan supervised tetapi LVQ menggunakan teknik data

clustering unsupervised untuk praproses set data dan penentuan cluster centernya.

Arsitektur jaringan LVQ hampir menyerupai suatu jaringan pelatihan kompetitif

kecuali pada masing-masing unit outputnya yang dihubungkan dengan suatu kelas

tertentu.

Kusumadewi dan hartai (2006) menyatakan LVQ merupakan metoda untuk

melakukan pelatihan terhadap lapisan-lapisan kompetitif supervised. Lapisan

kompetitif akan belajar secara otomatis untuk melakukan klasifikasi terhadap vektor

input yang diberikan. Apabila beberapa vektor input memiliki jarak yang sangat

berdekatan, maka vektor-vektor input tersebut akan dikelompokkan dalam kelas yang

sama.

Sumber : Ridwan(2011)

Gambar 2.10 Arsitektur Jaringan LVQ

Jaringan LVQ terdiri atas 2 lapis yaitu lapis kompetitif dan lapis linear, Lapis

kompetitif disebut juga Self Organizing Map (SOM). Disebut lapis kompetitif karena

neuron – neuron berkompetisi dengan algoritma kompetisi yang akan menghasilkan

(36)

1. Nilai error yang lebih kecil dibandingkan jaringan syaraf tiruan seperti

backpropagation.

2. Dapat meringkas data set yang besar menjadi vektor codebook berukuran kecil

untuk klasifikasi.

3. Dimensi dalam codebook tidak dibatasi seperti dalam teknol nearest

neighbour.

4. Model yang dihasilkan dapat diperbaharui secara bertahap.

Kekurangan dari LVQ adalah :

1. Dibutuhkan perhitungan jarak untuk seluruh atribut.

2. Akurasi model dengan bergantung pada inisialisasi model serta parameter

yang digunakan (learning rate, iterasi dan sebagainya ).

3. akurasi juga dipengaruhi distribusi kelas pada data training.

4. _{sulit untuk menentukan jumlah codebook vektor untuk masalah yang} diberikan. Ridwan (2011).

2.6 Penelitian Terdahulu

Dibagian ini akan dijabarkan beberapa penelitian terdahulu. Saat ini sudah banyak

penelitian yang berbasis pengenalan suara. Untuk lebih jelasnya. Pada table 2.2

berikut ini akan dijelaskan penelitian – penelitian yang telah dibuat sebelumnya.

Tabel 2.2 Penelitian terdahulu 2. Pengenalan Chord pada alat musik gitar

(37)

No. Judul Tahun Keterangan

3. Verifikasi biometrika suara menggunakan metode MFCC dan DTW

2011 Penggunaan metode MFCC

untuk proses ekstarksi ciri dari sinyal wicara dan metode

DTW ( Dynamic Time Warping ) untuk proses

pencocokan.

4. Pengenalan Suara Alat Musik Dengan

Metode Jaringan Saraf Tiruan ( JST )

Learning Vector Quantization Melalui ekstraksi Koefisien Cepstral

2011 Pengenalan suara alat musik dengan menggunakan metode

ekstraksi ciri Koeffisien Cepstral dan metode pencocokan adalah Learning

(38)

BAB 3

ANALISIS DAN PERANCANGAN

Pada bab ini , akan dibahas beberapa hal diantaranya yaitu analisa, design, dan

implementasi metode MFCC untuk extraksi fitur dan LVQ dalam pengenalan suara

piano.

Pre-Emphasis

Frame Blocking

Windowing

Fast Fourier Transform

LVQ

DCT Filterbank / Mel

Frequency Warping

DC-Removal Input Suara

Hasil Partitur

M F C C

(39)

3.1 Analisis sinyal suara

Suara yang dihasilkan piano adalah sinyal analog dengan amplitudo yang berubah

secara kontinyu terhadap waktu. pada manusia frekuensi suara yang dihasilkan adalah

50 Hz – 10 KHz. Sedangkan pada suara alat musik memliki frekuensi 20 Hz – 20 Khz.

Suara yang berada pada range pendengaran manusia disebut Audio dan

gelombangnya sebagai accoustic signal sedangkan suara diluar range pendengaran

manusia dapat dikatan sebagai noise ( getaran yang tidak teratur dan tidak berurutan

dalam berbagai frekuensi, tidak dapat didengar manusia ).

agar sinyal suara yang kontinyu dapat diproses. Maka harus digunakan teknik

sampling. Teknik sampling adalah proses mengubah gelombang bunyi ke dalam

interval waktu tertentu sehingga menghasilkan representasi digital dari suara.

3.2 Analisis Ekstraksi Fitur SuaraMenggunakan MFCC

Dalam ekstraksi fitur. Suara yang telah ada akan dilakukan proses untuk mendapatkan

ciri khusus dari sebuah suara. Dengan megubah suara menjadi parameter parameter.

Parameter tersebut akan digunakan ke metode selanjutnya untuk dilakukan

pencocokan ciri khusus. Didalam MFCC. Dilakukan beberapa tahap, yaitu :

1. Input suara

2. DC-Removal

3. Pre – Emphasis

4. Frame blocking

5. Windowing

6. Fast Fourier Transform

7. Filter bank / Mel-Frequency Warping

8. DCT

3.2.1 Input Suara

(40)

dengan memasukkan suara keprogram untuk memasukkan suara. Kali ini akan

menggunakan nada DO sebagai bahan uji.

3.2.2 DC-Removal

Remove DC Components bertujuan untuk menghitung rata-rata dari data sampel

suara, dan mengurangkan nilai setiap sampel suara dengan nilai rata-rata tersebut.

Tujuannya adalah mendapat normalisasi dari data suara input.

START

AVG = Ratarata(sig

nal)

I = 0

Hasil (i) = signal (i) - AVG I < signal

length END

No

Yes

Gambar 3.2 Flowchart DC-Removal

Contoh data dengan banyak vektor 10 : -0.9,0.9,-0.9,0.6,-0.4,0.9,0.9,0.2,-0.2,0.6

Rumus DC-removal telah dijelaskan pada bab 2 rumus 1.

Jadi : π =

= 0.17

(41)

menghasilkan =

3.2.3 Pre-Emphasis

Langkah kedua adalah untuk memmpertahankan frekuensi – frekuensi tinggi pada

sebuah spektrum , yang umumnya tereleminasi pada saat proses produksi suara.

START

AVG = Ratarata(sig

nal)

I = 0

Hasil (i) = signal (i) + signal (i-1) *

alpha I < signal

length No

Yes

Gambar 3.3 Flowchart Pre-Emphasis Filter

Merujuk pada bab sebelumnya di rumus poin ke 2. Dengan α = -0.97 menggunakan contoh vektor

jadi : – –

(42)

– –

menghasilkan :

3.2.4 Frame Blocking

Setelah digunakan pre-emphasize filter untuk mempertahankan suara suara tinggi.

Digunakan Frame Blocking untuk memetakan data – data yang akan diambil. Signal

akan diproses secara Short Segment ( Short Frame ).

START

MEMBAGI SIGNAL

WS = Sampling rate / framerate

I = 0 to cols -1

a = i*ws +1 b = a + ws =1

Simpan Blok

END NO

YES

(43)

3.2.5 Windowing

Proses framing dapat menyebabkan terjadinya kebocoran spektral atau aliasing.

Aliasing adalah signal baru dimana memiliki frekuensi yang berbeda dengan signal

aslinya. Efek ini dapat terjadi karena rendahnya jumlah sampling rate,ataupun karena

proses frame blocking dimana menyebabkan signal menjadi discontinue. Maka pada

tahap ini dilakukan proses window pada frame – frame yang telah dihasilkan oleh

tahap sebelumnya. Hal ini bertujuan untuk meminimalkan diskontinuitas pada bagian

awal dan akhir sinyal . Model window yang digunakan pada sistem ini adalah haming

window

3.2.6 Analisis Fourier

Analisa berdasarkan fourier transform sama artinya dengan analisa spektrum, karena

fourier transform merubah signal digital dari time domain ke domain frekuensi. FFT

dilakukan dengan membagi N buah titik pada transformasi dikrit menjadi 2, masing –

masing ( N/2 ) titik transformasi. Proses memecah menjadi (N/4) dan seterusnya

sehingga diperoleh titik minimum.

FFT ( Fast Fourier Transform ) adalah teknik perhitungan cepat dari DFT. FFT

adalah DFT dengan teknik perhitungan yang cepat dengan memanfaatkan sifat

periodical dari transformasi fourier. FFT yang digunakan pada tahap ini adalah FFT

Cooley-Tukey.. adapun algoritma FFT Cooley-Tukey adalah :

∑

(44)

Procedure filterbank

{ menghitung nilai Mel Spectrum i.s : Sinyal FFT

f.s : Sinyal Hasil Filterbank } kamus

H: double I,N : integer Algoritma For I = 0 to n do

Begin

H[i] ← ( 2595 * log ( 1 + 1000/700 )) / ( X[i] / 2 );

S[1] ← H[i] * X[i];

3.2.7 Filter Bank

Magnitude hasil dari proses FFT selanjutnya akan melalui tahap filterbank

∑

Dimana : = Jumlah magnitude Spectrum

= Magitude spectrum pada frekuensi j

= Koefesien filterbank pada frekuensi = Jumlah channel dalam filterbank

Untuk mendapatkan Hi digunakan rumus :

Berikut ini adalah Algoritma untuk proses Filterbank

3.2.8 Discrete Cosine Transform ( DCT )

Hasil dari DCT ini adalah fitur – fitur yang dibutuhkan oleh penulis untuk melakukan

proses analisa terhadap pengenalan suara tersebut. Menggunakan rumus :

(45)

= Keluaran dari proses filterbank pada indeks k = jumlah koefesien yang diharapkan

Berikut ini adalah algoritma untuk proses DCT.

3.3 Pencocokan dengan metode Learning Vector Quantization ( LVQ )

LVQ merupakan salah satu jaringan saraf tiruan yang melakukan pemebelajaran

secara terawasi. LVQ mengklasifikasikan input secara berkelompok ke dalam kelas

yang sudah didefenisikan melalui jaringan yang telah dilatih. Dengan kata lain LVQ

mendapatkan n input dan mengkelompokkan ke dalam m output. Arsitektur jaringan

LVQ ini terdiri dari input, lapisan kohonen, dan lapisan output.

Pada proses pelatihan, LVQ menggunakan lapisan kohonen, dimana pada proses

pelatihan jaringan ini akan dibandingkan dengan nilai dari vektor yang dilatih dengan

semua elemen pemroses. Jarak terkecil antara vektor yang dilatih dengan elemen

pemroses akan menentukan kelas dari data yang dilatih.

3.3.2 Algoritma LVQ

Pada beberapa literature mungkin ditemui beberapa algoritma tentang LVQ yang

berbeda. Secara garis besar, algoritma LVQ adalah sebagai berikut. Procedure DCT ( k : integer, dct : float )

Kamus

K : integer Fbank : float ; Algoritma

For ( int n = 0 ; N <= k ; N++ ) Begin

Sum = 0.0;

Sum += fbank[k-1]*cos(n*(k-0,5) * ( PI/ Fiternum));

K+1;

(46)

1. Langkah pertama adalah menentukan masing masing kelas output,

menentukan bobot, dan menenetapkan learning rateα

2. Bandingkan masing – masing input dengan masing – masing output bobot

yang telah ditetapkan dengan melakukan pengukuran jarak antara masing –

masing bobot wodan input xp. persamaannya adalah sebagai berikut

–

3. Nilai minimum dari hasil perbandingan itu akan menentukan kelas dari vektor

input dan perubahan bobot dari kelas tersebut. Perubahan untuk bobot baru (

wo’ ) dapat dihitung dengan perasamaan berikut.

 Untuk input dan bobot yang memiliki kelas yang sama :

 Untuk input dan bobot yang memiliki kelas yang berbeda : –

Berikut contoh vektor fitur :

Nada yang akan diuji =

Nada latih =

=

Dengan Epoch = 5 , Learning Rate ( ) = 0.05 dan pengurangan Learning Rate (LR)

= 0.002. Proses pelatihan yang terjadi adalah sebagai berikut :

1. Proses Pelatihan

Data uji di hitung bobotnya dibandingkan dengan nada latih

yang ada.

(47)

=√

Bobot data latih kedua

√

Bobot data latih ketiga

=√

Jarak terpendek adalah pada data latih pertama, sehingga bobot ke -1 yang baru adalah

:

Iterasi 1:

– – ( – )

Didapatlah vektor baru w1

Pengurangan learning Rate

LR =

Iterasi 2 :

(48)

– –

( – )

– – ( – )

Didapat

Pengurangan learning Rate

LR =

Iterasi 3:

Didapat vektor sementara hasil iterasi kedua

– –

( – )

– –

( – )

Sehingga didapatlah hasil vektor yang baru

(49)

2. Proses Pengenalan

Pengenalan nada terhadapat bobot yang sudah didapat, dilakukan dengan mencari

jarak antara bobot nada uji dan nada acuan. Jarak bobot terpendek dengan nada acuan

merupakan kelas dari nada uji. Berikut merupakan satu nada untuk menguji metode

LVQ :

Dari nada uji tersebut, nilai fitur adalah Selanjutnya nilai

tersebut akan diproses dengan nada acuan untuk mencari jaraknya, seperti berikut :

Bobot data latih pertama

=√

Bobot data latih kedua

√

Bobot data latih ketiga

=√

Bobot terkecil terletak pada kelas data pertama. Maka nada uji merupakan kelas yang

sama dengan data latih pertama.

3.4 Database

Pada database applkasi ini teradapat 2 tabel, tabel pertama adalah tabel jenis nada

yaitu database untuk menyimpan jenis nada apa yang akan tersimpan kedalam

database. Dan satu tabel lagi adalah tabel vektor. Dimana tabel vektor berguna untuk

menyimpan data acuan yang akan digunakan untuk mencocokkan dengan data

(50)

Gambar 3.5 Database Aplikasi

3.5 Antarmuka Sistem

Interface ( antarmuka sistem ) diperlukan untuk mempermudah seorang user dalam

menggunakan atau mengakses sebuah applikasi. Antarmuka sistem merupakan sebuah

alur komunikasi anatar user dengan sistem

Dengan kata lain antarmuka sistem digunakan sebagai media antara user dan

komputer agar dapat berinteraksi satu sama lain. Sehingga user dapat lebih mudah

mengerti dan menggunakan sistem tersebut.

Disini akan dijabarkan tentang rancangan halaman dan menu sistem yang akan

dibuat. Berikut adalah gambar rancangan dasar antarmuka dari aplikasi :

1. Rancangan Halaman Awal ( Home )

Rancanngan awal berisi tombol input dari lagu yang ingin masukkan. Partitur

gambar jadi yang akan dihasilkan dari pengenalan suara. Terdapat juga tombol

(51)

(52)

3. Rancangan halaman pelatihan

(53)

BAB 4

IMPLEMENTASI DAN PENGUJIAN SISTEM

Pada bab ini akan dijelaskan implementasi ekstraksi ciri MFCC dan metode LVQ

pada sistem sesuai dengan perancangan sistem yang telah dijabarkan pada bab 3.

Kemudian dilakukannya pengujian pada sistem yang telah dibangun.

4.1 Implementasi Sistem

Implementasi sistem adalah prosedur yang dilakukan untuk menyelesaikan desain

sistem yang telah dibuat untuk memenuhi syarat yang telah dirancang.. komponen

yang dibutuhkan dalam implementasi sistem adalah :

a. Hardware ( Perangkat keras )

Hardware adalah komponen komponen / peralatan yang merupakan dasar dari

sebuah sistem komputer dalam menjalankan sistem. Adapun hardware

yang digunakan:

1. Processor Intel Core 2 Duo `2.7 Ghz.

2. 2 GB RAM DDR3 ( Memory )

3. Mouse

4. Keyboard

5. Hard Disk 320 GB

b. Software ( Perangkat Lunak )

Software adalah sekumpulan instruksi yang telah diprogram yang digunakan

untuk Memproses, mengendalikan dan mengkoordinasikan kerja pada elemen – elemen Perangkat keras komputer didalam sebuah sistem informasi. Adapun software yang digunakan adalah :

1. Operating Sistem Windows 7 Ultimate

(54)

3. MySql Versi 5.1.30

4.2 Skenario Uji Coba Sistem

Pada sub-bab skenario uji coba ini akan dilakukan pengujian berdasarkan 2 langkah

penggunaan sistem. Langkah pertama adalah langkah pelatihan nada. Dan langkah

kedua adalah pengenalan nada.

4.2.1 tampilan awal applikasi

Gambar 4.1 Tampilan awal applikasi

Pada tampilan awal tersebut. disediakan tiga buah tombol. yang pertama adalah

tombol pengenalan. Kedua adalah tombol menu admin. Yaitu menu untuk melakukan

pelatihan. Yang ketiga adalah tombol tentang. Yang berisi perancang sistem

(55)

Gambar 4.2 Tampilan Menu Pengenalan

Pada menu pengenalan. Disediakan tombol untuk pilih file yang akan menginput file dengan filter format “.WAV”. apabila file telah diinput dan di pilih tombol kenali. Maka not yang ada didalam file akan dikenali dan ditulis satu persatu di text box jenis

not. Dan ada 2 opsi untuk menampilkan spectogram. Yaitu tamplan spectogram suara

input. Dan tampilan spectogram suara hasil potong . dimana suara hasil potong adalah

(56)

Gambar 4.3 Tampilan menu pengenalan

Pada tampilan form diatas. Setelah nada diinput, maka tombol kenali ditekan. Dalam proses penampilan partiturnya. Jenis not akan ditampilkan satu persatu kedalam form. Yang merupakan not dari musik yang diinput terlebih dahulu

Gambar 4.4 Tampilan Spectogram untuk suara input

(57)

potong. Pada spectogram tersebut terlihat bagian dari lagu yang mana yang akan diproses untuk diambil ekstraksinya.

Gambar 4.5 Tampilan spectogram suara potong

Setelah dilakukan perkenalan. Maka hasil akhir dari pengenalan adalah gambar

(58)

Gambar 4.6 Partitur hasil not

4.2.3Tampilan menu admin

(59)

Gambar 4.7 Tampilan menu admin

Pada menu admin terdapat 2 cara dalam menyimpan data acuan. Yang pertama adalah

dengan menggunakan MFCC saja langsung diproses dan disimpan ke database.

Atapun menggunakan LVQ dalam memproses data acuannya. Hal ini dimaksudkan

agar range data acuan lebar. Sehingga dapat menggenali suara not yang akan dikenal.

4.2.4 Tampilan Tentang

Berisi nama dan nim dari pembuat applikasi

Gambar 4.8 Tampilan menu tentang

(60)

Pengujian sistem penting dilakukan untuk menguhu dan memastikan bahwa hal – hal

yang terdapat didalam sistem telah sesuai dengan apa yang ingin diselesaikan.

Metode pengujian yang diterapkan pada penelitian ini adalah metode ekstraksi ciri

Mel-Frequency Cepstrum Coefficient Dengan metode pencocokannya adalah metode

Learning Vector Quantization

4.3.1 Rencana Pengujian Sistem

Rancangan pengujian sistem yang akan diuji dengan metode pengujian black box

dapat dilihat pada tabel 4.1 berikut.

Tabel 4.1 Rencana Pengujian Sistem

No. Komponen sistem yang diuji Butir Uji

1. Halaman Awal Mencoba semua menu

2. Halaman pengenalan Tombol Pilih data

Tombol mainkan data

Tombol Tampilkan

Spectogram

Tombol tampilkan

spectogram data uji

Tombol Buka Gambar

3. Halaman Pilih File Memilih file yang akan

diuji dengan format “.Wav’

4. Halaman Menu Admin Tombol Pilih File

Tabel Isi database

Tombol Pelatihan data

(61)

Tabel 4.1 Rencana Pengujian Sistem

4.3.2 Kasus dan hasil Pengujian Sistem

4.3.2.1 Pengujian Input data

1. Input data acuan

Pada tabel 4.2 Berikut ini akan dilakukan pengujian sistem untuk input data acuan .

input data acuan dilakukan oleh admin yang akan mengisi data acuan.:

Tabel 4.2 Pengujian sistem ( input data acuan )

No. Skenario Uji Hasil yang diharapkan Hasil pengujian

Tabel 4.2 Pengujian sistem ( input data acuan ) ( lanjutan )

No. Skenario Uji Hasil yang diharapkan Hasil Pengujian

Pada tabel 4.4. Dilakukan pengujian sistem untuk pengenalan suara. Pengenalan suara

dilakukan oleh user. Data yang diinput berupa file musik yang akan dirubah menjadi

partitur.

5. Halaman Tentang Menampilan data pembuat

(62)

Tabel 4.3 Pengujian Sistem ( Pengenalan Data )

No. Skenario Uji Hasil yang diharapkan Hasil pengujian

3. Memilih tombol kenali Sistem akan mengenali data yang dipilih dan mencocokannya

Berisi file partitur berupa images Berhasil

4.3.3 Pengujian kinerja Sistem

Pengujian kinerja sistem dilakukan dengan memasukkan sampel data sebanyak 4 buah

lagu. Beriut adalah sampel data pengujian data :

Tabel 4.4 Sampel data pengujian sistem

No. Nama lagu Banyak not Format

1. Balonku. 57 .wav

2. Cicak 27 .wav

3. Kartini 23 .wav

4. Doremi 3 .wav

Pengujian sistem ini dilakukan agar penulis dapat mengetahui akurasi dari sistem yang

telah dibangun. Adapun langkah – langkahnya adalah :

1. User mengisi data acuang dari nada yang akan digunakan untuk melakukan

pengenalan kedalam sistem

2. User memilih lagu apa yang akan dikenalkan ke dalam sistem

(63)

Pelatihan sistem dilakukan dengan memasukkan 20 data latih nada mayor dengan

epoch 5, Learning Rate = 0.02 dan pengurangan Learning Rate = 0.00005. Semakin

rendah nilai Learning Rate maka persentase pengenalan makin lebih besar.

Pengujian yang dilakukan selanjutnya adalah pengujian terhadap data unuk

mengetahui running time dari sistem yang telah dibuat. Tabel 4.6. Berikut adalah hasil

pengujian running time terhadap 4 data pada sampel data

Tabel 4.5 Processing time

Dengan menganalisa data dari tabel diatas. Maka dapat ditarik kesimpulan bahwa

proses dalam sistem rata – rata mengkonsumsi waktu sekitar 10 detik untuk mengolah

data sebanyak 25 not.

Pengujian selanjutnya dilakukan pengujian untuk menguji ketepatan sistem apabila

(64)

4. Cicak – Cicak 27 Lambat 27 27 100%

5. Cicak – Cicak 27 Sedang 25 5 20%

6. Cicak – Cicak 27 Cepat 17 0 0%

7. Balonku 57 Lambat 57 57 100%

8. Balonku 57 Sedang 52 3 5%

9. Balonku 57 Cepat 36 0 0%

Total persentase kecocokan didapat dengan

% pengenalan =

Persentase diatas didapat bahwa tempo yang lambat merupakan tempo yang paling

pas untuk digunakan dalam aplikasi ini. Hal ini terjadi karena terjadi pemotongan

suara yang tidak tepat apabila tempo yang digunakan menjadi sedang dan cepat.

(65)

BAB 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan pembahasan implementasi dan pengujian yang telah dilakukan maka dapat

diperoleh beberapa kesimpulan :

1. Semakin rendah nilai Learning Rate pada LVQ maka persentase pengenalan makin

lebih besar.

2. Pemotongan nada untuk pemprosesan nada yang masi statis. Sehingga pemotongan

nada yang berdekatan menjadi tidak tepat.

3. Nilai Learning Rate yang paling optimal pada masalah ini yaitu 0.02.

4. Penggunaan metode Mel-Frequency Cepstrum Coefficient ( MFCC ) dengan metode

pencocokan Learning Vector Quantization ( LVQ ) dapat diimplementasikan pada

aplikasi pengenalan nada suara piano untuk dibuat menjadi partitur.

5. Dengan adanya aplikasi, maka user dapat membuat partitur tanpa harus menulisnya

satu persatu apa nada yang dimainkan, sehingga lebih mudah dalam pembuatan

(66)

5.2 Saran

Sistem ini dirancang dan dibangun berdasarkan ide dan alur pemikiran dari penulis, maka

untuk menghasilkan sistem yang lebih baik dan maksimal diperlukan saran dari pihak

manapun untuk melengkapi kekurangan yang ada pada sistem ini. Saran dari penulis

yaitu:

1. Sistem ini dapat dikembangkan untuk menambah tempo pada lagu. Sehingga

pemotongan nada suara pada data uji dapat dikenalkan berapa lama tempo yang lagi

dimainkan.

2. Sistem ini dapat dikembangkan untuk menambah data acuan yang lebih kompleks

lagi. Tidak Cuma nada dasar saja yang menjadi data acuan.

3. Sistem ini juga dapat dilakukan dengan metode dan algoritma pada sistem

(67)

DAFTAR PUSTAKA

Andriana, A.D dan Irfan Maliki., 2011. Perangkat lunak untuk membuka applikasi pada

komputer dengan perintah suara menggunakan metode Mel Frequency Coefficient (

MFCC ). Skripsi. Universitas Komputer indonesia.

Ayunisa, Y. Dian,. 2012. Perancangan Sistem pengenalan suara untuk pengamanan dan

pemantauan fasilitas PLTA. Skripsi. Institut Teknologi Surabaya.

Darmawan, Yudi. 2011. Speech recognition Menggunakan Metode Mel-Frequency Cepstrum

Coefficient dan Algoritma Dynamic Time Warping. Skripsi. Universitas Sumatera

Utara.

DePorter B. et. Al. 2000. Quantum Teaching : Mempraktikkan Quantum Learning Di Ruang-

Ruang Kelas. Kaifa. Bandung.

Gardner. H. 1999. Intelegence Reframed: Multiple Intelligence for 21st Century. New York:

Basic Books.

Lestary, J. 2009. Aplikasi Pengenalan Ucapan Kata Bahasa Inggris Menggunakan Linear

Predictive Coding ( LPC ) dan Hidden Markov Model ( HMM ). Tesis. Universitas

Gunadharma.

Manunggal, H.S. 2005. Perancangan Dan Pembuatan Perangkat Lunak Pengenalan Suara

Pembicara dengan Menggunakan Analisa MFCC Feature Extraction. Skripsi.

Surabaya. Universitas Kristen Petra.

Masitah. 2008. Tingkat Pemrosesan Informasi pada mahasiswa yang memiliki kebiasaan

mendengarkan musik rap. Skripsi. Universitas Sumatera Utara.

Munandar, S.C.U. 2009. Pengembangan Kreativitas Anak Berbakat. Jakarta: PT Rineka

Cipta dan Dep. Pendidikan dan Kebudayaan.

Mustofa, Ali. 2007. Sistem Pengenalan Penutur Dengan Metode Mel-Frequency Wrapping.