IMPLEMENTASI ALGORITMA MEL-FREQUENCY CEPSTRAL COEFFICIENTS – VECTOR QUANTIZATION (MFCC-VQ)
UNTUK DETEKSI SUARA BURUNG PEMAKAN PADI DI SAWAH
SKRIPSI
TRI RAMADHANI 131402052
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN
2018
IMPLEMENTASI ALGORITMA MEL-FREQUENCY CEPSTRAL COEFFICIENTS – VECTOR QUANTIZATION (MFCC-VQ) UNTUK DETEKSI SUARA
BURUNG PEMAKAN PADI DI SAWAH SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
TRI RAMADHANI 131402052
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2018
i
PERSETUJUAN
Judul : IMPLEMENTASI ALGORITMA MEL-FREQUENCY
CEPSTRAL COEFFICIENTS – VECTOR
QUANTIZATION (MFCC-VQ) UNTUK DETEKSI SUARA BURUNG PEMAKAN PADI DI SAWAH
Kategori : SKRIPSI
Nama : TRI RAMADHANI
Nomor Induk Mahasiswa : 131402052
Program Studi : S1 TEKNOLOGI INFORMASI
Departemen : TEKNOLOGI INFORMASI
Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI KomisiPembimbing :
Pembimbing 2 Pembimbing 1
Prof. Dr. OpimSalimSitompul RomiFadillahRahmat, B.Comp.Sc, M.Sc NIP. 196108171987011001 NIP. 19860303 201012 1 004
Diketahui/disetujuioleh
Program Studi S1 TeknologiInformasi Ketua,
RomiFadillahRahmat, B.Comp.Sc, M.Sc NIP. 19860303 201012 1 004
PERNYATAAN
IMPLEMENTASI ALGORITMA MEL-FREQUENCY CEPSTRAL COEFFICIENTS – VECTOR QUANTIZATION (MFCC-VQ)
UNTUK DETEKSI SUARA BURUNG PEMAKAN PADI DI SAWAH
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya sayasendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 2018
Tri Ramadhani 131402052
iii
UCAPAN TERIMA KASIH
Alhamdulillah, segala puji dan syukur penulis panjatkan atas kehadirat Allah SWT beserta Nabi besar Muhammad SAW yang telah memberikan rahmat serta hidayahNya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Program Studi S-1 Teknologi Informasi Universitas Sumatera Utara, Ucara terima kasih yang sebesar-besarnya penulis sampaikan kepada:
1. Kedua orang tua penulis, orang yang paling berharga dalam hidup penulis, ayahanda Samirin dan ibunda Sri Sulawati yang telah membesarkan, mendidik, memberi dukungan, doa dan motivasi tanpa henti. Serta kepada kakak penulis Utami Ulandari yang selalu memberikan semangat penulis.
2. Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc selaku pembimbing pertama dan Bapak Prof. Dr. Opim Salim Sitompul selaku pembimbing kedua, yang telah banyak meluangkan waktunya dan memberikan masukan- masukan yang bermanfaat bagi penulis dalam menyelesaikan skripsi ini.
3. Bapak Dedy Arisandi, ST.,M.Kom dan Bapak Ivan Jaya, S.Si.,M.Kom yang telah bersedia menjadi dosen pembanding dan memberikan saran yang baik bagi penulis dalam menyelesaikan skripsi ini.
4.Terima kasih juga penulis ucapkan kepada teman-teman yang telah memberikan dukungan dan bantuan selama masa perkuliahan ini, kepada temen- temen di grup pondasi bangsa (una, dini, rahmi, zazha, sari, bambang arif, calon wisudawati (melur, jijah, rika, amy) makasih buat bang maliki, bang surya, inu, rahmi samudra, sandy, melly, ita, dea, ibu penjaga sawah. serta temen-temen diseluruh Teknologi Informasi lainnya yang namanya tidak dapat disebutkan satu persatu. Sekali lagi penulis mengucapkan terima kasih yang sebesar-besarnya kepada semua pihak yang membantu dalam penyelesaian tugas akhir ini yang tidak dapat disebutkan. Terima kasih atas masukan, saran, dan motivasi yang diberikan. Semoga Allah SWT membalas dengan nikmat yang berlimpah.
ABSTRAK
Kerugian yang dialami petani akibat serangan burung bisa mencampai 15 – 50 persen. Untuk mengatasi masalah tersebut petani menggunakan alat pengusir hama padi konvensional dan masih dilakukan secara manual yang sangat tidak efisien. Oleh karena itu, penelitian ini dilakukan untuk mengembangkan aplikasi pendeteksi suara burung pemakan padi. Aplikasi ini dapat secara otomatis mendeteksi suara burung disawah yang sedang memakan padi yang bertujuan untuk memudahkan petani dalam mengawasi dan mengusir keberadaan burung pemakan padi di sawah agar mengurangi kerugian saat panen. Metode pengenalan suara burung dengan menerapkan algoritma Mel Frequency Cepstral Coefficients-Vector Quantization (MFCC-VQ). Sinyal suara yang ditangkap melalui microphone akan diekstraksi cirinya menggunakan algoritma Mel Frequency Cepstral Coefficients (MFCC).
Sinyal suara yang sudah diekstraksi kemudian diidentifikasi apakah suara tersebut suara burung atau bukan menggunakan algoritma Vector Quantization (VQ). Hasil identifikasi kemudian akan mengeluarkan ouput berupa suara tembakan sebagai tindakan untuk mengusir dan menakut-nakuti burung agar pergi dari sawah. Hasil dari penelitian ini berupa kesimpulan bahwa suara burung banyak atau tidaknya terdeteksi tergantung waktu datangnya burung disawah misalnya pada saat pagi, siang maupun sore hari. Dan juga semakin jauh jarak microphone dari sumber suara, semakin kecil intensitas suaranya dan semakin berisik keadaan lingkungan pada proses pendeteksian maka persentase akurasi yang dihasilkan semakin kecil.
Keywords: Voice Recognition, Mel Frequency Cepstral Coefficients, Vector Quantization, Pengenalan Suara Burung
v
BIRD SOUND DETECTION ON TANAMAN PADI USING MEL-FREQUENCY CEPSTRAL COEFFICIENTS – VECTOR QUANTIZATION (MFCC-VQ) ALGORITHM
ABSTRACT
Due to bird strikes farmers can lose around 15 to 50 percent of the harvested rice. To overcome this problem farmers only use conventional rice pest repellents and done it manually which is very inefficient. Therefore, this research was conducted to develop the application of rice-pruning sound detector. This application can automatically detect the sound of birds in the rice field when eating rice to facilitate farmers in the process of controlling the number of rice-eating birds to reduce losses during harvest. Bird recognition method by applying the Mel FrequencyCepstral Coefficients-Vector Quantization (MFCC- VQ) algorithm. Voice signals captured via microphone will be extracted using the Mel Frequency Cepstral Coefficients (MFCC) algorithm. The extracted sound signal is then identified whether the sound is a bird or not by using the Vector Quantization (VQ) algorithm. The result of the identification is theoutput in the form of gunshot sound as an action to repel and scare the bird away from the fields. The result of this research is the conclusion that the furtherthe distance of microphone from the sound source, the less the noise intensity and the less noise the environmental condition in the detection process, the lower the accuracy percentage, with the highest accuracy is 99% at the distance <1 m.
Keywords: Voice Recognition, Mel Frequency Cepstral Coefficients, Vector Quantization, Bird Sound Recognition.
DAFTAR ISI
Hal.
PERSETUJUAN i
PERNYATAAN ii
UCAPAN TERIMA KASIH iii
ABSTRAK iv
ABSTRACT v
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR GAMBAR ix
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Batasan Masalah 3
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 3
1.6. Metodologi Penelitian 3
1.7. Sistematika Penulisan 5
BAB 2 LANDASAN TEORI 6
2.1. Padi 6
2.2. Burung Pipit 6
2.3. Voice Recognition 7
2.4. Mel-Frequency Cepstral Coefficients (MFCC) 8
2.4.1. Pre-processing 8
2.4.2. Frame Blocking 9
2.4.3. Windowing 9
2.4.4. Fast Fourier Transform (FFT) 9
2.4.5. Mel-filtering 10
2.4.6. Discrete Cousine Transform (DCT) 12
2.5. Vector Quantization (VQ) 13
2.6. Penelitian Terdahulu 15
vii
BAB 3 ANALISIS DAN PERANCANGAN SISTEM 18
3.1. Data Acquisition (Pengumpulan data) 18
3.2. Analisis Sistem 18
3.2.1. Arsitektur Umum 19
3.2.2. Sampling 20
3.2.3. Pre-processing 20
3.2.4. Frame Blocking 21
3.2.5. Windowing 22
3.2.6. Fast Fourier Transform (FFT) 23
3.2.7. Mel-filtering 24
3.2.8. Discrete Cousine Transform (DCT) 24
3.2.9. Feature Training 24
3.2.10. Matching 25
3.2.11. Konversi Hasil Klasifikasi 26
3.3 Perancangan Sistem 27
3.3.1. Perancangan sistem bagian belakang (back-end) 27 3.3.2. Perancangan sistem bagian depan (front-end) 28
BAB 4 IMPLEMENTASI DAN PENGUJIAN 29
4.1. Implementasi Sistem 29
4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 29
4.1.2. Implementasi Perancangan Antarmuka 30
4.2. Pengujian Sistem 31
4.2.1. Proses Pengujian Sistem 31
4.2.2. Hasil Pengujian Sistem 35
4.2.3. Analisis Hasil Pengujian Sistem 36
BAB 5 KESIMPULAN DAN SARAN 40
5.1. Kesimpulan 40
5.2. Saran 41
DAFTAR PUSTAKA 42
DAFTAR TABEL
Tabel 2.1. Penelitian Terdahulu 15
Tabel 4.1. Hasil Pengujian pada Tanggal 22 Januari 2018 35 Tabel 4.2. Hasil Pengujian Performa Pagi Tanggal 22 Januari 2018 36 Tabel 4.4. Hasil Pengujian Performa Sore Tanggal 22 Januari 2018 36
ix
DAFTAR GAMBAR
Gambar 2.2. Tanaman Padi 6
Gambar 2.3. Burung Pipit Disawah 6
Gambar 3.1. Arsitektur Umum 19
Gambar 3.2. Activty Diagram Sistem Pendeteksian Suara Burung 27 Gambar 3.3. Rancangan Sistem Bagian Depan Aplikasi Desktop 28
Gambar 4.1. Tampilan Antarmuka Aplikasi Desktop 30
Gambar 4.2. Lokasi Pengujian 31
Gambar 4.3. Perangkat Keras Untuk Proses Pengujian 33
Gambar 4.4. Tampilan Aplikasi Desktop Berhasil Mendeteksi Suara Burung 34 Gambar 4.5. Tampilan Aplikasi DesktopMendeteksi Suara Bukan Burung 34 Gambar 4.6. Grafik Akurasi Pendeteksian pada Frekuensi Tertentu 37 Gambar 4.7. Grafik Perbandingan Persentase Kemampuan Spesifisitas, 38 Sensitivitas dan Akurasi Algoritma
Gambar 4.7. Grafik Hasil Pengujian Real Time Factor (RTF) 39
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Sebagian besar lahan pertanian Indonesia di isi dengan lahan persawahan karena bahan utama makanan pokok masyarakat Indonesia adalah beras. Namun, saat ini produksi beras di Indonesia telah menurun (Firdaus 2015). Banyaknya hama padi menjadi salah satu masalah utama. Salah satu hama tanaman padi yang sangat menyulitkan petani adalah serangan burung pada masa padi mulai menjelang panen.
Jumlahnya bisa mencapai ribuan ekor dan menghabiskan bulir padi yang siap panen dalam waktu singkat. Banyak petani yang gagal panen atau mengalami kerugian besar saat panen. Kerugian yang dialami petani akibat serangan burung bisa mencampai 15 –50 persen (Husain et al. 2010). Berbagai cara dilakukan petani untuk bisa melawan burung. Pengendalian bisa bersifat mekanis dengan menggunakan alat-alat yang bisa mengusir burung atau secara biologis dengan menggunakan bahan-bahan tumbuhan atau buah-buahan yang berbau. Salah satunya cara petani adalah dengan membunyikan suara pengganggu dan memasang orang-orangan sawah. Kelemahan dari metode pengusiran burung ini adalah petani harus selalu siap mengawasi sekeliling sawah untuk melihat ada tidaknya burung dan juga metode ini tidak mampu berjalan selama 24 jam sehingga metode pengusiran ini kurang efisien. Oleh karena itu diperlukan sebuah aplikasi pendeteksi suara yang dapat dapat membantu petani tanggap dalam menangani dan mengusir burung secara efisien.
Pada aplikasi ini digunakan pendekatan teknologi dengan metode pengenalan suara burung yang menerapkan algoritma Mel Frequency Cepstral Coefficients- Vector Quantization (MFCC-VQ). Suara burung pipit dijadikan parameter keberadaan burung di sawah. Algoritma MFCC-VQ terdiri dari dua algoritma yang berbeda fungsi. MFCC befungsi untuk mengekstrak fitur sinyal suara. Sementara VQ berfungsi untuk mengklasifikasi sinyal suara tersebut. MFCC dipilih untuk mengekstrak fitur sinyal suara karena algoritma ini tidak terlalu rumit untuk
2
diimplementasikan dan yang paling efektif dalam mengekstrak fitur sinyal suara yang bervariasi dan dalam keadaan yang bervariasi juga (Dhingra, et. al., 2013). Namun, MFCC memiliki waktu komputasi yang tinggi untuk mengekstrak fitur sinyal suara dalam keadaan real-time (Goh & Leon, 2009). Oleh karena itu dibutuhkan peran algoritma VQ untuk mempercepat waktu pemrosesan yang sudah banyak diambil oleh MFCC dengan mengurangi ukuran fitur sinyal suara dan melakukan klasifikasi terhadap fitur sinyal suara yang sudah berkurang (Chang & Wu, 2007).
Beberapa penelitian terdahulu tentang identifikasi suara antara lain yaitu Pendeteksian Suara Katak Pada Pengendalian Populasi Katak Sebagai Hama Menggunakan Algoritma MFCC-VQ dengan tingkat akurasi mencapai 99.6% (Ilman, K.M., 2017). Pengidentifikasian jenis tajwid qalqalah berdasarkan suara bacaan Al- Quran menggunakan algoritma MFCC-VQ dengan tingkat akurasi keberhasilan sebesar 94.5% (Ismail, et. al., 2014), Pengidentifikasian jenis burung berdasarkan suaranya menggunakan algoritma MFCC dengan tingkat akurasi keberhasilan sebesar 97,8% (Astuti, et. al., 2011), pengklasifikasian hewan nocturnal berdasarkan suara dengan menggunakan algoritma MFCC dengan tingkat keberhasilam 92% (Chen, et.
al., 2011).
Penulis mengajukan proposal penelitian dengan judul “IMPLEMENTASI ALGORITMA MEL FREQUENCY CEPSTRAL COEFFICIENTS – VECTOR QUANTIZATION (MFCC-VQ) UNTUK DETEKSI SUARA BURUNG PEMAKAN PADI DI SAWAH)” berdasarkan latar belakang tersebut. Penelitian ini diharapkan mampu membuat petani selalu bisa mengawasi dan mengusir keberadaan burung yang ada di sawahnya dengan cara yang lebih efisien.
1.2. Rumusan Masalah
Keberadaan burung di sawah tidak dapat selamanya selalu diawasi oleh petani. Sawah yang tidak terawasi membuat burung dengan bebas memakan bulir padi yang sangat merugikan petani. Oleh karena itu, diperlukan suatu pendekatan teknologi untuk mendeteksi keberadaan burung agar dapat membantu para petani dalam mengawasi dan mendeteksi keberadaan burung disawah secara lebih mudah.
1.3. Batasan Masalah
Penelitian ini memiliki batasan-batasan atau ruang lingkup permasalahan yang akan diteliti. Batasan-batasan yang dimaksud adalah:
1. Output dari penelitian ialah ketika suara burung terdeteksi maka aplikasi akan langsung mengeluarkan suara pengusir burung berupa tembakan ataupun suara berisik seperti kaleng untuk mengusir keberadaan burung di sawah melalui aplikasi pemrosesan suara burung tersebut.
2. Hanya melakukan pendeteksian suara burung, suara selain dari suara burung akan menghasilkan output berupa bukan suara burung (environment).
1.4. Tujuan Penelitian
Tujuan dari penelitian ini adalah mendeteksi suara burung pemakan padi di sawah menggunakan algoritma Mel Frequency Cepstral Coefficient-Vector Quantization (MFCC-VQ) untuk membantu petani dalam pengawasan sawah..
1.5. Manfaat Penelitian
Manfaat yang didapat dari penelitian ini adalah:
1. Menerapkan pendekatan teknologi dalam mengatasi permasalahan- permasalahan yang ada pada bidang pertanian.
2. Bahan pembelajaran dan referensi untuk penelitian-penelitian lain yang membahas tentang pemrosesan suara hewan.
3. Sarana untuk menerapkan ilmu pengetahuan yang diperoleh penulis selama menjalani perkuliahan.
1.6. Metodologi Penelitian
Tahapan-tahapan yang dilakukan selama penelitian adalah sebagai berikut:
1. Studi Literatur
Studi literatur merupakan tahapan pengumpulan referensi yang dijadikan acuan mengenai burung pipit, voice recognition, algoritma Mel-frequency Cepstral Coefficients (MFCC), algoritma Vector Quantization (VQ) dari beberapa buku, jurnal, artikel dan beberapa sumber referensi lainnya.
4
2. Analisis Permasalahan
Tahapan ini menganalisa seluruh referensi yang sudah dikumpulkan pada tahapan sebelumnya mengenai metode-metode yang diterapkan di dalam sistem yaitu algoritma Mel-frequency Cepstral Coefficients (MFCC), algoritma Vector Quantization (VQ) dan pengimplementasiannya pada sistem pendeteksian suara burung. Tahapan ini juga menganalisa permasalahan yang mungkin muncul pada sistem pendeteksian suara burung pada penelitan ini.
3. Perancangan
Tahapan ini melakukan perancangan terhadap sistem bagian belakang (back-end) dan perancangan sistem antar muka (front-end). Proses perancangan berdasarkan hasil analisis dan studi literatur yang didapatkan pada tahapan sebelumnya.
4. Implementasi
Tahapan ini mengimplementasikan perancangan sistem yang dihasilkan pada tahapan sebelumnya menjadi kode-kode tersusun sehingga tercipta sistem yang sesuai dengan tujuan penelitian berdasarkan studi literatur dan analisis permasalahan.
5. Pengujian
Tahapan ini melakukan pengujian terhadap sistem yang sudah dibangun pada tahapan sebelumnya untuk memastikan sistem ini mampu melakukan pendeteksian terhadap suara burung sesuai dengan tujuan penelitian.
6. Dokumentasi dan Penyusunan Laporan
Tahapan ini melakukan pendokumetasian dan penyusunan laporan hasil analisis, pengujian dan implementasi algoritma Mel-frequency Cepstral Coefficients- Vector Quantization (MFCC-VQ) dalam melakukan pendeteksian suara burung.
1.7. Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut:
Bab 1: Pendahuluan
Bab ini berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, serta sistematika penulisan.
Bab 2: Landasan Teori
Bab ini berisi teori-teori yang diperlukan untuk menganalisa permasalahan- permasalahan yang ada pada penelitain ini. Teori-teori yang berhubungan dengan burung disawah, voice recognition, algoritma Mel-frequency Cepstral Coefficients (MFCC), algoritma Vector Quantization (VQ) akan dibahas pada bab ini.
Bab 3: Analisis dan Perancangan
Bab ini akan menjabarkan keseluruhan pemrosesan pendeteksian suara burung yang dilakukan pada penelitian ini yang meliputi langkah pengumpulan data (data acquisition), analisa dan proses ekstraksi fitur sinyal suara menggunakan algoritma Mel-frequency Cepstral Coefficients (MFCC), analisa dan proses klasifikasi sinyal suara menggunakan algoritma Vector Quantization (VQ) serta proses konversi hasil sinyal suara menjadi output suara. Bab ini juga menjelaskan mengenai perancangan sistem belakang (back-end) dan sistem perancangan sistem antar muka (front-end) yang digunakan pada penelitian ini.
Bab 4: Implementasi dan Pengujian
Bab ini menjelaskan tentang hasil pengujian yang didapatkan pada proses yang sudah dirancang dan dianalisa pada bab sebelumnya.
Bab 5: Kesimpulan dan Saran
Bab ini berisi kesimpulan dari keseluruhan proses yang dianalisa pada bab 3 dan hasil pengujian yang sudah dijabarkan pada bab 4. Bab ini juga berisi saran penulis berdasarkan kesimpulan yang didapatkan untuk penelitian yang berikutnya.
BAB 2
LANDASAN TEORI
2.1. Padi
Padi (bahasa latin: Oryza sativa L.) adalah salah satu tanaman budidaya terpenting dalam peradaban. Meskipun terutama mengacu pad jenis tanaman budidaya, padi juga digunakan untuk mengacu pada beberapa jenis dari marga (genus) yang sama, yang biasa disebut sebagai padi liar.
Padi diduga berasal dari India atau Indocina dan masuk ke Indonesia dibawa oleh nenek moyang yang migrasi dari daratan Asia sekitar 1500 SM. Produksi padi dunia menempati urutan ketiga dari semua serealia, setelah jagung dan gandum.
Namun demikian, padi merupakan sumber karbohidrat utama bagi mayoritas penduduk dunia.
Gambar 2.1. Tanaman Padi
2.2. Burung Pipit
Burung disebut hama padi karena mencuri dan memakan padi di sawah. Beberapa jenis burung yang biasanya menyerang areal tanaman padi adalah burung pipit, burung peking dan burung bondol. Burung-burung tersebut biasanya bersarang di dekat rumah, pohon-pohon yang rendah maupun pada semak-semak di sekitar sawah.
Burung biasanya mulai menyerang areal pertanaman pada saat bulir padi mulai menguning sehingga menyebabkan kehilangan hasil secara langsung. Saat ini burung yang paling sering menyerang tanaman padi adalah adalah burung pipit ( Mardjuki
Burung pipit berbeda dengan ulat atau hama lainnya bisa dibasmi dengan racun. Salah satu cara yang dilakukan petani untuk menghindari burung ini adalah dengan cara menunggui sawah mereka secara langsung untuk mengusir burung yang hendak memakan padi, atau dengan cara menutup padi mereka yang sudah menguning dan siap panen dengan jaring ikan. Akan tetapi karena luasnya sawah dan banyaknya jaring yang harus digunakan, petani harus mengeluarakan uang dalam jumlah besar untuk memasang jaring di sawah agar burung tidak dapat masuk. Jika terus dibiarkan, burung yang jumlahnya ribuan ini akan membuat petani rugi.
Gambar 2.2. Burung Pipit Di Sawah
2.3. Voice Recognition
Sistem pengenalan suara (voice recognition) adalah suatu sistem yang memungkinkan komputer untuk mengidentifikasi kata yang terucap atau pembicara yang mengucapkan kata berdasarkan suaranya (Rudrapal, et. al., 2012). Voice recognition melakukan identifikasi dengan mencocokkan informasi yang terkandung di dalam suatu sinyal suara yang masuk dengan sinyal suara yang menjadi referensi dalam proses identifikasi. Informasi ini berupa karakteristik sinyal suara yang meliputi intonasi suara, pola suara, kerapatan sinyal suara dan lain sebagainya. Hal ini dikarenakan tiap-tiap objek penghasil suara memiliki karakterisitik sinyal suara yang disebabkan oleh susunan anatomi penghasil suara yang berbeda-beda. Bahkan untuk manusia, tiap-tiap orang memiliki karakteristik sinyal suara yang berbeda-beda karena walaupun susunan anatominya sama tetapi tiap organ penyusun anatominya memiliki ukuran yang berbeda-beda.
8
2.4. Mel-Frequency Cepstral Coefficients (MFCC)
MFCC sebenarnya merupakan adaptasi dari sistem pendengaran manusia, dimana sinyal suara akan di-filter secara linear untuk frekuensi rendah (dibawah 1000Hz) dan secara logaritmik untuk frekuensi tinggi (diatas 1000Hz), Algoritma ini berfungsi untuk mengekstrak ciri suatu sinyal suara dengan merubah sinyal suara menjadi vektor-vektor akustik yang digunakan dalam proses klasifikasi. Algoritma ini diperkenalkan oleh Davis dan Mermelstein pada tahun 1980.
MFCC merupakan algoritma ekstraksi fitur yang paling efektif dan paling banyak dipakai oleh banyak peneliti. Alur pemrosesan MFCC dibuat menyerupai alur pemrosesan sistem indra manusia dalam menangkap sinyal suara agar hasil ekstraksi fiturnya mendekati persepsi yang dihasilkan indra pendengaran manusia (Davis &
Mermelstein, 1980). Algoritma MFCC mampu menghasilkan data seminimal mungkin tanpa menghilangkan informasi-informasi penting yang ada pada sinyal suara dan hal inilah yang menjadi kelebihan utama dari algoritma ini.
2.4.1. Pre-processing
Tahapan ini memperbaiki kualitas sinyal suara yang masuk dengan menghilangkan noise-noise yang muncul dari suatu sinyal suara. Tahapan ini terbagi menjadi dua proses umum, yaitu end-point detection dan pre-emphasis. End-point detection melakukan pencarian dan menghilangkan noise dari suatu sinyal suara agar menghasilkan sistem pengenalan yang sempurna (Tan & Jantan, 2004).Pre-emphasis menimalisasi noise yang mungkin masih ada pada suatu sinyal suara dengan menyeimbangkan nilai amplitudo pada frekuensi yang tinggi dan rendah. Hasil dari proses pre-emphasis didapatkan melalui Persamaan 2.1.
[ ] [ ] [ ] (2.1)
Keterangan : y[n] = sinyal hasil pre-emphasis s(n) = sinyal sebelum pre-emphasis α = 0.97
2.4.2. Frame Blocking
Frame blocking merupakan suatu tahapan yang berfungsi untuk memisahkan sinyal suara menjadi beberapa frame. Sinyal yang sudah berbentuk frame-frame menyimpan informasi-informasi yang nantinya dikonversi menjadi vektor akustik. Tiap frame memiliki panjang yang sama dan tiap frame dipisahkan oleh overlapping. Jumlah overlapping setengah dari panjang frame. Overlapping berfungsi untuk mempertahankan nilai yang tersimpan di dalam frame agar tidak hilang ketika dilakukan pemrosesan pada tahapan-tahapan berikutnya. Jumlah frame dari suatu sinyal suara dihitung melalui Persamaan 2.2.
J(f) = ((I – N)/M) + 1 (2.2) Keterangan: J(f) = jumlah frame
I = sample rate N = frame size
M = Jumlah overlapping
2.4.3. Windowing
Windowing merupakan suatu metode filtering yang digunakan untuk mengurangi distorsi yang terjadi antar frame di dalam suatu sinyal suara. Metode ini memiliki banyak jenis, tetapi yang paling sering di pakai dalam pengolahan suara adalah hamming windows.Persamaan hamming windows ditunjukkan pada Persamaan 2.3.
( ) ( ) (2.3) Keterangan : w(n) = windowing
N = lebar filter n = waktu diskrit α = 0.54
β = 0.46
2.4.4. Fast Fourier Transform (FFT)
Frame-frame yang sudah difilter pada tahap sebelumnya masih mengacu pada domain waktu.Frame tersebut harus diubah dari yang mengacu pada domain waktu menjadi domain frekuensi. Algoritma yang digunakan untuk mengkonversi frame tersebut
10
adalah Fast Fourier Transform (FFT). Algoritma tersebut merupakan pengembangan dari algoritma Discrete Fourier Transform (DFT).
FFT digunakan karena memiliki pemrosesan yang lebih cepat dan lebih optimal dibandingkan dengan DFT. Selain menghasilkan frame yang mengacu pada domain frekuensi, FFT juga menghasilkan besaran power spectrum. Power spectrum adalah besaran kuat lemahnya frekuensi yang muncul di dalam frame.Rumus FFT untuk mengubah sinyal suara dari domain waktu ke domain frekuensi ditunjukkan pada Persamaan 2.4.
( ) ∑ ( ) ( ) ( ) (2.4)
Keterangan : F(k) = hasil FFT f(n) = sinyal masukan N = jumlah sample
n = indeks sample input dalam domain waktu m = indeks output dalam domain frekuensi
2.4.5. Mel-filtering
Tahapan ini mengimplementasikan tahapan penerimaan persepsi pada manusia dengan mengubah frekuensi linear menjadi mel-spectrum. Mel-spectrum merupakan pola suara yang terbentuk dari besar kecil frekuensi yang mucul di dalam suatu area yang ada pada frame dan besarannya dihitung dalam skala mel. Sinyal suara frekuensi linear yang sudah berskala mel akan difilter sebanyak jumlah filter yang ditentukan agar menghasilkan pola suara yang disebut dengan mel-spectrum. Proses filter inilah yang mendasari tahapan ini diberi nama mel-filtering.
Langkah awal pada tahapan ini yaitu membuat filterbank dengan mengubah frekuensi linear menjadi mel-frequency. Filterbank adalah susunan filter yang digunakan untuk memfilter frekuensi sinyal suara menjadi mel-spectrum. Mel- frequency adalah skala frekuensi linear yang memiliki besaran nilai dibawah 1000 Hz dan besaran skala logaritmik diatas 1000 Hz. Satuan mel-frequency tidak lagi Hz melainkan mel. Sebelum diubah ke dalam skala mel, harus ditentukan terlebih dahulu frekuensi terendah dan tertinggi yang dimiliki suatu frekuensi linear. Kemudian ubah kedua frekuensi tersebut dengan menggunakan Persamaan 2.5. Mel-frequecy tersebut
dipecah kedalam N jumlah filter dimana tiap mel-frequency memiliki selisih besaran yang sama berasarkan nilai mel-frequency terendah dan tertinggi.
M(f) = 1125 x ln(1 + f/700) (2.5)
Keterangan :M(f) = mel-frequency f = frekuensi linear
Mel-frquency yang berjumlah N filter tersebut diubah kembali menjadi frekuensi linear. Proses pengubahan tersebut dihitung menggunakan Persamaan 2.6. Frekuensi linear tersebut dibulatkan menjadi nilai FFT berdasarkan nilai FFT bin terdekat. Nilai FFT bin didapatkan dari setengah nilai FFT yang telah ditentukan. Prosesnya pembulatannya dihitung menggunakan Persamaan 2.7.
M-1(m) = 700 x (exp(m/1125) – 1) (2.6) Keterangan :M-1(m) = frekuensi linear
m = mel-frequency
f(i) = floor((nfft + 1) x h(i) / S) (2.7) Keterangan :f(i) = nilai FFT tiap frekuensi
nfft = nilai FFT yang sudah ditentukan h(i) = frekuensi linear
S = sampling rate
Filter-filter yang sudah memiliki nilai tersebut kemudian disusun membentuk filterbank. Penyusunan filter ini dilakukan berdasarkan Persamaan 2.8. Sinyal suara yang masuk akan difilter menggunakan filterbank yang sudah tersusun tersebut. Pola yang terbentuk inilah yang disebut dengan mel-spectrum dan menjadi ciri karakteristik suatu sinyal suara.Sinyal hasil mel-filtering didapatkan melalui Persamaan 2.9.
12
( ) {
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( )
(2.8)
Keterangan: ( ) = mel-filterbank m = jumlah filter k = nilai FFT
f = nilai FFT tiap filter
=
( )
(2.9)
Keterangan : = koefisien filterbank pada frekuensi j( ) = magnitude spectrum pada frekuensi j
2.4.6. Discrete Cosine Transform (DCT)
Langkah ini merupakan tahapan terakhir dari algoritma MFCC yaitu mengubah mel- spectrum kembali ke dalam domain waktu. Hasilnya disebut dengan cepstral coefficient yang merupakan koefisien yang mencirikan suatu sinyal suara. Cepstral coefficient dihasilkan dengan menggunakan Persamaan 2.8. Jumlah cepstral coefficient yang dihasilkan sama dengan jumlah mel-spectrum yang diproses, tetapi hanya 12 cepstral coefficient terendah yang dipakai pada proses klasifikasi. Nilai pada koefisien ini disebut dengan vektor akustik yang menjadi variabel dalam menentukan ciri suatu suara.
̃ ∑ ( ̃ ) * ( ) + (2.10) Keterangan : ̃ = mel-spectrum
̃ = cepstral-coefficient K = jumlah koefisien
2.5.Vector Quantization (VQ)
Vector Quantization (VQ) merupakan metode kompresi vektor akustik dan klasifikasi vektor akustik. VQ membuat proses klasifikasi suara menjadi lebih cepat dan efesien dengan mengkompres vektor akustik secara signifikan tetapi masih akurat dalam mempresentasikan nilai yang terkandung di dalam vektor akustik tersebut. VQ melakukan kompresi vektor akustik dengan memetakan sejumlah vektor akustik kedalam suatu suatu area terbatas yang terdapat pada suatu ruang vektor dua dimensi.
Tiap area disebut dengan cluster dan tiap area diwakilkan dengan codeword.
Codeword merupakan titik pusat (centroid) yang ada pada suatu area. Kumpulan dari codeword disebut dengan codebook. Codebook inilah yang menjadi referensi dalam proses klasifikasi data.
Visualisasi codebook dapat dilihat pada gambar 2.3. Gambar tersebut tediri dari tiga elemen utama, yaitu titik berwarna hijau, bintang berwarna merah dan garis berwarna biru yang membentuk sebuah area. Codebook tersebut digambarkan pada suatu ruang dengan garis vertikal menunjukkan nilai imajiner vektor dan garis horizontal menunjukkan nilai real vektor. Titik berwarna hijau menunjukkan vektor akustik yang tersebar diseluruh ruang vektor. Bintang berwarna merah menunjukkan codeword yang menjadi representasi dari suatu cluster. Garis biru membatasi tiap cluster dan menjadi acuan posisi vektor akustik berada di cluster yang mana.
Gambar 2.3 Contoh Codeword pada Ruang Vektor Dua Dimensi (Linde, et. al., 1980)
14
VQ terbagi menjadi dua proses utama, yaitu feature training dan matching.
Feature training merupakan proses perekaman data latih dan memetakannya menjadi codebook yang menjadi referensi dalam melakukan proses klasifikasi. Proses feature training hanya memproses data latih, data uji akan langsung masuk proses matching.
Matching merupakan proses klasifikasi dengan mencocokkan pola vektor akustik data uji dengan codebook data latih. Pada feature-training, vektor akustik data latih akan dipetakan menjadi codebook untuk kemudian disimpan ke dalam VQ model atau ke dalam database. VQ model adalah file berbentuk teks berekstensi vq.
Proses pemetaan dan pembentukan codebook menggunakan algoritma LBG (Linde, Buzo, Gray) yang diimplementasikan pada proses rekursif berikut (Linde, et.
al., 1980):
1. Rancang sebuah vektor codebook yang menjadi acuan dari keseluruhan vektor data latih.
2. Gandakan vektor codebook dengan membagi masing-masing codebook menurut aturan:
( ) (2.11) ( ) (2.12) Dimana n bernilai dari 1 sampai ukuran codebook yang sudah ditentukan dan ε adalah parameter splitting yang bernilai 0,01.
3. Nearest Neighbour Search
Vektor data latih yang berkumpul pada area tertentu dikelompokkan. Untuk tiap vektor data latih, temukan codeword terdekat yang menjadi titik pusat codebook.
Kelompokkan vektor data latih berdasarkan codeword terdekat yang akan membentuk sebuah cluster.
4. Buat codeword baru pada masing-masing cluster dengan menentukan titik pusat dari kumpulan vektor akustik yang ada di dalam cluster tersebut.
5. Iterasi 1
Lakukan pengulangan langkah 3 dan langkah 4 sampai jarak rata rata dibawah jarak rata ambang batas yang telah ditetapkan.
6. Iterasi 2
Lakukan pengulangan langkah 2, 3 dan 4 sampai codebook berukuran M.
Proses matching melakukan klasifikasi dengan memetakan vektor akustik data uji dengan codebook yang sudah dilatih pada feature training dan menghitung jarak rata- rata terdekat. Hasil klasifikasi ditentukan dari jarak rata-rata antara vektor akustik data uji dengan codeword yang ada pada codebook. Jarak akustik data dengan codeword yang ada pada codebook disebut dengan VQ distortion. VQ distortion dihitung menggunakan Persamaan 2.11.
( ) √∑ ( ) ( ) (2.13)
Keterangan : = komponen ke-j dari vektor masukan
= komponen ke-j dari codeword
Proses klasifikasinya dimulai dengan memilih secara random codebook data latih yang akan dijadikan acuan. Kemudian hitung jumlah codeword yang ada pada codebook tersebut. Kelompokkan vektor akustik data uji ke dalam codebook tersebut berdasarkan jarak terdekat antar vektor akustik dengan codeword menjadi suatu cluster yang jumlahnya sama dengan jumlah codeword. Hitung rata-rata VQ distortion pada seluruh bagian codebook. Jika nilai rata-rata pada codebook tersebut sudah didapatkan, lakukan pengulangan proses pada semua codebook yang dijadikan referensi. Bandingkan nilai rata-rata tiap codebook. Codebook yang memiliki nilai terkecil merupakan codebook yang cocok dengan vektor akustik data uji yang masuk dan merupakan hasil dari proses klasifikasi.
2.6. Penelitian Terdahulu
Astuti et al (2011) menggunakan algoritma MFCC untuk melakukan fitur ekstraksi dan menggunakan algoritma Support Vector Machine (SVM) untuk melakukan proses identifikasi jenis burung berdasarkan suaranya. Aktivitas tidak normal yang dilakukan burung menjadi acuan akan terjadinya suatu bencana alam. Penelitian ini mengklasifikasi 7 jenis burung. Gabungan antara algoritma MFCC dan SVM pada penelitian ini menghasilkan akurasi sebesar 98%.
Ilman, K.M (2017) menggunakan algoritma MFCC untuk fitur ekstraksi dan menggunakan algoritma Vector Quantization (VQ) untuk melakukan proses pendeteksian katak berdasarkan suaranya. Data latih berjumlah 300 data. Gabungan
16
antara algoritma MFCC dan VQ pada penelitian ini menghasilkan akurasi sebesar 99%.
Ismail et al (2014) menggunakan algoritma MFCC untuk fitur ekstraksi dan menggunakan algoritma Vector Quantization (VQ) untuk melakukan pengecekan tajwid Qalqalah pada pembacaan surat Al-Ikhlas di dalam Al-Quran. Qalqalah terbagi menjadi dua jenis yaitu Sughrah dan Kubrah. Data latih diambil dari Qalqalah yang muncul pada surat Al-Ikhlas dan tiap-tiap Qalqalah dilakukan perekaman data latih sebanyak 10 data latih sehingga total 20 data latih. Penelitian ini menggabungkan algoritma MFCC dan VQ dan menghasilkan akurasi sebesar 94,5%.
Kubakaddi et al (2015) menggunakan algoritma MFCC untuk melakukan fitur ekstraksi dan menggunakan algoritma Vector Quantization (VQ) mengidentifikasi pembicara berdasarkan suaranya. Data latih diambil dari 8 orang yang berbeda.
Penelitian ini menunjukkan bahwa kolaborasi MFCC dengan VQ untuk mengidentifikasi 8 pembicara menghasilkan akurasi sebesar 98%.
Tabel 2.1. Penelitian Terdahulu
No Peneliti/Tahun Algoritma Keterangan
1 Astuti et al/2011 Mel-frequency Cepstral Coefficients
– Support Vector
Machine
 Identifikasi jenis burung untuk mengetahui aktivitas tidak normal yang
menandakan akan terjadinya bencana berdasarkan suaranya
 Tingkat akurasi
keberhasilan klasifikasi sebesar 98%.
 Jumlah jenis burung yang diidentifikasi sebanyak 7 jenis
2 Ilman, K.M/2017 Mel-frequency Cepstral Coefficients
–
Vector Quantization
 Pendeteksian suara katak berdasarkan suaranya
 Data latih berjumlah 300 data latih
 Tingkat akurasi
keberhasilan klasifikasi sebesar 99.6%.
Tabel 2.1. Penelitian Terdahulu(Lanjutan)
No Peneliti/Tahun Algoritma Keterangan
3 Ismail et al/2014 Mel-frequency Cepstral Coefficients
–
Vector Quantization
 Pengecekan tajwid Qalqalah pada surat Al- Ikhlas di dalam bacaan Al- Quran
 Qalqalah yang diidetifikasi terdiri dari dua jenis yaitu Sughrah dan Kubrah
 Jumlah data latih sebanyak 20 data latih
 Tingkat akurasi
keberhasilan klasifikasi sebesar 94,5%.
4 Kubakaddi et al/2015
Mel-frequency Cepstral Coefficients
–
Vector Quantization
 Pengidentifikasian pembicara berdasarkan suaranya
 Data latih diambil dari 8 pembicara yang berbeda- beda
 Tingkat akurasi
keberhasilan klasifikasi sebesar 98%.
Perbedaan penelitian yang dilakukan dengan penelitian terdahulu adalah penelitian ini mendeteksi keberadaan burung berdasarkan suaranya, bukan melakukan identifikasi jenis burung. Adapun metode yang diimplementasikan pada penelitian ini adalah sebagai berikut:
1. Fitur ekstraksi menggunakan Algoritma Mel-frequency Cepstral Coefficients (MFCC) yang mengubah sinyal suara menjadi koefisien-koefisien yang memiliki nilai vektor akustik.
2. Metode klasifikasi dengan menggunakan algoritma Vector Quantization (VQ).
Algoritma ini terbagi menjadi dua tahapan yaitu feature training yang berfungsi untuk membentuk codebook dan matching yang berfungsi untuk melakukan klasifikasi berdasarkan jarak terdekat vektor akustik yang masuk dengan codeword pada codebook.
3. Konversi hasil klasifikasi akan mengeluarkan ouput suara tembakan pada speaker eksternal yang di pasang pada laptop sebagai tindakan untuk mengusir burung disawah tersebut.
BAB 3
ANALISIS DAN PERANCANGAN SISTEM
Bab ini akan membahas tentang analisis dan perancangan sistem pendeteksian suara burung. Pada tahapan analisis akan dibahas tentang analisis data yang digunakan dan analisis metode yang digunakan pada tiap tahapan dalam pemrosesan data. Sementara itu, perancangan sistem akan membahas tentang perancangan tampilan antarmuka yang diimplementasikan pada sistem.
3.1. Data Acquisition (Pengumpulan Data)
Data yang digunakan pada penelitian ini terdiri dari dua jenis, yaitu data latih dan data uji.Data latih merupakan data berupa suara yang direkam sebagai data pembanding untuk proses pengklasifikasian suara. Data uji merupakan data berupa suara yang direkam dan dicocokkan dengan data latih melalui proses klasifikasi agar menghasilkan output yang diinginkan.
Data latih suara burung diambil dengan merekam langsung suara burung yang ada di sawah. Jumlah data latih suara burung yang direkam adalah 20 data latih. Data latih suara bukan burung(suara lain) diambil dengan merekam suara-suara selain suara burung yang berpotensi mempengaruhi tingkat akurasi pengklasifikasian pada sistem ini. Suara-suara tesebut berupa suara ketukan, suara manusia dan lain-lain. total data latih suara bukan burung yang direkam sebanyak 20 data latih. Total keseluruhan data latih yang direkam sebanyak 40 data latih yang tediri atas 20 data latih suara burung dan 20 data latih suara bukan burung.
Data uji diperoleh dengan menekan tombol start recording pada sistem dan sistem akan secara real-time merekam sinyal suara dan memproses sinyal suara tersebut.
Sistem akan terus menerus merekam, memproses dan mengklasifikasi suara yang masuk hingga tombol stop pada sistem ditekan. Jika data uji berupa sinyal suara yang masuk sesuai dengan data latih, maka sistem ini akan mengeluarkan output berupa suara tembakan sebagai keluaran bahwa sinyal suara yang masuk merupakan suara burung dan keberadaan burung di sawah terdeteksi, suara tembakan tersebut sekaligus untuk mengusir keberadaan burung disawah.
3.2. Analisis Sistem 3.2.1.Arsitektur Umum
Metode yang diajukan penulis untuk mendeteksi suara Burung terdiri dari beberapa tahapan. Tahapan-tahapan yang akan dilakukan adalah sebagai berikut: pengambilan suara (sound acquisition) menggunakanmicrophone; ekstrak sinyal suara menjadi vector data menggunakan algoritma Mel Frequency Cepstral Coefficients (MFCC);
dan pengklasifikasian sinyal suara untuk menghasilkan suatu keputusan menggunakan Vector Quantization (VQ). Hasil klasifikasi akan berupa output suara tembakan atau suara berisik. Arsitektur umum yang menggambarkan metode pada penelitian ini ditunjukkan pada Gambar 3.1.
Gambar 3.1 Arsitektur Umum
20
3.2.2. Sampling
Proses sampling adalah proses mengubah sinyal suara berbentuk analog menjadi sinyal suara berbentuk digital.Sinyal suara direkam menggunakan microphone yang terhubung ke laptop.Sebelum sinyal diubah, dilakukan pengecekan apakah sinyal suara berbentuk analog yang masuk tidak memiliki tingkat kebisingan yang tinggi.Tingkat kebisingan yang tinggi disini merupakan nilai tingkat kebisingan yang tidak mampu lagi diproses oleh sistem. Jika tingkat kebisingannya terlalu tinggi, sistem akan memberi pemberitahuan dan menyarankan untuk merekam dengan keadaan tingkat kebisingan yang lebih rendah.
Sinyal suara yang sudah dicek tingkat kebisingannya akan masuk tahap digitalisasi menggunakan frekuensi sampling rate 16.000 Hz, nilai amplitudo sinyal suara disimpan dalam presentasi nilai 16 bit dan menggunakan channel mono. Sinyal suara terlebih dahulu melewati proses sampling. Sampling merupakan pengubahan sinyal suara berbentuk analog menjadi sinyal suara berbentuk digital.Sinyal suara ditangkap pada frekuensi 16.000 Hz dalam kurun waktu tertentu. Nilai sinyal suara yang berhasil ditangkap tersebut disebut dengan sample. Nilai amplitudo pada tiap sinyal suara akan disimpan dalam presentasi nilai 16 bit untuk kemudian disimpan menjadi nilai dari suara yang berhasil direkam. Sinyal suara yang sudah berbentuk nilai tersebut sudah bisa diproses dan selanjutnya akan masuk tahap fitur ekstraksi untuk dirubah kembali menjadi koefisien yang mempunyai nilai ciri agar bisa diklasifikasi.
3.2.3.Pre-processing
Sinyal suara yang sudah berbentuk digital, masuk ke tahapan ini yang merupakan tahapan awal pada metode MFCC.Tahapan ini berfungsi untuk meningkatkan kualitas sinyal suara dengan mengurangi noise agar mempermudah tahapan-tahapan berikutnya dalam memproses sinyal suara tersebut. Terdapat dua langkah pada tahapan ini yaitu end-point detection danpre-emphasis.
a. End-point Detection
Langkah ini bertujuan untuk mengidentifikasi titik awal dan titik akhir dari sinyal suara yang berhasil direkam dan menghilangkan noise yang ada pada bagian
diidentifikasi melalui titik akhir sinyal suara tersebut. Jika titik akhir sudah ditemukan, keberadaan noise pada sinyal suara dideteksi berdasarkan nilai zero- crossing dan nilai dari variabel average-energy yang sudah dihitung dan ditentukan pada sistem ini. Kemudian bagian sinyal suara yang terdeteksi sebagai noise akan dipotong menjadi bagian kecil dan dihilangkan dari bagian sinyal suara. Sinyal suarayang sudah dihilangkan noisenya akan masuk pada langkah berikutnya.
b. Pre-emphasis
Sinyal suarapada langkah sebelumnya masuk ke langkah ini untuk dikurangi lagi noise-noise yang mungkin muncul dengan menyeimbangkan amplitudo pada nilai yang tinggi dan rendah. Tahapan ini meningkatkan kualitas sample yang akan diproses pada tahapan berikutnya. Sinyal suara setelah pre-processing memiliki nilai amplitudo yang lebih kecil dan terlihat lebih ramping bentuk sinyal suaranya dibandingkan dengan sinyal suara sebelum pre-processing, hal ini menunjukkan bahwa sinyal suara setelah pre-processingsudah diperbaiki kualitasnya dan sudah berkurang noise-noise yang akan mengurangi kehandalan sistem dalam memproses sinyal suara pada tahapan berikutnya.
3.2.4. Frame Blocking
Pada tahapan ini sinyal suara akan dipisahkan menjadi beberapa frame. Panjang frame yang dipisahkan dari sebuah sinyal suara sebanyak N. Nilai M merupakan nilai yang memisahkan antar frame atau jumlah overlapping untuk mempertahankan nilai yang ada pada sinyak suara, dimana M<N. Jumlah frame pada tiap sinyal suara dihitung melalui Persamaan 2.2. Contoh penghitungannya dengan waktu yang ditentukan untuk memotong sinyal suara sebesar 32 ms adalah sebagai berikut.
N = 16000 x 0.032 = 512 M = 512/2 = 256
J(f) = ((16000-512)/256) + 1 = 61
Dari penghitungan tersebut didapatkan hasil berupa panjang frame berjumlah 512 samples, jumlah overlapping berjumlah 256 samples, dan jumlah frame yang terbentuk berjumlah 61 frame. Frame pertama dimulai dari nilai sample 0, frame kedua dimulai dengan nilai pada sample ke 256 bukan yang ke 512 karena ada jumlah
22
overlapping yang memisahkan antar frame dan begitu seterusnya sampai seluruh jumlah frame berhasil dipenuhi.
3.2.5. Windowing
Tahapan ini menggandakan tiap-tiap frame dari sebuah sample dari titik awal hingga titik akhirframe meningkatkan kontinuitas sinyal suara pada titik awal dan titik akhir frame. Sistem pada penelitian ini menggunakan windowing jenis hamming windows.Hamming windows digunakan karena menghasilkan noise yang tidak terlalu besar dan umum digunakan pada proses ekstraksi nilai sebuah sinyal suara.
Proses penghitungan nilai windowing menggunakan Persamaan 2.3. Kemudian nilai setelah melewati windowing didapatkan dengan mengalikan nilai sinyal setelah proses pre-emphasis dengan nilai windowing. Dimana contoh nilai sebelum melewati windowing adalah -10.74, -45.53, 3.86, 35.3, 77, 25.96, -94.33, 88.71.Contoh penghitungannya sebagai berikut.
= 0.08 = -10.74 x 0.08 = -0.86
= -45.53 x 0.08 = -3.64 = 3.86 x 0.08 = 0.3 = 35.31 x 0.08 = 2.82 = 77 x 0.08 = 6.16 = 25.96 x 0.08 = 2 = -94.33 x 0.08 = -7.54 = 88.71 x 0.08 = 7
Dari penghitungan tersebut dihasilkan nilai sinyal baru setelah melewati tahapan windowing.Hasil penghitungannya sebagai berikut.
= -0.86, -3.64, 0.3, 2.82, 6.16, 2, -7.54, 7
3.2.6.Fast Fourier Transform (FFT)
FFT merupakan tahapan yang mengubah sinyal dari domain waktu ke domain frekuensi.Tahapan ini bertujuan untuk memperoleh frekuensi dan power spectrum yang muncul pada tiap tiap frame. Proses pengubahannya dihitung menggunakan Persamaan 2.3.
Untuk menghasilkan nilai FFT yang nantinya akan dipergunakan pada tahapan berikutnya dilakukan proses penghitungan menggunakan Persamaan 2.4. Dimana contoh nilai sebelum melewati FFT adalah -0.86, -3.64, 0.3, 2.82, 6.16, 2, -7.54, dan 7.Contoh penghitungannya sebagai berikut.
= ((-0.86 (cos )) - j sin + (-3.64 (cos )) - j sin + (-0.3 (cos )) - j sin + (2.82 (cos )) - j sin + (6.16 (cos )) - j sin + (2 (cos )) - j sin + (-7.54 (cos )) - j sin + (7 (cos )) - j sin )/8 = 0.8 – 0j
= ( |0.82 + (-0)2|)1/2 = 0.8
= ((-0.86 (cos )) - j sin + (-3.64 (cos )) - j sin + (-0.3 (cos )) - j sin + (2.82 (cos )) - j sin + (6.16 (cos )) - j sin + (2 (cos )) - j sin + (-7.54 (cos )) - j sin + (7 (cos )) - j sin )/8 = -1 – 0.011j
= ( |(-1)2 + (-0.011)2|)1/2 = 0.94
= ((-0.86 (cos )) - j sin + (-3.64 (cos )) - j sin + (-0.3 (cos )) - j sin + (2.82 (cos )) - j sin + (6.16 (cos )) - j sin + (2 (cos )) - j sin + (-7.54 (cos )) - j sin + (7 (cos )) - j sin )/8 = 1.562 – 0.022j
= ( |1.5622 + (-0.022)2|)1/2 = 1.56
24
Penghitungan terus dilakukan sampai keseluruhan data sinyal lainnya berhasil dihitung. Dari penghitungan tersebut dihasilkan nilai sinyal baru setelah melewati tahapan FFT. Hasil penghitungannya sebagai berikut.
= 0.8, 0.94, 1.56, 0.76, 1.28, 0.73, 1.5, 1
3.2.7. Mel Filtering
Tahapan ini akan memfilter sinyal suara yang sudah diproses pada tahapan sebelumnya dan menciptakan sebuah pola yang dinamakan mel-spectrum. Sebelum difilter, harus ditentukan terlebih dahulu nilai pada filterbank. Jika nilai sudah ditentukan maka proses filtering dapat diaplikasikan ke sinyal suara yang sudah diproses pada tahapan sebelumnya dan akan menghasilkan mel-spectrum.
Langkah pertama yaitu frekuensi linear dikonversi menjadi mel-frequency.
Terlebih dahulu frekuensi linear dibagi menjadi frekuensi terendah dengan frekuensi tertinggi. Pada penelitian ini frekuensi terendah sebesar 130 Hz dan frekuensi tertinggi 8000 Hz. Kemudian kedua frekuensi ini dikonversi dengan menggunakan rumus yang sudah dijelaskan pada Persamaan 2.4. Tiap filter pada mel-filterbank akan menghasilkan mel-spectrum yang besaran energinya bergantung dari sinyal suara yang masuk.
3.2.8. Discrete Cosine Transfrom (DCT)
Tahapan ini merupakan tahapan akhir dari algoritma MFCC yang akan menghasilkan koefisien-koefisien yang digunakan untuk pengenalan suatu sinyal suara. Koefisien didapatkan dengan mengubah mel-spectrum menjadi domain waktu. Sinyal suara yang sudah diproses pada tahapan sebelumnya akan menghasilkan mel-spectrum yang memiliki besaran energi. Besaran energi ini akan diubah menjadi koefisien-koefisien.
Nilai yang terkandung di dalam koefisien-koefisian tersebut disebut dengan vektor akustik yang menjadi ciri dari suatu sinyal suara. Penghitungannya dihasilkan melalui Persamaan 2.8.
3.2.9. Feature Training
Proses ini hanya dilewati oleh data uji karena proses ini melakukan perekaman data uji yang merupakan variabel acuan untuk proses matching ke dalam bentuk codebook.
Masing-masing data uji tersebut akan memiliki codebook yang berbeda-beda dan akan disimpan ke dalam file berbentuk teks berekstensi vq yang disebut dengan model VQ.
Model VQ yang terbentuk pada sistem ini dinamai dengan “sburung1.vq” dan
"lingkungan1.vq".
Proses ini memetakan vektor-vektor akustik data latih yang didapatkan pada proses sebelumnya ke dalam suatu ruang vektor dua dimensi. Vektor-vektor akustik tersebut dipetakan dengan cara mengelompokkan vektor-vektor akustik ke suatu area yang disebut cluster. Jadi di dalam ruang vektor dua dimensi tersebut terdapat beberapa cluster yang memisahkan kelompok satu dengan yang lain. Setiapcluster memiliki titik centroid (titik pusat) yang disebut dengan codeword. Kumpulan dari codeword ini disebut dengan codebook.Codebook ini kemudian akan disimpan ke dalam model VQ untuk proses klasifikasi.
3.2.10. Matching
Proses ini merupakan tahapan akhir yang akan dicapai. Proses ini merupakan tahap identifikasi sinyal suara yang sudah diwakili dengan vektor-vektor akustik.
Berkebalikan dengan proses feature training, proses ini hanya dilakukan untuk data uji. Karena proses ini mencocokkan vektor-vektor akustik data uji dengan codeword yang ada pada codebook di dalam model VQ.
Sinyal suara yang sudah berbentuk vektor-vektor akustik akan dipetakan ke dalam ruang vektor dua dimensi. Pemetaan tersebut akan menghasilkan titik-titik koordinat vektor-vektor akustik masukan. Titik-titik koordinat vektor akustik masukan kemudian dibandingkan dengan titik-titik koordinat codeword di dalam suatu codeword dari VQ model yang sudah dibentuk pada feature training. Perbandingan posisi tersebut akan menghasilkan suatu besaran jarak terdekat yang disebut dengan VQ distortion. Proses pencocokan ini ditentukan dari jarak tersebut, dimana hasil pencocokannya ditentukan berdasarkan total rataan besaran VQ distortionterkecil antara vektor akustik dengan codeword pada codebook. Proses pencocokan ini dilakukan kepada tiap codebook di dalam tiap model VQ yang sudah dilatih sebelumnya. Sinyal suara data latih yang sudah berbentuk model VQ dengan rataan besaran VQ distortion terkecil merupakan sinyal suara yang memiliki kemiripan dengan sinyal suara yang masuk dan menghasilkan keputusan bahwa sinyal suara yang masuk sama dengan sinyal suara data latih tersebut.
26
3.2.11. Konversi Hasil Klasifikasi
Penelitian ini bertujuan memberikan kemudahan kepada para petani untuk selalu bisa mengawasi sawah dari keberadaan burung. Maka dari itu, hasil klasifikasi yang diproses pada aplikasi desktop ini adalah apabila aplikasi berhasil mendeteksi suara burung maka aplikasi akanmengeluarkan suara tembakan yang akan langsung keluar dari speaker eksternal yang dipasang pada laptop sistem ini sebagai tindakan untuk mengusir keberadaan burung.
3.3 Perancangan Sistem
Perancangan sistem pada penelitian ini dibagi menjadi dua bagian yaitu perancangan sistem bagian belakang (back-end) dan perancangan sistem bagian depan (front-end).
3.3.1. Perancangan sistem bagian belakang (back-end)
Perancangan sistem ini ditujukan untuk melakukan proses-proses dibalik layar.Perancangan sistem bagian belakang ini yaitu back-end pada desktop.
Prosesback-end pada desktop meliputi proses pengambilan sinyal suara, proses konversi sinyal suara analog menjadi sinyal suara digital, melakukan fitur ekstraksi sinyal suara, proses klasifikasi dan mengirimkan hasil klasifikasi ke pada sistem agar mengeluarkan ouput suara. Proses-proses tersebut akan diimplementasikan pada sistem bagian depan (front-end) sesuai dengan urutan tahapannya.
Perancangan sistem bagian belakang (back-end) pada penelitian ini menggunakan activity diagram.Activity diagram pada penelitian ini digambarkan dengan caraswimlane, yaitu aktivitas pada sistem dikelompokkan berdasarkan objek dalam sebuah sistem dengan urutan yang sesuai. Aktivitas sistem pada penelitian ini digambarkan ke dalam activity diagram yang dapat dilihat pada Gambar 3.2.
Gambar 3.2 Activity Diagram Sistem Pendeteksian Suara Burung
Gambar 3.2 menjelaskan bagaimana proses-proses yang ada pada sistem berjalan sesuai urutannya dan mampu menghasilkan output sesuai dengan yang diharapkan, menggambarkan bagaimana interaksi aktivitas yang dilakukan oleh objek-objek di dalam sistem. Pengguna menekan tombol rekam untuk memulai proses perekaman suara burung yang dilakukan aplikasi desktop. Sinyal suara yang ditangkap kemudian diubah menjadi sinyal digital dan diekstraksi fitur sinyal suaranya menggunakan algoritma Mel-Frequency Cepstral Coefficients (MFCC). Sinyal suara yang sudah didapatkan nilai cirinya akan dicocokkan nilainya dengan nilai ciri data latih menggunakan algoritma Vector Quantization (VQ).
Tahapan berikutnya sesuai dengan Gambar 3.2, jika hasil pencocokan merupakan bukan suara burung maka aplikasi desktopakan menampilkan informasi bukan suara
tidak terdeteksi
28
burung. Tetapi jika hasil pencocokan merupakan suara burung, aplikasi desktopakan langsung mengeluarkan suara balik yang merupakan suara tembakan untuk menakut- nakuti burung yang telah terdeteksi. Keseluruhan proses berhenti jika pengguna menekan tombol stop pada aplikasi desktop.
3.3.2. Perancangan sistem bagian depan (front-end)
Sistem ini memiliki sistem bagian depan yaitu sistem bagian depan pada desktop Sistem bagian depan pada desktop berisi perintah untuk menjalankan pendeteksian suara, berisi informasi mengenai aplikasi pendeteksian suara dan berisi hasil dari proses pendeteksian suara yang sudah dijalankan. Tiap hasil pendeteksian suara ditampilkan pada sistem seperti yang dapat dilihat pada Gambar 3.3.
Gambar 3.3 Rancangan Sistem Bagian Depan Aplikasi Desktop
BAB 4
IMPLEMENTASI DAN PENGUJIAN SISTEM
Bab ini bertujuan untuk menampilkan hasil akhir yang dihasilkan oleh sistem yang dibangun dan melihat tingkat keberhasilan sistem dalam melakukan pendeteksi terhadap suara burung berdasarkan proses analisa pengujian sistem.
4.1. Implementasi Sistem
4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak
Spesifikasi perangkat keras yang digunakan untuk mengimplementasi penelitian ini adalah sebagai berikut:
1. Processor Intel(R)Celeron(R) CPU B800 @ 1.50 GHz 1.50 GHz.
2. Harddisk berkapasitas 200 GB.
3. Memori RAM berkapasitas 5 GB DDR3.
4. Microphone Saramonic UwMic9.
5. Speaker Advance 2.0 mini channel.
Spesifikasi perangkat lunak yang digunakan untuk mengimplementasi penelitian ini adalah sebagai berikut:
1. Sistem operasi komputer Windows7 Pro 64-bit.
2. CorelDRAW X7 (17.1.0.572).
3. Android Studio.
4. Library yang digunakan adalahbasicplayer3.0-robo,jl1.0, jogg-0.0.7,jorbis- 0.0.15, mp3spi-1.9.4, org-apache-commons-logging, tritonus-remaining-0.3.6,
tritonus-share-0.3.7-1, vorbisspi1.0.3. .
30
4.1.2. Implementasi Perancangan Antarmuka
Antarmuka dibuat bertujuan untuk mengatur sistem dalam melakukan proses perekaman dan pendeteksian serta menampilkan hasil pendeteksian yang diproses oleh sistem. Terlihat dari Gambar 4.1, pada aplikasi desktop terdapat dua komponen utama yaitu scrollpane yang berwarna putih dan tombol yang terletak dibagian paling bawah aplikasi. Tombol pada aplikasi desktop berfungsi untuk memulai proses pendeteksian suara dan mengakhiri proses pendeteksisan suara. Jika tidak sedang melakukan pendeteksian maka label pada tombol akan bertuliskan “Start Recording”, sedangkan jika sedang melakukan proses pendeteksian, maka label pada tombol akan bertuliskan “Stop”. Hasil pendeteksian suara pada aplikasi desktop berbentuk teks yang ditampilkan pada text area yang terletak di dalam scrollpane.
Gambar 4.1. Tampilan Antarmuka Aplikasi Desktop
4.2. Pengujian Sistem
4.2.1. Proses Pengujian Sistem
Proses pengujian dilakukan untuk melihat tingkat akurasi keberhasilan dan performa metode pengenalan suara yang digunakan pada penelitian ini dalam mendeteksi suara burung pada tingkat noise tertentu dan pada jam berapa suara burung banyak terdeteksi menggunakan metode tersebut. Pengujian dilakukan pada waktu yang berbeda yaitu pada pagi hari, siang hari dan sore hari, seluruh pengujian dilakukan langsung di sawah dan data uji direkam secara real-time.Lokasi pengujian terletak di persawahan yang beralamat di Belakang Kos Pemondokan Nina Gang Famili Padang Bulan Medan (belakang USU). Lokasi pengujian dapat dilihat pada Gambar 4.2.
Gambar 4.2. Lokasi Pengujian
Proses pengujian performa sistem meliputi spesifisitas, sensitivitas dan real-time factor (RTF). Spesifisitas merupakan tolak ukur seberapa handal suatu metode dalam mengklasifikasi suara yang bukan suara burung sebagai suara bukan burung.Sensitifitas merupakan kebalikan dari spesifisitas, yaitu seberapa handal dalam mengklasifikasi suara burung sebagai suara burung. Proses pengujian spesifisitas menggunakan suara yang mirip suara burung pipit tetapi bukan suara burung pipit sebagai data ujinya. Hal ini dilakukan agar hasil pengujian spesifitas lebih akurat.
Real-time factor (RTF) adalah tolak ukur seberapa cepat suatu metode dalam memproses dan mengklasifikasi suara yang masuk. Nilai RTF dihasilkan berdasarkan waktu eksekusi dan durasi sinyal suara yang dieksekusi. Pengujian RTF tidak diuji secara langsung melainkan menggunakan rekaman suara burung karena dibutuhkan
32
durasi waktu yang sama untuk pengujiannya. Kondisi pengujian dilakukan semirip mungkin dengan pengujian asli misalnya intensitas suara rekaman yang samadengan intensitas suara burung di sawah. RTF dapat dihitung melalui Persamaan 4.1.
Spesifisitas dan sensitifitas berdasarkan pada empat nilai yaitu PB,NB, PS danNS.Positif benar (PB) adalah suara burung yang berhasil dideteksi dengan benar sebagai suara burung.Negatif benar (NB) adalah suara bukanburung yang berhasil dideteksi sebagai suara bukan burung.Positif salah (PS) adalah proporsi suara burung yang dideteksi sebagai suara bukan burung.Negatif salah (NS) adalah suara bukan burung yang dideteksi sebagai suara burung.Nilai spesifisitas dihitung melalui Persamaan 4.2, sementara nilai sensitifitas dihitung melalui Persamaan 4.3.
Real-Time Factor (RTF) = Waktu Eksekusi / Durasi Sinyal Suara (4.1)
Spesifisitas = NB / (PS + NB) x 100% (4.2)
Dimana : NB = Negatif Benar PS = Positif Salah
Sensitivitas = PB / (NS + PB) x 100% (4.3)
Dimana : PB = Positif Benar NS = Negatif Salah
Rancangan perangkat keras yang dibutuhkan untuk melakukan proses pengujian dapat dilihat pada Gambar 4.3. Proses perekaman suaranya menggunakan microphone yang ditempatkan di salah satu bagian sawah yang aman dan sesuaikan penempatan microphone dengan sumber suara untuk menguji jangkauan suara yang mampu dideteksi sistem pada penelitian ini. Proses pengujian sudah bisa dimulai dengan menekan tombol start recording pada aplikasi desktop. Tampilan aplikasi desktop berhasil mendeteksi suara burung dapat dilihat pada Gambar 4.4. Tampilan aplikasi desktop mendeteksi suara yang bukan suara Burung dapat dilihat pada Gambar 4.5.
Gambar 4.3. Perangkat Keras Untuk Proses Pengujian
Gambar diatas menunjukkan beberapa perangkat keras yang digunakan untuk menjalankan sistem disawah, antara lain Laptop, Microphone Wireless dan Speaker.
Kegunaan dari masing masing perangkat yaitu, Laptop sebagai perangkat keras untuk menjalankan aplikasi secara real time, Microphone wireless digunakan sebagai perangkat keras untuk menangkap suara burung disawah yang kemudian suara tersebut akan diproses melalui sistem tersebut dan terakhir Speaker sebagai perangkat keras yang berfungsi mengeluarkan hasil pemrosesan pada sistem tersebut. Suara yang keluar pada speaker berupa suara tembakan, tujuannya untuk mengusir keberadaan burung disawah. Laptop diletakkan di pondok-pondok tengah sawah yang biasa digunakan sebagai tempat istirahat petani. Microphone Wireless diletakkan di bagian ujung petak sawah dan ditempatkan dengan aman. Speaker diletakkan di sekeliling sawah.
34
Gambar 4.4. Tampilan Aplikasi Desktop Berhasil Mendeteksi Suara Burung Sistem dijalankan secara terus-menerus dengan menekan tombol Start Recording.
Apabila suara burung terdeteksi maka akan muncul tulisan berwarna biru BIRD SOUND DETECTED pada sistem seperti pada gambar 4.4 diatas. Ketika suara terdeteksi maka sistem akan mengeluarkan suara tembakan dari speaker sebagai tindakan untuk mengusir keberadaan burung disawah.