ANALISIS DAN PERANCANGAN SISTEM
3.2. Analisis Sistem 1.Arsitektur Umum
Metode yang diajukan penulis untuk mendeteksi suara Burung terdiri dari beberapa tahapan. Tahapan-tahapan yang akan dilakukan adalah sebagai berikut: pengambilan suara (sound acquisition) menggunakanmicrophone; ekstrak sinyal suara menjadi vector data menggunakan algoritma Mel Frequency Cepstral Coefficients (MFCC);
dan pengklasifikasian sinyal suara untuk menghasilkan suatu keputusan menggunakan Vector Quantization (VQ). Hasil klasifikasi akan berupa output suara tembakan atau suara berisik. Arsitektur umum yang menggambarkan metode pada penelitian ini ditunjukkan pada Gambar 3.1.
Gambar 3.1 Arsitektur Umum
20
3.2.2. Sampling
Proses sampling adalah proses mengubah sinyal suara berbentuk analog menjadi sinyal suara berbentuk digital.Sinyal suara direkam menggunakan microphone yang terhubung ke laptop.Sebelum sinyal diubah, dilakukan pengecekan apakah sinyal suara berbentuk analog yang masuk tidak memiliki tingkat kebisingan yang tinggi.Tingkat kebisingan yang tinggi disini merupakan nilai tingkat kebisingan yang tidak mampu lagi diproses oleh sistem. Jika tingkat kebisingannya terlalu tinggi, sistem akan memberi pemberitahuan dan menyarankan untuk merekam dengan keadaan tingkat kebisingan yang lebih rendah.
Sinyal suara yang sudah dicek tingkat kebisingannya akan masuk tahap digitalisasi menggunakan frekuensi sampling rate 16.000 Hz, nilai amplitudo sinyal suara disimpan dalam presentasi nilai 16 bit dan menggunakan channel mono. Sinyal suara terlebih dahulu melewati proses sampling. Sampling merupakan pengubahan sinyal suara berbentuk analog menjadi sinyal suara berbentuk digital.Sinyal suara ditangkap pada frekuensi 16.000 Hz dalam kurun waktu tertentu. Nilai sinyal suara yang berhasil ditangkap tersebut disebut dengan sample. Nilai amplitudo pada tiap sinyal suara akan disimpan dalam presentasi nilai 16 bit untuk kemudian disimpan menjadi nilai dari suara yang berhasil direkam. Sinyal suara yang sudah berbentuk nilai tersebut sudah bisa diproses dan selanjutnya akan masuk tahap fitur ekstraksi untuk dirubah kembali menjadi koefisien yang mempunyai nilai ciri agar bisa diklasifikasi.
3.2.3.Pre-processing
Sinyal suara yang sudah berbentuk digital, masuk ke tahapan ini yang merupakan tahapan awal pada metode MFCC.Tahapan ini berfungsi untuk meningkatkan kualitas sinyal suara dengan mengurangi noise agar mempermudah tahapan-tahapan berikutnya dalam memproses sinyal suara tersebut. Terdapat dua langkah pada tahapan ini yaitu end-point detection danpre-emphasis.
a. End-point Detection
Langkah ini bertujuan untuk mengidentifikasi titik awal dan titik akhir dari sinyal suara yang berhasil direkam dan menghilangkan noise yang ada pada bagian
diidentifikasi melalui titik akhir sinyal suara tersebut. Jika titik akhir sudah ditemukan, keberadaan noise pada sinyal suara dideteksi berdasarkan nilai zero-crossing dan nilai dari variabel average-energy yang sudah dihitung dan ditentukan pada sistem ini. Kemudian bagian sinyal suara yang terdeteksi sebagai noise akan dipotong menjadi bagian kecil dan dihilangkan dari bagian sinyal suara. Sinyal suarayang sudah dihilangkan noisenya akan masuk pada langkah berikutnya.
b. Pre-emphasis
Sinyal suarapada langkah sebelumnya masuk ke langkah ini untuk dikurangi lagi noise-noise yang mungkin muncul dengan menyeimbangkan amplitudo pada nilai yang tinggi dan rendah. Tahapan ini meningkatkan kualitas sample yang akan diproses pada tahapan berikutnya. Sinyal suara setelah pre-processing memiliki nilai amplitudo yang lebih kecil dan terlihat lebih ramping bentuk sinyal suaranya dibandingkan dengan sinyal suara sebelum pre-processing, hal ini menunjukkan bahwa sinyal suara setelah pre-processingsudah diperbaiki kualitasnya dan sudah berkurang noise-noise yang akan mengurangi kehandalan sistem dalam memproses sinyal suara pada tahapan berikutnya.
3.2.4. Frame Blocking
Pada tahapan ini sinyal suara akan dipisahkan menjadi beberapa frame. Panjang frame yang dipisahkan dari sebuah sinyal suara sebanyak N. Nilai M merupakan nilai yang memisahkan antar frame atau jumlah overlapping untuk mempertahankan nilai yang ada pada sinyak suara, dimana M<N. Jumlah frame pada tiap sinyal suara dihitung melalui Persamaan 2.2. Contoh penghitungannya dengan waktu yang ditentukan untuk memotong sinyal suara sebesar 32 ms adalah sebagai berikut.
N = 16000 x 0.032 = 512 M = 512/2 = 256
J(f) = ((16000-512)/256) + 1 = 61
Dari penghitungan tersebut didapatkan hasil berupa panjang frame berjumlah 512 samples, jumlah overlapping berjumlah 256 samples, dan jumlah frame yang terbentuk berjumlah 61 frame. Frame pertama dimulai dari nilai sample 0, frame kedua dimulai dengan nilai pada sample ke 256 bukan yang ke 512 karena ada jumlah
22
overlapping yang memisahkan antar frame dan begitu seterusnya sampai seluruh jumlah frame berhasil dipenuhi.
3.2.5. Windowing
Tahapan ini menggandakan tiap-tiap frame dari sebuah sample dari titik awal hingga titik akhirframe meningkatkan kontinuitas sinyal suara pada titik awal dan titik akhir frame. Sistem pada penelitian ini menggunakan windowing jenis hamming windows.Hamming windows digunakan karena menghasilkan noise yang tidak terlalu besar dan umum digunakan pada proses ekstraksi nilai sebuah sinyal suara.
Proses penghitungan nilai windowing menggunakan Persamaan 2.3. Kemudian nilai setelah melewati windowing didapatkan dengan mengalikan nilai sinyal setelah proses pre-emphasis dengan nilai windowing. Dimana contoh nilai sebelum melewati windowing adalah -10.74, -45.53, 3.86, 35.3, 77, 25.96, -94.33, 88.71.Contoh penghitungannya sebagai berikut.
= 0.08 = -10.74 x 0.08 = -0.86
= -45.53 x 0.08 = -3.64 = 3.86 x 0.08 = 0.3 = 35.31 x 0.08 = 2.82 = 77 x 0.08 = 6.16 = 25.96 x 0.08 = 2 = -94.33 x 0.08 = -7.54 = 88.71 x 0.08 = 7
Dari penghitungan tersebut dihasilkan nilai sinyal baru setelah melewati tahapan windowing.Hasil penghitungannya sebagai berikut.
= -0.86, -3.64, 0.3, 2.82, 6.16, 2, -7.54, 7
3.2.6.Fast Fourier Transform (FFT)
FFT merupakan tahapan yang mengubah sinyal dari domain waktu ke domain frekuensi.Tahapan ini bertujuan untuk memperoleh frekuensi dan power spectrum yang muncul pada tiap tiap frame. Proses pengubahannya dihitung menggunakan Persamaan 2.3.
Untuk menghasilkan nilai FFT yang nantinya akan dipergunakan pada tahapan berikutnya dilakukan proses penghitungan menggunakan Persamaan 2.4. Dimana contoh nilai sebelum melewati FFT adalah -0.86, -3.64, 0.3, 2.82, 6.16, 2, -7.54, dan 7.Contoh penghitungannya sebagai berikut.
= ((-0.86 (cos )) - j sin + (-3.64 (cos )) - j sin + (-0.3 (cos )) - j sin + (2.82 (cos )) - j sin + (6.16 (cos )) - j sin + (2 (cos )) - j sin + (-7.54 (cos )) - j sin + (7 (cos )) - j sin )/8 = 0.8 – 0j
= ( |0.82 + (-0)2|)1/2 = 0.8
= ((-0.86 (cos )) - j sin + (-3.64 (cos )) - j sin + (-0.3 (cos )) - j sin + (2.82 (cos )) - j sin + (6.16 (cos )) - j sin + (2 (cos )) - j sin + (-7.54 (cos )) - j sin + (7 (cos )) - j sin )/8 = -1 – 0.011j
= ( |(-1)2 + (-0.011)2|)1/2 = 0.94
= ((-0.86 (cos )) - j sin + (-3.64 (cos )) - j sin + (-0.3 (cos )) - j sin + (2.82 (cos )) - j sin + (6.16 (cos )) - j sin + (2 (cos )) - j sin + (-7.54 (cos )) - j sin + (7 (cos )) - j sin )/8 = 1.562 – 0.022j
= ( |1.5622 + (-0.022)2|)1/2 = 1.56
24
Penghitungan terus dilakukan sampai keseluruhan data sinyal lainnya berhasil dihitung. Dari penghitungan tersebut dihasilkan nilai sinyal baru setelah melewati tahapan FFT. Hasil penghitungannya sebagai berikut.
= 0.8, 0.94, 1.56, 0.76, 1.28, 0.73, 1.5, 1
3.2.7. Mel Filtering
Tahapan ini akan memfilter sinyal suara yang sudah diproses pada tahapan sebelumnya dan menciptakan sebuah pola yang dinamakan mel-spectrum. Sebelum difilter, harus ditentukan terlebih dahulu nilai pada filterbank. Jika nilai sudah ditentukan maka proses filtering dapat diaplikasikan ke sinyal suara yang sudah diproses pada tahapan sebelumnya dan akan menghasilkan mel-spectrum.
Langkah pertama yaitu frekuensi linear dikonversi menjadi mel-frequency.
Terlebih dahulu frekuensi linear dibagi menjadi frekuensi terendah dengan frekuensi tertinggi. Pada penelitian ini frekuensi terendah sebesar 130 Hz dan frekuensi tertinggi 8000 Hz. Kemudian kedua frekuensi ini dikonversi dengan menggunakan rumus yang sudah dijelaskan pada Persamaan 2.4. Tiap filter pada mel-filterbank akan menghasilkan mel-spectrum yang besaran energinya bergantung dari sinyal suara yang masuk.
3.2.8. Discrete Cosine Transfrom (DCT)
Tahapan ini merupakan tahapan akhir dari algoritma MFCC yang akan menghasilkan koefisien-koefisien yang digunakan untuk pengenalan suatu sinyal suara. Koefisien didapatkan dengan mengubah mel-spectrum menjadi domain waktu. Sinyal suara yang sudah diproses pada tahapan sebelumnya akan menghasilkan mel-spectrum yang memiliki besaran energi. Besaran energi ini akan diubah menjadi koefisien-koefisien.
Nilai yang terkandung di dalam koefisien-koefisian tersebut disebut dengan vektor akustik yang menjadi ciri dari suatu sinyal suara. Penghitungannya dihasilkan melalui Persamaan 2.8.
3.2.9. Feature Training
Proses ini hanya dilewati oleh data uji karena proses ini melakukan perekaman data uji yang merupakan variabel acuan untuk proses matching ke dalam bentuk codebook.
Masing-masing data uji tersebut akan memiliki codebook yang berbeda-beda dan akan disimpan ke dalam file berbentuk teks berekstensi vq yang disebut dengan model VQ.
Model VQ yang terbentuk pada sistem ini dinamai dengan “sburung1.vq” dan
"lingkungan1.vq".
Proses ini memetakan vektor-vektor akustik data latih yang didapatkan pada proses sebelumnya ke dalam suatu ruang vektor dua dimensi. Vektor-vektor akustik tersebut dipetakan dengan cara mengelompokkan vektor-vektor akustik ke suatu area yang disebut cluster. Jadi di dalam ruang vektor dua dimensi tersebut terdapat beberapa cluster yang memisahkan kelompok satu dengan yang lain. Setiapcluster memiliki titik centroid (titik pusat) yang disebut dengan codeword. Kumpulan dari codeword ini disebut dengan codebook.Codebook ini kemudian akan disimpan ke dalam model VQ untuk proses klasifikasi.
3.2.10. Matching
Proses ini merupakan tahapan akhir yang akan dicapai. Proses ini merupakan tahap identifikasi sinyal suara yang sudah diwakili dengan vektor-vektor akustik.
Berkebalikan dengan proses feature training, proses ini hanya dilakukan untuk data uji. Karena proses ini mencocokkan vektor-vektor akustik data uji dengan codeword yang ada pada codebook di dalam model VQ.
Sinyal suara yang sudah berbentuk vektor-vektor akustik akan dipetakan ke dalam ruang vektor dua dimensi. Pemetaan tersebut akan menghasilkan titik-titik koordinat vektor-vektor akustik masukan. Titik-titik koordinat vektor akustik masukan kemudian dibandingkan dengan titik-titik koordinat codeword di dalam suatu codeword dari VQ model yang sudah dibentuk pada feature training. Perbandingan posisi tersebut akan menghasilkan suatu besaran jarak terdekat yang disebut dengan VQ distortion. Proses pencocokan ini ditentukan dari jarak tersebut, dimana hasil pencocokannya ditentukan berdasarkan total rataan besaran VQ distortionterkecil antara vektor akustik dengan codeword pada codebook. Proses pencocokan ini dilakukan kepada tiap codebook di dalam tiap model VQ yang sudah dilatih sebelumnya. Sinyal suara data latih yang sudah berbentuk model VQ dengan rataan besaran VQ distortion terkecil merupakan sinyal suara yang memiliki kemiripan dengan sinyal suara yang masuk dan menghasilkan keputusan bahwa sinyal suara yang masuk sama dengan sinyal suara data latih tersebut.
26
3.2.11. Konversi Hasil Klasifikasi
Penelitian ini bertujuan memberikan kemudahan kepada para petani untuk selalu bisa mengawasi sawah dari keberadaan burung. Maka dari itu, hasil klasifikasi yang diproses pada aplikasi desktop ini adalah apabila aplikasi berhasil mendeteksi suara burung maka aplikasi akanmengeluarkan suara tembakan yang akan langsung keluar dari speaker eksternal yang dipasang pada laptop sistem ini sebagai tindakan untuk mengusir keberadaan burung.