30 BAB III
METODOLOGI PENELITIAN 3.1.Rancangan Penelitian
Pembuatan model identifikasi suara tangisan bayi yang diterapkan berdasarkan kateogri Dunstan Baby Language menggunakan metode ekstraksi fitur suara Prosodic Feature dan algoritma K-Nearest Neighbours. Data yang digunakan berasal dari bayi berumur 0-3 bulan yang telah diberikan label sesuai kategori Dunstan Baby Language sebanyak 150 file suara dalam format .wav.
Berikut gambar desain sistem untuk mengilustrasikan penelitian ini.
Gambar 3. 1Desain Sistem Proses Penelitian
31
Bayi yang berusia lebih dari 3 bulan memiliki suara tangisan yang berbeda sehingga suara yang dihasilkan menurut kategori Dunstan Baby Language tidak muncul. Penelitian milik Irma Amelia Dewi menggunakan 25 sampel data mencapai akurasi 76%[2], maka di penelitian kali ini akan dicoba menggunakan data sebanyak 150 sampel data. Setelah sampel data terkumpul maka diproses melalui Speech Identification, yaitu menggunakan ekstraksi fitur suara Prosodic Feature, mencari pola sinyal dengan Moment of Distribution.
3.2. Populasi dan Sampel
Terdapat 5 kategori suara pada data identifikasi suara tangisan bayi berdasarkan Dunstan Baby Language, yaitu “neh” berarti lapar, “owh” berarti lelah atau mengantuk, “eairh” berarti ingin buang angin, “eh” berarti ingin sendawa dan “heh” berarti tidak nyaman. Pada gambar berikut akan ditampilkan contoh hasil ekstraksi fitur menggunakan Prosodic Feature dari salah satu suara
“Eairh” berarti ingin buang angin dan salah satu suara “Eh” berarti ingin sendawa.
Gambar 3. 2 hasil ekstraksi fitur salah satu suara “Eairh”
Gambar 3. 3hasil ekstraksi fitur salah satu suara “Eh”
32
Dari hasil ekstraksi fitur dapat dilihat hasil yang dikeluarkan adalah Name, Frame Time, Fundamental Frequency (f0), Voicing Probability dan PCM Loudness. Bila ditampilkan dalam bentuk grafik maka akan terlihat perbedaan setiap suara.
Berikut gambar hasil Fundamental Frequency (f0) dari salah satu suara “Eairh”
dan “Eh”.
Gambar 3. 4 Grafik Fundamental Frequency dari salah satu suara “Eairh”.
Gambar 3. 5 Grafik Fundamental Frequency dari salah satu suara “Eh”.
0 10000000 20000000 30000000 40000000 50000000 60000000
1 20 39 58 77 96 115 134 153 172 191 210 229 248 267 286
F0final_sma
F0final_sma
0,00E+00 1,00E+08 2,00E+08 3,00E+08 4,00E+08 5,00E+08
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196
F0final_sma
F0final_sma
33
Berikut gambar hasil Voicing Probability dari salah satu suara “Eairh” dan suara
“Eh”.
Gambar 3. 6 Grafik Voicing Probability dari salah satu suara “Eairh”
.
Gambar 3. 7 Grafik Voicing Probability dari salah satu suara “Eh”
0,00E+00 1,00E+05 2,00E+05 3,00E+05 4,00E+05 5,00E+05 6,00E+05 7,00E+05 8,00E+05 9,00E+05 1,00E+06
1 24 47 70 93 116 139 162 185 208 231 254 277
voicingFinalUnclipped_sma
voicingFinalUnclipped_
sma
0,00E+00 1,00E+05 2,00E+05 3,00E+05 4,00E+05 5,00E+05 6,00E+05 7,00E+05 8,00E+05 9,00E+05 1,00E+06
1 17 33 49 65 81 97 113 129 145 161 177 193
voicingFinalUnclipped_sma
voicingFinalUnclipped_
sma
34
Berikut gambar hasil PCM Loudness dari salah satu suara “Eairh” dan suara “Eh”.
Gambar 3. 8 Grafik PCM Loudness dari salah satu suara “Eairh”.
Gambar 3. 9 Grafik PCM Loudness dari salah satu suara “Eh”.
3.3. Teknik Pengumpulan Data dan Pengembangan Instrumen
Pada penelitian ini model data suara tangisan bayi merujuk pada model data benchmark milik Dunstan Baby Language. Priscillia Dunstan memaparkan bahwa
0,00E+00 2,00E+05 4,00E+05 6,00E+05 8,00E+05 1,00E+06 1,20E+06 1,40E+06
1 23 45 67 89 111 133 155 177 199 221 243 265 287
pcm_loudness_sma
pcm_loudness_sma
0,00E+00 2,00E+05 4,00E+05 6,00E+05 8,00E+05 1,00E+06 1,20E+06 1,40E+06 1,60E+06
1 16 31 46 61 76 91 106 121 136 151 166 181 196
pcm_loudness_sma
pcm_loudness_sma
35
5 kategori Dunstan Baby Language yang ditelitinya selama 8 tahun dapat mewakili kondisi bayi. Oleh karena itu, penelitian ini menggunakan 5 kategori tersebut agar dapat memvalidasi kesesuaian antara penelitian Priscillia Dunstan dengan hasil komputasi melalui pendekatan Speech Identification dan Speech Recognition.
Dalam proses pengumpulan data didapatkan berbagai sampel data suara tangisan bayi dengan batasan bayi berumur 0-3 bulan sebagai berikut.
1. 5 sampel x 5 kategori (Cuplikan video tangisan bayi yang diputar pada acara My Mum Oprah, Nara Sumber: Priscillia Dunstan), model data ini dijadikan sebagai rujukan utama.
2. CD Dunstan Baby Language bayi(berjumlah 102 file).
3. Dataset dari akun github (berjumlah 8 data).
4. Dataset dari research.google.com (berjumlah 15 data).
Data dari CD Dunstan Baby Language berupa file video dengan format .mkv, video tersebut dipotong sesuai kebutuhan yaitu ketika ada contoh suara bayi lapar, buang angin, sendawa, tidak nyaman dan lelah. Data suara bayi dari youtube berupa video mp4, video tersebut dipotong sesuai kebutuhan yaitu ketika ada contoh suara bayi lapar, buang angin, sendawa, tidak nyaman dan lelah. Total data suara tangisan bayi yang telah terkumpul ada 150 file dalam format .wav. Berikut data audio yang telah di edit untuk di olah.
36
Gambar 3. 10 Hasil audio suara “Eairh” dari CD Dunstan Baby Language
Gambar 3. 11 Hasil audio suara “Eh” dari CD Dunstan Baby Language
37
Gambar 3. 12 Hasil audio suara “Heh” dari CD Dunstan Baby Language
Gambar 3. 13 Hasil audio suara “Neh” dari CD Dunstan Baby Language
38
Gambar 3. 14 Hasil audio suara “Owh” dari CD Dunstan Baby Language
3.4. Teknik Analisis Data
Teknik Analisis data yang digunakan pada penelitian ini, yaitu ekstraksi fitur Prosodic Feature, mencari pola sinyal suara Moment of Distribution dan algoritma K-Nearest Neighbour.
3.4.1. Speech Identification
Sebelum memasuki tahap Speech Recognition, tahap yang harus dilakukan adalah Speech Identification. Speech Identification meliputi ekstraksi fitur suara Prosodic Feature, mencari pola sinyal berdasarkan distribusinya Moment of Distribution.
1. Ekstraksi Fitur Suara Prosodic Feature
Dalam prosodik ada tiga karakteristik utama yaitu, fundamental frequency(f0), frame range, dan loudness yang diambil dari sinyal suara.
39
Sebagaimana dibahas dalam banyak jurnal, Prosodic Feature, terkenal untuk memberikan informasi yang berguna tentang gaya bicara seseorang, dan dengan demikian, banyak digunakan dalam Speech Recognition[5].
Fitur pitch adalah menangkap level fundamental frequency(f0), sedangkan fitur energi mencerminkan pola naik dan turunnya level loudness. Untuk fitur durasiadalahdurasi setiap milidetik yang didapatkan dari pitch dan energi.
2. Mencari Pola Sinyal Moment of Distribution
Setelah ekstraksi fitur dilakukan, hasil yang didapatkan masih belum maksimal. Banyaknya baris data yang diekstrak berdasarkan frame timememungkinkan banyak kesalahan yang terjadi/error pada saat proses klasifikasi. Karena tingkat keunikan dari kategori suara tangisan bayi menurut Dunstan Baby Language belum terdeteksi. Maka untuk mencari pola sinyal suara berdasarkan distribusinya dari setiap suara tangisan bayi dapat menggunakan Moment of Distribution, Sehingga 1 suara tangisan bayi dapat terwakili dalam 1 sampel data saja.
3.4.2.Speech Recognition
Dalam penelitian kali ini pendekatan yang digunakan adalah pengenalan pola. Pengenalan pola yang akan digunakan adalah metode klasifikasi menggunakan K-Nearest Neighbour.
40
1. Metode Klasifikasi K-Nearest Neighbour
Pada tahap klasifikasi menggunakan algoritma K-Nearest Neighbours nilai K yang akan digunakan adalah 1,3,5,7 dan 9. Selanjutnya tiap data yang diklasifikasikan pada setiap nilai K yang berbeda akan diuji menggunakan data sampling Percentage Rate dan Leave One Out (LOO).
Data sampling Percentage Rate yang akan diklasifikasikan yaitu 70:30, 80:20 dan 90:10. Hasil dari tiap data sampling dan nilai K akan disajikan dalam tabel berisi akurasi. Lalu untuk menentukan mana klasifikasi terbaik berdasarkan nilai K maka hasil klasifikasi setiap nilai K akan di hitung rata-ratanya. Sama seperti sebelumnya untuk menentukan mana klasifikasi terbaik berdasarkan data sampling maka hasil klasifikasi setiap data sampling akan dihitung rata-ratanya
2. Metode K-Means Clustering
Metode ini dipilih sebagai alternatif, untuk melihat bagaimana data tangisan suara tersebut dikelompokkan secara natural oleh K-means.
Metode ini dapat mengelompokkan data berdasarkan kemiripan dari karakteristik data dengan cara menentukan di awal dahulu berapa kelompok data yang ingin dibentuk. Dalam penelitian ini ditentukan kelompok data sebanyak 5 sesuai dengan kategori Dunstan Baby Language. Sehingga akan terbentuk kelompok atau cluster data yang belum diketahui nama-nama kategori datanya. Diterapkannya metode K- means pada penelitian ini untuk mengetahui seberapa cocok label cluster dengan label aktual pada data tangisan suara bayi tersebut. Biasanya,
41
kategori yang dihasilkan oleh label cluster milik K-means akan memiliki performa akurasi yang baik dibanding label aktualnya. Namun kekurangannya adalah dengan digunakannya label cluster sebagai model data, maka akan menyalahi aturan data label aktualnya yang sudah ditentukan di awal. Oleh karena itu, tujuan diterapkannya K-means clustering ini hanya untuk mengetahui seberapa cocok hasil label cluster milik K-meansdengan label aktual pada data tangisan suara bayi.
3.4.3. Mengukur Kinerja Klasifikasi Menggunakan Confusion Matrix
Setelah mendapatkan hasil klasifikasi data baru terhadap data latih selanjutnya menentukan akurasi menggunakan Confusion matrix digambarkan dengan tabel yang menyatakan jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan.