View of Implementasi Algoritma MFCC dan CNN dalam Klasifikasi Makna Tangisan Bayi

(1)

Jln. Khatib Sulaiman Dalam, No. 1, Padang, Indonesia, Telp. (0751) 7056199, 7058325 Website: ijcs.stmikindonesia.ac.id | E-mail: [email protected]

Implementasi Algoritma MFCC dan CNN dalam Klasifikasi Makna Tangisan Bayi Senli Yusdiantoro¹, Theopilus Bayu Sasongko²

[email protected],[email protected] Universitas Amikom Yogyakarta

Informasi Artikel Abstrak Diterima : 17 Jun 2023

Direview : 10 Jul 2023 Disetujui : 27 Ags 2023

Menangis merupakan salah satu usaha bayi dalam berkomunikasi untuk menyampaikan suatu kondisi yang sedang dialaminya, baik itu sedang lelah, sakit perut, rasa tidak nyaman maupun lapar. Bagi sebagian orang tua yang baru memiliki anak tentu tidak selalu mampu untuk memahami apa yang dikehendaki oleh bayi ketika dia menangis, karena suara tangisan yang dihasilkan terdengar hampir sama. Maka, pada penelitian ini dibuat sebuah sistem klasifikasi makna tangisan bayi dengan mengimplementasikan deep learning. Untuk memahami arti tangisan bayi berdasarkan penyebabnya dengan mengimplementasikan metode Mel-Frequency Cepstral (MFCC) sebagai fitur ekstraksi ciri dan CNN sebagai metode klasifikasi. Diantara proses pelatihan dan pengujian yang telah berhasil dilakukan dalam penelitian ini diperoleh hasil akurasi tertinggi terhadap pelatihan yang dilakukan dengan 50 epoch sebesar 93,84% dan model mampu mengklasifikasikan makna tangisan bayi berdasarkan penyebabnya terhadap data baru dengan rata-rata akurasi 88.04%.

Kata Kunci

Tangisan, Bayi, MFCC, CNN, Klasifikasi

Keywords Abstrak

Crying, Baby, MFCC, CNN,

Classification Crying is a baby's way of communicating his needs and expressing his current condition, such as fatigue, colic, discomfort or hunger. However, for new parents, it can be difficult to understand the meaning behind their baby's cries because they all sound the same. To overcome this, a study was conducted to develop a system that can classify the meaning of baby cries using deep learning techniques.This research uses Mel-Frequency Cepstral (MFCC) method as a feature extraction technique and Convolutional Neural Network (CNN) as a classification method. The training and testing process achieved successful results, with the highest training accuracy recorded at 93.84% after 50 epochs.

The developed model was able to classify the meaning of baby cries based on the cause of the new data, with an average accuracy of 88.04%.

(2)

A. Pendahuluan

Komunikasi adalah penyampaian pesan (pandangan baru, gagasan) dari satu pihak ke pihak lain sedemikian rupa sehingga terbentuk proses saling pengaruh antara keduanya[1]. Terdapat 2 Jenis bentuk komunikasi diantaranya komunikasi verbal dan non verbal, komunikasi verbal merupakan suatu wujud komunikasi yang menggunakan bahasa tulis atau lisan dan memerlukan alat bantu berupa bahasa yang keluarannya berupa kata-kata lisan ataupun tulisan. Salah satu contoh dari komunikasi verbal ialah menangis yang merupakan salah satu cara bagi bayi untuk mengomunikasikan keadaan yang dialaminya, baik itu sedang lelah, sakit perut, rasa tidak nyaman maupun lapar. Bagi sebagian orang tua yang baru memiliki anak tentu tidak selalu mampu untuk memahami apa yang dikehendaki oleh bayi ketika dia menangis, karena bunyi tangisan yang dihasilkan terdengar hampir sama atau mirip.

Sebelumnya, telah ada penelitian yang terkait mengenai klasifikasi pada tangisan bayi seperti penelitian yang dilakukan oleh Irma Amelia Dewi, dkk yang berjudul “Identifikasi Suara Tangisan Bayi Menggunakan Metode Linear Predictive Coding (LPC) dan Euclidean Distance”[2] lalu penelitian oleh Aditya Singgi Prayogi, dkk yang berjudul “Klasifikasi Suara Tangisan Bayi Berdasarkan Prosodic Features Menggunakan Metode Moments of Distribution dan K-Nearest Neighbours”[3] dan Yohanes & Ricky Wijaya yang berjudul “Klasifikasi Makna Tangisan Bayi Menggunakan CNN Berdasarkan Kombinasi Fitur MFCC dan DWT” pada penelitian ini menyatakan hasil mengenai kombinasi fitur MFCC dan DWT dalam klasifikasi makna tangisan bayi dengan menggunakan CNN bahwa performa yang dihasilkan yaitu untuk precision sebesar 50,91%, recall sebesar 44,23%, dan accuracy sebesar 73,33% [4].

Berdasarkan uraian yang disajikan dan penelitian sebelumnya, diperlukan penelitian lebih lanjut dengan menggunakan algoritma perseptual MFCC dan CNN yang lebih akurat untuk mengidentifikasi makna tangisan bayi secara lebih akurat.

daripada studi sebelumnya.

B. Metode Penelitian

Penelitian ini dikategorikan kedalam jenis penelitian kuantitatif dan penelitian ini dilakukan melalui beberapa tahapan diawali dengan pengumpulan data, lalu Ekstraksi Ciri, Penerapan Algoritma CNN, hingga Evaluasi. Langkah-langkah dalam penelitian ini diilustrasikan pada Gambar 1.

Gambar 1. Tahapan Penelitian 1. Pengumpulan Data

Pengumpulan data yang digunakan untuk penelitian ini menggunakan

kumpulan data publik yang diunduh dari

(https://www.kaggle.com/datasets/aniruth100/baby-cry-detection). Data yang

(3)

diambil berupa audio suara tangisan bayi dengan format .wav dan memiliki panjang durasi 4 hingga 8 detik dengan bitrate audio 128 kbps. Terdapat 5 kelas yaitu belly- pain berisi 16 files, burping 8 files, discomfort 27 files, hungry 382 files, tired 24 files.

Audio direkam dengan ukuran dan panjang durasi yang serupa agar kualitas data memiliki batasan yang jelas, dikarenakan kualitas data audio ini akan mempengaruhi model yang dihasilkan oleh sistem. Upaya agar data tidak timpang, maka dilakukan juga augmented audio terhadap kelas belly_pain yang menghasilkan 14 files baru serta kelas burping menghasilkan 16 files baru. Metode augmented audio yang dilakukan adalah perubahan pitch dan pemfilteran frekuensi.

2. MFCC

MFCC (Mel Frequency Cepstral Coefficients) merupakan fitur ekstraksi ciri yang sering digunakan pada teknologi ucapan, baik dalam pengenalan pembicara maupun pengenalan ucapan. Metode ini digunakan untuk mengekstraksi fitur, yaitu proses mengubah sinyal suara menjadi beberapa parameter[5]. Data audio tangisan bayi yang didapatkan dari dataset publik ini masih timpang, maka diperlukan preprocessing untuk meningkatkan kualitas dataset yang ada agar model yang diciptakan juga menjadi baik. Preprocessing yang dilakukan adalah penyesuaian volume, panjang audio serta penamaan file audio. Setelah data telah rapi maka dilakukan ekstraksi fitur MFCC, proses ekstraksi ini dilakukan guna mengkonversikan sinyal suara menjadi beberapa parameter agar data dapat diklasifikasikan sesuai kategorinya masing-masing. Proses MFCC dimulai dari Pre- emphasis, framing, windowing, fast fourier transform, mel frequency wraping, discrete cosine transform, hingga cepstral filtering.

Gambar 2. Proses Ekstraksi Ciri MFCC 2.1 Pre-emphasis

Pre-emphasis adalah jenis filter yang sering dipakai sebelum signal diproses lebih lanjut, suatu proses dimana sinyal dilewatkan melalui filter yang dapat menerima frekuensi tinggi[6]. Filter ini bertujuan agar dapat menjaga berbagai frekuensi tinggi pada spektrum signal, yang biasanya hilang selama proses

(4)

pembuatan suara atau sering dikenal sebagai Boosting yang dapat memberikan informasi lebih kepada model akustik. Fungsi dari filter preemphasis ini adalah:

a. Mengurangi rasio noise pada signal sehingga mampu meningkatkan kualitas signal.

b. Memperoleh bentuk spektral frekuensi signal ucapan yang lebih halus.

c. Menyeimbangkan spektrum dari signal audio.

Persamaan Pre-emphasis dapat dilihat pada persamaan 1.

𝑦 (𝑛) = 𝑠 (𝑛) − 𝛼𝑠 (𝑛 − 1) (1) Dimana :

y(n) = Sinyal hasil Pre-emphasis s(n) = Sinyal sebelum Pre-emphasis

α = konstanta Pre-emphasis yang biasanya bernilai 0.97.

2.2 Frame Blocking

Setelah melewati pre-emphasis, sinyal tersebut kemudian mengalami proses frame blocking. Proses ini membagi sinyal ke dalam frame dengan N sampel serta menggesernya sebesar M sampel, di mana N=2M dan M<N[7]. Frame blocking memudahkan perhitungan dan analisis suara. Setiap frame terdiri dari beberapa sampel, yang tergantung pada interval sampel suara dan frekuensi sampling yang digunakan. Perhitungan besaran frame blocking dapat menggunakan persamaan 2.

𝑓_!(𝑛) = 𝑦 (𝑀𝑙 + 𝑛) (2)

Dalam konteks ini, fl(n) adalah hasil dari frame blocking, dengan simbol n yang berarti 0,1,...N-1. Simbol N merepresentasikan jumlah sampel, M merupakan panjangnya frame, dan l adalah 0,1,…L-1. Simbol L melambangkan seluruh sinyal, dan y adalah hasil dari tahap pre-emphasis.

2.3 Windowing

Membagi suara kedalam beberapa frame menyebabkan data suara akhirnya menjadi tidak kontinu, yang mengakibatkan suatu kesalahan dalam proses transformasi Fourier. Untuk mencegah kesalahan data dalam proses transformasi Fourier, sampel audio yang telah dipecah menjadi beberapa bagian frame perlu dijadikan berkelanjutan dengan mengalikan setiap frame dengan jendela (window) tertentu[8]. Windowing ini juga berfungsi sebagai penghilang noise atau derau yang muncul pada ujung frame dengan mempertimbangkan blok[9]. Proses windowing dapat dihitung dengan persamaan 3.

𝑦_# = 𝑥_# 𝑥 𝑤_# , 0 ≤ 𝑛 ≤ 𝑁 − 1 (3) Dimana :

N = besaran sampel di setiap frame 𝑦_# = nilai sinyal dari hasil windowing 𝑥_# = nilai dari frame sinyal ke-n 𝑤_# = fungsi windowing

Window Hamming adalah fungsi jendela yang sering dijumpai untuk dipakai ke dalam aplikasi pengenalan suara. Fungsi jendela Hamming ini menghasilkan

(5)

tingkat sidelobe yang relatif rendah (sekitar -43 dB) dan juga menghasilkan tingkat noise yang tidak terlalu besar (sekitar 1.36 BINS).

2.4 Fast Fourier Transform

FFT (Fast Fourier Transform) merupakan tahapan yang difungsikan untuk mengkonversikan frekuensi setiap frame dari time domain menjadi frequency domain serta guna menganalisis spektrogram berdasarkan sinyal inputan. Pada tahapan ini, sinyal frekuensi yang berasal dari proses windowing dapat dikerjakan menggunakan persamaan 4.

𝑥_$ = ∑^%&!_#'( 𝑥_#𝑥𝑒 ^&)*$#_% , 𝑛 = 0 ≤ 𝑛 ≤ 𝑁 − 1 (4) Dimana :

𝑥_$ = besaran frekuensi pada sinyal 𝑘 = frekuensi audio sebelum FFT 𝑥_# = nilai sinyal pada waktu ke-n 𝑁 = jumlah waktu pada sampel 2.5 Mel Frequency Warping

Pembentukan frekuensi mel ini dijalankan untuk mendapatkan magnitude spectrum yang sesuai serta mengurangi ukuran filter tersebut. Filter ini diproduksi mengikuti cara persepsi telinga bagian dalam manusia untuk menerima suara. Pemahaman ini telah ditetapkan pada skala mel yang memiliki hubungan non-linear dengan frekuensi suara[10]. Pembentukan frekuensi mel dilakukan dengan menggunakan bank filter untuk menentukan jumlah energi dalam pita frekuensi tertentu dari sinyal audio. pada tahap distorsi frekuensi mel, sinyal frekuensi yang diproses pada tahap transformasi fourier cepat diubah menjadi frekuensi mel menggunakan persamaan 5.

𝑀𝑒𝑙 (𝑓) = 2595 log_!( (1 + _,((⁺ ) (5) Dimana :

𝑓 = Frekuensi Sinyal

2.6 Discrete Cosine Transform

Tahap terakhir dalam proses MFCC adalah Discrete Cosine Transform (DCT) setelah hasil dari proses sebelumnya dikonversi kembali ke domain waktu, sehingga sinyal dapat dipresentasikan dengan baik. Hasil ini membentuk baris vektor akustik yang disebut Koefisien Cepstral Frekuensi Mel[11]. pada langkah ini, frekuensi mel diubah dengan persamaan 6.

𝐶_- = ∑^$_$'! (log 𝑆_$) 𝑐𝑜𝑠 [𝑚(𝑘 −^!₎)^*_$], 𝑚 = 1,2, … , 𝐾 (6) Dimana :

𝑆_$ = keluaran dari Mel Freuquency Warping

𝑘 = jumlah koefisien dari Mel Scale Cepstral Coefficients 2.7 Cepstral Filtering

(6)

Cepstrum adalah lawan kata dari spektrum. Sebuah cepstrum sering digunakan untuk mendapatkan informasi tentang sinyal audio yang didengar orang. penyaringan cepstral meningkatkan hasil dari keseluruhan tahapan MFCC sehingga keluarannya dapat lebih baik digunakan dalam model[10]. Ceptral Liftering diterapkan pada hasil DCT berupa ceptral features dengan memakai window pada Persamaan 7.

𝑊_# = 1 + ^.₎sin[^*#_.] (7) Keterangan :

L = jumlah cepstral coefficients n = index dari cepstral coefficients.

3. Convolutional Neural Network (CNN)

CNN (Convolutional Neural Network) merupakan satu dari beberapa metode jaringan pembelajaran mendalam visi komputer yang dapat mendeteksi dan mengklasifikasikan fitur gambar. Arsitektur CNN terinspirasi oleh organisasi dan fungsi korteks visual. Ini dirancang menyerupai koneksi antar neuron di otak manusia[12]. Selain digunakan untuk klasifikasi pengenalan objek gambar, CNN juga dapat menjadi metode untuk klasifikasi pengenalan tulisan tangan dan pengenalan suara[13]. CNN secara umum ini terdiri atas satu input layer, satu output layer dan beberapa hidden layers. Di atas hidden layers itu sendiri berisikan convolutional layer, pooling layer, retrified linear units layerdan fully connected layer.

3.1 Convolutional Layer

Convolutional Layer adalah sebuah tahapan ketika seluruh data menyentuh lapisan convolutional yang mengalami proses konvolusi lalu difilter dan kemudian akan menghasilkan sebuah activation map[14]. Terdiri dari sekumpulan filter yang diterapkan pada input yang diberikan dalam proses konvolusional. CNN biasanya menggunakan step width atau stride = 1 dengan zero padding pada persamaan 8.

𝑃 = ^(0&!)₎ (8) Dimana :

𝑃 = ukuran padding

𝐹 = ukuran bidang reseptif atau tingkat spasial yang sama dengan ukuran filter Untuk ukuran input layer dapat dinyatakan pada persamaan 9.

𝑤_!𝑥ℎ_!𝑥𝑑_! (9) Dimana :

𝑤_! = lebar ℎ_! = tinggi

𝑑_! = jumlah kanal

Sebuah CNN memiliki empat hyperparameter, yaitu jumlah fiter K, ukuran atau dimensi spasial bidang reseptif F, lebar langkah atau stride S, dan zero padding P. Volume keluaran (output) dapat dihitung dengan persamaan 10.

(7)

𝑤₎𝑥ℎ₎𝑥𝑑₎ (10)

Dimana 𝑤₎, ℎ₎, 𝑑₎ dapat dihitung dengan persamaan 11,12,13.

𝑤₎ = ⁽²^!^&03)4)₅ + 1 (11) ℎ₎ = ⁽⁶^!^&03)4)₅ + 1 (12)

𝑑₎ = 𝐾 (13)

CNN didesain dengan tidak menurunkan ukuran datanya terlalu cepat yang dapat menyebabkan membuat performa CNN menurun, bahkan hingga tidak mampu dalam menjalankan tugasnya. Namun apabila CNN menggunakan konvolusi 1x1, maka tujuannya untuk mereduksi kedalaman data, sedangkan lebar dan tinggi tetap dipertahankan.

3.2 Pooling Layer

Pooling Layer pada CNN bertujuan sebagai penjaga volume data ketika convolution dengan melakukan pereduksian sample. Lapisan ini disisipkan ke dalam lapisan konvolusi secara teratur. Bentuk Pooling Layer yang paling umum adalah 2x2[15]. Proses pooling yang paling sering dipakai adalah max pooling karena dapat memilih nilai maksimum dalam suatu area tertentu.

Gambar 3. Proses pada Lapisan Pooling 3.3 Rectified Linear Units Layer

Rectified Linear Units Layer atau sering disingkat ReLU ini adalah fungsi aktivasi sederhana yang berguna untuk tujuan praktis tertentu karena perhitungannya yang efektif. Fungsi ReLU mengkonversikan input menjadi nilai 0 jika negatif dan menyimpan nilai jika positif. Secara matematis fungsi ReLU ditunjukkan pada persamaan 14.

𝑓_78.9 = max(0, 𝑥) (14)

Nilai gradient dari fungsi aktivasi ini dapat dicari dengan persamaan 15.

𝑑𝑓_78.9 = (𝐹 > 0)𝑥1 (15) Dimana :

𝐹 = nilai gradient dari input pada layer sebelumnya.

3.4 Fully Connected Layer

Fully Connected Layer adalah lapisan yang diterapkan untuk megubah dimensi data sehingga mampu mengklasifikasikan secara linier[16]. Masing-masing

(8)

neuron mempunyai koneksitivitas penuh dengan seluruh aktivasi yang ada di lapisan sebelumnya. Perbedaan antara fully connected layer dengan convolution layer biasa yaitu bahwa neuron yang dimiliki pada convolution layer terhubung hanya ke wilayah tertentu, sedangkan fully connected layer memiliki neuron yang semuanya terhubung satu sama lain.

4. Evaluasi

Setelah melalui proses implementasi algoritma CNN yang dilanjutkan dengan pengujian terhadap data training dan testing, dimana dilakukan pembagian yaitu sebesar 70% untuk training dan 30% untuk testing. Selanjutnya, hasil klasifikasi ini dihitung agar mendapatkan tingkat keberhasilan terhadap metode yang telah diterapkan, dengan menggunakan metode confusion matrix yang dimana akan menghitung nilai presicion, recall, dan accuracy secara berturut- turut pada persamaan 16, 17, 18.

Precision = _:4304^:4 (16) Recall = ^:4

:430% (17)

Accuracy = :43:%30430%^:43:% (18) Dimana :

𝑇𝑃 = True Positive 𝑇𝑁 = True Negative 𝐹𝑃 = False Positive 𝐹𝑁 = False Negative C. Hasil dan Pembahasan Ekstraksi Ciri

Langkah yang menentukan bahan baku untuk dijadikan data klasifikasi yaitu adalah Ekstraksi ciri audio, pada tahap ini menggunakan metode MFCC. Setiap sampel suara tangisan bayi yang terdiri dari 5 kelas makna tangisan bayi yaitu belly pain, burping, discomfort, hungry, dan tired akan diinputkan ke dalam sistem, kemudian dilakukan ekstraksi ciri menggunakan MFCC dan akan menghasilkan visual grafik MFCC audio yang merepresentasikan numerik dari sinyal yang dapat menggambarkan ciri dari tangisan bayi pada contoh ini menggunakan audio tangisan bayi akibat kelelahan seperti Gambar 4.

Gambar 4. Spektogram MFCC terhadap suara tangisan bayi karena lelah

(9)

Implementasi CNN

Pengklasifikasian suara tangisan bayi pada penelitian ini menggunakan metode Convolutional Neural Networks dengan arsitektur Sequential. Setelah data audio tangisan bayi diekstraksi ciri menggunakan MFCC yang menghasilkan representasi numerik karakteristik tangisan bayi, selanjutnya akan melewati beberapa layer jaringan CNN yang terdiri atas Convolutional Layer, Activation Layer dan Pooling Layer.

Hasil Pelatihan

Pada penelitian ini dilakukan pelatihan terhadap model dengan epoch sebanyak 50 dan pembagian atas data latih dengan data uji yaitu 80%-20%. Model yang dilatih untuk masing-masing epoch memiliki nilai loss dan accuracy. Nilai-nilai tersebut ditunjukan pada Tabel 1.

Tabel 1. Hasil Pelatihan CNN

Epoch Loss Accuracy

1 0.9000 0.7603

2 0.6689 0.8493

3 0.6305 0.8493

4 0.6179 0.8493

5 0.5782 0.8493

6 0.6099 0.8493

7 0.5549 0.8493

... ... ...

46 0.3046 0.9247

47 0.2877 0.9041

48 0.2738 0.9247

49 0.2879 0.9212

50 0.28809 0.9384

Hasil pelatihan yang menghasilkan nilai loss dan accuracy dapat dilihat pada Tabel 1, menunjukkan akurasi paling tinggi terdapat pada epoch ke-50 dengan nilai akurasi 0.9384 atau 93.84% dan nilai loss terkecil muncul ketika epoch ke-50 yaitu 0.2809 atau 28.09%. hasil yang didapatkan menunjukkan bahwa akurasi model pelatihan yang telah disajikan pada tabel cenderung terlihat meningkat pada tiap- tiap epoch, begitu juga terjadi pada nilai loss yang memperlihatkan penurunan untuk di tiap epoch yang terjadi. Akan tetapi ketika epoch ke-2 hingga ke-7 nilai accuracy yang didapatkan memiliki nilai yang sama. Nilai rata-rata accuracy mencapai 88.04% dan nilai loss 55.51%. (hasil pelatihan yang lama)

Evaluasi Model

Tabel 2. Laporan Klasifikasi

Class Precision Recall F1-Score Support

Belly_pain 0.75 0.43 0.55 7

Burping 0.50 0.25 0.33 4

Discomfort 1.00 0.40 0.57 5

Hungry 0.87 0.99 0.92 79

Tired 0.12 0.33 0.18 3

Accuracy 0.86 98

Macro Avg 0.62 0.41 0.47 98

Weighted Avg 0.82 0.86 0.83 98

(10)

Tabel 2. menunjukkan hasil dari evaluasi performa dari model klasifikasi yang terdiri dari precision, recall, f1_score dan support. Jika dilihat pada Laporan Klasifikasi ini terdapat 1 class yaitu Discomfort yang memiliki nilai satu atau bisa dibilang model dapat melakukan klasifikasi dengan sangat baik terhadap kelas tersebut dikarenakan data yang diberikan untuk pelatihan dan pengetesan memiliki ciri unik yang dengan mudah bisa dikenali dengan baik. Nilai f1 tertinggi yang membuktikan kinerja baik dalam mengklasifikasikan kelas terdapat pada kelas Hungry yaitu mencapai 0.92. Akurasi yang diperoleh model dalam mengklasifikasikan makna tangisan bayi mencapai 86%.

Tabel 3. Confusion Matrix

3 0 0 4 0

0 1 0 3 0

0 0 2 3 0

0 1 0 78 0

1 0 0 2 0

Untuk memahami evaluasi performa klasifikasi dapat dilihat pada Tabel 3 Confusion Matrix yang menampilkan angka yang dapat digunakan untuk menghitung berbagai metrik evaluasi tambahan seperti spesifisitas dan tingkat kesalahan.

D. Simpulan

Pada penelitian ini telah dirancang suatu model untuk mengklasifikasikan makna suara tangisan bayi dengan menggunakan metode MFCC sebagai ekstraksi ciri dan convolutional neural network untuk klasifikasi. Pelatihan yang dijalankan dengan jumlah 50 epoch memperlihatkan bahwa akurasi pelatih mengalami peningkatan. Akurasi tertinggi terdapat di epoch ke-50 dengan besaran akurasi mencapai 0.9384 atau 93.84% Hasil rata-rata yang didapatkan dari pelatihan yaitu 88.04% untuk akurasi dalam mengklasifikasikan makna tangisan bayi dengan nilai loss sebesar 55.51%.

Terdapat beberapa rekomendasi dan saran yang dapat menjadi sarana pengembangan terhadap penelitian ini :

1. Mengumpulkan data audio tangisan bayi yang lebih banyak dan bervariasi harapannya agar dataset yang dipakai lebih balance.

2. Menggunakan kombinasi metode klasifikai selain CNN terhadap fitur ekstraksi ciri MFCC

E. Ucapan Terima Kasih

Terima kasih kepada semua pihak yang telah ikut serta dalam membantu proses penelitian ini dari awal berjalan hingga selesai. Tak lupa apresiasi sebesar-besarnya kepada user Kaggle Anitaruth100 yang telah menyediakan data yang dapat digunakan pada penelitian ini.

F. Referensi

[1] physipol, “Most Effective Communication,” Universitas Medan Area, 2022.

https://ilmukomunikasi.uma.ac.id/2022/01/26/komunikasi-paling-efektif/

(11)

(accessed Jun. 16, 2023).

[2] I. A. DEWI, A. ZULKARNAIN, and A. A. LESTARI, “Identifikasi Suara Tangisan Bayi menggunakan Metode LPC dan Euclidean Distance,” ELKOMIKA J. Tek.

Energi Elektr. Tek. Telekomun. Tek. Elektron., vol. 6, no. 1, p. 153, 2018, doi:

10.26760/elkomika.v6i1.153.

[3] A. S. Prayogi, M. Rizqi, and T. M. Fahrudin, “Klasifikasi Suara Tangisan Bayi Berdasarkan Prosodic Features Menggunakan Metode Moments of Distribution dan K-Nearest Neighbours,” Teknika, vol. 8, no. 2, pp. 119–125, 2019, doi: 10.34148/teknika.v8i2.206.

[4] Y. Yohannes and R. Wijaya, “Klasifikasi Makna Tangisan Bayi Menggunakan CNN Berdasarkan Kombinasi Fitur MFCC dan DWT,” JATISI (Jurnal Tek.

Inform. dan Sist. Informasi), vol. 8, no. 2, pp. 599–610, 2021, doi:

10.35957/jatisi.v8i2.470.

[5] R. Solehudin, “Implementasi Metode MFCC (Mel Frequency Cepstral Coefficient) Dan Naive Bayesian Untuk Klasifikasi Nada Dasar Gitar,” 2018.

[6] C. A. A. Soemedhy, D. P. Martiyaningsih, and V. A. Kurniawan, “Klasifikasi Tangisan Bayi Klasifikasi Tangisan Bayi Berdasarkan Amplitudo Frekuensi Suara Menggunakan Algoritma MFCC dan CNN,” J. Tek. Ind. Sist. Inf. dan Tek.

Inform., vol. 1, no. June, pp. 39–48, 2022.

[7] H. Heriyanto, S. Hartati, and A. E. Putra, “Ekstraksi Ciri Mel Frequency Cepstral Coefficient (Mfcc) Dan Rerata Coefficient Untuk Pengecekan Bacaan Al- Qur’an,” Telematika, vol. 15, no. 2, p. 99, 2018, doi:

10.31315/telematika.v15i2.3123.

[8] E. Riyanto, “PERBANDINGAN METODE EKSTRASI CIRI SUARA MFFCC, ZCPA, DAN LPC,” HIMSYATECH, vol. 10, no. 1, 2014.

[9] A. Anggoro, S. Herdjunanto, and R. Hidayat, “MFCC dan KNN untuk Pengenalan Suara Artikulasi P,” Avitec, vol. 2, no. 1, pp. 13–19, 2020, doi:

10.28989/avitec.v2i1.605.

[10] E. Susanti1, S. Mariyanto, A. Sasongko2, I. Gede, and P. Suta, “KLASIFIKASI SUARA BERDASARKAN USIA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENT (MFCC) DAN K-NEAREST NEIGHBOUR (K-NN) Classification Of Voice Based On Age Using Mel Frequency Cepstral Coefficientand K-Nearest Neighbour (K-NN),” Univ. Mataram Jl. Majapahit, vol. 4, no. 2, pp. 120–126, 2017.

[11] S. P. Dewi, A. L. Prasasti, and B. Irawan, “The Study of Baby Crying Analysis Using MFCC and LFCC in Different Classification Methods,” Proc. - 2019 IEEE Int. Conf. Signals Syst. ICSigSys 2019, no. August, pp. 18–23, 2019, doi:

10.1109/ICSIGSYS.2019.8811070.

[12] D. Bhatt et al., “Cnn variants for computer vision: History, architecture, application, challenges and future scope,” Electron., vol. 10, no. 20, pp. 1–28, 2021, doi: 10.3390/electronics10202470.

[13] V. B. Savinov, S. A. Botman, V. V. Sapunov, V. A. Petrov, I. G. Samusev, and N. N.

Shusharina, “Electroencephalogram-based emotion recognition using a convolutional neural network,” Bull. Russ. State Med. Univ., vol. 8, no. 3, pp. 32–

35, 2019, doi: 10.24075/brsmu.2019.037.

[14] P. A. Nugroho, I. Fenriana, and R. Arijanto, “Implementasi Deep Learning Menggunakan Convolutional Neural Network ( Cnn ) Pada Ekspresi Manusia,”

(12)

Algor, vol. 2, no. 1, pp. 12–21, 2020.

[15] T. Kattenborn, J. Leitloff, F. Schiefer, and S. Hinz, “Review on Convolutional Neural Networks (CNN) in vegetation remote sensing,” ISPRS J. Photogramm.

Remote Sens., vol. 173, no. November 2020, pp. 24–49, 2021, doi:

10.1016/j.isprsjprs.2020.12.010.

[16] S. Ilahiyah and A. Nilogiri, “Implementasi Deep Learning Pada Identifikasi Jenis Tumbuhan Berdasarkan Citra Daun Menggunakan Convolutional Neural Network,” JUSTINDO (Jurnal Sist. dan Teknol. Inf. Indones., vol. 3, no. 2, pp. 49–

56, 2018.