192| Universitas Multi Data Palembang
KLASIFIKASI AMERICAN SIGN LANGUAGE DENGAN METODE VGG-19
Andree Fendiawati1*), M. Ezar Al Rivan2
1,2Program Studi Informatika, Fakultas Ilmu Komputer dan Rekayasa, Universitas Multi Data Palembang
1[email protected], 2[email protected]
Kata kunci:
adam; ASL; convolutional neural networks; sign language; VGG-19
Abstract: American Sign Language is one of the many sign languages that’s widely used in the world. In this study, the Optimizer that is used is Adam. The data used are 72000 images which consist of 50400 training images, 14400 validation images, and 7200 test images. The method that is used in this study is VGG-19. VGG-19 is one of the many architectures of Convolutional Neural Networks (CNN). The images have been resized from 200x200px into 224x224px to meet the needs of VGG-19. The result’s average accuracy value is 99.995%. It can be concluded that VGG-19 is a good architecture for identifying American Sign Language.
Abstrak: American Sign Language adalah salah satu dari banyak bahasa isyarat yang banyak digunakan di dunia. Dalam penelitian ini, Optimizer yang digunakan adalah Adam. Data yang digunakan adalah 72000 citra yang terdiri dari 50400 citra latih, 14400 citra validasi, dan 7200 citra uji. Metode yang digunakan dalam penelitian ini adalah VGG-19. VGG-19 adalah salah satu dari sekian banyak arsitektur Convolutional Neural Network (CNN). Gambar telah di resize ukurannya dari 200x200px menjadi 224x224 untuk memenuhi kebutuhan VGG-19. Hasil rata-rata nilai akurasinya adalah 99.995%. Dapat disimpulkan bahwa VGG-19 merupakan arsitektur yang baik untuk mengidentifikasi Bahasa Isyarat Amerika.
Fendiawati & Al Rivan (2023). Klasifikasi American Sign Language dengan Metode VGG-19. MDP Student Conference 2023.
PENDAHULUAN
Salah satu aspek untuk dapat bersosialisasi atau berhubungan dengan makhluk hidup lainnya adalah komunikasi. Komunikasi adalah cara manusia untuk menyampaikan informasi, gagasan atau pesan lainnya secara verbal ataupun nonverbal kepada sesama [1]. Makhluk hidup menggunakan suara dalam frekuensi tertentu, gerakan tubuh, dan perubahan ekspresi wajah untuk berkomunikasi. Mayoritas manusia di bumi berinteraksi satu sama lain menggunakan bahasa yang dikembangkan oleh manusia dan bervarian di setiap bangsa. Body Gesture, Facial Expression, dan Hand Movements adalah salah satu cara untuk berbahasa isyarat, tetapi mayoritas manusia tidak mengetahui, maupun mempelajari cara berbahasa isyarat, karena hanya sekitar 5% manusia dari populasi dunia yang mengidap keterbatasan tersebut, yaitu sekitar 466 juta manusia pada tahun 2021 [2].
American Sign Language (ASL) merupakan Bahasa isyarat yang marak digunakan di dunia [3]. ASL memiliki 5 komponen utama untuk pengguna dapat mengobservasi dan memahami maksud dari yang disampaikan oleh lawan bicara kita, yaitu: Eye Contact, Facial Expression, Body Language, Mouth Movements, & Hand Movements [4].
Universitas Multi Data Palembang | 193 Pada penelitian yang dilakukan untuk Klasifikasi Penyakit Mata Menggunakan Convolutional Neural Network Dengan Arsitektur VGG-19. Penelitian ini menggunakan 2 Optimizer yaitu Adagrad, dan SGD.
Hasil akurasi tertinggi dicapai menggunakan Optimizer SGD dan clipLimit 1,0 yaitu sebesar 65.29% [5].
Pada penelitian yang dilakukan oleh untuk Mengklasifikasi Plat Nomor Kendaraan dengan Convolutional Neural Network menggunakan arsitektur DenseNet121, NASNetLarge, VGG-16, dan VGG- 19, Hasil nilai Accuracy terbaik didapatkan oleh arsitektur VGG-16 dan VGG-19 dengan nilai 85.05%, untuk DenseNet121 dan NASNetLarge mendapatkan nilai Accuracy sebesar 49.42% [6].
Pada penelitian yang dilakukan oleh untuk Klasifikasi Jenis Kanker Kulit Menggunakan CNN-SVM.
Penelitian ini menggunakan 2 arsitektur, yaitu VGG-19 dan ResNet-50, dan 2 jenis preprocessing yaitu resize dan patch. Dengan menggunakan preprocessing patch dan arsitektur VGG-19 didapatkan hasil akurasi terbaik sebesar 65.33%, sedangkan ResNet-50 hanya mendapatkan hasil akurasi sebesar 63.67% [7].
Pada penelitian yang dilakukan oleh untuk Klasifikasi Tingkat Kematangan Pucuk Daun Teh menggunakan Metode Convolutional Neural Network. Penelitian ini memakai 2 arsitektur dalam skenarionya, yaitu VGG-19 dan ResNet-50. Dengan menggunakan Optimizer RMSProp, learning rate 0,01, batch size 32 dan 100 epoch, arsitektur VGG-19 mendapatkan hasil akurasi terbaik sebesar 97.5%, sedangkan ResNet-50 hanya mendapatkan hasil akurasi sebesar 95% ketika menggunakan Optimizer SGD [8].
Dengan berdasar kepada hasil penelitian terdahulu, maka dapat disimpulkan bahwa metode Convolutional Neural Network (CNN) merupakan arsitektur yang baik untuk melakukan klasifikasi citra.
Penelitian ini bertujuan untuk mengukur performa dari arsitektur VGG-19, karena penelitian terdahulu belum ada yang menggunakan arsitektur VGG-19 dalam pengklasifikasian American Sign Language.
METODE
Pada penelitian ini, dataset yang akan digunakan adalah bentuk tangan dari American Sign Language yang diambil dari Kaggle [9]. Contoh dataset dapat dilihat di Gambar 1.
Gambar 1. Dataset Huruf A dan V
Pada tahapan ini dataset dibagi menjadi 3 bagian, yaitu data training, data validation, dan data testing, dengan rasio 70:20:10. Setiap huruf memiliki jumlah citra 3000, tetapi pada kasus ini, huruf J dan huruf Z tidak dimasukkan kedalam penelitian karena kedua huruf tersebut memiliki pergerakkan tangan dalam citra, sehingga tidak memungkinkan untuk diuji [10]. Dengan total citra sebanyak 72000, yang akan dibagi menjadi 3 bagian yaitu 50400 untuk data train, 14400 untuk data validasi, dan 7200 untuk data test.
194 | Universitas Multi Data Palembang
Tahapan pada penelitian ini dapat dilihat pada Gambar 2. Tahapan dimulai dari citra melalui proses preprocessing, yaitu resize yang berfungsi untuk mengubah ukuran citra dari 200px x 200px, menjadi 224px x 224px, sesuai dengan kebutuhan arsitektur yang dipakai, VGG-19 [11]. Kemudian masuk ke tahap feature learning yang menggunakan lapisan konvolusi dengan aktivasi ReLU, Average Pooling, dan lapisan Fully Connected yang akan masuk ke metode VGG-19 untuk menghitung hasil prediksi yang akan dijadikan accuracy, precision, dan recall.
Gambar 2. Rancangan Sistem
Pada tahapan ini, penulis akan menerapkan CNN dengan arsitektur VGG-19 terhadap dataset American Sign Language. Tahapan ini akan diimplementasikan kedalam bahasa pemrograman Python menggunakan Kaggle Notebook. Skenario pengujian yang dilakukan menggunakan beberapa parameter sebagai berikut: (1) Dataset yang akan digunakan adalah citra yang telah melalui proses preprocessing resize, dimana ukuran citra sebelumnya adalah 200px x 200px menjadi 224p x x 224px. (2) Arsitektur CNN yang akan digunakan adalah VGG-19. Optimizer yang akan digunakan adalah Adam dan menggunakan Pooling Average Pooling.
HASIL DAN PEMBAHASAN
Pengujian yang digunakan pada penelitian ini menggunakan Optimizer Adam dengan learning rate default Adam yang bernilai 0,001. Semua parameter ini akan melalui proses training sebanyak 10 epoch dan bertujuan untuk menentukan parameter yang bagus dalam klasifikasi American Sign Language.
Sebelum melakukan proses penelitian, gambar akan melalui proses resize terlebih dahulu dari 200px x 200px menjadi 224px x 224px, dan untuk pembagian data sebesar 70% data training dan 20% data validation, dan 10% data testing. Data training dan validation berguna untuk mendapatkan learning pattern yang akan dijadikan sebagai acuan untuk melatih dataset dengan 10% data testing.
Universitas Multi Data Palembang | 195 Tabel 1. Hasil Perhitungan TP, TN, FP, FN
TP TN FP FN
A 311 6889 0 0
B 311 6889 0 0
C 287 6913 0 0
D 315 6885 0 0
E 280 6920 0 0
F 304 6896 0 0
G 309 6891 0 0
H 309 6891 0 0
I 288 6912 0 0
K 296 6904 0 0
L 293 6907 0 0
M 284 6915 0 0
TP TN FP FN
N 300 6899 1 0
O 312 6888 0 0
P 291 6909 0 0
Q 281 6919 0 0
R 332 6868 0 0
S 309 6891 0 0
T 307 6893 0 0
U 294 6905 0 1
V 307 6889 4 0
W 300 6897 0 3
X 282 6918 0 0
Y 293 6907 0 0
Dari hasil pengujian skenario, didapatkan hasil TP, TN, FP dan FN, yang kemudian akan dipakai untuk menghitung hasil Accuracy, Precision, dan Recall yang dapat dilihat di Gambar 3, 4, dan 5.
Gambar 3. Hasil Perbandingan Nilai Accuracy 99,90%
99,95%
100,00%
A B C D E F G H I K L M N O P Q R S T U V W X Y
Accuracy
Accuracy
196 | Universitas Multi Data Palembang
Dari hasil perbandingan Gambar 3., didapatkan beberapa citra yang gagal untuk dikenali sehingga menyebabkan tingkat accuracy untuk huruf N, U, V dan W mengalami penurunan, sedangkan untuk huruf lain memiliki tingkat accuracy sebesar 100%.
Gambar 4. Hasil Perbandingan Nilai Precision
Dari hasil perbandingan Gambar 4., didapatkan beberapa citra yang gagal untuk dikenali sehingga menyebabkan tingkat precision untuk huruf N, dan V mengalami penurunan, sedangkan untuk huruf lain memiliki tingkat precision sebesar 100%.
Gambar 5. Hasil Perbandingan Nilai Recall
Dari hasil perbandingan Gambar 5., didapatkan beberapa citra yang gagal untuk dikenali sehingga menyebabkan tingkat recall untuk huruf U, dan W mengalami penurunan, sedangkan untuk huruf lain memiliki tingkat recall sebesar 100%.
Tabel 2. Hasil Average dari Klasifikasi ASL.
Optimizer Accuracy Precision Recall
Adam 99,995% 99,931% 99,944%
SIMPULAN
Kesimpulan dari penelitian ini adalah metode CNN Arsitektur VGG-19 yang digunakan dapat mengklasifikasi American Sign Language dengan sangat baik, dan mendapatkan nilai rata-rata untuk setiap parameter sebesar 99.995% untuk Accuracy, 99.931% untuk Precision, dan 99.944% untuk Recall. Didapat juga nilai F1-score total keseluruhan rerata dengan nilai 99.938%.
98,00%
99,00%
100,00%
A B C D E F G H I K L M N O P Q R S T U V W X Y
Precision
Precision
98,50%
99,00%
99,50%
100,00%
A B C D E F G H I K L M N O P Q R S T U V W X Y
Recall
Recall
Universitas Multi Data Palembang | 197 DAFTARPUSTAKA
[1] Wahidin, Unang. "Interaksi Komunikasi Berbasis Media Pembelajaran Dalam Proses Belajar- Mengajar." Edukasi Islami: Jurnal Pendidikan Islam 4, no. 07 (2017): 197.
[2] “Deafness and hearing loss,” World Health Organization, Apr-2021. [Online]. Available:
https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss. [Accessed: 17-Feb-2023].
[3] Newport, Elissa L. "Constraints On Learning and Their Role In Language Acquisition: Studies of The Acquisition of American Sign Language." Language sciences 10, no. 1 (1988): 147-172.
[4] Chambers, D. P., Chearney, L. A., & Setzer, P. M. (1998). In Communicating In Sign: Creative ways to Learn American Sign Language (ASL) (pp. 2–2). essay, Fireside.
[5] D. Marcella dan S. Devella, “Klasifikasi Penyakit Mata Menggunakan Convolutional Neural Network Dengan Arsitektur VGG-19,” J. Algoritm., Vol. 3, No. 1, Hal. 60–70, 2022.
[6] Hindarto, D., & Santoso, H. (2021). Plat Nomor Kendaraan Dengan Convolution Neural Network.
Jurnal Inovasi Informatika, 6(2), 1–12. https://doi.org/10.51170/jii.v6i2.202.
[7] M. E. Al Rivan dan R. Yohannes, “Klasifikasi Jenis Kanker Kulit Menggunakan CNN-SVM,” Vol. 2, No. 2, Hal. 133–144, 2022, doi: https://doi.org/10.35957/algoritme.v2i2.2363.
[8] Ibrahim, N., Lestary, G. A., Hanafi, F. S., Saleh, K., Pratiwi, N. K. C., Haq, M. S., & Mastur, A. I.
(2022). Klasifikasi Tingkat Kematangan Pucuk Daun Teh menggunakan Metode Convolutional Neural Network. ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika, 10(1), 162. https://doi.org/10.26760/elkomika.v10i1.162.
[9] A. Nagaraj, “Asl Alphabet,” Kaggle, 22-Apr-2018. [Online]. Available:
https://www.kaggle.com/datasets/grassknoted/asl-alphabet. [Accessed: 17-Feb-2023]. .
[10] Al Rivan, M. E., & Mochammad Trinanda Noviardy. 2020. “Klasifikasi American Sign Language Menggunakan Ekstraksi Fitur Histogram of Oriented Gradients dan Jaringan Syaraf Tiruan.” Jurnal Teknik Informatika \dan Sistem Informasi 6 (3). Maranatha Christian University.
doi:10.28932/jutisi.v6i3.2844.
[11] Margapuri, V., Penumajji, N., & Neilsen, M. (2021, December). Seed Classification Using Synthetic Image Datasets Generated from Low-Altitude UAV Imagery. In 2021 20th IEEE International Conference on Machine Learning and Applications (ICMLA) (pp. 116-121). IEEE.