View of Sistem Deteksi Bahasa Isyarat Secara Realtime Dengan Tensorflow Object Detection dan Python Menggunakan Metode Convolutional Neural Network

(1)

Sistem Deteksi Bahasa Isyarat Secara Realtime Dengan Tensorflow Object Detection dan Python Menggunakan Metode Convolutional Neural Network

SISTEM DETEKSI BAHASA ISYARAT SECARA REALTIME DENGAN TENSORFLOW OBJECT DETECTION DAN PYTHON MENGGUNAKAN

METODE CONVOLUTIONAL NEURAL NETWORK Abraar Hayyu Gustsa

S1 Teknik Informatika, Fakultas Teknologi Informasi, Universitas Hasyim Asy’ari Email: [email protected]

Ginanjar Setyo Permadi

S1 Teknik Informatika, Fakultas Teknologi Informasi, Universitas Hasyim Asy’ari Email: [email protected]

Abstrak

Berkomunikasi menggunakan bahasa isyarat merupakan hal yang asing bagi kebanyakan orang dan sangat sedikit orang yang paham bagaimana berkomunikasi menggunakan bahasa isyarat karena bukan bahasa wajib untuk dipelajari. Perkara ini menjadi masalah bagi orang-orang berkebutuhan khusus untuk berinteraksi dan berkomunikasi dengan orang lain khususnya orang yang tidak tahu dan paham bagaimana cara berkomunikasi menggunakan bahasa isyarat. Conventional Neural Network adalah metode yang akan digunakan dalam penelitian ini karena metode ini adalah salah satu metode deep learning yang memiliki hasil paling baik saat ini dalam deteksi suatu objek, Deep Learning merupakan metode pembelajaran mesin yang memeiliki kemampuan yang sangat baik dalam visi komputer. klasifikasi objek pada citra merupakan salah satu dari metode pembelajaran deep learning. Convolutional Neural Network atau CNN adalah salah satu metode machine learning yang dapat digunakan untuk klasifikasi citra objek. Hal itu disebabkan karena metode CNN memiliki kemampuan untuk meniru kemampuan seperti manusia dalam sistem pengenalan citra pada visual cortex manusia, sehingga memiliki kemampuan mengolah informasi citra. Namun CNN, tidak jauh berbeda dengan metode Deep learning lainnya, memiliki kelemahan yaitu proses pelatihan model yang terbilang cukup lama. Pada penelitian ini penulis menggunakan dataset baru namun di batasi hanya 4 gestur bahasa isyarat (Hello, ILoveYou, Yes,No,Thanks). Hasil dari pengujian training dataset bahasa isyarat mencapai akurasi 93.33%. Pada prediksi bahas isyarat didapatkan hasil akurasi pada simbol “Hello” sebesar 95%, “ILoveYou” mendapatkan akurasi sebesar 93% , “Yes” sebesar 97%,”No” mendapatkan akurasi sebesar 91%, ”Thanks” mendapatkan akurasi sebesar 100%..

Kata Kunci: Bahasa Isyarat, Convolutional Neural Network, Klasifikasi, Machine Learning, DeepLeraning.

Abstract

Communicating using sign language is foreign to most people and very few people know how to communicate using sign language because it is not a mandatory language to learn. This case becomes a problem for people with special needs to interact and communicate with other people, especially people who do not know and understand how to communicate using sign language.

Conventional Neural Network is the method that will be used in this study because this method is one of the deep learning methods that has the best current results in detecting an object, Deep Learning has excellent capabilities in computer vision. One of them is in the case of object classification in the image. By implementing one of the machine learning methods that can be used for object image classification, namely Convolutional Neural Network CNN. This is because the CNN method tries to imitate the image recognition system in the human visual cortex so that it has the ability to process image information. However, CNN, like other deep learning methods, has a weakness, namely the old model training process. In this study, the author uses a new dataset but is limited to only 4 sign language gestures (Hello, ILoveYou, Yes, No, Thanks). The results of testing the sign language training dataset reached an accuracy of 93.33%. In sign language predictions, the accuracy of the "Hello" symbol is 95%, "ILoveYou" is 93% accurate, "Yes" is 97%, "No" is 91%

accurate, "Thanks" is 100% accurate.

Keywords: Sign Language, Convolutional Neural Network, Classification, Machine Learning, Deep Learning.

(2)

PENDAHULUAN

Berkomunikasi menggunakan bahasa isyarat merupakan hal yang asing bagi kebanyakan orang dan sangat sedikit orang yang paham bagaimana berkomunikasi menggunakan bahasa isyarat karena bukan bahasa wajib untuk dipelajari. Perkara ini menjadi masalah bagi orang-orang berkebutuhan khusus untuk berinteraksi dan berkomunikasi dengan orang lain khususnya orang yang tidak tahu dan paham bagaimana cara berkomunikasi menggunakan bahasa isyarat.

Cara berkomunikasi dengan mereka yang paling umum yaitu menggunakan penterjemah manusia, yang tentunya menggunakan penterjemah manusia memerlukan biaya yang sangat mahal dan kebanyakan orang enggan menggunakan cara tersebut. Orang tuli adalah orang yang umumnya menggunakan bahasa ini, biasanya bahasa ini menggunakan gerak tangan, lengan, tubuh, serta ekspresi wajah untuk mempresentasikan apa yang ingin mereka sampaikan. Terdapat banyak perbedaan bahasa isyarat di dunia, Contohnya seperti bahasa isyarat Amerika serikat dengan Inggris dua negara tersebut memiliki bahasa tulis yang sama, namun Bahasa isyarat dari dua negara tersebut sama sekali berbeda (American Sign Language dan British Sign Language). Namun ada juga negara yang memiliki bahasa isyarat yang sama dan bahasa tulis yang berbeda.

Sistem deteksi bahasa isyarat ini bertujuan untuk membantu orang-orang yang berkebutuhan khusus tanpa memerlukan cara yang memerlukan biaya yang sangat mahal yaitu menggunakan penterjemah manusia, dengan sistem deteksi bahasa isyarat secara real time ini orang-orang yang tidak tahu bahasa isyarat akan paham dengan melihat sistem yang akan menerjemahkan gerakan tangan atau isyarat ke dalam bentuk text sehingga orang-orang akan mengerti apa yang ingin disampaikan oleh orang yang memiliki kebutuhan khusus.

Conventional Neural Network adalah metode yang akan digunakan dalam penelitian ini karena metode ini adalah salah satu metode deep learning yang memiliki hasil paling baik saat ini dalam deteksi suatu objek, Deep Learning merupakan metode pembelajaran mesin yang memeiliki kemampuan yang sangat baik dalam visi komputer. klasifikasi objek pada citra merupakan salah satu dari metode pembelajaran deep learning. Convolutional Neural Network atau CNN adalah salah satu metode machine learning yang dapat digunakan untuk klasifikasi citra objek. Hal itu disebabkan karena metode CNN memiliki kemampuan untuk meniru kemampuan seperti manusia dalam sistem pengenalan citra pada visual cortex manusia, sehingga memiliki kemampuan mengolah informasi citra.

Namun CNN, tidak jauh berbeda dengan metode Deep learning lainnya, memiliki kelemahan yaitu proses pelatihan model yang terbilang cukup lama(Suartika E. P, 2016). CNN dirancang khusus untuk deep learning yaitu pada bidang image processing (Venkateswaran, 2017).

Digunakannya metode CNN karena memiliki kemampuat dapat menangani masalah yang kompleks dan memiliki kinerja yang terbilang cukup baik pada proses pelatihan. Convolutional Neural Network Dapat Kita Gunakan juga Untuk Proses Klasifikasi Gambar yang sudah memiliki label pada setiap gambarnya dengan menggunakan metode supervised learning, dimana cara kerja dari supervised learning adalah menggunakan data yang akan dilatih dan terdapat variabel yang sudah kita targetkan sehingga tujuan dari metode ini adalah mengelompokkan suatu data ke data yang sudah ada. CNN sering digunakan untuk mengenali benda atau pemandangan, melakukan deteksi dan segmentasi objek (Tutut Furi. 2018).

Berdasarkan uraian diatas maka peneliti ingin membuat sistem untuk mendeteksi bahasa isyarat secara realtime dengan tensorflow object detection dan python. Adapun metode yang digunakan pada sistem deteksi bahasa isyarat secara realtime ini adalah Conventional Neural Network.

.

(3)

METODE

Metode yang digunakan dalam penelitian ini adalah metode Convolutional Neural Network (CNN). Convolutional Neural Network merupakan salah satu jenis algoritme Deep Learning yang dapat menerima input berupa gambar atau menentukan objek apa saja dalam sebuah gambar. Metode ini merupakan pengembangan dari metode Multilayer Perceptron (MLP) yang dianggap mempunyai kekurangan yaitu hanya dapat mendeteksi objek yang berada di tengah gambar.

Pada penelititan ini, model ML deteksi Bahasa isyarat secara realtime dibuat dengan bantuan software LablImg dan Tensorflow object detection API. Ada beberapa tahap dalam pembuatan sistem ini, yang pertama peneliti menulis beberapa code untuk mengautomatisasi pengambilan gamabar, setelah proses pengambilan gambar, peneliti menggunakan software LabelImg untuk memberi label setiap gamabar ke dalam label yang sesuai. Gambar- gambar ini diberi nama sedemikian rupa sehingga gambar dari masing masing gesture dapat mengepresikan makna dari Gerakan yang dibuat. Setelah peroses pelabelan gambar selesai, peneliti memiliki dua set file dari setiap gambar yang sudah diberi label. Satu file adalah gambar yang asli dan yang lainnya adalah file XML yang berisi informasi dimana file tersebut yang akan digunakan dalam proses pelatihan model. Setelah file-file ini dibuat, selanutnya proses pelatihan dimulai, di mana mesin akan menggunakan algoritma Machine Learning SSD Deep Learning untuk mengestrak fitur dari gambar pada masing masing gesture. Selanjutnya setelah model melewati tahap Training. Tahap berikutnya adalah bagian deteksi Bahasa isyarat secara realtime dimulai. Untuk melakukan deteksi, peneliti menggunakan TensorFlow Object Detection API di mana fitur yang diekstraksi dari gambar yang diambil dan kemudian diteruskan ke modul TensorFlow yang akan mendeteksi Gerakan dari Bahasa isyarat tertentu secara realtime. Saat mendeteksi salah satu gesture, sistem akan menghasilkan bounding box di sekitar Gerakan dan membuat prediksi. Prediksi yang dihasilkan akan sama dengan label gambar. Oleh karena itu sangat penting untuk memahami Bahasa isyarat yang dibuat agar memberi label pada masing-masing gambar dengan benar.

Gambar 1. Sistem arsitektur PENGUMPULAN DATASET

Pada penelitian kali ini peneliti menggunakan dataset baru berupa gambar yang diambil dengan menggunakan model Collage images menggunakan webcam yang gambarnya meliputi , gambar bahasa isyarat “Hallo”, ”Yes”, “No”, “I Love You”, “Thankyou”. jumlah data gambar yang diambil adalah 200

(4)

gambar, masing masing gambar dari setiap gesture ada 40 data gambar lalu data tersebut dibagi menjadi 50 data test dan 150 data training.

software LabelImg digunakan untuk melabeli gambar secara grafis yang selanjutnya digunakan saat deteksi gambar. Setelah gambar diberi label dan disimpan menjadi format file XML. File XML ini untuk menyimpan, mentransmisikan, dan merekonstruksi data arbitrer. Ini mendefinisikan seperangkat aturan untuk menyandikan dokumen dalam format yang dapat dibaca manusia dan dapat dibaca mesin..

Pelabelan dilakukan dengan menggambar kotak di sekitar gerakan yang dibuat. Kotak ini disebut Ground Truth yang berarti seperangkat pengukuran yang diketahui jauh lebih akurat daripada pengukuran dari sistem yang di uji. Gambar di bawah ini (yaitu, Gambar 2) menunjukkan bagaimana gambar diberi label menggunakan perangkat lunak LabelImg dan pada (gambar 3) adalah tampilan file XML dari gambar yang sudah diberi label dan akan digunakan untuk pelatihan model .

Gambar 2. anotasi data (labeling)

Gambar 3. file xml dari gambar berlabel

(5)

PROSES PELATIHAN MODEL

Dari 40 gambar pada masing masing gesture yang dikumpulkan bersama dengan file XML yang dihasilkan untuk setiap gambar, 10 digunakan untuk pengujian dan 30 sisanya digunakan untuk melatih model. Model ML dilatih menggunakan Algoritma ML Deep Learning SSD dan diuji menggunakan TensorFlow Object Detection API yang menggunakan ektensi protobuf untuk konfigurasi proses training dan evaluasi.

Tahap berikutnya adalah melakukan proses training dengan jumlah iterasi(epoch) sebanyak 5000 step, yang dimana dari setiap step tersebut akan ada hasil variabel pembelajaraan atau learning yang dilakukan oleh sistem, nilai loss adalah variabel dari hasil learning yang dilakukan oleh sistem, Nilai loss berfungsi sebagai tolak ukur apakah hasil pembalajaran sistem dikatakan bagus atau tidak, semakin kecil konsistensi Nilai loss yang didapatkan maka semakin bagus model begitupun sebaliknya.

Dari tahap proses training sistem akan otomatis menghasilkan chekpoint berupa graph tensor dan tujuan chekpoint tersbut untuk menyimpan informasi learning yang terbaru pada step tertentu.

Penulis telah melakukan proses training selama 7 hari pada server local dan server Google Colaboratory untuk mendapatkan model terbaik.

Mobile Net SSD adalah jaringan singleshot multibox detection (SSD) yang mengidentifikasi objek dengan memindai piksel gambar yang berada di dalam koordinat kotak pembatas dan probabilitas kelas. MobileNets, merupakan salah satu arsitektur convolutional neural network (CNN) yang memiliki fungsi untuk mengatasi kebutuhan akan computing resource berlebih.

Perbedaan mendasar antara arsitektur MobileNet dan arsitektur CNN pada umumnya adalah penggunaan lapisan atau layer konvolusi dengan ketebalan filter yang sesuai dengan ketebalan dari input image. Arsitektur MobileNet sendiri dapat dilihat pada (Gambar 4.).

Gambar 4. Artsitektur jaringan SSD

Penulis menggunakan 'Checkpoints' yang menyimpan poin yang dihasilkan model untuk melacak seberapa banyak ia telah melatih dirinya sendiri. Jika proses pelatihan terganggu, itu hanya akan memulai sendiri lagi dari pos pemeriksaan. Karena proses pelatihan bisa sangat memakan waktu, mekanisme ini memungkinkan model untuk menyelamatkan diri dari kegagalan sistem. Tingkat pembelajaran model penulis saat menggunakan 5.000 langkah untuk pelatihan ditunjukkan di bawah ini:

(6)

Gambar 5. Tingkat pembelajaran model pelatihan 5.000 steps

Nilai loss pada setiap iterasi(epoch) model, hasil dari pembelajaran mesin telah berkurang yang menunjukkan bahwa akurasi model yang lebih baik untuk deteksi. Nilai loss dari model ditunjukkan di bawah ini:

Gambar 6. Nilai loss dari ML model

EVALUASI

Setelah melalu berbagai tahapan proses pelatihan, model di evaluasi untuk mengukur kinerja yang dihasilkan data testing, kemudian hasil dari proses training-testing akan memiliki Metrik evaluasi terdiri dari Average Precision dan Average Recall. Untuk setiap Precision dan Recall, IOU dihitung.

IOU adalah singkatan dari Intersection Over Union yang menentukan perbandingan luas perpotongan antara Ground Truth dan predicted box terhadap luas gabungan antara Ground Truth and predicted box. Pada (Gambar 7.) merepresentasikan hasil evaluasi dan metrik evaluasi untuk model pembelajaran mesin 5.000 steps.

(7)

Gambar 7. Hasil evaluasi dan metrik evaluasi

Berdasarkan Evaluasi parameter dari 5000 step arsitektur SSD MobileNet, kita bisa lihat average precision dan recall dari data yang digunakan untuk pelatihan model.

SIMULASI DAN HASIL

Tahap berikutnya adalah tahap uji coba sistem, penulis melakukan uji coba dengan mengarahkan kamera kepada objek pengujian yaitu penulis sendiri, lalu melakukan gestur isyarat sesuai dengan label pada masing masing data citra. Dalam tulisan ini, tanda-tanda diterjemahkan ke dalam teks pernyataan untuk membantu penyandang disabilitas berkomunikasi dengan orang lain dengan mudah. Sistem ini menunjukkan hasil yang baik dengan memanfaatkan teknik deep learning. Bagian ini membahas hasil yang diperoleh sistem.

Pada Gambar 8. menunjukkan akurasi 91% untuk pengenalan tanda 'No’ dan menunjukan akurasi 97% untuk pengenalan tanda ‘Yes’ oleh sistem.

(8)

Gambar 8. Pengenalan gerakan untuk No dan Yes.

Gambar 9. Pengenalan gerakan untuk Hello dan ILoveYou.

Dua gerakan juga dapat dikenali secara bersamaan menggunakan sistem deteksi objek.

Akurasi telah terbukti sama terlepas dari dua gerakan yang dilakukan secara bersamaan. Pada Gambar 8 dan 9. kita dapat melihat bahwa kedua gerakan dikenali tanpa kesulitan dan mendapatkan akurasi yang cukup baik. Selain 4 gerakan yang berhasil di deteksi pada gambar diatas ada 1 gerakan lagi untuk melatih model seperti gambar 10.

Gambar 10. Pengenalan gerakan untuk Thanks

(9)

Total ada 5 gerakan untuk melatih model setiap gerakan digunakan untuk melatih model pembelajaran mesin dengan mengambil 40 gambar untuk setiap model dalam berbagai sudut, latar belakang, warna kulit, pencahayaan, dan berbagai situasi lainnya. Dari 40 gambar yang dikumpulkan, 30 digunakan untuk pelatihan dan 10 untuk pengujian.

PENUTUP Kesimpulan

Dari hasil pengujian yang telah dilakukan didapatkan beberapa kesimpulan yaitu :

1. Hasil dari pelatihan Dataset menggunakan Convolutional Neural Network menghasilkan nilai akurasi sebesar 93.33%.

2. Dari hasil Pelatihan Data sebanyak 150 citra gambar terbagi menjadi 5 gestur, masing masing gestur memiliki 30 data dengan pembagian 10 data Training dan 5 data Testing,

menghasilkan predikai dan presentase sebagai berikut:

a. Gestur “Hello” Mendapatkan akurasi sebesar 96%.

b. Gestur “I Love You” Mendapatkan akurasi sebesar 95%.

c. Gestur “Yes” Mendapatkan akurasi sebesar 97%.

d. Gestur “Thanks” Mendapatkan akurasi sebesar 92%

e. Gestur “No” Mendapatkan akurasi sebesar 91%.

Saran

Adapun saran untuk pengembangan pada penelitian ini agar lebih baik, terdapat beberapa saran yaitu:

1. Variasi dataset dapat ditambah, adapun penambahan dataset terdapat beberapa aspek,yang pertama dari aspek kuantitas bahasa isyarat, bisa ditambah gesture bahas isyarat yang lain, jumlah dataset yang digunakan bisa lebih banyak , lalu pengambilan dataset bisa memakai subjek yang bervariasi.

2. Menggunakan proses deep learning selain CNN sepertu YOLO( You Only Look Once).

3. Penyebab kesalahan sistem mengidentifikasi gestur adalah intensitas cahaya yang berlebihan dan jarak kamera ke objek yang terlalu jauh (lebih dari 80 cm).

DAFTAR PUSTAKA

Agarwal, S. (2014). Data mining: Data mining concepts and techniques. In Proceedings - 2013 International Conference on Machine Intelligence Research and Advancement, ICMIRA 2013.

https://doi.org/10.1109/ICMIRA.2013.45

Arum, R. P., Prasetiadi, A., & Ramdani, C. (2021). Deteksi Rasa Berdasarkan Citra Buah

Menggunakan Algoritma Convolutional Neural Network Dengan Teknik Identitas Ganda. IJIS - Indonesian Journal On Information System, 6(1). https://doi.org/10.36549/ijis.v6i1.132

Budiharto, W. (2018). AI for Beginner. AI for Beginner, 1–11.

Limantoro, S. E., Kristian, Y., & Purwanto, D. D. (2018). Pemanfaatan Deep Learning pada Video Dash Cam untuk Deteksi Pengendara Sepeda Motor. Jurnal Nasional Teknik Elektro Dan Teknologi Informasi (JNTETI), 7(2), 3–9. https://doi.org/10.22146/jnteti.v7i2.419

McCarthy, J. (1989). Artificial Intelligence, Logic and Formalizing Common Sense. Philosophical Logic and Artificial Intelligence, 161–190. https://doi.org/10.1007/978-94-009-2448-2_6 Rahmatullah, H. R. (2018). Klasifikasi Jenis Golok Betawi Dengan Naive Bayes Classifier.

Roihan, A., Sunarya, P. A., & Rafika, A. S. (2020). Pemanfaatan Machine Learning dalam Berbagai Bidang: Review paper. IJCIT (Indonesian Journal on Computer and Information Technology), 5(1), 75–82. https://doi.org/10.31294/ijcit.v5i1.7951

Suartika E. P, I. W. (2016). Klasifikasi Citra Menggunakan Convolutional Neural Network (Cnn)

(10)

Pada Caltech 101. Jurnal Teknik ITS, 5(1), 76. http://repository.its.ac.id/48842/

Venkateswaran, B. (2017). Neural Networks with R. August, 314.