Implementasi Arsitektur EfficientNetV2 Untuk Klasifikasi Gambar Makanan Tradisional Indonesia

(1)

Implementasi Arsitektur EfficientNetV2 Untuk Klasifikasi Gambar Makanan Tradisional Indonesia

Erin Eka Citra^*, Dhomas Hatta Fudholi, Chandra Kusuma Dewa

Fakultas Teknologi Industri, Program Studi Informatika, Universitas Islam Indonesia, Yogyakarta, Indonesia Email: ^1,*[email protected], ²[email protected],³[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Indonesia memiliki banyak variasi makanan tradisional dan destinasi tempat wisata yang menarik. Banyaknya destinasi tempat wisata membuat masyarakat menyukai travelling dan mencoba menikmati makanan tradisionalnya. Namun saat mencoba makanan tradisional terutama makanan yang baru bagi mereka harus lebih berhati-hati, dikarenakan beraneka bahan makanan yang terkandung didalamnya memiliki dampak pada kesehatan. Penelitian ini akan mencoba membuat aplikasi yang dapat mengenali makanan tradisional Indonesia. Harapannya dapat memberikan informasi yang lengkap, sehingga dapat digunakan untuk mengembangkan aplikasi penghitung kalori kedepannya. Penelitian ini bertujuan merancang sebuah sistem yang dapat mengklasifikasikan gambar makanan tradisional Indonesia untuk membantu mengenali nama makanan dengan tingkat akurasi tertentu menggunakan arsitektur EfficientNetV2. EfficientNetV2 adalah keluarga baru dari deep learning yang lebih unggul dalam pelatihan serta efisiensi parameter. Deep Learning merupakan metode yang sering digunakan untuk mengklasifikasikan gambar yang komplek. EfficientNetV2 yang digunakan pada penelitian ini terdiri dari empat arsitektur yang berbeda yakni EfficientNetV2_S_21k, EfficientNetV2_M_21k, EfficientNetV2_L_21k, dan EfficientNetV2_XL_21k.

Dataset yang digunakan berasal dari tiga jenis kategori sumber data yakni dari Google Image, pengambilan gambar secara langsung menggunakan kamera Smartphone, dan gabungan dari keduanya. Masing-masing kategori dataset terdiri dari 18 kelas dengan total 1800 gambar dari Google Image, 1800 gambar dari kamera Smartphone, dan 3.600 gambar dari gabungan Google Image dan kamera Smartphone. Dataset diambil dari tiga kategori guna membandingkan tingkat akurasi dan mendapatkan nilai akurasi terbaik. Hasil dari penelitian ini menunjukkan bahwa EfficientNetV2 dapat melakukan klasifikasi gambar makanan tradisional Indonesia dengan nilai akurasi pengujian tertinggi sebesar 99,4% dari model EfficientNetV2-L(21k) serta hasil yang didapatkan tidak terjadi overfitting.

Kata Kunci: Makanan Tradisional; Indonesia; Deep Learning; Klasifikasi; EfficientNetV2

Abstract−Indonesia has many variations of traditional food and interesting tourist destinations. The large number of tourist destinations make people like traveling and try to enjoy their traditional food. However, when trying traditional foods, especially foods that are new to them, they must be more careful, because the various ingredients contained in them have an impact on health. This research will try to make an application that can recognize Indonesian traditional food. The hope is that it can provide complete information, so that it can be used to develop calorie counter applications in the future. This study aims to design a system that can classify Indonesian traditional food images to help recognize food names with a certain level of accuracy using the EfficientNetV2 architecture. EfficientNetV2 is a new family of deep learning that excels in training as well as parameter efficiency. Deep Learning is a method often used to classify complex images. The EfficientNetV2 used in this study consists of four different architectures namely EfficientNetV2_S_21k, EfficientNetV2_M_21k, EfficientNetV2_L_21k, and EfficientNetV2_XL_21k. The dataset used comes from three types of data source categories, namely from Google Images, direct image capture using a Smartphone camera, and a combination of both. Each dataset category consists of 18 classes with a total of 1,800 images from Google Images, 1,800 images from Smartphone cameras, and 3,600 images from a combination of Google Images and Smartphone cameras. The dataset is taken from three categories to compare the level of accuracy and get the best accuracy value. The results of this study indicate that EfficientNetV2 can classify images of Indonesian traditional food with the highest test accuracy value of 99.4% from the EfficientNetV2-L(21k) model and the results obtained do not occur overfitting.

Keywords: Traditional Food; Indonesia; Deep Learning; Classification; EfficientNetV2

1. PENDAHULUAN

Makanan merupakan kebutuhan dasar manusia, sedangkan makanan tradisional merupakan makanan yang diolah dari produksi lokal oleh masyarakat setempat. Indonesia merupakan salah satu negara yang kaya akan aneka ragam makanan tradisional [1]. Indonesia juga memiliki banyak destinasi tempat wisata yang menarik. Banyaknya destinasi tempat wisata membuat masyarakat menyukai travelling dan mencoba menikmati makanan tradisional dari berbagai daerah. Namun saat mencoba makanan tradisional terutama makanan yang baru bagi mereka harus lebih berhati-hati dikarenakan beraneka bahan makanan yang terkandung didalamnya. Salah satu faktor penyebab yang dapat meningkatkan resiko pada kesehatan adalah makanan tinggi gula dan cepat saji [2], [3]. Apabila mereka dapat mengenali nama-nama dari makanan yang akan mereka konsumsi, mereka akan sangat terbantu sekali.

Ketika hendak melihat atau mencari bahan-bahan yang terkandung dari makanan tersebut mereka akan lebih mudah mengenalinya dengan kata kunci nama makanannya.

Saat ini identifikasi gambar mengalami perkembangan yang terus meningkat dari berbagai aplikasi [4][5][6][7]. Arsitektur yang digunakan dalam identifikasi gambar yang sudah dikenal keakuratannya yakni deep learning [5][8]. Salah satu arsitektur deep learning yang sering digunakan untuk pengenalan dan identifikasi gambar yakni Convolutional Neural Network (CNN). Penelitian menggunakan arsitektur CNN yang membuat sistem untuk mengklasifikasikan gambar dengan dataset makanan telah banyak dilakukan dengan berbagai tujuan,

(2)

seperti untuk manajemen diet [2], [9], [10] dan pengembangan aplikasi penghitung kalori yang lebih baik kedepannya[11].

Tahun 2018, Akter et al. [5] melakukan identifikasi dan klasifikasi gambar makanan untuk mengukur jumlah kalori yang digunakan pada dataset makanan ringan berkalori tinggi atau biasa dikenal dengan makanan cepat saji (seperti burger dan pizza) di Bangladesh. Penelitian ini menggunakan pre-trained CNN sebagai feature extraction untuk melatih pengklasifikasi kategori gambar yakni Support Vector Machine (SVM). Penelitian ini memiliki 10 kelas yang terdiri dari 1.000 gambar untuk setiap kelas, kemudian dibagi menjadi 70% data latih dan 30% data uji sehingga mendapatkan 750 gambar untuk data latih dan 250 gambar untuk data uji dari setiap kelas.

Nilai akurasi yang didapatkan yakni 99,5% yang lebih tinggi dari nilai akurasi yang didapatkan menggunakan bag of features (BoF) dan SURF. Hasil yang didapatkan memiliki sedikit perbedaan ketika dievaluasi menggunakan confusion matrix yakni 99,13% untuk dataset Barfood 101 dan 95,79% untuk dataset PFID yang lebih tinggi daripada akurasi yang diperoleh dengan Bag of SURF (94%).

Tahun 2019, Rajayogi et al. [9] mengklasifikasikan gambar makanan untuk program diet dan ekstraksi kalori berbasis gambar. Penelitian ini menggunakan dataset makanan india yang terdiri dari 20 kelas dan mempunyai 500 gambar untuk setiap kelas. Penelitian ini menggunakan teknik transfer learning serta menggunakan beberapa model yakni InceptionV3, VGG16, VGG19, dan ResNet untuk mengawasi kebiasaan makan agar pola hidup lebih sehat. Nilai akurasi tertinggi yang didapatkan yakni 87,9% dan loss rate 0,5893 dari model InceptionV3 dibandingkan model yang lain seperti VGG19 yang mendapatkan nilai akurasi 78,9%, VGG16 78,2%, dan ResNet 69,91%.

Tahun 2020, Ramdani et al. [12] melakukan penelitian untuk mendeteksi makanan dan memperkirakan harga makanan otomatis agar memudahkan pembayaran di restoran pada dataset makanan yang ada di restoran dengan menggunakan CNN. Penelitian ini terdiri dari enam kelas yang terdiri dari 420 gambar. Hasil terbaik yang didapatkan yakni dengan nilai akurasi 100% dengan waktu deteksi kurang dari 10 detik, menggunakan 80% data latih dan 20% data uji dengan epoch 9.000 serta learning rate 0,0002. Namun pada penelitian ini dataset yang digunakan masih sangat terbatas sehingga apabila akan melakukan penelitian dengan tujuan yang berbeda akan membutuhkan dataset makanan lebih banyak lagi agar mendapatkan nilai akurasi yang baik juga.

Tahun 2022, Mahaputri et al. [2] mengklasifikasikan gambar makanan sebagai langkah awal untuk penilaian diet, menggunakan 20 kelas makanan dengan 1.202 gambar dan mendapatkan nilai akurasi 64% dengan model EfficientNetV2M serta 59% dengan model EfficientNetB6. Thidorus et al. [13] mengklasifikasikan gambar untuk klasifikasi citra makanan dan non makanan secara otomatis dengan dataset 4.000 gambar menggunakan ResNet18 dan AlexNet. Hasil akurasi yang didapatkan yakni sebesar 98,8% dengan model ResNet18 dan 97,8%

dengan model AlexNet. Selanjutnya Rohim et al. [14] mengklasifikasikan gambar untuk mengidentifikasi citra makanan tradisional menggunakan 4 layer konvolutional, 4 layer maxpooling, 2 layer fully connected, dan 20 kelas dengan 380 gambar. Nilai yang didapatkan yakni 73% presisi, 69% recall dan 69% Fscore. Pada penelitian Udayana et al. [11] mengklasifikasikan gambar untuk mengenali makanan sehingga kedepannya dapat digunakan untuk mengembangkan aplikasi penghitung kalori yang lebih baik. Dataset yang digunakan terdiri dari 10 kelas dan 10.500 gambar. Hasil akurasi yang didapatkan yakni sebesar 88%.

EfficientNet merupakan metode penskalaan baru dari neural architecture yang sederhana namun sangat efektif dan mempunyai nilai akurasi yang lebih baik daripada CNN. Model EfficientNet mampu mendapatkan nilai akurasi yang lebih baik dengan urutan parameter dan FLOPS yang lebih sedikit pada transfer learning dataset dibandingkan CNN [15]. Arsitektur EfficientNetV2 merupakan salah satu model pengolahan gambar keluaran baru yakni pada tahun 2021 dari keluarga EfficientNet. EfficientNetV2 memiliki 11x lebih cepat dalam pelatihan dan model yang 6.8x lebih kecil [16]. Pada tahun 2022, Karthik et al. [17] melakukan klasifikasi gambar untuk mengidentifikasi penyakit kulit yang dilakukan pada empat kelas dengan menggunakan model EfficientNetV2 dan model ini mendapatkan nilai akurasi pengujian keseluruhan sebesar 84,70%. Dataset terdiri dari 10.399 data latih dan 3.465 data uji.

Tahun 2021, Pan et al. [18] melakukan pengenalan gambar patologis kanker payudara dan telah mendapatkan nilai akurasi tertinggi jaringan EfficientNetV2-SA sebesar 84,71% menggunakan dataset BreaKHis.

Data BreaKHis berisi 7.909 gambar, 2.480 gambar kanker jinak dan 200 gambar kanker ganas. Dataset berisi 4 kelas kanker jinak dan 4 kelas kanker ganas. Penelitian selanjutnya pada tahun 2022, Ye et al. [19]

mengidentifikasi penyakit singkong yang terdiri dari 5 kelas dan 21.397 gambar. Penelitian ini menggunakan arsitektur EfficientNetV2 dan melakukan pembaharuan arsitektur dari EfficientNetV2 yakni PDRNet. Nilai akurasi yang didapatkan yakni 98,53% untuk EfficientNetV2 dan 99,32% untuk PDRNet, sedangkan setelah fine- tuning nilai akurasi yang didapatkan PDRNet meningkat 0,24% yakni mencapai 99,56%. Namun dikarenakan terlalu banyak jumlah lapisan model jaringan dan operasi konvolusi, PDRNet ini membutuhkan lebih banyak waktu pelatihan sehingga kurang efektif dibandingkan EfficientNetV2. Sunil et al. [20] mendeteksi penyakit daun tanaman kapulaga menggunakan model EfficientNetV2, EfficientNet, dan CNN. Penelitian ini terdiri dari tujuh kelas dan 54.284 gambar. Pada penelitian ini model EfficientNetV2 mampu mengungguli model EfficientNet dan CNN. Hasil akurasi maksimum yang didapatkan yakni 98,26% untuk model EfficientNetV2-L dan 98,28% untuk model EfficientNetV2-S.

Berdasarkan beberapa penelitian mengenai klasifikasi makanan tersebut, masih ada kebutuhan untuk mengklasifikasikan makanan terutama makanan tradisional Indonesia, karena beragamnya jenis makanan

(3)

Indonesia dan semakin sadarnya masyarakat terhadap kondisi Kesehatan melalui makanan yang akan mereka konsumsi. Karena sudah dilakukan penelitian dan hasil klasifikasi yang didapatkan cukup bagus pada dataset makanan, maka penelitian ini membuat model klasifikasi gambar menggunakan EfficientNetV2 dengan dataset makanan tradisional Indonesia untuk membantu mengenali nama makanan dan mengetahui tingkat akurasi dari makanan tersebut. Harapannya model klasifikasi yang dilakukan pada penelitian ini dapat memberikan informasi yang lengkap, sehingga dapat digunakan untuk mengembangkan aplikasi penghitung kalori kedepannya.

Penelitian ini menggunakan arsitektur EfficientNetV2 sebagai pemodelannya, dikarenakan dari penelitian yang sudah dilakukan menggunakan arsitektur ini berhasil mendapatkan nilai akurasi yang cukup tinggi [16], [18]–[20].

Model klasifikasi tersebut akan dibangun dengan EfficientNetV2 dan akan diujicobakan dengan keluarga EfficientNetV2 yang ada, yakni EfficientNetV2_S_21k, EfficientNetV2_M_21k, EfficientNetV2_L_21k, dan EfficientNetV2_XL_21k. Untuk mengukur perfomanya penelitian ini akan mencoba menghitung tingkat akurasi dari model yang akan dibangun sebagai bahan evaluasi.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Penelitian ini mempunyai beberapa tahapan metode penelitian. Tahapan penelitian dapat dilihat pada Gambar 1.

Gambar 1 menunjukkan alur metodologi dari penelitian yang terdiri dari empat tahapan, yakni pengambilan data, pra-pemrosesan data (preprocessing), pemodelan, dan evaluasi. Pengambilan data menjelaskan tentang sumber data dan proses pengumpulan data. Preprocessing menjelaskan tentang pra pemrosesan data untuk memudahkan dalam proses pemodelan. Pemodelan menjelaskan tentang proses klasifikasi model dan metode EfficientNetV2 yang digunakan. Evaluasi menjelaskan tentang evaluasi dari model untuk menilai kinerja model yang digunakan.

Gambar 1. Alur Metodologi Penelitian 2.2 Pengambilan Data

Dataset yang digunakan pada penelitian ini menggunakan dataset gambar makanan tradisional Indonesia. Dataset yang digunakan memiliki tiga kategori sumber data yakni dari google image yang menggunakan web crawling, pengambilan secara langsung menggunakan kamera smartphone, dan gabungan dari keduanya. Klasifikasi makanan tradisional Indonesia pada penelitian ini terdiri dari 18 kelas makanan tradisional untuk kategori sumber data dari google image, 18 kelas makanan tradisional untuk kategori sumber data dari kamera smartphone, dan 18 kelas makanan tradisional untuk kategori sumber data gabungan dari google image dan kamera smartphone.

Dataset makanan tradisional yang digunakan berasal dari beberapa daerah di Indonesia. Keyword yang digunakan pada google image saat melakukan crawling image menggunakan nama masing-masing jenis makanan dan nama daerah makanan tersebut berasal, seperti keyword ‘kue tat bengkulu’ yang bermakna nama makanannya yakni kue tat dan asal makanan tersebut yakni bengkulu. Keyword yang dipakai menggunakan huruf kecil dengan spasi dan tanpa tanda petik. Hasil gambar yang didapatkan dari crawling pada google image disimpan dengan file gambar bertipe .jpg dan kemudian dilakukan pelabelan sesuai pada kelas nama makanannya.

Pada saat pengambilan data, jumlah dataset yang dimasukkan pada pencarian google image berjumlah 200 gambar. Sedangkan jumlah dataset yang berasal dari kamera smartphone berjumlah minimal 100 gambar. Gambar yang diambil menggunakan kamera smartphone mengaplikasikan teknik pengambilan yang berbeda-beda, seperti pencahayaan dari dalam dan luar ruangan, dari sudut pengambilan gambar yang berbeda-beda, serta beberapa dari dalam dan luar kemasan.

2.3 Preprocessing

Tahap ini dilakukan pra-pemrosesan data (preprocessing) sebelum penerapan ke model image classification.

Dataset gambar makanan dilakukan proses preprocessing agar data gambar yang didapat lebih mudah dikenali dan lebih bersih sehingga memudahkan dalam proses implementasi serta objek dapat menghasilkan nilai akurasi yang lebih baik. Tahapan preprocessing yang dilakukan pada penelitian ini yakni memfilterisasi gambar dari google image yang sekiranya tidak sesuai dengan keyword yang dimasukkan, melakukan cropping gambar untuk menghilangkan gambar yang tidak diperlukan disekitar gambar utama, dan mengubah ukuran gambar menjadi berukuran 400x300 dan 300x400 guna menstandarkan gambar dikarenakan teknik pengambilan gambar yang berbeda-beda dan terlalu besarnya ukuran gambar yang diambil menggunakan kamera smartphone. Sehingga jumlah dataset pada pencarian Google Image yang sebelumnya berjumlah 200 gambar, setelah di preprocessing menjadi 100 gambar. Sedangkan jumlah dataset yang berasal dari kamera smartphone diambil sebanyak 100 gambar.

(4)

2.4 Pemodelan

Tahap ini dilakukan proses pemodelan data untuk membuat model klasifikasi. Model yang dibangun menggunakan metode penskalaan baru dari neural architecture yakni arsitektur EfficientNetV2. Model EfficientNetV2 merupakan keluarga baru dari Convolutional Neural Network (CNN) yang memiliki kemampuan unggul dalam pengklasifikasian gambar, karena mampu 11x lebih cepat dalam pelatihan dan model yang 6.8x lebih kecil.

EfficientNetV2 menggunakan blok Mobile Inverted Bottleneck Convolution (MBConv) dengan rasio ekspansi yang lebih kecil dan Fused-MBConv yang ditambahkan pada lapisan awal serta menggunakan kernel berukuran 3x3 yang lebih kecil dengan beberapa layer [16]. Gambar 2 menunjukkan struktur dari MBConv dan Fused- MBConv. Blok Mobile Inverted Bottleneck Convolution (MBConv) dan Fused-MBConv pada EfficientNetV2 memiliki sedikit perbedaan layer yang digunakan. MBConv menggunakan depthwise conv3x3 dan Conv1x1, sedangkan Fused-MBConv menggunakan Conv3x3 [16].

Gambar 2. Struktur MBConv dan Fused-MBConv [16]

Sebelum dilakukan proses pemodelan, dilakukan tahapan-tahapan distribusi data dan feature extraction.

Data yang sudah terkumpul sebanyak 18 kelas dengan jumlah 100 gambar untuk masing-masing kelas dengan kategori data dari google image, kamera smartphone, dan gabungan dilakukan proses distribusi data menjadi data latih dan data uji. Data latih sebanyak 80% dan data uji sebanyak 20% dari jumlah data gambar yang ada.

Pembagian distribusi data dapat dilihat pada Tabel 1.

Tabel 1. Distribusi data

Sumber Data Jumlah Kelas Jumlah Data Data Latih Data Uji

Google Image 18 1800 1440 360

Kamera 18 1800 1440 360

Gabungan 18 3600 2880 720

Setelah data gambar sudah terdistribusi, selanjutnya melakukan tahapan feature extraction menggunakan dataset ImageNet21k. Model dilatih sebelumnya menggunakan dataset ImageNet21k. ImageNet21k memiliki sekitar 13 juta gambar pelatihan dengan 21.841 kelas [16]. Feature Extraction digunakan untuk menangkap fitur gambar dasar seperti tepi dan gumpalan dari lapisan awal jaringan untuk mengekstrak fitur gambar [5]. Setelah tahapan feature extraction selanjutnya melakukan pemodelan menggunakan arsitektur EfficientNetV2.

EfficientNetV2 yang digunakan pada penelitian ini terdiri dari empat arsitektur yang berbeda yakni EfficientNetV2_S_21k, EfficientNetV2_M_21k, EfficientNetV2_L_21k dan EfficientNetV2_XL_21k. Tabel 2 menunjukkan blok-blok arsitektur EfficientNetV2_S. Blok-blok arsitektur EfficientNetV2 pada Tabel 2 terdiri dari layer Conv3x3 (layer konvolusi dengan kernel berukuran 3x3), Fused-MBConv k3x3 (kernel berukuran 3x3) dengan rasio ekspansi {1, dan 4}, MBConv k3x3 (kernel berukuran 3x3) dengan rasio ekspansi {4, dan 6}, dan Conv1x1 (layer konvolusi dengan kernel berukuran 1x1) & Pooling & FC layer. Total layer yang digunakan pada Tabel 2 berjumlah 42 layer.

Tabel 2. Arsitektur EfficientNetV2-S [16]

Stage Operator Stride #Channels Layers

0 Conv3x3 2 24 1

1 Fused-MBConv1, k3x3 1 24 2

4 MBConv4, k3x3, SE0.25 2 128 6

5 MBConv6, k3x3, SE0.25 1 160 9

6 MBConv6, k3x3, SE0.25 2 256 15

7 Conv1x1 & Pooling & FC - 1280 1

Penelitian ini menerapkan arsitektur EfficientNetV2 seperti paper aslinya [16], tanpa mengubah model arsitektur yang signifikan. Penelitian ini menyempurnakan model yang diaplikasikan dengan mengatur

(5)

hyperparameter untuk mendapatkan hasil akurasi yang lebih baik dalam klasifikasi gambar. Gambar 3 menunjukkan arsitektur EfficientNetV2 yang digunakan untuk melakukan klasifikasi gambar pada penelitian ini.

Gambar 3 menunjukkan mulai dari proses input gambar makanan kemudian melalui tahapan layers pada arsitektur EfficientNetV2 hingga menghasilkan output berupa hasil klasifikasi nama makanan tradisional Indonesia.

Gambar 3. Arsitektur EfficientNetV2-S

2.5 Skenario Eksperimen

Penelitian ini menggunakan empat model klasifikasi dari keluarga EfficientNetV2 yakni EfficientNetV2_S_21k, EfficientNetV2_M_21k, EfficientNetV2_L_21k, dan EfficientNetV2_XL_21k. Empat model EfficientNetV2 yang digunakan berfungsi untuk menghitung tingkat akurasi dari model yang akan dibangun sebagai bahan evaluasi. Hyperparameter yang digunakan pada penelitian ini yakni dropout rate 0.5, learning rate 0.005, dan epoch 20. Dropout merupakan teknik dasar yang digunakan untuk mengeluarkan node dari network, dan node yang dihapus ditentukan sebagai parameter. Dropout memiliki fungsi dalam mencegah terjadinya overfitting [21]. Nilai learning rate 0.005 ditentukan berdasarkan hasil nilai akurasi yang paling baik diantara nilai learning rate 0.01, 0.05, 0.001, 0.0001, dan 0.0005. Untuk mendapatkan hasil klasifikasi dengan nilai akurasi terbaik, dibutuhkan parameter pengujian dengan learning rate dan epoch. Learning rate merupakan salah satu parameter yang berfungsi dalam menentukan sejauh mana kesalahan, dan memiliki pengaruh dalam pembaruan parameter yang akan dioptimalkan. Epoch merupakan parameter yang berfungsi untuk mengetahui berapa banyak algoritma mengulang semua set pelatihan [22]. Nilai epoch yang digunakan yakni 20. Nilai epoch ditentukan berdasarkan hasil akurasi yang paling baik diantara nilai epoch 5, dan 10.

2.6 Evaluasi

Setelah melakukan proses klasifikasi, pada tahap ini model akan dievaluasi menggunakan matriks evaluasi untuk menentukan seberapa baik kinerja model yang telah dilatih. Model EfficientNetv2 dievaluasi menggunakan pengujian akurasi, precision, recall, dan F1-score. Pengujian akurasi membantu mengidentifikasi performa model pada setiap kelas dengan membandingkan label yang diprediksi oleh pengklasifikasi dengan label asli dari gambar.

Sehingga akan membantu mengidentifikasi model yang tidak dapat memprediksi dengan benar. Pada persamaan (1) menunjukkan bagaimana cara untuk menghitung nilai akurasi. Semakin tinggi nilai akurasi, maka akan semakin baik pengklasifikasiannya. Nilai akurasi menunjukkan perbandingan gambar yang diklasifikasikan dengan benar [23]. Pada persamaan (2), (3), dan (4) menunjukkan bagaimana cara untuk menghitung nilai precision, recall, dan F1-score [17]. Beberapa istilah yang digunakan dalam melakukan matriks evaluasi yakni True Positive (TP), True Negative (TN), False Negative (FN), dan False Positive (FP). True Positive (TP) merupakan gambar sampel yang diklasifikasikan dengan benar dalam kelas tertentu. True Negative (TN) merupakan jumlah keseluruhan kolom dan baris yang tersisa, tidak termasuk kolom dan baris yang sesuai. False Negative (FN) merupakan jumlah nilai pada baris yang sesuai, tidak termasuk TP. False Positive (FP) merupakan jumlah keseluruhan kolom yang sesuai, tidak termasuk TP [24].

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (1)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ^𝑇𝑃

𝑇𝑃+𝐹𝑃 (2)

𝑅𝑒𝑐𝑎𝑙𝑙 = ^𝑇𝑃

𝑇𝑃+𝐹𝑁 (3)

𝐹1𝑠𝑐𝑜𝑟𝑒 = 2∗(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑟𝑒𝑐𝑎𝑙𝑙)

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (4)

3. HASIL DAN PEMBAHASAN

3.1 Pengolahan Data 3.1.1 Pengambilan Data

Data yang digunakan pada penelitian ini adalah data makanan tradisional Indonesia yang berasal dari tiga kategori sumber data yakni dari google image yang menggunakan web crawling, pengambilan secara langsung menggunakan kamera smartphone, dan gabungan dari web crawling dan kamera smartphone. Dataset pada

(6)

penelitian ini terdiri dari 18 kelas dan berasal dari beberapa daerah di Indonesia. Dataset yang digunakan yakni Kue Tat, Pendap, Tempoyak, Lemang Tapai, Bakpia Pathok, Gethuk, Gatot, Tiwul, Gudeg, Lupis, Martabak, Sate Padang, Mie Celor, Pempek, Cireng, Cilok, Nasi Kebuli, dan Ketoprak. Sedangkan asal daerah Indonesia yang digunakan pada penelitian ini yakni Bengkulu, Yogyakarta, Bangka, Padang, Palembang, Bandung, Lombok, dan Jakarta. Masing-masing kategori terdiri dari 100 gambar untuk setiap kelas. Contoh dataset gambar makanan tradisional Indonesia beserta nama makanan dan asal makanan yang digunakan pada penelitian ini dapat dilihat pada Tabel 3.

Tabel 3. Contoh Dataset Makanan Tradisional Indonesia

No Gambar Makanan Nama Makanan Asal Makanan Sumber Data

1 Kue Tat Bengkulu Google Image

2 Pendap Bengkulu Google Image

3 Tempoyak Bengkulu Kamera Smartphone

4 Lemang Tapai Bengkulu Kamera Smartphone

5 Bakpia Pathok Yogyakarta Kamera Smartphone

6 Gethuk Yogyakarta Kamera Smartphone

7 Gatot Yogyakarta Kamera Smartphone

8 Tiwul Yogyakarta Kamera Smartphone

9 Gudeg Yogyakarta Kamera Smartphone

10 Lupis Yogyakarta Kamera Smartphone

11 Martabak Bangka Kamera Smartphone

12 Sate Padang Padang Google Image

13 Mie Celor Palembang Google Image

14 Pempek Palembang Google Image

15 Cireng Bandung Google Image

16 Cilok Bandung Google Image

(7)

No Gambar Makanan Nama Makanan Asal Makanan Sumber Data

17 Nasi Kebuli Lombok Google Image

18 Ketoprak Jakarta Google Image

3.1.2 Preprocessing

Setelah tahapan pengumpulan data, selanjutnya adalah tahapan pengolahan data yakni tahap preprocessing.

Gambar 5 merupakan contoh data gambar yang belum dilakukan preprocessing data. Gambar 5 masih terdapat gambar yang tidak sesuai dengan keyword yang dimasukkan dan ukuran gambar masih berbeda-beda serta belum standar. Keyword yang dimasukkan pada Gambar 5 adalah kue tat Bengkulu, namun hasil yang didapatkan dari google image masih terdapat gambar selain kue tat Bengkulu dan masih terdapat objek lain pada gambar yang dapat mempengaruhi hasil klasifikasi gambar. Oleh sebab itu, tahapan preprocessing data sangat penting agar dapat meningkatkan tingkat akurasi klasifikasi gambar. Gambar 6 merupakan contoh data gambar yang sudah dilakukan preprocessing data. Contoh dari data gambar pada Gambar 6 sudah sesuai dengan keyword yang dimasukkan, dan ukuran gambar sudah sesuai standar yakni menjadi berukuran 400x300.

Gambar 4. Gambar sebelum di preprocessing

Gambar 5. Gambar setelah di preprocessing 3.2 Hasil Pengujian

Model klasifikasi EfficientNetV2 dilakukan uji coba dengan menentukan nilai parameter menggunakan nilai learning rate, dropout rate dan epoch. Uji coba dalam menentukan nilai parameter dilakukan sebelum tahapan pemodelan menggunakan keluarga EfficientNetV2. Perbandingan nilai akurasi dalam menentukan nilai learning rate dapat dilihat pada Tabel 4. Tabel 4 menggunakan arsitektur EfficientNetV2_XL_21k dari dataset kamera smartphone dengan epoch 5. Parameter nilai learning rate pada Tabel 4 terdiri dari 0.01, 0.05, 0.001, 0.005, 0.0001, dan 0.0005.

Tabel 4. Learning Rate

Learning Rate Accuracy Loss Time (s)

0.01 92% 1.1488 548

0.05 86% 6.1048 549

0.001 92% 1.0250 789

0.005 95% 0.9429 548

0.0001 44% 2.3009 549

0.0005 82% 1.2045 546

Pengujian dengan learning rate yang berbeda menunjukkan bahwa nilai learning rate 0.005 merupakan nilai learning rate yang paling baik dibandingkan nilai learning rate yang lain, karena mampu mendapatkan nilai akurasi yang paling tinggi dan nilai loss yang paling rendah. Tabel 5 merupakan hasil pelatihan dengan beberapa nilai

(8)

akurasi berdasarkan beberapa nilai epoch dengan learning rate 0.005 dan dropout rate 0.5 menggunakan arsitektur EfficientNetV2_XL_21k dari dataset gabungan. Parameter yang digunakan untuk menentukan nilai epoch terdiri dari epoch 5, 10, dan 20. Berdasarkan Tabel 5 didapatkan nilai akurasi terbaik sebesar 93% dengan nilai epoch 20 diantara nilai epoch 5 dan 10.

Tabel 5. Epoch Learning rate 0,005

Epoch Accuracy Loss

5 87% 1.1787

10 91% 1.0285

20 93% 0.9276

Dataset gambar yang digunakan berjumlah 1.800 gambar dari google image, 1.800 gambar dari kamera smartphone, dan 3.600 gambar gabungan dari keduanya. Dataset kelas yang digunakan berjumlah 18 kelas dari google image, 18 kelas dari kamera smartphone, dan 36 kelas gabungan dari keduanya. Kemudian terbagi kedalam data latih dan data uji. Data latih dari google image berjumlah 1.440 dan data uji berjumlah 360. Data latih dari kamera smartphone berjumlah 1.440 dan data uji berjumlah 360. Sedangkan data latih dari dataset gabungan berjumlah 2.880 dan data uji berjumlah 720. Jumlah data latih dan data uji dibagi dengan muatan yang sama pada setiap kelasnya. Penelitian ini bertujuan mendapatkan pengklasifikasi model terbaik dari masing-masing arsitektur dan mendapatkan perbedaan dari empat arsitektur EfficientNetV2 yang dilatih menggunakan data latih. Kemudian pengklasifikasi model ini dilakukan pengujian pada data uji untuk mendapatkan hasil akurasi dari masing-masing arsitektur.

Tabel 6 menunjukkan hasil akurasi klasifikasi pelatihan dan pengujian dari masing-masing arsitektur EfficientNetV2 berdasarkan empat pengklasifikasi model. Tabel 6 menunjukkan bahwa hasil pelatihan akurasi EfficientNetV2_L_21k dari dataset kamera mampu mencapai nilai tertinggi yakni sebesar 99,6% dengan nilai loss terendah yakni 0,71 dibandingkan dengan model yang lain. Sedangkan untuk hasil pengujian akurasi, EfficientNetV2_L_21k dari dataset kamera mendapatkan nilai tertinggi yakni sebesar 99,4% dengan nilai loss terendah yakni 0,66 jika dibandingkan dengan model yang lain. Berdasarkan Tabel 6 menunjukkan bahwa nilai akurasi pada data latih dan data uji tidak terjadi overfitting maupun underfitting. Namun apabila didapatkan pada hasil pengujian dari data uji terjadi overfitting atau underfitting dapat ditambahkan tahapan augmentasi setelah pelatihan (training) agar hasil prediksi yang didapatkan lebih akurat serta mencegah terjadinya overfitting maupun underfitting. Hasil perbandingan dari nilai akurasi dan nilai loss menggunakan keluarga EfficientNetV2 dapat dilihat pada Tabel 6.

Tabel 6. Hasil nilai akurasi dan nilai loss menggunakan EfficientNetV2

Model Dataset Data Latih Data Uji Loss Acc (%) Loss Acc (%)

EffNetV2_S_21k

Kamera 0.71 99.3 0.66 99.4

Google Images 0.91 93.8 0.96 88.6 Gabungan 0.89 94.3 0.91 93.2 EffNetV2_M_21k

Kamera 0.71 99.3 0.67 99.4

Google Images 0.93 93.7 0.97 90 Gabungan 0.86 95.2 0.87 93.5 EffNetV2_L_21k

Kamera 0.71 99.6 0.66 99.4

Google Images 0.92 93.8 0.98 90.6 Gabungan 0.86 95.8 0.85 94.2 EffNetV2_XL_21k

Kamera 0.72 99.5 0.67 99.2

Google Images 0.99 92.2 1.14 84.7 Gabungan 0.89 94.3 0.88 92.9

Gambar 6. Visualisasi hasil akurasi klasifikasi dari Tabel 6.

Classification Accuracy

(9)

Gambar 7 menunjukkan visualisasi hasil akurasi klasifikasi dari Tabel 6 sehingga dapat terlihat dengan lebih jelas urutan nilai akurasi dari yang tertinggi ke nilai akurasi yang terendah. Pada Gambar 7 menunjukkan bahwa urutan nilai akurasi tertinggi sampai terendah yakni EfficientNetV2_L_21k dataset kamera, EfficientNetV2_XL_21k dataset kamera, EfficientNetV2_S_21k dataset kamera, EfficientNetV2_M_21k dataset kamera, EfficientNetV2_L_21k dataset gabungan, EfficientNetV2_M_21k dataset gabungan, EfficientNetV2_S_21k dataset gabungan, EfficientNetV2_XL_21k dataset gabungan, EfficientNetV2_S_21k dataset google image, EfficientNetV2_L_21k dataset google image, EfficientNetV2_M_21k dataset google image, EfficientNetV2_XL_21k dataset google image. Selanjutnya dari hasil akurasi klasifikasi pada Tabel 6 dan Gambar 7 model yang akan dilanjutkan ke tahap berikutnya yakni tahap visualisasi dan evaluasi adalah model EfficientNetV2_L_21k dataset kamera yang telah mendapatkan nilai akurasi pelatihan dan pengujian tertinggi.

Untuk mempermudah membaca hasil klasifikasi, pada Gambar 8 merupakan grafik nilai akurasi dan nilai loss dari model EfficientNetV2_L_21k dari dataset kamera. Gambar 8 menunjukkan bahwa model akurasi dari model EfficientNetV2_L_21k cenderung naik, dan model loss dari model EfficientNetV2_L_21k cenderung turun.

Berdasarkan hasil grafik tersebut, menunjukkan bahwa model EfficientNetV2_L_21k pada gambar 8 memiliki nilai akurasi dan nilai loss yang baik, yakni 99.4% dan 0,66.

Gambar 7. Grafik nilai accuracy dan nilai loss data latih EfficientNetV2_L_21k (dataset kamera) Gambar 9 merupakan contoh hasil pengujian klasifikasi makanan tradisional menggunakan arsitektur EfficientNetV2_L_21k (dataset kamera). Berdasarkan hasil pengujian dapat terlihat keakuratan arsitektur EfficientNetV2_L_21k dalam memprediksi makanan tradisional Indonesia dengan menampilkan hasil predicted dan nama asli dari kelas makanan tradisional Indonesia. Pada Gambar 9 adalah hasil klasifikasi makanan yang menghasilkan klasifikasi Pempek, Gethuk, Nasi Kebuli, Bakpia Pathok, Cilok, Sate Padang, Gudeg, dan Tiwul.

Gambar 8. Hasil Pengujian. Tulisan predicted dibawah gambar menunjukkan hasil prediksi dari gambar, sedangkan tulisan real menunjukkan nama asli dari gambar yang diprediksi.

Tabel 7 merupakan hasil evaluasi data pengujian klasifikasi makanan tradisional Indonesia menggunakan arsitektur EfficientNetV2_L_21k (dataset kamera). Dataset kelas makanan tradisional Indonesia yang digunakan pada evaluasi data uji pada Tabel 7 menghasilkan bahwa nilai precision tertinggi yakni 1,00 dan nilai precision terendah yakni 0,89 dari kelas Tempoyak. Nilai recall tertinggi yakni 1,00 dan nilai recall terendah yakni 0,92 dari kelas Mie Celor. Nilai F1-score tertinggi yakni 1.00, sedangkan nilai F1-score terendah yakni 0,94 dari kelas Tempoyak dan 0,96 dari kelas Mie Celor. Sedangkan hasil evaluasi rata-rata pada Tabel 7 menunjukkan bahwa nilai macro average dari nilai precision adalah 0,99, nilai recall adalah 1,00, dan nilai F1-score adalah 0,99 yang menandakan bahwa nilai rata-rata yang didapatkan dari hasil evaluasi data uji adalah baik. Kolom Support pada Tabel 7 merupakan jumlah dari gambar pada masing-masing kelas yang dilakukan evaluasi menggunakan matriks

(10)

evaluasi. Jumlah dari gambar pada masing-masing kelas yang dilakukan uji evaluasi yakni 100 gambar yang terbagi kedalam 18 kelas dataset.

Tabel 7. Hasil evaluasi data uji EfficientNetV2_L_21k (dataset kamera) Nama Makanan Precision Recall F1-Score Support

Cireng 1.00 1.00 1.00 5

Lemang_Tapai 1.00 1.00 1.00 5

Kue_Tat 1.00 1.00 1.00 6

Nasi_Kebuli 1.00 1.00 1.00 3

Cilok 1.00 1.00 1.00 5

Lupis 1.00 1.00 1.00 5

Pendap 1.00 1.00 1.00 5

Tempoyak 0.89 1.00 0.94 8

Martabak 1.00 1.00 1.00 5

Sate_Padang 1.00 1.00 1.00 5

Tiwul 1.00 1.00 1.00 8

Gatot 1.00 1.00 1.00 5

Pempek 1.00 1.00 1.00 4

Gudeg 1.00 1.00 1.00 2

Mie_Celor 1.00 0.92 0.96 12

Gethuk 1.00 1.00 1.00 5

Bakpia_Pathok 1.00 1.00 1.00 6

Ketoprak 1.00 1.00 1.00 6

Accuracy 0.99 100

Macro Avg 0.99 1.00 0.99 100

Weighted Avg 0.99 0.99 0.99 100

Setelah melakukan pengujian akurasi, precision, recall, dan F1-score, EfficientNetV2 telah menunjukkan keakuratan dalam melakukan pengenalan klasifikasi gambar menggunakan dataset makanan tradisional Indonesia.

Sistem ini mampu mengklasifikasikan gambar makanan tradisional Indonesia dengan nilai akurasi dan loss yang tinggi serta nilai akurasi dan loss yang berbeda-beda sesuai dengan sumber dataset yang digunakan.

Tabel 8 menunjukkan hasil penelitian sebelumnya yang telah menggunakan model EfficientNetV2.

Penelitian pada dataset Breast Cancer yang terdiri dari 8 kelas dan 7.909 gambar mendapatkan hasil akurasi 84.71% [18]. Penelitan pada dataset Penyakit Kulit yang terdiri dari 4 kelas dan 13.864 gambar mendapatkan hasil akurasi tertinggi 84.70% [17]. Penelitian pada dataset Daun Singkong yang terdiri dari 5 kelas dan 21.297 gambar mendapatkan hasil akurasi tertinggi 99.56% [19]. Penelitian pada dataset Cardamon & Grape Plant yang terdiri dari 5 kelas dan 56.008 gambar mendapatkan hasil akurasi tertinggi 98.28% [20]. Berdasarkan hasil pada Tabel 8, nilai akurasi yang didapatkan menggunakan model EfficientNetV2 mampu mendapatkan nilai akurasi yang tinggi yakni 99.4%.

Tabel 8. Hasil penelitian sebelumnya yang menggunakan model EfficientNetV2

Referensi Total Data Dataset Model Hasil

[18] 8 kelas, 7.909 gambar

Breast Cancer EfficientNetV2-SA 84.71%

Penyakit Kulit Eff2Net, EfficientNetV2

84.70 Eff2Net, 80.38 EfficientNetV2 [19] 5 kelas, 21.397

gambar

Daun Singkong EfficientNetV2, PDRNet

98.53%

EfficientNetV2, 99.56% PDRNet [20] 5 kelas, 56.008

gambar

Cardamon & Grape Plant

EfficientNetV2S, EfficientNetV2M,

EfficientNetV2L, EfficientNet, CNN

Hasil tertinggi yakni:

98.26%

EfficientNetV2L, 98.28%

EfficientNetV2S Penelitian

yang diusulkan

18 kelas, 1.800 gambar

Makanan Tradisional

Indonesia

EfficientNetV2L_21k 99.4%

Tabel 9 menunjukkan perbandingan hasil penelitian yang dilakukan pada penelitian ini dengan penelitian sebelumnya. Kinerja model EfficientNetV2 dibandingkan dengan model lain yang sudah dilakukan pada penelitian sebelumnya untuk klasifikasi makanan tradisional Indonesia menunjukkan perbandingan nilai akurasi yang berbeda. Berbagai model dari keluarga EfficientNetV2 telah dilatih dan diuji untuk mendapatkan nilai akurasi

(11)

terbaik. Sehingga mendapatkan model dengan nilai akurasi terbaik dari keluarga EfficientNetV2 yakni EfficientNetV2_L_21k dari dataset kamera. Hasil evaluasi seperti precision, recall, F1-score, dan akurasi pengujian dilakukan untuk menentukan seberapa baik kinerja model yang telah dilatih. Selain faktor model yang digunakan, jumlah gambar dan kelas yang digunakan pada penelitian juga berpengaruh pada hasil akurasi. Oleh karena itu pada penelitian ini menggunakan 100 gambar pada setiap kelasnya. Berdasarkan Tabel 9 penelitian ini telah berkontribusi dalam mengidentifikasi objek makanan tradisional Indonesia menggunakan arsitektur EfficientNetV2 yang merupakan salah satu model pengolahan gambar keluaran baru dari keluarga EfficientNet, dengan nilai akurasi rata-rata terbaik.

Tabel 9. Perbandingan hasil penelitian dengan penelitian sebelumnya

Referensi Total Data Dataset Model Hasil

Kue Tradisional Indonesia

CNN 65%

Makanan Tradisional

Indonesia

EfficientNetB6, EfficientNetV2M

59% EfficientNetB6, 64%

EfficientNetV2M [11] 10 kelas, 10.500

gambar

Makanan Indonesia CNN 88%

[14] 20 kelas, 380 gambar

Makanan Tradisional

Indonesia

CNN 73% presisi, 69%

recall, 69% F1-Score [25] 9 kelas, 900 gambar Makanan

Tradisional Indonesia

CNN 91%

Penelitian yang diusulkan

18 kelas, 1.800 gambar

Makanan Tradisional

Indonesia

EfficientNetV2L_21k 99.4%

4. KESIMPULAN

Makanan tradisional Indonesia merupakan makanan yang diolah dari produksi lokal masyarakat dari berbagai daerah di Indonesia. Beberapa jenis makanan tradisional Indonesia yang saat dikonsumsi memiliki dampak terhadap kesehatan konsumennya. Melalui penelitian ini kedepannya dapat digunakan untuk mengembangkan aplikasi penghitung kalori sehingga dapat membantu bagi masyarakat yang hendak melakukan hidup sehat maupun yang hendak melakukan diet. Penelitian ini mengklasifikasikan gambar makanan tradisional Indonesia untuk membantu mengenali nama makanan dengan tingkat akurasi tertentu menggunakan arsitektur EfficientNetV2. Keluarga EfficientNetV2 yang digunakan yakni EfficientNetV2_S_21k, EfficientNetV2_M_21k, EfficientNetV2_L_21k, dan EfficientNetV2_XL_21k. Dataset yang digunakan berasal dari tiga jenis kategori sumber data yakni dari Google Image, kamera Smartphone, dan gabungan dari keduanya. Masing-masing kategori dataset terdiri dari 18 kelas dengan total 1.800 gambar dari Google Image, 1.800 gambar dari kamera Smartphone, dan 3.600 gambar dari gabungan Google Image dan kamera Smartphone. Berdasarkan hasil yang diperoleh, model mampu mengklasifikasikan gambar makanan tradisional Indonesia dengan lebih baik dibandingkan beberapa penelitian yang telah dilakukan sebelumnya menggunakan dataset makanan tradisional Indonesia dengan model yang berbeda. Penelitian ini mencapai akurasi rata-rata terbaik dalam mengklasifikasikan gambar makanan tradisional Indonesia pada dataset pelatihan dari model EfficientNetV2_L_21k sumber data kamera smartphone dengan nilai akurasi sebesar 99,6%, sedangkan untuk pengujian yakni dari model EfficientNetV2_L_21k dengan nilai akurasi sebesar 99,4% serta hasil yang didapatkan tidak terjadi overfitting. Berdasarkan hasil pada penelitian ini menunjukkan bahwa semakin banyak ciri dan sudut pengambilan gambar pada dataset, maka model akan semakin mudah mengenali dan mengidentifikasi objek sehingga mempengaruhi hasil akurasi klasifikasi, seperti model dengan nilai akurasi tertinggi yakni EfficientNetV2_L_21k yang bersumber dari dataset kamera smartphone. Diharapkan pada penelitian selanjutnya dataset dapat diperbanyak lagi untuk masing-masing kelas dan jumlah kelas juga dapat ditambah, karena masih banyak dan beragamnya makanan tradisional yang Indonesia miliki.

REFERENCES

[1] D. A. Kurnia, A. Setiawan, D. R. Amalia, R. W. Arifin, and D. Setiyadi, “Image Processing Identification for Indonesian Cake Cuisine using CNN Classification Technique,” in Journal of Physics: Conference Series, IOP Publishing Ltd, Feb.

2021. doi: 10.1088/1742-6596/1783/1/012047.

[2] C. Mahaputri, Y. Kristian, and E. Setyati, “Pengenalan Makanan Tradisional Indonesia Beserta Bahan-bahannya dengan Memanfaatkan DCNN Transfer Learning,” 2022, doi: 10.52985/insyst.v4i2.252.

[3] I. Pamelia, “Fast Food Consumption Behavior in Adolescent and ITS Impact for Health,” 2018.

(12)

[4] L. Pan, S. Pouyanfar, H. Chen, J. Qin, and S. C. Chen, “DeepFood: Automatic Multi-Class Classification of Food Ingredients Using Deep Learning,” in Proceedings - 2017 IEEE 3rd International Conference on Collaboration and Internet Computing, CIC 2017, Institute of Electrical and Electronics Engineers Inc., Dec. 2017, pp. 181–189. doi:

10.1109/CIC.2017.00033.

[5] F. Akter, T. Khatun, and M. S. Uddin, “Recognition and Classification of Fast Food Images,” 2018. [Online]. Available:

https://www.researchgate.net/publication/350845216

[6] W. Wang, Y. Xu, J. Shen, and S.-C. Zhu, “Attentive Fashion Grammar Network for Fashion Landmark Detection and Clothing Category Classification,” 2018.

[7] B. Kolisnik, I. Hogan, and F. Zulkernine, “Condition-CNN: A Hierarchical Multilabel Fashion Image Classification Model,” Expert Syst Appl, vol. 182, Nov. 2021, doi: 10.1016/j.eswa.2021.115195.

[8] M. Xin and Y. Wang, “Research on Image Classification Model based on Deep Convolution Neural Network,” EURASIP J Image Video Process, vol. 2019, no. 1, Dec. 2019, doi: 10.1186/s13640-019-0417-8.

[9] J. R. Rajayogi, G. Manjunath, and G. Shobha, Indian Food Image Classification with Transfer Learning. 2019.

[10] S. J. Park, A. Palvanov, C. H. Lee, N. Jeong, Y. I. Cho, and H. J. Lee, “The Development of Food Image Detection and Recognition Model of Korean Food for Mobile Dietary Management,” Nutr Res Pract, vol. 13, no. 6, pp. 521–528, Dec.

2019, doi: 10.4162/nrp.2019.13.6.521.

[11] I. P. A. E. Udayana, M. Sudarma, and P. G. S. C. Nugraha, “Implementation of Convolutional Neural Networks to Recognize Images of Common Indonesian Food,” in IOP Conference Series: Materials Science and Engineering, Institute of Physics Publishing, May 2020. doi: 10.1088/1757-899X/846/1/012023.

[12] A. Ramdani, A. Virgono, and C. Setianingsih, Food Detection with Image Processing using Convolutional Neural Network (CNN) Method. 2020.

[13] G. Thiodorus, A. Prasetia, L. A. Ardhani, and N. Yudistira, “Klasifikasi Citra Makanan/Non Makanan menggunakan Metode Transfer Learning dengan model Residual Network,” Teknologi, vol. 11, no. 2, pp. 74–83, Jul. 2021, doi:

10.26594/teknologi.v11i2.2402.

[14] A. Rohim, Y. A. Sari, and Tibyani, “Convolution Neural Network (CNN) untuk Pengklasifikasian Citra Makanan Tradisional,” 2019. [Online]. Available: http://j-ptiik.ub.ac.id

[15] M. Tan and Q. V. Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” May 2019, [Online].

Available: http://arxiv.org/abs/1905.11946

[16] M. Tan and Q. V. Le, “EfficientNetV2: Smaller Models and Faster Training,” Apr. 2021, [Online]. Available:

http://arxiv.org/abs/2104.00298

[17] R. Karthik, T. S. Vaichole, S. K. Kulkarni, O. Yadav, and F. Khan, “Eff2Net: An Efficient Channel Attention-based Convolutional Neural Network for Skin Disease Classification,” Biomed Signal Process Control, vol. 73, Mar. 2022, doi:

10.1016/j.bspc.2021.103406.

[18] S. Fan, R. Xu, and Z. Yan, “A Medical Pre-Diagnosis System for Histopathological Image of Breast Cancer,” Sep. 2021, doi: 10.1109/CISP-BMEI53629.2021.9624252.

[19] Y. Ye, H. Zhou, H. Yu, H. Hu, G. Zhang, J. Hu, and T. He, “An Improved EfficientNetV2 Model Based on Visual Attention Mechanism: Application to Identification of Cassava Disease,” Comput Intell Neurosci, vol. 2022, 2022, doi:

10.1155/2022/1569911.

[20] C. K. Sunil, C. D. Jaidhar, and N. Patil, “Cardamom Plant Disease Detection Approach Using EfficientNetV2,” IEEE Access, vol. 10, pp. 789–804, 2022, doi: 10.1109/ACCESS.2021.3138920.

[21] J. Brownlee, “Deep Learning for Computer Vision Image Classification, Object Detection and Face Recognition in Python,” 2019.

[22] T. Beysolow II, Applied Natural Language Processing with Python. Apress, 2018. doi: 10.1007/978-1-4842-3733-5.

[23] L. Ying, Z. Nan, W. Ping, C. Kiang, L. Pang, Z. Chang, C. Lu, L. Jun, and L. Nam, “Adaptive Weights Learning in CNN Feature Fusion for Crime Scene Investigation Image Classification,” Conn Sci, vol. 33, no. 3, pp. 719–734, 2021, doi:

10.1080/09540091.2021.1875987.

[24] D. Padilla, A. Yumang, A. L. Diaz, and G. Inlong, Differentiating Atopic Dermatitis and Psoriasis Chronic Plaque using Convolutional Neural Network MobilNet Architecture. 2019.

[25] M. D. Darojat, Y. A. Sari, and R. C. Wihandika, “Convolutional Neural Network untuk Klasifikasi Citra Makanan Khas Indonesia,” 2021. [Online]. Available: http://j-ptiik.ub.ac.id