Perbandingan Metode Penyesuaian Kontras Citra Pada Pengenalan Ekspresi Wajah Menggunakan Fine-Tuning AlexNet

(1)

Perbandingan Metode Penyesuaian Kontras Citra Pada Pengenalan Ekspresi Wajah Menggunakan Fine-Tuning AlexNet

Akhmad Sarif^*, Dadang Gunawan

Fakultas Teknik, Teknik Elektro, Universitas Indonesia, Depok, Indonesia Email: ^1,*akhmad.sarif@ui.ac.id, ²guna@eng.ui.ac.id

Email Penulis Korespondensi: akhmad.sarif@ui.ac.id

Abstrak−Penelitian terkait pengenalan ekspresi wajah atau Facial Expression Recognition (FER) menjadi salah satu tema yang mendapat perhatian besar pada bidang computer vision dikarenakan aplikasinya yang luas. Teknologi kecerdasan buatan, sebagai contoh deep learning, juga sudah diaplikasikan pada penelitian di area FER ini. Penggunaan model deep learning pada FER membutuhkan sejumlah dataset sebagai media pembelajaran. Dataset tersebut menjadi hal yang penting dalam menentukan kinerja dari deep learning. Pada kenyataannya, dataset dari FER yang tersedia terkadang masih memerlukan pre- processing sebelum diproses menggunakan deep learning. Pada penelitian ini, dilakukan perbandingan pre-processing pengaturan kontras dari citra dataset menggunakan metode HE (Histogram Equalization) dan CLAHE (Contrast Limited Adaptive Histogram Equalization). Selanjutnya, citra dataset tersebut akan dipakai pada model deep learning AlexNet yang telah dilakukan fine-tuning untuk diklasifikasikan sesuai dengan kategori ekspresi wajah manusia yang ada. Penelitian ini bertujuan untuk mengetahui metode pengaturan kontras citra dataset FER yang lebih baik dalam menigkatkan kinerja dari model deep learning yang digunakan. Dataset FER yang digunakan pada penilitian ini adalah CK+ (The Extended Cohn- Kanade) dan KDEF (The Karolinska Directed Emotional Faces). Hasil penelitian menunjukkan metode CLAHE memberikan hasil yang lebih baik daripada HE baik ketika digunakan pada dataset CK+ maupun KDEF. Pada dataset CK+ metode CLAHE memberikan akurasi rata-rata sebesar 93,21% sedangkan akurasi rata-rata metode HE sebesar 91,50%. Sedangkan pada dataset KDEF akurasi rata-rata metode CLAHE sebesar 88,35% dan metode HE sebesar 84,70%.

Kata Kunci: AlexNet; CK+; CLAHE; Computer Vision; Fine-tuning; Histogram Equalization; KDEF; Pengenalan Ekspresi Wajah.

Abstract−Research related to facial expression recognition (FER) has become a significant topic of interest in the field of computer vision due to its broad applications. Artificial intelligence technologies, such as deep learning, have been applied in FER research. The use of deep learning models in FER requires a dataset for training, which plays a crucial role in determining the performance of deep learning. However, the available FER datasets often require preprocessing before being processed using deep learning. In this study, a comparison of contrast adjustment preprocessing methods was conducted using Histogram Equalization (HE) and Contrast Limited Adaptive Histogram Equalization (CLAHE). Subsequently, the dataset images were used with a fine-tuned deep learning model, specifically AlexNet, to classify them according to the categories of human facial expressions. The objective of this research is to determine the superior contrast adjustment method for FER dataset images in improving the performance of the deep learning model employed. The CK+ dataset (The Extended Cohn-Kanade) and KDEF dataset (The Karolinska Directed Emotional Faces) were used in this study. The results indicate that the CLAHE method outperforms HE in both the CK+ and KDEF datasets. In the CK+ dataset, the CLAHE method achieved an average accuracy of 93.21%, while the average accuracy of the HE method was 91.50%. For the KDEF dataset, the average accuracy of the CLAHE method was 88.35%, compared to 84.70% for the HE method.

Keywords: AlexNet; CK+; CLAHE; Computer Vision; Facial Expressions Recognition; Fine-tuning; Histogram Equalization;

KDEF

1. PENDAHULUAN

Pengenalan ekspresi wajah atau Facial Expression Recognition (FER) semakin berkembang dengan berkembangnya teknologi kecerdasan buatan khususnya deep learning. FER bertujuan agar komputer atau mesin mampu mengenali ekspresi manusia yang tampak dari wajahnya [1] [2]. Teknologi FER diaplikasikan di berbagai bidang kehidupan manusia seperti pada bidang kesehatan, keamanan, transportasi, robotik dan berbagai bidang kehidupan manusia lainnya yang melibatkan interaksi antara manusia dengan komputer [3]. Penelitian di bidang FER ini menjadi hal yang menantang karena keterbatasan dataset yang ada serta variasi ekspresi wajah antar individu dalam menyampaikan emosi yang sama, sudut pengambilan citra serta pengaruh pencahayaan [3], [4], [5], [6]. Hal tersebut menyebabkan perlunya dilakukan pre-processing terhadap dataset FER yang ada. Pre- processing yang dilakukan pada penelitian ini berupa penyesuain kontras dari citra dataset menggunakan metode HE (Histogram Equalization) ataupun CLAHE (Contrast Limited Adaptive Histogram Equalization). HE mengubah kontras suatu citra dengan cara meratakan distribusi keabuan pada histogram. Pada HE level kontras citra ditingkatkan secara merata sehingga apabila terdapat derau pada citra maka akan derau tersebut akan ditingkatkan juga [7]. Sedangkan CLAHE merupakan variasi dari HE yang menerapkan batasan tertentu sehingga detail citra meningkat tanpa disertai peningkatan derau [8], [9], [10], [11], [12]. Pada penelitian ini akan menggunakan model CNN (Convolutional Neural Network) AlexNet untuk mengenali ekspresi wajah pada dua buah dataset FER yaitu CK+ dan KDEF. AlexNet merupakan model CNN yang sudah teruji, karena sudah dilatih menggunakan citra dalam jumlah yang besar sekitar 15 juta serta memenangkan kompetisi kejuaraan ImageNet pada tahun 2012 [13].

(2)

Beberapa penelitian terkait FER yang sudah dilakukan antara lain: Biao Yang et.al.2018, melakukan penelitian terkait FER menggunakan metode WMDNN (Weighted Mixture Deep Neural Network) [14] yang menggunakan kanal double dari citra wajah. Kanal yang digunakan yaitu derajat keabuan (grayscale) serta LBP (Local Binary Pattern) dari citra wajah. Model CNN yang digunakan adalah VGG16 (Visual Geometry Group 16).

Dataset yang digunakan adalah CK+, JAFFE (The Japanese Female Facial Expression) serta Oulu-CASIA menghasilkan akurasi rata-rata untuk masih-masing dataset secara berurutan adalah 0,970; 0,922; 0,923. Selain itu, Tankun Li et.al. melakukan penelitian menggabungkan metode MSCM (Multi-Scale Correlation Module) dengan fusi adaptif [15]. Metode ini diuji pada pada dua dataset yaitu AFEW (Acted Facial Expressions in The Wild) dan DFEW (Dynamic Facial Expression in-the-Wild). Hasil penelitan yang dilakukan menggunakan dataset AFEW menunjukkan nilai UAR (Unwanted Average Recall) sebesar 52,30 dan nilai WAR (Weightd Average Recall) sebesar 56,40. Sedangkan jika menggunakan datset DFEW diperoleh nilai UAR sebesar 58,49 serta nilai WAR sebesar 70,16. Penelitian yang dilakukan Tianyu Li et.al melakukan penelitian skala laboratorium terkait pengaruh pencahayaan pedestrian pada FER dengan 3D model [16]. Hasil dari penelitian menyebutkan bahwa pengenalan ekspresi wajah 3D meningkat jika pencahayaannya meningkat. Ali Raza Shahid serta Hong Yan melakukan penelitian menggunakan arsitektur SqueezExpNet untuk mendapatkan informasi wajah secara lokal atau global untuk memperoleh FER yang akurat serta dapat bekerja pada lingkungan yang bervariasi [17]. Hasil penelitian memperoleh akurasi rata-rata sebesar 89,09% jika diaplikasikan pada dataset CFEE (Compound Facial Expressions of Emotions Database) serta 71.1% jika diaplikasikan pada dataset RAFDB (Real-world Affective Faces Database). Kemudian Ziang Zhang et.al. 2022, melakukan penelitian terkait MAN (Mining Ambiguity and Noise) untuk diaplikasikan pada FER [18]. Penelitian ini membagi dataset yang memiliki ekspresi yang jelas, ekspresi yang ambigu serta ekspresi yang berderau. Hasil penelitian menunjukkan metode MAN berhasil secara efektif mengenali ekspresi baik yang ambigu maupun yang berderau.

Perbedaan penelitan yang dilakukan dengan penelitian FER sebelumnya adalah pemakaian metode penyesuaian kontras dari citra dataset berupa histogram equalization dan CLAHE yang digabungkan dengan fine- tuning AlexNet. Penggunaan metode ini diharapkan dapat meningkatkan kinerja FER baik berupa akurasi maupun ketepatan dalam mengkalsifikasikan ekspresi wajah.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Berikut adalah metode proses pengenalan ekspresi wajah yang dilakukan di dalam penelitian ini. Proses ini terdiri dari beberapa tahap antara lain: pre-processing, fine-tuning model AlexNet serta proses deep learning. Pada penelitian ini dilakukan pengujian menggunakan metode dasar yaitu model AlexNet (tanpa fine-tuning) dan citra awal (tanpa dilakukan penyesuaian kontras) dari dataset CK+ dan KDEF. Kemudian juga melakukan pengujian menggunakan fine-tuning AlexNet dengan citra dataset yang sudah disesuaikan kontrasnya baik menggunakan prosedur HE maupun CLAHE. Hal ini bertujuan agar mengetahui perbandingan hasil pengujian metode dasar dengan metode yang mengaplikasikan fine-tuning terhadap model AlexNet serta penyesuaian kontras citra dataset.

Tahap pre-processing dilakukan sebelum citra dataset FER diproses menggunakan model CNN AlexNet yang sudah dilakukan fine-tuning. Tahapan ini dimulai dari penyesuaian dimensi citra masukan antara lain dilakukan dengan resizing atau mengubah ukuran citra menjadi 227x227. Citra yang diproses pada model AlexNet berformat RGB, sehingga jika citra dataset yang tidak dalam format RGB perlu dikonversi ke format RGB. Dataset FER yang digunakan pada penelitian ini adalah CK+ dan KDEF. Tahapan penelitian secara lengkap dapat dilihat pada Gambar 4.

Dataset CK+ dikembangkan oleh Tim Cohn-Kanade pada University of Pittsburgh dan University of California, San Diego. Dataset CK+ terdiri dari serangkaian gambar dan video yang menampilkan ekspresi wajah dari sejumlah subjek. Totalnya, dataset ini terdiri dari 593 urutan video dari 123 subjek yang berbeda dan memiliki tujuh klasifikasi ekspresi yang berbeda yaitu: marah (anger), meremehkan (contempt), jijik (disgust), takut (fear), senang (happy), netral (neutral), sedih (sadness), dan terkejut (surprise). Gambar-gambar tersebut dalam format grayscale 8-bit dengan ukuran 640 x 490 piksel [19], [20].

Gambar 1. Contoh citra pada dataset CK+

Gambar 1. menunjukkan contoh citra dari dataset CK+ dari satu subjek yang memperlihatkan beberapa ekspresi yang berbeda. Karena ukuran dan format citra dari dataset CK+ belum sesuai dengan ukuran citra yang disyaratkan pada model AlexNet, maka perlu dilakukan penyesuaian ukuran (resize) menjadi ukran 227x227 serta konversi format dari grayscale menjadi format RGB.

(3)

Dataset KDEF terdiri dari citra wajah yang menampilkan ekspresi emosi yang berbeda. Setiap ekspresi emosi direpresentasikan oleh sejumlah individu pria dan wanita yang berbeda, dengan variasi dalam intensitas dan sudut pandang wajah. Terdapat total 490 citra wajah berukuran 562 x 762 piksel, dari 70 individu (35 pria dan 35 wanita) yang masing-masing menampilkan tujuh ekspresi emosi yang berbeda yaitu: marah (anger), netral (neutral), jijik (disgust), takut (fear), senang (happy), sedih (sadness), terkejut (surprise)[2]. Gambar 2.

menunjukkan citra KDEF dari salah satu subjek yang menunjukkan tujuh ekspresi yang berbeda.

Gambar 2. Contoh citra dari dataset KDEF

Citra pada dataset KDEF perlu diubah ukurannya menjadi 227x227. Karena citra pada dataset KDEF sudah dalam format RGB, sehingga tidak diperlukan konversi formatnya.

Langkah pre-processing selanjutnya adalah melakukan penyesuian kontras dari citra dataset tersebut. Untuk mengetahui tingkat kekontrasan dari sebuah citra dapat diketahui dengan melihat histogramnya. Dari histogram tersebut, dapat diketahui distribusi intensitas piksel dari sebuah citra. Penyesuain kontras dilakuksm dengan HE dan CLAHE. Pada HE, perbaikan distribusi piksel dapat dihitung menggunakan persamaan berikut:

hi =ⁿⁱ

n, i = 0,1,2, … , L − 1 (1)

dengan L merupakan derajat keabuan, ni merupakan jumlah piksel pada derajat keabuan i.

Sedangkan pada CLAHE yang merupakan pengembangan dari HE, yang menggunakan nilai batas maksimum ketinggian histogram. Batas maksimum histogram (clip limit) pada CLAHE dapat dicari melalui persamaan berikut:

β = ^M

L(1 + ^α

100(s_max− 1)) (2)

M adalah luas dari region, L merupakan nilai derajat keabuan serta α merupakan clip factor sebagai tambahan pada batas limit histogram yang mempunyai nilai antara 0 sampai dengan 100.

Setelah penyesuaian kontras citra dilakukan, langkah selanjutnya adalah melakukan augmentasi terhadap citra dataset. Augmentasi dilakukan dengan cara melakukan pemotongan (cropping) citra, yang berfokus pada area wajah dari citra dataset yaitu sekitar mulut, pipi, mata dan alis. Hasil cropping citra tersebut kemudian ditambahkan ke dalam dataset. Augmentasi dilakukan agar lebih banyak lagi jumlah citra dalam dataset, sehingga meningkatkan akurasi serta menghindari terjadinya over fitting dalam proses pembelajaran pada deep learning.

Setelah proses augmentasi, langkah selanjutnya adalah melakukan fine-tuning model AlexNet. Fine-tuning dilakukan dengan mengubah beberapa parameter antara lain: mengubah fungsi aktivasi dari ReLU (Rectified Linear Unit) menjadi Leaky ReLU (Leaky Rectified Linear Unit). Normalisasi Cross channel diubah menjadi normalisasi batch.

ReLu merupakan fungsi aktivasi yang sering digunakan pada CNN. Fungsi ReLU memiliki respon yang lebih cepat dibandingkan fungsi Sigmoid atau tanh. Pada input x dari neuron pada CNN yang bernilai positif keluaran fungsi ReLU akan sama nilainya dengan x, akan tetapi jika input x bernilai negatif, maka keluaran dari fungsi ReLU akan selalu bernilai 0. Hal ini disebut dengan fenomena “dead neuron” yang menyebabkan ketika bernilai negatif, neuron menjadi tidak aktif. Pada pengujian ini, fungsi ReLU diganti dengan fungsi Leaky ReLU yang memiliki persamaan dengan fungsi ReLU, kecuali ketika input neuron (x) bernilai negatif maka output dari Leaky ReLU adalah nilai x akan dikalikan dengan nilai konstanta k yang bernilai antara rentang 0-1. Gambar 3 berikut memperlihatkan grafik dari fungsi ReLU dan Leaky ReLU.

Gambar 3. Grafik dari fungsi aktivasi a). ReLU, b). Leaky ReLU

Langkah fine-tuning selanjutnya adalah mengubah normalisasi dari cross channel menjadi normalisasi batch. Hal ini bertujuan untuk mempercepat proses learning pada CNN, karena pada normalisasi batch, normalisasi input dilakukan pada tiap layer serta memungkinkan tiap layer untuk saling mempelajari satu sama lain [21].

(4)

Selanjutnya fine-tuning AlexNet dilakukan dengan mengubah nilai dropout dari 50% menjadi 40% serta mengubah nilai output klasifikasi dari 1000 menjadi 7.

Proses pada metode penelitian ini dapat dilihat pada Gambar 4 yang berupa diagram alir.

Gambar 4. Diagram alir proses pengenalan ekspresi wajah menggunakan fine-tuning AlexNet serta penyesuaian kontras citra dataset menggunakan prosedur HE dan CLAHE

Sedangkan proses perhitungan pada tiap layer dari model AlexNet yang sudah dilakukan fine-tuning adalah seperti yang terlihat pada Tabel 1 berikut:

Tabel 1. Parameter pada komputasi menggunakan fine-tuning AlexNet pada tiap-tiap layer.

No Nama Layer Keterangan

1 'data' Image Input Citra berdimensi 227×227×3 dengan normalisasi 'zerocenter' 2 conv1' Convolution Konvolusi 96 11×11×3 dengan stride [4 4] dan padding [0 0 0 0]

3 Leaky1' Leaky ReLU Leaky ReLU dengan skala 0.001 4 'norm1' Batch Normalization Batch normalization

5 'pool1' Max Pooling 3×3 max pooling dengan stride [2 2] dan padding [0 0 0 0]

6 'conv2' Grouped Convolution 2 group dari konvolusi 128 5×5×48, stride [1 1] dan padding [2 2 2 2]

7 'Leaky2 Leaky ReLU Leaky ReLU dengan skala 0.001 8 'norm2' Batch Normalization Batch normalization

9 'pool2' Max Pooling 3×3 max pooling dengan stride [2 2] dan padding [0 0 0 0]

10 'conv3' Convolution Konvolusi 384 3×3×256 dengan stride [1 1] dan padding [1 1 1 1]

11 'Leaky3 Leaky ReLU Leaky ReLU dengan skala 0.001

12 'conv4' Grouped Convolution 2 group konvolusi 192 3×3×192 dengan stride [1 1] dan padding [1 1 1 1]

13 'Leaky4' Leaky ReLU Leaky ReLU dengan skala 0.001

14 'conv5' Grouped Convolution 2 group konvolusi 128 3×3×192 dengan stride [1 1] dan padding [1 1 1 1]

15 'Leaky5' Leaky ReLU Leaky ReLU dengan skala 0.001

(5)

No Nama Layer Keterangan

16 'pool5' Max Pooling Max pooling 3×3 dengan stride [2 2] dan padding [0 0 0 0]

17 'fc6' Fully Connected 2048 fully connected layer 18 'Leaky6' Leaky ReLU Leaky ReLU dengan skala 0.001 19 'drop6' Dropout Dropout 40%

20 'fc7' Fully Connected 2048 fully connected layer 21 'Leaky7' Leaky ReLU Leaky ReLU dengan skala 0.001 22 'drop7' Dropout Dropout 40%

23 'fc8' Fully Connected 7 fully connected layer 24 'prob' Softmax Softmax

25 'output' Classification Output crossentropyex

Parameter deep learning yang digunakan pada penelitian ini adalah sebagai berikut:

Tabel 2. Parameter deep leraning yang digunakan pada penelitian

No Parameter Nilai

1 Learning Rate 0,0001

2 ReLu Scale 0,001

3 Iterasi 100

4 Epoch 5

5 Dropout 40%, 40%

6 Data latih : data uji 80:20

7 Clip limit CLAHE 0.005

3. HASIL DAN PEMBAHASAN

3.1 Hasil Pre-processing

Pada bagian ini dibahas hasil pre-processing pada citra dataset. Tahapan pre-processing tersebut adalah penyesuain dimensi citra yang termasuk resize ukuran citra dan konversi format citra ke format RGB.

3.1.1 Hasil Penyesuaian Dimensi Citra

Gambar 5. Salah satu citra dari dataset CK+ beserta hasil resize-nya menjadi 227x227 format RGB Gambar 5 menunjukkan salah satu citra dari dataset CK+ yang di-resize menjadi ukuran 227x227 kemudian formatnya dikonversi dari grayscale menjadi RGB. Terlihat citra yang dihasilkan berukuran lebih kecil dari citra asal. Citra RGB hasil konversi ini tidak menggambarkan warna sebenarnya dari citra asal, akan tetapi hanya untuk memenuhi persyaratan perhitungan citra masukan dari model AlexNet yaitu 227x227 dengan format RGB.

Gambar 6. Citra dari dataset KDEF dan citra hasil resize-nya.

Gambar 6 menunjukkan citra dari dataset KDEF yang sudah diubah ukurnnya menjadi 227x227. Ukuran citra diubah agar dapat diproses pada model CNN AlexNet. Ukuran citra yang dihasilkan lebih kecil dari citra asal.

Setelah ukuran dan format citra dataset sudah sesuai dengan yang disyaratkan pada model AlexNet.

3.1.2 Hasil Penyesuain Kontras Citra

Berikut adalah perbandingan histogram citra awal dari dataset CK+ dan KDEF sebelum diproses pada model AlexNet.

(6)

Gambar 7. Citra awal dari salah satu citra dataset CK+ beserta histogramnya.

Gambar 7 menunjukkan salah satu citra awal dari citra dataset CK+ beserta histogramnya. Pada histogram tersebut sumbu X menunjukkan intensitas dari citra yang mempunyai rentang nilai 0-256, sedangkan sumbu Y menunjukkan jumlah piksel. Terlihat bahwa distribusi piksel citra tersebut tidak merata. Pada intensitas 21 jumlah piksel adalah 8467, pada intensitas 250 jumlah piksel mencapai 11077, sedangkan pada intensitas yang lainnya jumlah piksel di bawah 2000 piksel.

Gambar 8. Salah satu citra awal dari dataset KDEF beserta histogramnya.

Gambar 8 menunjukkan salah satu citra awal dari dataset KDEF beserta histogramnya. Terlihat bahwa pada intensitas warna 127 memiliki jumlah piksel yang tertinggi, mecapai 15529 piksel. Jika dibandingkan dengan histogram citra awal dari dataset CK+ (gambar 7) terlihat bahwa citra awal dari dataset KDEF memiliki jumlah piksel yang lebih banyak daripada jumlah piksel citra awal dataset CK+. Hal ini dikarenakan citra awal dataset CK+ merupakan citra hasil konversi dari grayscale ke RGB. Citra hasil konversi ini memiliki komposisi warna yang lebih sedikit bila dibandingkan dengan komposisi warna dari citra awal dataset KDEF.

Gambar 9. Citra hasil HE dari salah salah satu citra dataset CK+ beserta histogramnya

Gambar 9 menunjukkan salah satu citra awal dari dataset CK+ yang telah diproses menggunakan metode HE (Histogram Equalization). Terlihat bahwa pada semua intensitas yang memiliki jumlah piksel di bawah 2000 (seperti yang terlihat pada gambar 7) ditingkatkan jumlahnya, menjadi berkisar antara 2000-3000 piksel.

(7)

Metode yang sama juga diaplikasikan terhadap citra dari dataset KDEF, yaitu mengetahui distribusi piksel dari citra awal, kemudian mengetahui distribusi piksel citra hasil proses HE. Kemudian mengetahui distribusi piksel citra hasil proses CLAHE.

Gambar 10. Citra hasil HE dari salah salah satu citra dataset KDEF beserta histogramnya

Gambar 10 memperlihatkan citra hasil proses HE dari salah satu citra dataset KDEF beserta histogramnya.

Terlihat bahwa semua intensitas warna dari citra tersebut dinaikkan jumlah pikselnya, sehingga semua bagian citra terlihat lebih cerah dari citra awal. Jumlah piksel yang tertinggi berada pada intensitas 78 dengan jumlah piksel sebanyak 29114 piksel. Sedangkan pada intensitas lebih dari 200, yang tadinya jumlah pikselnya 0 (seperti pada Gambar 8) ditingkatkan menjadi sekitar 15000 piksel.

Pada Gambar 11 terlihat salah satu citra awal dari dataset CK+ yang telah diproses menggunakan metode CLAHE (Contrast Limited Adaptive Histogram Equalization). Nilai clip limit yang digunakan pada penelitian ini adalah 0,005. Jika dibandingkan dengan citra awal pada Gambar 5, Jumlah piksel yang sebelumnya tinggi pada intensitas 21 (8467 piksel) dan 250 (11077 piksel) dipotong dan didistribusikan ke intensitas 1 dengan jumlah piksel menjadi 15440 piksel.

Gambar 11. Citra hasil CLAHE dari salah salah satu citra dataset CK+ beserta histogramnya

Gambar 12 menunjukkan Citra hasil CLAHE dari salah salah satu citra dataset KDEF beserta histogramnya.

Terlihat bahwa citra yang dihasilkan memiliki tingkat kecerahan yang lebih tinggi dari pada citra awal. di beberapa bagian tertentu. Hal tersebut terjadi karena terdapat pemotongan jumlah piksel pada sebagian besar intensitas warna, kemudian hasil pemotongan tersebut didistribusikan ke intensitas warna sekitarnya yang mempunyai piksel kurang. Jumlah piksel tertinggi ada pada intensitas 132 dengan jumlah pixel 10407. Untuk intensitas 200 ke atas, yang awalnya (seperti pada Gambar 5) memiliki jumlah piksel 0 ditingkatkan berkisar di bawah 1000 piksel, kecuali untuk intensitas 256 mencapai 5808 piksel.

Gambar 12. Citra hasil CLAHE dari salah salah satu citra dataset KDEF beserta histogramnya

(8)

Setelah pengaturan kontras citra dataset, langkah pre-processing selanjutnya adalah augmentasi citra dataset. Augmentasi dilakukan dengan melakukan cropping citra dataset, yang lebih fokus pada bagian fitur wajah yang menunjukkan perubahan ketika mengekspresikan emosi, seperti bagian bibir, mata, pipi dan alis. Gambar 13 menunjukkan cropping dari salah satu citra dataset CK+.

Gambar 13. Cropping dari salah satu citra dataset CK+

3.2 Hasil Akurasi Pengujian

Hasil pengujian akan ditampilkan berupa perbandingan akurasi dari metode yang berbeda. Metode awal berupa pengenalan ekspresi wajah menggunakan model dasar AlexNet serta citra awal dataset, kemudian metode fine- tuning AlexNet dan prosedur HE pada dataset serta metode dengan fine-tuning AlexNet dan prosedur CLAHE pada citra dataset. Dataset yang digunakan adalah CK+ dan KDEF.

3.2.1 Hasil Akurasi Pengujian Menggunakan Dataset CK+

Tabel 3 berikut menunjukan perbandingan hasil pengujian FER menggunakan tiga metode yang berbeda: pertama metode awal AlexNet, metode fine-tuning AlexNet+HE serta metode fine-tuning AlexNet+CLAHE. Parameter yang menjadi perbandingan adalah tingkat akurasi serta ketepatan klasifikasi ekspresi dari citra yang diuji.

Tabel 3. Perbandingan hasil pengujian menggunakan metode yang berbeda pada dataset CK+

AlexNet Fine-tuning AlexNet + HE Fine-tuning AlexNet + CLAHE Akurasi

(%)

Ekspresi (Input-Output)

Akurasi (%)

80,95 Anger-Anger 94,23 Anger-Anger 90,16 Anger-Anger

76,19 Contempt-Happy 89,1 Contempt-Contempt 95,63 Contempt-Contempt 82,01 Disgusted-Disgusted 91,1 Disgusted-Disgusted 90,71 Disgusted-Disgusted

76,19 Fear-Anger 92,95 Fear-Fear 97,81 Fear-Fear

78,84 Happy-Happy 91,03 Happy-Happy 92,35 Happy-Happy

71,43 Sadness-Anger 91,03 Sadness-Sadness 91,26 Sadness-Sadness 75,66 Surprise-Surprise 91,03 Surprise-Surprise 94,54 Surprise-Surprise

Tabel 3 menunjukkan perbandingan hasil pengujian menggunakan metode yang berbeda pada dataset CK+.

Terlihat bawa hasil pengujian yang menggunakan metode awal memiliki akurasi rata-rata sebesar 77,32%. Pada metode awal terjadi beberapa kesalahan klasifikasi ekspresi wajah. Kesalahan klasifikasi ekspresi tersebut antara lain: contempt (merendahkan) diklasifikasikan menjadi happy (bahagia), ekspresi fear (takut) diklasifikasikan menjadi anger (marah) dan ekspresi sadness (kesedihan) dikategorikan menjadi anger (marah).

Gambar 14. Hasil pengujian menggunakan metode awal, terdapat kesalahan kasifikasi citra yang seharusnya mempunyai ekspresi takut dikategorikan ke dalam citra marah.

Pada Gambar 14 terlihat hasil pengujian menggunakan metode awal, terdapat kesalahan kasifikasi citra yang seharusnya mempunyai ekspresi takut dikategorikan ke dalam citra marah. Kesalah klasifikasi ini biasanya terjadi pada ekspresi wajah yang memiliki kemiripan reaksi pada fitur wajah. Pada ekspresi takut dan marah sama- sama menggerakan bibir dan alis. Selain itu antar individu yang berbeda memiliki emosi yang sama diekspresikan

(9)

berbeda pada wajahnya. Hal tersebut membuat model dasar AlexNet kesulitan membedakan ekspresi takut, sehingga salah mengkategorikan ke dalam ekspresi marah.

Hasil pengujian menunjukkan fine-tuning AlexNet yang digunakan baik dengan tambahan prosedur HE maupun CLAHE berhasil mengatasi kesalahan pengklasifikasikan emosi ini, bahkan meningkatkan akurasinya.

Metode fine-tuning AlexNet dan prosedur HE pada dataset CK+ menghasilkan akurasi rata-rata sebesar 91,50%

serta tidak terdapat kesalahan klasifikasi ekspresi wajah. Metode yang menggunakan fine-tuning AlexNet dan CLAHE memiliki akurasi rata-rata tertinggi dibanding metode lainnya yaitu sebesar 93,21% tanpa adanya kesalahan klasifikasi ekspresi wajah dari citra yang diuji.

3.1.2 Hasil Akurasi Pengujian Menggunakan Citra Dataset KDEF Berikut adalah hasil pengujian menggunakan dataset KDEF:

Tabel 4. Perbandingan hasil pengujian metoda yang berbeda pada dataset KDEF

AlexNet Fine-tuning AlexNet + HE Fine-tuning AlexNet + CLAHE Akurasi

(%)

Akurasi (%)

79,22 Anger-Anger 87,01 Anger-Anger 89,49 Anger-Anger

75,32 Neutral-Neutral 84,42 Neutral-Neutral 86,94 Neutral-Neutral 74,03 Disgusted-Disgusted 83,12 Disgusted-Disgusted 86,31 Disgusted-Disgusted

66,23 Fear-Fear 84,42 Fear-Fear 87,26 Fear-Fear

74,68 Happy-Happy 85,71 Happy-Happy 88,54 Happy-Happy

76,62 Sadness-Sadness 83,77 Sadness-Sadness 93,31 Sadness-Sadness 76,62 Surprise-Surprise 84,42 Surprise-Surprise 86,62 Surprise-Surprise

Tabel 4 menunjukkan perbandingan hasil pengujian metode awal AlexNet, kemudian metode fine-tuning AlexNet+prosedur HE serta fine-tuning AlexNet+prosedur CLAHE mengggunakan dataset KDEF. Untuk pengujian dengan menggunakan metode awal AlexNet, diperoleh rata-rata akurasi sebesar 74,67% serta tidak terjadi kesalahan klasifikasi ekspresi wajah. Hasil akurasi rata-rata pengujian menggunakan metode fine-tuning AlexNet+prosedur HE mencapai 84,70% dan tidak terjadi kesalahan klasifikasi ekspresi wajah. Sedangkan untuk metode fine-tuning AlexNet+prosedur CLAHE memiliki hasil akurasi rata-rata tertinggi sebesar 88,35% tanpa ada kesalahan klasifikasi ekspresi wajah citra yang diuji. Perbandingan hasil penelitian dengan penelitian-penelitian sebelumnya adalah sebagai berikut:

Tabel 5. Perbandingan penelitian yang berbeda pada dataset CK+

Method Accuracy

(%)

WMDNN [14] 97%

GA+SVM [22] 95,85%

CLAHE+Fine-tuning AlexNet (metode penelitian yang dipakai penulis) 93,21%

Tabel 5 menunjukkan perbandingan metode penelitian dengan metode lainnya. Terlihat bahwa hasil metode yang digunakan dalam penelitian ini memiliki nilai yang lebih rendah dari metode lainnya, hal ini dikarenakan pada penelitian, iterasi percobaan yang dilakukan dibatasi hanya 100 iterasi. Pembatasan jumlah iterasi ini dilakukan karena keterbatasan sumber daya CPU yang digunakan, yaitu hanya menggunakan single CPU dengan spesifikasi: Intel(R) Core(TM) i5-6200U CPU @ 2.30GHz, 2.40 GHz, RAM 8GB. Apabila iterasi percobaan ditambah, maka nilai akurasi juga akan bertambah.

4. KESIMPULAN

Berdasarkan hasil dari penelitian yang sudah dilakukan, dapat diketahui bahwa pada FER menggunakan model deep learning AlexNet, tahapan pre-processing terhadap citra dataset sangat mempengaruhi akurasi. Metode yang digunakan dalam penelitian ini menggunakan pre-processing citra dataset dengan prosedur HE dan CLAHE, kemudian digabungkan dengan fine-tuning model AlexNet dapat meningkatkan kinerja FER secara signifikan.

Metode penilitian dengan pre-processing HE meningkatkan akurasi rata-rata pada dataset CK+ sebesar 14,17%, pada dataset KDEF meningkatkan akurasi rata-rata sebesar 10,02% dibanding metode dasar menggunakan AlexNet. Sedangkan metode penelitian dengan pre-processing CLAHE meningkatkan akurasi rata-rata pada dataset CK+ sebesar 15,88%, sedangkan pada dataset KDEF meningkat sebesar 13,68%. Terlihat dari hasil penelitian, penggunaan CLAHE lebih baik dalam meningkatkan akurasi FER dibandingkan penggunaan HE.

Selain itu metode dengan penyesuain kontras citra baik HE maupun CLAHE lebih besar dalam meningkatkan akurasi pada dataset CK+ dibandingkan pada dataset KDEF. Hal tersebut karena citra dataset CK+ lebih rendah tingkat kekontrasannya dibanding citra dataset KDEF, citra dataset CK+ yang digunakan pada penelitian ini merupakan citra berformat grayscale yang dikonversi ke RGB. Pada penelitian yang dilakukan iterasi pembelajaran yang dilakukan sebanyak 100 kali serta belum memperhitungkan waktu yang diperlukan dalam

(10)

pengenalan FER. Penambahan iterasi akan meningkatkan tingkat akurasi. Penelitian selanjutnya dapat menambahkan iterasi pembelajaran serta memperhatikan waktu yang digunakan dalam pembelajaran tersebut.

REFERENCES

[1] K. Vasudeva and S. Chandran, “A Comprehensive Study on Facial Expression Recognition Techniques using Convolutional Neural Network,” in Proceedings of the 2020 IEEE International Conference on Communication and Signal Processing, ICCSP 2020, 2020. doi: 10.1109/ICCSP48568.2020.9182076.

[2] A. Joseph and P. Geetha, “Facial emotion detection using modified eyemap–mouthmap algorithm on an enhanced image and classification with tensorflow,” Vis. Comput., vol. 36, no. 3, 2020, doi: 10.1007/s00371-019-01628-3.

[3] X. Zhang, F. Zhang, and C. Xu, “Joint Expression Synthesis and Representation Learning for Facial Expression Recognition,” IEEE Trans. Circuits Syst. Video Technol., vol. 32, no. 3, 2022, doi: 10.1109/TCSVT.2021.3056098.

[4] M. Sajjad et al., “A comprehensive survey on deep facial expression recognition: challenges, applications, and future guidelines,” Alexandria Engineering Journal, vol. 68. 2023. doi: 10.1016/j.aej.2023.01.017.

[5] H. Ge, Z. Zhu, Y. Dai, B. Wang, and X. Wu, “Facial expression recognition based on deep learning,” Comput. Methods Programs Biomed., vol. 215, 2022, doi: 10.1016/j.cmpb.2022.106621.

[6] D. Li, W. Qi, and S. Sun, “Facial Landmarks and Expression Label Guided Photorealistic Facial Expression Synthesis,”

IEEE Access, vol. 9, 2021, doi: 10.1109/ACCESS.2021.3072057.

[7] S. Saifullah, “ANALISIS PERBANDINGAN HE DAN CLAHE PADA IMAGE ENHANCEMENT DALAM PROSES SEGMENASI CITRA UNTUK DETEKSI FERTILITAS TELUR,” J. Nas. Pendidik. Tek. Inform., vol. 9, no. 1, 2020, doi: 10.23887/janapati.v9i1.23013.

[8] Z. Yuan et al., “CLAHE-Based Low-Light Image Enhancement for Robust Object Detection in Overhead Power Transmission System,” IEEE Trans. Power Deliv., vol. 38, no. 3, pp. 2240–2243, Jun. 2023, doi:

10.1109/TPWRD.2023.3269206.

[9] V. Stimper, S. Bauer, R. Ernstorfer, B. Scholkopf, and R. P. Xian, “Multidimensional Contrast Limited Adaptive Histogram Equalization,” IEEE Access, vol. 7, pp. 165437–165447, 2019, doi: 10.1109/ACCESS.2019.2952899.

[10] S. F. Mat Radzi et al., “Impact of Image Contrast Enhancement on Stability of Radiomics Feature Quantification on a 2D Mammogram Radiograph,” IEEE Access, vol. 8, 2020, doi: 10.1109/ACCESS.2020.3008927.

[11] P. Cunha Carneiro, C. Lemos Debs, A. Oliveira Andrade, and A. C. Patrocinio, “CLAHE Parameters Effects on the Quantitative and Visual Assessment of Dense Breast Mammograms,” IEEE Lat. Am. Trans., vol. 17, no. 5, 2019, doi:

10.1109/TLA.2019.8891954.

[12] Y. Chang, C. Jung, P. Ke, H. Song, and J. Hwang, “Automatic Contrast-Limited Adaptive Histogram Equalization with Dual Gamma Correction,” IEEE Access, vol. 6, 2018, doi: 10.1109/ACCESS.2018.2797872.

[13] I. Singh, G. Goyal, and A. Chandel, “AlexNet architecture based convolutional neural network for toxic comments classification,” J. King Saud Univ. - Comput. Inf. Sci., 2022, doi: 10.1016/j.jksuci.2022.06.007.

[14] B. Yang, J. Cao, R. Ni, and Y. Zhang, “Facial Expression Recognition Using Weighted Mixture Deep Neural Network Based on Double-Channel Facial Images,” IEEE Access, vol. 6, pp. 4630–4640, 2018, doi:

10.1109/ACCESS.2017.2784096.

[15] T. Li, K.-L. Chan, and T. Tjahjadi, “Multi-Scale correlation module for video-based facial expression recognition in the wild,” Pattern Recognit., vol. 142, p. 109691, Oct. 2023, doi: 10.1016/j.patcog.2023.109691.

[16] T. Li, H. Su, S. Zhang, B. Xie, and B. Yang, “The effect of pedestrian lighting on facial expression recognition with 3D models: A lab experiment,” Build. Environ., vol. 228, 2023, doi: 10.1016/j.buildenv.2022.109896.

[17] A. R. Shahid and H. Yan, “SqueezExpNet: Dual-stage convolutional neural network for accurate facial expression recognition with attention mechanism,” Knowledge-Based Syst., vol. 269, p. 110451, Jun. 2023, doi:

10.1016/j.knosys.2023.110451.

[18] Z. Zhang, X. Sun, J. Li, and M. Wang, “MAN: Mining Ambiguity and Noise for Facial Expression Recognition in the Wild,” Pattern Recognit. Lett., vol. 164, 2022, doi: 10.1016/j.patrec.2022.10.016.

[19] X. Liu, X. Cheng, and K. Lee, “GA-SVM-Based Facial Emotion Recognition Using Facial Geometric Features,” IEEE Sens. J., vol. 21, no. 10, 2021, doi: 10.1109/JSEN.2020.3028075.

[20] S. Li and W. Deng, “A Deeper Look at Facial Expression Dataset Bias,” IEEE Trans. Affect. Comput., vol. 13, no. 2, pp.

881–893, Apr. 2022, doi: 10.1109/TAFFC.2020.2973158.

[21] Norhikmah, A. Lutfhi, and Rumini, “The Effect of Layer Batch Normalization and Dropout of CNN model Performance on Facial Expression Classification,” Int. J. Informatics Vis., vol. 6, no. 2–2, 2022, doi: 10.30630/joiv.6.2-2.921.

[22] X. Liu, X. Cheng, and K. Lee, “GA-SVM-Based Facial Emotion Recognition Using Facial Geometric Features,” IEEE Sens. J., vol. 21, no. 10, pp. 11532–11542, May 2021, doi: 10.1109/JSEN.2020.3028075.