Jln. Khatib Sulaiman Dalam, No. 1, Padang, Indonesia, Telp. (0751) 7056199, 7058325 Website: ijcs.stmikindonesia.ac.id | E-mail: [email protected]
Pengenalan Wajah 3D dengan menggunakan PointNet
Arif Hidayah1, Bima Sena Bayu Dewantara2, Dadet Pramadihanto3
1[email protected], 2[email protected], 3[email protected]
1,2,3Politeknik Elektronika Negeri Surabaya
Informasi Artikel Abstrak Diterima : 21 Jul 2023
Direview : 27 Jul 2023 Disetujui : 17 Ags 2023
Pengenalan wajah tiga dimensi (3D) telah menjadi topik penelitian yang menarik karena mampu mengatasi keterbatasan pengenalan wajah dua dimensi (2D) dalam menghadapi perubahan pose, pencahayaan, dan pemalsuan. Penelitian ini mengusulkan sebuah pipeline pengenalan wajah 3D yang invarian terhadap perubahan cahaya, dengan menggunakan teknik segmentasi euclidean clustering dan Convolutional Neural Network (CNN) PointNet. Data wajah diambil menggunakan kamera Time-of-Flight yang menghasilkan titik awan (point cloud). Proses segmentasi euclidean clustering berhasil memisahkan area wajah dengan akurat, membantu dalam pengenalan wajah 3D. Melalui pelatihan dengan 217 dataset dan 2048 titik per wajah, sistem mencapai akurasi pelatihan sebesar 99% dan akurasi validasi sebesar 84,4%, dengan loss pelatihan sebesar 1% dan loss validasi sebesar 15,6%. Evaluasi pada tiap kelas menunjukkan rata-rata akurasi 0.9887471867966992, presisi 0.8255813953488372, recall 0.8255813953488372, dan F1-score 0.8255813953488372. Hasil menunjukkan bahwa pipeline pengenalan wajah 3D ini memiliki potensi besar dalam aplikasi keamanan, pengawasan, dan pengenalan objek di lingkungan yang kompleks.
Kata Kunci
Pengenalan wajah 3D, PointNet, Kamera Time- of-Flight, Point cloud
Keywords Abstrak
3D face recognition, PointNet, Time-of-Flight camera, Point cloud
Three-dimensional (3D) face recognition has emerged as an intriguing research topic, addressing the limitations of two-dimensional (2D) face recognition in handling pose variations, lighting changes, and spoofing. This study proposes an illumination-invariant pipeline for 3D face recognition, utilizing the euclidean clustering segmentation technique and Convolutional Neural Network (CNN) PointNet. Facial data is captured using a Time-of- Flight camera, generating point clouds. The euclidean clustering segmentation effectively isolates facial regions, aiding in 3D face recognition.
After training with 217 datasets and 2048 points per face, the system achieved 99% training accuracy and 84.4% validation accuracy, with 1%
training loss and 15.6% validation loss. Class-wise evaluation yielded an average accuracy of 0.9887471867966992, precision of 0.8255813953488372, recall of 0.8255813953488372, and F1-score of 0.8255813953488372. The results highlight the significant potential of this 3D face recognition pipeline in security, surveillance, and object recognition in complex environments.
A. Pendahuluan
Pengenalan wajah telah menjadi teknologi biometrik yang umum digunakan, yang banyak diterapkan dalam autentikasi, keamanan, intelijen, dan banyak kewaspadaan lainnya [1]. Pengenalan wajah adalah masalah yang menantang karena keragaman etnis wajah dan variasi yang disebabkan oleh ekspresi, jenis kelamin, pose, pencahayaan, dan riasan [2]. Salah satu metode yang umum digunakan dalam pengenalan wajah adalah metode berbasis citra dua dimensi (2D).
Pengenalan wajah berdasarkan gambar 2D telah secara aktif diteliti selama beberapa dekade terakhir, berbagai teknik telah dipresentasikan [3], [4] dan banyak teknik pengenalan wajah 2D telah mencapai performa yang tinggi di bawah lingkungan yang terkendali [5]. Metode ini melibatkan ekstraksi fitur dari citra wajah 2D, seperti tekstur kulit, bentuk mata, hidung, dan mulut. Kemudian fitur- fitur tersebut dibandingkan dengan citra wajah referensi yang tersimpan dalam database untuk mengenali individu yang sesuai. Walaupun metode pengenalan wajah dua dimensi memiliki keunggulan interaksi yang mudah, akuisisi yang mudah, dan biaya yang rendah, namun metode ini masih memiliki kekurangan dalam menangani perubahan pencahayaan, perubahan postur, serangan antipemalsuan, dll [6]–[8].
Untuk mengatasi keterbatasan tersebut, pengenalan wajah tiga dimensi (3D) telah menjadi fokus penelitian ini. Pengenalan wajah 3D memiliki beberapa keunggulan, dimana data bentuk tiga dimensi wajah dapat dianggap tidak berubah dengan perubahan cahaya dan tampilan, serta aksesori seperti riasan wajah yang secara signifikan berdampak pada gambar dua dimensi namun tidak memiliki dampak yang jelas pada data tiga dimensi. Oleh karena itu, pengenalan wajah 3D dianggap memiliki karakteristik pencahayaan dan pose yang konstan [9]. Data 3D memiliki representasi bentuk spasial yang eksplisit, sehingga lebih kaya akan informasi daripada gambar 2D [10].
Metode pengenalan wajah 3D sudah banyak berkembang dari mulai metode tradisional sampai pada deep learning. Namun, dibandingkan dengan metode pengenalan wajah 3D yang dikombinasikan dengan deep learning, metode pengenalan wajah 3D tradisional terlalu bergantung pada algoritma penyelarasan wajah dan deskriptor fitur, yang membatasi skalabilitas [11].
Dalam perkembanganya, penelitian pengenalan wajah 3D menjadi topik yang menarik bagi para peneliti. Seperti di awal tahun 2000 yang dilakukan oleh Chua C dkk. [12] menyajikan algoritma pengenalan wajah 3D berdasarkan point signature dan Pan G dkk. [13] dalam penelitianya membahas pengenalan wajah 3D dari bentuk wajah. Kemudian dekade berikutnya Belahcene, M dkk. [14] mengusulkan sebuah kerangka kerja untuk sistem pengenalan wajah 3D menggunakan segmentasi dengan pengelompokan wilayah gambar wajah sebelum dan sesudah penggabungan dari data gambar dan kedalaman dengan metode klasifikasi menggunakan Support Vector Mechine(SVM). Yu X dkk. [15] menyajikan pengenalan wajah baru dengan menggunakan titik sudut arah 3D (3D DCP). Masih pada dekade yang sama setelah arsitektur PointNet [16] dari Convolutional Neural Network (CNN) dikenalkan semakin banyak peneliti yang mencoba menerapkan arsitektur ini untuk berbagai pengolahan data 3D, seperti pengenalan objek 3D [17]
dan pengenalan wajah 3D [5], [18]. PointNet muncul sebagai pendekatan yang lebih fleksibel dan kuat dalam pengenalan wajah 3D. PointNet menerima representasi
titik 3D yang tidak teratur sebagai input dan mampu menghasilkan representasi fitur global yang invarian terhadap permutasi titik. Dengan kata lain, PointNet mampu mengenali objek atau wajah dengan mengambil informasi langsung dari titik-titik 3D yang membentuk objek tersebut.
Dengan demikian, fokus penelitian ini membangun sebuah pipeline pengenalan wajah 3D yang invariant terhadap perubahan cahaya diawali dengan pengambilan data menggunakan kamera Time-of-Fight yang menghasilkan data point cloud, kemudian dilakukan segmentasi menggunakan euclidean clustering dan di klasifikasi dengan PointNet.
B. Metode Penelitian
Rancangan dari implementasi sistem dapat dijelaskan dalam bentuk desain sistem. Desain sistem tersebut menggambarkan keseluruhan proses yang terdapat didalam sistem yang dapat ditunjukan pada gambar berikut ini:
Gambar 1. Desain Sistem
Seperti yang ditunjukkan pada Gambar 1, sistem terdiri dari dua blok utama yaitu Training dan Testing. Blok training merupakan serangkaian proses offline untuk mendapatkan data wajah tiap individu untuk menjadi dataset dan dilakukan pelatihan. Sedangkan blok testing merupakan serangkaian proses offline untuk menguji hasil model. Dengan menggunakan kamera BlasterX Senz3D, didapatkan data point cloud dalam koordinat kartesian yang berisi data x, y, dan z sebagai input sistem. Kemudian diikuti dengan langkah preprocessing dan segmentasi, yang menghasilkan sebuah wajah individu yang digunakan sebagai dataset untuk proses pelatihan pada blok training dan untuk pengenalan pada blok testing.
1. Data Acquisition
Data acquisition merupakan proses pengambilan citra tiga dimensi berupa data point cloud dari kamera BlasterX Senz3D. Kamera BlasterX Senz3D menggunakan sensor milik Intel Realsense dengan kode SR300. SR300 menggunakan teknologi Time-of-Flight dan dikemas dalam bentuk kecil [19] .
Untuk menghasilkan depth frame, IR projector menyinari scene dengan serangkaian pola bilah vertikal IR berkode frekuensi spasial yang telah ditentukan
sebelumnya. Pola-pola ini dibelokkan oleh scene, dipantulkan kembali dan ditangkap oleh kamera IR. Nilai piksel kamera IR kemudian diproses oleh pencitraan ASIC untuk menghasilkan depth frame. Depth frame selanjutnya membuat aliran video yang ditransmisikan ke sistem untuk di akuisisi [20].
Gambar 2. Depth Video Data Flow
Dalam penelitian ini menggunakan kamera Blasterx Senz3D sebagai device utama untuk pengambilan data, maka dari itu diperlukan beberapa konfigurasi agar kamera dapat digunakan. Konfigurasi yang diperlukan adalah dengan menginstall Software Development Kit (SDK) yang disediakan untuk sistem operasi Linux, dan berjalan diatas Robot Operating System (ROS) framework.
2. Preprosesing
Passthrough filter merupakan proses untuk melakukan pemotongan terhadap data point cloud untuk didapatkan data tertentu. Hal ini biasa dilakukan untuk mengurangi beban komputasi pada data point cloud untuk diolah lebih lanjut.
𝑃! ∈ 𝑆 (1)
𝑃! # %𝑃!, 𝐿𝑇 > 𝑃!(&,') > 𝐺𝑇
𝑛𝑢𝑙𝑙, 𝑂𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 6 (2)
Dimana 𝑃!(&,') merupakan point ke-i pada scene S, LT merupakan batas bawah dari data yang akan diambil, dan GT merupakan batas atas dari data yang akan diambil.
3. Segmentation
Pada proses ini voxel 3D dilakukan pemecahan menjadi beberapa sub kelompok. Proses pemecahan atau pengelompokan didasarkan pada jarak antar kelompok voxel. Dengan menggunakan Euclidean clustering akan didapatkan kelompok voxel wajah dan bukan wajah Euclidean clustering merupakan teknik dasar untuk melakukan clustering pada data point cloud [21]. Metode ini menggunakan euclidean distance pada persamaan (3) sebagai metrik jarak pengukuran antar titik pada data point cloud.
𝐷 = 9(𝑥! − x ))* + (𝑦! − y))* + (𝑧! − z))* (3) Dimana ( 𝑥!, 𝑦!, 𝑧! ) dan ( 𝑥), 𝑦), 𝑧) ) adalah titik yang berada dalam ruangan 3 dimensi.
Setelah mendapatkan area wajah maka point cloud akan dilakukan pemotongan dalam bentuk bola [2], [13] . Sebuah bola dengan jari-jari berpusat di ujung hidung kemudian digunakan untuk memotong wajah 3D. Dimana ujung hidung merupakan
titik tertinggi dari permukaan muka. Ilustrasi pemotongan dapat dilihat pada gambar 3.
Gambar 3. Ilustrasi crop sphere 4. Training dan Testing
Proses normalisasi data perlu dilakukan untuk menurunkan variasi data yang menyulitkan perhitungan proses learning. Normalisasi juga bertujuan untuk menurunkan jumlah titik yang akan diproses agar memiliki jumlah yang sama.
Setelah normalisasi selesai maka data ditransformasikan menjadi bentuk HDF5.
Tahap pertama dari normalisasi yaitu melakukan downsampling. Downsampling merupakan pengurangan jumlah titik sampai ke batas tertentu yang dalam hal ini bervariasi terhadap wajah. Metode ini bekerja dengan merepresentasikan data point cloud dalam bentuk voxel dimana didalam voxel tersebut terdapat beberapa point didalamnya. Setelah itu dicari centroid dari point dalam voxel tersebut menggunakan persamaan (7).
𝑥+,-./0!1 # 2∑"!#$&!4/- (4)
𝑦+,-./0!1 # 2∑"!#$'!4/- (5)
𝑧+,-./0!1 # 2∑"!#$6!4/- (6)
𝑃+,-./0!1(&'6)#(&%&"'()!*,'%&"'()!*,6%&"'()!* ) (7) Dimana 𝑥+,-./0!1 merupakan centroid dari titik x, 𝑦+,-./0!1 merupakan centroid dari titik y, 𝑧+,-./0!1merupakan centroid dari titik z, dan 𝑃+,-./0!1(&'6)merupakan posisi titik centroid.
Setelah proses downsampling selesai, maka dilanjutkan dengan proses zero mean filtering. Proses ini digunakan untuk membuat data pada input akan memiliki nilai rata-rata pada setiap axis adalah 0. Hal ini akan membuat data sebaran point memiliki posisi di tengah axis x, y, dan z yang mana akan memudahkan pada saat training dengan tidak memberikan nilai bobot dengan nilai yang selalu positif atau negatif. Selanjutnya, dilakukan resize dari setiap titik agar memliki range value yang sama dengan scaling nilai maksimal dari titik x, y, atau z menggunakan persamaan (8).
Gambar 4. Alur Normalisasi
𝑃(&|'|6) -0/89:!6,1 = <=> (;;(-!|/!|0!)(-!|/!|0!)) (8) Setelahnya akan dilakukan proses jittering. Proses jittering adalah membuat noise dalam data dengan nilai random pada batasan ruang lingkup tertentu untuk setiap axis. Hal ini bertujuan agar jumlah titik dalam satu data genap sejumlah yang ditentukan, karena pada proses training memerlukan data yang konsisten dengan jumlah yang tetap. Selanjutnya, setelah serangkaian proses normalisasi selesai maka data teresebut akan diolah sesuai alur blok desain sistem.
Pada blok training maka data tersebut akan ditransformasikan menjadi bentuk HDF5 dan dilakukan deep learning menggunakan PointNet. Arsitektur PointNet merupakan arsitektur CNN yang pertama kali dapat menggunakan data 3D point cloud secara langsung tanpa merepresentasikan data tersebut menjadi data yang lain [14]. Arsitektur dari PointNet untuk klasifikasi dapat dilihat pada Gambar 5.
Gambar 5. Arsitektur PointNet untuk klasifikasi
Kemudian jika pada blok testing, data hasil normalisasi akan dilakukan pengenalan sesuai model yang diperoleh dari hasil training. Peneliti akan menguji performa model dengan evaluasi confusion matrix. Confusion matrix adalah langkah penting dalam mengukur kinerja suatu model klasifikasi. Confusion matrix menyediakan gambaran tentang sejauh mana model mampu mengklasifikasikan data dengan benar dan mengidentifikasi kesalahan yang terjadi. Dari Confusion matrix, kita dapat menghitung metrik evaluasi seperti akurasi, presisi, recall, dan F1- score. Akurasi memberikan informasi tentang tingkat kebenaran keseluruhan model menggunakan persamaan (9), presisi mengukur tingkat kebenaran positif yang diprediksi menggunakan persamaan (10), recall mengukur kemampuan model dalam mendeteksi keseluruhan kelas positif menggunakan persamaan [22], dan F1- score memberikan keselarasan antara presisi dan recall menggunakan persamaan (12).
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ?;@?A
?;@?A@B;@BA (9)
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ?;@B;?; (10)
𝑟𝑒𝑐𝑎𝑙𝑙 = ?;@?A?; (11)
𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = * ×/,+9:: ×D/,+!E!0-
/,+9::@D/,+!E!0- (12)
C. Hasil dan Pembahasan 1. Data Acquisition
Pada penelitian ini digunakan 31 partisipan, dimana masing-masing partisipan dilakukan pada posisi frontal face 7kali perekaman wajah dengan 7 kondisi pencahayaan, yakni normal putih, normal merah, normal hijau, normal biru, sorot putih dari kanan, sorot putih dari kiri dan sorot dari belakang. Sehingga total dataset yang dimiliki 217 wajah frontal dengan 31 class. Maksud dari berbagai pencahayaan adalah untuk membuktikan bahwa data 3D tidak terpengaruh terhadap cahaya.
Proses pengambilan data dilakukan didalam studio box berukuran 180 x 120 x 180 cm. Partisipan duduk di tengah studio box dengan jarak kamera terhadap wajah sekitar 30 cm – 40 cm. Untuk visualisasi eksperimen dapat dilihat pada Gambar 6.
Gambar 6. Rancangan Bentuk Studio Box
Proses pengambilan data menggunakan kamera BlasterX Senz3D yang menghasilkan 2 data yaitu data 3 dimensi berupa x, y, dan z dalam satuan meter dan dalam bentuk point cloud serta data 2 dimensi berupa x, y dan fitur warna merah, hijau dan biru dalam bentuk gambar. Namun data yang digunakan hanya data 3 dimensi atau data point cloud saja. Tabel 1 menunjukan bahwa pada kondisi cahaya yang bagaimanapun data 3D tidak akan terpengaruh.
Tabel 1. Hasil Data Acquisition
Arah Lampu Jenis Data
2D 3D
Depan
Belakang
Kanan
Kiri
Merah
Hijau
Biru
2. Preprosesing
Proses pemotongan terhadap data point cloud dengan batas atas dari nilai maksimal point z (point terjauh dari kamera) dan batas bawah dari nilai minimal point z (point terdekat dari kamera). Sehingga sistem tidak mengolah background dan hanya mengolah objek yang terekam kamera. Jarak point z terjauh dari kamera adalah 60 cm dan terdekat adalah 0 cm hal ini dilakukan untuk mengurangi beban komputasi pada data point cloud untuk diolah lebih lanjut. Gambar 7 menampilkan sebelum dan sesudah pemotongan data point cloud.
Gambar 7. (a) Raw data Point Cloud; (b) Data Point Cloud yang sudah dilakukan pemotongan.
Pengujian dilakukan dengan system testing dan performance testing menghasilkan bagian sistem ini berjalan dengan baik dengan rata-rata waktu komputasinya 3.26 ms. Gambar 8 menunjukan hasil waktu komputasi Passthrough Filter.
Gambar 8. Hasil Waktu Komputasi Passthrough Filter 3. Segmentation
Proses segmentasi ini bertujuan untuk mendapatkan area wajah, pada proses ini menggunakan Euclidean clustering. Pengujian dilakukan dengan analisis kualitatif yaitu melihat hasil cluster dengan ground truth yang berupa hasil cluster sebenarnya yang dianalisis secara manual. Gambar 9 menunjukan hasil clustering data point cloud.
Gambar 9. Hasil Clustering Data Point Cloud
Pada tahap clustering juga dilakukan pengujian dengan system testing dan performance testing menghasilkan bagian sistem ini berjalan dengan baik dengan rata-rata waktu komputasinya 0.3 s.
Setelah mendapatkan area wajah maka point cloud akan dilakukan pemotongan dalam bentuk bola dengan titik tengah adalah titik tertinggi dari permukaan muka. Gambar 10 merupakan hasil dari crop sphere.
Gambar 10. Hasil Crop Sphere
Pada tahap crop sphere juga dilakukan pengujian dengan system testing dan performance testing menghasilkan bagian sistem ini berjalan dengan baik dengan rata-rata waktu komputasinya 8.35 ms.
Gambar 11. Hasil Waktu Komputasi Crop Sphere 4. Training dan Testing
Sebelum dilakukan training, dataset terlebih dahulu disiapkan untuk dilakukan normalisasi. Data yang digunakan terdiri dari 31 class wajah. Untuk normalisasi yang digunakan untuk menyiapkan dataset terdiri dari downsampling, zero-mean filtering, resize, dan jittering. Hasil normalisasi ditentukan untuk setiap objek wajah memiliki 2048 point dari raw data wajah ± 40.000 – 30.000 point tergantung jarak pengambilan data terhadap kamera. Penentuan jumlah point ini karena hardware yang digunakan untuk learning tidak mampu mengolah point lebih dari yang ditentukan. Hasil perbandingan data pada setiap tahap dapat dilihat pada Tabel 2.
Tabel 2. Hasil perbandingan data pada setiap tahap input downsampling zero-mean
filtering resize jittering
Pengujian pada normalisasi data dilakukan dengan system testing dan performance testing menghasilkan bagian sistem ini berjalan dengan baik dengan rata-rata waktu komputasi downsampling 101.38 ms, zeromean 111.36 us, resize 2.3 ms dan jittering 3 ms. Gambar 12 menunjukan waktu komputasi preprocessing.
Gambar 12. Gambar hasil waktu komputasi preprocessing
Pada tahap training menggunakan metode Convolutional Neural Network dengan arsitektur PointNet, data x, y dan z langsung di konsumsi oleh PointNet.
Beberapa parameter yang digunakan pada saat training antara lain jumlah batch size sebesar 32, learning rate sebesar 0.0001, Adam optimizer, loss function menggunakan cross entropy loss, serta epoch sebesar 100. Digunakan dataset sebanyak 217 wajah frontal dengan 31 class dengan proporsi 80% untuk training dan 20% untuk validasi. Data validasi diberikan untuk melakukan evaluasi model pada saat training berlangsung. Training berlangsung selama 12 jam dengan menggunakan NVIDIA GTX 1060.
Gambar 13. Hasil accuracy dan loss
Setelah training selesai dilakukan, pada Gambar 13 akurasi model pada data training mencapai 99%. Lalu pada data validasi didapatkan akurasi sebesar 84.4%.
Dengan hasil yang didapatkan, model sudah cukup baik mengenali data validasi yang diberikan, mengingat data yang diberikan tidak terlalu banyak, serta feature point yang digunakan sejumlah 2048 points untuk masing-masing wajah. Selain akurasi model, hal lain yang dievaluasi pada fase training adalah loss dimana dapat dilihat pada Gambar 13.
Setelah training akan didapatkan weight, kemudian weight dilakukan testing untuk prediksi. Data testing didapatkan dengan melakukan augmentasi data pada data validasi. Augmentasi data dilakukan dengan melakukan random rotasi dan jittering. Proses ini untuk menguji model apakah mampu mengenali objek dari perbagai pose. Hasil pengujian menggunakan confusion matrix dapat dilihat pada gambar 14.
Gambar 14. Confusion Matrix
Dari tabel confusion matrix dapat di hitung accuracy, precision, recall dan F1- score dengan hasil nilai 0.9887471867966992, 0.8255813953488372, 0.8255813953488372 dan 0.8255813953488372 yang di dapat dari 172 data uji.
D. Simpulan
Kami telah mengembangkan pipeline untuk segmentasi dan sistem pengenalan pada wajah 3D menggunakan algoritma eucliedian clustering dan CNN PointNet.
Berdasarkan hasil dan evaluasi yang diperoleh dapat disimpulkan bahwa sistem dapat berjalan dengan cepat dan sempurna untuk preprocessing dan segmentasi.
Untuk proses pelatihan dengan 217 dataset yang di setiap cloud terdapat 2048 point, sistem mendapat akurasi 99% dan validasi akurasi sebesar 84,4% dengan loss 1% dan validasi loss 15,6%. Kemudian dari weight model yang diperoleh dari pelatihan, didapatkan hasil evaluasi 0.9887471867966992 acurracy;
0.8255813953488372 precision; 0.8255813953488372 recall; dan 0.8255813953488372 F1-score yang di dapat dari 172 data uji. Hasil menunjukkan bahwa pipeline pengenalan wajah 3D ini memiliki potensi besar dalam aplikasi keamanan, pengawasan, dan pengenalan objek di lingkungan yang kompleks.
E. Ucapan Terima Kasih
Penulis mengucapkan terima kasih kepada seluruh anggota laboratorium Social Robotics and Smart System Applications, anggota laboratorium Robotics and Intelegent System Center dan Politeknik Elektronika Negeri Surabaya (PENS) untuk dukungan finansial dan non-finansial demi terselesaikannya penelitian ini
F. Referensi
[1] H. Patil, A. Kothari, and K. Bhurchandi, “3-D face recognition: Features, databases, algorithms and challenges,” Artif Intell Rev, vol. 44, pp. 393–441, Jul. 2015, doi: 10.1007/s10462-015-9431-0.
[2] A. Mian, M. Bennamoun, and R. Owens, “Automatic 3D Face Detection, Normalization and Recognition,” 2006.
[3] R. Chellappa, C. L. Wilson, and S. Sirohey, “Human and machine recognition of faces: a survey,” Proceedings of the IEEE, vol. 83, no. 5, pp. 705–741, 1995, doi:
10.1109/5.381842.
[4] W. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld, “Face Recognition: A Literature Survey,” ACM Comput. Surv., vol. 35, no. 4, pp. 399–458, Dec. 2003, doi: 10.1145/954339.954342.
[5] Y. Jing, X. Lu, and S. Gao, “3D Face Recognition: A Survey.” Jul. 2021.
[6] Y. Jiang and Q. Ruan, “Multi-Feature Tensor Neighborhood Preserving Embedding for 3D Facial Expression Recognition,” IEEE Access, vol. 9, pp.
106303–106316, 2021, doi: 10.1109/ACCESS.2021.3101042.
[7] B.-S. Kim and S. Seo, “Intelligent Digital Human Agent Service With Deep Learning Based-Face Recognition,” IEEE Access, vol. 10, pp. 72794–72805, 2022, doi: 10.1109/ACCESS.2022.3188852.
[8] P. Phillips, P. Grother, R. Micheals, D. Blackburn, E. Tabassi, and M. Bone, “Face Recognition Vendor Test 2002: Evaluation Report.” NIST Interagency/Internal Report (NISTIR), National Institute of Standards and Technology, Gaithersburg, MD, Jul. 2003. doi:
https://doi.org/10.6028/NIST.IR.6965.
[9] M. Rouhsedaghat, Y. Wang, S. Hu, S. You, and C.-C. J. Kuo, “Low-resolution face recognition in resource-constrained environments,” Pattern Recognit Lett,
vol. 149, pp. 193–199, 2021, doi:
https://doi.org/10.1016/j.patrec.2021.05.009.
[10] X. Tu et al., “Joint Face Image Restoration and Frontalization for Recognition.”
Jul. 2021.
[11] Y. Cao, S. Liu, P. Zhao, and H. Zhu, “RP-Net: A PointNet++ 3D Face Recognition Algorithm Integrating RoPS Local Descriptor,” IEEE Access, vol. 10, pp. 91245–
91252, 2022, doi: 10.1109/ACCESS.2022.3202216.
[12] C.-S. Chua, F. Han, and Y.-K. Ho, “3D human face recognition using point signature,” in Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition (Cat. No. PR00580), 2000, pp. 233–238. doi:
10.1109/AFGR.2000.840640.
[13] G. Pan, S. Han, Z. Wu, and Y. Wang, “3D Face Recognition using Mapped Depth Images,” in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Workshops, 2005, p. 175. doi:
10.1109/CVPR.2005.560.
[14] M. Belahcene, A. Chouchane, M. Amin Benatia, and M. Halitim, “3D and 2D face recognition based on image segmentation,” in 2014 International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM), 2014, pp. 1–5. doi: 10.1109/IWCIM.2014.7008800.
[15] X. Yu, Y. Gao, and J. Zhou, “Face Recognition Using 3D Directional Corner Points,” in 2014 22nd International Conference on Pattern Recognition, 2014, pp. 2802–2807. doi: 10.1109/ICPR.2014.483.
[16] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation,” Dec. 2016, [Online]. Available:
http://arxiv.org/abs/1612.00593
[17] A. Rizaldy Pratama, B. Sena Bayu Dewantara, D. Mutiara Sari, and D.
Pramadihanto, “Density-based Clustering for 3D Stacked Pipe Object Recognition using Directly-given Point Cloud Data on Convolutional Neural Network,” EMITTER International Journal of Engineering Technology, vol. 10, no. 1, pp. 153–169, 2022, doi: 10.24003/emitter.v10i1.704.
[18] A. R. Bhople, A. M. Shrivastava, and S. Prakash, “Point Cloud Based Deep Convolutional Neural Network for 3D Face Recognition,” Multimedia Tools Appl., vol. 80, no. 20, pp. 30237–30259, Aug. 2021, doi: 10.1007/s11042-020- 09008-z.
[19] A. Zabatani et al., “Intel® RealSenseTM SR300 Coded Light Depth Camera,”
IEEE Trans Pattern Anal Mach Intell, vol. 42, no. 10, pp. 2333–2345, 2020, doi:
10.1109/TPAMI.2019.2915841.
[20] “Intel RealSense Depth Camera SR300 Series Product Family,” 2021.
[21] R. B. Rusu, “Semantic 3D Object Maps for Everyday Manipulation in Human Living Environments,” KI - Kunstliche Intelligenz, vol. 24, no. 4, pp. 345–348, Nov. 2010, doi: 10.1007/s13218-010-0059-6.
[22] E. B. Gosno, I. Arieshanti, and R. Soelaiman, “Implementasi KD-Tree K-Means Clustering,” JURNAL TEKNIK POMITS, vol. 2, pp. A432–A437, 2013.