ESTIMASI POSE MODEL 3D DALAM LINGKUNGAN
AUGMENTED REALITY BERBASIS TITIK FITUR
WAJAH MENGGUNAKAN METODE POSIT
Heri Pratikno1) Mochamad Hariadi, ST., M.Sc., Ph.D 2)
1) Bidang Keahlian Jaringan Cerdas Multimedia, Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut Teknologi Sepuluh Nopember Surabaya, email: [email protected] 2) Institut Teknologi Sepuluh Nopember, Surabaya 60111, email: [email protected] Abstract: The main problem in objects tracking using cameras is to find the head pose estimation of the objects. In addition, it is necessary to rely on natural features since there is no light generated from the objects. This study aims to estimate the pose of a 3D head models using a single camera in a real-time Augmented Reality (AR) environment that is based on facial feature points. The position of the 3D models are translated into XYZ coordinate axes and rotated to the orientation angle RPY (Roll, Pitch, Yaw). The POSIT (Pose from Ortography and Scale with
ITeration) is used for the pose estimation. The position and orientation of the 3D models are
projected to facial feature points orthographically. In order to get the best pose, four to five iterations are performed in order to achieve the minimal error factor. The final results of this study can be considered as real-time systems as it can achieve 16 frames per second with an average
angle rotational accuracy of 0.83o and translational deviation of 1.67 vector units.
Keywords: Augmented Reality, Facial Feature, Pose Estimation, POSIT.
Markerless dalam Augmented Reality
(AR) bertujuan untuk menghasilkan interaksi antara komputer dan pengguna lebih alami dan intuitif dibandingkan dengan model marker. Deteksi yang berbasiskan titik fitur wajah merupakan salah satu model markerless yang banyak menarik perhatian para praktisi dan peneliti. Proses deteksi dan pengenalan yang berbasiskan titik fitur wajah dapat diterapkan dalam bidang keamanan, absensi, e-commerce dan game.
Proses estimasi pose (pose estimation) mempunyai tingkatan komputasi yang lebih sulit dan krusial dalam menentukan jumlah dan penempatan titik fitur wajah, transformasi model objek 3D serta akurasinya, dibandingkan dengan proses deteksi wajah (face detection) maupun pengenalan wajah (face recognition).
Selain akurasi, proses recovery fitting antara image wajah 2D dan model objek 3D juga perlu diperhitungkan karena pergerakan terlalu cepat dari image wajah 2D aktor yang berfungsi sebagai landmark dari model objek 3D dapat menyebabkan kehilangan frame pelacakan dalam suatu scene.
Berdasarkan penelitian dari Daniel F. DeMenthon [DeMenthon, 1995], metode POSIT mempunyai komputasi sistem estimasi pose bisa
sampai dua puluh lima kali lebih cepat dari pada metode Yuan [Yuan, 1989] maupun metode Lowe [Lowe, 1985] karena pada metode POSIT sudah tidak diperlukan lagi proses inisialisasi estimasi pose awal yang dilakukan secara manual dan inverse matrik dalam looping iterasinya. Metode POSIT akan mengekstraksi pose objek dengan pendekatan model 3D secara antroprometrik (rigid anthropometric) yang berkorespondensi dengan titik fitur image wajah.
Dengan dasar pemikiran tersebut maka penelitian ini membahas tentang implementasi “Estimasi pose model 3D dalam lingkungan
Augmented Reality berbasis titik fitur wajah
menggunakan metode POSIT”. Beberapa metode sistem komputasi estimasi pose telah dikenalkan oleh Tsai [Tsai, 1987], Lowe dan Yuan.
Pada metode Lowe dan Yuan mempunyai dua kelemahan yang cukup signifikan, yaitu: pertama, sebuah perkiraan atau pendekatan pose harus dimulai dengan proses iterasi. Kelemahan kedua adalah setiap langkah proses iterasi diperlukan pseudoinverse matrix Jacobian dengan dimensi 2N x 6 pada metode Lowe dan N x 6 untuk Yuan. Dimana N adalah jumlah titik fitur yang harus ditemukan, hal ini menjadikan sebuah operasi komputasional yang lebih lama dan rumit.
STIKOM
Metode Fully Projective [Araujo, 1998] merupakan pengembangan dari metode Lowe dan berhasil diimplementasikan dalam penelitian [Lim, 2002] dengan hasil penelitian sebagai berikut: tingkat kesalahan rotasi rata-rata sebesar 4° dan tingkat kesalahan translasinya rata-rata sebesar 5 cm.
Berdasarkan pembahasan pada latar belakang penelitian dan hasil penelitian sebelumnya, maka dirumuskan permasalahan pada penelitian ini, yaitu: proses interaksi dalam lingkungan Augmented Reality secara umum masih menggunakan marker, pada kasus
Augmented Reality yang melibatkan interaksi
dengan kepala manusia maka penggunaan
marker kurang cocok untuk diimplementasikan.
Perlu adanya sistem yang mengimplementasikan metode POSIT agar proses interaksi dilingkungan Augmented Reality dapat dilakukan secara markerless, terkait dengan implementasi penggunaan metode POSIT tersebut maka perlu adanya pengujian terhadap performa estimasi pose pada POSIT dalam lingkungan Augmented Reality.
Penelitian ini bertujuan untuk memberikan metode alternatif dalam penerapan sistem interaksi antara manusia dan komputer dalam lingkungan Augmented Reality tanpa menggunakan marker (markerless). kemudian dilakukan uji performasi estimasi pose pada metode POSIT tersebut, yaitu: translasi pada posisi sumbu koordinat XYZ dan rotasi pada sudut RPY (Roll, Pitch, yaw).
Berdasarkan rumusan masalah, maka ada beberapa batasan masalah, antara lain :
a. Jumlah orang pengendali gerakan model objek 3D pada lingkungan Augmented
Reality hanya satu orang (aktor) dalam satu
waktu.
b. Pada penelitian ini tidak dibahas ekspresi dari model objek 3D.
c. Kondisi pencahayaan merata dalam ruangan. Hasil penelitian ini diharapkan memberi manfaat terwujudnya inetraksi di lingkungan
Augmented Reality dapat dilakukan dalam waktu
nyata secara markerless, yaitu: menggunakan titik-titik fitur wajah sebagai landmark penempatan (layouting) model objek 3D yang bisa digerakkan kearah enam taraf kebebasan bergerak (6DOF – Six Degree of Freedom). Adapun hasil dari penelitian ini dapat digunakan untuk industry game, absensi online, e-commerce, media promosi dan sebagainya.
Penelitian ini diharapkan bisa memberi kontribusi pada peningkatan interaksi yang lebih
alami dibandingkan dengan penggunaan marker serta lebih responsif dilingkungan Augmented
reality, karena pada metode POSIT sudah tidak
diperlukan lagi proses inisialisasi pose awal titik-titik fitur di wajah yang dilakukan secara manual pada metode-metode sebelumnya.
METODE PENELITIAN
pada penelitian ini perancangan sistem secara garis besarnya dibagi menjadi tiga blok bagian utama, yaitu: proses deteksi, proses
tracking dan proses estimasi pose. Sebagaimana
tampak pada gambar 1.
Gambar 1. Bagan sistem Proses Deteksi
Pada tahapan ini bertujuan untuk pengambilan gambar (grabbing) tiap frame dalam waktu nyata (real-time capturing) dari sebuah scene menggunakan kamera tunggal.
Jarak ideal dari posisi objek image wajah dengan kamera adalah sekitar 15 cm (near
plane) sampai dengan 3 meter (far plane). Proses tracking pada penelitian ini menggunakan
metode Viola-Jones [Paul Viola, 2001], dimana fungsinya adalah untuk deteksi wajah (face
detection) dengan tujuan untuk membedakan
area wajah dan bukan wajah dari objek.
Algoritma Viola-Jones, terdiri dari tiga proses tahapan penting, yaitu: pertama adalah proses komputasi fitur (feature computation) yang dihasilkan oleh metode Haar-Like Feature. Proses kedua ialah seleksi fitur (feature
selection) menggunakan metode pelatihan
AdaBoost. Sedangkan proses yang ketiga adalah
STIKOM
ketepatan dengan me Pad alur tahap dari proses penelitian i Cascade tahap 1 H Classifier Cascade Gambar 2 Ga Tracking Unt sebuah ima algoritma K and Kanad KLT mem melacak ti titik fitur titik fitur w titik fitur tampak pad Pola banyak pik terlacak ak berisi infor bisa ber dalam waktu tode cascade o a gambar 2 an proses pen s deteksi imag ini, tampak pad
Mulai Data La (sub-windo Komputa Fitur Presenta image inte Bukan w Cascad tahap 2 Wajah Seleksi f AdaBoo Proses beruruta 1 2 Y T Haar-Like Features Cascade Trainer 2. Diagram alur Viola-Jones ambar 3. Posisi Wajah tuk melacak
age, pada pene
Kanade-Lucas de, 1981]. Pa mpunyai tiga
tik fitur wajah wajah (featur wajah (feature (feature tr da gambar 4. a tekstur hany
ksel pada are kan lebih akur
rmasi tekstur. rmacam-macam nyata (real-ti of classifier. menunjukkan ndeteksian, Ha e 2D kepala a da gambar 3. tih ow) asi asi egral ajah de 2 Wajah fitur ost s an - n Y T r proses deteks aktor terdetek titik fitur w elitian ini men Thomasi (KLT ada prinsipnya tahapan dasa h, yaitu: meng re extraction), selection) dan racking). Seb
ya akan ada jik ea tersebut, f
at apabila fitu Area pada fitu m tergantun imeliness) diagram asil akhir aktor pada Cascade tahap ke- n Wajah Berhenti si metode ksi ajah dari nggunakan T) [Lucas a metode ar dalam gekstraksi memilih n melacak bagaimana ka terlihat fitur yang ur window ur window ng dari k t p a d p keperluan jum tampak pada ga Optical pelacakan ob algoritma opt dengan algoritm pengenalan wa E (Opti Optical Flow LKT Pyramidal Gambar 4. Gambar 5.
Gamba
mlah fitur y ambar 5. l flow adalah bjek secara tical flow da ma yang lain u ajah. Deteksi wajahEktraksi titik fitur wajah t (Shi-Thomasi)
Pilih titik fitur terbai (Pyramidal Lucas-Kan
Lacak titik fitur terba cal Flow Lucas-Kanade Frame berikutnya End Y Proses Lucas-K . ekstraksi fitur
ar 6.
Pelacaka yang dialoka salah satu m real-time, d apat diintegra untuk pelacaka terbaik ik nade) aik e Thomasi) ? T Kanade Thoma r hasil penelitia an optical flow asikan, metode dimana asikan an dan asi anSTIKOM
SURABAYA
Estimasi p Pad juga extrin untuk me dengan inf koresponde model obj kamera. P posisi dan enam arah Six Degree Pad from Ortho pose pada Akan tetap diikuti ata dengan sa kedua situa 1. Pada si dikomp tidak la titik-titi kamera yang di 2. Pada si iterasi melanju (path). cabang (+), te hanya p semua Zi > Temukan titik im bandingkan dg aktual, ukur kesal
T, ye G pose a dasarnya est nsic camera ca ngekstraksi in formasi posisi
ensi atau berk ek dan imag Pose dari seb orientasi pada kebebasan da e of Freedom). a gambar 7, ography and S setiap iterasi pi dalam prakt au dua percab tu atau dua asi tersebut terj ituasi pertama, putasi dengan d ayak (-) atau d ik pose scen a. Sehingga han iproses. ituasi kedua, k pertama ada utkan iterasi Pada langkah masih tersedi etapi untuk m pose terbaik ya Titik Image Titik objek Cop Pusat Imag Focal length Hitung i 0? STOP mage, image lahan E1 E1<E2 ?, E=E, Lain E=E2, R= E < Threshold Hasil T, R, E POS R1 no es ye Gambar 7. Alg
timasi pose ata
alibration adal nformasi yan dan orientasi kesesuaian dar ge yang diper buah objek m objek yang m alam bergerak algoritma PO Scale) menghas pada algoritm teknya hanya bangan, yang solusi yang l jadi karena : langkah iteras dua pose tetapi dibuang karena
ne terletak d
nya satu path kedua pose dar
alah layak pada kedua h kedua, masin ia dua pose ya masing-masing ang akan dipert
e lanar ge
h
semua Zi > 0
Temukan titik ima bandingkan dg im aktual, ukur kesalah
R=R1 =R2 d ? E(n) ≥ E(n-1) E STOP T, R2 no yes no es yes oritma POSIT au disebut lah proses ng terkait titik yang ri sebuah roleh dari merupakan empunyai (6DOF – OS (Pose silkan dua ma POSIT. satu yang akhirnya ayak (+), si pertama satu pose a beberapa dibelakang layak (+) ri langkah (+), dan a cabang ng-masing ang layak g cabang tahankan. 0 age, mage han E2 ) no s H t p k i p k s G P d d k f s k b d k t d s p d w A p m d w m m ( s s b a HASIL DAN Implem terdiri dari ti pertama adalah kedua adalah p image 2D wa proses ketiga kearah sumbu sudut RPY. (a) Gambar 8. Tam a. W Aug Pengujian Sist Untuk diimplementas dibahas dari ketangguhan p fitur image w serta estimasi p ke-akur ketepatan da berhubungan dalam perbe kecepatan ger tiap detiknya a dalam waktu sedangkan esti posisi dan or dengan perger wajah aktor. Akurasi Pelac Pada im pelacakan cuku model objek dengan pose waktu nyata. H mendeteksi im model objek k (X=0) sebesar sudut Yaw (Y= simpangan su besarnya rotas adalah 180°. N PEMBAHA mentasi sistem iga bagian ut h deteksi imag penentuan dan ajah tiap fra
adalah estim u koordinat X
mpilan GUI wi
Window titik fitu gmented Reality tem menguji si sikan pada p sudut pand pelacakan, pen ajah, jumlah f pose. rasian akan alam pelaca dengan kem edaan intens rakan. Banyak akan memastika nyata (real imasi pose me rientasi antara rakan atau pe cakan mplementasi up baik karena kepala 3D p aktor yang h Hasil pelacakan mage wajah 2D kepala 3D rota 129.1° ke ara =0) yang berpa udut sebesar si pada sudu ASAN pada peneliti tama, yaitu: p ge 2D wajah, p n tracking titik ame-nya, seda
masi pose tra XYZ dan rota
(b)
indow dari siste
ur wajah, b. W y model objek istem yang penelitian ini dang ke-akur ngaruh jumlah frame tiap de terkait d akan, ketang mampuan me itas cahaya knya jumlah f an proses kom l-time) atau enunjukkan ko a model obje ergeseran imag sistem ini, a a bisa mengger pada layar an hampir sama n (tracking) m D dan mengger asi pada sudut ah +/-Y, rotasi aling ke +/- X 179.8°. Seda ut Roll (Z=0) an ini proses proses k fitur angkan anslasi asi ke em, Window 3D. telah akan rasian, h titik tiknya dengan gguhan elacak dan frame mputasi tidak, orelasi ek 3D ge 2D akurasi rakkan nimasi dalam mampu rakkan Pitch i pada X besar angkan +/-X
STIKOM
SURABAYA
Ketangguh Keta wajah 2D 3D dipeng pencahayaa Tomasi b objek (brig yang merat hal ruangan m atau terla mengakiba wajah berg banyak titi bergeser m pelacakan. Estimasi P Esti merupakan translasi ve dengan kam 3 x 4. Kar untuk trans elemen) d kolom (1D Jika maka hany (kiri, kana proyeksi OpenGL coplanar (k
dan jauh (fa Rotasi Pad Gambar 9. t han Pelacakan angguhan dal serta pergerak garuhi oleh pen
an pada aktor. erdasarkan pa ghtness) berjala ta dan normal. ini berarti maupun aktor ti alu terang k atkan beberapa geser dari temp k fitur image maka bisa men
Pose
imasi pose n kombinasi da
ektor 3D yang mera, maka dip rena pada Ope sformasi mem dengan priorit
).
a menggunaka ya diperlukan e an, atas dan b ortografi yan diperlukan en kiri, kanan, at far)). da Sumbu Z (R (a) Rotasi pada su tracking, b. di n lam pelacaka kan model obj ncahayaan rua Metode Luca ada tingkat k an pada cahay
pencahaya idak boleh terl karena hal a pelacakan t pat seharusnya wajah yang hi ngurangi tingka model ob ari rotasi matri mempunyai n perlukan minim enGL standar m mpunyai ordo 4 as perhitunga an proyeksi p empat titik non bawah) sedang ng digunakan nam buah ti as, bawah, dek
Roll) (b) umbu Z, a. di w window model an image ek kepala angan dan as-Kanade kecerahan a ruangan aan pada lalu gelap itu bisa titik fitur a. Apabila ilang atau at akurasi bjek 3D ik 3D dan ilai relatif mal matrik matriknya 4 x 4 (16 an pada perspektif -coplanar gkan pada n dalam itik non-kat (near) window l 3D. R G G R G Tabel Rotasi Pada Su (a) Gambar 10. Ro tra Tabel Rotasi Pada Su (a) Gambar 11. R t Frame S ke‐ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Roll (α) Rotasi Di Sumbu Z Frame ke‐ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Yaw (β) Rotasi Di Sumbu Y l 1. Rotasi pada umbu Y (Yaw) otasi pada sum
acking b. di w
2. Rotasi pada
umbu X (Pitch
Rotasi pada sum
tracking, b. di w impangan sudut ( derajat ) 14.703 15.185 16.456 16.859 17.849 19.175 18.965 20.160 20.962 21.615 22.189 22.457 23.262 23.951 24.412 24.593 24.91 25.47 25.441 Antar 0.48 0.40 1.32 1.19 0.65 0.26 0.688 0.18 0.56 Simpangan sudut ( derajat ) 72.668 73.496 74.502 76.162 77.94 78.621 79.361 79.363 78.204 79.207 79.199 79.59 79.982 80.308 79.891 79.235 74.611 76.986 76.912 Anta 0.8 1. 0.6 0.0 2.3 1.0 0.3 0.3 0.6 a sudut Roll w) (b) mbu Y, a. di win window model 3 a sudut Yaw h) (b) mbu Z, a. di wi window model Deviasi Rat ra tiap frame (0) Semua 82 0 1.271 03 0.99 26 0.21 95 0.802 53 0.574 68 0.805 89 0.461 81 0.317 6 0.029 Deviasi ara tiap frame (0 ) 828 1.006 66 681 1.778 0.74 002 1.159 375 0.074 Semua Rat 1 003 0.008 391 0.392 326 0.417 656 4.624 ndow 3D indow l 3D. ta‐rata a frame (0) 0.623 a frame (0 ) ta‐rata 1.007
STIKOM
SURABAYA
Ta Translasi P Tran XYZ, kar maka hany digunakan (a Gambar 4.2 Tabel 4. T KESIMP Dar dilanjutkan analisa, m penelitian dengan has 1. Metode estimas Reality karena tetapi b 2. Hasil k Frame ke‐ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Pitc Ro Di Su Translasi Ke‐ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sum abel 3. Rotasi p Pada Sumbu X nslasi dilakuk rena keterbata ya translasi k sebagai contoh a) 25 Translasi d a. di window Augmented R Translasi ke-15 ULAN ri hasil peranca n pengambilan maka dapat dis ini telah berh sil sebagai beri e POSIT da si pose pada dengan hasil sudah tidak me berbasis titik fit
keluaran dari Simpangan sudut ( derajat ) ‐25.086 ‐25.292 ‐23.566 ‐22.398 ‐22.591 ‐26.456 ‐27.049 27.101 ‐25.098 ‐24.173 ‐24.373 ‐25.516 ‐25.726 ‐26.39 ‐26.516 ‐27.399 ‐28.659 ‐29.077 ‐29.078 ch (β) otasi umbu X mbu Arah Z Depan ke Belakang
pada sudut Pitc
XYZ
kan pada ketig asan jumlah kearah sumbu h. (b) dari +Z ke –Z, tracking, b. di Reality mode langkah pada angan sistem n data, pengu simpulkan bah hasil diimplem kut: apat digunaka lingkungan A l interaksi leb enggunakan m tur wajah. sistem yang d Deviasi R Antara tiap frame (0) Sem 0.206 1.726 1.168 0.193 3.865 0.593 0.052 2.003 0.925 0.2 1.143 0.21 0.664 0.126 0.883 1.26 0.418 0.001 1.4425 1.453 1.4696 1.5157 1.5528 1.6033 1.6653 1.7201 1.8087 1.8608 1.8838 1.9347 1.9955 2.0266 2.0841 Nilai Rata‐rata g 1.7344 ch ga sumbu halaman, u Z yang i window l 3D. sumbu Z kemudian ujian dan hwa pada mentasikan an untuk Augmented bih alami arker lagi diterapkan 3 4 p 1 2 R A B D L P R R Y Rata‐rata mua frame (0) 0.869 Satuan Unit Vektor sebesar 16 f sudah term time) yang 3. Diperlukan aktor sebag tidak berge 4. Estimasi p deviasi orie deviasi jar vektor. Berikut penelitian lebih 1. Penerapan sebagainya aktor. 2. Untuk m direkomend Quaternion RUJUKAN Araujo H., C Christo Formula Lowe’s Comput Underst 238, 199 B. D. Lucas an registra to ster DARPA worksho Daniel F. DeM Based Code.In Laborat Lowe, D.G., P Recogn Publish Paul Viola, M Object D Resmana Lim dan es Dimens 2, nome R.Y. Tsai., An Calibra Vision. on Co Recogn 374, 19 Yuan, J.S.C. Method and Ori and Aut
frame per seco
masuk dalam men-syarat-ka n 200 titik fitu gai landmark m etar (tremor). pose dicapai entasi sudut 0. rak translasi t adalah beb h lanjut: metode Fu a untuk mendet mengatasi efe dasikan men n (4D). Carceroni R opher M., A lation to Impro Pose Estim ter Vision tanding, Volum 98. nd T. Kanade ation technique reo vision, P A imaging op, pp. 121-13 Menthon, Larr Object Pose nternational tory, University Perceptual Orga nition, Klu ers, 1985. Michael Jones. Detection. Can m. Davina. S stimasi Pose si, Jurnal Tekn
er 2, UK Petra, n Effisient and ation Techniqu Proceeding o omputer Vis nition, Miami B 86. ., A Genera d for Determin ientation,IEEE tomation, vol.5 ond (FPS), seh waktu nyata an minimal 4 F ur pada image model objek 3D i dengan rat 83° dengan rat 1.67 satuan erapa saran uzzy, AMM teksi ekspresi ek Gimbal nggunakan m Rodrigo L. B A Fully Proj ove the Accura
mation Algo and Im me 70, Pages e., An ietrative e with an appli Proceedings o g understa 0. 1981. ry S. Davis., M in 25 Lines Computer V y of Maryland anization and V uwer Aca ., Robust Real nada. July 13, 2 Sivia R., Pela Video waj nik Elektro, v , 2002. d Accurate Ca ue for 3D Ma of IEEE Confe sion and P Beach, FL, pp l Photogramm ning Object Po E Trans. on Ro 5,pp.129-142, hingga (real-PS. wajah D agar ta-rata ta-rata n unit untuk dan wajah Lock metode Brown jective acy of orithm, mages s 227-iamge cation of the anding Model-s of Vision ,1995. Visual ademic l-Time 2001. acakan jah 3 olume amera achine erence Pattern p. 364-metric osition obotics 1989.