ESTIMASI POSE MODEL 3D DALAM LINGKUNGAN
AUGMENTED REALITY BERBASIS TITIK FITUR
WAJAH MENGGUNAKAN METODE POSIT
Heri Pratikno1) Mochamad Hariadi, ST., M.Sc., Ph.D 2)
1) Bidang Keahlian Jaringan Cerdas Multimedia, Jurusan Teknik Elektro, Fakultas Teknologi
Industri, Institut Teknologi Sepuluh Nopember Surabaya, email: heri@stikom.edu
2) Institut Teknologi Sepuluh Nopember, Surabaya 60111, email: mochar@ee.its.ac.id
Abstract: The main problem in objects tracking using cameras is to find the head pose estimation
of the objects. In addition, it is necessary to rely on natural features since there is no light generated from the objects. This study aims to estimate the pose of a 3D head models using a
single camera in a real-time Augmented Reality (AR) environment that is based on facial feature
points. The position of the 3D models are translated into XYZ coordinate axes and rotated to the
orientation angle RPY (Roll, Pitch, Yaw). The POSIT (Pose from Ortography and Scale with
ITeration) is used for the pose estimation. The position and orientation of the 3D models are
projected to facial feature points orthographically. In order to get the best pose, four to five iterations are performed in order to achieve the minimal error factor. The final results of this study can be considered as real-time systems as it can achieve 16 frames per second with an average
angle rotational accuracy of 0.83o and translational deviation of 1.67 vector units.
Keywords: Augmented Reality, Facial Feature, Pose Estimation, POSIT.
Markerless dalam Augmented Reality
(AR) bertujuan untuk menghasilkan interaksi antara komputer dan pengguna lebih alami dan
intuitif dibandingkan dengan model marker.
Deteksi yang berbasiskan titik fitur wajah
merupakan salah satu model markerless yang
banyak menarik perhatian para praktisi dan peneliti. Proses deteksi dan pengenalan yang berbasiskan titik fitur wajah dapat diterapkan
dalam bidang keamanan, absensi, e-commerce
dan game.
Proses estimasi pose (pose estimation)
mempunyai tingkatan komputasi yang lebih sulit dan krusial dalam menentukan jumlah dan penempatan titik fitur wajah, transformasi model objek 3D serta akurasinya, dibandingkan dengan
proses deteksi wajah (face detection) maupun
pengenalan wajah (face recognition).
Selain akurasi, proses recovery fitting
antara image wajah 2D dan model objek 3D juga
perlu diperhitungkan karena pergerakan terlalu
cepat dari image wajah 2D aktor yang berfungsi
sebagai landmark dari model objek 3D dapat
menyebabkan kehilangan frame pelacakan dalam
suatu scene.
Berdasarkan penelitian dari Daniel F.
DeMenthon [DeMenthon, 1995], metode POSIT
mempunyai komputasi sistem estimasi pose bisa
sampai dua puluh lima kali lebih cepat dari pada metode Yuan [Yuan, 1989] maupun metode Lowe [Lowe, 1985] karena pada metode POSIT sudah tidak diperlukan lagi proses inisialisasi estimasi pose awal yang dilakukan secara
manual dan inverse matrik dalam looping
iterasinya. Metode POSIT akan mengekstraksi pose objek dengan pendekatan model 3D secara
antroprometrik (rigid anthropometric) yang
berkorespondensi dengan titik fitur image wajah.
Dengan dasar pemikiran tersebut maka penelitian ini membahas tentang implementasi “Estimasi pose model 3D dalam lingkungan
Augmented Reality berbasis titik fitur wajah
menggunakan metode POSIT”. Beberapa metode sistem komputasi estimasi pose telah dikenalkan oleh Tsai [Tsai, 1987], Lowe dan Yuan.
Pada metode Lowe dan Yuan mempunyai dua kelemahan yang cukup signifikan, yaitu: pertama, sebuah perkiraan atau pendekatan pose harus dimulai dengan proses iterasi. Kelemahan kedua adalah setiap langkah
proses iterasi diperlukan pseudoinverse matrix
Jacobian dengan dimensi 2N x 6 pada metode
Lowe dan N x 6 untuk Yuan. Dimana N adalah
jumlah titik fitur yang harus ditemukan, hal ini menjadikan sebuah operasi komputasional yang lebih lama dan rumit.
STIKOM
Metode Fully Projective [Araujo, 1998] merupakan pengembangan dari metode Lowe dan berhasil diimplementasikan dalam penelitian [Lim, 2002] dengan hasil penelitian sebagai berikut: tingkat kesalahan rotasi rata-rata sebesar 4° dan tingkat kesalahan translasinya rata-rata sebesar 5 cm.
Berdasarkan pembahasan pada latar belakang penelitian dan hasil penelitian sebelumnya, maka dirumuskan permasalahan pada penelitian ini, yaitu: proses interaksi dalam
lingkungan Augmented Reality secara umum
masih menggunakan marker, pada kasus
Augmented Reality yang melibatkan interaksi
dengan kepala manusia maka penggunaan
marker kurang cocok untuk diimplementasikan.
Perlu adanya sistem yang mengimplementasikan metode POSIT agar
proses interaksi dilingkungan Augmented Reality
dapat dilakukan secara markerless, terkait
dengan implementasi penggunaan metode POSIT tersebut maka perlu adanya pengujian terhadap performa estimasi pose pada POSIT
dalam lingkungan Augmented Reality.
Penelitian ini bertujuan untuk memberikan metode alternatif dalam penerapan sistem interaksi antara manusia dan komputer
dalam lingkungan Augmented Reality tanpa
menggunakan marker (markerless). kemudian
dilakukan uji performasi estimasi pose pada metode POSIT tersebut, yaitu: translasi pada posisi sumbu koordinat XYZ dan rotasi pada sudut RPY (Roll, Pitch, yaw).
Berdasarkan rumusan masalah, maka ada beberapa batasan masalah, antara lain :
a. Jumlah orang pengendali gerakan model
objek 3D pada lingkungan Augmented
Reality hanya satu orang (aktor) dalam satu
waktu.
b. Pada penelitian ini tidak dibahas ekspresi
dari model objek 3D.
c. Kondisi pencahayaan merata dalam ruangan.
Hasil penelitian ini diharapkan memberi manfaat terwujudnya inetraksi di lingkungan
Augmented Reality dapat dilakukan dalam waktu
nyata secara markerless, yaitu: menggunakan
titik-titik fitur wajah sebagai landmark
penempatan (layouting) model objek 3D yang
bisa digerakkan kearah enam taraf kebebasan
bergerak (6DOF – Six Degree of Freedom).
Adapun hasil dari penelitian ini dapat digunakan untuk industry game, absensi online, e-commerce, media promosi dan sebagainya.
Penelitian ini diharapkan bisa memberi kontribusi pada peningkatan interaksi yang lebih
alami dibandingkan dengan penggunaan marker
serta lebih responsif dilingkungan Augmented
reality, karena pada metode POSIT sudah tidak
diperlukan lagi proses inisialisasi pose awal titik-titik fitur di wajah yang dilakukan secara manual pada metode-metode sebelumnya.
METODE PENELITIAN
pada penelitian ini perancangan sistem secara garis besarnya dibagi menjadi tiga blok bagian utama, yaitu: proses deteksi, proses
tracking dan proses estimasi pose. Sebagaimana
tampak pada gambar 1.
Gambar 1. Bagan sistem
Proses Deteksi
Pada tahapan ini bertujuan untuk
pengambilan gambar (grabbing) tiap frame
dalam waktu nyata (real-time capturing) dari
sebuah scene menggunakan kamera tunggal.
Jarak ideal dari posisi objek image wajah
dengan kamera adalah sekitar 15 cm (near
plane) sampai dengan 3 meter (far plane). Proses
tracking pada penelitian ini menggunakan
metode Viola-Jones [Paul Viola, 2001], dimana
fungsinya adalah untuk deteksi wajah (face
detection) dengan tujuan untuk membedakan
area wajah dan bukan wajah dari objek.
Algoritma Viola-Jones, terdiri dari tiga proses tahapan penting, yaitu: pertama adalah
proses komputasi fitur (feature computation)
yang dihasilkan oleh metode Haar-Like Feature.
Proses kedua ialah seleksi fitur (feature
selection) menggunakan metode pelatihan
AdaBoost. Sedangkan proses yang ketiga adalah
STIKOM
ketepatan dengan me
Pad alur tahap dari proses penelitian i
Cascade tahap 1
H
Classifier Cascade
Gambar 2
Ga
Tracking Unt
sebuah ima
algoritma K and Kanad KLT mem melacak ti titik fitur titik fitur w titik fitur tampak pad Pola banyak pik terlacak ak berisi infor
bisa ber
dalam waktu
tode cascade o
a gambar 2 an proses pen
s deteksi imag
ini, tampak pad
Mulai
Data La
(sub-windo
Komputa Fitur Presenta
image inte
Bukan w Cascad tahap 2 Wajah
Seleksi f AdaBoo
Proses beruruta
1
2
Y
T Haar-Like Features
Cascade Trainer
2. Diagram alur Viola-Jones
ambar 3. Posisi
Wajah tuk melacak
age, pada pene
Kanade-Lucas de, 1981]. Pa mpunyai tiga
tik fitur wajah
wajah (featur
wajah (feature
(feature tr
da gambar 4. a tekstur hany
ksel pada are kan lebih akur
rmasi tekstur. rmacam-macam
nyata (real-ti of classifier.
menunjukkan ndeteksian, Ha
e 2D kepala a
da gambar 3.
tih
ow)
asi asi
egral
ajah de
2 Wajah
fitur ost
s an
- n
Y
T
r proses deteks
aktor terdetek
titik fitur w elitian ini men Thomasi (KLT ada prinsipnya
tahapan dasa h, yaitu: meng
re extraction),
selection) dan
racking). Seb
ya akan ada jik ea tersebut, f
at apabila fitu Area pada fitu m tergantun
imeliness)
diagram asil akhir aktor pada
Cascade tahap ke- n
Wajah
Berhenti
si metode
ksi
ajah dari nggunakan
T) [Lucas a metode ar dalam gekstraksi
memilih n melacak bagaimana
ka terlihat fitur yang
ur window
ur window
ng dari k t
p a d p
keperluan jum tampak pada ga
Optical pelacakan ob
algoritma opt
dengan algoritm pengenalan wa
E
(Opti
Optical Flow LKT Pyramidal
Gambar 4.
Gambar 5.
Gamba
mlah fitur y ambar 5.
l flow adalah
bjek secara
tical flow da
ma yang lain u ajah.
Deteksi wajah
Ektraksi titik fitur wajah t (Shi-Thomasi)
Pilih titik fitur terbai (Pyramidal Lucas-Kan
Lacak titik fitur terba cal Flow Lucas-Kanade Frame berikutnya
End Y
Proses Lucas-K
. ekstraksi fitur
ar 6.
Pelacakayang dialoka
salah satu m
real-time, d
apat diintegra untuk pelacaka
terbaik
ik nade)
aik e Thomasi)
? T
Kanade Thoma
r hasil penelitia
an optical flow
asikan,
metode dimana asikan an dan
asi
an
STIKOM
Estimasi p Pad juga extrin untuk me dengan inf koresponde model obj kamera. P posisi dan enam arah Six Degree
Pad from Ortho pose pada Akan tetap diikuti ata dengan sa kedua situa 1. Pada si dikomp tidak la titik-titi kamera yang di 2. Pada si iterasi melanju (path). cabang (+), te hanya p
semua Zi >
Temukan titik im
bandingkan dg aktual, ukur kesal
T,
ye
G pose
a dasarnya est nsic camera ca ngekstraksi in formasi posisi
ensi atau berk
ek dan imag
Pose dari seb orientasi pada kebebasan da
e of Freedom).
a gambar 7, ography and S
setiap iterasi pi dalam prakt au dua percab tu atau dua asi tersebut terj ituasi pertama, putasi dengan d ayak (-) atau d
ik pose scen
a. Sehingga han iproses. ituasi kedua, k
pertama ada utkan iterasi
Pada langkah masih tersedi etapi untuk m pose terbaik ya
Titik Image
Titik objek Cop
Pusat Imag Focal length
Hitung i
E < Threshold
HasilT, R,E
Gambar 7. Alg
timasi pose ata
alibration adal
nformasi yan dan orientasi kesesuaian dar
ge yang diper
buah objek m objek yang m alam bergerak
algoritma PO
Scale) menghas
pada algoritm teknya hanya bangan, yang
solusi yang l jadi karena :
langkah iteras dua pose tetapi dibuang karena
ne terletak d
nya satu path
kedua pose dar alah layak
pada kedua h kedua, masin ia dua pose ya masing-masing ang akan dipert
e lanar ge
h
semua Zi > 0
Temukan titik ima bandingkan dg im aktual, ukur kesalah
R=R1
oritma POSIT
au disebut lah proses ng terkait
titik yang ri sebuah roleh dari merupakan
empunyai (6DOF –
OS (Pose
silkan dua ma POSIT. satu yang akhirnya ayak (+),
si pertama satu pose a beberapa dibelakang layak (+)
ri langkah (+), dan a cabang ng-masing
ang layak
HASIL DAN Implem terdiri dari ti pertama adalah kedua adalah p
image 2D wa
proses ketiga kearah sumbu sudut RPY.
(a) Gambar 8. Tam
a. W Aug
Pengujian Sist
Untuk diimplementas dibahas dari ketangguhan p fitur image w serta estimasi p
ke-akur ketepatan da berhubungan dalam perbe kecepatan ger tiap detiknya a dalam waktu sedangkan esti posisi dan or dengan perger wajah aktor.
Akurasi Pelac
Pada im pelacakan cuku model objek dengan pose waktu nyata. H
mendeteksi im
model objek k (X=0) sebesar
sudut Yaw (Y=
simpangan su besarnya rotas adalah 180°.
N PEMBAHA mentasi sistem iga bagian ut
h deteksi imag
penentuan dan
ajah tiap fra
adalah estim u koordinat X
mpilan GUI wi
Window titik fitu
gmented Reality
tem
menguji si sikan pada p sudut pand pelacakan, pen
ajah, jumlah f
pose.
rasian akan alam pelaca
dengan kem edaan intens rakan. Banyak akan memastika
nyata (real
imasi pose me rientasi antara rakan atau pe
cakan
mplementasi up baik karena
kepala 3D p aktor yang h Hasil pelacakan
mage wajah 2D
kepala 3D rota 129.1° ke ara =0) yang berpa udut sebesar si pada sudu
ASAN pada peneliti tama, yaitu: p
ge 2D wajah, p
n tracking titik
ame-nya, seda
masi pose tra XYZ dan rota
(b)
indow dari siste
ur wajah, b. W
y model objek
istem yang penelitian ini dang ke-akur ngaruh jumlah
frame tiap de
terkait d
akan, ketang mampuan me
itas cahaya
knya jumlah f
an proses kom
l-time) atau
enunjukkan ko a model obje
ergeseran imag
sistem ini, a a bisa mengger pada layar an hampir sama
n (tracking) m D dan mengger asi pada sudut ah +/-Y, rotasi
aling ke +/- X
179.8°. Seda
ut Roll (Z=0)
an ini proses proses k fitur angkan
anslasi asi ke
em, Window
3D.
telah akan rasian, h titik
tiknya
dengan gguhan elacak dan frame mputasi
tidak, orelasi ek 3D
ge 2D
akurasi rakkan nimasi dalam mampu rakkan Pitch i pada X besar angkan +/-X
STIKOM
Ketangguh
Keta wajah 2D 3D dipeng pencahayaa Tomasi b objek (brig yang merat hal ruangan m atau terla mengakiba wajah berg banyak titi bergeser m pelacakan.
Estimasi P
Esti merupakan translasi ve dengan kam 3 x 4. Kar untuk trans elemen) d kolom (1D Jika maka hany (kiri, kana proyeksi OpenGL coplanar (k dan jauh (fa
Rotasi Pad
Gambar 9. t
han Pelacakan
angguhan dal serta pergerak garuhi oleh pen
an pada aktor. erdasarkan pa
ghtness) berjala
ta dan normal. ini berarti maupun aktor ti
alu terang k atkan beberapa geser dari temp k fitur image maka bisa men
Pose
imasi pose n kombinasi da
ektor 3D yang mera, maka dip rena pada Ope sformasi mem dengan priorit
).
a menggunaka ya diperlukan e an, atas dan b ortografi yan diperlukan en kiri, kanan, at far)).
da Sumbu Z (R
(a)
Rotasi pada su tracking, b. di
n
lam pelacaka kan model obj ncahayaan rua Metode Luca ada tingkat k an pada cahay
pencahaya idak boleh terl karena hal a pelacakan t pat seharusnya wajah yang hi ngurangi tingka
model ob ari rotasi matri mempunyai n perlukan minim enGL standar m mpunyai ordo 4
as perhitunga
an proyeksi p
empat titik non
bawah) sedang ng digunakan nam buah ti as, bawah, dek
Roll)
(b)
umbu Z, a. di w
window model
an image
ek kepala angan dan as-Kanade kecerahan a ruangan
aan pada lalu gelap
itu bisa titik fitur a. Apabila
ilang atau at akurasi
bjek 3D ik 3D dan
ilai relatif mal matrik matriknya 4 x 4 (16 an pada
perspektif -coplanar gkan pada
n dalam
itik
non-kat (near)
window l 3D.
R
G G
R
G
Tabel
Rotasi Pada Su
(a) Gambar 10. Ro
tra
Tabel
Rotasi Pada Su
(a) Gambar 11. R t
Frame S
ke‐
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Roll (α) Rotasi Di Sumbu Z
Frame
ke‐
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Yaw(β) Rotasi Di Sumbu Y
l 1. Rotasi pada
umbu Y (Yaw)
otasi pada sum acking b. di w
2. Rotasi pada
umbu X (Pitch
Rotasi pada sum
tracking, b. di w impangan sudut
( derajat ) 14.703 15.185 16.456 16.859 17.849 19.175 18.965 20.160 20.962 21.615 22.189 22.457 23.262 23.951 24.412 24.593 24.91 25.47 25.441
Antar
0.48
0.40
1.32
1.19
0.65
0.26
0.688
0.18
0.56
Simpangan sudut
( derajat ) 72.668 73.496 74.502 76.162 77.94 78.621 79.361 79.363 78.204 79.207 79.199 79.59 79.982 80.308 79.891 79.235 74.611 76.986 76.912
Anta
0.8
1.
0.6
0.0
2.3 1.0
0.3
0.3
0.6
a sudut Roll
w)
(b)
mbu Y, a. di win
window model 3
a sudut Yaw
h)
(b)
mbu Z, a. di wi
window model
Deviasi Rat
ra tiap frame (0) Semua
82
0
1.271
03
0.99
26 0.21 95
0.802 53
0.574 68
0.805 89
0.461 81
0.317 6
0.029
Deviasi ara tiap frame (0)
828
1.006
66
681
1.778
0.74 002
1.159
375 0.074
Semua Rat
1 003
0.008 391
0.392 326
0.417 656
4.624
ndow 3D
indow l 3D. ta‐rata
a frame (0)
0.623
a frame (0)
ta‐rata
1.007
STIKOM
Ta
Translasi P Tran XYZ, kar maka hany digunakan
(a Gambar 4.2
Tabel 4. T
KESIMP Dar dilanjutkan analisa, m penelitian dengan has
1. Metode
estimas Reality karena tetapi b
2. Hasil k
abel 3. Rotasi p
Pada Sumbu X nslasi dilakuk rena keterbata
ya translasi k sebagai contoh
a)
25 Translasi d
a. di window
Augmented R
Translasi ke-15
ULAN ri hasil peranca n pengambilan maka dapat dis ini telah berh sil sebagai beri e POSIT da si pose pada dengan hasil sudah tidak me berbasis titik fit
keluaran dari Simpangan sudut
( derajat )
pada sudut Pitc
XYZ
kan pada ketig asan jumlah kearah sumbu h.
(b) dari +Z ke –Z,
tracking, b. di
Reality mode
langkah pada
angan sistem n data, pengu simpulkan bah hasil diimplem
kut:
apat digunaka
lingkungan A
l interaksi leb
enggunakan m
tur wajah. sistem yang d
Deviasi R
Nilai Rata‐rata
g 1.7344
ch
ga sumbu halaman, u Z yang
i window
l 3D.
sumbu Z
kemudian ujian dan hwa pada mentasikan
an untuk Augmented
bih alami arker lagi
diterapkan 3
Unit Vektor
sebesar 16 f sudah term time) yang
3. Diperlukan
aktor sebag tidak berge
4. Estimasi p
deviasi orie deviasi jar vektor.
Berikut penelitian lebih
1. Penerapan
sebagainya aktor.
2. Untuk m
direkomend Quaternion
RUJUKAN
Araujo H., C 238, 199
B. D. Lucas an
registra to ster DARPA worksho
Daniel F. DeM
Based
Code.In
Laborat
Lowe, D.G., P Recogn Publish
Paul Viola, M
Object D
Resmana Lim
dan es and Ori and Aut
frame per seco masuk dalam
men-syarat-ka n 200 titik fitu
gai landmark m
etar (tremor). pose dicapai entasi sudut 0.
rak translasi
t adalah beb h lanjut:
metode Fu a untuk mendet
mengatasi efe dasikan men n (4D).
Carceroni R opher M., A lation to Impro Pose Estim ter Vision tanding, Volum
98.
nd T. Kanade
ation technique
reo vision, P
A imaging op, pp. 121-13
Menthon, Larr
Object Pose nternational
tory, University Perceptual Orga nition, Klu
ers, 1985.
Michael Jones.
Detection. Can
m. Davina. S
stimasi Pose
si, Jurnal Tekn
er 2, UK Petra, n Effisient and ation Techniqu
Proceeding o omputer Vis nition, Miami B
86.
., A Genera
d for Determin
ientation,IEEE
tomation, vol.5
ond (FPS), seh
waktu nyata an minimal 4 F
ur pada image
model objek 3D
i dengan rat 83° dengan rat 1.67 satuan
erapa saran
uzzy, AMM teksi ekspresi
ek Gimbal
nggunakan m
Rodrigo L. B
A Fully Proj ove the Accura
mation Algo and Im me 70, Pages
e., An ietrative e with an appli Proceedings o g understa
0. 1981.
ry S. Davis., M in 25 Lines
Computer V
y of Maryland anization and V uwer Aca
., Robust Real
nada. July 13, 2
Sivia R., Pela Video waj nik Elektro, v , 2002.
d Accurate Ca ue for 3D Ma of IEEE Confe sion and P Beach, FL, pp
l Photogramm ning Object Po E Trans. on Ro
5,pp.129-142, hingga
( real-PS. wajah D agar
ta-rata ta-rata n unit
untuk
dan wajah
Lock metode
Brown
jective acy of orithm, mages s
227-iamge cation of the
anding
Model-s of Vision ,1995. Visual ademic
l-Time 2001. acakan
jah 3 olume
amera achine erence Pattern p.
364-metric osition obotics 1989.