BAB I PENDAHULUAN 1.1 Latar Belakang

(1)

1

1.1 Latar Belakang

Stereo vision merupakan lingkup dari visi komputer. Titik awal dan tujuan akhir dari visi komputer adalah memungkinkan komputer dengan kemampuan "melihat" dan "berpikir", yang sama atau bahkan mengungguli penglihatan manusia (Cyganek dan Siebert, 2009). Rekonstruksi bentuk tiga dimensi adalah masalah penelitian klasik dalam visi komputer (Aggarwal dan Xia, 2014). Untuk memenuhi kebutuhan sensor penangkap berdasarkan sistem visi, telah dikembangkan kamera stereo digital. Kamera stereo merupakan kamera yang dilengkapi dengan dua atau lebih lensa dengan sensor citra yang terpisah atau frame film untuk setiap lensa. Hal ini memungkinkan kamera untuk mensimulasikan penglihatan binokular manusia, dan karena itu memberikan kemampuan untuk menghasilkan citra tiga dimensi. Dengan membandingkan dua citra, informasi kedalaman relatif dapat diperoleh, dalam bentuk disparitas, yang berbanding terbalik dengan perbedaan jarak ke objek (Aggarwal dan Xia, 2014).

Penelitian di bidang stereo vision telah melewati sejarah yang panjang. Penelitian pertama yang diketahui telah menyelidiki fenomena persepsi kedalaman adalah orang Yunani kuno. Kemungkinan tulisan pertama tentang masalah disparitas berasal dari Aristoteles (380BC) yang mengamati bahwa jika selama pengamatan berkepanjangan terhadap objek dan salah satu bola mata ditekan dengan jari maka benda terlihat ganda. Pada tahun 1828 seorang profesor fisika dari Royal Academy di London, Sir Charles Wheatstone, merumuskan prinsip-prinsip yang mendasari visi stereoskopik. Wheatstone juga menyajikan alat yang disebut stereoskop untuk persepsi kedalaman dari dua gambar. Hal ini mendorong pengamatan dan penemuan lebih lanjut; misalnya, jika gambar yang diamati dibalik maka persepsi kedalaman juga terbalik. Terinspirasi oleh stereoskop Wheatstone, pada tahun 1849 Sir David Brewster membangun versi

(2)

stereoskop berdasarkan prisma, dan pada tahun 1856 ia menerbitkan karyanya tentang prinsip-prinsip stereoskop (Cyganek dan Siebert, 2009).

Gambar 1.1Stereoskop Brewster (Cyganek dan Siebert, 2009)

Kebanyakan sistem pengenalan objek didasarkan pada evaluasi intensitas atau warna citra 2D. Ekstraksi fitur yang handal dari fitur 2D sulit dan memungkinkan berbagai kesalahan interpretasi (Hu et al., 2008; Azazi et al., 2015). Akurasi pengenalan pada sistem yang ada terbatas pada area kecil pengamatan. Penggunaan informasi tambahan 3D diharapkan dapat meningkatkan keandalan skema pengenalan, karena fitur biometrik yang andal diekstrak dari pengukuran 3D dan juga karena objek 3D relatif bebas dari pengaruh pencahayaan, bentuk dan posisi objek (Tsalakanidou dkk., 2003). Salah satu cara untuk mengeksploitasi informasi 3D dari karakteristik geometris objek adalah dengan membangun ''peta kedalaman'' objek (Tzovaras dkk., 1998). Peta kedalaman objek adalah fungsi yang diberikan untuk setiap piksel pada citra kedalaman dari titik 3D yang bersesuaian, yaitu jarak titik dari bidang kamera. Membangun peta kedalaman sebenarnya merupakan proses penentuan permukaan yang terlihat.

Pemodelan peta kedalaman dan pengenalan objek 3D berguna dalam banyak aplikasi seperti navigasi robot, teleoperation (telerobotik), ekstraksi fitur atau pemodelan pada virtual/augmented reality (Lipnickas dan Knyš, 2009). Pemodelan dan pengenalan objek 3D merupakan bagian penting dari tahapan untuk pengembangan robotik yang mampu mengoperasikan beragam aplikasi seperti otomatisasi proses manufaktur. Selain itu, pengembangan teknologi televisi 3D (Lee dan Ho, 2008), game 3D serta pengenalan objek (Islam dkk., 2012) merupakan aplikasi lain dari pemodelan dan pengenalan 3D.

(3)

Penelitian tentang pemodelan dan pengenalan objek 3D berupaya untuk menemukan informasi bentuk 3D secara utuh sebelum melakukan tugas pengenalan. Metode ini dikenal sebagai representasi berbasis objek. Pengenalan objek 3D telah banyak mendapat perhatian bagi penelitian visi komputer. Model berbasis sistem visi adalah pendekatan yang paling banyak digunakan untuk pengenalan bentuk atau objek (Cyganek dan Siebert, 2009). Pada tahap pengenalan, fitur yang diambil dari objek yang akan dikenal akan dicocokkan dengan fitur yang tersimpan sebelumnya dari model objek (Chen dan Bhanu, 2009).

Beberapa penelitian telah mengusulkan metode berbasis tampilan yang tidak bergantung pada model geometri yang telah ditentukan untuk pengenalan. Selain menggunakan model objek, pendekatan ini menggunakan model tampilan 2D. Pada teknik berbasis tampilan, objek 3D digambarkan dengan menggunakan serangkaian karakteristik tampilan 2D. Objek 3D dapat dikenali dari nilai intensitas awal pada citra 2D dengan menggunakan fungsi basis radial yang tergeneralisasi (Marr dan Poggio, 2007). Penelitian tersebut menunjukkan bahwa struktur 3D utuh dari sebuah objek dapat diperkirakan jika tampilan objek 2D cukup tersedia. Objek 3D juga dapat dikenali secara langsung dari ruang eigen parametrik dari penampilannya (Murase dan Nayar, 1995). Vektor eigen dihitung dari serangkaian gambar dari penampilan objek dalam berbagai pose.

Kerugian utama dari teknik berbasis tampilan adalah hilangnya informasi yang melekat dalam proyeksi dari objek 3D menjadi gambar 2D (Dutta dkk., 2004). Selain itu, citra 2D dari objek 3D tergantung pada faktor-faktor seperti sudut pandang kamera dan geometri pengamatan. Pendekatan berbasis tampilan 2D tunggal mungkin tidak sesuai untuk pengenalan objek 3D karena hanya satu sisi dari sebuah objek yang dapat dilihat dari setiap sudut pandang tertentu (Dutta et al., 2004; Kodge dan Hiremath, 2011). Salah satu solusi untuk masalah ini adalah dengan menggunakan beberapa tampilan 2D dari suatu objek. Hilangnya informasi yang melekat dalam 3D terhadap proses proyeksi gambar 2D,

(4)

representasi efektif sifat-sifat objek 3D menggunakan gambar 2D harus dipertimbangkan.

Pendekatan-pendekatan berdasarkan visi komputer yang telah dilakukan mampu mengestimasi informasi kedalaman dari citra yang diakuisisi dan mampu mengestimasi parameter kamera. Akan tetapi, masalah yang paling sulit dalam estimasi kedalaman dengan menggunakan teknik berbasis visi komputer ini adalah menemukan korespondensi kedua citra. Teknik berdasarkan visi komputer kurang sensitif terhadap lingkungan dan secara khusus membutuhkan pengaturan yang lebih sederhana dan sedikit mahal untuk pemahaman rentang. Sementara, cara lain yang dapat digunakan adalah teknik yang memanfaatkan laser dan penghantar ultrasonik. Teknik ini mampu mengiluminasi ruang kerja, sehingga teknik ini menghasilkan informasi kedalaman yang lebih cepat dan akurat. Namun, terdapat batasan pada teknik-teknik ini terkait rentang ukuran dan biaya perangkat keras (Baha dan Larabi, 2012). Untuk itu, pilihan yang lebih menarik adalah dengan mengkaji dan mengembangkan pendekatan-pendekatan berdasarkan visi komputer.

Pengenalan objek dan ektraksi fitur berdasarkan peta disparitas atau kedalaman telah dikembangkan dalam beberapa penelitian di antaranya adalah: ekstraksi fitur berdasarkan peta disparitas padat untuk penemuan kembali citra stereo (Orban dkk., 2006; Bertolini dan Ramat, 2007; Muñoz-Salinas dkk., 2008); pengenalan wajah yang dikembangkan berdasarkan informasi warna dan peta kedalaman (Zhang dan Cohen, 2002; Tsalakanidou dkk., 2003; Shi dan Shi, 2010; Ramalingam, 2013).

Usaha peningkatan kualitas peta disparitas juga banyak dilakukan pada tahapan praproses. Pada daerah pengenalan dimungkinkan untuk menentukan beberapa hal penting yang dapat menyebabkan evaluasi lebih kuantitatif. Sebuah benda yang ditunjukkan pada gambar yang berbeda dapat dikenali jika dalam semua gambar diberi label secara benar dan jika posisinya pada gambar yang berbeda diperkirakan dengan benar. Parameter lain yang bisa berkontribusi pada proses pengenalan objek adalah perkiraan yang benar dari bentuk maupun daerah

(5)

atau orientasi dari objek yang dikenali, tergantung pada kebutuhan sistem tertentu (Bertolini and Ramat, 2007). Untuk memperoleh label ataupun perkiraan bentuk, daerah maupun orientasi yang benar dapat dilakukan proses segmentasi. Pada metode-metode segmentasi yang telah dilakukan pada penelitian sebelumnya menunjukkan bahwa proses segmentasi dalam pembentukan peta disparitas dilakukan dengan mengikutsertakan seluruh elemen yang terdapat dalam citra baik objek maupun latarnya (Lee dan Ho, 2008; Bhavsar dan Rajagopalan, 2009; Liu dkk., 2009; Ho dan Kang, 2010; Baha dan Larabi, 2012). Oleh karena itu, untuk kasus dimana objek yang digunakan merupakan objek dengan skala kecil dan agar fitur objek lebih detail dapat dicapai maka diperlukan segmentasi citra yang lebih spesifik dalam pembentukan citra stereo atau citra disparitas. Segmentasi ini dilakukan dengan menghapus latarnya sehingga citra hanya terfokus pada objek yang akan dikaji. Dengan dilakukan tahapan segmentasi ini diharapkan mampu meningkatkan kualitas citra disparitas dari objek berskala kecil.

Penelitian-penelitian terdahulu tentang rekonstruksi objek 3D dilakukan pada objek-objek kaku (rigid) dengan daerah pengamatan yang luas di antaranya adalah penggunaan objek pesawat terbang untuk ekstraksi titik-titik dan kontur (Lee, 2010), penggunaan objek-objek pentagon, daerah urban, pot bunga, mountains, piramida, bangunan-bangunan dan pohon (Chaker dkk., 2015). Costa dkk. (2012) melakukan navigasi berdasarkan citra objek yang luas seperti lingkungan indoor dan outdoor. Hu dkk. (2008) melakukan evaluasi rekonstruksi objek 3D tanaman dan pohon dari citra 2D, visualisasi stereoskopik organ tubuh manusia dari citra lataroskopik (Kumar et al., 2014). Berdasarkan penelitian-penelitan yang telah dilakukan, objek yang banyak digunakan adalah objek wajah yang merupakan objek rigid di antaranya adalah ekstraksi fitur statistik dari bentuk kepala manusia atau objek wajah (Elhachloufi dkk., 2010; Ramalingam, 2013), pengenalan otomatis ekspresi wajah (Azazi et al., 2015). Sementara itu, tidak semua objek yang ditemukan di alam ini bersifat rigid. Pengenalan objek-objek non rigid berdasarkan citra objek-objek yang diambil secara bebas dengan menggunakan kamera biasa merupakan permasalahan yang sulit. Kesulitan terjadi

(6)

karena kedudukan fitur secara detail pada objek non rigid ini tidak tampak secara jelas, terlebih pada objek dengan area pengamatan kecil. Hal ini disebabkan objek non rigid memiliki sifat rentan mengalami perubahan terhadap lingkungan. Penelitian tentang pengenalan objek 3D pada objek-objek non rigid dan dalam area pengamatan kecil ini belum ditemukan. Untuk mengatasi permasalahan ini, perlu dilakukan rekonstruksi dan manipulasi pemrosesan citra berdasarkan objek 3D non rigid. Dengan melakukan rekonstruksi objek 3D non rigid dalam area pengamatan kecil ini diharapkan dapat menghasilkan peta kedalaman atau citra disparitas yang lebih baik. Selanjutnya, citra disparitas ini dapat digunakan untuk meningkatkan akurasi pengenalan objek.

Transformasi perataan pada permukaan tidak teratur atau melengkung pada objek non rigid juga perlu dilakukan sebelum fitur diamati dan dicocokkan dengan model objek 3D (Zigelman dkk., 2002). Tujuan dari proses perataan adalah melakukan transformasi titik-titik pada permukaan bidang lengkung di dalam ruang 3D dari suatu objek ke dalam permukaan bidang datar. Proses perataan ini tidak perlu dilakukan untuk semua objek dan hanya digunakan pada objek non rigid yang memiliki bentuk dasar yang jelas. Transformasi perataan ini dilakukan dengan asumsi dapat mempertahankan objek non rigid terhadap bentuk dasarnya. Transformasi perataan ini berbeda halnya dengan transformasi citra stereo. Pada transformasi citra stereo, dua citra 2D (citra kiri dan kanan) diubah ke dalam sebuah citra disparitas yang memiliki persepsi kedalaman. Sementara pada transformasi perataan permukaan objek 3D yang diusulkan, dilakukan perubahan permukaan objek non rigid yang diperoleh dari citra disparitas yang telah dibangun sebelumnya ke dalam objek dengan permukaan datar.

Berbagai objek non rigid dapat ditemukan, diantaranya adalah daun tanaman dan kain. Sebagai proof of concept dari proses rekonstruksi objek 3D yang diusulkan maka pengujiannya akan dilakukan pada objek daun tanaman. Pemilihan daun sebagai objek dalam rekonstruksi 3D non rigid dikarenakan daun merupakan objek yang dapat digunakan dalam pengenalan tanaman, yang sejauh ini merupakan tugas yang sulit (Wang et al., 2009). Hal ini terbukti pada

(7)

penelitian-penelitian terdahulu tentang pengenalan atau klasifikasi tanaman berdasarkan daun yang telah banyak dilakukan (lihat Tabel 1.1).

Tabel 1.1 Akurasi Beberapa Metode Untuk Pengenalan Daun

No Banyak

Kelas

Metode Clasifier Akurasi

Chaki dan Parekh (2011)

3 spesies - Moment Invarian (MI): 4 momen pusat

ternormalisasi pertama - Centroid-Radii (CR) : 36 jari-jari pada sudut 10 derajat pemisahan Neural Network 90%-100% Singh dkk. (2011)

4 spesies Hu's Seven Moment Invariants dan Generic Fourier Moment 50,75% dan 72,04% (Kadir dkk., 2011a) 32 spesies Flavia Geometric Features, Moment Invariants, Zernike Moments, and PFT MI= 30%; ZM=18,8%; PFT = 64%; PFT+MI=62% (Kadir dkk., 2011b) 32 spesies Flavia PFT + 3 fitur geometri + rerata warna + standar deviasi warna + skewness warna + 12 fitur tekstur + 3 fitur vein

PNN 93,75% (Pornpano mchai, 2011a) 30 spesies

8 Fitur daun dan bunga Euclidian distance 76,8% daun 74% daun + bunga (Pornpano mchai, 2011b) 32 spesies

13 fitur morfologi dan warna

KNN 93,29%

Meskipun pada penelitian sebelumnya, hasil akurasi yang diperoleh cukup tinggi yakni hingga 100%, akan tetapi nilai tersebut dapat diperoleh karena beberapa faktor yang di antaranya adalah pertama, banyaknya jenis tanaman yang dikenali cukup sedikit. Chaki dan Parekh (2011) dan Venkatesh dan Raghavendra (2011) hanya mengidentifikasi 3 jenis tanaman, Singh dkk. (2011) mengidentifikasi 4 jenis tanaman, Kedua, jenis tanaman yang dikenali cenderung memiliki karakteristik berbeda. Pornpanomchai (2011b) dan Kadir dkk. (2011b)

(8)

mengidentifikasi 32 jenis herbal yang mempunyai ciri bentuk relatif berbeda. Ketiga, seluruh objek daun pada citra input memiliki posisi kedudukan yang sama. Keempat, menggunakan citra 2D sebagai citra masukan.

Sifat objek non rigid seperti daun yang memiliki variasi bentuk dan mudah berubah terhadap pengaruh lingkungan memberikan kesulitan yang lebih tinggi untuk ekstraksi dan pengenalan. Untuk itu, perlu dilakukan pengembangan proses pengenalan berdasarkan citra 3D yang memungkinkan dalam mempertahankan informasi objek nyata. Untuk membangun citra 3D ini dapat dilakukan dengan konsep beberapa tampilan 2D dari suatu objek. Salah satu solusi untuk masalah ini adalah dengan menggunakan kamera stereo.

1.2 Perumusan Masalah

Berdasarkan latar belakang di atas, dapat dirumuskan permasalahan pada penelitian ini adalah bagaimana merekonstruksi dan melakukan transformasi perataan permukaan sehingga dapat mempertahankan informasi bentuk dasar objek 3D non rigid dalam area pengamatan kecil berdasarkan citra stereo.

1.3 Batasan Masalah

Adapun batasan masalah yang diberikan pada penelitian ini adalah sebagai berikut:

1. Citra stereo diperoleh dengan menggunakan kamera stereo dengan spesifikasi dua lensa 10 MP dan resolusi hingga 3584 x 2016 piksel. 2. Objek yang digunakan untuk proses rekonstruksi dan pengujian objek 3D

non rigid adalah daun varietas tanaman kelengkeng yang diambil dalam beberapa posisi kedudukan atau sudut pandang, yakni frontal, roll (miring atas dan miring bawah) dan yaw (miring kanan dan miring kiri).

1.4 Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah melakukan rekonstruksi objek 3D non rigid dalam area pengamatan kecil dan transformasi perataan permukaan objek 3D berdasarkan citra stereo.

(9)

1.5 Manfaat Penelitian

Manfaat penelitian ini adalah terbentuknya model rekonstruksi dan transformasi perataan permukaan objek 3D non rigid berdasarkan citra stereo yang dapat digunakan dalam meningkatkan akurasi pengenalan objek.

1.6 Kontribusi Penelitian

Pada penelitian ini terdapat beberapa kontribusi penelitian, di antaranya adalah sebagai berikut:

1. Pada Input Citra

Citra yang digunakan merupakan citra dari objek non rigid dan memiliki skala kecil, yang diperoleh dengan menggunakan kamera stereo 3D dan ditangkap dengan variasi sudut pandang.

2. Pada Praproses

Pada umumnya proses pembentukan citra disparitas menggunakan informasi keseluruhan dari citra, namun pada penelitian ini dilakukan segmentasi antara citra objek dengan latar, dimana latar akan dihapus dari citra.

3. Pada Desain dan Proses

Pada penelitian ini diusulkan model baru dari transformasi perataan permukaan objek 3D non rigid.

1.7 Sistematika Penulisan

Penulisan disertasi ini dibagi ke dalam 7 bab. Masing-masing bab dapat diuraikan sebagai berikut:

Bab I. Pendahuluan: berisikan gambaran tentang konsep stereo serta kaitannya

dengan rekonstruksi tiga dimensi, peta disparitas dan peta kedalaman untuk pemodelan dan pengenalan objek 3D. Selanjutnya, dijelaskan tentang aplikasi dan pentingnya pemodelan dan pengenalan objek 3D berdasarkan citra stereo. Juga ditunjukkan beberapa penelitian sebelumnya yang telah dilakukan berkaitan dengan proses rekonstruksi citra stereo, ekstraksi fitur berdasarkan peta disparitas/kedalaman, transformasi

(10)

geometri citra stereo. Terakhir, diusulkan pengembangan model rekonstruksi dan transformasi tiga dimensi serta model pengenalan berdasarkan hasil rekonstruksinya. Pada bab ini juga berisikan rumusan masalah, batasan masalah, tujuan masalah, manfaat penelitian dan kontribusi penelitian.

Bab II. Tinjauan Pustaka: berisikan pustaka berupa hasil-hasil penelitian yang

berkaitan dengan pemodelan atau rekonstruksi tiga dimensi, ekstraksi fitur dan pengenalan berdasarkan peta disparitas/kedalaman, model-model transformasi perataan permukaan objek 3D.

Bab III. Landasan Teori: berisikan teori-teori yang berkaitan dengan bidang visi

komputer, teknik ekstraksi fitur dan pengenalan objek, seperti: computer vision, stereo vision, korespondensi citra, peta disparitas/kedalaman, CBIR, ekstraksi fitur tekstur.

Bab IV. Model Rekonstruksi dan Pengenalan Citra Stereo 3D: berisikan bahan

dan alat yang digunakan dalam percobaan penelitian, prosedur dan pengumpulan data penelitian, skema penelitian yang diusulkan. Skema penelitian yang diusulkan terdiri atas 3 bagian, yakni: rekonstruksi 3D dari citra tersegmentasi, ekstraksi dan pengenalan objek 3D, dan transformasi perataan permukaan objek 3D non rigid.

Bab V. Implementasi Model: berisikan implementasi dan hasil implementasi

setiap tahapan skema penelitian. Implementasi tersebut terdiri atas 3 bagian, yakni: implementasi tahapan rekonstruksi 3D dari citra tersegmentasi, implementasi tahapan ekstraksi dan pengenalan objek 3D, dan implementasi tahapan transformasi perataan permukaan objek 3D non rigid.

Bab VI. Hasil dan Pembahasan: berisikan hasil-hasil akhir penelitian dan

analisisnya. Hasil dan pembahasan model terdiri atas 3 bagian, yakni: hasil dan pembahasan dari rekonstruksi 3D dari citra tersegmentasi, hasil dan pembahasan dari ekstraksi dan pengenalan objek 3D, dan hasil dan

(11)

pembahasan dari transformasi citra 3D beserta aplikasinya untuk pengenalan objek 3D.

Bab VII. Kesimpulan dan Saran: berisikan kesimpulan dari hasil penelitian yang

(12)

Adapun diagram tahapan penulisan disertasi ini dapat dilihat pada Gambar 1.2.

Deskripsi tentang konsep stereo (rekonstruksi 3D, peta disparitas

dan peta kedalaman) untuk pemodelan dan pengenalan 3D.

Aplikasi dan pentingnya pemodelan dan pengenalan objek

3D berdasarkan citra stereo. Beberapa penelitian sebelumnya

yang telah dilakukan berkaitan dengan proses rekonstruksi citra stereo, ekstraksi fitur berdasarkan

peta disparitas/ kedalaman, transformasi geometri citra stereo.

Rumusan masalah, batasan masalah, tujuan masalah, manfaat

penelitian dan kontribusi penelitian. Bab I. Pendahuluan

Skema Penelitian

Bab IV. Model Rekonstruksi dan Pengenalan Citra Stereo 3D

Pengembangan model transformasi perataan objek 3D

Akuisisi: Bahan dan alat percobaan penelitian, serta prosedur dan pengumpulan

data

Pengembangan model rekonstruksi 3D Pengembangan model ekstraksi dan

pengenalan objek 3D

Bab VII. Kesimpulan dan Saran Kesimpulan

Saran Penelitian tentang pemodelan atau

rekonstruksi tiga dimensi Bab II. Tinjauan Pustaka

Penelitian tentang ekstraksi fitur dan pengenalan berdasarkan peta

disparitas atau kedalaman Penelitian tentang pemodelan dan pengenalan citra stereo dari objek

seperti daun.

Computer vision Bab III. Landasan Teori

Stereo vision Peta disparitas/kedalaman

Ekstraksi fitur tekstur

Bab V. Implementasi Model Implementasi tahapan dari rekonstruksi 3D

dari citra tersegmentasi Implementasi tahapan dari ekstraksi dan

pengenalan objek 3D

Implementasi tahapan dari transformasi perataan objek 3D

Bab VI. Hasil dan Pembahasan Hasil dan pembahasan dari proses rekonstruksi 3D dari citra tersegmentasi Hasil dan pembahasan dari proses ekstraksi

dan pengenalan objek 3D Hasil dan pembahasan dari proses

transformasi perataan objek 3D

Gambar 1.2 Sistematika Penulisan Penelitian