Rekonstruksi Model 3D dari Set Citra Menggunakan Metode SFM-MVS dan Algoritma Poisson

(1)

Rekonstruksi Model 3D dari Set Citra Menggunakan Metode SFM- MVS dan Algoritma Poisson

Giri Hanbudi^*, Esa Fauzi

Fakultas Teknik Program Studi Informatika, Universitas Widyatama, Bandung, Indonesia Email: ¹[email protected], ²[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Industri kreatif digital tumbuh secara masif dan sangat cepat. Penggunaan teknologi 3D di berbagai bidang industri juga semakin diminati seperti contohnya pada industri manufaktur, film, dan animasi. Pada suatu scene tertentu, umumnya 3D generalist akan membuat model 3D yang menyerupai model real pada dunia nyata yang biasanya digunakan sebagai properti pada scene 3D tersebut seperti aksesoris, furniture, wardrobe, dan lain sebagainya. Proses pemodelan model 3D yang dilakukan secara manual oleh seorang 3D generalist merupakan serangkaian proses yang panjang dan membutuhkan waktu yang lama dalam prosesnya, dimana proses tersebut pada umumnya meliputi 3d layouting, 3d modeling, dan 3d texturing. Melalui proses rekonstruksi model 3D ini, model 3D dapat diperoleh dengan cepat, murah, dan efisien. Proses ini dapat dilakukan melalui beberapa tahapan dengan menggunakan set citra dari suatu model yang akan direkonstruksi. Beberapa pendekatan dapat digunakan dalam proses rekonstruksi model 3D ini. Pada paper ini akan menggunakan metode Structure From Motion (SFM) dan Multi-View Stereo (MVS) untuk mendapatkan informasi sparse dan dense point cloud pada citra, dilanjutkan dengan proses Surface Reconstruction menggunakan Algoritma Poisson untuk mendapatkan triangle mesh dari bentuk benda yang sebenarnya. Kemudian proses refinement pada hasil triangle mesh dilakukan guna mendapatkan hasil yang lebih maksimal.

Melalui kombinasi dari metode ini, berhasil mendapatkan model 3D yang detail dan cukup akurat dengan objek real yang diamati.

Kata Kunci: Rekonstruksi 3D; Structure From Motion (SFM); Multi-View Stereo (MVS); Surface Reconstruction; Sparse Point Cloud; Dense Point Cloud

Abstract−The digital creative industry is growing massively and very fast. The use of 3D technology in various industrial fields is also in demand, for example in the manufacturing, film, and animation industries. In a certain scene, generally 3D generalists will create a 3D model that resembles a real model in the real world which is usually used as a property in the 3D scene such as accessories, furniture, wardrobes, and so on. The process of modeling 3D models manually by a 3D generalist is a long process and requires a long time in the process, where the process generally includes 3d layouting, 3d modeling, and 3d texturing. Through this 3D model reconstruction process, 3D models can be obtained quickly, cheaply, and efficiently. This process can be carried out through several stages using a set of images from a model to be reconstructed. Several approaches can be used in this 3D model reconstruction process. In this paper, we will use the Structure From Motion (SFM) and Multi- View Stereo (MVS) methods to obtain information on the sparse and dense point clouds in the image, followed by The Surface Reconstruction process using the Poisson Algorithm to obtain a triangle mesh from the actual shape of the object. The refinement process on the triangle mesh results is carried out in order to get maximum results. Through a combination of these methods, we managed to get a detailed and accurate 3D model with the real object being observed.

Keywords: 3D Reconstruction; Structure From Motion (SFM); Multi-View Stereo (MVS); Surface Reconstruction; Sparse Point Cloud; Dense Point Cloud

1. PENDAHULUAN

Seiring dengan kemajuan teknologi industri kreatif digital tumbuh dengan sangat pesat, yakni salah satunya pemanfaatan teknologi software 3D. Pemanfaatan teknologi 3D ini banyak digunakan diberbagai bidang industri seperti industri manufaktur, industri film, industri game, dan lain sebagainya. Sebagai contoh, pemanfaatan teknologi 3D printing untuk membuat miniatur atau action figure, atau penggunaan model 3D pada pembuatan poster dan film dan masih banyak lagi. Pemanfaatan software 3D semakin berjamuran dan kebutuhan akan model 3D semakin bertambah pesat. Dalam proses pembuatan model 3D untuk menghasilkan scene tertentu, umumnya 3D generalist akan membuat model 3D yang menyerupai objek real pada dunia nyata yang biasanya digunakan sebagai properti pada scene 3D tersebut seperti aksesoris, furniture, wardrobe, dan lain sebagainya. Proses pemodelan model 3D yang dilakukan secara manual oleh seorang 3D generalist merupakan serangkaian proses yang panjang dan membutuhkan waktu yang lama dalam prosesnya, dimana proses tersebut pada umumnya meliputi 3d layouting, 3d modeling, dan 3d texturing.

Rekonstruksi 3D menjadi solusi untuk meniru objek real di dunia nyata ke dalam bentuk digital tiga dimensi . Rekonstruksi 3D merupakan salah satu dari inti dari bidang computer vision, bagaimana teknik visual yang terjadi pada manusia, dan bagaimana komputer memahami dan memproses informasi ini dalam persepsi ruang 3D mengenai volume dari suatu benda atau objek yang diamati. Melalui Rekonstruksi 3D, komputer dapat menentukan profil data dalam bentuk tiga dimensi suatu objek dan menghasilkan model triangle mesh [1] yang memiliki bentuk dan volume menyerupai objek fisik yang sedang diamati.

Rekonstruksi 3D dengan set citra memiliki 2 metode yang berbeda berdasarkan interaksinya terhadap objek yang diamati, yaitu metode aktif dan pasif. Dalam penelitian ini, kami menggunakan metode Structure From Motion (SFM) [2], dimana metode ini merupakan salah satu bagian dari metode pasif. Melalui metode ini, nantinya parameter kamera (camera pose) akan diperoleh dalam ruang 3D, selain itu diperoleh informasi sparse point cloud

(2)

pada setiap citra untuk pengolahan lebih lanjut. Kami menggunakan metode Incremental SFM, yakni Bundler.

Berdasarkan penelitian yang dilakukan oleh Simone Bianco dkk yang berjudul “Evaluating the Performance of Structure from Motion Pipelines” [3], Bundler merupakan salah satu Pipeline Incremental SFM yang berhasil dalam melakukan generasi sparse point cloud dengan baik pada set citra. Selain itu, dalam penerapannya metode Incremental SFM lebih konsisten terutama untuk melakukan pemrosesan pada large-scene (objek yang diamati memiliki ukuran yang sangat besar) [4].

Proses selanjutnya adalah memperoleh informasi data dense point cloud melalui metode Multi-View Stereo (MVS), dimana prosedur ini dapat menghasilkan point cloud yang sangat detail melalui kumpulan citra dari objek yang sedang diamati. Proses MVS bertujuan untuk merekonstruksi objek 3D secara lengkap dengan memperkirakan depth-map pada citra yang saling tumpang tindih. MVS dibagi menjadi beberapa metode berdasarkan klasifikasinya seperti metode voxel-based, metode surface evolution, metode features point development, dan metode depth-map merging based [5]. Kami menggunakan Patch-based Multi-View Stereo (PMVS) sebagai metode yang berbasis pada feature grow based yang dikembangkan oleh Yasutaka Furukawa [6].

Shao dkk menjelaskan bahwa metode ini dapat menghasilkan dense point cloud yang rapat dan terdistribusi dengan baik [7].

Proses selanjutnya adalah tahap Surface Reconstruction. Proses ini merupakan tahapan lebih lanjut setelah informasi data dense point cloud berhasil diperoleh melalui tahapan sebelumnya dari proses MVS yang telah dilakukan sebelumnya, dimana informasi data dense point cloud tersebut diolah dan menghasilkan objek 3D yang solid (triangle mesh) yang dapat digunakan untuk keperluan industri lebih lanjut. Terdapat beberapa algoritma Surface Reconstruction yang telah dikemukakan sebelumnya antara lain adalah Algoritma Wavelet, RBF, IMLS, Fourier, MPU, SPSS, dan APSS [8]. Dua algoritma yang paling populer yang digunakan dalam proses Surface Reconstruction adalah Algoritma Ball-Pivoting [9] dan Algoritma Poisson. Dalam penelitian ini, Algoritma Poisson digunakan pada proses Surface Reconstruction. Menurut Michael Kazhdan dkk Poisson Surface Reconstruction dapat memperoleh objek 3D yang bersifat watertight (tidak memiliki lubang pada objek 3D atau dalam artian semua vertex pada mesh saling terhubung satu sama lain) dengan perbedaan antara arah normal yang direkonstruksi dan titik 3D pada Point Cloud[10].

Menurut paper yang dipublish oleh Youcheng Cai dkk dengan judul “An End-to-End Approach to Reconstructing 3D Model From Image Set”, menggunakan gabungan metode SFM-PMVS dan PSR ini dapat menghasilkan model 3D berkualitas tinggi dengan texture koordinat secara otomatis dan akurat [11]. Dalam implementasinya dari metode tersebut, terdapat beberapa bagian dari hasil triangle mesh yang tidak diperlukan.

Maka dari itu, setelah melalui proses PSR (Poisson Surface Reconstruction) kami melakukan proses mesh refinement, dengan melakukan surface trimming dari hasil triangle mesh melalui proses sebelumnya guna mendapatkan hasil yang lebih baik lagi.

2. METODOLOGI PENELITIAN

2.1 Studi Literatur

Bab ini akan menjelaskan secara singkat metodologi terkait yang diterapkan pada penelitian yang dilakukan. Bab ini juga akan menjelaskan metode alternatif terkait dan tujuan memilih metode yang kami gunakan.

2.1.1 Structure From Motion

Structure From Motion (SFM) adalah teknik untuk memperkirakan struktur 3D dari sekumpulan citra yang membentuk gerakan (citra yang bersifat tumpang tindih) atau dalam arti memiliki beberapa feture point yang cocok antar citra-citra tersebut sehingga set citra tersebut dapat diproses. Tahapan ini merupakan bagian terpenting dalam melakukan proses rekonstruksi 3D untuk menghasilkan model yang akurat.

SFM merupakan serangkaian Image Processing seperti Features Detection, Features Matching, Triangulation, dan Bundle Adjustment. Proses ini membutuhkan parameter Intrinsik dan Ekstrinsik dari kamera.

Parameter intrinsik biasanya tercantum dalam spesifikasi kamera tetapi dalam kasus tertentu di mana informasi exif dari set citra tidak diketahui, maka untuk menentukan parameter intrinsik kamera dapat dilakukan proses Camera Calibration untuk mencapai tujuan tersebut [12]. Metode Camera Calibration yang cukup populer adalah metode Chessboard Detection [13]. Hal ini dapat dilakukan dengan mendeteksi pola papan catur pada sekumpulan citra dengan jarak dan sudut yang berbeda. Proses ini hanya perlu dilakukan sekali pada parameter kamera (informasi exif) yang tidak diketahui.

Seperti yang telah disebutkan sebelumnya, terdapat 2 jenis SFM, kedua metode ini memiliki cara yang berbeda dalam melakukan proses Camera Registration. Incremental SFM akan meregistrasi kamera satu per satu, di sisi lain, Global SFM meregistrasi kamera secara bersamaan melalui gerakan relatif dari kumpulan citra. Global SFM memiliki akurasi rekonstruksi yang lebih baik, tetapi terdapat beberapa tantangan dalam menerapkan Global SFM, hal tersebut dikarenakan Global SFM tidak dapat digunakan jika data tidak bersifat parallel-rigid, dan Global SFM sulit untuk memproses noisy data, yang dapat menyebabkan dampak yang sangat besar pada hasil sparse point cloud. Hal tersebut dapat karenakan adanya kesalahan pada satu atau lebih proses feature matching

(3)

menginisialisasi struktur (feature point pada ruang 3D) dan kemudian secara bertahap menambahkan struktur tersebut melalui kamera lain dari citra yang parameter ekstrinsiknya diketahui [15].

2.1.2 Muti-View Stereo

Multi-View Stereo (MVS) adalah proses untuk merekonstruksi dense point cloud dari point kamera yang telah diketahui sebelumnya. Metode MVS ini mengoptimalkan posisi dan vektor normal dari model patch untuk memperkirakan geometri piksel target. Metode ini bekerja dengan meniru apa yang terjadi ketika manusia melihat suatu objek dengan kedua matanya dan melakukan depth estimation dalam ruang 3D. Karena citra yang diambil dari setiap mata memiliki sedikit perbedaan, maka dimungkinkan untuk memperkirakan jarak ke objek yang diamati melalui perbedaan ini.

Terdapat berbagai macam klasifikasi metode MVS seperti voxel-based, surface evolution-based, depth map merging-based, dan feature point growing based. Metode voxel-based membagi ruang menjadi potongan- potongan grid dan memperkirakan grid yang terisi. Metode ini biasanya membutuhkan memori yang besar karena representasi volumetrik [16]. Metode surface evaluation-based secara iteratif memperkirakan bentuk awal objek untuk meningkatkan akurasi pengukuran konsistensi citra. Metode ini membutuhkan perkiraan bentuk awal yang akurat untuk menghasilkan point cloud yang maksimal, sehingga sulit untuk dilakukan dalam pemrosesan large- scene. Metode depth map merging based bekerja dengan menghitung depth map dari citra stereo, depth map yang dihitung sebelumnya digabungkan untuk menghasilkan model 3D. Metode ini membutuhkan tingkat ketelitian yang tinggi dalam perhitungan depth map sehingga proses penggabungan depth map dapat dilakukan [17]. Metode feature point growth based bekerja dengan cara merekonstruksi dari area yang memiliki tekstur, kemudian dilanjutkan ke area tanpa tekstur. Furukawa mempresentasikan metode SOTA MVS (State of The Art Multi-View Stereo) yang disebut Patch-based MVS (PMVS) dimana metode ini dimulai dengan menentukan seed patch (patch awalan) dengan merekonstruksi sekumpulan matched key point yang cocok dan kemudian secara iteratif memperluas patch tersebut [18].

PMVS cukup populer dalam metodologi MVS karena memiliki tingkat akurasi yang tinggi. Metode ini bekerja dengan melakukan feature matching, perluasan patch, dan filtrasi patch. Metode PMVS memiliki beberapa keunggulan [7], antara lain:

a. Hasil dense point cloud yang padat, seed point yang diperoleh dalam proses pencocokan feature diperluas pada langkah kedua PMVS

b. Point cloud terdistribusi dengan baik, metode PMVS mencoba merekonstruksi setidaknya satu patch di setiap sel citra dengan x piksel,

c. Hasil point cloud akurat mengingat penggunaan metode Nelder-Mead pada metode PMVS untuk mengoreksi setiap patch pada model rekonstruksi dan proses outlier filtering.

2.1.3 Surface Reconstruction

Surface Reconstruction adalah proses untuk menghasilkan triangle mesh. Metode ini mengacu pada langkah mendefinisikan bentuk triangle mesh dan hubungan antara titik-titik (vertex) dalam model melalui parameter input dense point cloud. Beberapa algoritma yang banyak digunakan termasuk Ball Pivoting dan Poisson Surface Reconstruction. Keduanya bekerja dalam merekonstruksi dense point cloud menjadi model triangle mesh.

Algoritma Ball Pivoting bekerja dengan cara menentukan triangle mesh awal pada objek kemudian membentuk edge dengan titik baru disekitarnya melalui radius spherical yang terus diperluas untuk mencari titik lainnya dan hal ini dilakukan berulang-ulang sampai semua titik pada point cloud dikalkulasi. Akibatnya, algoritma ini rentan terhadap noise, atau pemindaian titik-titik yang salah di sekitar model. Selain itu, algoritma ini membutuhkan banyak waktu dan memori.

Poisson Surface Reconstruction (PSR) menggunakan persamaan Poisson, metode ini membutuhkan orientasi normal ke titik cloud. Hal ini karena metode ini mengurangi perbedaan antara orientasi normal triangle mesh yang direkonstruksi dan orientasi normal titik lain di titik cloud. Metode ini dapat membuat model 3D dengan permukaan yang bersifat watertight [19].

(4)

2.2 Tahapan Metodologi

Gambar 1. Proses Rekonstruksi Model 3D

Gambar 1 menunjukkan alur Rekonstruksi Model 3D secara keseluruhan yang dilakukan dalam penelitian ini. Dalam penerapannya, rangkaian metode ini membutuhkan set citra dari suatu objek real yang akan direkonstruksi. Kemudian dilakukan ekstraksi informasi exif dari set citra tersebut. Bundler digunakan dalam tahap Structure From Motion (SFM) guna memperoleh data sparse point cloud dan camera pose dari set citra. Bundler menggunakan metode Incremental SFM [20] dalam implementasinya. Pada tahap ini, bundler juga menyiapkan data-data yang diperlukan untuk diproses lebih lanjut pada tahap selanjutnya, seperti proses downscale citra dan konversi feature ke dalam format David Lowe. Berikut adalah metodologi SFM [3] yang terjadi pada Bundler:

a. Feature Detection: Algoritma SIFT (Scale Invariant Fourier Transform) [21] digunakan untuk mendeteksi feature pada citra. Berbeda dengan Algoritma Harris [22] yang bergantung pada parameter citra seperti sudut pandang, kedalaman, dan skala pada citra, SIFT dapat mendeteksi feature secara mandiri dengan mengubah data citra menjadi koordinat scale-invariant. Algoritma ini bekerja melalui 4 tahapan, yakni proses scale space constructing untuk menyelesaikan permasalahan skala citra yang berbeda, keypoint localisation untuk melakukan identifikasi keypoint yang sesuai, orientation assignment untuk memastikan feature merupakan rotation invariant, dan proses keypoint descriptor untuk memberikan unique fingerprint ke setiap feature.

Gambar 2. Ilustrasi Features Detection

b. Feature Matching: Feature matching adalah proses untuk menemukan feature yang sesuai dari dua citra yang memiliki feature serupa. Algoritma ini didasarkan pada perbandingan dan analisis korespondensi koordinat

(5)

Gambar 3. Ilustrasi Features Matching

c. Robust Estimation: RANdom Sample Consensus (RANSAC) [23] digunakan untuk mengestimasi model dari kumpulan feature yang mengandung outlier. Algoritma RANSAC bekerja dengan cara mengidentifikasi outlier pada sekumpulan data dan mengestimasi model yang diinginkan menggunakan data yang tidak mengandung outlier. Proses ini berfungsi untuk menghilangkan outlier pada matches feature.

d. Pose Estimation: Pose Estimation [24] digunakan untuk memprediksi dan melakukan tracking lokasi objek dalam citra dengan melihat kombinasi pose dan orientasi objek tertentu. Pada tahap ini akan dihasilkan parameter ekstrinsik kamera dari setiap citra menggunakan Algoritma Eight-Point.

e. Image Registration: Direct Linier Transformation (DLT) [25] digunakan dalam proses Image Registration [26]

untuk menyelaraskan beberapa citra menjadi satu citra terintegrasi, dan memecahkan masalah seperti rotasi, skala, dan kemiringan pada citra yang tumpang tindih.

f. Triangulation: Triangulation adalah proses menemukan perpotongan dua garis dalam suatu ruang. Proses triangulation [27] dalam SFM menentukan titik (koordinat) dalam ruang 3D dari setiap matches feature.

Koordinat 3D dapat direkonstruksi melalui proses proyeksi perspektif dari posisi dan orientasi relatif yang diketahui dari kedua kamera.

g. Bundle Adjustment: Bundle Adjustment [28] adalah proses terakhir dan berperan penting dalam proses SFM.

Proses Bundle Adjustment bertujuan untuk menyempurnakan camera pose dan sparse point cloud dengan meminimalkan kesalahan proyeksi ulang karena proses feature matching yang tidak tepat.

Tahap selanjutnya adalah mendapatkan data dense point cloud melalui metode Multi-View Stereo (MVS), dimana kami menggunakan metode Patch-based Multi-View Stereo (PMVS) [4]. PMVS adalah serangkaian proses pencocokan, perluasan, dan filtrasi model Patch. Patch banyak digunakan dalam algoritma MVS dan memiliki kinerja yang baik dalam proses rekonstruksi dense point cloud. Patch adalah penggambaran tiga dimensi dari bidang mikro (area datar persegi kecil) yang digunakan untuk memperkirakan permukaan objek sebenarnya yang sedang diamati [29]. Metode ini mencakup beberapa langkah, sebagai berikut:

a. Inisialisasi Patch: Proses inisialisasi patch ini mencakup inisialisasi parameter secara berurutan seperti titik pusat global (scene) yang dinyatakan sebagai c(p), titik proyeksi citra n(p) normal V*(p), dan referensi citra R(p). Proses ini meliputi proses pendeteksian feature menggunakan Algoritma Difference of Gaussian (DoG) dan Algoritma Harris. Kemudian dilanjutkan dengan proses feature matching dan proses triangulasi dari match point sebagai seed patch yang paling memungkinkan [30].

b. Ekspansi Patch: Dengan menghubungkan citra dengan sel grid, tahap ini memperluas patch dari patch awal untuk menutupi sebanyak mungkin permukaan model dengan ukuran × (β = 2) pixel2 di mana sel grid direpresentasikan sebagai patch baru, kemudian patch tersebut disebarkan ke sel lain yang berdekatan (neighbor cell) untuk menghasilkan patch yang seragam [31].

c. Patch Filtration: proses ekspansi patch akan menghasilkan outlier patch (noise pada patch). Oleh karena itu proses filtrasi patch merupakan langkah penting untuk menyaring outlier patch untuk mendapatkan point cloud yang lebih akurat [11].

Proses selanjutnya adalah Surface Reconstruction menggunakan algoritma PSR. Metode ini terkenal dengan kemampuannya dalam menangani data yang salah (noisy data). Selain itu, Algoritma Poisson bekerja secara global, yang dalam pemrosesannya mempertimbangkan semua data sekaligus, tanpa menggunakan partisi atau pencampuran heuristik [10]. Oleh karena itu melalui PSR dapat menciptakan permukaan yang halus. Sampai sini, untuk mendapatkan model yang lebih baik, kami menambahkan proses refinement pada model 3D. Dimana proses tersebut merupakan proses surface trimming pada triangle mesh. Pada tahap ini, digunakan Surface Trimmer dari adaptive solvers yang dikemukakan oleh Kazhdan dkk yang bertujuan untuk menghilangkan bagian- bagian permukaan yang direkonstruksi di mana estimasi density-depth lebih kecil dari treshold yang ditentukan, sehingga memungkinkan untuk menghasilkan permukaan objek yang diperlukan saja [32].

(6)

3. HASIL DAN PEMBAHASAN

Kami telah melakukan pengujian sistem terhadap metode rekonstruksi objek 3D yang ditentukan sebelumnya menggunakan beberapa dataset melalui kamera handphone Realme RMX1971 dengan spesifikasi sebagai berikut:

Tabel 1. Spesifikasi Kamera

Spesifikasi Detail

Hardware sp2509v_holitech imx471_truly imx586_sunny gc2375h_holitech hi846_sunny

Resolusi 12.0 MP (4000x3000)

Aperture f/1.8

Focal Length 4.73 mm Adapun dataset yang kami uji coba adalah sebagai berikut :

Tabel 2. Hasil Waktu Kompilasi Dari Dataset Dataset Jumlah Citra Compile Time (s)

Total (s)

SFM MVS PSR

Penyerut Pensil 12 151 41 4 196

Sweater 24 471 75 2 548

Dompet 35 712 128 5 845

Mug 24 734 127 3 864

Patung Kelinci 62 1736 381 5 2122

Pengujian menggunakan beberapa dataset dengan menggunakan kamera yang telah ditentukan yang tertera pada Tabel 1 untuk mengamati objek tertentu seperti yang tercantum pada Tabel 2. Setiap dataset memiliki jumlah citra yang berbeda dan membutuhkan waktu kompilasi yang berbeda. Setiap citra secara berurutan memiliki resolusi yang besar (3000x4000 piksel seperti yang disebutkan pada Tabel 1) sehingga semua citra dalam dataset akan berkurang 70% untuk memangkas waktu komputasi. Waktu dapat bervariasi karena spesifikasi perangkat keras yang digunakan. Kami menguji sistem pada PC desktop Windows 10 dengan spesifikasi perangkat keras CPU AMD Ryzen 3, RAM 8 GB, dan kartu grafis NVIDIA GeForce GT 1030 dimana memiliki hasil kinerja yang disebutkan pada Tabel 2. Sebagian besar waktu digunakan untuk langkah-langkah SFM, yang pada dasarnya digunakan untuk proses deteksi feature dan proses bundel adjustment. Banyaknya citra dan kompleksitas piksel dari objek yang diamati pada setiap citra akan memberikan dampak yang signifikan terhadap kinerja.

a. SFM b. MVS

c. PSR d. Refinement

(7)

Pada Gambar 4 merupakan visualisasi data dari masing-masing proses metode yang dilakukan. Pada tahap SFM yang diolah menggunakan Bundler menghasilkan sebaran sparse point cloud seperti yang terlihat pada gambar. Data sparse point cloud yang dihasilkan sudah cukup baik, pada bagian lipatan sweater yang dominan memiliki warna pixel gelap sehingga feature tidak terdeteksi. Selain itu, terdapat beberapa outlier point pada sisi- sisi dari background pada dataset. Pada proses MVS melalui metode PMVS (Patch-based Multi-View Stereo), sebaran dense point cloud terlihat padat dan memiliki sebaran yang baik sesuai yang diharapkan. Tetapi berdasarkan data sparse point cloud sebelumnya dari proses SFM, menciptakan PMVS merekonstruksi patch pada outlier yang tidak diinginkan. Melalui proses PSR (Poisson Surface Reconstruction), kami berhasil untuk mendapatkan triangle mesh dari data dense point cloud yang dihasilkan dari proses PMVS (Patch-based Multi- View Stereo) sebelumnya. Selain itu melalui metode PSR ini, informasi vertex color tidak hilang sehingga informasi tersebut dapat diolah untuk keperluan lebih lanjut. Dari hasil yang didapat, terdapat bagian pada triangle mesh yang tidak diperlukan seperti objek background dan floating mesh yang tidak diinginkan. Maka dari itu, kami menambahkan proses refinement dengan melakukan surface trimming. Melalui metode ini beberapa bagian triangle mesh dapat dihilangkan dan menyisakan bagian triangle mesh yang diperlukan, yakni objek yang sedang diamati, walaupun masih terdapat beberapa bagian pada triangle mesh yang salah.

SFM MVS PSR+Refinement

Gambar 5. Visualisasi Proses Rekonstruksi Mug

Gambar 6. Visualisasi Proses Rekonstruksi Penyerut Pensil

Gambar 7. Visualisasi Proses Rekonstruksi Dompet

(8)

Gambar 8. Visualisasi Proses Rekonstruksi Patung Kelinci

Selain iut melalui hasil di atas pada Gambar 5-8, untuk hasil dari dataset mug dan penyerut pensil sudah menyerupai objek yang diamati namun hasilnya memiliki permukaan yang kasar. Hal ini dapat disebabkan karena objek yang diamati memiliki jumlah pantulan cahaya yang cukup besar, yang mengakibatkan proses pengukuran depth yang salah dan tidak bekerja seperti yang diharapkan. Untuk hasil dari dataset dompet dan patung kelinci, terlihat seperti objek nyata yang diamati.

4. KESIMPULAN

Berdasarkan uraian yang telah disampaikan diatas, serangkaian metode telah digunakan guna melakukan proses rekonstruksi 3D. Structure From Motion (SFM) menggunakan Bundler, Multi-View Stereo (MVS) menggunakan PMVS, dan Surface Reconstruction menggunakan PSR adalah serangkaian metode yang dapat menghasilkan output triangle mesh yang cukup akurat berdasarkan beberapa faktor seperti jumlah citra yang digunakan, perbedaan sudut yang tepat untuk setiap citra, pencahayaan yang baik, serta jenis permukaan dan struktur objek yang diamati. Kemudian proses refinement kami lakukan untuk mendapatkan hasil triangle mesh yang lebih maksimal dengan melakukan surface trimming guna menyeleksi objek atau bagian-bagian pada triangle mesh yang tidak diperlukan. Melalui proses tersebut, kami dapat memperoleh model objek 3D berupa triangle mesh yang cukup akurat dan menyerupai objek fisik yang sedang diamati hanya dengan menggunakan set citra yang dikumpulkan melalui kamera dengan spesifikasi menengah seperti kamera handphone yang digunakan dalam penelitian ini. Tentunya masih banyak kekurangan dalam penelitian ini. Terdapat beberapa bagian dari triangle mesh yang tidak sesuai dengan harapan seperti floating mesh atau outlier pada background citra yang tidak sepenuhnya terseleksi. Penggunaan metode yang serupa dapat dilakukan dan dilakukan peningkatan lagi terutama pada pipeline SFM untuk menghasilkan triangle mesh yang lebih akurat.

REFERENCES

[1] R. Jiao, “A partial steganography algorithm for 3D triangle mesh,” in 2017 International Conference on Machine Learning and Cybernetics (ICMLC), Ningbo, Jul. 2017, pp. 361–365. doi: 10.1109/ICMLC.2017.8108948.

[2] Q. Zhang, P. An, S. Wang, X. Bai, and W. Zhang, “Image-based Space Object Reconstruction and Relative Motion Estimation using Incremental Structure from Motion,” in 2018 IEEE CSAA Guidance, Navigation and Control Conference (CGNCC), Xiamen, China, Aug. 2018, pp. 1–6. doi: 10.1109/GNCC42960.2018.9019205.

[3] S. Bianco, G. Ciocca, and D. Marelli, “Evaluating the Performance of Structure from Motion Pipelines,” J. Imaging, vol.

4, no. 8, p. 98, Aug. 2018, doi: 10.3390/jimaging4080098.

[4] H. Cui, S. Shen, X. Gao, and Z. Hu, “Batched Incremental Structure-from-Motion,” in 2017 International Conference on 3D Vision (3DV), Qingdao, Oct. 2017, pp. 205–214. doi: 10.1109/3DV.2017.00032.

[5] Shuhan Shen, “Accurate Multiple View 3D Reconstruction Using Patch-Based Stereo for Large-Scale Scenes,” IEEE Trans. on Image Process., vol. 22, no. 5, pp. 1901–1914, May 2013, doi: 10.1109/TIP.2013.2237921.

[6] Y. Furukawa and C. Hernández, Multi-view stereo: a tutorial. Boston Delft: Now, 2015.

[7] Z. Shao, N. Yang, X. Xiao, L. Zhang, and Z. Peng, “A Multi-View Dense Point Cloud Generation Algorithm Based on Low-Altitude Remote Sensing Images,” Remote Sensing, vol. 8, no. 5, p. 381, May 2016, doi: 10.3390/rs8050381.

[8] M. Berger, J. A. Levine, L. G. Nonato, G. Taubin, and C. T. Silva, “A benchmark for surface reconstruction,” ACM Trans. Graph., vol. 32, no. 2, pp. 1–17, Apr. 2013, doi: 10.1145/2451236.2451246.

[9] F. Bernardini, J. Mittleman, H. Rushmeier, C. Silva, and G. Taubin, “The ball-pivoting algorithm for surface reconstruction,” IEEE Transactions on Visualization and Computer Graphics, vol. 5, no. 4, pp. 349–359, Oct. 1999, doi:

10.1109/2945.817351.

[10] M. Kazhdan, M. Bolitho, and H. Hoppe, “Poisson surface reconstruction,” in Proceedings of the fourth Eurographics symposium on Geometry processing, Goslar, DEU, Jun. 2006, pp. 61–70.

(9)

[11] Y. Cai, M. Cao, L. Li, and X. Liu, “An End-to-End Approach to Reconstructing 3D Model From Image Set,” IEEE Access, vol. 8, pp. 193268–193284, 2020, doi: 10.1109/ACCESS.2020.3032169.

[12] J. Yang, C. Xiao, P. Wang, Y. Luo, and C. An, “Camera Array Calibration Using a Simple Checkerboard Pattern,” in 2019 IEEE International Conference on Signal, Information and Data Processing (ICSIDP), Chongqing, China, Dec.

2019, pp. 1–5. doi: 10.1109/ICSIDP47821.2019.9172948.

[13] E.-S. Kim and S.-Y. Park, “Extrinsic calibration of a camera-LIDAR multi sensor system using a planar chessboard,” in 2019 Eleventh International Conference on Ubiquitous and Future Networks (ICUFN), Zagreb, Croatia, Jul. 2019, pp.

89–91. doi: 10.1109/ICUFN.2019.8806057.

[14] Z. Cui, “Global Structure-from-Motion and Its Application,” Thesis, Simon Fraser University, Canada, 2017. Accessed:

May 26, 2022. [Online]. Available: http://summit.sfu.ca/item/17568

[15] A. Locher, M. Havlena, and L. Van Gool, “Progressive Structure from Motion,” in Computer Vision – ECCV 2018, vol.

11208, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds. Cham: Springer International Publishing, 2018, pp.

22–38. doi: 10.1007/978-3-030-01225-0_2.

[16] Y. Xue et al., “MVSCRF: Learning Multi-View Stereo With Conditional Random Fields,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), Oct. 2019, pp. 4311–4320. doi:

10.1109/ICCV.2019.00441.

[17] J. Li, E. Li, Y. Chen, L. Xu, and Y. Zhang, “Bundled depth-map merging for multi-view stereo,” in 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Jun. 2010, pp. 2769–2776. doi:

10.1109/CVPR.2010.5540004.

[18] L. Zhou, Z. Zhang, H. Jiang, H. Sun, H. Bao, and G. Zhang, “DP-MVS: Detail Preserving Multi-View Surface Reconstruction of Large-Scale Scenes,” Remote Sensing, vol. 13, no. 22, p. 4569, Nov. 2021, doi: 10.3390/rs13224569.

[19] H. Song et al., “Integrated Quality Mesh Generation for Poisson Surface Reconstruction in HPC Applications,” in 2017 IEEE 19th International Conference on High Performance Computing and Communications; IEEE 15th International Conference on Smart City; IEEE 3rd International Conference on Data Science and Systems (HPCC/SmartCity/DSS), Bangkok, Dec. 2017, pp. 450–457. doi: 10.1109/HPCC-SmartCity-DSS.2017.59.

[20] S. Zhu et al., “Very Large-Scale Global SfM by Distributed Motion Averaging,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, Jun. 2018, pp. 4568–4577. doi:

10.1109/CVPR.2018.00480.

[21] F. Guo, J. Yang, Y. Chen, and B. Yao, “Research on image detection and matching based on SIFT features,” in 2018 3rd International Conference on Control and Robotics Engineering (ICCRE), Nagoya, Apr. 2018, pp. 130–134. doi:

10.1109/ICCRE.2018.8376448.

[22] J. Feng, C. Ai, Z. An, Z. Zhou, and Y. Shi, “A Feature Detection and Matching Algorithm Based on Harris Algorithm,”

in 2019 International Conference on Communications, Information System and Computer Engineering (CISCE), Haikou, China, Jul. 2019, pp. 616–621. doi: 10.1109/CISCE.2019.00144.

[23] W. Wu and W. Liu, “An Optimized Method Based on RANSAC for Fundamental Matrix Estimation,” in 2018 IEEE 3rd International Conference on Signal and Image Processing (ICSIP), Shenzhen, Jul. 2018, pp. 372–376. doi:

10.1109/SIPROCESS.2018.8600471.

[24] S. Mills, “Four- and Seven-Point Relative Camera Pose from Oriented Features,” in 2018 International Conference on 3D Vision (3DV), Verona, Sep. 2018, pp. 218–227. doi: 10.1109/3DV.2018.00034.

[25] Y. Wang, M. Yu, G. Jiang, Z. Pan, and J. Lin, “Image Registration Algorithm Based on Convolutional Neural Network and Local Homography Transformation,” Applied Sciences, vol. 10, no. 3, p. 732, Jan. 2020, doi: 10.3390/app10030732.

[26] M. Holia and Z. Shah, “Automatic Image Registration,” in Kalpa Publications in Engineering, Aug. 2017, vol. 1, pp.

402–411. doi: 10.29007/kqbg.

[27] J. Chen, D. Wu, P. Song, F. Deng, Y. He, and S. Pang, “Multi-View Triangulation: Systematic Comparison and an Improved Method,” IEEE Access, vol. 8, pp. 21017–21027, 2020, doi: 10.1109/ACCESS.2020.2969082.

[28] R. Zhang et al., “Distributed Very Large Scale Bundle Adjustment by Global Camera Consensus,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 2, pp. 291–303, Feb. 2020, doi: 10.1109/TPAMI.2018.2840719.

[29] J. Liao, Y. Fu, Q. Yan, and C. Xiao, “Folding patch correspondence for multiview stereo,” Comput Anim Virtual Worlds, vol. 31, no. 4–5, Jul. 2020, doi: 10.1002/cav.1938.

[30] Y. Furukawa and J. Ponce, “Accurate, Dense, and Robust Multiview Stereopsis,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, pp. 1362–76, Aug. 2010, doi: 10.1109/TPAMI.2009.161.

[31] N. Luo, L. Huang, Q. Wang, and G. Liu, “An Improved Algorithm Robust to Illumination Variations for Reconstructing Point Cloud Models from Images,” Remote Sensing, vol. 13, no. 4, p. 567, Feb. 2021, doi: 10.3390/rs13040567.

[32] M. Kazhdan, M. Chuang, S. Rusinkiewicz, and H. Hoppe, “Poisson Surface Reconstruction with Envelope Constraints,”

Computer Graphics Forum, vol. 39, no. 5, pp. 173–182, Aug. 2020, doi: 10.1111/cgf.14077.