SISTEM PENDETEKSIAN DAN GEOTAGGING CITRA PAPAN IKLAN SECARA REAL-TIME SKRIPSI DENNIS

Teks penuh

(1)SISTEM PENDETEKSIAN DAN GEOTAGGING CITRA PAPAN IKLAN SECARA REAL-TIME. SKRIPSI. DENNIS 121402067. PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2017. Universitas Sumatera Utara.

(2) SISTEM PENDETEKSIAN DAN GEOTAGGING CITRA PAPAN IKLAN SECARA REAL-TIME. SKRIPSI. Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi. DENNIS 121402067. PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2017. Universitas Sumatera Utara.

(3) PERSETUJUAN. Judul. :. SISTEM PENDETEKSIAN DAN GEOTAGGING CITRA PAPAN IKLAN SECARA REAL-TIME. Kategori. :. SKRIPSI. Nama. :. DENNIS. Nomor Induk Mahasiswa. :. 121402067. Program Studi. :. TEKNOLOGI INFORMASI. Fakultas. :. ILMU. KOMPUTER. DAN. TEKNOLOGI. INFORMASI UNIVERSITAS SUMATERA UTARA Komisi Pembimbing. :. Pembimbing 2. Pembimbing 1. Prof. Dr. Opim Salim Sitompul, M.Sc.. Romi Fadillah Rahmat, B.Comp.Sc., M.Sc.. NIP 19610817 198701 1 001. NIP. 19860303 201012 1 004. Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua,. Muhammad Anggia Muchtar, ST., MM.IT NIP. 19800110 200801 1 010. Universitas Sumatera Utara.

(4) PERNYATAAN. SISTEM PENDETEKSIAN DAN GEOTAGGING CITRA PAPAN IKLAN SECARA REAL-TIME. SKRIPSI. Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.. Medan, 19 Januari 2017. Dennis 121402067. Universitas Sumatera Utara.

(5) UCAPAN TERIMA KASIH. Puji dan syukur penulis sampaikan ke hadirat Tuhan Yang Maha Esa yang telah memberikan rahmat serta restu-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Komputer di Universitas Sumatera Utara. Pertama, penulis ingin mengucapkan terima kasih kepada bapak Romi Fadillah Rahmat, B.Comp.Sc. M.Sc. selaku dosen pembimbing pertama dan bapak Prof. Dr. Opim Salim Sitompul, M.Sc. selaku dosen pembimbing kedua yang telah meluangkan waktu dan tenaganya untuk membimbing penulis dalam penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari kedua dosen pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini. Kedua, penulis juga ingin mengucapkan terima kasih kepada ibu Sarah Purnamawati, S.T., M.Sc. selaku dosen pembanding pertama dan ibu Maya Silvi Lydia, B.Sc., M.Sc. selaku dosen pembanding kedua yang telah meluangkan waktu dan tenaganya untuk memberikan kritik dan saran yang bermanfaat sehingga skripsi ini menjadi lebih baik dalam hal sistem dan penulisannya. Ucapan terima kasih juga ditujukan kepada Ketua dan Sekretaris Program Studi Teknologi Informasi USU, Dekan dan Wakil Dekan Fakultas Ilmu Komputer dan Teknologi Informasi USU, dan semua dosen serta pegawai di lingkungan program studi Teknologi Informasi USU, yang telah membantu serta membimbing penulis selama proses perkuliahan. Penulis tentunya tidak lupa berterima kasih kepada kedua orangtua penulis yang telah membesarkan penulis dengan sabar dan penuh cinta, serta doa dari mereka yang selalu menyertai selama ini. Terima kasih juga penulis ucapkan kepada teman-teman yang telah memberikan dukungan selama proses perkuliahan, khususnya Franco Baggio, Novia Elisha Haloho, Theresia Aruan, Eka Pratiwi Goenfi, serta seluruh abangabang, kakak-kakak, dan adik-adik angkatan 2010, 2011, 2012, 2013, dan 2014 Teknologi Informasi USU. Semoga Tuhan Yang Maha Esa membalas kebaikan kalian.. Universitas Sumatera Utara.

(6) ABSTRAK. Papan iklan (advertisement billboard) merupakan salah satu media promosi yang efektif untuk memberikan informasi mengenai suatu produk atau jasa. Saat ini, pendataan papan iklan sudah dilakukan dengan baik. Akan tetapi, perekaman informasi pada papan iklan membutuhkan tenaga kerja yang banyak dan waktu yang cukup lama untuk mendata semua papan iklan. Oleh karena itu, diperlukan sebuah pendekatan digital untuk mengekstrak informasi pada citra papan iklan yang diambil dan mendapatkan informasi geotag citra tersebut sehingga pendataan papan iklan menjadi lebih cepat. Pendekatan yang diajukan oleh penulis adalah pendekatan menggunakan metode supervised machine learning yang dinamakan Deep Convolutional Neural Network (DCNN) untuk proses pengenalan objek dengan model Inception-v3 yang sudah dilatih. Untuk meningkatkan performa dari pelatihan dilakukan pelatihan ulang menggunakan teknik transfer learning dengan menambahkan citra papan iklan. Setelah itu, layer output akan diklasifikasikan ulang (fine-tuning) sehingga menghasilkan output yang relevan dengan papan iklan. Setelah proses pendeteksian selesai, citra akan disimpan ke dalam database dan informasi geotag akan disimpan dengan metode penyisipan file metadata yang dinamakan Exchangeable Image File (Exif). Hasil pelatihan menggunakan metode Deep Convolutional Neural Network (DCNN) memperoleh tingkat akurasi sebesar 92,7%. Pengujian citra papan iklan pada penelitian ini dilakukan dalam 2 kondisi yang berbeda, yakni pada siang hari dan malam hari. Berdasarkan hasil pengujian, pendeteksian pada siang hari memperoleh tingkat akurasi yang lebih tinggi. Untuk proses geotagging, informasi geografis yang telah tersimpan memiliki akurasi hingga 30 meter. Secara keseluruhan, akurasi papan iklan dipengaruhi beberapa faktor, yaitu jarak pengambilan citra, sudut pengambilan citra, kompleksitas keadaan lingkungan pada saat akuisisi, dan koneksi data pada saat geotagging.. Kata kunci: pendeteksian papan iklan, geotagging papan iklan, Deep Convolutional Neural Network, transfer learning, klasifikasi citra, pengenalan objek, computer vision. Universitas Sumatera Utara.

(7) REAL-TIME ADVERTISEMENT BILLBOARD DETECTION AND GEOTAGGING SYSTEM. ABSTRACT. Advertisement billboard is an effective commercial media for advertising information about products or services. Currently, advertisement billboard data management has been done using conventional approach. However, the current data acquisition method is labor-intensive and time-consuming. Hence, a digital approach is needed to extract information in advertisement billboard and also the geographical location of the object, to improve the data acquisition. The approach proposed by the author is the use of supervised machine learning algorithm named Deep Convolutional Neural Network (DCNN) for object classification task with Inception-v3 model. To improve the performance of the pre-trained neural network, more advertisement billboard images is added and trained using transfer learning approach. Then, the output will be fine-tuned into an advertisement-billboard related output. After detecting the advertisement billboard, the image will be saved into a database with geotag information obtained from Exhangeable Image File (Exif) metadata file insertion into the image file. The training of the Deep Convolutional Neural Network (DCNN) results in 92.7% accuracy. The testing is conducted in two different environments in real-time, which are testing during day and testing at night. The testing results show that the detection during day have much higher accuracy during day time. For geotagging process, the geographical location has 30 meter accuracy. Overall, the advertisement billboard accuracy depends on a number of factors, such as shooting distance, shooting angle, environment complexity during image acquisition, and data connection during geotagging.. Keywords: advertisement billboard detection, advertisement billboard geotagging, Deep Convolutional Neural Network, transfer learning, image classification, object recognition, computer vision. Universitas Sumatera Utara.

(8) DAFTAR ISI. Hal. PERSETUJUAN ............................................................................................................ ii PERNYATAAN ........................................................................................................... iii UCAPAN TERIMA KASIH......................................................................................... iv ABSTRAK ..................................................................................................................... v ABSTRACT .................................................................................................................. vi DAFTAR ISI ................................................................................................................ vii DAFTAR TABEL .......................................................................................................... x DAFTAR GAMBAR .................................................................................................... xi. BAB 1 PENDAHULUAN ............................................................................................. 1 1.1. Latar Belakang .......................................................................................... 1 1.2. Rumusan Masalah ..................................................................................... 5 1.3. Tujuan Penelitian ...................................................................................... 5 1.4. Batasan Masalah ....................................................................................... 5 1.5. Manfaat Penelitian .................................................................................... 6 1.6. Metodologi Penelitian ............................................................................... 6 1.7. Sistematika Penulisan ............................................................................... 7 BAB 2 LANDASAN TEORI......................................................................................... 9 2.1. Computer Vision ....................................................................................... 9 2.2. Machine Learning ................................................................................... 10 2.2.1. Multilayer Perceptron .............................................................. 13 2.3. Artificial Neural Network (ANN) ........................................................... 16 2.4. Convolutional Neural Network (CNN) ............................................. 11120 2.4.1. Convolutional Layer .......................................................... 11120 2.4.2. Pooling Layer..................................................................... 11122 2.4.3. Fully-Connected Layer ...................................................... 11123 2.5. Deep Convolutional Neural Network (DCNN) ....................................... 24. Universitas Sumatera Utara.

(9) viii. 2.6. ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ........... 26 2.7. Inception-v3 ............................................................................................ 30 2.8. Transfer Learning ................................................................................... 31 2.8.1. Inductive Transfer Learning .................................................... 32 2.8.2. Transductive Transfer Learning .............................................. 33 2.8.3. Unsupervised Transfer Learning ............................................. 33 2.9. TensorFlow ............................................................................................. 36 2.10. Geotagging .............................................................................................. 38 2.11. Google Maps ........................................................................................... 40 2.11.1. Google Street View ............................................................ 11141 2.11.2. Reverse Geocoding ............................................................ 11143 2.12. Penelitian Terdahulu ............................................................................... 43. BAB 3 ANALISIS DAN PERANCANGAN SISTEM ............................................... 56 3.1. Data yang Digunakan .............................................................................. 56 3.2. Analisis Sistem........................................................................................ 57 3.2.1. Machine Learning menggunakan Metode Deep Convolutional Neural Network (DCNN) ................................ 59 3.2.2. Pelatihan Ulang (Retraining) .................................................. 63 3.2.3. Real-Time Image Acquisition .................................................. 65 3.2.4. Preprocessing ......................................................................... 65 3.2.5. Feature Extraction .................................................................. 66 3.2.6. Postprocessing ........................................................................ 66 3.2.7. Output ...................................................................................... 67 3.3. Perancangan Sistem ............................................................................... 67 3.3.1. Rancangan Tampilan Halaman Splash pada Smartphone ...... 68 3.3.2. Rancangan Tampilan Halaman Utama pada Smartphone ...... 69 3.3.3. Rancangan Tampilan Halaman Utama pada Web ................... 71 3.3.4. Rancangan Tampilan Data pada Web ..................................... 72 3.3.5. Rancangan Tampilan Peta pada Web ...................................... 72 3.3.6. Rancangan Tampilan Lihat Data pada Web ............................ 73. Universitas Sumatera Utara.

(10) ix. BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM............................................ 74 4.1. Implementasi Sistem ............................................................................... 74 4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak .................. 74 4.1.2. Implementasi Perancangan Antarmuka ................................... 75 4.2. Pelatihan Sistem ...................................................................................... 86 4.3. Pengujian Sistem ..................................................................................... 90. BAB 5 KESIMPULAN DAN SARAN ....................................................................... 95 5.1. Kesimpulan ............................................................................................. 95 5.2. Saran ....................................................................................................... 96. DAFTAR PUSTAKA .................................................................................................. 98. LAMPIRAN .............................................................................................................. 101 1.. Hasil Pelatihan Citra Papan Iklan dengan 8.000 Training Steps .......... 101. 2.. Hasil Pengujian Citra Papan Iklan pada Siang Hari ............................. 120. 3.. Hasil Pengujian Citra Papan Iklan pada Malam Hari ........................... 126. Universitas Sumatera Utara.

(11) DAFTAR TABEL. Hal. Tabel 2.1. Rangkuman Perbedaan Jenis Pengaturan Transfer Learning (Pan & Yang, 2010) .................................................................................. 34 Tabel 2.2. Pendekatan Transfer Learning pada Pengaturan yang Berbeda (Pan & Yang, 2010) .................................................................................. 35 Tabel 2.3. Perbandingan TensorFlow dengan Library Lain Berdasarkan Waktu Pelatihan Menggunakan Model yang Sama (Abadi et al., 2016) ............. 38 Tabel 2.4. Representasi Data Exif dalam Bentuk Derajat .......................................... 39 Tabel 2.5. Representasi Data Exif dalam Bentuk Desimal ........................................ 39 Tabel 2.6. Penelitian Terdahulu Mengenai Pendeteksian Papan Iklan ...................... 48 Tabel 2.7. Penelitian Terdahulu Mengenai Metode Deep Convolutional Neural Network (DCNN) dalam Pengenalan Objek ............................................. 51 Tabel 2.8. Penelitian Terdahulu Mengenai Geotagging pada Smartphone ............... 54 Tabel 3.1. Detail Proses Pembelajaran pada Setiap Layer ........................................ 62 Tabel 3.2. Contoh Informasi pada Papan Iklan ........................................................... 67 Tabel 4.1. Nilai Parameter Pelatihan .......................................................................... 87. Universitas Sumatera Utara.

(12) DAFTAR GAMBAR. Hal. Gambar 2.1.. Arsitektur Multilayer Perceptron (Negnevitsky, 2005)....................... 14. Gambar 2.2.. Ilustrasi Klasifikasi Citra Multilayer Perceptron dengan 3 Hidden Layer (Goodfellow et al., 2016) ........................................................... 16. Gambar 2.3.. Arsitektur Umum Artificial Neural Network (Negnevitsky, 2005) ..... 17. Gambar 2.4.. Arsitektur Neuron (Negnevitsky, 2005) .............................................. 17. Gambar 2.5.. Activation Function pada Neuron (Negnevitsky, 2005) ...................... 19. Gambar 2.6.. Ilustrasi Convolution Operation pada Citra 2 Dimensi dengan Ukuran Kernel 2x2 (Goodfellow, 2016) .............................................. 22. Gambar 2.7.. Ilustrasi Operasi Max-Pooling pada Citra (Karpathy, 2016) ............... 23. Gambar 2.8.. Arsitektur Umum Deep Convolutional Neural Network (DCNN) dengan 5 Convolutional Layer dan 3 Fully-Connected Layer (Krizhevsky et al., 2012) ...................................................................... 24. Gambar 2.9.. Visualisasi Ekstraksi Fitur pada Setiap Convolutional Layer (Zeiler & Fergus, 2014) ....................................................................... 26. Gambar 2.10. Ilustrasi Penelitian ILSVRC Mengenai Klasifikasi Citra, Lokalisasi Satu Objek, dan Deteksi Objek (Russakovsky, 2015) ........ 27 Gambar 2.11. Contoh Output pada Klasifikasi Citra (Russakovsky, 2015) ............... 28 Gambar 2.12. Klasifikasi Citra pada ILSVRC (Russakovsky, 2015) .......................... 29 Gambar 2.13. Arsitektur Inception-v3 (Alemi, 2016) ................................................ 30 Gambar 2.14. Perbedaan Proses Pembelajaran Antara (a) Pembelajaran Mesin Tradisional dan (b) Transfer Learning (Pan & Yang, 2010) ............... 32 Gambar 2.15. Jenis Pendekatan Transfer Learning (Pan & Yang, 2010) .................. 34 Gambar 2.16. Skema TensorFlow Dataflow Graph (Abadi et al., 2016) ................... 36 Gambar 2.17. Arsitektur TensorFlow (Abadi et al., 2016) ......................................... 37 Gambar 2.18. Sistem Koordinat pada Peta (Svennerberg, 2010) ............................... 41 Gambar 2.19. Ilustrasi Drag and Drop untuk Mengakses Google Street View (Svennerberg, 2010) ............................................................................. 42 Gambar 2.20. Contoh Tampilan Google Street View (Svennerberg, 2010) ............... 42. Universitas Sumatera Utara.

(13) xi. Gambar 2.21. Contoh Reverse Geocoding (Svennerberg, 2010) ................................ 43 Gambar 3.1.. Arsitektur Umum ................................................................................. 58. Gambar 3.2.. Contoh Citra Input yang Diperkecil ..................................................... 59. Gambar 3.3.. Proses Convolutional Layer 1 .............................................................. 60. Gambar 3.4.. Proses Convolutional Layer 2 .............................................................. 60. Gambar 3.5.. Proses Convolutional Layer 3 .............................................................. 61. Gambar 3.6.. Proses Convolutional Layer 4 .............................................................. 61. Gambar 3.7.. Proses Convolutional Layer 5 .............................................................. 62. Gambar 3.8.. Output Berupa 5 Prediksi Objek dengan Tingkat Akurasi Tertinggi . 63. Gambar 3.9.. Contoh Nilai Bottleneck pada Citra .................................................... 64. Gambar 3.10. Klasifikasi Berdasarkan Output Pembelajaran ................................... 65 Gambar 3.11. Rancangan Halaman Splash pada Smartphone ................................... 68 Gambar 3.12. Rancangan Halaman Utama Smartphone saat Sistem Dijalankan ...... 69 Gambar 3.13. Rancangan Halaman Utama Smartphone Ketika Tidak Ada Objek yang Terdeteksi ................................................................................... 70 Gambar 3.14. Rancangan Halaman Utama Smartphone Ketika Memenuhi Akurasi Pendeteksian Minimum ...................................................................... 71 Gambar 3.15. Rancangan Halaman Utama Web......................................................... 71 Gambar 3.16. Rancangan Halaman Data .................................................................... 72 Gambar 3.17. Rancangan Halaman Peta .................................................................... 73 Gambar 3.18. Rancangan Halaman Lihat Data .......................................................... 73 Gambar 4.1.. Tampilan Halaman Utama Splash pada Smartphone .......................... 76. Gambar 4.2.. Tampilan Halaman Utama Smartphone Ketika Tidak Ada Objek yang Terdeteksi .................................................................................... 77. Gambar 4.3.. Tampilan Halaman Smartphone Ketika Terdapat Objek yang Memiliki Akurasi di Atas Batas Minimum Akurasi ............................ 78. Gambar 4.4.. Tampilan Halaman Utama Web .......................................................... 78. Gambar 4.5.. Tampilan Halaman Data Papan Iklan ................................................. 79. Gambar 4.6.. Tampilan Halaman Peta ...................................................................... 80. Gambar 4.7.. Tampilan Halaman Satelit ................................................................... 80. Gambar 4.8.. Tampilan Halaman Peta Ketika Marker Diklik ................................... 81. Gambar 4.9.. Tampilan Halaman Satelit Ketika Marker Diklik ................................ 81. Gambar 4.10. Letak Tombol Street View ................................................................... 82. Universitas Sumatera Utara.

(14) xii. Gambar 4.11. Visualisasi Jalan 3 Dimensi dari Depan............................................... 82 Gambar 4.12. Visualisasi Jalan 3 Dimensi dari Samping Kiri ................................... 83 Gambar 4.13. Visualisasi Jalan 3 Dimensi dari Samping Kanan ............................... 83 Gambar 4.14. Visualisasi Jalan 3 Dimensi dari Belakang .......................................... 84 Gambar 4.15. Tampilan Lihat Data ........................................................................... 84 Gambar 4.16. Tampilan Lihat Data Selanjutnya ....................................................... 85 Gambar 4.17. Tampilan Data yang Disortir Berdasarkan Kategori .......................... 85 Gambar 4.18. Proses Bottleneck pada Citra ............................................................... 86 Gambar 4.19. Proses Pelatihan Citra ......................................................................... 88 Gambar 4.20. Grafik Akurasi Pelatihan ..................................................................... 89 Gambar 4.21. Grafik Cross Entropy .......................................................................... 89 Gambar 4.22. Grafik Hasil Pengujian Tingkat Akurasi Pendeteksian Citra Papan Iklan pada Kondisi yang Berbeda ....................................................... 91 Gambar 4.23. Halangan pada Citra Papan Iklan ........................................................ 92 Gambar 4.24. Analisis Pengaruh Jarak Pengambilan Terhadap Tingkat Akurasi ..... 93 Gambar 4.25. Analisis Pengaruh Sudut Pengambilan Terhadap Tingkat Akurasi .... 93. Universitas Sumatera Utara.

(15) BAB 1 PENDAHULUAN. 1.1.. Latar Belakang. Papan iklan (advertisement billboard) adalah papan yang dipasang pada tempat umum seperti pada jalan raya. Papan iklan di jalan raya terdiri dari beberapa jenis, yaitu baliho dan papan iklan digital dengan gambar bergerak atau biasa disebut dengan videotron. Fungsi utama papan iklan adalah sebagai media untuk menampilkan informasi dan mempromosikan suatu produk atau jasa. Saat ini, pendataan papan iklan dalam kota sudah dilakukan dengan baik, namun pengekstraksian informasi pada papan iklan belum dilakukan secara optimal. Oleh karena itu, diperlukan sebuah pendekatan digital untuk mengekstrak informasi pada citra papan iklan yang diambil dan mendapatkan lokasi diambilnya citra tersebut sehingga pendataan papan iklan menjadi lebih baik. Penelitian mengenai pendeteksian papan iklan telah dilakukan untuk berbagai keperluan, seperti pertandingan olahraga. Medioni et al. (1998) mendeteksi papan iklan melalui video broadcast secara real-time dan melakukan substitusi terhadap papan iklan. Metode yang digunakan untuk mendeteksi papan iklan adalah metode pendeteksian menggunakan interest point (corner), color-based pointer, point matcher, precise lock-in menggunakan Sum of Squared Differences (SSD), dan predictor menggunakan Measure of Belief (MoB). Hasil yang dicapai pada penelitian ini menunjukkan performa yang baik dalam mendeteksi dan mensubstitusi papan iklan. Cai et al. (2003) mendeteksi papan iklan melalui citra yang diambil pada pertandingan olahraga di televisi. Penelitian tersebut menggunakan filter Sobel untuk mendeteksi tepi dan metode fast Hough transform untuk mendeteksi garis. Hasil yang didapatkan menunjukkan keakuratan mengenali papan iklan hingga 91% dan beberapa papan iklan tidak dapat dideteksi dengan optimal akibat adanya halangan (occlusion). Aldershoff & Gevers (2003) mendeteksi papan iklan melalui video broadcast pertandingan sepak bola dan kemudian mengganti citra papan iklan dengan papan iklan yang lain (billboard replacement). Metode yang digunakan untuk mendeteksi papan iklan adalah metode pendeteksian berdasarkan warna fitur, yaitu histogram back-projection. Untuk proses. Universitas Sumatera Utara.

(16) 2. object tracking, metode yang digunakan adalah metode berbasis kernel, yaitu meanshift dan particle filter. Hasil dari penelitian ini menunjukkan keakuratan yang tinggi dalam proses pendeteksian papan iklan. Ichimura (2006) menggunakan algoritma Hessian-Laplace detector dan Gradient location-orientation histogram (GLOH) descriptor untuk mengekstraksi fitur papan iklan. Kemudian, algoritma RANSAC (RANdom SAmple Consensus) digunakan untuk pengenalan papan iklan pada pertandingan balap mobil melalui video. Hasil yang didapat menunjukkan beberapa papan iklan tidak dapat dideteksi akibat adanya objek lain yang menghalangi. Watve & Sural (2006) mendeteksi papan iklan pada pertandingan sepak bola dengan mengaplikasikan hue slicing dan metode Hough transform untuk mencari regions of interest (RoI). Hasil dari penelitian ini mencapai keakuratan hingga 95%. Keakuratan pada penelitian yang dibuat dapat ditingkatkan dengan mengoreksi tingkat iluminasi. Orginc (2009) mendeteksi dan mensubstitusi papan iklan dari video broadcast dengan estimasi homografi menggunakan Direct Linear Transformation (DLT) dan RAndom SAmple Consensus (RANSAC). Hasil yang didapatkan dari penelitian ini menunjukkan performa yang baik dalam mendeteksi dan mensubstitusi papan iklan. Ordelman (2010) mendeteksi papan iklan dari video pertandingan sepak bola menggunakan metode template matching dengan Fast Fourier Transform dan color matching dengan menghitung jarak Euclidian pada ruang warna nomalized HSL (NHSL), neighbor voting (neighbor prediction). Hasil pendeteksian papan iklan yang didapatkan dari penelitian ini mencapai akurasi sebesar 36%. Penelitian yang telah dilakukan sebelumnya memiliki beberapa kelemahan, yakni papan iklan tidak dapat terdeteksi akibat adanya objek penghalang dan metode yang digunakan pada penelitian hanya mampu mengekstrak fitur berdasarkan bentuk atau warna menggunakan metode pemrosesan citra sehingga pendeteksian sangat sulit dilakukan pada kondisi yang kompleks, seperti pada jalan raya. Selain itu, objek yang terdeteksi dari penelitian sebelumnya belum tentu merupakan papan iklan karena semua objek yang memiliki fitur yang sama akan diekstrak. Objek-objek yang tidak merupakan papan iklan yang memiliki bentuk yang sama dapat dianggap sebagai papan iklan. Oleh karena itu, diperlukan sebuah pendekatan untuk mengenali apakah objek yang telah dideteksi merupakan papan iklan atau tidak. Pendekatan yang dapat dilakukan untuk mengenali citra papan iklan adalah dengan menggunakan metode pengenalan objek.. Universitas Sumatera Utara.

(17) 3. Pengenalan objek merupakan bidang penelitian computer vision yang sulit, terutama untuk mengenali objek dalam jumlah yang besar dan kondisi yang kompleks. Saat ini, metode deep neural network merupakan metode machine learning yang paling optimal dalam mengenali objek dengan dataset yang berdimensi tinggi dan kompleks secara efektif. Berdasarkan penelitian tentang pengklasifikasian objek, metode Deep Convolutional Neural Network (DCNN) memiliki performa yang optimal dalam hal mempelajari dataset dengan jumlah yang besar untuk mengenali banyak objek dimana metode ini memiliki error-rate sebesar 15,3% (Krizhevsky et al., 2012). Penelitian tentang klasifikasi objek menggunakan metode Deep Convolutional Neural Network (DCNN) telah banyak dilakukan untuk berbagai tujuan penelitian, diantaranya untuk mengenali manusia, makanan, tanda lalu lintas, dan objek-objek secara umum. Lin & Chen (2015) menggunakan metode DCNN dengan arsitektur GoogleNet Two Parallel DCNN untuk mendeteksi pejalan kaki. Penelitian ini menunjukkan tingkat regresi hingga 19,57% dalam mendeteksi pejalan kaki. Zhang et al. (2015) mengklasifikasikan mobil berdasarkan merek dan modelnya menggunakan metode Deep Convolutional Neural Network (DCNN) dengan transfer learning. Hasil yang dicapai pada penelitian ini mencapai keakuratan pengklasifikasian hingga 79% terhadap 196 kelas mobil. Yanai & Kawano (2015) mengenali makanan melalui citra dnegan mengklasifikasikan 1000 kategori makanan menggunakan metode DCNN. Hasil yang dicapai pada penelitian ini mencapai keakuratan hingga 78,77% pada prediksi Top-1 terhadap testing dataset UEC-FOOD100 dan 67,57% pada prediksi Top-1 terhadap testing dataset UEC-FOOD256. Yan et al. (2015) melakukan klasifikasi objek dengan 1000 kategori dari dataset ILSVRC 2012 menggunakan metode Hierarchical DCNN (HD-CNN). Hasil dari penelitian ini menunjukkan error-rate sebesar 36,66% untuk prediksi Top-1 dan 15,80% untuk prediksi Top-5. Pasquale et al. (2016) melakukan identifikasi 50 objek dari dataset iCubWorld menggunakan metode DCNN. Penelitian ini menunjukkan akurasi sebesar 86% dalam melakukan identifikasi terhadap 50 objek. Jung et al. (2016) mengenali tanda lalu lintas secara real-time menggunakan arsitektur Le Net-5 CNN. Hasil dari penelitian ini mampu mengklasifikasikan 16 tanda lalu lintas. Ouyang et al. (2016) mengenali objek-objek umum menggunakan metode Deformable Deep Convolutional Neural Networks (DeepID-Net). Hasil klasifikasi pada penelitian ini menunjukkan akurasi hingga 50,3%. Li et al. (2016) menggunakan metode DCNN dengan model GoogleNet Inception untuk mengklasifikasikan 1000. Universitas Sumatera Utara.

(18) 4. objek. Pembelajaran pada penelitian ini dilakukan dengan jumlah convolutional layer sebanyak 22 convolutional layer. Hasil dari penelitian ini mencapai akurasi klasifikasi hingga 89,45% pada prediksi Top-1. Martinson & Yalla (2016) menggunakan metode DCNN dengan model buatan Krizhevsky yang memiliki 5 convolutional layer, 3 pooling layers, dan 3 fully-connected layer untuk melakukan klasifikasi terhadap 1000 objek secara real-time. Output dari klasifikasi diperkecil menjadi 2 kategori, yaitu kategori manusia dan bukan manusia. Akurasi yang dicapai pada penelitian ini mencapai 90,1% dalam kondisi ruangan terbuka dengan sensor structured light, 86,7% dalam kondisi dalam rumah dengan sensor structured light, 80,4% dalam kondisi ruangan kantor dengan sensor stereo camera, dan 74,2% dalam kondisi dalam rumah dengan sensor Time-of-Flight camera. Holder et al. (2016) menggunakan metode Segnet pre-trained Deep Convolutional Neural Network yang memiliki 13 decoder layer dan transfer learning untuk mengklasifikasi dan melakukan segmentasi terhadap objek di jalan. Tingkat akurasi pengenalan yang dihasilkan dari penelitian ini mencapai 79%. Setelah objek papan iklan berhasil dikenali dengan metode machine learning, citra papan iklan akan disimpan ke dalam database. Kemudian, citra papan iklan akan ditambahkan dengan informasi geografis dari GPS smartphone melalui geotagging. Penelitian mengenai geotagging citra melalui smartphone telah dilakukan sebelumnya. Macias et al. (2011) menambahkan informasi geotag pada video per frame secara realtime pada smartphone dengan menggunakan GPS smartphone, jaringan seluler 3G, WiFi, dan angular values dari sensor smartphone. Hasil dari penelitian ini menunjukkan keakuratan lokasi yang tinggi dengan pemakaian bandwidth yang sedikit. Sahu & Chakraborty (2013) menambahkan informasi geotag pada proses pengambilan citra dengan menyisipkan file Exif (Exchangeable image file) pada citra secara real-time menggunakan smartphone Android. Keakuratan lokasi yang dicapai pada proses geotagging adalah sekitar 30 meter dari peta. Pada penelitian ini, layanan data sangat mempengaruhi keakuratan lokasi pada proses geotagging. Masalah ketidakakuratan lokasi GPS berhasil diatasi pada penelitian Debnath & Borcea (2013). Selain menggunakan GPS pada smartphone untuk melakukan geotagging pada citra secara real-time, penelitian ini menggunakan estimasi angular distance dan Euclidean distance. Hasil dari penelitian ini menunjukkan keakuratan lokasi yang sangat tinggi, yaitu sebesar 93%.. Universitas Sumatera Utara.

(19) 5. Pada penelitian ini, metode Deep Convolutional Neural Network (DCNN) akan digunakan untuk mendeteksi citra papan secara real-time. Setelah citra papan iklan terdeteksi, citra akan disimpan dan ditambahkan dengan data lokasi melalui proses geotagging yang dilakukan dengan metode penyisipan file Exif (Exchangeable image file) pada citra. Untuk meningkatkan fungsionalitas dari penelitian yang dibuat, informasi lain seperti nama dan kategori papan iklan juga akan ditambahkan ke dalam sistem. Hasil dari citra yang disimpan akan ditampilkan dalam tampilan web. Berdasarkan latar belakang di atas, maka penulis mengajukan penelitian dengan judul “SISTEM PENDETEKSIAN DAN GEOTAGGING CITRA PAPAN IKLAN SECARA REAL-TIME”. Hasil yang diharapkan dari penelitian ini adalah semua citra papan iklan dapat terdeteksi sehingga pendataan papan iklan menjadi lebih baik.. 1.2.. Rumusan Masalah. Papan iklan (advertisement billboard) merupakan salah satu media promosi yang efektif untuk memberikan informasi mengenai suatu produk atau jasa. Saat ini, pendataan papan iklan sudah dilakukan dengan baik, namun perekaman informasi pada papan iklan belum dilakukan secara optimal. Oleh karena itu, diperlukan sebuah pendekatan digital untuk mendeteksi citra papan iklan dan mendapatkan informasi geotag citra tersebut sehingga pendataan papan iklan menjadi lebih baik.. 1.3.. Tujuan Penelitian. Tujuan penelitian ini adalah untuk mendeteksi citra papan iklan secara real-time dengan algoritma Deep Convolutional Neural Network (DCNN), serta mendapatkan informasi geotag dan informasi penting dari citra papan iklan yang terdeteksi.. 1.4.. Batasan Masalah. Untuk membatasi cakupan permasalahan yang akan dibahas dalam studi ini, penulis membuat batasan sebagai berikut: 1. Citra papan iklan yang didata hanya papan iklan konvensional (reklame atau baliho), bukan papan iklan digital (videotron). 2. Informasi yang dapat diketahui dari papan iklan hanya informasi geotag dan informasi isi papan iklan yang dapat dilihat pada citra. Informasi lainnya seperti. Universitas Sumatera Utara.

(20) 6. ukuran, pemilik, harga sewa, dan masa berlaku papan iklan tidak termasuk dalam penelitian ini. 3. Fokus penelitian hanya untuk mengambil citra papan iklan secara otomatis dan melakukan geotagging. Penelitian tidak membahas masalah perpajakan pada pemasangan papan iklan. 4. Fokus penelitian hanya mendeteksi dan melakukan geotagging terhadap citra papan iklan. Pengenalan karakter (Optical character recognition) tidak termasuk dalam penelitian ini.. 1.5.. Manfaat Penelitian. Manfaat yang diperoleh dari penelitian ini adalah: 1. Mempercepat pendataan papan iklan. 2. Mengetahui berapa banyak papan iklan yang dipasang pada lokasi tertentu. 3. Melihat kategori papan iklan apa yang paling banyak dipasang di jalan raya. 4. Mengetahui lokasi mana yang paling strategis untuk memasang papan iklan berdasarkan banyaknya papan iklan pada satu jalan. 5. Menjadi referensi dalam pengembangan di bidang computer vision, khususnya dalam Deep Convolutional Neural Network (DCNN).. 1.6.. Metodologi Penelitian. Tahapan-tahapan yang akan dilakukan pada pelaksanaan penelitian adalah sebagai berikut: 1. Studi Literatur Studi literatur dilakukan dalam rangka pengumpulan bahan referensi mengenai Computer Vision, Machine Learning, Artificial Neural Network (ANN), Convolutional Neural Network (CNN), Deep Convolutional Neural Network (DCNN), ImageNet Large Scale Visual Recognition Challenge (ILSVRC), Inception-v3, Transfer Learning, TensorFlow, Geotagging, dan Google Maps dari beberapa jurnal, buku, artikel dan beberapa sumber referensi lainnya. 2. Analisis Permasalahan Pada tahap ini dilakukan analisis terhadap studi literatur yang telah dikumpulkan pada tahap sebelumnya untuk mendapatkan pemahaman mengenai metode yang. Universitas Sumatera Utara.

(21) 7. diterapkan. yakni. Deep. Convolutional. Neural. Network. (DCNN). untuk. menyelesaikan masalah tentang pendeteksian papan iklan. 3. Perancangan Pada tahap ini dilakukan perancangan arsitektur, pengumpulan data, dan perancangan antarmuka. Proses perancangan dilakukan berdasarkan hasil analisis studi literatur yang telah diperoleh. 4. Implementasi Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan perancangan yang telah dilakukan pada tahap sebelumnya. 5. Pengujian Pada tahap ini dilakukan pengujian terhadap hasil yang didapatkan melalui implementasi metode Deep Convolutional Neural Network (DCNN) dalam mendeteksi citra papan iklan secara real-time dan melakukan geotagging untuk memastikan hasil pendeteksian sesuai dengan apa yang diharapkan. 6. Dokumentasi dan Penyusunan Laporan Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil analisis dan implementasi metode Deep Convolutional Neural Network (DCNN) dalam pendeteksian dan geotagging papan iklan.. 1.7.. Sistematika Penulisan. Sistematika penulisan dari skripsi ini terdiri dari lima bagian utama sebagai berikut. Bab 1: Pendahuluan Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan. Bab 2: Landasan Teori Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan Computer Vision, Machine Learning, Artificial Neural Network (ANN), Convolutional Neural Network (CNN), Deep Convolutional Neural Network (DCNN), TensorFlow, ImageNet Large Scale. Universitas Sumatera Utara.

(22) 8. Visual Recognition Challenge (ILSVRC), Geotagging, dan Google Maps akan dibahas pada bab ini. Bab 3: Analisis dan Perancangan Bab ini menjabarkan arsitektur umum dari penelitian, mulai dari input, preprocessing. ekstraksi fitur, postprocessing, dan output untuk mendapatkan citra papan iklan dan informasi geotag. Bab 4: Implementasi dan Pengujian Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan dari proses pelatihan dan pengujian yang dilakukan terhadap implementasi yang dilakukan juga dijabarkan pada bab ini. Bab 5: Kesimpulan dan Saran Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4. Bagian akhir dari bab ini memuat saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.. Universitas Sumatera Utara.

(23) BAB 2 LANDASAN TEORI. Bab ini membahas teori penunjang serta penelitian terdahulu yang berhubungan dengan permasalahan pendeteksian dan geotagging citra papan iklan, serta metode Deep Convolutional Neural Network (DCNN).. 2.1.. Computer Vision. Computer Vision adalah ilmu pengetahuan yang bertujuan untuk mendapatkan informasi yang berguna dari sebuah citra mengenai model fisik nyata dan keadaan sehingga diperoleh suatu keputusan. Masalah yang dibahas pada computer vision antara lain: 1. Sensing – bagaimana citra didapatkan dari sensor, bagaimana citra dapat mengkodekan karakteristik pada dunia nyata, seperti material, bentuk, iluminasi, dan hubungan spasial? 2. Encoded Information – bagaimana citra menghasilkan informasi untuk memahami dunia tiga dimensi, termasuk geometri, tekstur, gerakan, dan identitas objek? 3. Representasi – Representasi apakah yang digunakan untuk menyimpan deskripsi, bagian, karakteristik, dan hubungan dari objek? 4. Algoritma – Algoritma apakah yang digunakan untuk memproses informasi dari citra dan membangun penjelasan pada dunia nyata dan objek?. Terdapat 2 istilah umum dalam computer vision, yaitu image processing dan image understanding. Image processing merupakan langkah awal computer vision dalam membahas bagaimana mengolah citra digital melalui teknik-teknik digital dengan tujuan menghilangkan adanya noise dan ketidakteraturan pada citra sehingga meningkatkan kualitas citra, sedangkan image understanding membahas tentang bagaimana menginterpretasikan citra dan membuat suatu keputusan berdasarkan citra, serta membangun deskripsi keadaan yang diperlukan secara eksplisit (Shapiro & Stockman, 2001).. Universitas Sumatera Utara.

(24) 10. 2.2.. Machine Learning. Machine learning merupakan pembelajaran mesin melalui algoritma untuk menyelesaikan permasalahan yang sulit diselesaikan oleh manusia. Pada Goodfellow et al. (2016), machine learning membahas bagaimana sistem machine learning memproses sebuah contoh. Sebuah contoh meliputi kumpulan fitur yang telah teruji secara kuantitatif dari objek tertentu yang akan diproses. Sebuah contoh dapat direpresentasikan dengan vektor 𝑥 ∈ ℝ𝑛 dimana setiap entri xi merupakan vektor dari fitur lain, misalnya fitur pada citra biasanya merupakan nilai piksel. Machine learning dapat menyelesaikan berbagai permasalahan, antara lain: a) Klasifikasi: Untuk keperluan klasifikasi, komputer melakukan spesifikasi kategori k manakah yang sesuai dengan input. Untuk menyelesaikan permasalahan klasifikasi, algoritma pembelajaran akan menghasilkan sebuah fungsi 𝑓: ℝ𝑛 → {1, … , 𝑘}. Ketika 𝑦 = 𝑓(𝑥), model akan memberikan input yang dideskripsikan oleh vektor x ke dalam kategori yang teridentifikasi oleh kode numerik y. Contoh penerapan dari klasifikasi adalah pengenalan objek (object recognition), dimana inputnya adalah citra (himpunan dari nilai kecerahan piksel), dan outputnya adalah kode numerik yang dapat mengidentifikasi objek pada citra. b) Klasifikasi tanpa input (missing input): Klasifikasi menjadi lebih sulit jika input vektor tidak selalu ada atau hilang. Untuk menyelesaikan permasalahan ini, algoritma pembelajaran mendefinisikan sebuah fungsi yang memetakan input vektor ke dalam output kategori. Setiap fungsi berhubungan dengan klasifikasi x dengan bagian dari input yang hilang. Contoh penerapan dari klasifikasi tanpa input adalah untuk keperluan medical diagnosis. c) Regression: Pada regression, komputer akan memprediksi nilai numerik berdasarkan input. Untuk menyelesaikan permasalahan ini, algoritma pembelajaran akan menghasilkan sebuah fungsi 𝑓: ℝ𝑛 → ℝ. Pembelajaran seperti ini mirip dengan klasifikasi, hanya berbeda dalam format output. Contoh penerapan dari regression adalah memprediksi harga objek beberapa tahun yang akan datang. d) Transcription: Pada transcription, komputer akan mengamati data yang memiliki representasi yang relatif tidak terstruktur dan mencatatnya ke dalam bentuk diskret dan tekstual. Contoh penerapan dari transcription adalah untuk optical character. Universitas Sumatera Utara.

(25) 11. recognition (OCR) dan speech recognition. Pada optical character recognition (OCR), input berupa citra yang memiliki teks dan output yang dihasilkan berupa teks dalam bentuk karakter. Sedangkan pada speech recognition, input berupa gelombang suara dan output yang dihasilkan berupa teks hasil konversi gelombang suara. e) Machine translation: Pada machine translation, input berupa urutan simbol dalam sebuah bahasa. Output yang dihasilkan adalah terjemahan simbol ke dalam bahasa lainnya. Contoh penerapan machine translation adalah pemrosesan bahasa alami, seperti translasi bahasa Inggris ke Indonesia. f) Structure output: Structure output berkaitan dengan transcription dan machine translation. Pada structure output, output berupa vektor (atau struktur data lain yang memiliki nilai) dengan hubungan yang penting pada setiap elemen. Contoh penerapan structure output adalah parsing yang memetakan kalimat dalam bahasa alami menjadi bentuk pohon (tree) yang mendeskripsikan struktur gramatik dan tagging nodes (verbs, nouns, adverbs, dan lain-lain). g) Anomaly detection: Pada anomaly detection, komputer akan menyaring himpunan dari objek atau kejadian, dan melaporkan dalam bentuk flag jika terdapat keanehan pada objek tersebut. Contoh penerapan anomaly detection adalah pada sistem pendeteksian penipuan kartu kredit. Dengan memodelkan aktivitas pembelanjaan pengguna, sistem dapat memberitahukan apabila terdapat kegiatan yang mencurigakan, seperti pemakaian kartu kredit yang berlebih. h) Synthesis dan sampling: Pada keperluan ini, algoritma machine learning akan menghasilkan contoh-contoh baru yang mirip dengan data pelatihan. Contoh penerapan synthesis dan sampling adalah pada aplikasi media seperti video games. Pada video games, objek-objek bertekstur seperti bangunan dan pemandangan dapat dilakukan synthesis dan sampling sehingga pengembang video games tidak perlu merancang setiap objek sehingga mempercepat pembangunan sistem. Selain itu, synthesis dan sampling dapat diterapakn untuk keperluan speech synthesis, dimana input merupakan kalimat tertulis dan output yang dihasilkan adalah kalimat dalam bentuk suara. i) Imputation dari missing values: Pada keperluan ini, algoritma machine learning diberikan contoh baru 𝑥 𝜖 ℝ𝑛 , tetapi dengan beberapa nilai xi dari x hilang. Output dari algoritma akan menghasilkan prediksi dari nilai yang hilang.. Universitas Sumatera Utara.

(26) 12. j) Denoising: Pada keperluan ini, algoritma machine learning diberikan input contoh yang rusak (corrupted) 𝑥̃ 𝜖 ℝ𝑛 yang dihasilkan dari dari proses perusakan yang tidak diketahui dari contoh yang bersih (clean) 𝑥 𝜖 ℝ𝑛 . Output yang dihasilkan adalah memprediksi nilai yang bersih x dari nilai yang rusak 𝑥̃ atau memprediksi conditional probability distribution 𝑝(𝑥|𝑥̃). k) Density estimation atau probability mass function estimation: Pada permasalahan ini, algoritma machine learning akan mempelajari sebuah fungsi 𝑝𝑚𝑜𝑑𝑒𝑙 : ℝ𝑛 → ℝ dimana pmodel(x) dapat diinterpretasikan sebagai probability density function (jika x kontinu) atau probability mass function (jika x diskret). Untuk melakukan estimasi, algoritma perlu mempelajari struktur data yang telah ada.. Untuk mengukur kemampuan algoritma machine learning, dibutuhkan perhitungan kuantitatif P terhadap suatu tugas spesifik T pada sistem. Untuk tugas seperti klasifikasi, klasifikasi tanpa input, dan transkripsi, perhitungan yang digunakan adalah perhitungan akurasi pada model. Akurasi merupakan nilai output benar yang dihasilkan oleh model. Selain akurasi, perhitungan juga dapat dilakukan melalui errorrate. Error-rate merupakan nilai output salah yang dihasilkan oleh model. Nilai jangkauan error-rate biasanya antara [0,1] dimana jika error-rate memiliki nilai 0, berarti objek telah berhasil diklasifikasi. Jika error-rate memiliki nilai 1, berarti objek telah gagal diklasifikasi. Hasil pengukuran performa algoritma machine learning biasanya diuji pada data yang belum pernah digunakan pada tahap pelatihan untuk mengukur kemampuan algoritma tersebut jika digunakan pada dunia nyata. Algoritma machine learning dapat dikategorikan menjadi 2 jenis, yaitu: a) Unsupervised learning, merupakan pembelajaran melalui dataset yang memiliki banyak fitur dan kemudian mempelajari properti yang berguna dari struktur dataset. Pada konteks deep learning, pembelajaran biasanya mempelajari keseluruhan distribusi probabilitas yang menghasilkan dataset baik dalam estimasi densitas, sintesis, atau denoising. Algoritma unsupervised learning umumnya melakukan tugas lain, seperti clustering yang membagi dataset menjadi cluster dengan contoh yang mirip. Unsupervised learning menyangkut observasi terhadap beberap contoh dari vektor acak x, dan mencoba mempelajari distribusi probabilitas p(x) secara eksplisit, atau mempelajari properti distribusi menarik lainnya.. Universitas Sumatera Utara.

(27) 13. b) Supervised learning, merupakan pembelajaran melalui dataset yang memiliki banyak fitur, tetapi setiap contohnya memiliki label atau target, contohnya dataset Iris yang memiliki anotasi spesies setiap tanaman iris. Algoritma supervised learning dapat mempelajari dataset tersebut dan mengklasifikasikan tanaman iris menjadi 3 spesies yang berbeda berdasarkan pengukuran yang diberikan. Supervised learning menyangkut observasi dari beberapa contoh vektor acak x dan nilai yang terkait atau vektor y, dan belajar memprediksi y dari x, biasanya dengan mengestimasi p(y | x).. Saat ini, metode pembelajaran mesin menggunakan deep learning merupakan metode yang lebih baik daripada metode neural network dalam melakukan ekstraksi fitur abstrak dan tingkat tinggi. Deep learning dapat menyelesaikan permasalahan yang lebih kompleks dengan menambahkan beberapa layer dan unit pada layer. Permasalahan yang menyangkut pemetaan vektor input ke dalam vektor output dapat diselesaikan dengan deep learning dimana terdapat dataset dalam jumlah besar yang memiliki label. Contoh dari model deep learning adalah multilayer neural network atau multilayer perceptron (MLP).. 2.2.1. Multilayer Perceptron Multilayer perceptron terdiri dari input layer sebagai sumber dari neuron, satu atau lebih hidden layer untuk memproses neuron, dan output layer dari neuron. Setiap layer pada mutilayer perceptron memiliki fungsi tersendiri. Input layer menerima input signal dan mendistribusikan signal tersebut ke semua neuron pada hidden layer. Neuron pada. hidden. layer. akan. mendeteksi. fitur.. Weight. (bobot). pada. neuron. merepresentasikan fitur yang tersembunyi pada pola input. Fitur ini akan digunakan sebagai output layer untuk menentukan pola output (Negnevitsky, 2005).. Universitas Sumatera Utara.

(28) 14. Gambar 2.1. Arsitektur Multilayer Perceptron (Negnevitsky, 2005). Gambar 2.1 menunjukkan arsitektur multilayer perceptron dengan dua hidden layer. Dengan satu hidden layer, setiap fungsi kontinu dari sinyal input dari direpresentasikan. Selan itu, dengan menambahkan satu hidden layer tambahan (hidden layer 2), fungsi diskontinu juga dapat direpresentasikan. Dalam konteks deep learning pada Goodfellow et al. (2016), multilayer perceptron (MLP) dikenal dengan nama deep feedforward network. Tujuan dari deep feedforward network adalah untuk melakukan perkiraan terhadap fungsi f*. Misalnya, untuk sebuah classifier, y = f*(x) memetakan input x ke dalam kategori y, sebuah feedforward network mendefinisikan pemetaan y = f(x; θ) dan mempelajari parameter θ yang menghasilkan perkiraan fungsi yang terbaik. Model ini dikatakan feedforward dikarenakan arus informasi berjalan dari fungsi yang dievaluasi oleh x melalui sebuah komputasi menengah yang digunakan untuk mendefinisikan f, dan kemudian menghasilkan output y. Selain itu, tidak ada hubungan umpan-balik (feedback) dimana output yang dihasilkan dimasukkan kembali. Ketika feedforward neural network diekstensikan dengan menambah umpan-balik, maka neural network yang dihasilkan adalah recurrent neural network. Feedforward neural network memegang peranan penting dalam penelitian yang berhubungan dengan machine learning. Contohnya feedforward network adalah convolutional network digunakan untuk pengenalan objek melalui citra. Feedforward neural network dikatakan sebagai sebuah jaringan dikarenakan representasi jaringannya yang tersusun dari beberapa fungsi. Model ini diasosiasikan dengan graf acyclic berarah yang menggambarkan bagaimana fungsi-fungsi tersusun. Universitas Sumatera Utara.

(29) 15. bersama. Contohnya, jika terdapat n fungsi, f(1), f(2), f(3), ..., f(n) yang terhubung dalam rantai untuk menghasilkan persamaan 2.1. f(x) = f(n)(f(3)(f(2)(f(1)(x)))). Dimana:. (2.1). f(1) = layer pertama f(2) = layer kedua f(3) = layer ketiga f(n) = layer selanjutnya. Struktur rantai ini pada persamaan 2.1 merupakan struktur neural network yang sering digunakan. Keseluruhan panjang dari rantai menghasilkan kedalaman (depth) dari model. Layer terakhir dari feedforward network dinamakan output layer. Pada pelatihan neural network, f(x) akan dicocokkan dengan f*(x). Data training biasanya berupa contoh perkiraan f*(x) yang memiliki banyak noise yang dievaluasi pada titik pelatihan yang berbeda. Setiap contoh x diikuti dengan label y ≈ f*(x). Contoh pelatihan menspesifikasikan apa yang dilakukan output layer pada setiap titik x dan menghasilkan nilai yang mendekati y. Sifat dari layer lainnya tidak dispesifikasikan secara langsung oleh data latih. Oleh karena itu, algoritma pembelajaran harus memutuskan bagaimana menggunakan layer lainnya untuk menghasilkan output yang diinginkan. Data latih sendiri tidak menspesifikasikan apa yang harus dilakukan pada setiap layer. Karena data latih tidak menunjukkan output yang diinginkan pada setiap layer, maka layer ini disebut dengan hidden layer. Setiap hidden layer pada jaringan memiliki nilai vektor. Selain itu, dimensi dari hidden layer menentukan width dari model. Setiap elemen pada vektor dapat diinterpretasikan sebagai sebuah peranan yang analog dengan neuron. Selain merepresentasikan setiap fungsi dari vektor ke vektor, layer juga dapat direpresentasikan sebagai sebuah kumpulan unit yang bekerja secara paralel berdasarkan fungsi vektor ke skalar. Setiap unit menyerupai neuron dalam artian unit menerima input dari unit lainnya dan melakukan komputasi terhadap nilai aktivasinya sendiri. Gambar 2.2 menunjukkan ilustrasi klasifikasi citra menggunakan multilayer perceptron dengan 3 hidden layer dimana input layer berupa piksel citra, hidden layer. Universitas Sumatera Utara.

(30) 16. pertama mendeteksi fitur tepi (edge), hidden layer kedua mendeteksi fitur sudut (corner) dan kontur (contour), dan hidden layer ketiga mendeteksi fitur berdasarkan bagian spesifik dari citra sehingga menghasilkan output berupa identitas objek.. Gambar 2.2. Ilustrasi Klasifikasi Citra Multilayer Perceptron dengan 3 Hidden Layer (Goodfellow et al., 2016). Machine learning melibatkan mekanisme adaptif yang memungkinkan komputer untuk belajar berdasarkan pengalaman, belajar berdasarkan contoh, dan belajar berdasarkan analogi. Pendekatan yang paling sering digunakan dalam machine learning adalah artificial neural networks (ANN) dan algoritma genetika (Negnevitsky, 2005).. 2.3.. Artificial Neural Network (ANN). Negnevitsky (2005) mendefinisikan artificial neural network (ANN) atau jaringan saraf tiruan sebagai sebuah model penalaran yang bekerja berdasarkan cara kerja otak manusia dalam memproses informasi. Artificial neural network terdiri dari sejumlah prosesor sederhana yang saling berhubungan yang dinamakan neuron. Neuron. Universitas Sumatera Utara.

(31) 17. terhubung melalui link dan setiap link memiliki nilai bobot (weight) numerik. Weight merepresentasikan nilai bobot input pada neuron. Gambar 2.3 menunjukkan arsitektur umum dari artificial neural network yang terdiri dari beberapa layer, yaitu input layer, middle layer, dan output layer. Gambar 2.3. Arsitektur Umum Artificial Neural Network (Negnevitsky, 2005). Neuron menerima beberapa signal dari input link, kemudian menghitung tingkat akvitasi baru dan mengirimnya sebagai output signal melalui output link. Input signal dapat berupa data mentah atau output dari neuron lain. Output signal dapat berupa solusi dari sebuah permasalahan atau merupakan input dari neuron lain. Gambar 2.4 menunjukkan arsitektur dari neuron yang menjelaskan bagaimana nilai input signal dan weight dikirim ke neuron dan menghasilkan output signal.. Gambar 2.4. Arsitektur Neuron (Negnevitsky, 2005). Universitas Sumatera Utara.

(32) 18. Pada Kriessel (2007), neuron terdiri dari 3 elemen, yaitu: 1. Propagation function: Fungsi ini mengkonversi input vektor ke dalam input skalar. Untuk sebuah neuron j, propagation function menerima output 𝑜𝑖1 , ..., 𝑜𝑖𝑛 dari neuron lain i1, i2, ..., in yang terhubung ke j, dan mentransformasikannya ke dalam connecting weights wi,j ke dalam network input netj yang dapat diproses oleh activation function. Jika I = {i1, i2, ..., in} merupakan himpunan neuron dimana ∀𝑧 𝜖 {1, … , 𝑛} ∶ ∃𝑤𝑖𝑧,𝑗 . Kemudian, network input dari j, yang dinamakan netj, dihitung menggunakan propagation function fprop yang ditunjukkan oleh persamaan 2.2. 𝑛𝑒𝑡𝑗 = 𝑓𝑝𝑟𝑜𝑝 (𝑜𝑖𝑗 , … , 𝑜𝑖𝑛 , 𝑤𝑖1 ,𝑗 , … , 𝑤𝑖𝑛,𝑗 ). (2.2). Perkalian dari output pada setiap neuron i dari 𝑤𝑖𝑗 dan penjumlahan bobot (weighted sum) ditunjukkan oleh persamaan 2.3. 𝑛𝑒𝑡𝑗 = ∑𝑖𝜖𝐼(𝑜𝑖 ∙ 𝑤𝑖,𝑗 ). (2.3). 2. Activation function: Reaksi dari neuron terhadap nilai input dipengaruhi oleh activation state. Jika j adalah neuron dan aj adalah activation state dari neuron, maka aj akan dialokasikan secara eksplisit untuk j yang mengindikasikan sejauh mana aktivitas neuron dan hasil dari activation function. Activation function menentukan output dari neuron dan bergantung pada network input dan threshold value. Activation function didefinisikan pada persamaan 2.4. 𝑎𝑗 (𝑡) = 𝑓𝑎𝑐𝑡 (𝑛𝑒𝑡𝑗 (𝑡), 𝑎𝑗 (𝑡 − 1), 𝜃𝑗 ). Dimana:. aj(t). = activation state baru. j. = neuron. fact. = activation function. netj. = network input dari neuron. (2.4). aj(t-1) = activation state sebelumnya 𝜃j. = threshold value. Universitas Sumatera Utara.

(33) 19. Pada Negnevitsky (2005), activation function pada artficial neural network terdiri dari 4 jenis, yaitu step function, sign function, sigmoid function, dan linear function. Step function dan sign function disebut juga hard limit function dan umumnya digunakan untuk pengambilan keputusan pada neuron untuk keperluan klasifikasi dan pengenalan pola. Sigmoid function mentransformasikan input dimana nilai input dapat memiliki jangkauan nilai [-∞, ∞] menjadi output dengan jangkauan nilai [0,1]. Neuron pada fungsi ini digunakan pada jaringan backpropagation. Linear activation function menghasilkan output yang setara dengan bobot input pada neuron. Neuron pada fungsi ini umumnya digunakan untuk perkiraan. linear.. Setiap. jenis. activation. function. beserta. grafik. yang. menggambarkan fungsi tersebut dapat dilihat pada Gambar 2.5.. Gambar 2.5. Activation Function pada Neuron (Negnevitsky, 2005). 3. Output function: Output function dari neuron j menghitung nilai yang ditransfer ke neuron lainnya yang terhubung dengan j. Persamaan output function dinyatakan pada persamaan 2.5.. 𝑓𝑜𝑢𝑡 (𝑎𝑗 ) = 𝑜𝑗. Dimana:. fout. = output function. aj. = activation state. oj. = output value dari neuron j. (2.5). Universitas Sumatera Utara.

(34) 20. 2.4.. Convolutional Neural Network (CNN). Dalam Goodfellow et al. (2016), Convolutional Neural Network (CNN) merupakan jenis neural network yang memproses data dengan topologi grid, contohnya untuk data time-series yang berdimensi satu dan data citra yang berdimensi dua. Jaringan ini dinamakan convolutional neural network karena menggunakan operasi linear yang dinamakan operasi convolution untuk melakukan perkalian matriks pada setiap layer. Convolutional neural network terdiri dari neuron yang memiliki bobot dan bias. Setiap neuron menerima beberapa input, melakukan perkalian skalar dan nonlinearitas. Sebuah convolutional neural network sederhana terdiri dari urutan layer dan setiap layer mengubah sejumlah aktivasi melalui fungsi tertentu. Pada umumnya, convolutional neural network terdiri dari beberapa tipe layer, antara lain convolutional layer, pooling layer, dan fully-connected layer.. 2.4.1. Convolutional Layer Convolution merupakan operasi dari dua fungsi berdasarkan nilai argumen real. Misalnya dalam melacak keberadaan pesawat angkasa dengan sensor laser, sebuah sensor laser menghasilkan sebuah output x(t), posisi dari pesawat angkasa dalam waktu t. Nilai x dan t merupakan nilai real. Andaikan sensor laser mengalami gangguan (noise), maka untuk mendapatkan estimasi dari posisi pesawat angkasa dibutuhkan pengukuran. Pengukuran tersebut berupa fungsi bobot w(a), dimana a merupakan usia dari pengukuran. Jika operasi bobot rata-rata (weighted average) diaplikasikan pada setiap momen, maka dihasilkan fungsi baru s yang memberikan estimasi dari posisi pesawat angkasa. Fungsi ini dapat dilihat pada persamaan 2.6.. 𝑠(𝑡) = ∫ 𝑥(𝑎)𝑤(𝑡 − 𝑎)𝑑𝑎. (2.6). Operasi ini dinamakan operasi convolution dan biasanya dinyatakan dilambangkan dengan tanda asterisk (∗) seperti pada persamaan 2.7. 𝑠(𝑡) = (𝑥 ∗ 𝑤)(𝑡). (2.7). Pada contoh pesawat angkasa, w merupakan fungsi densitas probabiltas yang valid atau output yang bukan weighted average. Kemudian, nilai w adalah 0 untuk. Universitas Sumatera Utara.

(35) 21. semua argumen negatif. Dalam terminologi convolutional network, argumen pertama (dalam konteks ini, x) pada convolution mengacu pada input dan argumen kedua (dalam konteks ini, w) mengacu pada kernel. Output pada fungsi mengacu pada pemetaan fitur (feature map). Dalam penerapan machine learning, input biasanya berupa data dalam array multidimensi dan kernel biasanya berupa array parameter multidimensi yang disesuaikan dengan algoritma pembelajaran. Array multidimensi ini biasanya disebut dengan tensor. Operasi convolution umumnya menggunakan lebih dari satu sumbu (axis) dalam satu waktu. Contohnya, jika input adalah citra dua dimensi I, maka kernel K yang digunakan juga berdimensi dua. Fungsi operasi convolution dengan dua sumbu dapat dilihat pada persamaan 2.8. 𝑆(𝑖,𝑗) = (𝐼 ∗ 𝐾)(𝑖, 𝑗) = ∑𝑚 ∑𝑛 𝐼(𝑚, 𝑛)𝐾(𝑖 − 𝑚, 𝑗 − 𝑛). (2.8). Karena operasi convolution memiliki sifat komutatif, maka persamaan dapat ditulis dengan bentuk yang ekuivalen seperti pada persamaan 2.9. 𝑆(𝑖,𝑗) = (𝐾 ∗ 𝐼)(𝑖, 𝑗) = ∑𝑚 ∑𝑛 𝐼(𝑖 − 𝑚, 𝑗 − 𝑛)𝐾(𝑚, 𝑛). Dalam. pembelajarannya,. kebanyakan. library. machine. (2.9). learning. mengimplementasikan teknik cross-correlation dimana operasi convolution dilakukan tanpa kernel-flipping. Operasi convolution tanpa kernel-flipping ditunjukkan pada persamaan 2.10. 𝑆(𝑖,𝑗) = (𝐾 ∗ 𝐼)(𝑖, 𝑗) = ∑𝑚 ∑𝑛 𝐼(𝑖 + 𝑚, 𝑗 + 𝑛)𝐾(𝑚, 𝑛). (2.10). Gambar 2.6. menunjukkan penerapan konvolusi terhadap citra 2 dimensi. Input berupa citra 4x4 akan dikonvolusikan dengan kernel 2x2 sehingga menghasilkan output dengan nilai piksel yang sudah dikonvolusi.. Universitas Sumatera Utara.

(36) 22. Gambar 2.6. Ilustrasi Convolution Operation pada Citra 2 Dimensi dengan Ukuran Kernel 2x2 (Goodfellow, 2016). 2.4.2. Pooling Layer Layer convolutional network umumnya terdiri dari tiga tahapan. Pada tahap pertama, layer melakukan beberapa operasi convolution secara paralel untuk menghasilkan kumpulan aktivasi linear. Pada tahap kedua, setiap aktivasi linear dijalankan melalui sebuah fungsi aktivasi nonlinear, seperti fungsi rectified linear activation. Tahap ini dinamakan tahap detektor (detector stage). Pada tahap ketiga, fungsi pooling digunakan untuk memodifikasi output dari layer. Fungsi pooling menggantikan output dari net pada lokasi tertentu dengan ringkasan statistik pada output yang berdekatan. Sebagai contoh, fungsi max pooling menghasilkan output maksimum dalam lingkungan persegi panjang atau weighted average. Secara keseluruhan, pooling membantu representasi output menjadi invarian terhadap translasi kecil dari input. Invariansi terhadap translasi berarti jika input ditranslasikan dalam ukuran yang kecil, nilai dari output yang sudah melalui tahap pooling tidak akan berubah. Secara keseluruhan, pooling digunakan untuk menangani input yang memiliki berbagai ukuran. Contohnya jika ingin melakukan klasifikasi citra, input klasifikasi. Universitas Sumatera Utara.

(37) 23. citra harus memiliki ukuran yang sama (fixed size). Hal ini biasanya dilakukan dengan mengeset nilai offset yang berbeda antara daerah pooling sehingga layer klasifikasi selalu menerima ringkasan statistik yang sama walaupun input memiliki ukuran yang bervariasi. Pooling layer beroperasi secara independen terhadap setiap kedalaman dari input dan melakukan proses resize secara spasial menggunakan operasi MAX. Bentuk umum dari pooling layer adalah filter berukuran 2x2 yang diaplikasikan dengan stride berukuran 2 yang mengambil sampel pada setiap kedalaman input dan mengabaikan 75% aktivasinya.Setiap operasi MAX bekerja dengan menghitung nilai maksimum dari 4 nilai dari luas 2x2. Ilustrasi pooling layer dengan operasi MAX atau biasa disebut dengan max-pooling dapat dilihat pada Gambar 2.7.. Gambar 2.7. Ilustrasi Operasi Max-Pooling pada Citra (Karpathy, 2016). Pada Gambar 2.7, input berupa citra berukuran 224x224 dengan kedalaman sebesar 64. Citra input kemudian diperkecil menjadi 112x112 dengan kedalaman sebesar 64. Proses pengecilan pada citra menggunakan operasi max-pooling dimana untuk setiap 4 piksel akan diambil satu nilai dengan nilai maksimum dan tiga nilai lainnya diabaikan.. 2.4.3. Fully-Connected Layer Setiap neuron pada fully-connected layer memiliki koneksi penuh terhadap semua aktivasi pada layer sebelumnya. Aktivasi ini dapat dikomputasikan dengan perkalian matriks diikuti dengan bias offset.. Universitas Sumatera Utara.

(38) 24. 2.5.. Deep Convolutional Neural Network (DCNN). Deep Convolutional Neural Network (DCNN) merupakan pengembangan dari metode convolutional neural network dimana terdapat lebih dari satu lapisan CNN untuk tahap pembelajaran yang biasanya dilakukan menggunakan metode back-propagation (Goodfellow et al., 2016). Arsitektur Deep Convolutional Neural Network pada Krizhevsky et al. (2012) yang ditunjukkan pada Gambar 2.8 memiliki 8 weighted layer. Lima layer pertama merupakan convolutional layer dan tiga lainnya merupakan fully-connected layer. Output dari fully-connected layer yang terakhir adalah 1000-way-softmax yang menghasilkan distribusi label sebanyak 1000 kelas. Kernel kedua, keempat, dan kelima dari convolutional layer hanya akan terhubung dengan pemetaan kernel pada layer sebelumnya yang berada pada GPU yang sama. Kernel ketiga dari convolutional layer terhubung dengan semua pemetaan kernel pada layer kedua. Neuron pada fullyconnected layer terhubung dengan semua neuron pada layer sebelumnya. Responsenormalization layer mengikuti convolutional layer pertama dan kedua. Max-pooling layer mengikuti response-normalization layer dan convolutional layer kelima. ReLU non-linearity akan diaplikasikan pada output dari setiap convolutional layer dan fullyconnected layer.. Gambar 2.8. Arsitektur Umum Deep Convolutional Neural Network (DCNN) dengan 5 Convolutional Layer dan 3 Fully-Connected layer (Krizhevsky et al., 2012). Universitas Sumatera Utara.

(39) 25. Input pada convolutional layer pertama adalah citra berukuran 224x224x3. Convolutional layer pertama melakukan filter pada citra input dengan 96 kernel berukuran 11x11x3 dengan stride (jarak antara inti receptive field dari neuron tetangga pada pemetaan kernel). Convolutional layer kedua menggunakan output dari convolutional layer pertama yang telah mengalami proses response-normalized dan pooling sebagai input dan melakukan filter dengan 256 kernel berukuran 5x5x48. Convolutional layer ketiga, keempat, dan kelima terhubung satu sama lain tanpa intervensi pooling atau normalization layers. Convolutional layer ketiga memiliki 384 kernel dengan ukuran 3x3x256 yang terhuhung dengan output pada convolutional layer kedua. Convolutional layer keempat memiliki 384 kernel dengan ukuran 3x3x192. Convolutional layer kelima memiliki 256 kernel dengan ukuran 3x3x192. Setiap fullyconnected layer memiliki 4096 neuron. Gambar 2.9 menunjukkan visualisasi ekstraksi fitur pada setiap convolutional layer. Fitur pada citra dipilih secara acak pada tahap pelatihan dimana setiap fitur direpresentasikan pada setiap blok yang berbeda. Misalnya, fitur pada layer 2 merepresentasikan hubungan sudut (corners), tepi (edge), dan warna (color) pada citra. Fitur pada layer 3 memiliki invarian yang lebih kompleks dan menangkap tekstur yang sama, misalnya pola mash (baris 1, kolom 1), teks (baris 2, kolom 4). Fitur pada layer 4 menunjukkan variasi yang lebih signifikan dan lebih spesifik terhadap kelas tertentu, misalnya wajah anjing (baris 1, kolom 1), kaki burung (baris 4, kolom 2). Fitur pada layer 5 menunjukkan keseluruhan objek dengan variasi pose yang signifikan, misalnya keyboard (baris 1, kolom 1), dan anjing (baris 4, kolom 1 dan 2). Universitas Sumatera Utara.

(40) 26. Gambar 2.9. Visualisasi Ekstraksi Fitur pada Setiap Convolutional Layer (Zeiler & Fergus, 2014). 2.6.. ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Pada Russakovsky (2015), ImageNet Large Scale Visual Recognition Challenge (ILSVRC) merupakan benchmark standar yang digunakan untuk klasifikasi citra yang mampu mengkategorikan ratusan kategori objek dan jutaan citra. Sejak 2010, ILSVRC telah digunakan untuk berbagai penelitian yang berhubungan dengan computer vision, antara lain untuk melakukan klasifikasi citra, lokalisasi satu objek, dan deteksi objek.. Universitas Sumatera Utara.

(41) 27. Ilustrasi klasifikasi citra, lokalisasi satu objek, dan deteksi objek ditunjukkan oleh Gambar 2.10.. Gambar 2.10. Ilustrasi Penelitian ILSVRC Mengenai Klasifikasi Citra, Lokalisasi Satu Objek, dan Deteksi Objek (Russakovsky, 2015). Pada penelitian mengenai klasifikasi citra, data citra yang digunakan berasal dari Flickr dan mesin pencarian lainnya, yang dilabelkan secara manual dengan satu kategori. Setiap citra memiliki satu label ground-truth. Untuk setiap citra, algoritma akan menghasilkan algoritma menghasilkan sejumlah kategori objek yang terdapat pada citra. Kualitas pelabelan pada citra dievaluasi berdasarkan label yang memiliki tingkat kecocokan tertinggi dari label ground-truth. Gambar 2.11 menunjukkan contoh output pada klasifikasi citra. Output berupa lima buah prediksi objek berdasarkan citra input. Ground-truth pada gambar dinyatakan dengan warna biru. Hasil output yang benar dinyatakan dengan warna hijau, sedangkan hasil output yang salah dinyatakan dengan warna merah.. Universitas Sumatera Utara.

(42) 28. Gambar 2.11. Contoh Output pada Klasifikasi Citra (Russakovsky, 2015). Pada penelitian mengenai lokalisasi satu objek, penelitian akan menganalisis kemampuan algoritma dalam mempelajari objek target. Data yang digunakan untuk lokalisasi berasal dari sumber yang sama dengan penelitian untuk klasifikasi citra dimana algoritma mengklasifikasikan objek menjadi 1000 kategori. Setiap citra memiliki satu label ground-truth. Selain itu, satu objek pada citra akan dianotasikan dengan bounding-box yang menandakan posisi dan ukuran dari objek tersebut. Pada penelitian mengenai deteksi objek, penelitian akan melanjutkan penelitian mengenai lokalisasi satu objek dimana penelitian ini akan melokalisasikan semua objek yang terdapat pada citra. Setiap citra memiliki banyak label ground-truth berdasarkan objek yang dapat dikenali. Hasil pada penelitian menghasilkan bounding-box terhadap semua objek yang menandakan posisi dan ukuran dari objek. Kualitas pelabelan citra dievaluasi menggunakan metode recall (jumlah objek target yang terdeteksi) dan presisi (jumlah objek yang salah terdeteksi/objek palsu).. Universitas Sumatera Utara.

(43) 29. Keanekaragaman citra pada dataset ILSVRC dibagi menjadi 8 kategori objek, yaitu berdasarkan ukuran objek, jumlah instansi, clutter, deformabilitas, jumlah tekstur, perbedaan warna, perbedaan bentuk, dan ukuran pada dunia nyata. Setiap kategori objek memiliki range dari rendah ke tinggi. Gambar 2.12 menunjukkan pengklasifikasian keanekaragaman citra pada dataset ILSVRC.. Gambar 2.12. Klasifikasi Citra pada ILSVRC (Russakovsky, 2015). Universitas Sumatera Utara.

(44) 30. 2.7.. Inception-v3. Pada Szegedy et al. (2015), Inception-v3 adalah model deep learning buatan Google yang digunakan untuk pembelajaran mesin. Model ini merupakan model yang sudah dilatih menggunakan dataset ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 yang memiliki jumlah dataset sebanyak 1,2 juta citra dan 1000 kelas. Performa yang dihasilkan dari model mampu melakukan klasifikasi citra dengan sangat baik.. Gambar 2.13. Arsitektur Inception-v3 (Alemi, 2016). Universitas Sumatera Utara.

(45) 31. Arsitektur Inception-v3 yang ditunjukkan pada Gambar 2.13 terdiri dari beberapa komponen, yaitu: a) Convolution, yaitu operasi konvolusi terhadap citra. Tujuan dari operasi ini adalah untuk melihat apakah setiap citra memiliki kemiripan fitur. Setelah mempelajari pola pada citra, sebuah kernel dua dimensi akan dikonvolusikan dengan citra. b) AvgPool, yaitu operasi pooling dengan mengambil nilai rata-rata. c) MaxPool, yaitu operasi pooling dengan mengambil nilai maksimum. d) Concat, yaitu operasi penggabungan nilai yang didapatkan dari operasi pooling. e) Dropout, yaitu operasi regularisasi dengan menambahkan background noise pada saat pelatihan neural network agar model yang telah dilatih mampu melakukan klasifikasi citra walaupun terdapat background noise. Dengan adanya regularisasi, permasalahan overfitting (kondisi dimana mesin mempelajari fitur yang tidak berguna pada saat pelatihan) dapat diminimalisir. Contoh teknik dropout adalah dengan membuang 50% dari neuron pada saat pelatihan dan menambahkan background noise. f) Fully-connected, dimana semua neuron antara layer terhubung penuh. g) Softmax, merupakan hasil akhir yang didapatkan dari pelatihan, yaitu classifier.. 2.8.. Transfer Learning. Dalam Pan & Yang (2010), transfer learning adalah kemampuan sistem dalam mengekstrak pengetahuan yang telah dipelajari sebelumnya untuk tujuan penelitian yang baru. Terdapat definisi transfer learning, yaitu jika terdapat domain sumber DS dan tugas pembelajaran TS, domain target DT dan tugas pembelajaran TT, transfer learning bertujuan meningkatkan pembelajaran dari fungsi prediktif target fT (∙) pada DT dengan pengetahuan pada DS dan TS, dimana DS ≠ DT, atau TS ≠ TT. Berdasarkan definisi tersebut, domain merupakan D = {X, P(X)} dan tugas merupakan T = {Ƴ, P(Y|X)}. Dalam pembelajaran mesin tradisional, data latih dan data uji berasal dari ruang fitur yang sama dan memiliki distribusi yang sama. Ketika terjadi perubahan distribusi, diperlukan pembangunan ulang terhadap data latih. Pada implementasi di dunia nyata, hal ini sangat memakan biaya dan sulit untuk membangun model dari awal. Oleh karena. Universitas Sumatera Utara.

(46) 32. itu, peneliti kemudian mengembangkan teknik pembelajaran baru untuk melakukan pembelajaran yang lebih efisien, yaitu dengan menggunakan teknik transfer learning. Dalam pembelajarannya, transfer learning berbeda dengan pembelajaran mesin tradisional dimana pembelajaran mesin tradisional mempelajari suatu tugas dari awal, sedangkan transfer learning dapat mentransfer pengetahuan yang telah dipelajari dari tugas sebelumnya untuk tujuan yang baru. Dengan menerapkan teknik transfer learning, penelitian yang dilakukan dapat diselesaikan dengan waktu komputasi yang lebih cepat. Gambar 2.14 menunjukkan perbedaan pembelajaran mesin tradisional dan transfer learning.. Gambar 2.14. Perbedaan Proses Pembelajaran Antara (a) Pembelajaran Mesin Tradisional dan (b) Transfer Learning (Pan & Yang, 2010). Transfer learning dapat dilakukan dengan beberapa pengaturan, antara lain dengan inductive transfer learning, transductive transfer learning, dan unsupervised transfer learning.. 2.8.1. Inductive Transfer Learning Inductive transfer learning merupakan transfer learning dimana tujuan target berbeda dari tujuan sumber. Pada hal ini, beberapa data yang sudah dilabel dalam domain target diperlukan untuk menghasilkan sebuah model objektif prediktif fT(∙) untuk digunakan pada domain target.. Universitas Sumatera Utara.