METODE BACKPROPAGATION UNTUK ALIH AKSARA JAWA CETAK MENGGUNAKAN CIRI ICZ-ZCZ
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh:
Osmond Giovanni Indyaputra 155314024
PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
2019
BACKPROPAGATION METHOD FOR PRINTED JAVANESE CHARACTER RECOGNITION USING ICZ-ZCZ
THESIS
Submitted in Partial Fulfillment of The Requirements for The Degree of Sarjana Komputer
In Informatics Engineering Study Program
By:
Osmond Giovanni Indyaputra 155314024
INFORMATICS ENGINEERING STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY YOGYAKARTA
2019
iii
HALAMAN PERSETUJUAN
SKRIPSI
METODE BACKPROPAGATION UNTUK ALIH AKSARA JAWA CETAK MENGGUNAKAN CIRI ICZ-ZCZ
Oleh:
Osmond Giovanni Indyaputra 155314024
Telah Disetujui Oleh:
Dosen Pembimbing
Dr. Anastasia Rita Widiarti, M.Kom. Tanggal: ...
iv
HALAMAN PENGESAHAN SKRIPSI
METODE BACKPROPAGATION UNTUK ALIH AKSARA JAWA CETAK MENGGUNAKAN CIRI ICZ-ZCZ
Dipersiapkan dan Disusun Oleh:
Osmond Giovanni Indyaputra 155314024
Telah Dipertahankan di Depan Panitia Penguji Pada tanggal 11 Juni 2019
dan Dinyatakan Memenuhi Syarat
Susunan Panitia Penguji
Nama Lengkap Tanda Tangan
Ketua : Eko Hari Parmadi S.Si., M.Kom. ...
Sekretaris : Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc. ...
Anggota : Dr. Anastasia Rita Widiarti, M.Kom. ...
Yogyakarta, ...
Fakultas Sains dan Teknologi Universitas Sanata Dharma
Dekan
Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D.
v
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak mengandung atau memuat hasil karya orang lain, kecuali yang telah disebutkan dalam daftar pustaka dan kutipan selayaknya karya ilmiah.
Yogyakarta, ...
Penulis
Osmond Giovanni Indyaputra
vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma:
Nama : Osmond Giovanni Indyaputra NIM : 155314024
Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul:
METODE BACKPROPAGATION UNTUK ALIH AKSARA JAWA CETAK MENGGUNAKAN CIRI ICZ-ZCZ
beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pengkalan data, mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Yogyakarta, ...
Yang menyatakan
Osmond Giovanni Indyaputra
vii ABSTRAK
Indonesia merupakan salah satu negara kepulauan terbesar di dunia, yang memiliki luas wilayah dari Sabang sampai Merauke, sehingga tak heran jika Indonesia memiliki kekayaan budaya. Salah satu budaya Indonesia adalah tulisan kuno dokumen beraksara Jawa, yang memiliki umur puluhan tahun lebih, sehingga perlu adanya digitalisasi bahkan alih aksara untuk dokumen-dokumen tersebut.
Dalam penelitian ini, penulis membuat alih aksara Jawa yang diambil dari 1 halaman buku Hamong Tani. Untuk setiap aksara dilakukan ekstraksi ciri dengan metode ICZ-ZCZ 4*5 zona, dan dari ciri tersebut menjadi input jaringan syaraf tiruan sebagai pengklasifikasiannya dengan metode backpropagation. Sehingga didapatkan akurasi sebesar 97,87% dengan arsitektur jaringan syaraf tiruan yakni 40-45-20-4.
Kata kunci: alih aksara, Image Cetroid and Zone-Zone Centroid and Zone, backpropagation.
viii ABSTRACT
Indonesia is one of the largest archipelagic countries in the world, which has an area from Sabang to Merauke, so it is not surprising that Indonesia has a rich cultural heritage. One of the Indonesian cultures is manuscript in Javanese characters, which have more than a year of age, so that it is necessary to digitize and even translate the documents. In this study, the author made the Javanese character recognition from a scanned page of Hamong Tani's book. For each character a feature is extracted using the ICZ-ZCZ 4 * 5 zone, and from these features it becomes an input of artificial neural networks as a classification with the backpropagation method. So that the accuracy of 97.87% is obtained with the artificial neural network architecture that is 40-45-20-4.
Keywords: character recognition, Image Cetroid Zone and Zone Centroid Zones, backpropagation.
ix MOTTO
Segala perkara dapat kutanggung di dalam Dia yang memberi kekuatan kepadaku.
(Filipi 4:13)
Janganlah takut, sebab Aku menyertai engkau, janganlah bimbang, sebab Aku ini Allahmu; Aku akan meneguhkan bahkan akan menolong engkau; Aku akan
memegang engkau dengan tangan kanan-Ku yang membawa kemenangan.
(Yesaya 41:10)
Dan apa saja yang kamu minta dalam doa dengan penuh kepercayaan, kamu akan menerimanya.
(Matius 21:22)
x
KATA PENGANTAR
Puji syukur saya panjatkan atas hadirat Tuhan Yesus Kristus karena oleh kasihnya yang begitu besar dan penggenapan janji-Nya sehingga tugas akhir saya yang berjudul “Metode Backpropagation untuk Alih Aksara Jawa Cetak Menggunakan Ciri ICZ-ZCZ” dapat diselesaikan dengan baik dan tepat waktu.
Tugas akhir ini merupakan salah satu persyaratan yang wajib ditempuh untuk memperoleh gelar Sarjana Komputer di Program Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta. Selama persiapan dan penyusunan tugas akhir ini saya mendapat banyak dukungan dan bantuan dari berbagai pihak sehingga saya menyampaikan terimakasih kepada:
1. Ibu Dr. Anastasia Rita Widiarti, M.Kom. selaku dosen pembimbing tugas akhir yang telah bersedia memberikan arahan, motivasi, serta kekuatan dalam pekerjaan saya selama saya menyelesaikan tugas akhir.
2. Ibu saya tercinta Mama Maryati yang selalu memberikan segalanya untuk saya, yang bekerja mencari nafkah sendirian untuk saya, agar saya bisa mendapatkan gelar Sarjana Komputer.
3. Kakak saya tercinta Nidia Gabriella yang selalu memberikan motivasi bagi saya untuk tidak pernah menunda-nunda pekerjaan dan tidak boleh mengeluh atas masalah hidup yang dihadapi.
4. Saudari Yussy Natalia yang selalu memberikan semangatnya kepada saya untuk tidak boleh menyerah dalam segala hal.
5. Saudara Yulius Elfrisa, saudara Agenda Yudha, dan saudari Asih Sulistyani teman seperjuangan RPL yang berjuang bersama untuk menyelesaikan tugas akhir kami masing-masing.
6. Seluruh dosen Teknik Informatika Universitas Sanata Dharma yang telah mendidik, memberikan ilmu pengetahuan dan pengalaman yang berharga untuk dapat menyelesaikan tugas akhir saya ini.
7. Teman-teman satu angkatan, keluarga Teknik Informatika 2015 yang juga selalu berjuang bersama untuk menyelesaikan tugas akhir kami masing- masing.
xi
Penulis menyadari bahwa masih ada banyak kekurangan dari tugas akhir ini, sehingga penulis mengharapkan kritik dan saran yang bersifat membangun untuk menyempurnakannya. Semoga tugas akhir ini dapat bermanfaat bagi siapapun yang membacanya dan bagi saya khususnya sebagai penulis.
Yogyakarta, ...
Penulis
Osmond Giovanni Indyaputra
xii DAFTARISI
HALAMAN JUDUL ... i
TITLE PAGE ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
PERNYATAAN KEASLIAN KARYA ... v
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... vi
ABSTRAK ... vii
ABSTRACT ... viii
MOTTO ... ix
KATA PENGANTAR ... x
DAFTAR ISI ... xii
DAFTAR GAMBAR ... xiv
DAFTAR TABEL ... xvi
BAB I PENDAHULUAN ... 1
1.1. Latar Belakang Masalah ... 1
1.2. Rumusan Masalah ... 3
1.3. Tujuan ... 3
1.4. Manfaat Penelitian ... 3
1.5. Batasan Masalah ... 3
1.6. Metodologi Penelitian ... 4
1.7. Sistematika Penulisan ... 4
BAB II LANDASAN TEORI ... 6
2.1. Pengenalan Pola ... 6
2.2. Backpropagation ... 9
2.3. ICZ-ZCZ ... 19
2.4. Pemrosesan Citra Digital ... 24
2.4.1.Preprocessing ... 25
2.4.1.1. Binarization ... 25
2.4.1.2. Noise Reduction (Connected Components) ... 26
2.4.1.3. Segmentation (Profil Proyeksi) ... 29
2.5. Pengujian... 31
2.6. Aksara Jawa ... 33
xiii
BAB III METODE PENELITIAN... 39
3.1. Bahan Riset/Data ... 39
3.2. Peralatan Penelitian ... 39
3.3. Metode Pengumpulan Data ... 39
3.4. Tahap Penelitian... 40
3.4.1.Identifikasi Masalah ... 40
3.4.2.Studi Pustaka ... 40
3.4.3.Pengumpulan Data... 40
3.4.4.Perancangan Alat Uji ... 41
3.4.5.Pengolahan Data ... 41
3.5. Desain Interface ... 48
3.6. Pengujian (Testing) dan Pengukuran Akurasi Sistem ... 48
BAB IV HASIL DAN ANALISA ... 49
4.1. Data ... 49
4.1.1.Akuisisi Data ... 49
4.1.2.Cropping ... 50
4.2. Preprocessing ... 51
4.3. Ekstraksi Ciri ... 56
4.4. Pembuatan Dataset ... 57
4.5. Klasifikasi ... 59
4.6. Pengujian... 61
4.6.1.Satu Hidden Layer ... 62
4.6.2.Dua Hidden Layer ... 63
4.6.3.Arsitektur Optimal ... 64
BAB V PENUTUP ... 69
5.1. Kesimpulan ... 69
5.2. Saran ... 70
DAFTAR PUSTAKA ... 71
LAMPIRAN ... 73
xiv
DAFTAR GAMBAR
Gambar 2.1 Contoh Pola Bentuk Citra ... 6
Gambar 2.2 Struktur Sistem Pengenalan Pola ... 7
Gambar 2.3 Sifat Fitur dan Keterpisahannya (a) Fitur bagus (b) Fitur jelek (c) Fitur keterpisahan linier (d) Fitur keterpisahan nonlinier (d) Fitur berkorelasi tinggi (f) Fitur multi-modal ... 8
Gambar 2.4 Klasifikasi 2 Kelas ... 9
Gambar 2.5 Arsitektur Backpropagation ... 10
Gambar 2.6 Fungsi Aktivasi Sigmoid Biner Range (0,1) ... 11
Gambar 2.7 Fungsi Aktivasi Sigmoid Biner Range (-1,1) ... 11
Gambar 2.8 Contoh Arsitektur Backpropagation ... 14
Gambar 2.9 Citra Aksara Pa ... 20
Gambar 2.10 Pembagian Zona dan Perhitungan Jarak ICZ ... 21
Gambar 2.11 Pembagian Zona dan Perhitungan Jarak (ZCZ) ... 23
Gambar 2.12 Citra Biner “para” ber-noise ... 27
Gambar 2.13 CCL berkonflik ... 28
Gambar 2.14 CCL yang ber-label ... 28
Gambar 2.15 Citra Biner “para”... 30
Gambar 2.16 Hasil Profil Proyeksi Horizontal ... 30
Gambar 2.17 Hasil Profil Proyeksi Vertikal ... 31
Gambar 2.18 Aksara Jawa Legena ... 33
Gambar 2.19 Sandhangan Swara ... 34
Gambar 2.20 Sandhangan Panyigeg Wanda ... 34
Gambar 2.21 Sandhangan Wyanjana ... 35
Gambar 2.22 Sandhangan Pangkon ... 35
Gambar 2.23 Aksara Pasangan ... 36
Gambar 2.24 Penulisan Aksara Apel Batu ... 36
Gambar 2.26 Aksara Wilangan ... 38
Gambar 3.1 Diagram Pengolahan Data ... 41
Gambar 3.2 Diagram Tahap Preprocessing ... 43
Gambar 3.3 Gambar Desain Alat Uji ... 48
Gambar 4.1 Citra Halaman Buku Hamong Tani ... 49
Gambar 4.2 Cropping Aksara ... 50
Gambar 4.3 Citra Biner Aksara Ta ... 51
Gambar 4.4 Noise pada Citra Biner Aksara Pa... 52
Gambar 4.5 Reduksi Derau Citra Biner Aksara Ta... 53
Gambar 4.6 Aksara pepet (a) Citra pepet ber-noise (b) Preprocessing Citra pepet dengan rentang piksel 60 (c) Preprocessing Citra pepet dengan rentang piksel 95 ... 54
Gambar 4.7 Segmentasi Aksara Ta ... 55
Gambar 4.8 Kegagalan Segmentasi Aksara Ni ... 56
Gambar 4.9 Hasil Ekstraksi Ciri Aksara Ta ... 57
Gambar 4.10 Arsitektur Jaringan Klasifikasi Aksara Ta ... 60
Gambar 4.11 Model 3-Fold Cross Validation ... 61
xv
Gambar 4.12 Arsitektur Jaringan 1 Hidden Layer ... 62 Gambar 4.13 Arsitektur Jaringan 2 Hidden Layer ... 63 Gambar 4.14 Arsitektur Jaringan yang Optimal ... 64
xvi
DAFTAR TABEL
Tabel 2.1 Bobot dari Layar Masukan ke Layar Tersembunyi ... 14
Tabel 2.2 Bobot dari Layar Tersembunyi ke Layar Keluaran ... 15
Tabel 2.3 Suku Perubahan Bobot ke Layar Tersembunyi... 17
Tabel 2.4 Perubahan Bobot ke Layar Tersembunyi ... 18
Tabel 2.5 Contoh Tabel Confusion Matrix ... 32
Tabel 3.1 Target dalam Biner... 47
Tabel 4.1 Jumlah Aksara untuk Klasifikasi ... 58
Tabel 4.2 Ciri Aksara Ta ... 59
Tabel 4.5 Akurasi Tertinggi Jaringan 1 Hidden Layer ... 62
Tabel 4.6 Akurasi Tertinggi Jaringan 2 Hidden Layer ... 63
Tabel 4.7 Confusion Matrix 3-Fold Cross Validation Model (a)... 65
Tabel 4.8 Confusion Matrix 3-Fold Cross Validation Model (b) ... 66
Tabel 4.9 Confusion Matrix 3-Fold Cross Validation Model (c)... 67
1 BAB I PENDAHULUAN
1.1. Latar Belakang Masalah
Indonesia merupakan salah satu negara kepulauan terbesar di dunia, yang memiliki luas wilayah dari Sabang sampai Merauke, sehingga tak heran jika Indonesia memiliki kekayaan budaya. Kekayaan budaya yang dimiliki Indonesia sangat beragam, ada adat istiadat seperti upacara adat, ada dari segi kesenian baik tari-tarian, musik daerah, dan dongeng atau cerita rakyat.
Kemudian dari segi bangunan ada candi, benteng, monumen, dan istana. Lalu dari segi peninggalan-peninggalan kuno ada fosil, artefak, arca, dan tulisan kuno. Tulisan kuno juga banyak ditemukan di berbagai media, ada tulisan dari media batu (prasasti), media kertas, dan media daun.
Namun dengan adanya globalisasi, budaya-budaya dari luar pun masuk ke Indonesia. Sehingga budaya Bangsa Indonesia mulai tidak diperhatikan lagi, karena sebagian orang menganggap bahwa budaya dari luar adalah budaya modern. Budaya yang akhir-akhir ini kurang diperhatikan adalah budaya peninggalan berupa tulisan kuno. Salah satu budaya tulisan kuno adalah tulisan-tulisan berupa dokumen beraksara Jawa. Banyak dokumen yang bertuliskan aksara Jawa yang disimpan di Keraton Yogyakarta, dimana dokumen tersebut sangat di jaga keberadaannya. Karena dokumen beraksara Jawa ini, memiliki umur puluhan tahun lebih, sehingga perlu adanya digitalisasi terhadap dokumen tersebut. Bila tidak dilakukan digitalisasi akan membuat dokumen tersebut menjadi rusak bahkan hilang keberadaannya.
Sungguh memprihatinkan jika kondisi tersebut terjadi. Dengan adanya pengenalan pola dan pemrosesan citra, maka dokumen-dokumen kuno tersebut dapat digitalisasikan secara otomatis, bahkan dapat dilakukan alih aksara dari aksara Jawa menjadi tulisan latin, karena masih ada masyarakat yang tidak bisa membaca aksara Jawa, bahkan masyarakat Jawa itu sendiri.
Sehingga dengan adanya alih aksara ini, masyarakat menjadi tahu akan isi dan makna dari dokumen-dokumen kuno tersebut. Beberapa penelitian yang
berkaitan dalam bidang alih aksara ini adalah penelitian dari Widiarti dan Wastu (2009) dengan jumlah data sebanyak 1000 gambar tulisan tangan, dimana 800 gambar sebagai data training dan 200 gambar sebagai data testing. Dari penelitian yang dilakukan, didapatkan hasil dengan tingkat akurasi tertinggi sebesar 85,7% dengan menggunakan metode Hidden Markov Model. Namun ternyata penelitian dari Budhi dan Adipranata (2015) dengan jumlah data sebanyak 620 gambar tulisan tangan, didapatkan akurasi yang lebih tinggi, yakni sebesar 98,71% dengan menggunakan kombinasi metode Chi2 dan backpropagation network.
Berdasarkan dari penelitian yang sudah ada, dan dengan tingkat akurasi diperoleh dari penelitian sebelumnya, maka penulis ingin menerapkan metode yang sama namun dengan data yang berbeda, yakni melakukan alih aksara Jawa cetak beraksara Jawa dengan menggunakan backpropagation untuk pengklasifikasiannya dan menggunakan metode ICZ-ZCZ untuk ekstraksi cirinya. Alasan menggunakan metode backpropagation dan ICZ- ZCZ adalah karena tingginya akurasi yang dihasilkan dari penelitian Budhi dan Adipranata (2015) untuk pengenalan aksara Jawa tulisan tangan yakni sebesar 98,71%, dengan menggunakan kombinasi backpropagation dan Chi2 dan dengan ciri ICZ-ZCZ yang berzonasi 4*5. Akan tetapi dengan metode backpropagation sendiri dan dengan ciri yang sama, akurasi yang dihasilkan hanya 79,03%. Sehingga penulis ingin mencoba apakah dengan data berbeda dapat meningkat kan akurasi dari metode backpropagation untuk alih aksara Jawa. Namun, dengan melakukan alih aksara manuskrip cetak beraksara Jawa ini banyak tantangan yang harus dihadapi, yakni adalah banyaknya noise pada citra input, sehingga perlu adanya noise reduction atau reduksi derau agar informasi yang penulis butuhkah tidak hilang, dalam kata lain yakni agar aksara Jawa tidak hilang dan dapat dilakukan alih aksara. Dengan adanya penelitian ini diharapkan orang akan terbantu dalam mengenal aksara Jawa dan dapat belajar membaca dokumen yang bertuliskan aksara Jawa. Sehingga adanya keikutsertaan untuk melestarikan salah satu kekayaan budaya Indonesia.
1.2. Rumusan Masalah
Berapakah persentase keberhasilan backpropagation dalam melakukan alih aksara pada manuskrip cetak beraksara Jawa ?
1.3. Tujuan
Mengetahui kinerja backpropagation dalam melakukan alih aksara pada manuskrip cetak beraksara Jawa dengan ditunjukan dengan tingkat akurasinya.
1.4. Manfaat Penelitian
Sebagai salah satu cara untuk melestarikan budaya Indonesia berupa peninggalan dokumen kuno yang bertulikan aksara Jawa dengan melakukan pengenalan aksara Jawa.
1.5. Batasan Masalah
Batasan masalah yang ada dalam penelitian ini adalah sebagai berikut:
1. Pengenalan pola berupa sebuah citra aksara dari 1 halaman manuskrip cetak beraksara Jawa (buku Hamong Tani) yang di ambil dari proses scanning. Kemudian, dilakukan proses cropping untuk masing-masing aksara agar dapat menjadi dataset.
2. Kondisi asli manuskrip tidak bersih. Ini akan membuat gambar hasil digitalisasi tidak jelas sehingga citra input memiliki noise yang cukup banyak.
3. Pengenalan aksara Jawa memiliki kesulitan tersendiri karena terbentuk dari aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan), pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup suku kata (sigeg), angka (wilangan), dan tanda baca.
4. Aksara yang diteliti sebanyak 15 jenis aksara dengan jumlah 340 data dengan minimal jumlah dari masing-masing aksara sebanyak 9 data.
5. Luaran yang diharapkan adalah pengenalan aksara.
1.6. Metodologi Penelitian 1. Studi Literatur
Tahap ini adalah tahap untuk mempelajari semua hal-hal yang mendukung penelitian melalui buku-buku referensi ataupun jurnal yang berkaitan dengan pengenalan aksara.
2. Pengumpulan Data
Tahap ini adalah tahap mencari data citra manuskrip cetak beraksara Jawa yang akan digunakan sebagai bahan dalam penelitian. Data dikumpulkan dengan melakukan scanning buku bertuliskan aksara Jawa.
3. Pembuatan Alat Uji
Tahap ini adalah tahap mendesain alat uji dan membangunnya berdasarkan rancangan yang telah dibuat untuk dipakai sebagai alat uji penelitian.
4. Pengujian
Tahap ini sistem diuji performanya dengan menghitung tingkat akurasi yang dihasilkan dalam pengenalan aksara Jawa cetak.
5. Hasil dan Analisa
Tahap ini dilakukan menganalisa hasil penelitian berdasarkan tahapan dan proses yang telah dikerjakan dengan didukung oleh teori-teori yang dipakai.
1.7. Sistematika Penulisan 1. Bab I Pendahuluan
Bagian ini berisi mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi penelitian, dan sistematika penulisan.
2. Bab II Landasan Teori
Bagian ini berisi tentang teori-teori yang berkaitan dengan topik tugas akhir.
3. Bab III Metode Penelitian
Bagian ini berisi tentang bahan riset atau data, peralatan penelitian, metode pengumpulan data, tahap penelitian, desain alat uji, cara pengujian, dan cara pengukuran akurasi sistem.
4. Bab IV Hasil dan Analisa
Bagian ini menjelaskan tentang implementasi dari konsep yang sudah dibuat dan memaparkan hasil analisa terhadap langkah-langkah penelitian yang sudah dikerjakan. Semua langkah penelitian dipaparkan secara rinci dan disertai dengan capture output dari masing-masing tahapan yang telah dilakukan.
5. Bab V Penutup
Bagian ini berisi kesimpulan dari penelitian yang telah dikerjakan. Selain itu juga berisi saran untuk kemajuan dan pengembangan penelitian berikutnya yang mengulas tentang pengenalan aksara Jawa.
6 BAB II
LANDASAN TEORI
2.1. Pengenalan Pola
Menurut Putra (2010) pengenalan pola (pattern recognition) adalah suatu ilmu untuk mengklasifikasikan atau menggambarkan sesuatu berdasarkan pengukuran kuantitatil fitur (ciri) atau sifat utama dari suatu obyek. Pola sendiri adalah suatu entitas yang terdefinisi dan dapat diidentifikasikan serta diberi nama. Pola bisa merupakan kumpulan hasil pengukuran atau pemantulan dan bisa dinyatakan dalam notasi vektor atau matrik. Gambar 2.1 menunjukan contoh hasil pengukuran pola bentuk citra.
Gambar 2.1 Contoh Pola Bentuk Citra
Struktur dari sistem pengenalan pola ditunjukan oleh Gambar 2.2. Sistem terdiri atas sensor (misalnya kamera), suatu algoritma atau mekanisme pencari fitur, dan algoritma untuk klasifikasi atau pengenalan (bergantung pada pendekatan yang dilakukan). Sebagai tambahan, biasanya beberapa data yang sudah diklasifikasikan diasumsikan telah tersedia untuk melatih sistem.
Gambar 2.2 Struktur Sistem Pengenalan Pola
Sensor berfungsi untuk menangkap objek dari dunia nyata dan selanjutnya diubah menjadi sinyal digital (sinyal yang terdiri atas sekumpulan bilangan) melalui proses digitalisasi.
Pra-Pengolahan berfungsi mempersiapkan citra atau sinyal agar dapat menghasilkan ciri yang lebih baik pada tahap berikutnya. Pada tahap ini sinyal informasi ditonjolkan dan sinyal pengganggu (derau atau noise) diminimalisasi.
Pencari dan seleksi fitur berfungsi menemukan karakteristik pembeda yang mewakili sifat utama sinyal dan sekaligus mengurangi dimensi sinyal menjadi sekumpulan bilangan yang lebih sedikit tetapi representatif.
Algoritma klasifikasi berfungsi untuk mengelompokan fitur kedalam kelas yang sesuai.
Algoritma deskripsi berfungsi memberikan deskripsi pada sinyal.
Fitur (features) atau disebut juga atribut adalah semua hasil pengukuran yang bisa diperoleh dan merupakan karakteristik pembeda dari objek fitur dapat berupa simbol seperti warna, numerik seperti serta, atau gabungan keduanya.
Fitur dapat dinyatakan dengan variabel kontinu, diskret, atau diskret-biner.
Fitur biner dapat digunakan untuk menyatakan ada atau tidaknya suatu fitur tertentu. Fitur yang baik memiliki syarat berikut. (1) Mudah dalam komputasi; (2) Mampu sebagai pembeda dan memberikan keberhasilan tinggi dalam pengenalan; Dan, (3) besarnya data dapat diperkecil tanpa menghilangkan informasi penting. Beberapa sifat fitur dijelaskan pada Gambar 2.3.
Gambar 2.3 Sifat Fitur dan Keterpisahannya (a) Fitur bagus (b) Fitur jelek (c) Fitur keterpisahan linier (d) Fitur keterpisahan nonlinier (d) Fitur
berkorelasi tinggi (f) Fitur multi-modal Sumber: Pengolahan Citra Digital, 2010
Vektor fitur (features vector) adalah gabungan atau kombinasi dari beberapa fitur dan dinyatakan sebagai vektor kolom. Benyaknya fitur pembentuk vektor disebut dengan dimensi dari vektor fitur. Pada contoh berikut, x adalah vektor berdimensi 1, y berdimensi 2, z berdimensi 3, dan v berdimensi d.
𝑥 = [𝑡𝑖𝑛𝑔𝑔𝑖] ...(2.1) 𝑦 = [ 𝑏𝑒𝑟𝑎𝑡
𝑘𝑒𝑐𝑒𝑝𝑎𝑡𝑎𝑛] ...(2.2) 𝑧 = [
𝑡𝑖𝑛𝑔𝑔𝑖 𝑏𝑒𝑟𝑎𝑡
𝑘𝑒𝑐𝑒𝑝𝑎𝑡𝑎𝑛] ...(2.3)
𝑣 = [
𝑣1 𝑣2 . . . 𝑣𝑑]
...(2.4)
Pola dapat dikatakan sama dengan fitur atau vektor fitur yang merupakan sifat utama dari suatu objek. namun, dalam pengenalan (klasifikasi), pola merupakan sepasang variabel (x , ω) dengan x menyatakan sekumpulan pemantauan (pengamatan) atau fitur atau vektor fitur, sedangkan ω merupakan konsep dibalik pengamatan.
Pemisah (classifier) merupakan teknik atau metode untuk memilah (mengelompokan) vektor fitur ke dalam kelas-kelas tertentu. Pada Gambar 2.4 pemilah berperan dalam membagi daerah ruang fitur ke dalam daerah yang berhubungan dengan kelas A atau kelas B. Garis pemisah antara kedua kelas tersebut disebut dengan garis keputusan (decision line).
Gambar 2.4 Klasifikasi 2 Kelas
2.2. Backpropagation
Menurut Siang (2005) backpropagation melatih jaringan untuk mendapatkan keseimbangan antara kemampuan jaringan untuk mengenali pola yang digunakan selama pelatihan serta kemapuan jaringan untuk memberikan respon yang benar terhadap pola masukan yang serupa (tapi tidak sama) dengan pola yang dipakai selama pelatihan.
Backpropagation memiliki beberapa unit yang ada dalam satu atau lebih layar tersembunyi. Gambar 2.5 adalah arsitektur backpropagation dengan n buah masukan (ditambah sebuah bias), sebuah layar tersembunyi yang terdiri dari p unit (ditambahkan sebuah bias), serta m buah unit keluaran.
Gambar 2.5 Arsitektur Backpropagation
vji merupakan bobot garis dari unit masukan xi ke unit layar tersembunyi zj
(vj0 merupakan bobot garis yang menghubungkan bias di unit masukan ke unit layar tersembunyi zj), wkj merupakan bobot dari unit layar tersembunyi zj ke unit keluaran yk (wk0 merupakan bobot dari bias di layar tersembunyi ke unit keluaran zk).
Dalam backpropagation, fungsi aktivasi yang akan dipakai harus memenuhi beberapa syarat yaitu: kontinu, terdeferensial dengan mudah dan merupakan fungsi yang tidak turun. Salah satu fungsi yang memenuhi ketiga syarat tersebut sehingga sering dipakai adalah fungsi sigmoid biner yang memiliki range (0,1).
𝑓(𝑥) =1+𝑒1−𝑥 ... (2.5) dengan turunan
𝑓′(𝑥) = 𝑓(𝑥)(1 − 𝑓(𝑥)) ... (2.6)
Grafik fungsinya tampak pada Gambar 2.6
Gambar 2.6 Fungsi Aktivasi Sigmoid Biner Range (0,1)
Fungsi lain yang sering dipakai adalah fungsi sigmoid bipolar yang bentuk fungsinya mirip dengan fungsi sigmoid biner, tapi dengan range (-1,1).
𝑓(𝑥) =1+𝑒2−𝑥− 1 ... (2.7) dengan turunan
𝑓′(𝑥) =(1+𝑓(𝑥))(1−𝑓(𝑥))
2 ... (2.8) Grafik fungsinya tampak pada Gambar 2.7
Gambar 2.7 Fungsi Aktivasi Sigmoid Biner Range (-1,1)
Fungsi sigmoid memiliki nilai maksimum = 1. Maka untuk pola yang targetnya > 1, pola masukan dan keluaran harus terlebih dahulu ditransformasi sehingga semua polanya memiliki range yang sama seperti sigmoid yang dipakai. Alternatif lain adalah menggunakan fungsi aktivasi sigmoid hanya pada layar yang bukan layar keluaran. Pada layar keluaran, fungsi aktivasi yang dipakai adalah fungsi identitas : 𝑓(𝑥) = 𝑥.
Pelatihan backpropagation meliputi 3 fase. Fase pertama adalah fase maju. Pola masukan dihitung maju mulai dari layar masukan hingga layar keluaran menggunakan fungsi aktivasi yang ditentukan. Fase kedua adalah fase mundur. Selisih antara keluaran jaringan dengan target yang diinginkan merupakan kesalahan yang terjadi. Kesalahan tersebut dipropagasikan mundur, dimulai dari garis yang berhubungan langsung dengan unit-unit di layar keluaran. Fase ketiga adalah modifikasi bobot untuk menurunkan kesalahan yang terjadi.
Fase I : propagasi maju
Selama propagasi maju, sinyal masukan (= xi) dipropagasikan ke layar tersembunyi menggunakan fungsi aktivasi yang ditentukan. Keluaran dari setiap unit layar tersembunyi (= zj) tersebut selanjutnya dipropagasikan maju lagi ke layar tersembunyi di atasnya menggunakan fungsi aktivasi yang ditentukan. Demikian seterusnya hingga menghasilkan keluaran jaringan (=
yk).
Berikutnya, keluaran jaringan (= yk) dibandingkan dengan target yang harus dicapai (tk). Selisih tk – yk adalah kesalahan yang terjadi. Jika, kesalahan ini lebih kecil dari batas toleransi yang ditentukan, maka iterasi dihentikan.
Akan tetapi apabila kesalahan masih lebih besar dari batas toleransinya, maka bobot setiap garis dalam jaringan akan dimodifikasi untuk mengurangi kesalahan yang terjadi.
Fase II: propagasi mundur
Berdasarkan kesalahan tk – yk, dihitung faktor δk (k = 1, 2, ..., m) yang dipakai untuk mendistribusikan kesalahan di unit yk kesemua unit tersembunyi yang terhubung langsung dengan yk. δk juga dipakai untuk mengubah bobot garis yang berhubungan langsung dengan unit keluaran.
Dengan cara yang sama, dihitung faktor δj di setiap unit di layar tersembunyi sebagai dasar perubahan bobot semua garis berasal dari unit tersembunyi di layar di bawahnya. Demikian seterusnya hingga semua faktor
δ di unit tersembunyi yang berhubungan langsung dengan unit masukan dihitung.
Fase III : perubahan bobot
Setelah semua faktor δ dihitung, bobot semua garis dimodifikasi bersamaan. Perubahan bobot suatu garis didasarkan atas faktor δ neuron di atasnya. Sebagai contoh, perubahan bobot garis yang menuju ke layar keluaran didasarkan atas δk yang ada di unit keluaran.
Ketiga fase tersebut diulang-ulang terus hingga kondisi penghentian dipenuhi. Umumnya kondisi penghentian yang dipakai adalah jumlah iterasi atau kesalahan. Iterasi akan dihentikan jika jumlah iterasi yang dilakukan sudah melebihi jumlah maksimum iterasi yang ditetapkan, atau jika kesalahan yang terjadi sudah lebih kecil dari batas toleransi yang diijinkan.
Sebagai contoh dalam penerapan algoritma pelatihan untuk jaringan dengan satu layar tersembunyi [3.36 2.58 3.21 2.56 3.37 4.85] merupakan matrix 1x6 sebagai input dari model backpropagation dan dengan fungsi aktivasi sigmoid biner adalah sebagai berikut:
Arsitektur backpropagation dengan 1 layar tersembunyi yang terdiri dari 3 unit untuk target bernilai 0 tampak pada Gambar 2.8.
Gambar 2.8 Contoh Arsitektur Backpropagation
Langkah 0 : Inisialisasi semua bobot dengan bilangan acak kecil. Misal didapat bobot seperti Tabel 2.1 (bobot dari layar masukan ke layar tersembunyi y = vji) dan 2.2 (bobot dari layar tersembunyi ke layar keluaran
= wkj).
Tabel 2.1 Bobot dari Layar Masukan ke Layar Tersembunyi
z1 z2 z3
x1 0.2 0.3 -0.1
x2 0.3 0.1 -0.1
x3 -0.1 0.2 0.3
x4 0.2 -0.1 0.3
x5 -0.1 -0.3 0.2
x6 0.3 0.1 0.2
1 -0.3 0.3 0.3
Tabel 2.2 Bobot dari Layar Tersembunyi ke Layar Keluaran y
z1 0.5
z2 -0.3
z3 -0.4
1 -0.1
Iterasi 1
Langkah 1 : Hitung keluaran unit tersembunyi (zj)
𝑧_𝑛𝑒𝑡𝑗 = 𝑣𝑗0+ ∑ 𝑥𝑖𝑣𝑗𝑖
𝑛
𝑖=1
………(2.9)
𝑧_𝑛𝑒𝑡1= −0.3 + 3.36(0.2) + 2.58(0.3) + 3.21(−0.1) + 2.56(0.2) + 3.37(−0.1) + 4.85(0.3) = 2.46
𝑧_𝑛𝑒𝑡2= 0.3 + 3.36(0.3) + 2.58(0.1) + 3.21(0.2) + 2.56(−0.1) + 3.37(−0.3) + 4.85(0.1) = 1.43
𝑧_𝑛𝑒𝑡3= 0.3 + 3.36(−0.1) + 2.58(−0.1) + 3.21(0.3) + 2.56(0.3) + 3.37(0.2) + 4.85(0.2) = 3.08
𝑧𝑗 = 𝑓 (𝑧𝑛𝑒𝑡𝑗) = 1
1 + 𝑒−𝑧_𝑛𝑒𝑡𝑗 ………(2.10)
𝑧1 = 1
1 + 𝑒−2.46 = 0.92; 𝑧2 = 1
1 + 𝑒−1.43= 0.81; 𝑧3 = 1
1 + 𝑒−3.08 = 0.96 Langkah 2 : Hitung keluaran unit (yk)
𝑦_𝑛𝑒𝑡𝑘 = 𝑤𝑘0+ ∑ 𝑧𝑗𝑤𝑘𝑗
𝑝
𝑗=1
……….(2.11)
Karena jaringan hanya memiliki sebuah unit keluaran y maka y_netk = 𝑦𝑛𝑒𝑡 = 𝑤10+ ∑3𝑗=1𝑧𝑗𝑤𝑘𝑗 = −0.1 + 0.92(0.5) + 0.81(−0.3) + 0.96(−0.4)=
−0.26
𝑦 = 𝑓(𝑦_𝑛𝑒𝑡) = 1
1 + 𝑒−𝑦_𝑛𝑒𝑡 = 1
1 + 𝑒0.35= 0.57 Langkah 3 : Hitung faktor δ di unit keluaran yk
𝛿𝑘 = (𝑡𝑘− 𝑦𝑘)𝑓′(𝑦_𝑛𝑒𝑡𝑘) = (𝑡𝑘− 𝑦𝑘)𝑦𝑘(1 − 𝑦𝑘) ...(2.12)
Karena jaringan hanya memiliki sebuah keluaran maka 𝛿𝑘 = 𝛿 = (𝑡 − 𝑦)𝑦(1 − 𝑦) = (0 − 0.57)(0.57)(1 − 0.57) = −0.14
Suku perubahan bobot wkj (dengan α = 0.2):
∆𝑤𝑘𝑗= 𝛼 𝛿𝑘 𝑧𝑗 ; 𝑘 = 1, 2, … , 𝑝 ; 𝑗 = 0, 1, … , 𝑛 ………(2.13)
∆𝑤𝑘𝑗 = 𝛼 𝛿 𝑥𝑗 ; 𝑗 = 0, 1, 2, 3
∆𝑤10= 0.2(−0.14)(1) = −0.8
∆𝑤11= 0.2(−0.14)(0.92) = −0.74
∆𝑤12= 0.2(−0.14)(0.81) = −0.65
∆𝑤13= 0.2(−0.14)(0.96) = −0.76
Langkah 4 : Hitung faktor δ unit tersembunyi berdasarkan kesalahan di setiap unit tersembunyi zj (j = 1, 2, ... , p)
𝛿_𝑛𝑒𝑡𝑗 = ∑ 𝛿𝑘𝑤𝑘𝑗
𝑚
𝑘=1
………(2.14)
Karena jaringan hanya memiliki sebuah unit keluaran maka δ_netj = δ w1j 𝛿_𝑛𝑒𝑡1 = (−0.14)(0.5) = −0.07
𝛿_𝑛𝑒𝑡2 = (−0.14)(−0.3) = 0.04 𝛿_𝑛𝑒𝑡3 = (−0.14)(−0.4) = 0.06 Faktor δ unit tersembunyi :
𝛿𝑗 = 𝛿_𝑛𝑒𝑡𝑗 𝑓′(𝑧_𝑛𝑒𝑡𝑗) = 𝛿_𝑛𝑒𝑡𝑗 𝑧𝑗 (1 − 𝑧𝑗) ………(2.15)
𝛿1 = (−0.07)(0.92)(1 − 0.92) = −0.01 𝛿2 = (0.04)(0.81)(1 − 0.81) = 0.01 𝛿3 = (0.06)(0.96)(1 − 0.96) = 0.00
Hitung suku perubahan bobot vji (yang akan dipakai nanti untuk merubah bobot vji)
∆𝑣𝑗𝑖 = 𝛼 𝛿𝑗 𝑥𝑖 ; 𝑗 = 1, 2, … , 𝑝 ; 𝑖 = 0, 1, … , 𝑛 ………...(2.16)
Tabel 2.3 Suku Perubahan Bobot ke Layar Tersembunyi
z1 z2 z3
x1 Δvji = (0.2)(-0.01)(3.36) = 0 Δvji = (0.2)(0.01)(3.36) = 0 Δvji = (0.2)(0)(3.36) = 0
x2 Δvji = (0.2)(-0.01)(2.58) = 0 Δvji = (0.2)(0.01)(2.58) = 0 Δvji = (0.2)(0)(2.58) = 0
x3 Δvji = (0.2)(-0.01)(3.21) = 0 Δvji = (0.2)(0.01)(3.21) = 0 Δvji = (0.2)(0)(3.21) = 0
x4 Δvji = (0.2)(-0.01)(2.56) = 0 Δvji = (0.2)(0.01)(2.56) = 0 Δvji = (0.2)(0)(2.56) = 0
x5 Δvji = (0.2)(-0.01)(3.37) = Δvji = (0.2)(0.01)(3.37) = 0 Δvji = (0.2)(0)(3.37) = 0
x6 Δvji = (0.2)(-0.01)(4.85) = 0 Δvji = (0.2)(0.01)(4.85) = 0 Δvji = (0.2)(0)(4.85) = 0
1 Δvji = (0.2)(-0.01)(1) = 0 Δvji = (0.2)(0.01)(1) = 0 Δvji = (0.2)(0)(1) = 0
Langkah 4 : Hitung semua perubahan bobot
Perubahan bobot garis yang menuju ke unit keluaran:
𝑤𝑘𝑗(𝑏𝑎𝑟𝑢) = 𝑤𝑘𝑗(𝑙𝑎𝑚𝑎) + ∆𝑤𝑘𝑗 ; (𝑘 = 1, 2, … , 𝑚 ; 𝑗 = 0, 1, … , 𝑝).. (2.17) 𝑤10(𝑏𝑎𝑟𝑢) = −0.1 − 0.8 = −0.9
𝑤11(𝑏𝑎𝑟𝑢) = 0.5 − 0.74 = −0.24 𝑤12(𝑏𝑎𝑟𝑢) = −0.3 − 0.65 = −0.95 𝑤13(𝑏𝑎𝑟𝑢) = −0.4 − 0.76 = −1.16
Perubahan bobot garis yang menuju ke unit tersembunyi:
𝑣𝑗𝑖(𝑏𝑎𝑟𝑢) = 𝑣𝑗𝑖(𝑙𝑎𝑚𝑎) + ∆𝑣𝑗𝑖 ; (𝑗 = 1, 2, … , 𝑝 ; 𝑖 = 0, 1, … , 𝑛)... (2.18) Tabel 2.4 Perubahan Bobot ke Layar Tersembunyi
z1 z2 z3
x1 Δvji(baru) = 0.2 + 0 = 0.2 Δvji(baru) = 0.3 + 0 = 0.3 Δvji(baru) = -0.1 + 0 = - 0.1
x2 Δvji(baru) = 0.3 + 0 = 0.3 Δvji(baru) = 0.1 + 0 = 0.1 Δvji(baru) = -0.1 + 0 = - 0.1
x3 Δvji(baru) = -0.1 + 0 = -0.1 Δvji(baru) = 0.2 + 0 = 0.2 Δvji(baru) = 0.3 + 0 = 0.3
x4 Δvji(baru) = 0.2 + 0 = 0.2 Δvji(baru) = -0.1 + 0 = -0.1 Δvji(baru) = 0.3 + 0 = 0.3
x5 Δvji(baru) = -0.1 + 0 = -0.1 Δvji(baru) = 0.2 + 0 = -0.3 Δvji(baru) = 0.2 + 0 = 0.2
x6 Δvji(baru) = 0.3 + 0 = 0.3 Δvji(baru) = 0.1 + 0 = 0.1 Δvji(baru) = 0.2 + 0 = 0.2
1 Δvji(baru) = -0.3 + 0 = -0.3 Δvji(baru) = 0.3 + 0 = 0.4 Δvji(baru) = 0.3 + 0 = 0.3
Ulangi langkah 1 hingga kondisi pernghentian belum terpenuhi.
Iterasi 2
Langkah 1 : Hitung keluaran unit tersembunyi (zj)
𝑧_𝑛𝑒𝑡1= −0.3 + 3.36(0.2) + 2.58(0.3) + 3.21(−0.1) + 2.56(0.2) + 3.37(−0.1) + 4.85(0.3) = 2.46
𝑧_𝑛𝑒𝑡2= 0.3 + 3.36(0.3) + 2.58(0.1) + 3.21(0.2) + 2.56(−0.1) + 3.37(−0.3) + 4.85(0.1) = 1.43
𝑧_𝑛𝑒𝑡3= 0.3 + 3.36(−0.1) + 2.58(−0.1) + 3.21(0.3) + 2.56(0.3) + 3.37(0.2) + 4.85(0.2) = 3.08
𝑧1 = 1
1 + 𝑒−2.46 = 0.92; 𝑧2 = 1
1 + 𝑒−1.43= 0.81; 𝑧3 = 1
1 + 𝑒−3.08 = 0.96
Langkah 2 : Hitung keluaran unit (yk)
Karena jaringan hanya memiliki sebuah unit keluaran y maka y_netk = 𝑦𝑛𝑒𝑡 = 𝑤10+ ∑3𝑗=1𝑧𝑗𝑤𝑘𝑗 = −0.9 + 0.92(−0.24) + 0.81(−0.95) +
0.96(−1.16) = −3 𝑦 = 𝑓(𝑦_𝑛𝑒𝑡) = 1
1 + 𝑒−𝑦_𝑛𝑒𝑡 = 1
1 + 𝑒−3= 0
Karena y = t = 0 maka kondisi penghentian sudah terpenuhi karena keluaran
= target yaitu bernilai 0.
2.3. ICZ-ZCZ
Image Centroid Zone (ICZ) dan Zone Centroid Zone (ZCZ) adalah metode ekstraksi ciri yang memanfaatkan jenis zonasi dan zona sentroid dari zona sebuah citra telah dibagi menjadi beberapa bagian. Metode ini dimulai dengan membagi suatu gambar ke beberapa zona yang sama. Setelah membagi gambar menjadi zona yang sama, metode ICZ menghitung pusat dari gambar. Untuk setiap zona, jarak rata-rata antara gambar hitam piksel dan zona centroid dihitung. Dalam metode ZCZ, pusat dari gambar dihitung sebagai ganti centroid dari masing-masing zona. Untuk masing-masing zona, jarak rata-rata antara piksel gambar hitam dan pusat gambar adalah dihitung.
Jarak rata-rata kemudian digunakan sebagai fitur untuk klasifikasi (Budhi &
Adipranata, 2015). Untuk menemukan titik centroid dapat dinyatakan dengan rumus sebagai berikut:
𝑥𝑐 =∑𝑛𝑖=1𝑥𝑖. 𝑝𝑖
∑𝑛𝑖=1𝑝𝑖 ………(2.19)
𝑦𝑐 =∑𝑛𝑖=1𝑦𝑖. 𝑝𝑖
∑𝑛𝑖=1𝑝𝑖 ………(2.20)
Dengan:
xc : centroid pada koordinat x yc : centroid pada koordinat y xi : koordinat titik x ke-i yi : koordinat titik y ke-i pi : nilai piksel pada titik ke-i
Dalam perhitungan jarak antara centroid dengan nilai piksel yang ada di dalam zona, digunakan perhitungan jarak euclidean distance dengan rumus pada persamaan 2.21.
𝑑(𝑥, 𝑦) = √∑(𝑥𝑘− 𝑦𝑘)2
𝑛
𝑘=1
………(2.21)
Dengan:
d(x,y) : jarak antara vektor objek x dan y n : jumlah dimensi objek
xk , yk : nilai vektor objek x dan y ke-k
Gambar 2.9 Citra Aksara Pa
Misalkan terdapat sebuah citra aksara pa seperti Gambar 2.9. prinsip kerja dari ekstraksi ciri menggunakan ICZ adalah sebagai berikut. Langkah pertama adalah mencari titik centroid-nya. Citra masukan untuk proses ekstraksi ciri adalah citra biner, sehingga objek dari citra memiliki representasi nilai 1, atau bagian yang berwarna putih. Dengan demikian nilai xi dan yi adalah 1 sedangkan untuk nilai pi tergantung dari sumbu mana yang akan dicari, jika sumbu x maka nilai pi merupakan nilai kordinat objek pada sumbu x, sedangkan jika sumbu y maka nilai pi merupakan nilai koordinat objek pada sumbu y. Berdasarkan pada persamaan rumus 2.19 dan 2.20 ketika
suatu bilangan dikalikan 1 akan menghasilkan bilangan itu sendiri, maka secara sederhana kita cukup menjumlahkan nilai koordinat pada masing- masing sumbu untuk setiap piksel objeknya. Titik centroid untuk xc dan yc
dapat dihitung dengan:
𝑥𝑐=2 + 3 + 7 + 8 + 1 + 4 + 6 + 9 + 1 + 4 + 6 + 9 + 1 + 4 + 6 + 9 + 1 + 4 + 6 + 9 + 1 + 4 + 5 + 6 + 9 25
= 5
𝑦𝑐=1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 6 25
= 3,6
Dengan hasil yang diperoleh maka koordinat centroid objek tersebut berada di titik (5,3.6). Setelah titik centroid diperoleh maka objek tersebut dibagi menjadi beberapa zona. Sebagai contoh objek tersebut dibagi menjadi 3 zona secara horizontal. Kemudian setelah dibagi menjadi 3 zona secara horizontal, hitung jarak masing-masing piksel yang ada disetiap zona terhadap titik centroid-nya. Total nilai jarak yang ada disetiap zona merupakan nilai rerata dari jarak semua piksel di zona tersebut. hasil dari ekstraksi ciri ICZ akan menghasilkan 3 fitur dari objek tersebut.
Gambar 2.10 Pembagian Zona dan Perhitungan Jarak ICZ
Gambar 2.10 merupakan represntasi pembagian zona menggunakan ICZ yang dibagi menjadi 3 zona sama besar secara horizontal pada citra aksara pa.
Perhitungan untuk fitur pada zona 1 adalah sebagai berikut:
𝑑1 = √(2 − 5)2+ (1 − 3.6)2 = 3.97
𝑑2 = √(3 − 5)2+ (1 − 3.6)2 = 3.28 𝑑3 = √(7 − 5)2+ (1 − 3.6)2 = 3.28 𝑑4 = √(8 − 5)2+ (1 − 3.6)2 = 3.97 𝑑5 = √(1 − 5)2+ (2 − 3.6)2 = 4.31 𝑑6 = √(4 − 5)2+ (2 − 3.6)2 = 1.89 𝑑7 = √(6 − 5)2+ (2 − 3.6)2 = 1.89 𝑑8 = √(9 − 5)2+ (2 − 3.6)2 = 4.31
𝑓𝑖𝑡𝑢𝑟1 =3.97 + 3.28 + 3.28 + 3.97 + 4.31 + 1.89 + 1.89 + 4.31
8 = 3.36
Berdasarkan hasil perhitungan di atas maka ciri atau fitur dari zona 1 adalah 3.36. Cara yang sama juga berlaku untuk mencari nilai ciri atau fitur pada zona 2 dan zona 3 sehingga diperoleh fitur zona ke 2 adalah 2.58 serta zona ke 3 adalah 3.21. Jika digabungkan maka menghasilkan 3 fitur, yaitu [3.36 2.58 3.21]. Setelah semua ciri yang dihitung menggunakan metode ICZ diperoleh, maka dilanjutkan dengan mengekstrak ciri objek menggunakan metode ZCZ.
Prinsip kerja dari ekstaksi ciri menggunakan ZCZ adalah sebagai berikut. Langkah pertama adalah membagi ke dalam beberapa zona, sama dengan langkah sebelumnya, yaitu membagi ke dalam 3 zona secara horizontal kemudian mencari titik centroid untuk setiap zona yang ada.
Setelah didapatkan titik centroid-nya, kemudian hitung jarak antara masing- masing piksel yang ada disetiap zona terhadap titik centroid-nya menggunakan euclidean distance. Total nilai jarak yang ada disetiap zona merupakan nilai rerata dari jarak semua piksel di zona tersebut. Hasil ekstraksi ciri ZCZ akan menghasilkan 3 fitur dari objek tersebut, sesuai dengan jumlah pembagian zona yang diberikan.
Adapun titik centroid xc dan yc pada zona 1 adalah sebagai berikut:
𝑥𝑐 =2 + 3 + 7 + 8 + 1 + 4 + 6 + 9
8 = 5
𝑦𝑐 =1 + 1 + 1 + 1 + 2 + 2 + 2 + 2
8 = 1.5
Dengan demikian maka titik centroid pada zona 1 adalah (5 , 1.5). Proses yang sama juga dilakukan untuk mencari titik centroid pada zona 2 dan zona 3, yang masing-masing titik centroid-nya adalah (5 , 3.5) dan (5 , 5.56).
Gambar 2.11 Pembagian Zona dan Perhitungan Jarak (ZCZ)
Gambar 2.11 merupakan representasi pembagian zona menggunakan ZCZ yang dibagi menjadi 3 zona sama besar secara horizontal pada citra aksara pa.
Perhitungan untuk fitur pada zona 1 adalah sebagai berikut:
𝑑1 = √(2 − 5)2+ (1 − 1.5)2 = 3.04 𝑑2 = √(3 − 5)2+ (1 − 1.5)2 = 2.06 𝑑3 = √(7 − 5)2+ (1 − 1.5)2 = 2.06 𝑑4 = √(8 − 5)2+ (1 − 1.5)2 = 3.04 𝑑5 = √(1 − 5)2+ (2 − 1.5)2 = 4.03
𝑑6 = √(4 − 5)2+ (2 − 1.5)2 = 1.12 𝑑7 = √(6 − 5)2+ (2 − 1.5)2 = 1.12 𝑑8 = √(9 − 5)2+ (2 − 1.5)2 = 4.03
𝑓𝑖𝑡𝑢𝑟1 =3.04 + 2.06 + 2.06 + 3.04 + 4.03 + 1.12 + 1.12 + 4.03
8 = 2.56
Berdasarkan hasil perhitungan di atas maka ciri atau fitur dari zona 1 adalah 2.56. Cara yang sama juga berlaku untuk mencari nilai ciri atau fitur pada zona 2 dan zona 3 sehingga diperoleh fitur zona ke 2 adalah 3.37 serta zona ke 3 adalah 4.85. Jika digabungkan maka menghasilkan 3 fitur, yaitu [2.56 3.37 4.85]. Setelah semua ciri yang dihitung menggunakan metode ICZ dan ZCZ diperoleh, lalu fitur tersebut digabungkan sehingga menjadi 6 fitur yang mempresentasikan citra tersebut, sehingga dapat ditulis [3.36 2.58 3.21 2.56 3.37 4.85].
2.4. Pemrosesan Citra Digital
Menurut Putra (2010) secara umum, pengolahan citra digital menunjuk pada pemrosesan gambar 2 dimensi menggunakan komputer. Dalam konteks yang lebih luas, pengolahan citra digital mengacu pada pemrosesan setiap data 2 dimensi. Citra digital merupakan sebuah larik (array) yang berisi nilai- nilai real maupun komplek yang dipresentasikan dengan deretan bit tertentu.
Suatu citra dapat didefinisikan sebagai fungsi 𝑓(𝑥, 𝑦) berukuran M baris dan N kolom, dengan 𝑥 dan 𝑦 adalah koordinat spasial, dan amplitudo 𝑓 di titik koordniat (𝑥, 𝑦) dinamakan intensitas atau tingkat keabuan dari citra pada titik tersebut. Apabila nilai 𝑥, 𝑦, dan nilai amplitudo 𝑓 secara keseluruhan berhingga (finite) dan bernilai diskrit maka dapat dikatakan bahwa citra tersebut adalah citra digital. Citra digital dapat ditulis dalam bentuk matrik sebagai berikut.
𝑓(𝑥, 𝑦) = [
𝑓(0,0) 𝑓(0,1) ⋯ 𝑓(0, 𝑁 − 1)
𝑓(1,0) 𝑓(1,1) ⋯ 𝑓(1, 𝑁 − 1)
⋮ ⋮ ⋮
𝑓(𝑀 − 1,0) 𝑓(𝑀 − 1,1) ⋯ 𝑓(𝑀 − 1, 𝑁 − 1)
]……...(2.22)
Nilai pada suatu irisan antara baris dan kolom (pada posisi 𝑥, 𝑦) disebut dengan picture elements, image elements, pels, atau pixels. Istilah terakhir (pixel) paling sering digunakan pada citra digital.
2.4.1. Preprocessing
Menurut Andono dkk (2017) preprocessing adalah tahap pemrosesan data (dalam hal ini citra digital) agar data bisa dan layak digunakan untuk tahap berikutnya. Hal ini dilakukan karena hasil citra digital dari proses akuisisi biasanya memiliki beberapa masalah, misalnya terjadi noise atau adanya objek-objek penganggu.
Beberapa masalah tersebut disebabkan oleh kurang akuratnya sensor atau transducers yang digunakan saat proses akuisisi. Selain itu, tujuan preprocessing adalah untuk membuat citra digital agar sesuai dengan kebutuhan ekstraksi fiturnya.
a. Binarization
Binarization adalah proses untuk mengubah citra berwarna atau citra grayscale menjadi citra biner. Menurut Putra (2010) Citra biner adalah citra digital yang hanya memiliki dua kemungkinan nilai pixel yaitu hitam dan putih. Citra biner juga disebut sebagai citra B&W (black and white) atau citra monochrome. Hanya dibutuhkan 1 bit untuk mewakili nilai setiap pixel dari citra biner. Citra biner sering kali muncul sebagai hasil dari proses pengolahan seperti segmentasi, pengambangan, morfologi, ataupun dithering. Menurut Kadir dan Susanto (2013) nilai ambang ditentukan dengan terlebih dahulu melihat histogram citra dan dipilih nilai untuk ambang pada bagian lemah. Secara matematis, thersholding atau pengambangan intensitas dapat dinyatakan melalui persamaan:
𝑔(𝑥, 𝑦) = {1 𝑖𝑓 𝑓(𝑥, 𝑦) > 𝑇
0 𝑖𝑓 𝑓(𝑥, 𝑦) ≤ 𝑇 ……….(2.23) Dengan:
g(x,y) : citra hasil segmentasi atau citra biner f(x,y) : citra masukan
(x,y) : titik (x,y) pada citra T : nilai thersholding (nilai ambang) b. Noise Reduction (Connected Components)
Menurut Kadir dan Susanto (2013) derau atau noise sesungguhnya adalah komponen di citra yang tidak dikehendaki. Dalam praktik, kehadiran derau tidak dapat dihindari. Sebagai contoh, derau Gaussian biasa muncul pada sembarang isyarat. Derau putih (white noise) biasa menyertai pada siaran televisi yang berasal dari stasiun pemancar yang lemah. Derau butiran biasa muncul dalam film-film fotografi.
Derau yang dinamakan garam dan merica (salt and pepper) sering mewarnai citra.
Penghilangan derau dapat dilakukan dengan pendekatan linear ataupun nonlinear. Penghilangan derau secara linear dapat dilakukan baik pada kawasan spasial maupun frekuensi.
Termasuk pemrosesan pada kawasan spasial yaitu penggunaan filter lolos-rendah. Ataupun filter rerata aritmetik, filter rerata harmonik, dan filter rerata kontraharmonik. Pada kawasan frekuensi, filter homomorfik ataupun filter lolos-rendah butterworth dapat digunakan.
Selain menggunakan pendekatan linear ataupun nonlinear, reduksi derau juga dapat menggunakan algoritma connected component. Connected components analysis (CCA) adalah langkah biasa dalam pemrosesan citra, seperti mengekstraksi fitur area atau ukuran objek berbentuk arbitrer dalam gambar biner. Proses tersebut berdasarkan connected components
labelling (CCL) yang menciptakan gambar berlabel dengan dimensi yang sama dengan gambar aslinya di mana semua piksel dari setiap komponen yang terhubung diberi label yang unik (Klaiber dkk., 2015). Dengan adanya pemberian label pada objek, dapat diseleksi objek-objek yang dideteksi sebagai noise.
Sehingga noise dapat dihilangkan dengan memberikan ukuran rata-rata piksel pada objek. Sebagai contoh, ada sebuah citra biner aksara Jawa pa dan ra dalam satu bagian yang terdapat noise disekitarannya.
Gambar 2.12 Citra Biner “para” ber-noise
Gambar 2.12 adalah representasi citra biner yang ber-noise, dalam menggunakan CCL langkah pertama adalah mencari koordinat piksel yang merupakan foreground atau dalam kata lain koordinat piksel yang bernilai 1, dari kiri ke kanan pada masing-masing baris, kemudian koordinat tersebut diberi label.
Jika tetangga koordinat piksel tersebut memiliki label maka, koordinat tersebut berlabel tetanggnya. Jika label tetangganya konflik (ada 2 label berbeda pada tetangganya) seperti pada Gambar 2.13 maka dilakukan relabel menjadi 1 label.
Gambar 2.13 CCL berkonflik
Gambar 2.13 adalah representasi dari koordinat piksel yang tetangganya berbeda yakni 3 dan 6, sehingga label 6 akan menjadi label 3. Ulangi terus hingga semua foreground memiliki label seperti Gambar 2.14.
Gambar 2.14 CCL yang ber-label
Gambar 2.14 adalah representasi dari hasil akhir CCL, sehingga label 1, 2, dan 5 merupakan noise, karena ukuran piksel untuk sebuah aksara tidak memenuhi karena ukurannya yang kurang dari ukuran aksara, sehingga noise tersebut dihilangkan.
c. Segmentation (Profil Proyeksi)
Menurut Andono dkk. (2017) segmentasi merupakan bagian dari tahap preprocessing yang bertujuan untuk memisahkan objek tertentu yang dikehendaki (foreground) dengan objek lain yang tidak dikehendaki (bakcground). Output segmentasi biasanya berupa citra biner, di mana foreground diberi simbol
`1` dan background diberi simbol `0`. Beberapa metode segmentasi yang biasa digunakan adalah thresholding, multitherholding, deteksi tepi, k-means clustering, filter gabor, fuzzy c-means clustering, watershed, transformasi hough dan lain-lain.
Menurut Kadir dan Susanto (2013) proyeksi citra adalah bentuk satu dimensi isi citra yang dihitung berdasarkan sumbu koordinat. Definisinya sebagai berikut:
𝑃ℎ𝑜𝑟(𝑏) = ∑𝑁𝑗=1𝐼(𝑏, 𝑘𝑗) ...(2.24) 𝑃𝑣𝑒𝑟(𝑘) = ∑𝑀𝑗=1𝐼(𝑏𝑘, 𝑘) ... (2.25) Dengan:
M : tinggi citra N : lebar citra
Phor(b) : jumlah nilai piksel pada baris b Pver(k) : jumlah nilai piksel pada kolom k
Dalam pengaplikasiannya profil proyeksi ini digunakan untuk line segmentation yaitu memisahkan antar baris pada aksara dan character segmentation yaitu memisahkan antar aksara pada satu baris. Sebagai contoh, ada sebuah citra biner aksara Jawa pa dan ra dalam satu bagian.
Gambar 2.15 Citra Biner “para”
Gambar 2.15 adalah representasi aksara pa dan ra. Dengan menggunakan profil proyeksi secara horizontal maka akan dilakukannya penjumlahan piksel yang bernilai 1 pada setiap kolom disetiap barisnya untuk mengetahui letak garis batas pada masing-masing baris aksara. Pada citra biner Gambar 2.15, piksel yang berwarna hitam mempunyai nilai piksel 0 dan komponen yang berwarna putih mempunyai nilai piksel 1, sehingga diperoleh matriks proyeksi horizontalnya adalah [0 0 8 7 6 6 6 7 0 0]. Dengan hasil yang diperoleh, matriks yang bernilai 0 adalah baris tersebut tidak terdapat objek. Sehingga, dapat kita lakukan pemotongan untuk memisahkan baris antar aksara (line segmentation). Sehingga hasil dari line segmentation seperti Gambar 2.16.
Gambar 2.16 Hasil Profil Proyeksi Horizontal
Kemudian dilanjutkan dengan profil proyeksi secara vertikal.
Dengan menggunakan profil proyeksi secara vertikal maka akan dilakukannya penjumlahan piksel yang bernilai 1 pada setiap
baris disetiap kolomnya untuk mengetahui letak garis batas pada masing-masing aksara. Pada citra biner Gambar 2.16, piksel yang berwarna hitam mempunyai nilai piksel 0 dan komponen yang berwarna putih mempunyai nilai piksel 1, sehingga diperoleh matriks proyeksi vertikalnya adalah [0 0 5 1 1 5 1 5 1 1 5 0 1 1 6 1 1 5 0 0]. Dengan hasil yang diperoleh, matriks yang bernilai 0 adalah kolom tersebut tidak terdapat objek. Sehingga, dapat kita lakukan pemotongan untuk memisahkan antar aksara (character segmentation). Sehingga hasil dari character segmentation seperti Gambar 2.17.
Gambar 2.17 Hasil Profil Proyeksi Vertikal
Gambar 2.17 adalah representasi citra hasil profil proyeksi terhadap Gambar 2.15. Gambar sebelah kiri adalah aksara pa dan gambar sebelah kanan adalah aksara ra yang tersegmentasi dengan baik.
2.5. Pengujian
Proses akhir dari penelitian ini adalah menguji keberhasilan metode backpropagation untuk alih aksara manuskrip cetak beraksara Jawa sehingga perlu dihitung tingkat akurasinya. Dalam menghitung tingkat akurasinya dapat menggunakan confusion matrix. Confusion matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan hasil
klasifikasi yang seharusnya (Prasetyo, 2012). Dalam pengaplikasiannya confusion matrix bekerja dengan membuat tabel seperti pada Tabel 2.5.
Tabel 2.5 Contoh Tabel Confusion Matrix ha na ca ra ka
ha 20 1 0 5 2 na 1 40 3 4 1 ca 5 5 20 4 7 ra 2 1 2 10 0
ka 0 3 8 0 6
Untuk menemukan tingkat akurasi dari confusion matrix yaitu dengan membandingan objek yang dikenali benar dengan semua objek yang ada seperti pada rumus dibawah ini:
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =∑ 𝑜𝑏𝑗𝑒𝑘 𝑦𝑎𝑛𝑔 𝑑𝑖𝑘𝑒𝑛𝑎𝑙𝑖 𝑏𝑒𝑛𝑎𝑟
∑ 𝑠𝑒𝑚𝑢𝑎 𝑜𝑏𝑗𝑒𝑘 × 100% ...(2.26) Sehingga akurasi pada contoh Tabel 2.5 diatas adalah:
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 20+40+10+10+6
20+1+0+5+2+1+40+3+4+1+5+5+20+4+7+2+1+2+10+0+0+3+8+0+6× 100% =64%
2.6. Aksara Jawa
Aksara Jawa terdiri dari 20 aksara pokok (legena) yang bersifat kesukukataan. Sifat penulisan aksara Jawa ditulis dari kiri ke kanan dan ditulis secara bersambung tanpa spasi antar kata. Menurut Hadiprijono (2013) aksara Jawa terdiri dari 20 aksara, yaitu dari aksara ha sampai nga adalah seperti pada Gambar 2.18.
Gambar 2.18 Aksara Jawa Legena
Gambar 2.18 merupakan aksara dasar atau pokok yang berjumlah sebanyak 20 aksara. Aksara pokok atau sering disebut legena memiliki arti aksara wuda (telanjang) sebab belum diikuti dengan sandhangan. Selain aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan), pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup suku kata (sigeg), angka (wilangan), dan tanda baca. Aksara sandhangan adalah aksara yang dipakai untuk mengubah bunyi dari aksara yang diikutinya. Secara khusus, aksara sandhangan tersebut dibagi ke dalam 4 jenis, yaitu 5 sandhangan swara, 3 sandhangan penyigeg wanda, 3 sandhangan wyanjana, dan sandhangan pangkon. Untuk sandhangan swara terdiri dari 5 aksara, seperti pada Gambar 2.19.
Gambar 2.19 Sandhangan Swara
Gambar 2.19 merupakan kumpulan dari sandhangan swara, yaitu terdiri dari wulu, suku, taling, taling-tarung, dan pepet. Masing-masing sandhangan mempunyai karakteristik tersendiri dalam mengubah bunyi suatu aksara yang diikutinya, yaitu wulu akan membuat suku kata menjadi bunyi vokal /i/, suku akan membuat suku kata menjadi bunyi vokal /u/, taling akan membuat suku kata menjadi bunyi vokal /é/, taling-tarung akan membuat suku kata menjadi bunyi vokal /o/, dan pepet akan membuat suku kata menjadi bunyi vokal /ê/.
Sebagai contoh, untuk membentuk kata “siji” berarti harus menambahkan wulu pada aksara sa dan ja untuk mengubah bunyinya menjadi si dan ji.
Selanjutnya, sandhangan panyigeg wanda terdiri 3 aksara seperti Gambar 2.20.
Gambar 2.20 Sandhangan Panyigeg Wanda
Gambar 2.20 adalah sandhangan panyigeg wanda yang terdiri dari layar, wignyan, dan cecak. Sigeg artinya pembuat konsonan atau penutup suku kata sedangkan wanda artinya suku kata. Fungsi sandhangan layar akan memberi bunyi /r/, wignyan akan memberi bunyi /h/, dan cecak akan membuat bunyi /ng/ pada suku kata yang diikutinya. Sebagai contoh, untuk membentuk kata
“gajah” maka dapat ditulis dengan aksara ga dan ja kemudian diberi sandhangan wignyan yang akan memberi konsonan atau akhiran h. Jenis sandhangan berikutnya adalah sandhangan wyanjana yang terdiri dari 3 aksara seperti Gambar 2.21.
Gambar 2.21 Sandhangan Wyanjana
Gambar 2.21 adalah contoh dari sandhangan wyanjana yang terdiri dari cakra, keret, dan pengkal. Sandhangan wyanjana merupakan penanda dari gugus konsonan, yakni cakra akan memberikan sisipan kata /ra/, keret akan memberikan sisipan kata /re/ dan pengkal akan memberikan sisipan kata /ya/
pada masing-masing aksara yang diikutinya. Sebgai contoh pada Gambar 2.21 untuk membentuk kata “putra” maka dapat ditulis dengan aksara pa yang diberi suku lalu aksara ta tang diberi cakra. Jenis sandhangan terakhir adalah, sandhangan pangkon.
Gambar 2.22 Sandhangan Pangkon
Gambar 2.22 adalah sandhangan pangkon. Fungsi pangkon adalah sebagai penutup suku kata atau membentuk konsonan pada suku kata yang berada di depannya. Sebagai contoh, ketika ingin membentuk kata “tangan” maka dapat ditulis dengan aksara ta, nga, dan na yang diberi pangkon sehingga menjadi konsonan n.