i Universitas Kristen Maranatha
SEGMENTASI HURUF TULISAN TANGAN BERSAMBUNG DENGAN VALIDASI JARINGAN SYARAF TIRUAN
Evelyn Evangelista (1022004)
Jurusan Teknik Elektro, Fakultas Teknik, Universitas Kristen Maranatha, Jl. Prof. Drg. Suria Sumantri, MPH no.65, Bandung, Indonesia.
e-mail : evelynevangelista@live.com
ABSTRAK
Penyimpanan dokumen yang dilakukan secara modern, membutuhkan pihak yang harus secara manual memasukkan data menjadi bentuk digital, sedangkan data yang berjumlah banyak membuat proses menjadi tidak efisien, sehingga suatu aplikasi untuk melakukan pengenalan tulisan tangan menjadi hal yang sangat bermanfaat. Segmentasi adalah salah satu masalah yang muncul pada pengenalan tulisan tangan, karena dapat mempengaruhi akurasi pengenalan huruf atau kata. Segmentasi tulisan tangan terutama pada tulisan tangan bersambung masih menjadi perhatian khusus pada pengenalan tulisan tangan.
Pada Tugas Akhir ini dibuat suatu proses segmentasi tulisan tangan bersambung dengan menggunakan integral proyeksi dari citra. Beberapa kandidat titik segmentasi akan muncul dan seleksi – seleksi akan dilakukan untuk mencari titik segmentasi yang tepat. Selain itu dilakukan juga validasi menggunakan Jaringan Syaraf Tiruan dengan algoritma pelatihan Backpropagation agar didapatkan pola segmentasi yang lebih benar.
Hasil percobaan menunjukkan metoda ini dapat menentukan beberapa titik segmentasi yang tepat, walaupun masih muncul beberapa kesalahan segmentasi jika huruf pada citra kata yang disegmentasikan bersinggungan. Dengan menggunakan integral proyeksi citra dan beberapa seleksi didapatkan kandidat segmentasi yang cukup baik dan huruf pada citra dapat dipisahkan dengan titik – titik segmentasi hasil validasi JST. Kemampuan JST dalam menentukan kandidat segmentasi yang benar dan salah mencapai hasil yang cukup baik walaupun belum maksimal.
ii Universitas Kristen Maranatha WORDS SEGMENTATION IN CURSIVE HANDWRITING
WITH NEURAL NETWORK VALIDATION
Evelyn Evangelista (1022004)
Electrical Engineering Department, Faculty of Engineering, Maranatha Christian University,
Jl. Prof. drg. Suria Sumantri, MPH, No. 65th, Bandung, Indonesia. e-mail : evelynevangelista@live.com
ABSTRACT
Nowadays a lot of people using modern data storing using computer. These storing processes need people to input the data manually from analog into digital, but a large number of data makes the process becomes inefficient, therefore an application to perform handwriting recognition become very useful. Segmentation is one of many problems that usually occur on handwriting recognition, because segmentation can affect the accuracy of handwriting recognition. Segmentation especially on cursive handwriting still becomes a main concern of Character Recognition studies.
In this final project, a process segmenting cursive handwritten image using integral projection of the image is made. Several segmentation point candidate will be specified and selections will be done to find correct segmentation points. The candidate segmentation point will then be validated with Neural Network using Back propagation training algorithm in order to obtain better segmentations.
The experimental results show this method can specify some of correct segmentation, although some segmentation fault appears when the letters in the segmented image intersect. By using the integral image projection and several selections on the segmentation point candidates, segmentation obtained are quite good and the letters in the image can be separated correctly using ANN validation. The ability of ANN in determining the correct segmentation candidates achieve good results, although not maximal.
v Universitas Kristen Maranatha
DAFTAR ISI
Halaman
ABSTRAK ... i
ABSTRACT ... ii
KATA PENGANTAR ... iii
DAFTAR ISI ... v
DAFTAR TABEL ... viii
DAFTAR GAMBAR ... ix
BAB 1 PENDAHULUAN 1.1. Latar Belakang ... 1
1.2. Rumusan Masalah ... 2
1.3. Tujuan ... 2
1.4. Batasan Masalah ... 3
1.5. Sistematika Penulisan ... 3
BAB 2 LANDASAN TEORI 2.1. Pengolahan Citra Digital ... 5
2.1.1. Citra Digital ... 5
2.1.2. Citra Grayscale dan Warna ... 6
2.1.3. Citra Biner ... 7
2.1.4. Konversi Citra Analog ke Citra Digital ... 7
2.1.4.1. Akuisisi Citra ... 8
2.1.4.2. Sampling Citra ... 8
2.1.4.3. Kuantisasi Citra ... 9
2.1.5. Konversi Citra ... 9
2.1.5.1. Konversi Citra Warna ke Grayscale ... 9
vi Universitas Kristen Maranatha
2.1.6. Integral Proyeksi Citra... 10
2.1.7. Nilai Ketetanggaan ... 11
2.1.8. Mengubah Ukuran Citra ... 12
2.2. Optical Character Recognition ... 13
2.2.1. Data Pre Processing ... 14
2.2.1.1. Cleaning ... 14
2.2.1.2. Slope Correction... 14
2.2.1.3. Slant Correction ... 15
2.2.1.4. Character Normalization ... 15
2.2.1.5. Thinning... 16
2.2.1.6. Segmentation ... 17
2.2.2. Feature Extraction (Ekstraksi Ciri) ... 17
2.3. Jaringan Syaraf Tiruan (JST) ... 18
2.3.1. Model Neuron... 19
2.3.2. Arsitektur Jaringan ... 20
2.3.3. Pelatihan ... 22
2.3.4. Fungsi Aktivasi... 23
2.3.5. Bias ... 25
2.3.6. Error ... 25
2.3.7. Algoritma Backpropagation ... 26
2.3.7.1. Pemilihan Bobot dan Bias Awal ... 26
2.3.7.2. Jumlah Unit Tersembunyi ... 27
2.3.7.3. Proses Pelatihan Backpropagation ... 28
2.3.7.4. Jumlah Pola Pelatihan dan Lama Iterasi... 31
2.3.7.5. Momentum ... 31
2.4. Database IAM ... 32
vii Universitas Kristen Maranatha
3.2. Arsitektur Perancangan JST ... 35
3.3. Diagram Alir Segmentasi Tulisan Tangan Bersambung ... 36
3.3.1. Diagram Alir Pre Processing ... 37
3.3.1.1 Diagram Alir Menghitung Integral Proyeksi Citra... 38
3.3.2. Diagram Alir Penentuan Titik Segmentasi ... 39
3.3.2.1. Diagram Alir Seleksi Segmentasi Awal ... 40
3.3.2.2. Diagram Alir Seleksi Segmentasi Lanjut ... 41
3.3.2.3. Diagram Alir Seleksi Segmentasi Akhir ... 42
3.3.3. Diagram Alir Validasi JST ... 43
3.3.4. Diagram Alir Koreksi Titik Segmentasi ... 44
3.4. Rancangan Tampilan GUI (Guide User Interface) ... 46
BAB 4 DATA PENGAMATAN DAN ANALISIS 4.1. Pelatihan JST ... 47
4.2. Data Pelatihan ... 48
4.3. Proses Pengujian ... 50
4.3.1. Perhitungan Akurasi Validasi JST ... 51
4.3.2. Perhitungan Akurasi Segmentasi... 52
4.4. Data Pengujian ... 53
4.5. Hasil Percobaan dan Analisis ... 58
BAB 5 SIMPULAN DAN SARAN 5.1. Simpulan ... 60
5.2. Saran ... 60
DAFTAR PUSTAKA ... 61
LAMPIRAN A PROGRAM
viii Universitas Kristen Maranatha
DAFTAR TABEL
Halaman
Tabel 2.1 Perbandingan Jaringan Syaraf Manusia dan JST ... 20
Tabel 4.1 Data Citra Pelatihan ... 48
Tabel 4.2 Contoh citra yang dihitung ... 52
Tabel 4.3 Perhitungan validasi JST ... 52
Tabel 4.4 Contoh citra yang dihitung ... 53
Tabel 4.5 Perhitungan segmentasi... ... 53
Tabel 4.6 Data Citra Pengujian ... 53
ix Universitas Kristen Maranatha
DAFTAR GAMBAR
Halaman
Gambar 2.1 Intensitas cahaya pada bit ... 6
Gambar 2.2 Spektrum gray level dan contoh citra grayscale ... 6
Gambar 2.3 Contoh spektrum warna dasar RGB dari 0 sampai 255 ... 7
Gambar 2.4 Hasil penggabungan warna dasar CMYK dan RGB ... 7
Gambar 2.5 Integral Proyeksi sebuah matriks ... 11
Gambar 2.6 4-neighbors dari p ... 11
Gambar 2.7 D-neighbors dari p ... 12
Gambar 2.8 8-neighbors dari p ... 12
Gambar 2.9 Contoh gambar noise removal ... 14
Gambar 2.10 Contoh gambar citra dengan slope dan perbaikannya ... 15
Gambar 2.11 Gambar slant correction ... 15
Gambar 2.12 Contoh normalisasi dengan penempatan bentuk asli ke sebuah template ... 15
Gambar 2.13 Nilai ketetanggaan dari algoritma thinning ... 16
Gambar 2.14 Citra yang terdiri dari nilai – nilai bit ... 18
Gambar 2.15 Pengambilan nilai density setiap 5 x 5 pixel ... 18
Gambar 2.16 Neuron asli dan neuron pada JST ... 19
Gambar 2.17 Jaringan lapisan tunggal ... 20
Gambar 2.18 Jaringan lapisan jamak ... 21
Gambar 2.19 Jaringan Feedback ... 21
Gambar 2.20 Fungsi Aktivasi Threshold ... 23
Gambar 2.21 Fungsi Aktivasi Sigmoid ... 24
Gambar 2.22 Fungsi Aktivasi Identitas ... 24
Gambar 2.23 Fungsi Aktivasi Gaussian ... 25
Gambar 2.24 Bias pada JST ... 25
x Universitas Kristen Maranatha Gambar 2.26 Database IAM : halaman(kiri), kata (kanan), kalimat
(bawah) ... 32
Gambar 3.1 Diagram Blok Cara Kerja Segmentasi Tulisan Tangan Bersambung ... 34
Gambar 3.2 Over-Segmentation ... 35
Gambar 3.3 Arsitektur Jaringan yang digunakan ... 36
Gambar 3.4 Diagram Alir Proses Segmentasi Tulisan Tangan Bersambung ... 37
Gambar 3.5 Diagram Alir Pre processing ... 38
Gambar 3.6 Diagram Alir Integral Proyeksi Citra ... 39
Gambar 3.7 Diagram Alir Penentuan Titik Segmentasi ... 40
Gambar 3.8 Pembagian zona tulisan tangan ... 40
Gambar 3.9 Diagram Alir Seleksi Segmentasi Awal ... 41
Gambar 3.10 Diagram Alir Seleksi Segmentasi Lanjut ... 42
Gambar 3.11 Diagram Alir Seleksi Segmentasi Akhir ... 43
Gambar 3.12 Diagram Alir Validasi JST ... 44
Gambar 3.13 Diagram Alir Koreksi Titik Segmentasi ... 45
Gambar 3.14 Rancangan GUI pengujian segmentasi citra ... 46
Gambar 4.1 Grafik error pada proses pelatihan ... 47
Gambar 4.2 Over segmentation pada huruf h dan t (kiri) missed segmentation (kanan) ... 50
1 Universitas Kristen Maranatha
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Sampai saat ini masyarakat masih menggunakan dokumen yang ditulis
dengan tulisan tangan seperti : surat – surat penting dalam bidang bisnis, bank, rumah sakit, dokumen dalam kantor pos, dokumen asuransi dan dalam bidang
industri lainnya. Dalam penyimpanannya yang dilakukan secara modern,
dibutuhkan pihak yang harus secara manual memasukkan data menjadi bentuk
digital. Dengan adanya data yang berjumlah banyak, pendataan menjadi tidak
efisien, sehingga suatu aplikasi untuk melakukan pengenalan tulisan tangan
menjadi hal yang sangat bermanfaat.
Konversi data secara manual dari bentuk kertas ke dalam bentuk data
digital dilakukan dengan mengetikkan data ke dalam komputer. Pengerjaan ini
akan lebih cepat jika seseorang melakukan proses scanning dan membiarkan
komputer yang melakukan pengkonversian dari gambar tulisan tangan menjadi
data tulisan.
Masalah yang muncul dalam pengenalan citra tulisan tangan di antaranya
adalah adanya noise (nilai pixel yang mengganggu atau mengubah bentuk citra),
slant (kemiringan tulisan terhadap sumbu y), slope (kemiringan tulisan terhadap
sumbu x), ukuran tulisan tangan dan permasalahan zona. Selain itu, pemisahan
kata ke dalam bentuk huruf (segmentasi) yang benar juga menjadi faktor penting
dalam akurasi pengenalan tulisan tangan.
Segmentasi adalah salah satu langkah pre processing yang penting dan
mempengaruhi ketelitian dari pengenalan tulisan tangan. Segmentasi dalam
pengenalan tulisan tangan biasanya dibagi menjadi menjadi dua jenis[1], yaitu
explicit segmentation yang proses pemisahannya dilakukan langsung sehingga
citra tulisan kata diubah menjadi huruf, dan implicit segmentation yang hasil
segmentasinya didapatkan dari pengenalan tulisan itu sendiri. Pada Tugas Akhir
ini akan dilakukan sebuah proses explicit segmentation terhadap citra tulisan
2
Universitas Kristen Maranatha Salah satu persoalan explicit segmentation adalah jika tulisan tangan
berbentuk sambung. Segmentasi huruf akan menjadi lebih sulit karena batas
antara huruf satu dengan huruf yang lain tidak terlihat dengan jelas. Selain itu
citra tulisan tangan dengan huruf bersambung mempersulit pengenalan tulisan
tangan karena bentuk huruf sambung yang berbeda dengan huruf tulisan
balok/cetak[21] sehingga segmentasi yang benar akan sangat membantu proses
pengenalan tulisan tangan. Karena hal – hal tersebut, diusulkan Tugas Akhir mengenai pengujian segmentasi tulisan tangan bersambung.
IAM Handwriting Database yang akan menjadi masukan dari simulasi
segmentasi pada Tugas Akhir ini memiliki banyak bentuk tulisan tangan yang
berbeda – beda yang dipindai pada resolusi 300dpi dan disimpan sebagai gambar PNG dengan 256 gray levels[24]. Database ini terdiri dari kalimat – kalimat Bahasa Inggris yang berdasarkan atas Lancaster-Oslo/Bergen (LOB) corpus
(sebuah koleksi jutaan kata dari tulisan Bahasa Inggris yang disusun pada tahun
1970)[19].
1.2. Rumusan Masalah
Hal – hal yang menjadi permasalahan dalam Tugas Akhir ini adalah : a) Bagaimana mencari titik – titik segmentasi pada citra satu kata tulisan
tangan bersambung ?
b) Bagaimana hasil citra kata yang telah dicari titik segmentasinya dengan
validasi JST ?
c) Bagaimana hasil kinerja JST dalam validasi segmentasi ?
1.3. Tujuan
Tujuan dari Tugas Akhir ini adalah :
a) Melakukan simulasi proses pencarian titik – titik segmentasi pada citra
satu kata tulisan tangan bersambung .
b) Menganalisa hasil citra kata yang telah dicari titik segmentasinya dengan
validasi JST .
3
Universitas Kristen Maranatha
1.4. Batasan Masalah
Dalam penyusunan Tugas Akhir ini ada beberapa batasan yang
ditetapkan yaitu :
a) Proses segmentasi yang dilakukan adalah pencarian titik segmentasi citra
kata yang dilakukan pada citra kata tulisan bersambung.
b) Masukan dari proses pemisahan adalah citra tulisan berupa satu kata
bersambung.
c) Citra kata yang diambil berjumlah 114 dengan 42 citra kata untuk
pelatihan dan 72 citra kata untuk pengujian.
d) Citra kata diambil hanya dari Database IAM.
e) Tulisan yang diambil dari Database IAM dipilih secara subyektif dengan
kriteria tulisan tanpa slant (kemiringan terhadap sumbu y) dan tanpa
slope (kemiringan terhadap sumbu x) dengan ukuran dan bentuk yang
bervariasi.
1.5. Sistematika Penulisan
Laporan Tugas Akhir ini disusun dengan sistematika sebagai berikut : BAB 1 : Pendahuluan
Bab ini menjelaskan mengenai latar belakang masalah, rumusan masalah,
tujuan, batasan masalah dan sistematika penulisan dari Tugas Akhir ini. BAB 2 : Landasan Teori
Bab ini menjelaskan teori-teori penunjang tentang Pengolahan Citra,
Optical Character Recognition, dan Jaringan Syaraf Tiruan.
BAB 3 : Perancangan Perangkat Lunak
Bab ini berisi algoritma dan diagram alir yang menjelaskan pembuatan
program segmentasi yang disusun. BAB 4 : Data Pengamatan dan Analisis
Bab ini berisi data pengamatan yang diperoleh dari uji coba dan juga
4
Universitas Kristen Maranatha BAB 5 : Simpulan dan Saran
Bab ini berisi simpulan dan saran yang diambil setelah data dianalisis
yang bertujuan untuk melakukan pengembangan terhadap Tugas Akhir
60 Universitas Kristen Maranatha
BAB 5
SIMPULAN DAN SARAN
5.1. Simpulan
1) Proses segmentasi citra kata tulisan tangan menjadi citra segmentasi dengan
metode pencarian nilai minimal dari integral proyeksi middle zone tulisan
dapat dilakukan dan menghasilkan hasil yang cukup baik.
2) Proses pengenalan tulisan tangan dapat menghasilkan citra segmentasi
dengan ketepatan 81,25% dan 18.75% missed segmentation dengan beberapa
over segmentation yang masih terjadi.
3) Kinerja JST dalam validasi segmentasi dengan menggunakan ekstraksi ciri
nilai density dan Algoritma Backpropagation menghasilkan ketepatan
validasi 73,09%.
5.2. Saran
1) Akurasi segmentasi yang didapatkan cukup tinggi, namun banyaknya variasi
tulisan tangan manusia dapat mengurangi kemampuan metode mencari nilai
minimal dari integral proyeksi middle zone dalam melakukan segmentasi.
Untuk selanjutnya mungkin dapat dicari metode yang lebih tangguh terhadap
variasi tulisan tangan manusia yang bermacam – macam.
2) Metode ini juga kurang dapat melakukan segmentasi yang baik untuk tulisan
tangan yang huruf - hurufnya bersinggungan, diharapkan selanjutnya
61 Universitas Kristen Maranatha
DAFTAR PUSTAKA
[1] Amjad Rehman, Dzulkifli Mohamad and Ghazali Sulong. Implicit Vs Explicit
based Script Segmentation and Recognition: A Performance Comparison on Benchmark Database. Int. J. Open Problems Compt. Math., Vol. 2, No. 3, September 2009.
[2] Anil K.Jain, Jianchang Mao. 1996. Artificial Neural Networks : A Tutorial. IEEE
[3] C. K. Cheng, X. Y. Liu, M. Blumenstein and V. Muthukkumarasamy,
Enhancing neural confidence-based segmentation for cursive handwriting recognition, Proc. of the 5th International Conference on Simulated Evolution and Learning, SWA-8, CD-ROM Proceedings, Busan, Korea, 2004.
[4] Fajri Kurniawan, Mohd. Shafry Mohd. Rahim, Ni’matus Sholihah, Akmal
Rakhmadi & Dzulkifli Mohamad. 2011. Characters Segmentation of Cursive
Handwritten Words based on Contour Analysis and Neural Network Validation. Malaysia : ITB J. ICT, Vol. 5, No. 1, 2011, 1-16
[5] Lam, L., Seong-Whan Lee, and Ching Y. Suen, "Thinning Methodologies-A Comprehensive Survey," IEEE Transactions on Pattern Analysis and
Machine Intelligence, Vol 14, No. 9, September 1992,
[6] Laurent Fausett. Fundamental of Neural Network. Prentice Hall
[7] Magdalena Brodowska. 2012. Oversegmentation Methods For Character
Segmentation In Off-Line Cursive Handwritten Word Recognition. Krakow :
Schedae Informaticae, vol. 20, pp. 43-65
[8] Mohamed Cheriet, Nawwaf Kharma, Cheng-Lin Liu, Ching Y. Suen. 2007.
Character Recognition Systems : A Guide For Students And Practioners.
Hoboken, New Jersey : John Wiley & Sons, Inc.
[9] Rafael C. Gonzalez, Richard E. Woods. 2002. Digital Image Processing. Prentice Hall : Upper Saddle River, New Jersey
[10]Rafael C. Gonzalez, Richard E. Woods, Steven L. Eddins. 2004. Digital
Image Processing Using MATLAB. Prentice Hall : Upper Saddle River, New
Jersey
[11]Siang, JJ. 2005. Jaringan Syaraf Tiruan & Pemrogrammannya Menggunakan
Matlab. Penerbit Andi : Yogyakarta
[12]Tanzila Saba, Amjad Rehman, Ghazali Sulong. 2011. Cursive Script
Segmentation With Neural Confidence. Johor Malaysia : ICIC International
[13]Tiara Rahayu Pratiwi. 2003. Integral Proyeksi pada Citra.
IlmuKomputer.Com
[14]T. Y. Zhang and C. Y. Suen. 1984. A fast parallel algorithm for thinning
digital patterns, Communications of the ACM, vol.27, pp.236-239.
[15]
http://3.bp.blogspot.com/-y1OpJEeDnDA/U8fnGsh-tHI/AAAAAAAAAY4/nuVu-1-Gpkc/s1600/Capture.PNG, diakses : November
2014
[16]http://blog.imulus.com/wp-content/uploads/2012/09/cmyk-rgb.jpeg, diakses : November 2014
[17]http://en.wikipedia.org/wiki/Bilinear_interpolation, diakses : November 2014
62
Universitas Kristen Maranatha [19]http://en.wikipedia.org/wiki/Lancaster-Oslo-Bergen_Corpus, diakses : Juli
2014
[20]http://id.wikipedia.org/wiki/Bitmap, diakses : November 2014
[21]http://kbbi.web.id/huruf, diakses : November 2014
[22]http://link.springer.com/article/10.1007%2Fs100320200071, diakses : November 2014
[23]http://repository.usu.ac.id/bitstream/123456789/35168/4/Chapter%20II.pdf
oleh Marihat Situmorang, diakses : Oktober 2014
[24] http://www.iam.unibe.ch/fki/databases/iam-handwriting-database/iam-handwriting-database, diakses : Juli 2014
[25]http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-10.html, diakses : November 2014
[26]http://www.xaraxone.com/webxealot/workbook35/rgb-cymk_02.gif, diakses :
November 2014