• Tidak ada hasil yang ditemukan

Segmentasi Tulisan Tangan Bersambung pada IAM Handwriting Database

N/A
N/A
Protected

Academic year: 2021

Membagikan "Segmentasi Tulisan Tangan Bersambung pada IAM Handwriting Database"

Copied!
11
0
0

Teks penuh

(1)

Segmentasi Tulisan Tangan Bersambung

pada IAM Handwriting Database

Evelyn Evangelista dan Novie Theresia Br. Pasaribu

Jurusan Teknik Elektro, Universitas Kristen Maranatha, Bandung

Jl. Suria Sumantri 65, Bandung 40164, Indonesia

evelynevangelista@live.com, novie.theresia@eng.maranatha.edu

Abstrak: Pengenalan tulisan tangan adalah salah satu penelitian yang berkembang sudah sejak

lama. Segmentasi adalah salah satu proses yang mendukung berkembangnya penelitian mengenai pengenalan tulisan tangan. Segmentasi tulisan tangan terutama untuk tulisan tangan sambung telah menjadi fokus utama dari beberapa penelitian. Pada penelitian ini terdapat tiga tahapan proses seleksi segmentasi yang dilakukan pada daerah middle zone (zona tengah)

tulisan tangan, dan proses segmentasi tulisan tangan bersambung dilakukan pada IAM

Handwriting Database dengan validasi segmentasi oleh Jaringan Syaraf Tiruan. Hasil yang

diperoleh dari penelitian ini, akurasi segmentasi yang tepat sebesar 81,25%. Akurasi segmentasi ini cukup baik, namun hasil segmentasi ini juga dipengaruhi oleh nilai persentase

missed segmentation yang sebesar 18,75% dan persentase over-segmentation sebesar 19,02%.

Kegagalan pengenalan segmentasi masih terjadi pada kasus tulisan tangan yang tulisannya berhimpitan secara vertikal

Kata kunci: Segmentasi, handwriting recognition, IAM Handwriting Database

Abstract: Handwriting recognition is one of the researches that have been developed for a long

time. Segmentation is one of the processes that support the development of research on handwriting recognition. Handwriting segmentation especially for cursive handwriting has become a major focus of several researches. In this research there are three steps selection processes of character segmentation which is done in middle zone area of the handwriting. The data are taken from the IAM Handwriting Database with segmentation validation by Neural Networks. The results of this research were obtained segmentation correctly by 81.25%. The accuration of segmentation has a good result, but these results are influenced by the result of 18.75% miss segmentation and also by 19.02% of over-segmentation. The unrecognized of segmentation still occurred in the handwriting which the vertical overlap problems in the characters.

Keywords: Segmentasi, handwriting recognition, IAM Handwriting Database

I.

P

ENDAHULUAN

Seiiring dengan bertambah banyak dokumen-dokumen penting (surat-surat penting) yang masih menggunakan tulisan tangan, sehingga kebutuhan akan sistem yang bisa menerima

ISSN 1979-2867 (print) Electrical Engineering Journal

(2)

masukan tulisan tangan dan mengenalinya semakin meningkat. Hal inilah yang menyebabkan penelitian yang berkaitan dengan pengenalan tulisan tangan (handwriting recognition) masih

banyak dilakukan/ dikembangkan. Masalah yang muncul dalam pengenalan tulisan tangan di antaranya adalah adanya noise (nilai piksel yang mengganggu atau mengubah bentuk citra), slant (kemiringan tulisan terhadap sumbu y), slope (kemiringan tulisan terhadap sumbu x),

ukuran tulisan tangan dan permasalahan zona. Selain itu, pemisahan kata ke dalam bentuk huruf (segmentasi) yang benar juga menjadi faktor penting dalam akurasi pengenalan tulisan tangan.

Segmentasi adalah salah satu langkah pre-processing yang penting dan mempengaruhi

ketelitian dari pengenalan tulisan tangan. Segmentasi dalam pengenalan tulisan tangan biasanya dibagi menjadi menjadi dua jenis, yaitu explicit segmentation dan implicit segmentation. Pada explicit segmentation pemisahan dilakukan sehingga citra tulisan kata diubah menjadi huruf,

sedangkan pada implicit segmentation segmentasi dilakukan sebagai hasil produk dari

pengenalan tulisan itu sendiri[1]. Pada penelitian ini akan dilakukan sebuah proses explicit

segmentation terhadap citra tulisan tangan.

Salah satu persoalan umum dalam explicit segmentation terjadi pada tulisan tangan

sambung. Segmentasi huruf akan menjadi lebih sulit karena batas antara huruf satu dengan huruf yang lain tidak terlihat dengan jelas. Selain itu citra tulisan tangan dengan huruf bersambung mempersulit pengenalan tulisan tangan karena bentuk huruf sambung yang berbeda dengan huruf tulisan balok sehingga segmentasi yang benar akan sangat membantu proses pengenalan tulisan tangan. Karena hal – hal tersebut, diusulkan suatu pengujian segmentasi tulisan tangan bersambung dengan validasi segmentasi menggunakan Jaringan Syaraf Tiruan (JST) yang direalisasikan pada IAM Handwriting Database.

II.

M

ETODE

P

ENELITIAN

Beberapa cara telah dilakukan oleh banyak peneliti untuk melakukan proses segmentasi, terutama menggunakan JST sebagai validasi kandidat titik segmentasi. M. Blumenstein, B.Verma contohnya[2], telah menerbitkan banyak jurnal mengenai beberapa metode segmentasi yang digunakan, antara lain metode hole detection, left and center character, beserta

pengembangannya. Fajri Kurniawan, dkk[3] menggunakan kontur dari citra tulisan untuk menentukan segmentasi (dilakukan pada IAM Handwriting Database) dan kemudian Jaringan

Syaraf Tiruan untuk memvalidasi kebenaran segmentasi. Segmentasi tulisan bersambung dengan validasi Jaringan Syaraf Tiruan juga dilakukan oleh Tanzila Saba[4]. Dengan metode histogram untuk menentukan ligature, penelitian tersebut menggunakan CEDAR Database

untuk menguji proses segmentasi tulisan bersambung.

Pada penelitian ini mencoba memodifikasi proses segmentasi yang dilakukan oleh Tanzila Saba[4], terdapat tiga tahapan proses seleksi segmentasi yang dilakukan pada daerah

middle zone

(zona tengah) tulisan tangan, dan proses segmentasi tulisan tangan bersambung dilakukan pada IAM Handwriting Database dengan validasi segmentasi oleh JST. Diagram blok segmentasi

(3)

Gambar 1. Diagram Blok Segmentasi Tulisan Tangan Bersambung

Masukan citra tulisan tangan bersambung diambil dari database citra tulisan yang sudah

menjadi standar dalam pengujian citra tulisan tangan yaitu IAM Handwriting Database, tulisan

tangan bersambung yang digunakan dengan kriteria tulisan tegak (kemiringan terhadap sumbu y kecil) dan lurus (kemiringan terhadap sumbu x kecil) dengan ukuran dan bentuk yang bervariasi. Selanjutnya dilakukan pra-pemrosesan, berupa proses binerisasi citra dan proses thinning

(Gambar 2). Setelah dilakukan pra-pemrosesan, pencarian segmentasi diawali dengan mencari zona tengah (middle zone) dari tulisan tangan. Kemudian nilai Integral Proyeksi Kolom (IPK)

dari zona tengah tulisan tangan dihitung.Selanjutnya proses seleksi segmentasi yang terdiri dari tiga tahapan dilakukan terhadap kandidat titik segmentasi tulisan tangan tersebut, dengan tujuan untuk mengurangi adanya over-segmentation, yaitu segmentasi/ pemisahan yang terlalu banyak/

berlebih seperti pada Gambar 2.

Gambar 2. Contoh Over-segmentation Tulisan Tangan

Setelah itu dilakukan pengambilan nilai ekstraksi ciri. Ekstraksi ciri dari titik segmentasi akhir yang digunakan berupa density feature (ciri kerapatan). Kemudian data tersebut dilatihkan

dan diujikan pada JST untuk memvalidasi segmentasi (memutuskan benar atau tidaknya segmentasi). Keluaran dari JST adalah berupa segmentasi salah atau segmentasi benar. Dikarenakan over-segmentation (segmentasi yang berlebih) sering terjadi, maka dari hasil

keluaran JST dilanjutkan proses koreksi segmentasi sehingga diperoleh hasil segmentasi karakter.

II.1.

Pra-pemrosesan

Pertama-tama citra tulisan tangan diubah dari format grayscale ke dalam bentuk biner.

Kemudian dilakukan proses thinning, piksel hitam dari citra tulisan tangan direduksi sehingga

didapatkan kerangka yang masih mewakili bentuk piksel hitam citra asli (Gambar 3). Selanjutnya dilakukan proses segmentasi pada tulisan tangan.

(4)

(a) (b) (c)

Gambar 3. (a) Citra dari Database IAM Handwriting Database, (b) Citra Hasil Konversi Biner, (c) Citra

Hasil Thinning

II.2.

Segmentasi Karakter Tulisan Tangan Bersambung

Diagram alir untuk proses segmentasi karakter tulisan tangan bersambung bisa dilihat pada Gambar 4.

Gambar 4. Diagram alir Sub-rutin Segmentasi Karakter Tulisan tangan Bersambung

Proses awal segmentasi tulisan tangan adalah mencari zona tengah dari tulisan tangan. Setelah diperoleh zona tengah tulisan tangan kemudian nilai Integral Proyeksi Kolom (IPK) dari zona tengah tulisan tangan dihitung. Nilai IPK adalah banyak jumlah piksel foreground (hitam)

(5)

Gambar 5. (a) Citra Hasil Thinning Tulisan tangan, (b) Zone Tengah Tulisan tangan, (c) Nilai IPK Segmentasi Seleksi Awal diawali dengan menyeleksi nilai IPK dari zone tengah tulisan tangan (Gambar 6). Nilai Integral Proyeksi Kolom (IPK) yang minimum, yang bernilai kecil sama dengan 1 akan lolos seleksi menjadi Titik Segmentasi Awal (TSA). IPK bernilai “0” artinya spasi pada tulisan tangan yang jelas terpisah (atau berarti tidak ada tulisan), dan IPK bernilai “1” artinya spasi pada tulisan tangan bersambung.

Gambar 6. Diagram Alir Sub-rutin Segmentasi Seleksi Awal

Setelah TSA diperoleh, maka akan dilajutkan proses Segmentasi Seleksi Lanjut (SSL) (Gambar 7). Setiap posisi dari titik segmentasi (TSA) yang berdekatan nilai maksimum (titik terendah dari goresan) akan dicari dan dipilih sebagai kandidat segmentasi selanjutnya. Posisi segmentasi yang berdekatan dihitung dengan threshold yang telah ditentukan sebelumnya[4].

Jika segmentasi memiliki nilai 0 pada IPK citra hasil thinning maka segmentasi tersebut

akan diprioritaskan sebagai kandidat segmentasi dan dihitung posisi tengah dari nilai 0 tersebut. Titik segmentasi yang lolos akan menjadi titik segmentasi lanjut (TSL) dan diseleksi lagi pada proses seleksi akhir.

(6)

Gambar 7. Diagram Alir Sub-rutin Segmentasi Seleksi Lanjut

Pada seleksi akhir (Gambar 8), informasi TSL kemudian digunakan sebagai kandidat segmentasi dan diseleksi menggunakan threshold yang didapatkan dari hasil eksperimen.

Seleksi dilakukan dengan menghitung jarak dari satu kandidat segmentasi ke kandidat segmentasi selanjutnya. Jika jarak kurang dari threshold maka kandidat segmentasi selanjutnya

akan dibuang. Hasil dari seleksi akhir adalah TSR yang akan dilatihkan ke JST agar pola salah dan benar bisa dikenali.

Gambar 8. Diagram Alir Sub-rutin Segmentasi Seleksi Akhir Segmentasi

Seleksi Lanjut

L(a) == 0 r=L(a); s=TSA(a); sa=sa+1

tidak ya

a=1; a≤ m; a++ r=0; s=1; sa=0

L(a) ≥ r ya r=L(a); s=TSA(a)

Keterangan : l : banyaknya TSA

L : posisi piksel hitam TSA

r : posisi TSA yang sedang diproses s : TSA yang sedang diproses

tidak B Return c=TSA(a-1)-TSA(a) c < threshold && sa==0 tidak ya s=(s-round(sa/2)) r=0; sa=0; TSL(b)=TSA(a); b=b+1 B A A Titik segmentasi awal (TSA) Titik segmentasi lanjut (TSL) Segmentasi Seleksi Akhir a<l ya a=1; b=1 Keterangan : l : banyaknya TSL R Titik segmentasi akhir (TSR) tidak Return Titik segmentasi lanjut (TSL) P c=TSL(a+1)-TSL(a) c < threshold tidak ya TSR(b)=TSL(a); a=a+2; b=b+1 TSR(b)=TSL(a); a=a+1; b=b+1 R P

(7)

II.3.

Ekstraksi Ciri

[1]

Pada pengenalan pola, ekstraksi ciri adalah merupakan salah satu komponen yang penting untuk mencirikan atau mendeskripsikan karakteristik yang unik dari suatu citra/pola. Pada penelitian segmentasi karakter tulisan tangan ini menggunakan ekstraksi ciri : density

(kepadatan) dari citra tulisan tangan (Gambar 9 & Gambar 10). Nilai density (kepadatan) citra di

sekitar titik segmentasi ini yang digunakan sebagai masukan ke dalam Jaringan Syaraf Tiruan (JST).

Gambar 9. Piksel pada citra yang digunakan untuk mengambil nilai density

Gambar 10. Piksel pada citra yang digunakan untuk mengambil nilai density

Contoh perhitungan nilai kepadatan pada Gambar 10 terlihat piksel dengan diperoleh dari suatu citra dengan ukuran 5x5 satuan piksel (totalnya sebanyak 25 piksel) , banyaknya piksel

foreground (hitam) adalah 1, maka ∑ / 1/25

0.04.

II.4.

Jaringan Syaraf Tiruan (JST)

Pada penelitian ini, JST yang digunakan dengan menggunakan Algoritma

Backpropagation yang terdiri dari satu unit keluaran, 100 unit masukan, dan satu lapisan

tersembunyi dengan 67 unit tersembunyi. Masukan dari pelatihan JST adalah nilai ekstraksi ciri (ciri kepadatan) dari citra yang berada diantara suatu titik segmentasi (citra di sebelah kiri dan citra di sebelah kanan dari titik segmentasi yang bersesuaian), seperti pada Gambar 11. Keluaran dari JST ada dua, yaitu : segmentasi salah (y=0,1) dan segmentasi benar (y=0,9). Pelatihan dilakukan pada 42 citra yang terdiri dari 356 pola segmentasi benar dan salah, dengan capaian error sebesar ≤ 0.01.

(8)

kelua

II.5.

meny disim segm segm Hand segm dan m satu h Setelah dila aran dari JST

Koreksi S

Koreksi titi yatakan titik mpan, dan ji mentasi akhir mentasi setela Pada penel dwriting Da mentasi benar missed segm huruf, sedan Gambar 1 akukan prose T tersebut kem

Segmentasi

ik segmentas k segmentas ika keluaran yang diujik ah validasi. Gambar litian ini, ci atabase seba r dan salah ak mentation. Ov ngkan missed dise 11. Contoh Cit es pelatihan mudian dipro si dilakukan i tersebut b n JST meny kan akan dia

r 12. Diagram

III.

H

tra yang dig anyak 72 ci kan dihitung ver-segmenta d segmentati Citra ebelah kiri se

tra yang digun JST, kemud oses untuk di setelah pros benar, maka yatakan titik abaikan. Has m Alir Sub-ruti

H

ASIL

P

ERCO gunakan pad itra dengan . Segmentas ation adalah ion adalah s Titik egmentasi C di nakan sebagai dian dilanjutk ikoreksi segm ses pengujian a titik segm k segmentas sil dari titik

in Koreksi Seg OBAAN da pengujian 368 pola i salah terdir kelebihan s segmentasi y Citra isebelah kanan i Input JST kan pada pe mentasinya. n JST. Jika n mentasi akhir si tersebut segmentasi gmentasi n diambil da benar dan ri dari yaitu o segmentasi y yang seharus n engujian JST nilai keluara r dari citra salah, maka benar adalah ari database salah. Kem over-segmen yang muncul snya ada di T, nilai an JST akan a titik h titik IAM mudian ntation l pada antara

(9)

dua huruf tetapi kenyataannya tidak ada. Contoh over-segmentation dan missed segmentation

dapat dilihat pada Gambar 13.

Gambar 13. Contoh over-segmentation dan missed segmentation

Adapun tampilan Program Segmentasi Tulisan Tangan Bersambung, adalah sebagai berikut (Gambar 14) :

Gambar 14. Tampilan Program Segmentasi Tulisan Tangan Bersambung

Untuk mengukur akurasi hasil segmentasi tulisan tangan, perhitungan dilakukan dengan cara membandingkan segmentasi citra hasil validasi yang tepat memisahkan huruf dengan benar (segmentasi benar), terhadap segmentasi citra yang dilakukan secara visual mata manusia

(10)

(segm S C perco segm segm segm perhi P P P ada s prese cukup segm yang pada ‘Party karen mentasi targe Segmentasi Citra Visual Pada conto obaan segm entation, da mentasi target entation mau Setelah pe tungan akura T Segmenta 368 Presentase Se Presentase Mi Presentase Ov Dari hasil p segmentasi y entase akuras p tinggi, na entation seb Kekurangan berhimpitan Gambar 15 y’ huruf ya na nilai IPK d et). Contoh d TABEL 1.C Segmentas Target 3 3 oh dapat terli mentasi citra n 2 segment t. Dari hasil upun over-se ercobaan dil asi sistem se TABEL 2.PRESE asi Uji gmentasi Ben issed Segment ver-segmentat percobaan, b yang kurang si segmentas amun presen esar 19,02% n dari Sistem n secara ver . Contoh pa ng menemp diantaranya ( Gambar 15. dapat dilihat p CONTOH SEGMEN i Segmen Citra Va ihat bahwa c validasi ‘ tasi benar. B percobaan s egmentation, lakukan pad cara keseluru ENTASE AKURAS Segmentasi B 299 nar tation tion eberapa dari tepat atau ti i secara kese ntase missed % termasuk ya m Segmenta rtikal, metod ada kata ‘Ho pel adalah ‘P (citra tulisan Citra yang ga pada Tabel 1 NTASI CITRA VI ntasi alidasi Seg citra ‘made’ made’ mem Begitu juga segmentasi c dan diperole da seluruh uhan yang di SI SEGMENTASI T Total Benar Mis i citra dapat t dak terdetek eluruhan dipe segmentatio ang masih ba asi Tulisan T de ini tidak ouse’ ada 2 h Pa’, tidak d n hasil thinnin agal disegment 1.

ISUAL DAN HASI Missed gmentation 1 0 memiliki 3 miliki 1 mi pada contoh citra validasi eh 3 segmen citra uji y iperlihatkan TULISAN TANGA sed Segmenta 69 299/368 69/368 70/368 tersegmentas ksi sebagai se eroleh sebes on sebesar anyak dan m Tangan adal dapat diapli huruf yang m dapat diangg ng) bukan ni tasi sebelum m IL VALIDASI Over-segmentatio 2 0 segmentasi issed segme h citra ‘will’ i ‘will’ tidak ntasi benar. yang ada, pada Tabel 2 AN BERSAMBUN ation Over-si dengan be egmentasi. P ar 81,25%. H 18,75% dan asih harus di lah pada cit ikasikan, sep menempel ‘s gap sebagai ilai minimal masuk ke JST on Segment Benar 2 3 target. Dari entation, 2 yang memi k memiliki m maka didap 2. NG -segmentation 70 81,25% 18,75% 19,02% enar, namun Pada Tabel 2 Hasilnya term n presentase iperbaiki. tra yang hur perti diperlih se’ dan pada segmentasi (titik segmen tasi r i hasil over-iliki 3 missed patkan n masih 2 hasil masuk over-rufnya hatkan a kata huruf ntasi).

(11)

IV.

K

ESIMPULAN

Pada penelitian segmentasi tulisan tangan bersambung dengan menggunakan Jaringan Syaraf Tiruan (JST) pada IAM Handwriting Database, telah diujikan pada 368 data uji sehingga

diperoleh akurasi pengenalan segmentasi sebesar 81,25%. Akurasi segmentasi ini cukup baik, namun hasil segmentasi ini juga dipengaruhi oleh nilai persentase missed segmentation yang

sebesar 18,75% dan persentase over-segmentation sebesar 19,02%. Kegagalan pengenalan

segmentasi masih terjadi pada kasus tulisan tangan yang tulisannya berhimpitan secara vertikal. Untuk penelitian selanjutnya, diharapkan dapat dicari metode/ algoritma segmentasi yang lebih tangguh terhadap variasi tulisan tangan manusia, khususnya untuk tulisan tangan yang huruf-hurufnya bersinggungan. Selain itu metode/algoritma tersebut diharapkan bisa mengurangi kasus miss segmentation ataupun over-segmentation.

D

AFTAR

R

EFERENSI

[1]M. Cheriet, N. Kharma, C. L. Liu, and C. Y. Suen, Character Recognition Systems : A Guide For Students And Practioners, Hoboken, New Jersey: John Wiley & Sons, Inc., 2007.

[2]C. K. Cheng, X. Y. Liu, M. Blumenstein, and V. Muthukkumarasamy, “Enhancing neural confidence-based segmentation for cursive handwriting recognition”, in Proc. of the 5th International Conference on Simulated Evolution and Learning, SWA-8, Busan, Korea, 2004.

[3]F. Kurniawan, M. S. M. Rahim, N. Sholihah, A. Rakhmadi, and D. Mohamad, “Characters Segmentation of Cursive Handwritten Words based on Contour Analysis and Neural Network Validation”, ITB J. ICT, Vol. 5, No. 1, 1-16, 2011.

[4]T. Saba, A. Rehman, and G. Sulong, “Cursive Script Segmentation with Neural Confidence”, ICIC International, Johor, Malaysia, 2011.

Gambar

Gambar 1. Diagram Blok Segmentasi Tulisan Tangan Bersambung
Diagram alir untuk proses segmentasi karakter tulisan tangan bersambung bisa dilihat  pada Gambar 4
Gambar 5. (a) Citra Hasil Thinning Tulisan tangan, (b) Zone Tengah Tulisan tangan, (c) Nilai IPK
Gambar 8. Diagram Alir Sub-rutin Segmentasi Seleksi AkhirSegmentasi
+3

Referensi

Dokumen terkait

: Muhammad Addailami.. Peran Generasi Pemuda Masjid Indonesia Kabupaten Batu Bara Dalam Mengembangkan Dakwah. Generasi Pemuda Masjid Indonesia merupakan salah satu

Hasil pengamatan uji toksisitas ekstrak tubuh buah (tudung dan batang) dan miselia jamur shiitake yang diperoleh, dianalisis dengan analisis probit menggunakan.. Kajian Pendahuluan

89 tanggal 19 Desember 2001 yang dibuat dihadapan Rachmat Santoso, S.H., notaris di Jakarta, disetujui Penawaran Umum Terbatas II kepada para pemegang saham dalam rangka penerbitan

Diagnosa awal berdasarkan riwayat gejala yang khas, seperti kesemutan dan gangguan rasa pada jari jari yang terpajan getaran. Gejala iini menetap dan bertamabah dalam

Validitas model dilihat dari hasil validasi atau penilaian dari validator, kepraktisan dari penerapan model di dalam kelas yang dilihat dari observasi keterlaksanaan

Hasil penelitian menunjukkan bahwa barotrauma telinga atau perforasi membran timpani banyak terjadi pada nelayan penyelam dengan waktu istirahat di permukaan &lt; 10

Dari hasil penelitian dan pengamatan Uji Senyawa Bioaktif Ekstrak Daun Sembukan ( Paederia foetida L) terhadap Staphylococcus aureus dengan Metode Bioautografi

Dari penelitian pengamatan krom pada limbah cair penyamakan kombinasi krom- gambir dan krom-mimosa dapat diambil beberapa kesimpulan. Penyamakan tahap I yang