Optical Character Recognition Untuk Ekstraksi Teks Rambu Lalu Lintas

(1)

Hardian Oktavianto1), Henny Wahyu Sulistyo2)

1,2)

Jurusan Teknik Informatika, Fakultas Teknik, Universitas Muhammadiyah Jember Email : 1) [email protected], 2) [email protected]

ABSTRAK

Papan penunjuk arah merupakan salah satu jenis dari rambu lalu lintas yang ditempatkan di sepanjang jalan untuk memberi informasi kepada para pengemudi tentang kondisi jalan dan keterangan arah. Faktanya tulisan yang tertera pada papan penunjuk arah cenderung susah dideteksi dan dibaca karena berbagai ukuran, kondisi, nilai-nilai grayscale, dan latar belakang yang kompleks. Teknik pengolahan citra digital yaitu Optical Character Recognition (OCR) dapat digunakan untuk membantu mengatasi permasalahan ekstraksi informasi atau pembacaan tulisan pada papan penunjuk arah. Pada penelitian ini akan digunakan ekstraksi teks dengan metode OCR dengan menggunakan salah satu library dari MATLAB. Library ocr dapat digunakan untuk melakukan ekstraksi teks pada rambu lalu lintas penunjuk informasi arah. Uji tingkat kesuksesan ekstraksi teks mencapai 97%, dan uji kesesuaian hasil ekstraksi teks dengan kecocokan informasi pada rambu penunjuk arah adalah sebesar 60%.

Kata Kunci: OCR, Ekstraksi Teks, Pengolahan Citra, Matlab

1. PENDAHULUAN

Papan penunjuk arah merupakan salah satu jenis dari rambu lalu lintas yang ditempatkan di sepanjang jalan untuk memberi informasi kepada para pengemudi tentang kondisi jalan dan keterangan arah. Setiap papan penunjuk arah mengandung suatu informasi, dan dirancang agar setiap pengendara dapat membaca informasi tersebut secara efisien meskipun hanya melihat secara sekilas. Selain itu pada umumnya rambu lalu lintas dirancang dapat terlihat dan terbaca baik ketika siang maupun malam hari (Kumar, 2017).

Faktanya tulisan yang tertera pada papan penunjuk arah cenderung susah dideteksi dan dibaca karena berbagai ukuran, kondisi, nilai-nilai grayscale, dan latar belakang yang kompleks (Kumar, 2017). Teknik pengolahan citra digital dapat digunakan untuk membantu mengatasi permasalahan tersebut. Secara umum agar informasi yang tertera

pada papan penunjuk arah dapat sampai kepada pengendara adalah letak atau posisi papan penunjuk arah diketahui, kemudian dengan deteksi tulisan pada papan penunjuk, dan yang terakhir adalah ekstraksi informasi atau pembacaan tulisan (Xavier et al, 2016). Penentuan letak atau posisi papan pengumuman dapat dilakukan dengan proses segmentasi untuk mendeteksi obyek sehingga memisahkan obyek papan penunjuk jalan dengan obyek lainnya. Sedangkan untuk ekstraksi informasi atau pembacaan tulisan pada papan penunjuk arah dapat dilakukan dengan teknik Optical Character Recognition (OCR) (Islam and Mujtaba, 2017).

OCR merupakan salah satu topik di bidang pengolahan citra digital yang mempelajari tentang konversi gambar teks hasil scan menjadi teks yang dapat dibaca mesin komputer. Tujuan dari OCR ini adalah untuk memudahkan proses pengambilan informasi teks tanpa harus

(2)

melakukan proses menyalin ulang secara manual (Greenhalgh and Mirmehdi, 2015).

Pada penelitian ini akan digunakan OCR dengan menggunakan salah satu library dari MATLAB. Perangkat lunak tersebut sering digunakan untuk kepentingan penelitian terutama yang berkaitan dengan matematika, optimasi, dan simulasi. Tujuan dari diterapkannya OCR ini adalah untuk melakukan ekstraksi informasi atau pembacaan tulisan pada papan penunjuk arah. Dataset yang digunakan adalah berbagai citra papan penunjuk arah yang diambil dari internet. Penelitian ini akan menguji performa dari library ocr MATLAB dalam mengenali karakter atau tulisan dalam dataset tersebut.

2. TINJAUAN PUSTAKA

Menurut Yadav et al. (2013), OCR adalah sebuah proses untuk mendapatkan karakter ASCII sehingga dapat dibaca oleh mesin komputer. Dengan kata lain, pengenalan teks secara otomatis menggunakan OCR adalah proses untuk mengkonversi citra dokumen teks menjadi teks berbentuk data digital sehingga dapat diubah kembali. Secara umum tujuan dari OCR ini adalah untuk mempermudah dalam hal pengambilan karakter dari sumber data dengan format gambar. Untuk penerapan OCR, terhadap suatu citra akan dilakukan pemrosesan awal dengan menggunakan transformasi warna citra ke grayscale. Selanjutnya proses akan dilanjutkan oleh algoritma tertentu agar dapat menghasilkan keluaran yang dihasilkan yaitu karakter yang dapat diolah kembali oleh komputer (Yadav et al., 2013).

Beberapa penelitian terdahulu yang menjadi acuan pada penelitian ini dan memiliki fokus utama pada pembahasan OCR dijelaskan sebagai berikut ini.

Pertama adalah penelitian oleh Seles Xavier dan Reshmi R. (2016) melakukan penelitian tentang deteksi otomatis papan tanda lalu lintas berbasis teks dengan memanfaatkan thresholding warna HSV. Selanjutnya adalah penelitian berbentuk survei yang menyajikan review dari sejumlah penelitian tentang pendeteksian dan pengenalan rambu lalu lintas yang diaplikasikan pada bidang transportasi cerdas. Sumi dan Arun Kumar (2017), Kh Tohidul Islam, Ram Gopal Raj, Ghulam Mujtaba (2017) melakukan penelitian yang bertujuan untuk pengenalan rambu lalu lintas dalam berbagai kondisi, mulai dalam kondisi baik, tidak teratur, standar, dan tidak standar dengan menggunakan teknik Bag-of-Words dan Artificial Neural Network. Terakhir adalah penelitian oleh Jack Greenhalgh dan Majid Mirmehdi (2015) mengusulkan sebuah sistem baru untuk deteksi otomatis dan pengenalan teks dalam rambu lalu lintas. Struktur scene digunakan untuk menentukan daerah pencarian rambu di dalam suatu citra. Maximally Stable Extremal Regions (MSER) dan hue, saturation, dan value color thresholding digunakan untuk menemukan sejumlah kandidat obyek rambu, informasi temporal dan struktural digunakan sebagai batasan untuk mengurangi atau mengeliminasi kandidat yang tidak relevan.

3. METODE PENELITIAN

Tahapan penelitian yang dilakukan terbagi dalam 4 tahap yaitu (1) Persiapan dan praproses dataset, (2) Persiapan perangkat lunak, (3) Penerapan perangkat lunak untuk ekstraksi teks, kemudian tahap terakhir adalah uji hasil dan analisa. Diagram tentang tahapan penelitian bisa dilihat pada Gambar 1 dibawah ini, dan diikuti dengan penjelasan mengenai tahapan-tahapan dalam penelitian secara berurutan.

(3)

Tahap persiapan dan preproses dataset adalah tahap dimana dilakukan persiapan data uji agar siap untuk tahap yang selanjutnya. Setelah dilakukan persiapan dan preproses maka tahap selanjutnya adalah tahap persiapan perangkat lunak, yang meliputi instalasi dan pengaturan konfigurasi. Tahap selanjutnya adalah penerapan perangkat lunak yaitu implementasi library ocr dalam pengenalan karakter dari citra uji. Tahap terakhir adalah uji hasil dan analisa kesimpulan terhadap keluaran yang dihasilkan.

Gambar 1. Tahapan Penelitian 1) Tahap Persiapan dan Praproses

Tahap ini merupakan tahap awal dimana dilakukan persiapan data. Tahap ini dilakukan secara manual meliputi unduh data uji, analisa data uji, dan pemilihan data uji. Tujuan tahap ini adalah agar proses atau tahapan selanjutnya dapat berjalan dengan baik.

2) Tahap Persiapan Perangkat Lunak Tahap ini meliputi instalasi perangkat lunak yaitu Matlab dan pengaturan konfigurasi dari perangkat lunak tersebut. Pada penelitian ini digunakan library ocr dari Matlab yang memang telah tersedia dan siap digunakan. Sebuah file dipersiapkan

sebagai penampung hasil ekstraksi teks ketika dilakukan implementasi. Proses ekstraksi teks akan dilakukan untuk setiap dataset. Setiap teks yang berhasil diekstrak akan dituliskan pada sebuah file.

3) Tahap Penerapan Perangkat Lunak Pada tahap ini akan dilakukan implementasi pengenalan karakter dari data uji. Pengimplementasian akan dilakukan satu persatu mulai data uji yang pertama sampai dengan data uji yang terakhir. Pada tahap ini juga dilakukan dokumentasi tentang hasil keluaran yang dihasilkan.

4) Tahap Uji dan Analisa

Pada tahap ini dilakukan uji hasil keluaran dari tahap sebelumnya. Hasil keluaran akan dicocokkan dan dibandingkan secara manual terhadap pengamatan langsung. Uji yang dipakai adalah prosentase kecocokan antara hasil keluaran dengan pengamatan. Selanjutnya akan dilakukan analisa terhadap hasil uji yang telah dilakukan.

Gambar 2. Bagan Alir Ekstraksi Teks

Persiapan dan Preproses Dataset Persiapan Perangkat Lunak Penerapan Perangkat Lunak

(4)

4. HASIL DAN PEMBAHASAN

Pada bab ini akan dijelaskan mengenai hasil dari ekstraksi teks dari rambu lalu lintas menggunakan library ocr. Masing-masing tahap tersebut akan dibahas dalam sub bab yang bersesuaian dan disajikan sebagai berikut.

4.1 Praproses

Tahap persiapan dan praproses data adalah proses mempersiapkan dataset agar siap untuk proses ekstraksi teks. Dataset citra yang dipakai adalah citra papan penunjuk arah di Indonesia yang diperoleh dari internet. Dataset yang dipakai dalam penelitian ini adalah data citra rambu penunjuk arah atau papan informasi penunjuk jalan berbahasa Indonesia yang diperoleh dari internet. Jumlah dataset yang digunakan berjumlah 40 buah. 40 buah dataset ini diperoleh dari hasil praproses 7 buah citra rambu penunjuk arah.

Praproses melakukan pemotongan (crop) untuk memisahkan masing-masing arah. Proses pemotongan (crop) setiap dataset dilakukan dengan bantuan perangkat lunak Matlab dan dilakukan secara manual. Kriteria untuk melakukan pemotongan pada dataset adalah berdasarkan setiap baris yang mengandung informasi suatu arah yang tertulis atau termuat pada rambu penunjuk arah tersebut. Apabila pada suatu dataset terdapat 6 informasi arah, maka akan dilakukan pemotongan menjadi 6 bagian.

Gambar 3. Ilustrasi Pemotongan

Pemotongan juga bertujuan untuk menghilangkan simbol pada rambu yang bukan merupakan teks atau karakter. Beberapa hasil dari tahap praproses dapat dilihat pada Tabel 1.

Dalam melakukan proposes ini digunakan library dari Matlab yaitu imcrop. Library ini menerima input citra di dalam variabel I untuk kemudian user dapat melakukan pemotongan sesuai yang diinginkan. Bidang pemotongan berbentuk persegi panjang yang dapat disesuaikan dan digeser sesuai kebutuhan kita.

Jumlah dataset yang terbentuk setelah tahap praproses adalah 40 buah data citra. 40 buah data ini akan menjadi dataset pada keseluruhan penelitian ini. Masing-masing dataset akan menjadi data input bagi library ocr sehingga informasi teks yang terkandung dalam masing-masing data dapat diekstrak.

4.2 Ekstraksi Teks

Proses ekstraksi teks dilakukan dengan menggunakan library ocr dari perangkat lunak bantu Matlab. Proses ekstraksi teks secara umum yaitu membaca input data citra, ekstraksi teks, dan menyimpan teks hasil ekstraksi. Rangkaian tahapan tersebut dilakukan secara berulang sampai seluruh dataset dikenakan operasi ekstraksi.

Uji coba menggunakan 40 dataset citra rambu penunjuk arah yang merupakan hasil crop pada tahap praproses. Seluruh data citra diproses secara berurutan untuk dilakukan ekstraksi teks, dan hasilnya dapat dilihat pada Tabel 2.

Secara umum tahap ekstraksi teks dapat mengenali tulisan yang terdapat di dalam rambu lalu lintas penunjuk arah. Meskipun pada beberapa rambu tulisan tidak dapat terdeteksi dengan baik, dan bahkan pada data ke 24 ekstraksi teks tidak berhasil menemukan informasi apapun.

(5)

Tabel 1. Contoh Hasil Praproses

Kode Citra Asli Hasil Praproses

1

2

Tabel 2. Hasil Proses Ekstraksi

NO DATASET HASIL EKSTRAKSI TEKS

1 BOGOR 2 VIA CISEENG 3 PARUNG 4 DEPOK 5 PARUNG PANJANG 6 RUMPIN 7 gm AIR 8 WATER SKY 9 LAPANGAN TE“ 10 TENN|S 11 LAPANGAN Tam? 12 SHOOTING 13 VOLLY PANTA|

(6)

14 VOLLEY BEACH 15 UnAIAVA 16 “(ERMINAL 17 JOGJAKAITA 18 FERUM mm mun 19 KUDUS 20 JEPARA

21 PANTAI TIRTO SAMUDRO

22 BANDENGAN 23 JALAN roL 24 25 Jakarta 26 Tomanq 27 Groqol 28 Harmoni 29 Sllpl 30 5eman§9' 31 Cawanq 32 Sidakarya 33 Sesetan 34 Denpasar 35 Sanur 36 Sp. Dewa Rucl 37 Kuta 38 PASAR SEN! 39 GABUSAN 40 4.5U0m

4.3 Analisa Hasil Pengujian

Analisa hasil pengujian dilakukan untuk mengetahui sejauh mana performa dari metode yang digunakan untuk melakukan ekstraksi teks dari rambu lalu lintas penunjuk arah. Uji yang dilakukan adalah uji akurasi yaitu ketepatan hasil ekstraksi dengan teks yang terkandung pada rambu setiap baris. Dari 40 buah data, library ocr berhasil mendeteksi 24 data secara benar sedangkan 16 data lainnya menghasilkan ekstraksi teks yang salah. Hasil benar disini adalah

kecocokan antara hasil ekstraksi teks dengan informasi teks yang ada pada data.

Akan tetapi untuk uji keberhasilan ekstraksi teks tanpa menghiraukan kebenaran teks yang diekstrak maka hanya 1 data saja yang gagal, sedangkan 39 lainnya sukses. Artinya apabila library ocr berhasil melakukan ekstraksi teks maka diasumsikan sukses tanpa memperhatikan kecocokan hasil ekstraksi dengan informasi sesungguhnya yang tertera pada dataset.

(7)

Gambar 4 menunjukkan grafik uji ekstraksi teks terhadap kecocokan informasi pada dataset, sedangkan Gambar 5 menunjukkan grafik uji ekstraksi teks tanpa memperhatikan kecocokan dengan informasi pada dataset. Akurasi uji kesesuaian hasil ekstraksi teks adalah sebesar 60%, sedangkan tingkat kesuksesan ekstraksi teks adalah mencapai 97%.

Gambar 4. Perbandingan Hasil Ekstraksi Teks

Gambar 5. Perbandingan Uji Deteksi Teks

5. KESIMPULAN DAN SARAN

Kesimpulan dari penelitian ini antara lain : (1) Library ocr dapat digunakan untuk melakukan ekstraksi teks pada rambu lalu lintas informasi arah, (2) Uji kesesuaian hasil ekstraksi teks dengan kecocokan pada informasi rambu adalah sebesar 60%, dan (3) Uji tingkat kesuksesan ekstraksi teks mencapai 97%, hanya 1 data yang tidak dapat dilakukan

ekstraksi, sedangkan 39 lainnya sukses dilakukan ekstraksi.

Adapun saran pengembangan yang terkait dengan penelitian ini antara lain : (1) Perlunya fitur antar muka yang memudahkan user dalam pengoperasian ekstraksi teks, (2) Penambahan fitur kata yang disarankan apabila hasil ekstraksi teks berhasil dilakukan akan tetapi mengalami ketidakcocokan dengan data nyata.

DAFTAR PUSTAKA

Sumi K. M. Arun Kumar M. N., PhD., Detection and Recognition of Road Traffic Signs - A Survey International Journal of Computer Applications (0975 - 8887) Volume 160 - No.3, February 2017.

Seles Xavier, Reshmi R, Automatic Detection and Recognition of Text in Traffic Sign Boards based on Word Recognizer, IJIRST –International Journal for Innovative Research in Science & Technology| Volume 3 | Issue 04 | September 2016

Kh Tohidul Islam, Ram Gopal Raj, Ghulam Mujtaba, Recognition of Traffic Sign Based on Bag-of-Words and Artificial Neural Network,

Symmetry 2017, 9, 138;

doi:10.3390/sym9080138

Jack Greenhalgh, Majid Mirmehdi, Recognizing Text – Based Traffic Signs, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, VOL. 16, NO. 3, JUNE 2015

Sandeep Tiwari, Shivangi Mishra, Priyank Bhatia, Praveen Km. Yadav, Optical Character Recognition using MATLAB, International Journal of Advanced Research in Electronics and Communication Engineering (IJARECE) Volume 2, Issue 5, May 2013

24 ₁₆

JUMLAH

GRAFIK KESESUAIAN HASIL

EKSTRAKSI TEKS

Sesuai Tidak Sesuai

39

1 JUMLAH

Optical Character Recognition Untuk Ekstraksi Teks Rambu Lalu Lintas

GRAFIK KESESUAIAN HASIL

EKSTRAKSI TEKS

GRAFIK PERBANDINGAN UJI

DETEKSI TEKS