• Tidak ada hasil yang ditemukan

Pengenalan Huruf Jepang (KANA) Menggunakan Metode Independent Component Analysis (ICA) dan Learning Vector Quantization (LVQ)

N/A
N/A
Protected

Academic year: 2021

Membagikan "Pengenalan Huruf Jepang (KANA) Menggunakan Metode Independent Component Analysis (ICA) dan Learning Vector Quantization (LVQ)"

Copied!
7
0
0

Teks penuh

(1)

PENGENALAN HURUF JEPANG (KANA) MENGGUNAKAN METODE INDEPENDENT COMPONENT ANALYSIS (ICA) DAN LEARNING VECTOR

QUANTIZATION (LVQ)

Widyanto Riyadi¹, Tjokorda Agung Budi Wirayuda², Agung Toto Wibowo³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Optical Character Recognation merupakan suatu teknik untuk merubah data tulisan tangan, mesin ketik maupun mesin cetak (tulisan dalam bentuk non-digital) menjadi bentuk tulisan digital yang dapat dirubah menggunakan komputer. Pada OCR terdapat beberapa tahap yang yang harus dilakukan antara lain Image Acquisition, Image Preprocessing, Feature Extraction dan Classification

Dalam tugas akhir ini akan dikembangkan suatu sistem yang dapat membaca tulisan tangan huruf Jepang (KANA) dengan menerapkan metode Independent Component Analysis (ICA) sebagai image transformator pengganti tahap feature extraction dan Learning Vector

Quantization (LVQ) sebagai classifier. Hasil akurasi terbaik yang dihasilkan oleh sistem ini ialah 69.5652% untuk data latih hiragana, 61.087% untuk data latih katakana, 43.913% untuk data uji hiragana dan 33.4783% untuk data uji katakana. Hasil akurasi ini didapatkan dengan

menggunakan 5 IC (independent component) dari 8 IC yang dibangkitkan untuk hiragana dan 2 IC dari 5 IC yang dibangkitkan untuk katakana. Kemudian pada tahap pelatihan besar learning rate terbaik yang digunakan ialah 0.0015 baik pada hiragana maupun katakana dan jumlah hidden neuron yang terbaik untuk hiragana ialah 184 hidden neuron sedangkan untuk katakana ialah 230 hidden neuron. Hasil akurasi yang kurang baik ini disebabkan tingkat kemiripan yang cukup tinggi antar huruf sehingga sangat sulit bagi classifier untuk mengenali huruf-huruf Jepang tersebut.

Kata Kunci : Optical Character Recognation, hiragana, katakana, independent component analysis, learning vector quantization.

Abstract

Optical Character Recognation is a technique to alter the handwriting, typewriters and printing machines (written in the form of non-digital) into digital form of writing that can be changed using a computer. In the OCR, there are several steps that must be done, among others, Image Acquisition, Image Preprocessing, Feature Extraction and Classification.

In this final project will be developed a system that can read handwritten Japanese characters (KANA) by applying the method of Independent Component Analysis (ICA) as a image

transformator changing the feature extraction step and Learning Vector Quantization (LVQ) as a classifier. The best accuracy of results generated by this system is 69.5652% for practicing hiragana data, 61 087% for training data katakana, 43 913% for test data 33.4783% hiragana and katakana for test data. The results of this accuracy is obtained by using 5 IC (independent component) of 8 IC is raised to hiragana and 2 of IC 5 IC is raised to say. Later in the training stage of the learning rate of 0.0015 is best used either in hiragana or katakana, and the number of hidden neurons that are best for hiragana to 184 hidden neurons while katakana is 230 hidden neurons. The results are less good accuracy is due to a high enough level of similarity between the letters so it is very difficult for the classifier to recognize the Japanese characters.

Keywords : Optical Character Recognation, hiragana, katakana, independent component analysis, learning vector quantization.

Powered by TCPDF (www.tcpdf.org)

(2)

1

1.

PENDAHULUAN

1.1

Latar Belakang

Optical Character Recognation (OCR) merupakan suatu proses translasi

secara elektronik data gambar yang berisi tulisan tangan, tulisan hasil mesin cetak ataupun mesin ketik (data tulisan yang tidak dapat diubah) ke dalam dokumen yang dapat diubah di dalam komputer (dokumen teks) [4]. OCR pada dasarnya terdiri dari beberapa tahapan, yaitu preprocessing, feature extraction, classifier, dan postprocessing. Preprocessing terjadi sebelum sistem dapat mengenali karakter yang terdapat pada suatu gambar maka harus dilakukan pengambilan terhadap area tertentu pada gambar dimana pada area tersebut mengandung informasi penting yang kemudian akan diproses lebih lanjut. Feature extraction merupakan suatu proses menyederhanakan jumlah data yang digunakan untuk merepresentasikan suatu data yang besar seperti data gambar yang terdiri dari banyak pixel secara akurat[4]. Pada tugas akhir ini tahap feature extraction akan diganti dengan tahapan transformasi image dengan menggunakan metode

Independent Component Analysis (ICA). Pada metode ini akan dilakukan

perhitungan yang akan menghasilkan suatu independent component atau komponen bebas yang dapat merepresentasikan data gambar. Hasil dari proses ini lah yang nantinya dijadikan sebagai masukan pada proses classification.

Classification merupakan suatu proses untuk mengkategorikan suatu data

berdasarkan ciri yang dimilikinya [4]. Metode yang akan digunakan pada proses ini ialah Learning Vector Quantization (LVQ) karena metode ini akan membagi setiap karakter kedalam kelas-kelas sesuai dengan hasil perhitungan nilai inputan.

Dalam belajar bahasa Jepang tidak hanya kemampuan untuk berbicara yang diperlukan tetapi juga kemampuan membaca huruf Jepang. Huruf Jepang (Huruf Kana) terdiri dari Harigana dan Katana. Pada awal belajar huruf Jepang (KANA) sebelum kita dapat mentranslasikannya menjadi bahasa Indonesia, terlebih dahulu kita harus dapat merubahnya menjadi huruf romaji atau huruf yang sangat sudah biasa dikenali agar nantinya dapat memudahkan kita dalam mengartikannya ke dalam bahasa Indonesia [12]. Sehingga dalam proses pembelajarannya dibutuhkan sebuah tools yang bisa memudahkan kita untuk mentranslasikan huruf Jepang tersebut menjadi huruf romaji dengan begitu akan memudahkan kita dalam mempelajari bahasa Jepang. Dengan adanya sistem pengenalan huruf Jepang (KANA) ini diharapkan bisa membantu dalam proses pembelajaran bahasa Jepang.

Penggunaan ICA dikarenakan beberapa faktor yang dimiliki oleh KANA, antara lain, Image character pada tulisan tangan termaksud pada huruf Jepang (KANA) memiliki independent component yang berupa garis-garis pembentuk karakter tersebut sehingga dapat diproses menggunakan algoritma ini [1] [7], output dari menggunakan ICA adalah berupa vektor independent component dari karakter yang dapat mewakili suatu karakter [7].

Penggunaan LVQ sebagai classifier dikarenakan beberapa faktor yang dimiliki oleh LVQ, antara lain, LVQ merupakan JST yang menggeneralisasi dataset, sehingga cocok digunakan untuk melakukan klasifikasi [10], model dilatih dengan cepat oleh LVQ karena perhitungan yang dilakukan hanya

(3)

2 menghitung jarak Euclidean pada hidden layer saja [10], adanya linear layer yang mampu menyederhanakan arsitektur JST [10].

Dengan kemampuan yang dimiliki oleh ICA dan juga keluaran dari ICA yang berupa vektor independent component yang dapat menjadi inputan bagi LVQ, serta kecepatan LVQ dalam melakukan klasifikasi maka diharapkan sistem ini mampu menangani kasus pengenalan huruf Jepang (KANA).

1.2

Perumusan Masalah

Berdasarkan latar belakang permasalahan, maka masalah yang akan dirumuskan adalah bagaimana mengimplementasikan Optical Character

Recognation dengan Independent Component Analysis (ICA) sebagai transformator image dan Learning Vector Quantization (LVQ) sebagai classifier

untuk merubah huruf-huruf Jepang (KANA) yang ditulis tangan tersebut menjadi suatu huruf romaji.

Dalam implementasi tugas akhir ini ada beberapa batasan masalah, antara lain sebagai berikut :

1. Data latih dan data uji yang digunakan adalah data tulisan tangan Mahasiswa Universitas Dharma Persada, Universitas Padjajaran, Universitas Negeri Jakarta, Jurusan Sastra Jepang

2. Tulisan berwarna hitam dan latar belakang dari tulisan ialah putih

3. Tulisan di tulis pada suatu form yang sudah disediakan dengan huruf yang berurutan

4. Tidak ada fitur perubahan dan penambahan data latih dan data uji

5. Jumlah data latih yang digunakan ialah 10 form data latih hiragana, 10 form data latih katakana, 5 form data uji hiragana dan 5 form data uji katakana. Setiap form data latih dan data uji baik untuk hiragana maupun katakana terdiri dari 46 huruf.

6. Sistem bersifat offline

1.3

Tujuan

Tujuan yang ingin dicapai dalam penelitian ini adalah

1. Menganalisis dan mengimplementasikan Independent Component Analysis (ICA) sebagai transformator image dengan banyaknya independent

component yang digunakan dan Learning Vector Quantization (LVQ)

sebagai classifier dengan mengamati pengaruh parameter seperti hidden

neuron dan learning rate yang digunakan pada aplikasi OCR

2. Menganalisis akurasi/ketepatan pengenalan huruf dari gabungan kedua metode tersebut.

1.4

Metode Penyelesaian Masalah

a. Studi literatur

Merupakan tahapan dalam mempelajari konsep dan teori pendukung untuk memecahkan permasalahan. Dalam tugas akhir ini, studi literatur meliputi pembelajaran konsep Jaringan Saraf Tiruan (JST), ICA, LVQ, serta informasi lainnya yang menunjang pembuatan system pengenalan huruf jepang ini.

(4)

3 b. Pengumpulan data

Pada tahap ini,dilakukan pengumpulan data berupa huruf-huruf Jepang (KANA) yang ditulis dengan tulisan tangan yang nantinya berguna sebagai data untuk melatih sistem. Tulisan tangan tersebut nantinya akan dijadikan sebagai data latih dengan melakukan scanning terlebih untuk memasukan data tersebut ke dalam komputer.

c. Pemodelan sistem

Membangun model serta perancangan arsitektur sistem yang dapat menggabungkan kedua metode yaitu ICA sebagai feature extraction dan LVQ sebagai classifier.

d. Implementasi sistem

Membangun program dengan sistem yang sudah dibangun pemodelannya. Pembangunan sistem ini menggunakan tools yaitu MATLAB.

e. Training Sistem

Memasukan data-data yang sudah diambil pada tahap pengumpulan data untuk melatih keakuratan sistem.

f. Testing dan Analisa Hasil

Menganalisis akurasi atau ketepatan sistem dalam mengenali huruf dari penggabungan kedua metode tersebut.

Deskripsi Sistem

(a)

(b)

Gambar 1-1: Deskripsi Sistem (a) training (b) testing

Powered by TCPDF (www.tcpdf.org)

(5)

33

5.

Kesimpulan dan Saran

5.1. Kesimpulan

Berdasarkan hasil dari implementasi, pengujian dan analisis yang telah dilakukan, maka dapat diambil kesimpulan sebagai berikut :

1. Pemilihan dalam pembangkitan jumlah Independent Component (IC) dapat mempengaruhi hasil akurasi pengenalan karakter yang didapatkan. Semakin banyak jumlah IC yang ingin dibangkitkan menyebabkan tidak ditemukannya konvergensi matriks W pada saat pencarian IC.

2. Banyaknya jumlah IC yang digunakan dari IC yang dibangkitkan mempengaruhi hasil akurasi. Apabila terlalu sedikit yang digunakan maka hasil akurasi kurang maksimal karena IC tersebut kurang mewakili karakter, sedangkan apabila terlalu banyak yang digunakan maka terlalu memaksakan memunculkan cirri sehingga dapat menyebabkan penurunan akurasi.

3. Besar learning rate yang digunakan pada JST dapat mempengaruhi besar akurasi dan kecepatan dalam mencapai akurasi tertingginya. Semakin besar learning rate yang digunakan menyebabkan lebih cepat mencapai akurasi maksimumnya tetapi apabila terlalu besar (0.0075) menyebabkan akurasi terlalu cepat mencapai titik maksimumnya sehingga tidak mencapai titik terbaik dari akurasi dan apabila terlalu kecil maka kenaikan akurasi sangat perlahan sehingga titik terbaik akurasi tidak dapat dicapai.

4. Pada JST LVQ kenaikan jumlah hidden neuron sebanding dengan kenaikan akurasi hasil pelatihan tetapi apabila JST sudah mencapai titik akurasi tertingginya apabila jumlah hidden neuron ditambahkan kembali maka akan menyebabkan penurunan akurasi.

5. Kecilnya akurasi yang dihasilkan sistem dikarenakan tingkat kemiripan antar huruf dan banyaknya jumlah huruf. Sehingga penggunaan ICA pada studi kasus pengenalan huruf Jepang kurang cocok.

5.2. Saran

1. Dalam melakukan OCR diperlukan metoda yang lebih baik daripada

transformasi image dengan ICA, sehingga hasil akurasi yang

dihasilkan bisa menjadi jauh lebih baik.

2. Apabila hasil akurasi yang dihasilkan telah mencapai titik yang sangat baik (100%) maka sistem ini dapat dikembangkan untuk mentranslasi kata-kata dari bahasa Jepang menjadi bahasa Indonesia.

Powered by TCPDF (www.tcpdf.org)

(6)

34 a)

Daftar Pustaka

[1] Chepuri, Rajesh and Venkata Rao Chimata. ICA – are the strokes the

independent components in Hindi Handwriting?. Available on:

http://www.cse.iitk.ac.in/users/cs698brain/project/grp_d/grp_d_rep.pdf. (31 Maret 2010).

[2] Chou, Kuan-To and Sung-Yien Yu. 2006. Classifying ECG Beats Using ICA

Feature and Probabilistic Neural Network. Available on:

http://books.google.com/books?id=YUl9bz-om1kC&pg=RA2PA998& dq=Classifying+ECG+Beats+Using+ICA+Features+and+Probabilistic +Neural+ Network#PRA2-PA1001,M1 (31 Maret 2010) [3] Admin. 2008. http://www.ittelkom.ac.id/library/index.php?view=article&catid=15%3Apemrose san-sinyal&id=333%3Aindependent-component-analysis-ica&option=com_content&Itemid=15 (1 April 2010)

[4] Mohammed Cheriet, Nawwaf Kharma, Cheng-Lin Liu dan Ching Y. Suen. 2007.

Character Recognition System: A Guide for Students and Practicioners. New Jersey: John Willey and Sons.

[5] Nugroho, Hari Setyo. 2009. Optical Character Recognition Menggunakan Kombinasi Metode Independent Component Analysis dan Multi-Layer Feed-Forward Neural Network Back Propagation. Bandung : IT Telkom

[6] Romadhoni, Nugroho. 2008. Klasifikasi Golongan Darah Menggunakan

Pengolahan Citra Digital dan Jaringan Syaraf Tiruan Learning Vector Quantization. Bandung : IT Telkom.

[7] Srinivasan S H and KR Ramakrishnan. 1999. The independent component of

characters are ‘strokes’. Avaiable on:

http://vision.ece.ucsb.edu/~sitaram/pdf/icdar1999.pdf (06 Januari 2009)

[8] Suyanto. 2007. Artificial Intelligence: Searching, Reasoning, Planning and Learning. Bandung: Informatika.

[9] Suyanto. 2008. Soft Computing. Bandung: Informatika.

[10] Syawaluddin, Mochammad Taufik. 2010. Pengenalan Plat Nomer Otomatis Menggunakan Principal Component Analysis (PCA) dan Learning Vector Quantization (LVQ). Bandung : IT Telkom.

[11] THE JAPAN FOUDATION. 2006. PELAJARAN TENTANG SUKUKATA

BAHASA JEPANG. Indonesia: IMC Foudation.

(7)

35 [12] 3A Corporation. 1998. Minna no Nihongo 1. Indonesia: International Mutual

Activity Foundation (IMAF) Press.

[13] Dewi, Maria Ludovika. 2008. Pengenalan Pola Huruf Jepang (Kana)

Menggunakan Direction Feature Extraction Dan Jaringan Saraf Tiruan. Bandung: IT Telkom.

[14] Sukmana, Indriani. 2008. Analisis dan Implementasi Direct Linear

Discriminant Analysis (DLDA) dan Jaringan Syaraf Tiruan Learning Vector Quantization (LVQ) pada Pengenalan Iris Mata Manusia. Bandung: IT Telkom

[15] Sitanggang, Doni, Sumardi, Achmad Hidayatno. 2002. Pengenalan Vokal Bahasa Indonesia Dengan Jaringan Syaraf Tiruan Melalui Transformasi Fourier. Semarang : Universitas Dipenogoro.

[16] Abkhari, Vandy Aulia. 2006. Pemisahan Komponen Sumber Sinyal Audio Dengan Analisis Komponen Bebas. Semarang : Universitas Dipenogoro.

Powered by TCPDF (www.tcpdf.org)

Gambar

Gambar 1-1: Deskripsi Sistem (a) training (b) testing

Referensi

Dokumen terkait

Sebagai suatu bentuk penilian dan gambaran akan diri sendiri konsep diri bagi remaja tentunya menjadi hal yang dipikirkan dan diinginkan sehingga memunculkan citra

pasien risiko tinggi, dengan pilihan adalah IFNα dengan dosis sama seperti pada pasien ET tidak hamil. Pemeriksaan rutin selama kehamilan

Krajan Desa Plalangan TK PGRI 2 SUMBERMALANG; Jl.Pakisan No.07 Rt.02 Rw 01 Dusun Krajan Desa Taman TK PGRI 3 SUMBERMALANG; Jl.. Jambaran

Kitin aktivitas tinggi dalam 2 hari inkubasi merupakan sumber karbon yang baik untuk (Gambar 3) pada rentang pH awal media sintesa kitinase, sedangkan laktosa,

Data subjek penelitian yang meliputi umur, paritas, kadar Hb pada kehamilan trimester tiga, ASI Eksklusif selama 7 hari didapat dengan wawancara langsung

Interaksi manusia dan komputer menurut Wicaksono (2005:3) adalah bidang studi yang mempelajari, manusia, teknologi komputer dan interaksi antara kedua belah pihak, merupakan

Dalam rangka memenuhi peraturan OJK terkait Penerapan Manajemen Risiko Terintegrasi, Penerapan Tata Kelola Terintegrasi dan Penyediaan Modal Minimum Terintegrasi

Hubungan daya terhadap putaran diperlihatkan pada Grafik 2, dimana kurva menunjukkan berbagai putaran dengan daya yang dihasilkan, bisa dilihat dalam Grafik 2 bahwa