190 3.1Kebutuhan Sistem

Sistem dibangun di atas platform Java menggunakan tools Eclipse, disertai Android Developer Tools, dan Android SDK. Adapun berikut penjelasan kebutuhan sistem dari sisi masukan, keluaran, beserta cara mengukur performansi sistem.

1) Input Sistem

Input untuk aplikasi OCR yang dibangun berupa citra yang dapat diambil dari 2 cara, yaitu proses load citra dari media penyimpanan smartphone atau capture cita secara langsung menggunakan camera smartphone.

2) Output Sistem

Output yang dihasilkan oleh sistem adalah teks hasil pengenalan oleh sistem terhadap citra yang diinputkan.

3) Performansi Sistem

Performansi sistem dihitung berdasarkan Word Accuracy (Wacc) dan Character

Accuracy (Cacc) teks hasil pengenalan terhadap teks sebenarnya. Untuk Cacc,

dihitung dengan cara menghitung persentase banyaknya karakter yang dikenali dengan benar dibandingkan jumlah seluruh karakter pada teks yang dibaca. Sedangkan untuk Wacc, dilakukan penghitungan dengan rumus berikut [8].

(10)

Keterangan:

S = jumlah kata/karakter yang diganti D = jumlah kata/karakter yang dihapus I = jumlah kata/karakter yang ditambah C = jumlah kata/karakter yang benar

4 PENGUJIAN DAN ANALISIS

Skenario Pengujian

Pengujian terhadap aplikasi OCR yang dibangun mengunakan 100 buah citra teks uji. Citra yang diujikan berisi teks berberbahasa Indonesia yang diambil dengan kamera smartphone dengan resolusi 5 MP. Gambar diambil tanpa menggunakan flash dan berada pada pencahayaan yang cukup terang. Tulisan pada data yang diambil berjenis Times

New Roman.

Pengujian dan pengukuran dilakukan untuk mendapatkan nilai-nilai terbaik dari parameter-parameter yang mempengaruhi OCR dengan MixedBinarization ini. Dengan demikian akan dapat diketahui pengaruh penggunaan metode tersebut terhadap

performansi sistem. Berikut adalah langkah-langkah untuk menguji dan menentukan nilai parameter-parameter yang diperlukan.

1. Data uji diproses menggunakan OCR tanpa pre-processing binerisasi. Hasil dari proses tersebut meliputi teks hasil proses dan waktu proses yang dibutuhkan. Selanjutnya teks hasil proses tersebut dihitung menggunakan Word Accuracy (Wacc) dan CharacterAccuracy (Cacc)

2. Selanjutnya data uji diproses menggunakan OCR pre-processing binerisasi dengan menggunakan nilai k-factor dan window size yang telah ditentukan sebelumnya. Nilai parameter erosi-dilasi pada Fisher Thresholding di-observasi dalam rentang nilai 1 sampai 10. Dari hasil teks dari proses tersebut akan dihitung WordAccuracy (Wacc) dan CharacterAccuracy (Cacc).

3. Pada tahap selanjutnya, pengubahan nilai parameter dilakukan pada nilai k-factor, nilai diubah dalam rentang 0.1 sampai dengan 0.9. Teks hasil proses tersbut dihitung kembali menggunakan Word Accuracy (Wacc) dan Character Accuracy (Cacc)yang kemudian data nilai tersebut dirata-ratakan untuk mengetahui nilai k- factor yang terbaik dan akan digunakan untuk pengujian selanjutnya.

4. Data uji diproses menggunakan OCR dengan pre-processing binerisasi. Pada tahap ini pengujian dilakukan dengan menggunakan nilai k-factor yang telah ditentukan sebelumnya. Nilai parameter window size pada Sauvola Thresholding

191

diset dengan nilai-nilai ganjil dalam rentang 3 sampai 21. Dari teks hasil proses tersebut akan dihitung WordAccuracy (Wacc) dan Character Accuracy (Cacc). 5. Selanjutnya data uji diproses menggunakan OCR dengan pre-processing

binarisasi Otsu. Hasil dari proses tersebut akan dibandingkan dengan proses yang menggunakan Mixed Binarization dan proses tanpa binarisasi. Parameter pengukur yang digunakan meliputi Word Accuracy (Wacc), Character Accuracy (Cacc) dan waktu proses pengenalan.

4.1Hasil Observasi Parameter Erosi dan Dilasi

Tabel berikut menunjukkan hasil observasi terhadap nilai-nilai erosi dan dilasi yang diujikan. Parameter pengukur yang dilihat ada 3, yaitu Wacc, Cacc, dan waktu proses.

Tabel 1. Hasil observasi parameter erosi dan dilasi Parameter OCR Result (%)

Time(s)

Erosi dan Dilasi

1 75.16 92.84 156.67 2 76.68 94.96 152.31 3 63.17 82.34 151.15 4 38.85 71.76 160.57 5 37.45 61.00 153.94 6 19.30 51.01 157.74 7 15.28 38.59 161.39 8 11.79 36.02 154.45 9 9.09 32.49 160.87 10 8.67 22.16 150.72

Berdasarkan tabel di atas, terlihat bahwa parameter erosi dan dilasi berpengaruh terhadap tingkat akurasi teks yang dikenali oleh sistem. Besarnya nilai erosi dan dilasi yang digunakan akan mempengaruhi struktur stroke pada citra. Semakin besar nilai erosi dan dilasi, maka stroke pada citra akan semakin tipis, demikian pula sebaliknya. Nilai erosi dan dilasi yang terlalu kecil atau besar dapat membuat ukuran stroke yang sulit untuk diproses. Dari percobaan ini, diperoleh nilai erosi dan dilasi yang optimal, yaitu 2.

4.2Hasil Observasi Nilai Parameter K-Factor

Tabel berikut menunjukkan hasil observasi terhadap nilai-nilai k-factor yang diujikan. Parameter pengukur yang dilihat ada 3, yaitu Wacc, Cacc, dan waktu proses.

Tabel 2. Hasil observasi nilai parameter k-factor

Parameter OCR Result (%)

Time(s) K Factor 0.1 5.41 47.98 155.18 0.2 77.56 89.57 151.46 0.3 0.00 10.67 159.64 0.4 0.00 12.39 157.16 0.5 2.60 12.00 150.24 0.6 0.50 15.32 160.97 0.7 0.00 9.23 150.38 0.8 1.30 13.88 151.18 0.9 0.00 7.85 156.15

Besarnya nilai k-factor yang digunakan berpengaruh terhadap nilai threshold pada setiap pixel. Jika nilai k = 0, maka nilai threshold sama dengan mean (rata-rata). Semakin besar nilai k maka semakin besar pula nilai threshold-nya. Nilai threshold yang tinggi cenderung menghasilkan nilai 1 atau mendekati warna putih. Hal tersebut menyebabkan kualitas citra yang kurang baik. Sebaliknya nilai threshold yang semakin kecil akan

192

menghasilkan warna yang mendekati hitam. Berdasarkan percobaan, nilai k-factor yang optimal untuk digunakan pada penelitian ini adalah 0.2.

4.3_{Hasil Observasi Nilai Parameter Window Size}

Tabel 3 berikut menunjukkan hasil observasi terhadap nilai-nilai window size yang diujikan. Parameter pengukur yang dilihat ada 3, yaitu Wacc, Cacc, dan waktu proses.

Berdasarkan tabel tersebut, terlihat bahwa performansi sistem OCR terbaik secara umum ditunjukkan oleh parameter window size yang bernilai 11. Hal tersebut terutama dilihat dari akurasi kata (Wacc) yang paling tinggi di antara nilai-nilai window size yang

lainnya. Namun, akurasi terbaik tersebut harus ‗dibayar‘ dengan waktu komputasi yang

paling lama dibandingkan nilai-nilai window size yang lainnya.

Tabel 3. Hasil observasi nilai parameter window size

Parameter OCR Result (%)

Time(s) Window Size 3 31.49 67.96 158.67 5 71.70 88.68 159.69 7 75.16 94.03 155.75 9 73.37 91.26 150.43 11 80.27 94.11 162.19 13 3.93 23.18 160.89 15 1.06 78.43 153.62 17 1.47 6.34 157.59 19 0.00 9.48 155.12 21 0.00 9.45 156.42

Hal tersebut dikarenakan nilai window size memiliki pengaruh pada hasil perhitungan nilai threshold untuk suatu pixel. Semakin besar nilai window size, maka akan memperluas atau memperbanyak pixel sekitar yang menjadi komponen perhitungan nilai

threshold. Window size yang semakin besar tidak menjamin akan menghasilkan nilai

threshold yang sesuai karena piksel-piksel yang jauh dari pusat window akan ikut terlibat

dalam perhitungan nilai threshold.

Di samping itu, nilai window size yang semakin besar akan membuat kompleksitas perhitungan di dalam setiap window semakin besar. Namun, jumlah perulangannya atau jumlah window yang harus dihitung menjadi semakin sedikit. Begitu pula sebaliknya, sehingga penambahan ukuran window tidak berbanding secara linier dengan waktu proses perhitungan.

4.4Hasil Perbandingan Antara Tanpa Binarisasi, Mixed, dan Otsu

Dari percobaan yang dilakukan untuk membandingkan antara sistem yang tidak melakukan tahap binarisasi, sistem yang menggunakan Mixed Binarization, dan sistem yang menggunakan metode Otsu, diperoleh hasil yang dituliskan pada tabel 4 dan 5.

Tabel 4. Hasil perbandingan antara OCR tanpa binarisasi dan dengan Mixed Binarization

Hasil tanpa Binarisasi

Time(s) Hasil dengan Mixed Binarisasi Time(s)

16.47% 51.59% 41.20 80.275 94.11% 108.400

Tabel 5. Hasil perbandingan antara OCR dengan Mixed Binarization dan dengan Otsu

Result dengan Otsu

Time(s) Result dengan Mixed Time(s)

68.13% 90.71% 43.63 80.27% 94.11% 108.400

Berdasarkan kedua tabel di atas, terlihat bahwa hasil proses pengenalan OCR dengan menggunakan binarisasi akan menghasilkan tingkat akurasi yang jauh lebih baik dibandingkan dengan hasil proses OCR yang tanpa melalui tahap binarisasi. Begitu juga

193

untuk perbandingannya terhadap penggunaan metode Otsu. Tingkat akurasi yang dihasilkan OCR dengan Mixed Binarization lebih baik dibandingkan metode Otsu. Meskipun demikian, baik dibandingkan dengan tanpa metode binarization dan dengan penggunaan metode Otsu, waktu proses yang dihasilkan selalu lebih lama.

5 KESIMPULAN

Dari hasil observasi, pengujian, dan analisis yang telah dilakukan, maka dapat ditarik beberapa kesimpulan sebagai berikut.

1. Setiap parameter pada metode Mixed Binarization yang di-observasi memberikan pengaruh tersendiri terhadap performansi sistem OCR.

a. Parameter erosi dan dilasi berpengaruh terhadap ketebalan stroke dari citra biner. Stroke yang terlalu besar atau terlalu kecil kurang baik dalam proses perhitungan sehingga akan berdampak pada akurasi pengenalan.

b. Parameter k-factor berpengaruh terhadap brightness atau tingkat gelap-terang dari citra hasil pre-processing dan berpengaruh pula pada akurasi. Nilai k-factor yang semakin besar akan menghasilkan citra yang lebih terang, begitu pula sebaliknya. c. Semakin besar ukuran window yang digunakan, maka semakin banyak pula nilai

pixel yang ikut terlibat sebagai komponen dalam perhitungan nilai threshold. Dengan demikian waktu proses perhitungan untuk setiap window akan lebih lama. 2. Berdasarkan percobaan yang dilakukan, konfigurasi parameter-parameter yang

optimal pada metode Mixed Binarization untuk citra teks dengan jenis huruf Times New Roman 12 pt adalah sebagai berikut.

a. erosi dan dilasi : 2 b. k-factor : 0.2 c. windowsize : 11

3. Dalam hal tingkat akurasi, penerapan metode Mixed Binarization pada penelitian ini lebih baik dibandingkan dengan tanpa melalui proses binarisasi ataupun dengan penggunaan metode Otsu. Namun, dalam hal waktu proses atau kompleksitas perhitungan, metode Mixed Binarization kurang bagus dibandingkan kedua metode tersebut. Hal ini sekaligus menjadi saran untuk penelitian selanjutnya untuk membangun metode binarisasi yang bagus dalam menghasilkan citra hasil pre- processing sekaligus meminimalkan proses komputasi yang terjadi.

DAFTAR PUSTAKA

1. Abdel-Azim, G. 2010. Thresholding based on Fisher linear discriminant. Saudi Arabia:College of Computer, Qassim.

2. Csetverikov, Dmitrij., et al. 2011.Basic Algorithms for Digital Image Analysis: a Course. Hungary: Institute of Informatics Eotvos Lorand University Budapest. 3. Eikvil, Line. 1993. Optical Character Recognition. Oslo: Norsk Regnesentral P.B

114 Blindern.

4. Fisher, Walter D.1958. On Grouping for Maximum Homogeneity. Kansas State College.

5. Gaceb, Djamel., Eglin, Veronique., Lebourgeois, Frank. 2011. A New Mixed Binarization Method Used in a Real Time Application of Automatic Business Document and P

6. Hahn, Jim., Ryckman, Nathaniel. 2012. Optical Character Recognition Software in Library Mobile Apps. Helsinki: University of Illinois at Urbana-Champaign. 7. Hladky, Peter. 2012.OCR on Mobile Device. Android Development. Zurich:

Software Engineer AdNovum Informatik AG.

8. Kwon Soon-Kak, An Hyun-Jun, Choi Young-Hwan. 2012. Character Recognition System Based On Android Smart Phone. Department of Computer Software Engineering, Dongeui

9. O‘Brien, Sean., Haddej, Dhia Ben. 2012. Optical Character Recognition. Worcester Polytechnic Institute.

194

10. O‘Meara, John. 2012. Optical Character Recognition.Zanibbi, Richard - Department of Computer Science, Rochester Institute of Technology

11. Palkovic, AJ. 2008.Improving Optical Character Recognition. United States: Villanova University.

12. Sachs, Jonathan. 1996.Digital Image Basics. Digital Light & Color.

13. Sharma, Om Prakash., Ghose, MK., Shah, Krishna Bikram., Thakur, Benoy Kumar.2013. Recent Trends and Tools for Feature Extraction in OCR Technology. International

14. Shi, Jianbo. 2007. Computer Vision.IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Kauai, Hawaii.

195 Lesson Learned Improving Teachers Capability To Developt Ict Media

Dalam dokumen M01459 (Halaman 190-195)