IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
DHIWA ARIE PRATAMA 131401028
PROGRAM STUDI S1 ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Ilmu Komputer
DHIWA ARIE PRATAMA 131401028
PROGRAM STUDI S1 ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : IMPLEMENTASI GLOBAL TRESHOLDING METODE
OTSU DAN TESSERACT OCR ENGINEDENGAN
ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
Kategori : SKRIPSI
Nama : DHIWA ARIE PRATAMA
Nomor Induk Mahasiswa : 131401028
Program Studi : SARJANA (S1) ILMU KOMPUTER
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Dosen Pembimbing II Dosen Pembimbing I
Amalia, S.T., M.T. (Dian Rachmawati, S.Si, M.kom) NIP. 197812212014042001 NIP.198307232009122004
Diketahui/Disetujui oleh Program Studi S1 IlmuKomputer
Ketua,
PERNYATAAN
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2017
PENGHARGAAN
Puji dan syukur penulis ucapkan kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Banyak bantuan berupa uluran tangan, budi baik, buah pikiran dan kerjasama yang telah penulis terima selama menempuh studi sampai dengan penyelesaian studi (skripsi) ini. Oleh karena itu, seyogianya penulis menyampaikan ucapan terimakasih kepada pihak-pihak yang telah membantu.
Ucapan terima kasih penulis sampaikan kepada:
1. Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera Utara.
2. Prof. Dr. Opim Salim Sitompul M.sc selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
3. Bapak Dr. Poltak Sihombing, M.Kom selaku Ketua Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara dan dosen pembanding I yang telah memberikan kritik dan saran guna memperbaiki kesalahan yang ada pada skripsi ini.
4. Ibu Dian Rachmawati, S.Si, M.kom selaku dosen pembimbing I yang telah memberikan bimbingan, kritik, dan saran kepada penulis dalam menyelesaikan skripsi ini.
5. Ibu Amalia., S.T., M.T selaku dosen pembimbing II yang telah memberikan bimbingan, kritik, dan saran kepada penulis dalam menyelesaikan skripsi ini. 6. Bapak Jos TimantaTarigan, S.kom, M.Sc selaku dosen pembanding II yang
telah memberikan kritik dan saran guna memperbaiki kesalahan yang ada pada skripsi ini.
7. Ayahanda Rudi Siswono dan ibunda Aswati yang selalu memberikan doa dan dukungan serta kasih sayang kepada penulis.
8. Saudari Widia Febrianti yang telah banyak membantu penulis dalampembuatan skripsi ini.
Shintia Dirda, Rahmi Suliani, yang telah berbagi kebersamaan dan saling memberikan semangat serta dorongan kepada penulis selama menyelesaikan skripsi ini.
10.Semua pihak yang terlibat langsung atau tidak langsung yang penulis tidak dapat tuliskan satu per satu
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, semangat, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini. semoga skripsi ini bermanfaat bagi pribadi, keluarga, masyarakat, organisasi dan negara.
Medan, Juni 2017
ABSTRAK
Bahasa Jepang merupakan salah satu bahasa yang paling sering digunakan di dunia yaitu pada urutan kesembilan, sehingga dibutuhkan pengetahuan mengenai bahasa dan tulisan Jepang. Masih banyaknya masyarakat yang belum mengetahui tentang bahasa Jepang baik penulisan, arti maupun penyebutan sehingga dibuat sistem yang bisa menerjemahkan dari aksara Jepang ke bahasa Indonesia dengan menerapkan Image Process dan OCR Tesseract yang kemudian dikombinasikan dengan algoritma String Matching Horspool. OCR diperlukan untuk mengenali teks yang terdapat dalam sebuah gambar. Gambar inputan mengalami proses segmentasi untuk mendapatkan citra biner dengan Treshold Metode OTSU setelah itu dicocokan dengan data latih aksara Jepang yang sudah tersedia. Image Processing dilakukan untuk menambah akurasi ketepatan pengenalan OCR Tesseract.String yang didapat kemudian diterjemahkan secara online, dan dilakukan proses string matching dengan data yang terdapat dalam database. Algoritma Horspool menyimpan informasi pencarian untuk melakukan pergeseran yang lebih jauh karena pencocokan string dilakukan dari kanan ke kiri sehingga waktu pencarian lebih pendek. Hasil yang didapat dari aplikasi ini menampilkan keseluruhan string yang berhasil dikenali dan pattern yang cocok dengan string yang berhasil dikenali.
Kata Kunci : Image Processing, Metode OCR, OCR Tesseract, Algoritma Horspool,
ABSTRACT
Japanese is one of the most commonly used languages in the world in the ninth order, requiring knowledge of Japanese language and writing. There are still many people who do not know about the Japanese language either writing, meaning and mentioning that made a system that can translate from Japanese script to the Indonesian language by applying Image Process and OCR Tesseract which then combined with String Matching Horspool algorithm. OCR is required to recognize the text contained in an image. The input image experiencing segmentation process to get a binary image with the OTSU Treshold Method after which it is matched with Japanese script tracking data already available. Image Processing is done to increase accuracy of the accuracy of the introduction of OCR Tesseract. The obtained string is then translated online, and a string matching process is done with the data contained in the database. The Horspool algorithm stores search information to make further shifts because string matching is done from right to left so that search time is shorter. The results obtained from this app show the entire string that was recognized and the pattern matching the string that was successfully recognized.
DAFTAR ISI
Daftar Lampiran ... xii
Bab I Pendahuluan 1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 2
1.3 Batasan Masalah ... 3
1.4 Tujuan Penelitian ... 3
1.5 Manfaat Penelitian ... 3
1.6 Metode Penelitian ... 3
1.7 Sistematika Penulisan ... 4
Bab II Tinjauan Pustaka 2.1 Image Preprocessing ... 5
2.1.1 Grayscaling ... 5
2.1.2Global Thresholding Metode Otsu ... 7
2.2 Optical Character Recognition ( OCR ) ... 9
2.2.1 Tesseract OCR Engine ... 11
2.2.2 Arsitektur Tesseract OCR ... 11
2.2.3 Pengenalan Karakter oleh Tesseract... 13
2.2.3.1 Pencarian Teks line dan kata ... 13
2.2.3.2 Pengenalan Karakter dan Kata ... 15
2.3 String Matching ... 17
2.3.1 Pengertian String Matching ... 17
2.3.2 Cara kerja String Matching ... 17
2.3.3 Klasifikasi Algoritma String Matching ... 18
2.3.4 Algoritma Horspool ... 20
2.3.4.1Pencarian Dengan Algoritma Horspool
...
212.4 Huruf Jepang Jenis Katakana ... 24
2.4.2 Huruf Katakana ... 24
2.4.1.1Huruf Dasar Katakana ... 24
2.4.1.2 Huruf Tambahan Katakana ... 25
2.4.1.3 Huruf Gabungan Katakana ... 26
Bab 3 Analisis dan Perancangan Sistem 3.1 Diagram Arsitektur... 27
3.2 Analisis Sistem ... 29
3.2.1 Analisis Sistem ... 29
3.2.2 Analisis Persyaratan ... 30
3.2.2.2 Persyaratan Non Fungsional ... 31
3.2.3 Analisis Pemodelan Sistem ... 32
3.2.3.1 Use-Case Diagram... 32
3.2.3.2 Activity Diagram ... 37
3.2.3.3 Sequence Diagram... 40
3.2.4 Flowchart ... 41
Bab 4 Implementasi dan Pengujian 4.1 Implementasi Sistem ... 50
4.1.1 Photo ... 50
4.1.2Crop ... 51
4.1.3 OCR Tesseract ... 51
4.1.4 Menu Utama ... 52
4.1.5 About Us ... 53
4.2 Pengujian Sistem ... 53
4.2.1 Pengujian Proses Pengenalan karakter OCR ... 54
4.2.2 Proses Pencocokan String... 55
4.3 Hasil Pengujian Sistem ... 56
Bab 5 Kesimpulan dan Saran 5.1 Kesimpulan ... 64
5.2 Saran ... 64
DAFTAR GAMBAR
Nomor
Gambar Nama Gambar Halaman
2.1 Proses Sebelum dan Sesudah Metode OTSU 8
2.2 Proses OCR 10 Kata yang Mudah dikenali Huruf Dasar Katakana
3.1 General Arsitektur Sistem 28
3.2 Diagram Ishikawa 30
3.3 Diagram Use-Case 32
3.4 Activity Diagram Capture Image 37
3.5 Activity Diagram Crop Image 38
3.6 Activity Diagram OCR Tesseract 39
3.7 Sequence Diagram Sistem 40
3.8 Flowchart Algoritma Horspool 41
3.9 Rancangan Form Splash Screen 42
3.10 Rancangan Form Menu 43
3.11 Rancangan Form Capture Image 44
3.12 Rancangan Form Capture Image 45
3.13 Rancangan Form Tambahan Cropper Image 47
3.14 Rancangan Form Crop Image 48
3.15 Rancangan Form About Me 49
4.1 Tampilan photo 50
4.2 Tampilan Utama Crop 51
4.3 Tampilan Tambahan Crop 51
4.4 Tampilan OCR Tesseract 52
4.5 Tampilan Menu Utama 52
DAFTAR TABEL
Nomor
Tabel Nama Tabel Halaman
3.1 Dokumentasi Naratif Use-Case Capture Image 31
3.2 Dokumentasi Naratif Use-Case Crop Image 31
3.3 Dokumentasi Naratif Use-Case Prepocessing Sistem 31 3.4 Dokumentasi Naratif Use-Case Segmentasi Citra 32 3.5 Dokumentasi Naratif Use-Case Binerisasi Citra 32 3.6 Dokumentasi Naratif Use-Case Pengenalan Karakter 33 3.7 Dokumentasi Naratif Use-Case Penerjemahan Teks Secara
Online
33
3.8 Dokumentasi NaratifUse-Case Pencocokan String 34
DAFTAR LAMPIRAN
Nomor
Lampiran Nama Lampiran Halaman
4.1 4.2
Liating Program Curiculum Vitae