IDENTIFIKASI PELAFALAN HURUF HIJAIYAH MENGGUNAKAN JARINGAN SYARAF TIRUAN (BACKPROPAGATION) DAN PRAPROSES MEL- FREQUENCY CEPSTRAL COEFFICIENT

(1)

(BACKPROPAGATION) DAN PRAPROSES MEL- FREQUENCY CEPSTRAL COEFFICIENT

Skripsi :

Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer (S.Kom)

Oleh :

WAFIRA RAHMANIA 1113091000050

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA

2018 M/ 1439 H

(2)

ii

MENGGUNAKAN JARINGAN SYARAF TIRUAN

(BACKPROPAGATION) DAN PRAPROSES MEL-FREQUENCY CEPSTRAL COEFFICIENT

Skripsi

Sebagai Salah Satu Syarat untuk

Memperoleh Gelar Sarjana Komputer (S.Kom)

Oleh:

WAFIRA RAHMANIA 1113091000050

Menyetujui, Pembimbing I

Arini, M.T

NIP. 19760131 200901 2 001

Pembimbing II

A. Hanifa Setyaningrum, M.Si NIP. 07280 20340 389997

Mengetahui,

Ketua Program Studi Teknik Informatika

Arini, M.T

NIP. 19760131 200901 2 001

(3)

iii

diujikan dan dinyatakan lulus dalam sidang munaqasah Fakultas Sains dan Teknologi UIN Syarif Hidayatullah Jakarta pada 24 Juli 2018 Skripsi ini telah diterima sebagai salah satu syarat memperoleh gelar Sarjana Komputer (S.Kom) pada Program Studi Teknik Informatika.

Jakarta, 24 Juli 2018

Tim Penguji, Penguji I

Victor Amrizal, M.Kom NIP. 197406242001 101001

Penguji II

Fenty Eka M, M.Kom NIP. 197608052009122003

Tim Pembimbing, Pembimbing I

Arini, MT

NIP. 19760131 200901 2 001

Pembimbing II

A.Hanifa Setyaningrum, M.Si NIDN. 07280 20340 389997

Mengetahui, a.n. Dekan

Wadek Bidang Akademik FST

Dr. Ir. Elpawati, MP NIP. 19641204 199203 2 001

Ketua Program Studi Teknik Informatika

Arini, MT

NIP. 19760131 200901 2 001

(4)

iv

1. Skripsi ini merupakan hasil karya asli saya yang diajukan untuk memenuhi salah satu persyaratan memperoleh gelar strata 1 di UIN Syarif Hidayatullah Jakarta.

2. Semua sumber yang tercantum dalam penulisan ini telah saya cantumkan sesuai dengan ketentuan yang berlaku di UIN Syarif Hidayatullah Jakarta.

3. Apabila di kemudian hari terbukti karya ini bukan hasil karya asli saya, maka saya bersedia menerima sanksi yang telah ditetapkan di UIN Syarif Hidayatullah Jakarta.

Ciputat, Juli 2018

Wafira Rahmania

(5)

v

Nama : Wafira Rahmania

NIM : 1113091000050

Program Studi : Teknik Informatika Fakultas : Sains dan Teknologi Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Islam Negeri Syarif Hidayatullah Jakarta Hak Bebas Royalti Noneksklusif (Non-exclusive Royalty Free Right) atas karya ilmiah saya yang berjudul:

IDENTIFIKASI PELAFALAN HURUF HIJAIYAH MENGGUNAKAN JARINGAN SYARAF TIRUAN (BACKPROPAGATION) DAN PRAPROSES

MEL-FREQUENCY CEPSTRAL COEFFICIENT

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Noneksklusif ini Universitas Islam Negeri Syarif Hidayatullah Jakarta berhak menyimpan, mengalihmedia/formatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasikan tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan pemilik Hak Cipta.

Demikian pernyataan ini saya buat dengan sebenarnya.

Ciputat, Juli 2018 Wafira Rahmania

(………)

(6)

vi

Tiruan (Backpropagation) dan Praproses Mel-Frequency Cepstral Coefficient”

ABSTRAK

Bunyi adalah bagian utama dalam bahasa. Komunikasi lisan tidak akan terlaksana apabila tidak ada bunyi yang dituturkan dan diperdengarkan. Sama halnya dengan melafalkan al-Qur’an. Demi kelancaran dan kebaikan dalam pelafalan bacaan Arab, setiap huruf harus dibunyikan sesuai artikulasinya. Penulis menerapkan metode mel-frequency cepstral coeficient untuk mengekstraksi dan akan menghasilkan nilai karakteristik ciri dari sinyal suara yaitu koefisien cepstrum. Penerapan Jaringan Saraf Tiruan (Backpropagation) digunakan untuk klasifikasi pada identifikasi pelafalan 8 huruf hijaiyah menggunakan Matlab. 8 huruf hijaiyah yang dipilih س ع ء ك ق ز ذ ص berharakat fathah. Proses ekstraksi ciri menghasilkan beberapa nilai parameter berbeda, di antaranya nilai pre-emphasis, windowing, fast fourier transform, discrete cosine transform, koefisien cepstrum dan durasi. Percobaan jaringan syaraf tiruan menggunakan jumlah maksimum epoch dan training function bervariasi dilakukan sebanyak 15 kali dari setiap skenario mampu menghasilkan regresi training sebesar 0.91019, test sebesar 0.93486 dan validation sebesar 0.99772 serta nilai MSE sebesar 0.2048. Pengujian pelafalan huruf hijaiyah menggunakan trainlm dengan jumlah hidden layer 10, diperoleh akurasi sebesar 25

%. Penelitian berikutnya penulis berharap dilakukan identifikasi secara keseluruhan huruf hijaiyah menggunakan metode wavelet, Linear Predictive Coding (LPC), Yule-Waker spectrum feature, Walsh spectrum feature, Hidden Markov Model, naïve bayes, atau Linear Discriminant Analysis.

Kaca Kunci : Signal processing, Mel-Frequency Cepstral Coefisien, Jaringan Syaraf Tiruan (Backpropagation), Simulasi Jumlah Pustaka : 16 Buku + 10 Jurnal + 5 Website + 4 Skripsi/Tesis Jumlah Halaman : VI Bab + xiv Halaman + 124 Halaman

(7)

vii ABSTRACT

Sound is a main part of the language. Communication will not work if no sound that spoken and heard. For the sake of fluency and goodness when reciting of Arabic reading, each letter should be sounded according to its articulation. The writer applies mel-frequency cepstral coefficient to extract and will yield characteristic value of voice signal. Implementation of Artificial Neural Networks (Backpropagation) is used for classification on the identification of 8 letters of hijaiyah using Matlab. 8 selected hijaiyah letters are ع ء ك ق ز ذ ص س take fathah.

The feature extraction process produces several different parameter values, including pre-emphasis, windowing, fast fourier transform, discrete cosine transform, coefficient cepstrum and the duration. The backpopagation experiment using the maximum number of epoch and training functions varies as much as 15 times from each scenario capable of producing training regression 0.91019, test 0.93486, validation 0.99772 and MSE 0.2048. The test of hijaiyah pronunciation using trainlm with the number of hidden layer 10, obtained accuracy of 25%.

Subsequent research the authors hope to be identified as a whole hijaiyah letters with wavelet method, Linear Predictive Coding, Yule-Waker spectrum feature, Walsh spectrum feature, Hidden Markov Model, naïve bayes, or Linear Discriminant Analysis.

Keyword :

Number of Reference : 16 Books + 10 Journals + 5 Website + 4 Theses Number of Page : VI Chapter + xiv Pages + 124 Pages

Cepstral Coefficient

Signal processing, Mel-Frequency Cepstral Coefficient, Artificial Neural Network (Backpropagation), Simulation

(8)

viii

SWT yang telah memberikan Rahmat dan Hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini. Tak lupa shalawat serta salam kepada Nabi Muhammad SAW, beserta keluarga, para sahabat, dan para pengikutnya dari awal hingga akhir zaman.

Skripsi berjudul “Identifikasi Pelafalan Huruf Hijaiyah Menggunakan Jaringan Syaraf Tiruan (backpropagation) dan Praproses Mel-Frequency Cepstral Coefficient” disusun untuk memenuhi persyaratan guna mendapatkan gelar Sarjana Komputer (S.Kom) pada Program Studi Teknik Informatika di Universitas Islam Negeri Syarif Hidayatullah Jakarta.

Selama proses penyusunan skripsi ini, penulis mendapat banyak bimbingan, bantuan, masukan, dukungan, serta motivasi yang sangat bermanfaat dari berbagai pihak. Oleh karena itu melalui kata pengantar ini penulis ingin menyampaikan terima kasih banyak kepada:

1. Bapak Dr. Agus Salim, M.Si., selaku Dekan Fakultas Sains dan Teknologi.

2. Ibu Arini, MT., selaku Ketua Program studi Teknik Informatika dan juga sebagai Dosen Pembimbing I yang telah memberikan banyak perhatian, mendukung dan meluangkan waktu untuk membimbing, memotivasi, memberikan arahan dan saran yang sangat berguna bagi penulis.

3. Bapak Feri Fahrianto, M.Sc., selaku Sekretaris Program Studi Teknik Informatika.

4. Ibu A. Hanifah Setyaningrum, M.Si., selaku Dosen Pembimbing II yang telah memberikan banyak perhatian, mendukung dan meluangkan waktu untuk membimbing, memotivasi, memberikan arahan serta saran yang sangat berguna bagi penulis.

5. Ustadz Ahmad Bahrudin, Ustadzah Mawaddah, Ustadzah Alviaturrahmania, Ustadzah Tina Hidayatul Lastri, dan Ustadz Miftah Farid

(9)

ix

khususnya Program Studi Teknik Informatika yang telah memberikan ilmu, dukungan dan bantuan selama masa perkuliahan.

7. Kedua orang tua penulis, Abah Ahmad Khozin dan Umma Tutik Mahmudah yang tidak pernah berhenti mendoakan, mendukung, memberikan kasih sayang dan memotivasi penulis untuk menjadi orang yang sukses dan bermanfaat sehingga penulis dapat menyelesaikan skripsi ini. Lalu kepada adik penulis Mohammad Alfan Rahmana yang selalu mendoakan, menghibur dan memberikan semangat selama masa pengerjaan skripsi ini.

8. Sahabat-sahabat seperjuangan (Djiwi-Djiwi Vintage), Sriwanti Ayu Aisah, Syifa Ftratul M., Alia Saputri (para pejuang Matlab susah sedih bersama), Rizka Chaerani, Amanda Febrianti, dan Mumtaz Haya yang selalu mendukung dan mendorong penulis untuk menjadi lebih baik.

9. Sahabat sekaligus teman ngerumpi Intan Firdaus Arumpaka dan Syinsyina

‘Arifa yang selalu membantu, menemani dalam suka maupun duka, dan memberikan semangat selama masa pengerjaan skripsi ini.

10. Sahabat hangout dadakan Fellasufah Diniyah dan Ulfatun Mardliyah yang selalu ada untuk penulis dan memberikan semangat selama masa pengerjaan skripsi ini.

11. Muhammad Khoiruddin yang selalu mendoakan, memberikan motivasi di kala malas, membantu dan menghibur sehingga terselesaikan skripsi ini.

12. Seluruh teman-teman Teknik Informatika angkatan 2013, khususnya kelas TI-B BAYTI tercinta, Keluarga IMADU dan KKN Action. Terima kasih atas kebersamaan, kenangan, ilmu dan pengalaman selama masa perkuliahan.

13. Seluruh pihak yang tidak dapat disebutkan satu persatu baik secara langsung maupun tidak langsung telah membantu penulis menyelesaikan skripsi ini.

(10)

x untuk pengembangan penelitian yang lebih baik.

Jakarta, Juli 2018

Wafira Rahmania

(11)

xi

LEMBAR PENGESAHAN ... iii

PERNYATAAN ORISINALITAS ... iv

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI ... v

ABSTRAK ... vi

ABSTRACT ... vii

KATA PENGANTAR ... viii

DAFTAR ISI ... xi

DAFTAR GAMBAR ... xiv

DAFTAR TABEL ... xvii

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 4

1.3 Batasan Masalah ... 5

1.4 Tujuan Penelitian ... 6

1.5 Manfaat Penelitian ... 6

1.6 Metode Penelitian ... 7

1.7 Sistematika Penulisan ... 8

BAB II LANDASAN TEORI ... 10

2.1 Pelafalan ... 10

2.2 Makhorijul Huruf ... 11

2.3 Sinyal Suara ... 11

2.4 Signal processing ... 12

2.5 Sample rate ... 14

2.6 Audio Format ... 15

2.7 WAV ... 15

2.8 MP3 ... 16

2.9 Algoritma Mel Frequency Cepstral Coeficient dan Ekstrasi Ciri ... 16

2.9.1 Preprocessing ... 18

2.9.2 Frame Blocking dan Windowing ... 19

(12)

xii

2.12 Metode Pengumpulan Data ... 36

2.13 Observasi ... 36

2.14 Teknik Menentukan Sampel (Stratified Random Sampling) ... 36

2.15 Metode Simulasi ... 37

2.16 Tahapan Metode Simulasi ... 38

2.16.1 Problem Formulation ... 38

2.16.2 Conceptual Model ... 39

2.16.3 Collection and Analysis of Input/Output Data ... 39

2.16.4 Modelling ... 39

2.16.5 Simulation ... 40

2.16.6 Verification and Validation ... 40

2.16.7 Experimentation ... 40

2.16.8 Output Analysis ... 40

2.17 Matlab ... 41

2.18 Literatur Sejenis ... 42

BAB III METODOLOGI PENELITIAN ... 45

3.1 Metode Pengumpulan Data ... 45

3.2 Metode Pengembangan Sistem ... 47

3.3 Kerangka Penelitian ... 49

3.4 Perangkat Penelitian ... 50

BAB IV IMPLEMENTASI EKSPERIMEN ... 51

4.1 Problem Formulation ... 51

4.2 Conceptual Model ... 52

4.3 Collection of Input Data ... 54

4.4 Modelling ... 57

4.5 Simulation ... 68

BAB V HASIL DAN PEMBAHASAN ... 83

5.1 Hasil ... 83

5.1.1 Verfication dan Validation ... 83

(13)

xiii

BAB VI PENUTUP ... 114

6.1 Kesimpulan ... 114

6.2 Saran ... 114

DAFTAR PUSTAKA ... 116

(14)

xiv

Gambar 2.2 Diagram Block Signal Processing ... 14

Gambar 2.3 Blok Diagram Untuk MFCC ... 17

Gambar 2.4 Langkah-langkah pada Frame Blocking dan Windowing ... 19

Gambar 2.5 Frame Blocking pada x_1 (n) ... 19

Gambar 2.6 Proses Pengolahan Informasi dalam Neuron ... 25

Gambar 2.7 Model matematis JST ... 26

Gambar 2.8 Arsitektur Jaringan Syaraf Tiruan ... 28

Gambar 2.9 Struktur Komputasi Sebuah Simpul ... 29

Gambar 2.10 Contoh Fungsi Nonlinear ... 30

Gambar 2.11 Sigmoid biner pada Rentang [0,1]... 31

Gambar 2.12 Jaringan Syaraf Tiruan Backpropagation Menggunakan Satu Lapisan Tersembunyi ... 32

Gambar 2.13 JST Backpropagation ... 32

Gambar 2.14 Tahapan-Tahapan Pemodelan dan Simulasi Sistem ... 41

Gambar 3.1 Alur Penelitian... 49

Gambar 4.1 Alur Conceptual Model Identifikasi Pelafalan Huruf Hijaiyah ... 53

Gambar 4.2 Database Instrumen Suara ... 56

Gambar 4.3 Gelombang Sinyal “a(1).wav” Sebelum Dilakukan Pre-emphasis ... 57

Gambar 4.4 Perbandingan Bentuk Gelombang File “a(1).wav” Sesudah dan Sebelum Pre-emphasis ... 56

Gambar 4.5 Perbandingan Bentuk Gelombang File “a(1).wav” Sesudah dan Sebelum Ekstraksi Ciri ... 63

Gambar 4.6 Design GUI Antarmuka Awal ... 69

(15)

xv

Cepstral Coefficient (1) ... 71

Gambar 4.10 Antarmuka Hasil Tes Menggunakan Mel-Frequency Cepstral Coefficient (2) ... 71

Gambar 5.1 Data Latih dan Data Uji ... 83

Gambar 5.2 Antarmuka Simulasi Identifikasi Makhraj Huruf Hijaiyah ... 84

Gambar 5.3 Antarmuka Hasil Pengujian ... 87

Gambar 5.4 Antarmuka MSE Hasil Pengujian ... 87

Gambar 5.5 Trainset (input) pada Workspace... 89

Gambar 5.6 Data Target pada Workspace... 89

Gambar 5.7 Data Test pada Workspace ... 90

Gambar 5.8 Toolbox Network/Data Manager ... 90

Gambar 5.9 Create Network1 ... 91

Gambar 5.10 Open Network1 ... 92

Gambar 5.11 Network ... 92

Gambar 5.12 Nntraintool ... 93

Gambar 5.13 Training Regression ... 94

Gambar 5.14 Nilai Regresi Traingdm (1) ... 95

Gambar 5.15 Performa MSE Traingdm (1) ... 95

Gambar 5.20 Nilai Regresi Traingda (1)... 98

Gambar 5.21 Performa MSE Traingda (1) ... 98

(16)

xvi

Gambar 5.25 Performa MSE Traingda (3) ... 100

Gambar 5.26 Nilai Regresi Traingdx (1) ... 101

Gambar 5.27 Performa MSE Traingdx (1) ... 101

Gambar 5.32 Nilai Regresi Trainlm (1) ... 104

Gambar 5.33 Performa MSE trainlm (1)... 104

Gambar 5.38 Hasil Identifikasi JST ... 107

Gambar 5.39 Hasil Pencocokkan Menggunakan JST ... 108

(17)

xvii

Tabel 1.1 Perubahan Pelafalan ... 3

Tabel 2.1 Studi Literatur Sejenis ... 43

Tabel 3.1 Perangkat Keras ... 50

Tabel 3.2 Perangkat Lunak ... 50

Tabel 4.1 Jumlah Perubahan Kata dari Kesalahan Pelafalan ... 51

Tabel 4.2 Data Responden ... 55

Tabel 4.3 Data ... 56

Tabel 4.4 Sample Sinyal Suara Filter Pre-Emphasis dalam Domain Waktu57 Tabel 4.5 Contoh Perhitungan Sinyal Hasil Filter Pre-emphasis ... 58

Tabel 4.6 Hasil Sebagian Frame Blocking Sinyal Suara “a(1).wav” ... 59

Tabel 4.7 Hasil Sebagian Windowing Sinyal Suara “a(1).wav” ... 60

Tabel 4.8 Hasil Sebagian Fast Fourier Transform Sinyal Suara “a(1).wav”61 Tabel 4.9 Hasil Sebagian Mel-Frequency Wrapping Sinyal Suara “a(1).wav” ... 62

Tabel 4.10 Perhintungan Jaringan Syaraf Tiruan (1) ... 64

Tabel 4.14 Sinyal Suara hasil Mel-Frequency Cepstral Coefficient ... 79

Tabel 4.15 Nilai Hasil Ekstraksi Sinyal Suara Menggunakan Mel-Frequency Cepstral Coefficient ... 82

Tabel 5.1 Hasil 19 Kali Pengujian File “a(1).wav” ... 88

Tabel 5.2 Hasil Ekstraksi Ciri Menggunakan Mel-Frequency Cepstral Coefficient ... 109 Tabel 5.3 Hasil Pelatihan Menggunakan JST dengan Training

(18)

xviii

Tabel 5.5 Detail Pelatihan Menggunakan JST dengan Training

Function yang Berbeda ... 111 Tabel 5.6 Detail Hasil Pengujian Menggunakan JT dengan Training

Function yang Berbeda ... 112

(19)

1

BAB I PENDAHULUAN

1.1 Latar Belakang

Salah satu kewajiban setiap muslim adalah membaca dan menghafalkan al- Qur’an. Selain itu, al-Qur’an mempunyai aturan dalam membacanya. Aturan tersebut berhubungan dengan pelafalan huruf atau makhorijul huruf dan hukum tajwid. Sebagaimana Firman Allah SWT:

Artinya: “Atau lebih dari seperdua itu, dan bacalah al-Qur’an itu dengan tartil”

(Q.S. Al-Muzzammil:4).

Pada ayat di atas, Allah SWT memerintahkan setiap muslim untuk membaca al-Qur’an secara tartil. Secara umum, tartil dapat diartikan perlahan-lahan dan tidak tergesa-gesa. Banyak orang yang belum menerapkan tajwid dalam membaca al- qur’an. Dalam pelafalan Bahasa Arab yang merupakan bahasa pengantar al-Qur’an dengan baik menurut ilmu tajwid maka tidak luput dari ilmu bunyi yang dalam Bahasa Arab diistilahkan dengan ilmu al-ashwat. Nasution (2010), mendefinisikan ilmu al-ashwat yaitu ilmu yang mempelajari tentang pembentukan, perpindahan dan penerimaan bunyi bahasa. Ilmu ini pada mulanya merupakan sebuah ilmu yang luas dan utuh yang di dalamnya terdapat beberapa cabang yang mempunyai bidang bahasan yang lebih fokus, salah satunya adalah ilmu fonologi, yaitu sebuah cabang ilmu bunyi yang membicarakan masalah-masalah bunyi dengan memperhatikan fungsi dan makna bunyi tersebut.

Bunyi adalah bagian utama dalam bahasa. Komunikasi lisan tidak akan terlaksana apabila tidak ada bunyi yang dituturkan dan diperdengarkan. Apabila unsur bunyi ini tidak diperhatikan maka bahasa yang dituturkan tidak akan dipahami dengan baik, atau mungkin akan dipahami dengan makna yang jauh

(20)

UIN Syarif Hidayatullah Jakarta

berbeda dari maksud penutur, atau paling tidak bahasa yang diucapkan dianggap sebagai bunyi-bunyian tanpa makna (Nasution, 2010). Sama halnya dengan membaca atau melafalkan al-Qur’an. Demi kelancaran dan kebaikan dalam pelafalan bacaan Arab, setiap huruf harus dibunyikan sesuai artikulasinya.

Kesalahan dalam artikulasi dapat menimbulkan perbedaan makna atau kesalahan arti pada bacaan yang sedang dibaca (Wahyudi, 2008).

Muhammad Zaid (2009) menjelaskan dalam bukunya Tajwid Untuk Pemula, bahwa “jika kita dapat menguasai artikulasi secara baik dan benar, maka kita tidak akan mengalami kesalahan-kesalahan yang mungkin terjadi pada saat melafalkan bacaan Arab, membaca al-Qur’an, shalat dan berkomunikasi. Contoh kesalahan yang fatal akibat tidak dapat membedakan bacaan antara kata ‘alim (menggunakan ‘ain) yang berarti zat Yang Maha Mengetahui dengan alim (menggunakan alif) yang berarti pedih. Kesalahan pengucapan huruf ‘ain menggunakan alif ini dapat mengubah makna kata”.

Contoh lain kesalahan yang menyebabkan berubahnya arti misalnya ḥa pada lafal pada kalimat basmalah yang terbaca kho kata

menggunakan ḥa artinya Maha Penyayang, sedangkan menggunakan kho adalah suara merdu (Wahyudi, 2008: 28). Terlihat jelas perbedaan makna dari perbedaan pelafalan huruf hijaiyah. Setiap manusia mempunyai frekuensi yang berbeda-beda dan membentuk resonansi vokal yang dihasilkan artikulator dalam mulut untuk membentuk suara vokal yang berbeda, karena artikulasi hampir unik untuk setiap orang dari suaranya (Eko Riyanto, 2013).

Ifnani Ifka (2013), dalam penelitiannya, menemukan 53 kata yang mengalami perubahan bunyi pada masayarakat Desa Saradan. Dengan rincian sebagai berikut:

(21)

Tabel 1.1 Perubahan Pelafalan No. Jumlah Perubahan

Kata

Huruf yang Seharusnya dilafalkan

Hasil Huruf yang dilafalkan

1 3 ص س

2 1 ع ح

3 12 ح ك

4 2 ح ه

5 7 خ /ko/

6 1 ق ك

7 1 ت ز

8 2 ذ ز

9 1 ر ل

10 2 ء nga

11 17 ع nga

Dari kasus tersebut, dengan menerapkan sistem signal processing, penulis mencoba mengidentifikasi pelafalan dari tiap huruf hijaiyah. Signal processing adalah seni dan ilmu untuk memodifikasi data seri waktu untuk keperluan analisis atau peningkatan (www.wavemetrics.com) untuk mempermudah mengenali karakteristik suara. Haby Bagus Prasetyo, Adiwijaya, dan Untari Novia Wisesty (2016) mengungkapkan bahwa, supaya dapat melakukan pengenalan suara, dibutuhkan metode feature extraction (ekstraksi ciri) dan classifier. Sinyal suara yang telah diekstrasi cirinya kemudian menghasilkan informasi yang dapat dianalisis untuk tiap variasi sinyal suara yang ada.

Penelitian tentang pengenalan suara telah banyak dilakukan seperti backpropagation oleh Eko Ariyanto dan Farid Samsu H. (2014). Penelitian yang lain mengenai pengenalan huruf hijaiyah. “Algoritma Pengenalan Ucapan Huruf Hijaiyah Bertanda Baca menggunakan Linear Predictive Coding (LPC) dan Hidden Markov Model (HMM)” oleh Haby Bagus Prasetyo, dkk (2016). Penelitian ini

(22)

menggunakan Linear Predictive Coding (LPC) sebagai ekstraksi ciri kemudian Hidden Markov Model (HMM) sebagai klasifikasi yang diperoleh akurasi terbaik untuk testing 58.93% dan training 99.60% menggunakan jumlah data 28 kelas.

Sedangkan NS. Zahra Zainon, ZA Ahmad, MA Romli, dan S. Yaqoob (2012) menggunakan ekstraksi fitur Mel-Frequency Cepstral Coeficient (MFCC) dan classifier yang digunakan adalah Linear Analisis Discriminant (LDA) dengan hasil penelitian menunjukkan bahwa tingkat akurasi tertinggi dicapai adalah 92,500%.

Dengan menggunakan stratified random sampling, peneliti menggunakan sample yang diambil dari qori’ qori’ah nasional dari Pondok Pesantren al-Qur’an Baitul Qurro Ciputat Baru, Sawah Lama, Tangerang Selatan. Dari uraian tersebut, penulis melakukan simulasi sebagaimana yang diungkapkan dalam buku

“Simulation Using Promodel” (2004) oleh Gosh B.K. dkk bahwa simulasi merupakan suatu cara mereproduksi kondisi suatu situasi seperti model, studi atau pengujian atau pelatihan dan lain-lain. Bahasa pemrogaman yang digunakan dalam melakukan simulasi adalah software Matlab 2014a. Dalam bukunya, Tanudjaya (2007) menyebutkan bahasa pemrogaman ini bisa digunakan untuk perhitungan numerik keteknikan, komputasi simbolik, visualisasi, grafis, analisis data matematis, statistika, simulasi, pemodelan, dan desain GUI. Oleh karena itu, berdasarkan latar belakang di atas, penulis akan membuat simulasi pelafalan huruf hijaiyah yang dituangkan dalam bentuk skripsi berjudul “Identifikasi Pelafalan Huruf Hijaiyah Menggunakan Jaringan Syaraf Tiruan (Backpropagation) dan Praproses Mel-Frequency Cepstral Coefficient”.

1.2 Rumusan Masalah

Berdasarkan latar belakang penelitian yang telah penulis uraikan, maka rumusan masalah dalam penelitian ini adalah:

1. Bagaimana melakukan identifikasi pelafalan 8 huruf hijaiyah menggunakan mel-frequency cepstral coefficient (MFCC) sebagai feature extraction (ekstraksi ciri) dengan menerapkan tahapan pre-emphasis, frame blocking dan

(23)

windowing, fast fourier transform, filterbank, discrete cosine transform, dan cepstrum filter dan jaringan syaraf tiruan backpropagation sebagai classifier?

2. Bagaimana pengaruh nilai learning rate, jumlah neuron pada hidden layer, maksimum epoch, dan training function pada jaringan syaraf tiruan backpropagation terhadap nilai ekstraksi ciri mel-frequency cepstral coefficient yang menggunakan tahapan pre-emphasis, frame blocking dan windowing, fast fourier transform, filterbank, discrete cosine transform, dan cepstrum filter?

1.3 Batasan Masalah

Dalam penyusunan skripsi ini, penulis membatasi permasalahan sebagai berikut:

1. Suara yang digunakan dalam penelitian ini diambil dari perekaman suara yang dilkukan oleh 5 orang qori’-qori’ah pada pesantren Baitul Qurro.

2. Suara diambil pada ruangan yang tidak kedap suara.

3. Huruf hijaiyah yang diuji antara lain: ع ء ك ق ز ذ ص س berharakat fathah.

4. Suara yang digunakan berupa huruf menggunakan durasi yang ditentukan yaitu satu ketukan yang disesuaikan dengan sample rate yang digunakan, supaya tidak melebihi jumlah maksimal sample.

5. Tipe file yang digunakan adalah .wav.

6. Software yang digunakan untuk simulasi adalah Matlab.

7. Menggunakan Jaringan Syaraf Tiruan backpropagation sebagai classifier.

8. Menggunakan Mel-Frequency Cepstral sebagai ekstraksi ciri.

9. Simulasi ini tidak dapat digunakan secara real time.

10. Dalam penelitian ini tidak membuat perangkat keras. Perangkat keras hanya berupa laptop sebagai media untuk perancangan dan pengujian sistem menggunakan software Matlab.

(24)

1.4 Tujuan Penelitian

Berdasarkan rumusan masalah yang telah diuraikan di atas, tujuan penelitian ini adalah:

1. Melakukan identifikasi pelafalan 8 huruf hijaiyah menggunakan mel-frequency cepstral coefficient sebagai feature extraction (ekstraksi ciri) dengan menerapkan tahapan pre-emphasis, frame blocking dan windowing, fast fourier transform, filterbank, discrete cosine transform, dan cepstrum filter dan jaringan syaraf tiruan backpropagation sebagai classifier.

2. Mengetahui pengaruh nilai learning rate, jumlah neuron pada hidden layer, maksimum epoch, dan training function pada jaringan syaraf tiruan backpropagation terhadap nilai ekstraksi ciri mel-frequency cepstral coefficient yang menggunakan tahapan pre-emphasis, frame blocking dan windowing, fast fourier transform, filterbank, discrete cosine transform, dan cepstrum filter.

1.5 Manfaat Penelitian 1.5.1 Bagi Penulis

1. Mendapatkan informasi tentang makharijul huruf.

2. Menambah pengetahuan penulis mengenai pengolahan sinyal digital menggunakan metode feature extraction (menerapkan Mel-Frequency Cepstral Coefisien dan classifier (menggunakan Jaringan Syaraf Tiruan (Backpropagation) dan menerapkan simulasi pada pemrograman Matlab.

3. Sebagai portofolio penulis yang akan berguna untuk masa yang akan datang.

1.5.2 Bagi Institusi Perguruan Tinggi

1. Menambah referensi literatur kepustakaan Universitas Islam Negeri Syarif Hidayatullah Jakarta.

2. Sebagai bahan masukan mahasiswa lain dalam mengembangkan penulisan atau penelitian yang berhubungan dengan penelitian ini.

(25)

1.5.3 Bagi Pembaca

Mengetahui sedikit gambaran mengenai pengolahan sinyal digital dan pentingnya memahami dan menerapkan makharijul huruf dalam melafalkan ayat al-Qur’an

1.6 Metode Penelitian

Adapun metode penelitian yang digunakan dalam penelitian ini adalah metode pengumpulan data dan simulasi.

1.6.1 Metode Pengumpulan Data

Dalam proses penulisan skripsi ini, menggunakan metodologi pengumpulan data antara lain:

1. Studi Lapangan

Metode ini merupakan metode pengumpulan data secara langsung pada lapangan yang bertujuan untuk mendapatkan data akurat dari sumber penelitian. Metode studi lapangan yang dilakukan penulis dalam hal ini adalah metode observasi.

Dalam penelitian ini, penulis melakukan pengujian kepada tenaga pengajar (ustadz/ustadzah) tahsin yang faham tentang makharijul huruf.

Tujuan dilakukan pengujian ini untuk memperoleh data yang berupa suara yang akan menjadi bahan penelitian.

2. Studi Pustaka

Mengumpulkan data dan informasi dengan mencari data-data yang diperlukan dari berbagai buku, artikel, karya ilmiah, dan website yang berhubungan dengan materi penelitian. Melakukan kajian terhadap penelitian sebelumnya yang memiliki keterkaitan dengan topik yang dibahas. Dalam penelitian ini. Perbandingan studi sejenis ini diperlukan untuk mendapatkan informasi landasan teori mengenai masalah yang akan diteliti. Studi literatur yang digunakan dapat berupa jurnal, skripsi, maupun karya publikasi lainnya.

(26)

1.6.2 Metode Simulasi

Penulis menggunakan metode simulasi sebagai metode untuk menganalisa perbedaan hasil dari masing-masing masukan. Metode simulasi ini merujuk pada metode yang digunakan oleh Sajad A. Madani et al., (2010:6-8) yang meliputi beberapa tahapan, antara lain:

1. Problem Formulation 2. Conceptual Model

3. Collection and Analysis of Input/Output Data 4. Modelling

5. Simulation

6. Verification and Validation 7. Experimentation

8. Output Analysis 1.7 Sistematika Penulisan

Dalam penelitian ini, penulis menyajikan pembahasan dalam enam bab yang diuraikan sebagai berikut:

BAB I PENDAHULUAN

Bab ini menyajikan Latar Belakang, Tujuan Penelitian, Manfaat Penelitian, Rumusan Masalah, Batasan Masalah, Metode Penelitian dan Sistematika Penulisan.

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Bab ini menyajikan tentang teori-teori yang berhubungan dengan fakta atau kasus yang sedang dibahas.

BAB III METODOLOGI PENELITIAN

Bab ini berisi uraian metode penelitian yang digunakan penulis terkait penelitian tersebut.

BAB IV IMPLEMENTASI DAN EKSPERIMEN

Bab ini menjelaskan implementasi dari penelitian yang dilakukan penulis dan berdasarkan landasan teori yang sudah dijelaskan.

(27)

BAB V HASIL DAN PEMBAHASAN

Pada bab ini menjelaskan hasil simulasi dan analisa mengenai penelitian yang dilakukan.

BAB VI PENUTUP

Bab ini menjelaskan kesimpulan dari penelitian yang telah dilakukan dan berisi saran yang dapat menjadi perbaikan untuk perkembangan penelitian selanjutnya

(28)

10

BAB II

LANDASAN TEORI

2.1 Pelafalan

Dalam Kamus Besar Bahasa Indonesia (KBBI), arti kata lafal adalah ucapan. Salah satu hal yang diatur dalam ejaan adalah pelafalan. Adapun M. Nilson dan M. Ejnarsson (2002) menjelaskan mekanisme vokal manusia yaitu menggunakan saluran suara bersama dengan rongga hidung, yang dimulai pada velum. Saat velum diturunkan, rongga hidung digabungkan bersamaan dengan saluran vokal untuk merumuskan sinyal ucapan yang diinginkan.

Saat manusia menghasilkan ucapan, udara dikeluarkan dari paru-paru melalui trakea. Udara yang mengalir dari paru-paru menyebabkan pita suara bergetar dan membentuk saluran vokal, bibir, lidah, rahang dan mungkin menggunakan rongga hidung, sehingga menghasilkan suara yang berbeda (M.

Nilsson dan M. Ejnarsson, 2002: 11).

Gambar 2.1 Human Vocal Mechanism Sumber: Mikael Nilsson dan Marcus Ejnarsson, 2002

(29)

2.2 Makhorijul Huruf

Secara Bahasa, makhorijul huruf memiliki arti tempat keluar huruf.

Sedangkan menurut istilah, adalah suara nama tempat yang padanya huruf dibentuk (diucapkan). Jadi, definisi menurut bahasa dan istilah, makhorijul huruf merupakan tempat keluarnya huruf pada waktu huruf-huruf itu disebutkan (hukumtawid.com, 2017). Oleh karena itu, wajib bagi setiap orang yang membaca al-Qur’an secara baik dan benar harus memahami makhorijul huruf. Dengan alasan, setiap huruf dalam al-Qur’an harus dibunyaikan sesuai dengan makhrojnya.

Sebagian ulama menyebut melafalkan huruf sesuai dengan makhrojnya menggunakan istilah tajwid. Tajwid secara bahasa, tajwid berarti al-tahsin atau membaguskan. Sedangkan menurut istilah yaitu, mengucapkan setiap huruf (al- Qur’an) sesuai dengan makhroj-nya menurut sifat-sifat huruf yang harus diucapkan, baik berdasarkan sifat asalnya maupun berdasarkan sifat-sifatnya yang baru (Hasanuddin A.F: 118).

2.3 Sinyal Suara

Bustami, Ikhwanus, dan Fadlisyah (2013) menyebutkan bahwa “Sinyal adalah besaran fisis yang berubah menurut waktu, ruang, atau variabel-variabel bebas lainnya”. Sedangkan sinyal terbagi menjadi 2 macam yaitu sinyal analog (continue) dan sinyal diskrit (digital). Saat ini, pengolahan sinyal banyak dilakukan secara digital karena memiliki beberapa kelebihan (Tanudjaja, 2007) antara lain:

 Untuk menyimpan hasil pengolahan, sinyal digital lebih mudah dibandingkan menyimpan sinyal analog. Untuk media penyimpan dapat digunakan elemen memori: Flash Memory, CD/DVD, hard disk. Untuk menyimpan sinyal analog dapat digunakan pita tape magnetic.

 Sinyal digital lebih kebal terhadap noise, karena bekerja pada level tegangan logika “1” dan “0”.

 Lebih kebal terhadap perubahan temperature.

 Lebih mudah memprosesnya, secara teori tidak ada batasannya, tergantung dari kreativitas dan inovasi perancang.

(30)

Beberapa kelemahan sinyal digital:

 Ada kehilangan informasi akibat pembulatan saat kuantisasi dan filtering saat pembalikan kembali ke sinyal analog.

 Diperlukan waktu proses yang lebih lama dibandingkan sinyal analog, periu waktu sampling, rekrontuksi ulang.

Speech (wicara) dihasilkan dari sebuah kerjasama antara paru-paru, dengan vocal cords dan articulation tract (mouth/mulut dan nose cavity/rongga hidung). Untuk menghasilkan sebuah voiced sounds (suara ucapan), paru-paru menekan udara melalui epiglottis, vocal cords bergetar, meng-interupt udara melalui aliran udara dan menghasilkan sebuah gelombang tekanan quasi-periodic (Bustami, Ikhwanus, & Fadlisyah, 2013: 1).

Dikutip dari laman elektronika-dasar.web.id (2012), “audio diartikan sebagai suara atau reproduksi suara. Sedangkan sinyal audio atau gelombang suara adalah gelombang yang dihasilkan dari sebuah benda yang bergetar pada range frekuensi audio (dapat didengar manusia)”. Telinga manusia dapat mendengar bunyi antara 20 Hz hingga 20 KHz (20.000Hz) sesuai batasan sinyal audio.

Salah satu cara dalam menyajikan sebuah sinyal wicara yaitu dengan menampilkannya dalam silence (S) atau keadaan tenang di mana sinyal wicara tidak diproduksi, unvoice (U) di mana vocal cord tidak berfibrasi, dan yang ketiga adalah voiced (V) di mana vocal cord berfibrasi secara periodik sehingga menggerakkan udara ke kerongkongan melalui mekanisme akustik sampai keluar dari mulut dan menghasilkan sinyal wicara (Bustami, Ikhwanus, & Fadlisyah, 2013: 1).

2.4 Signal processing

Signal processing adalah seni dan ilmu untuk memodifikasi data seri waktu untuk keperluan analisis atau peningkatan. Seperti analisis spektral (menggunakan fast fourier atau transformasi lainnya) dan meningkatkan data yang diperoleh menggunakan penyaringan digital (www.wavemetrics.com). Teknologi yang digunakan dalam kehidupan sehari-hari seperti komputer, radio, video, telepon seluler - diaktifkan oleh signal processing, cabang teknik elektro yang

(31)

memodelkan dan menganalisis representasi data dari peristiwa fisik. Signal processing adalah inti dari dunia modern, yang menggerakkan hiburan saat ini dan teknologi masa depan. Berfungsi untuk meningkatkan kemampuan berkomunikasi dan berbagi informasi (signalprocessingsociety.org).

Dalam produksi suara, dalam sistem komunikasi elektronik yang direkayasa manusia, informasi yang akan ditransmisikan dikodekan dalam bentuk terus menerus pada berbagai bentuk gelombang (analog) yang dapat ditransmisikan, direkam, dimanipulasi, dan akhirnya diterjemahkan oleh pendengar manusia. Tidak ada kumpulan fitur “standar” untuk pengenalan suara. Sebagai gantinya, berbagai kombinasi fitur akustik, artikulatoris, dan pendengaran telah digunakan dalam berbagai sistem pengenalan suara. Fitur akustik yang paling populer adalah mel-frekuensi (koefisien cepstrum) dan turunannya (Jurafsky dan Martin, 2017).

Diagram blok dari signal processing yang digunakan paling modern sistem pengenalan ucapan kosakata besar ditunjukkan pada Gambar 2.2. Sinyal ucapan analog diambil sampelnya dan dikuantisasi. Jaringan pre-emphasis urutan pertama (highpass) (1 - z − 1) digunakan untuk mengkompensasi jeda spektrum suara pada frekuensi yang lebih tinggi dan mendekati inverse ke transmisi mulut respons frekuensi. Sinyal yang ditekankan sebelumnya akan diblokir berikutnya ke dalam bingkai sampel N, frame berdekatan spasi sampel M. Nilai-nilai khas untuk N dan M sesuai dengan frame durasi 15–40 ms, menggunakan pergeseran bingkai 10ms menjadi paling umum karena berdekatan frame tumpang tindih dengan 5-30 ms tergantung pada nilai yang dipilih dari N dan M. A Hamming window diterapkan untuk setiap frame sebelum spektral analisis menggunakan analisis spektral standar (Jurafsky dan Martin, 2017).

(32)

UIN Syarif Hidayatullah Jakarta Gambar 2.2 Diagram Blok Signal Processing

Sumber: Jurafsky dan Martin, 2017

2.5 Sample rate

Mengutip dari situs wiki.audacityteam.org (2017), “sample rate merupakan nilai sampel audio yang diambil per detik, diukur dalam Hz atau kHz (satu kHz menjadi 1 000 Hz). Sebagai contoh, 44 100 sampel per detik dapat dinyatakan sebagai 44 100 Hz, atau 44,1 kHz”.

Daniel Jurafsky dan James H. Martin mengungkapkan dalam bukunya “An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition” (1999), bahwa “untuk mengukur gelombang secara akurat, setidaknya memerlukan dua sampel pada setiap siklus, satu mengukur bagian positif dari gelombang dan satu pengukuran bagian yang negatif. Lebih dari dua sampel per siklus meningkatkan akurasi amplitudo, jika kurang dari dua sampel akan menyebabkan frekuensi gelombang benar-benar hilang. Dengan demikian, frekuensi gelombang maksimal yang bisa diukur adalah salah satu yang frekuensinya setengah dari tingkat sampel (karena setiap siklus membutuhkan 2 sampel). Frekuensi maksimum yang diberikan ini untuk sampling rate disebut Nyquist frekuensi”.

(33)

2.6 Audio Format

Ada beberapa macam tipe atau format audio. Format audio terbagi dalam tiga kategori utama dalam laman makeuseof.com, menguraikan tiga kategori audio format antara lain:

2.6.1 Uncompressed Audio Formats

Audio yang tidak terkompresi seperti yang terdengar seperti gelombang suara asli yang telah ditangkap dan dikonversi ke format digital tanpa pemrosesan lebih lanjut. Akibatnya, file audio yang tidak dikompres cenderung paling akurat namun menghabiskan banyak ruang disk sekitar 34 MB per menit untuk stereo 24- bit 96 KHz. Yang di antaranya PCM, WAV, dan AIFF.

2.6.2 Lossy Compressed Audio Formats

Merupakan bentuk kompresi yang kehilangan data selama proses kompresi. Dalam konteks audio, itu berarti mengorbankan kualitas dan ukuran file.

Yang termasuk dari lossy compressed audio formats adalah MP3, AAC, OGG, dan WMA.

2.6.3 Lossless Compressed Audio Formats

Lossless compression, yaitu metode yang mengurangi ukuran file tanpa kehilangan kualitas antara file sumber asli dan file yang dihasilkan. Kelemahannya adalah lossless compressed tidak seefisien lossy compressed, artinya file setara bisa 2 sampai 5 kali lebih besar. Format file yang dimaksud adalah FLAC, ALAC, dan WMA.

2.7 WAV

WAV adalah singkatan dari Waveform Audio File Format yang dikembangkan oleh Microsoft dan IBM pada tahun 1991. Banyak orang beranggapan bahwa semua file WAV adalah file audio yang tidak dikompres, namun sebenarnya WAV hanya wadah Windows untuk format audio. Ini berarti file WAV bisa berisi audio terkompresi, tapi jarang digunakan untuk itu (Lee, 2016).

(34)

Sebuah file Wave dapat teridentifikasi dari nama file WAV (.wav). Format file ini menyimpan beberapa informasi dari audio seperti jumlah track (mono atau stereo), sample rate, bit depth, dan uncompressed row audio data. WAV memiliki ukuran file yang sangat besar, hal itu disebabkan raw audio data tidak dikompres (www.coolutils.com).

2.8 MP3

MP3 singkatan dari MPEG-1 Audio Layer 3 yang telah dirilis kembali pada tahun 1993 dan dengan cepat meledak dalam popularitas, akhirnya menjadi format audio yang paling populer di dunia untuk file musik. Pengambilan MP3 utama adalah memotong semua data suara yang ada di luar jangkauan pendengaran kebanyakan orang normal dan untuk mengurangi kualitas suara yang tidak mudah didengar, kemudian memampatkan semua data audio lainnya secara efisien mungkin (Lee, 2016).

MP3 saat ini merupakan algoritma yang paling kuat dalam serangkaian standar encoding audio yang dikembangkan di bawah sponsor dari Motion Picture Experts Group (MPEG) dan diformalkan oleh International Organization for Standardization (ISO) (whatis.techtarget.com, 2006).

2.9 Algoritma Mel Frequency Cepstral Coeficient dan Ekstrasi Ciri

Mel Frequency Cepstral Coefficient merupakan metode yang digunakan untuk melakukan feature extraction, sebuah proses yang mengkonversikan signal suara menjadi beberapa parameter. Beberapa keungulan dari metode ini adalah (Manunggal, 2005):

 Mampu untuk menangkap karakteristik suara yang sangat penting bagi pengenalan suara, atau dengan kata lain dapat menangkap informasi-informasi penting yang terkandung dalam signal suara.

 Menghasilkan data seminimal mungkin, tanpa menghilangkan informasi- informasi penting yang dikandungnya.

 Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap signal suara.

(35)

Taufani (2011) menjelaskan, “ekstraksi ciri merupakan proses menentukan suatu nilai atau vektor yang dapat dipergunakan sebagai penciri objek atau individu. Banyak metode yang ada untuk ekstraksi ciri di antaranya Linier Predictive Coding (LPC), Mel Frequency Cepstrum Coefficients, dan filter bank”.

Sebelumnya, Ganoun A. dan Almerhag (2012) telah membuat sebuah sistem recognizing ucapan Bahasa Arab dengan meneliti menggunakan tiga metode untuk feature extraction. Antara lain: Yule-Walker spectrum feature, Walsh spectrum feature, dan Mel frequency Cepstral Coefficient. Hasilnya, mel-frequency cepstral coefficient yang memberikan nilai pengenalan yang paling bagus. Sedangkan yang terburuk adalah Yule-Walker spectrum feature.

Gambar 2.3 Blok Diagram Untuk Mel-Frequency Cepstral Coefficient Sumber: Mikael Nilson dan Marcus Ejnarsson, 2002

Ekstraksi ciri ini bertujuan supaya sinyal mudah dikenali pada saat proses pengenalan suara oleh sistem. Langkah-langkah utama dari ekstraksi ciri antara lain preprocessing, frame blocking dan windowing, serta feature extraction (Mikael Nilson dan Marcus Ejnarsson, 2002: 17). Feature extraction di sini diuraikan menjadi beberapa proses antara lain fast fourier transform, mel-frequency wrapping, cosine transform dan yang terakhir mel cepstrum.

(36)

2.9.1 Preprocessing

Preprocessing merupakan langkah pertama untuk membuat vektor ciri.

Tujuan dari preprocessing adalah untuk memodifikasi sinyal suara, supaya lebih mudah untuk dianalisis. Hal yang biasa dilakukan pada preprocessing diantaranya, noise cancelling, preemphasis, Voice Activation Detection (VAD) (Mikael Nilson dan Marcus Ejnarsson, 2002: 17).

Pada pre-emphasis, yaitu memberi penekanan pada sinyal suara dengan menerapkan high pass filter untuk meningkatkan frekuensi. Faktanya, saat menyebar via udara, besar sinyal ucapan berkurang saat frekuensi naik. Untuk mengimbangi sinyal ucapan yang dilemahkan, maka diloloskan melalui filter high- pass (filter impuls terbatas) untuk memulihkan sinyal menggunakan filter impuls terbatas (1, -0,97). Jika s(n) adalah sinyal ucapan dan Sp (n) sudah ditekankan terlebih dahulu sinyal, (Hassani Massouad, Lotfi Boussaid, dan Mohamed Hassine, 2015) maka:

𝑆_𝑝(𝑛) = s(n) - 0.97 s(n-1) (2.1)

Keterangan:

𝑆_𝑝(𝑛) = signal hasil pre-emphasis filter ke-n s(n) = signal sebelum pre-emphasis filter n = panjang sinyal

Berikut merupakan contoh dari perhitungan pre-emphasis. Dalam hal ini penulis mengambil nilai angka dari indeks 4316 yang memiiki sinyal sebesar 3.0518𝐸⁻⁵ untuk menggambarkan perhitungan pre-emphasis, dan diketahui indeks sebelumnya bernilai 0.0 maka:

𝑆_𝑝(𝑛) = s(n) - 0.97 s(n-1)

𝑆_𝑝(4316)= 𝑠(4316)− 0.97 𝑠 (4316 − 1) 𝑆_𝑝(4316)= 3.0518𝐸⁻⁵− 0.97 𝑠 (0.0) 𝑆_𝑝(4316)= 3.0518𝐸⁻⁵− 0

𝑆_𝑝(4316)= 3.0518𝐸⁻⁵

(37)

Kemudian akan menghasilkan data sinyal baru yaitu data sinyal sebelum proses pre-emphasis ditambah menggunakan data hasil pre-emphasis diatas.

Sehingga sinyal setelah pre-emphasis:

Nn = Nn + Yn N4316 = N4316 + Y4316

= 3.0518𝐸⁻⁵ + 3.0518𝐸⁻⁵

= 6.0136E^-5

2.9.2 Frame Blocking dan Windowing

Selanjutnya adalah membagi sinyal suara ke dalam frame-frame suara dan dilakukan windowing untuk setiap framenya (Mikael Nilson dan Marcus Ejnarsson, 2002: 23).

Gambar 2.4 Langkah-langkah pada Frame Blocking dan Windowing Sumber: Mikael Nilson dan Marcus Ejnarsson, 2002

Setiap frame memiliki panjang K sampel, menggunakan frame yang berdekatan dipisahkan oleh P sampel (Mikael Nilson dan Marcus Ejnarsson, 2002:

23).

Gambar 2.5 Frame blocking pada 𝑥1(𝑛) Sumber: Mikael Nilson dan Marcus Ejnarsson, 2002

(38)

Sinyal suara dibagi menjadi beberapa frame dan saling overlapping.

Panjang daerah overlapping yang diujikan sebesar 25%, 50%, dan 75% sehingga didapatkan sejumlah frame tertentu. Untuk menghitung jumlah frame yang digunakan adalah dengan rumus sebagai berikut:

Jumlah Frame = ((I - N) / M) + 1 (2.2)

Dengan, I = Sample rate

N = Frame size (Sample rate * waktu framing (s)) M = N/2

Contoh perhitungan framing jika diketahui:

frame size (N) = 512 overlap (M) = 100

Sehingga Jumlah Frame = ((I - N) / M) + 1

= ((44100 - 512) / 100) + 1 = 436

Selanjutnya yang harus dilakukan adalah windowing setiap frame dengan tujuan agar mengurangi diskontinuitas sinyal di kedua ujung blok. Windowing yang biasa digunakan adalah Hamming Window yang dihitung sebagai berikut (Mikael Nilson dan Marcus Ejnarsson, 2002: 24).

𝑤(𝑘) = 0.54 − 0.46cos (^2𝜋𝑘

𝐾−1) (2.3)

Keterangan:

𝑤(𝑘) = fungsi window 𝑘 = panjang frame

Jika diketahui nilai frame pada framesize ke 435 adalah 2.68554687500000𝑒 − 05 maka:

𝑤(435) = 0.54 − 0.46cos (2 ∗ 3.14 ∗ 2.68554687500000𝑒−05

512−1 )

= 0.0878018359210797

Hasil dari windowing-nya adalah:

𝑦(𝑛) = 𝑤(𝑛). 𝑠(𝑛) (2.4)

(39)

Dengan 𝑦(𝑛) adalah sinyal suara sebelum windowing. Proses windowing ditentukan oleh tiga parameter, yaitu lebar jendela, offset antar jendela dan bentuk jendela. Hasil windowing disebut sebagai frame, menggunakan panjang (frame size) dan besar pergeseran (frame shift) tertentu dalam satuan milidetik (Mikael Nilson dan Marcus Ejnarsson, 2002).

Untuk data hasil frame blocking pada frame ke-1 adalah 0.0878018359210797. Maka hasil dari widowing adalah:

𝑦 (1) = 𝑤 (1) * 𝑠 (1)

= 0.0878018359210797 ∗ 2.68554687500000e-05 = 0.0241148635288356

2.9.3 Feature Extraction

2.9.3.1 Fast Fourier Transform (FFT)

Analisa berdasarkan fourier transform sama artinya dengan analisa spektrum, karena fourier transform mengubah signal digital dari domain waktu ke domain frekuensi. Fast fourier transform dilakukan dengan membagi N buah titik pada transformasi diskrit menjadi 2, masing masing (N/2) titik transformasi. Proses memecah menjadi (N/4) dan seterusnya hingga diperoleh titik minimun. fast fourier transform adalah teknik perhitungan cepat dari discrete fourier transform. Fast fourier transform adalah discrete fourier transform menggunakan teknik perhitungan yang cepat yang memanfaatkan sifat periodikal dari transformasi fourier. Sebagaimana rumus berikut:

Karena 𝑥(𝑛) = 𝑥_𝑟(𝑛) + 𝑗𝑥_𝑖(𝑛) bisa bernilai kompleks, maka:

𝑋(𝑘) = 𝑋_𝑅(𝑘) + 𝑗𝑋_𝑖(𝑘)

𝑋_𝑅(𝑘)=∑^𝑁−1_𝑛=0[𝑥_𝑟(𝑛)cos 2𝜋 _𝑁^𝑘𝑛 + 𝑥_𝑖(𝑛)sin 2𝜋 _𝑁^𝑘𝑛]

𝑋_𝐼(𝑘)=∑^𝑁−1_𝑛=0[𝑥_𝑟(𝑛)cos 2𝜋 _𝑁^𝑘𝑛 − 𝑥_𝑖(𝑛)sin 2𝜋 _𝑁^𝑘𝑛] (2.5) Keterangan:

N = jumlah sampel input

𝐹_𝑘= urutan ke-k komponen output fast fourier transform (x (0), x (1), …., x (n-1))

(40)

𝑘 = indeks output fast fourier transform dalam domain frekuensi (0,1, ….., N-1) 𝑛 = indeks sampel input dalam domain waktu (0,1, ….., N/2-1)

𝑗 = konstanta bilangan imajiner (√−1) 𝜋 = derajat (180^o)

𝑒 = basis logaritma natural (≈2.718281828459…)

Diketahui sinyal hasil windowing: (0.0241, 0.0043, 0.0245, 0.0216, - 0.0002, 0.0359) sebagai contoh, menggunakan 6 data dari hasil windowing, maka untuk F0, maka diperoleh perhitungan fast fourier transform sebagai berikut:

(𝑓₀)=¹₆ [0,0241(cos(^{2𝜋∗0∗0}₆ ))]−[𝑗 sin^{2𝜋∗0∗0}₆ ]+ [0,0043(cos(^{2𝜋∗0∗1}₆ ))] − [𝑗 sin^{2𝜋∗0∗1}₆ ]+[0,0245 (cos(^{2𝜋∗0∗2}₆ ))]−[𝑗 sin^{2𝜋∗0∗2}₆ ]+

[0,0216 (cos(^{2𝜋∗0∗3}₆ ))]−[𝑗 sin^{2𝜋∗0∗3}₆ ]+ [−0,0002 (cos(^{2𝜋∗0∗4}₆ ))]− [𝑗 sin^{2𝜋∗0∗4}

6 ]+ [0,0359(cos(^{2𝜋∗0∗5}

6 ))]−[𝑗 sin^{2𝜋∗0∗5}

6 ] = 0,01836667 + 0 𝑗 Untuk melihat nilai hasil fast fourier transform digunakan rumus perhitungan magnitude sinyal dari bilangan complex fast fourier transform:

(2.6)

Jadi, dari hasil fast fourier transform di atas, dihitung magnitude sinyal dari bilangan complex fast fourier transform sebagaimana contoh perhitungan ini:

|𝑓(0)|=|[𝑅²+ 𝐼²]|= ^√(0,01836667)²+ (0)²= 0,01836667

Sehingga F0 = 0,01836667 dengan cara yang sama dilakukan kepada kelima data sinyal lainnya yang nantinya akan diperoleh data sinyal hasil fast fourier transform anatara lain:

(0.01836667, 0.00490833, 1.74000031, 0.01223333, 0.00275833, 0.00674167)

(41)

2.9.3.2 Mel Frequency Wrapping (Filterbank)

Bagian ini adalah satu bagian yang paling penting yaitu untuk mendapatkan informasi yang relevan dari blok ucapan. Banyak metode yang digunakan pada tahap ini (Mikael Nilson dan Marcus Ejnarsson, 2002). Tahap ini disebut juga dengan filter triangular yaitu dengan rumus sebagai berikut:

𝐻_𝑖 = 2595 log(1+₇₀₀^𝑓) 𝑆𝑖

2

(2.7)

Dengan 𝐻_𝑖= filterbank 𝑓= frekuensi linear

𝑆_𝑖= Sinyal hasil fast fourier transform

Diketahui sinyal hasil fast fourier transform sebelumya adalah 0,01836667 maka:

𝑆₀= 0,01836667 𝐻₀ = 2595 log(1+¹⁰⁰⁰₇₀₀)

0,01836667 2

= 10.8891,3273 Sehingga diperoleh:

𝑆₀= 0,01836667 ∗ 10.8891,3273 = 1.999,971074

Dengan mengulang cara yang sama, didapatkan hasil dari filterbank adalah:

(1999.97107, 1999.97107, 1999.97108, 1999.97107, 1999.97107, 1999.97107)

2.9.3.3 Discrete cosine transform (DCT)

Tahapan berikutnya adalah discrete cosine transform. Pada tahap ini akan dikonversi spektrum mel ke dalam domain waktu. Discrete cosine transform ini sama dengan fast fourier transform atau invers dari fast fourier transform (Mikael Nilson dan Marcus Ejnarsson, 2002: 32).

𝜏_𝑛 = ∑^𝐾_𝑘=1(log 𝑆_𝑘)cos[(𝑘 −¹₂)^𝜋_𝐾] (2.8) 𝑆_𝑘= hasil dari fiterbank pada indeks k

𝐾= jumlah koefisien yang diharapkan

(42)

Contoh perhitungan discrete cosine transform jika koefisien (k) = 6 dan n

= 0, maka:

𝑛₀ =(log 1999,9)cos[(0 −¹₂)^3.14₆ ]+ (log 1999,9)cos[(1 −¹₂)^3.14₆ ] +

(log 1999,9)cos[(2 −1 2⁾

3.14

6 ^] + (log 1999,9)cos[(3 −1 2⁾

3.14 6 ^]+ (log 1999,9)cos[(4 −1

2⁾ 3.14

6 ^]+ (log 1999,9)cos[(5 −1 2⁾

3.14 6 ^]+ = 19,8003358

Jadi, 𝑛₀ = 19,8003358 2.9.3.4 Cepstral Liftering

Untuk meningkatkan kualitas pengenalan, maka cepstrum hasil dari discrete cosine transform harus melewati proses cepstral liftering terlebih dahulu.

Lawrence R. Rabiner dan Ronald W. Schafer (2007) menyimpulkan bahwa istilah

“cepstrum” berasal dari:

 Pengamatan penting yang mengarah ke terminologi cepstrum adalah spektrum log dapat diperlakukan sebagai bentuk gelombang dan menjadi sasaran analisis Fourier lebih lanjut.

 Variabel independen dari cepstrum adalah waktu nominal sejak itu IDFT dari spektrum-log, tetapi diartikan sebagai frekuensi sejak kita memperlakukan spektrum log sebagai bentuk gelombang.

 Untuk menekankan pertukaran domain ini, Bogert, Healy dan Tukey (1960) menciptakan istilah cepstrum dengan menukar urutan huruf dalam spektrum kata.

 Demikian juga, nama variabel independen dari cepstrum adalah dikenal sebagai quefrency, dan operasi penyaringan linear dalam slide sebelumnya dikenal sebagai liftering menggunakan rumus cepstral liftering sebagai berikut:

𝑤[𝑛] = {𝑁 ^𝐿

2sin ^𝑛𝜋

𝐿−1} (2.9)

(43)

L = Jumlah cepstral coefficients N = Index dari cepstral coefficients

Jika diketahui nilai discrete cosine transform sebelumnya adalah 19,8 𝑤[0] = {19.8 ∗ 6

2∗ sin 𝜋

5} = 34.914

Hasil dari feature extraction di atas adalah 34.914 2.10 Algoritma Jaringan Syaraf Tiruan

Jaringan Syaraf Tiruan menggunakan pengolahan otak sebagai dasar untuk mengembangkan algoritma yang dapat digunakan untuk memodelkan pola dan prediksi masalah (Mahanta, 2010). Di dalam otak, terdapat miliaran sel yang disebut neuron, yang memproses informasi berupa sinyal listrik. Berikut merupakan gambar pengolahan informasi pada neuron.

Step 1: External Signal received by

dendrites

Step 2: External signal processed in

the neuron cell body

Step 3: Processed signal converted to an output signal and transmitted

through the Axon

Step 4: Output signal received by the dendrites

of the next neuron through the synapse

Gambar 2.6 Proses pengolahan informasi dalam neuron Sumber: medium.com, 2010

(44)

Gambar di bawah ini merupakan bagaimana Jaringan Syaraf Tiruan (JST) bekerja.

Gambar 2.7: Model matematis Jaringan Syaraf Tiruan Sumber: Medium.com, 2010

Sutojo et al (2011) menjelaskan bahwa “jaringan syaraf tiruan mempunyai kemampuan yang luar biasa untuk mendapatkan informasi dari data yang rumit atau tidak tepat, mampu menyelesaikan permasalahan yang tidak terstruktur dan sulit didefinisikan, dapat belajar dari pengalaman, mampu mengakuisi pengetahuan walaupun tidak ada kepastian, mampu melakukan generalisasi dan ekstrasi dari suatu pola data tertentu, dapat menciptakan suatu pola pengetahuan melalui pengaturan diri atau kemampuan belajar (self organizing), mampu memilih suatu input data ke dalam kategori tertentu yang sudah ditetapkan (klasifikasi), mampu menggambarkan suatu objek secara keseluruhan walaupun hanya diberikan sebagian data dari objek data tersebut (asosiasi), mempunyai kemampuan mengolah data-data input tanpa harus mempunyai target, dan mampu menemukan jawaban terbaik sehingga mampu meminimalisasi fungsi biaya”.

Menurut Sutojo et al (2011), kelebihan-kelebihan yang diberikan jaringan syaraf tiruan antara lain:

1. Belajar adaptive: Kemampuan untuk mempelajari bagaimana melakukan pekerjaan berdasarkan data yang diberikan untuk pelatihan atau pengalaman awal.

(45)

2. Self-Organization: Sebuah jaringan syaraf tiruan dapat membuat organisasi sendiri atau representasi dari informasi yang diterimanya selama waktu belajar.

3. Real Time Operation: Perhitungan jaringan syaraf tiruan dapat dilakukan secara parallel sehingga perangkat keras yang dirancang dan diproduksi secara khusus dapat mengambil keuntungan dari kemampuan ini.

Selain mempunyai kelebihan-kelebihan tersebut, jaringan syaraf tiruan juga mempunyai kelemahan-kelemahan berikut.

1. Tidak efektif jika digunakan untuk melakukan operasi-operasi numerik dengan presisi tinggi.

2. Tidak efisien jika digunakan untuk melakukan operasi algoritma aritmatik operasi logika, dan simbolis.

3. Untuk beroperasi jaringan syaraf tiruan butuh pelatihan sehingga bila jumlah datanya besar, waktu yang digunakan untuk proses pelatihan sangat lama.

Jaringan syaraf tiruan juga dikenal sebagai black box technology karena tidak dapat menerangkan bagaimana suatu hasil didapatkan. Hal ini yang membuat jaringan syaraf tiruan mampu digunakan untuk menyelesaikan persoalan yang tidak terstruktur dan sulit didefinisikan (Hermawan, 2006). Jong Jek Siang (2004) dalam bukunya “Jaringan Saraf Tiruan & Pemrogamannya Menggunakan Matlab”

menyebut jaringan syaraf tiruan ditentukan oleh tiga hal, antara lain:

1. Pola hubungan neuron (arsitektur jaringan).

2. Metode untuk menentukan bobot penghubung (metode training atau learning).

3. Fungsi Aktivasi.

2.10.1 Arsitektur Jaringan

Salah satu penentu baik tidaknya suatu model jaringan syaraf tiruan adalah hubungan antarneuron atau disebut sebagai arsitektur jaringan. Neuron-neuron tersebut terkumpul dalam beberapa lapisan yang disebut neuron layer. Lapisan- lapisan penyusun jaringan syaraf tiruan dibagi menjadi tiga, yaitu (Sutojo et al, 2011):

(46)

1. Lapisan Input (Input Layer)

Unit-unit dalam lapisan input disebut unit-unit input yang bertugas menerima pola inputan dari luar yang menggambarkan suau permasalahan.

2. Lapisan Tersembunyi (Hidden Layer)

Unit-unit dalam lapisan tersembunyi disebut unit-unit tersembunyi, yang mana nilai output-nya tidak dapat diamati secara langsung.

3. Lapisan Output (Output Layer)

Unit-unit dalam lapisan output disebut unit-unit output, yang merupakan solusi Jaringan Syaraf Tiruan dalam suatu permasalahan.

Gambar 2.8 Arsitektur Jaringan Syaraf Tiruan Sumber: medium.com, 2008

Sebuah simpul merupakan representasi dari neuron biologis, dan dalam beberapa publikasi, istilah neuron dan simpul digunakan secara bergantian. Pada beberapa jaringan, node dapat menjadi nilai biner dengan satu-satunya nilai yang diijinkan adalah 0 atau 1. Dalam beberapa sistem biner, nilai yang diijinkan adalah - 1 dan 1, bukan 0 dan 1. Representasi ini biasanya disebut bipolar. Sebuah aktivasi tingkat juga dapat berlanjut pada interval satuan [0, 1] atau dapat diasumsikan tidak dibatasi nilai kontinu (Donna L. Hudson dan Maurice E. Cohen, 2000: 30).