• Tidak ada hasil yang ditemukan

SPEECH TO TEXT MENGGUNAKAN ALGORITMA DEEP BIDIRECTIONAL LSTM

N/A
N/A
Protected

Academic year: 2021

Membagikan "SPEECH TO TEXT MENGGUNAKAN ALGORITMA DEEP BIDIRECTIONAL LSTM"

Copied!
26
0
0

Teks penuh

(1)

SPEECH TO TEXT MENGGUNAKAN ALGORITMA DEEP BIDIRECTIONAL LSTM

SKRIPSI

Disusun untuk Memenuhi Syarat Mendapatkan Gelar Sarjana Teknik pada Jurusan Teknik Elektro Fakultas Teknik

Universitas Sriwijaya

Oleh : M ABID TAMI 03041281621040

JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS SRIWIJAYA

(2)

LEMBAR PENGESAHAN

SPEECH TO TEXT MENGGUNAKAN ALGORITMA DEEP BIDIRECTIONAL LSTM

SKRIPSI

Disusun untuk Memenuhi Syarat Mendapatkan Gelar Sarjana Teknik pada Jurusan Teknik Elektro Fakultas Teknik

Universitas Sriwijaya Oleh :

M ABID TAMI 03041281621040

Mengetahui,

Ketua Jurusan Teknik Elektro

Muhammad Abu Bakar Sidik, S.T., M.Eng., Ph.D. NIP : 197108141999031005

Indralaya, Juli 2020 Menyetujui,

Pembimbing Utama

Dr. Eng. Suci Dwijayanti, S.T., M.S NIP : 19840730200812200

(3)

iii

HALAMAN PERNYATAAN INTEGRITAS

Yang bertanda tangan di bawah ini :

Nama : M Abid Tami

NIM 03041281621040

Fakultas : Teknik

Jurusan/Prodi : Teknik Elektro

Universitas : Universitas Sriwijaya

Hasil Pengecekan Software iThenticate/Turnitin : 3%

Menyatakan bahwa tugas akhir saya yang berjudul “Speech To Text Menggunakan Algoritma Deep Bidirectional LSTM” merupakan hasil karya sendiri dan benar keasliannya. Apabila ternyata dikemudian hari ditemukan unsur penjiplakan/plagiat dalam karya ilmiah ini, maka saya bersedia menerima sanksi akademik dari Universitas Sriwijaya sesuai dengan ketentuan yang berlaku.

(4)

iv

HALAMAN PERNYATAAN DOSEN

Saya sebagai Pembimbing dengan ini menyatakan bahwa saya telah membaca dan menyetujui skripsi ini dan dalam pandangan saya ruang lingkup dan kualitas skripsi ini mencukupi sebagai skripsi mahasiswa sarjana strata satu (S1).

Tanda Tangan :

Pembimbing Utama : Dr. Eng. Suci Dwijayanti, S.T., M.S

(5)

v

KATA PENGANTAR

Puji dan syukur penulis ucapkan kepada Allah

serta shalawat dan salam kepada Nabi Muhammad

, keluarga dan para sahabat. Berkat rahmat dan ridho Allah

, penulis dapat membuat skripsi ini yang berjudul “Speech To Text Menggunakan Algoritma Deep Bidirectional LSTM”.

Pembuatan skripsi ini sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik pada Jurusan Teknik Elektro Fakultas Teknik Universitas Sriwijaya. Dalam kesempatan ini penulis mengucapkan terima kasih kepada :

1. Bapak Muhammad Abu Bakar Sidik, S.T., M.Eng., Ph.D. selaku Ketua Jurusan Teknik Elektro dan Ibu Dr. Herlina, S.T., M.T. selaku Sekretaris Jurusan Teknik Elektro.

2. Ibu Dr. Eng. Suci Dwijayanti, S.T., M.S. selaku pembimbing tugas akhir ini.

3. Bapak Dr. Bhakti Yudho Suprapto, S.T., M.T M.Eng. selaku pengembang ide pada tugas akhir ini.

4. Bapak Ir. Zainal Husein, M.S dan ibu Hera Hikmarika, S.T., M.Eng selaku dosen penguji pada tugas akhir ini.

5. Dosen pembimbing akademik, M. Irfan Jambak, S.T., M.Eng., Ph.D. yang telah membimbing penulis selama masa perkuliahan dan memberi saran serta masukan dalam pengambilan mata kuliah.

6. Segenap Dosen Jurusan Teknik Elektro Fakultas Teknik Universitas Sriwijaya yang telah memberikan ilmu selama perkuliahan.

7. Orang tua, saudara dan keluarga yang selalu memberikan doa dan dukungan selama masa studi.

8. Hari, Radius, Iky, dan Henry yang menjadi teman seperjuangan di konsentrasi Teknik Kendali dan Komputer(TKK) Kampus Indralaya.

(6)

vi

9. Akbar, Rio, Ridho, Diaz, Egey, Gilang, Hari, Nurhadi, Raka, Recko, dan Radius sebagai teman seperjuangan di grup seluseens.

10. Deden, Yanto, Ilham, Marwan, Nurhadi, Siro, Rio, Wahyudi, dan Pebriu sebagai teman seperjuangan di grup Tikus Angin.

11. Firence Kristina yang telah membersamai sejak di awal memulai masa perkuliahan.

12. Kak Abeng, Kak Iqbal, Kak Redho, Kak Wayan, Kak Nur, Kak azmin yang telah banyak membantu selama masa perkuliahan.

13. Kak Iqbal, Kak arief, Hari, Iky, Farhan, Eric, Alfi, Wawan, Faisal sebagai teman seperjuangan menjadi asisten di Laboratorium Kendali dan Robotika (LKR) tahun 2019.

14. Edwin, Yusuf, Markus, Rizki, Irvine, Sukan, Salma, Aisyah, dan Delia Faisal sebagai teman seperjuangan menjadi asisten di Laboratorium Kendali dan Robotika (LKR) tahun 2020.

Penulis menyadari adanya kekurangan dalam penulisan usulan skripsi ini. Semoga skripsi ini dapat memberikan manfaat dan wawasan yang lebih luas kepada pembaca. Oleh karena itu, kritik, dan saran yang membangun sangat penulis harapkan agar dapat menjadi evaluasi yang baik dan berguna untuk perbaikan ke depannya.

Indralaya, Juli 2020

M Abid Tami

(7)

vii

PERNYATAAN PERSETUJUAN PUBLIKASI TUGAS AKHIR UNTUK KEPENTINGAN AKADEMIS

Sebagai civitas akademik Universitas Sriwijaya, saya yang bertanda tangan di bawah ini:

Nama : M Abid Tami

NIM 03041281621040

Jurusan/Prodi : Teknik Elektro Fakultas : Teknik

Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sriwijaya Hak Bebas Royalti Noneksklusif (Non-exclusive Royalty-

Free Right) atas karya ilmiah saya yang berjudul:

Speech To Text Menggunakan Algoritma Deep Bidirectional LSTM

beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Noneksklusif ini Universitas Sriwijaya berhak menyimpan, mengalih media /formatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasikan tulisan saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta. Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Indralaya Pada tanggal : Juli 2020 Yang menyatakan,

M Abid Tami

(8)

viii

ABSTRAK

Speech To Text Menggunakan Algoritma Deep Bidirectional LSTM

(M Abid Tami, 03041281621040, 2020, 118 halaman)

Abstrak— Suara merupakan sarana komunikasi utama untuk bertukar informasi sesama manusia. Namun, pada era modern, komunikasi tidak hanya berlangsung antar manusia tetapi juga antara manusia dengan komputer atau mesin. Komunikasi antara manusia dengan komputer juga menggunakan suara dengan mengubahnya menjadi suatu teks. Penelitian mengenai speech to text telah dilakukan dalam berbagai bahasa. Namun, penelitian yang membahas speech to text untuk bahasa indonesia masih sedikit, menggunakan data sekunder, dan masih terbatas pada per kata. Oleh karena itu, penelitian ini akan mangatasi permasalahan tersebut dengan menggunakan algoritma deep bidirectional LSTM dengan ekstraksi ciri yang digunakan adalah spectrogram dan MFCC. Data yang digunakan adalah data primer yang berasal dari 10 responden (5 pria dan 5 wanita) dan kalimat yang digunakan memenuhi kaidah bahasa Indonesia baku. Hasil penelitian menunjukan algoritma deep bidirectional LSTM telah mampu melakukan proses speech to text pada bahasa Indonesia dengan ekstraksi ciri MFCC memiliki tingkat akurasi yang lebih tinggi jika dibandingkan dengan ekstraksi ciri spectrogram dimana MFCC mendapatkan akurasi terbaik dengan nilai WER 0,2745% sedangkan spectrogram 2,0784%. Hasil ini menunjukkan bahwa MFCC memiliki ciri yang lebih baik untuk digunakan dalam proses konversi speech to text.

Kata kunci: Speech to text, Deep Bidirectional LSTM, Spectrogram, MFCC, WER.

Mengetahui,

Ketua Jurusan Teknik Elektro

Muhammad Abu Bakar Sidik, S.T., M.Eng., Ph.D. NIP : 197108141999031005

Indralaya, Juli 2020 Menyetujui,

Pembimbing Utama

Dr. Eng. Suci Dwijayanti, S.T., M.S NIP : 19840730200812200

(9)

ix

ABSTRACT

Speech To Text Menggunakan Algoritma Deep Bidirectional LSTM

(M Abid Tami, 03041281621040, 2020, 118 pages)

Abstract — Speech is a primary component of communication to exchange information between humans. However, in the modern era, communication does not only take place between humans but also between humans and computers or machines. Interaction between humans and computers also used a speech by converting speech to text. Various research on speech to text has been conducted in multiple languages and methods. However, research discussing speech to text for the Indonesian language is still a little, still limited to the word, and the data used is still secondary data. Therefore, this research will overcome such problems using the deep bidirectional Long Soft-Term Memory (LSTM) algorithm. Features extraction used in the research are spectrograms and Mel Frequency Cepstral Coefficients (MFCCs). Data is used primary data taken from ten respondences (five men and five women). The results showed the deep bidirectional LSTM algorithm has been able to perform speech to text process in the Indonesian language. The accuracy achieved by the MFCC feature is higher than the spectrograms feature, where the MFCC obtained the best accuracy with the Word Error Rate (WER) value of 0.2745% while spectrograms are 2.0784%. Thus, MFCCs have better features to be used in speech to text process.

Kata kunci: Speech to text, Deep Bidirectional LSTM, Spectrogram, MFCC, WER.

Mengetahui,

Ketua Jurusan Teknik Elektro

Muhammad Abu Bakar Sidik, S.T., M.Eng., Ph.D. NIP : 197108141999031005

Indralaya, Juli 2020 Menyetujui,

Pembimbing Utama

Dr. Eng. Suci Dwijayanti, S.T., M.S NIP : 19840730200812200

(10)

x

DAFTAR ISI

HALAMAN JUDUL ... i

LEMBAR PENGESAHAN ... ii

HALAMAN PERNYATAAN INTEGRITAS ... iii

HALAMAN PERNYATAAN DOSEN ... iv

KATA PENGANTAR ... v

PERNYATAAN PERSETUJUAN PUBLIKASI TUGAS AKHIR UNTUK KEPENTINGAN AKADEMIS ... vii

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ... x

DAFTAR GAMBAR ... xiii

DAFTAR TABEL ... xv

DAFTAR RUMUS... xvi

DAFTAR LAMPIRAN ... xviii

BAB I PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Permasalahan ... 2 1.3 Tujuan Penulisan ... 3 1.4 Pembatasan Masalah ... 3 1.5 Keaslian Penelitian ... 3

BAB II TINJAUAN PUSTAKA ... 6

2.1 State Of The Art ... 6

(11)

xi

2.2.1. Speech to Text ... 10

2.2.2. Preprocessing ... 11

2.2.3. Ekstraksi Ciri... 12

2.2.4. Recurrent Neural Network (RNN) ... 16

2.2.4.1. Long Short-Term Memory (LSTM) ... 17

2.2.4.2. Deep Bidirectional LSTM ... 19

2.2.5. Language Model ... 21

2.2.6. Connectionist Temporal Classification (CTC) ... 21

2.3 Perangkat Keras dan Perangkat Lunak ... 23

2.3.1. Microphone ... 23

2.3.2. Python ... 24

BAB III METODOLOGI PENELITIAN... 25

3.1. Studi Literatur... 25

3.2. Pengambilan Data... 25

3.3. Perancangan Sistem ... 26

3.4. Testing ... 28

3.5. Analisis dan Kesimpulan ... 28

BAB IV HASIL DAN PEMBAHASAN ... 29

4.1. Pengumpulan Data Suara ... 29

4.2. Proses Preprocessing Sinyal Suara ... 30

4.3. Ekstraksi Ciri Sinyal Suara... 31

4.4 Pembuatan Language Model ... 33

4.5 Training Dataset ... 35

4.6 Proses Testing dari Model Hasil Training ... 42

(12)

xii

4.6.2 Testing Untuk Jenis Training B ... 45

4.6.3 Testing Untuk Jenis Training C ... 46

4.6.4 Testing Untuk Jenis Training D ... 47

4.6.5 Testing Untuk Jenis Training E ... 49

4.7 Proses Testing Dengan Dataset Berasal Dari dataset TITML-IDN ... 51

4.8 Proses Testing Dengan Variasi Sinyal Suara ... 52

4.8.1 Proses Testing Dengan Suara Normal ... 53

4.8.2 Proses Testing Dengan Suara Berintensitas Tinggi ... 54

4.8.3 Proses Testing Dengan Suara Berintensitas Rendah ... 55

4.8.4 Proses Testing Dengan Suara Ritme Cepat ... 57

4.8.5 Proses Testing Dengan Suara Ritme Lambat ... 58

BAB V PENUTUP ... 61

5.1. Kesimpulan ... 61

5.2 Saran ... 61

DAFTAR PUSTAKA ... 62

(13)

xiii

DAFTAR GAMBAR

Gambar 2. 1 Perbandingan Bentuk Gelombang Huruf Vokal Dan Konsonan[9]... 7

Gambar 2. 2 Diagram Blok Proses Ekstraksi Ciri[16] ... 12

Gambar 2. 3 Proses pembentukan Spectrogram[16] ... 14

Gambar 2. 4 Ekstraksi ciri dengan Spectrogram pada kalimat “Hello World”[17]. ... 14

Gambar 2. 5 Konsep RNN[18] ... 16

Gambar 2. 6 Arsitektur bidirectional RNN[12] ... 17

Gambar 2. 7 Arsitektur LSTM[12] ... 18

Gambar 2. 8 Deep RNN[12] ... 20

Gambar 2. 9 Arsitektur deep bidirectional LSTM[19] ... 20

Gambar 2. 10 Prefix beam search decoding untuk label X,Y[23] ... 23

Gambar 2. 11 Microphone FIFINE K669B[24] ... 24

Gambar 2. 12 Python[25]. ... 24

Gambar 3. 1 Alur proses penelitian. ... 27

Gambar 4. 1. Hasil Perekaman Suara pada Kalimat “saya bermain bola di lapangan” ... 29

Gambar 4. 2. (a) Sebelum Preprocessing (b) Sesudah Preprocessing ... 31

Gambar 4. 3. Plot Spectrogram ... 32

Gambar 4. 4. Plot MFCC ... 32

Gambar 4. 5. Corpus text Dari Surat Kabar Kompas. ... 33

Gambar 4. 6. Pembuatan lm.arpa ... 34

Gambar 4. 7. Hasil Dari lm.arpa ... 34

Gambar 4. 8. Pembuatan lm.binary ... 35

Gambar 4. 9 Arsitektur Deepspeech. ... 35

Gambar 4. 10. Pembuatan data_train.csv. ... 36

Gambar 4. 11 Perintah untuk memulai poses training di terminal ... 38

Gambar 4. 12 Proses training... 38

(14)

xiv

Gambar 4. 14 Grafik nilai loss pada jenis training B. ... 39

Gambar 4. 15 Grafik nilai loss pada jenis training C. ... 40

Gambar 4. 16 Grafik nilai loss pada jenis training D. ... 40

Gambar 4. 17 Grafik nilai loss pada jenis training E. ... 41

Gambar 4. 18 Hasil Proses Testing Untuk Kalimat “bibi mengantar ke sekolah”.43 Gambar 4. 19 Hasil Testing Untuk Jenis Training A. ... 44

Gambar 4. 20 Hasil Testing Untuk Jenis Training B. ... 45

Gambar 4. 21 Hasil Testing Untuk Jenis Training C. ... 46

Gambar 4. 22 Hasil Testing Untuk Jenis Training D. ... 47

Gambar 4. 23 Hasil Testing Untuk Jenis Training E. ... 49

Gambar 4. 24 Grafik Nilai WER Untuk Setiap Jenis Training. ... 51

Gambar 4. 25 Sinyal Suara Normal Di Kalimat “saya bermain bola di lapangan” ... 53

Gambar 4. 26 Sinyal Suara Dengan Intensitas Tinggi Pada Kalimat “saya bermain bola di lapangan" ... 54

Gambar 4. 27 Sinyal Suara Dengan Intensitas Rendah Pada Kalimat “saya bermain bola di lapangan" ... 56

Gambar 4. 28 Sinyal Suara Dengan Ritme Cepat Pada Kalimat “saya bermain bola di lapangan" ... 57

Gambar 4. 29 Sinyal Suara Dengan Ritme Lambat Pada Kalimat “saya bermain bola di lapangan" ... 59

(15)

xv

DAFTAR TABEL

Tabel 2. 1 Hasil Pengujian untuk Bahasa Indonesia dan Bahasa Jawa[10] ... 7

Tabel 2. 2 Akurasi Penelitian Speech To Text Pada Bahasa Jawi[9] ... 8

Tabel 2. 3 Single Homophone Dan Phrase Homophone[14] ... 9

Tabel 2. 4 Akurasi Untuk Setiap Bahasa Dengan Metode SVM[15] ... 10

Tabel 2. 5 Word Error Rate (WER) Dengan Variasi Languange Model[12]. 10 Tabel 3. 1 Kalimat yang akan diucapkan oleh narasumber. ... 26

Tabel 4. 1. Parameter Pada Proses Training ... 37

Tabel 4. 2 Hasil dari proses training. ... 38

Tabel 4. 3 Akurasi Untuk 1 Sample/Kalimat Pada Jenis Training A. ... 44

Tabel 4. 4 Akurasi Untuk 1 Sample/Kalimat Pada Jenis Training B. ... 45

Tabel 4. 5 Akurasi Untuk 1 Sample/Kalimat Pada Jenis Training C. ... 46

Tabel 4. 6 Akurasi Untuk 1 Sample/Kalimat Pada Jenis Training D. ... 48

Tabel 4. 7 Akurasi untuk 1 sample/kalimat pada jenis training E. ... 49

Tabel 4. 8 Nilai WER Untuk Setiap Jenis Model Training ... 50

Tabel 4. 9 Hasil Pengujian Menggunakan Dataset Sekunder TITML-IDN. ... 51

Tabel 4. 10 Hasil Testing Dengan Menggunakan Suara Normal ... 53

Tabel 4. 11 Hasil testing Dengan Menggunakan Suara Intonasi Tinggi ... 54

Tabel 4. 12 Hasil Testing Dengan Menggunakan Suara Intonasi Rendah. ... 56

Tabel 4. 13 Hasil Testing Dengan Suara Beritme Cepat. ... 57

(16)

xvi

DAFTAR RUMUS

Rumus 2.1 Normalisasi Sinyal Suara ...11

Rumus 2.2 Windowing ...13

Rumus 2.3 Fast Fourier Transform (FFT) ...13

Rumus 2.4 Kepadatan Spectrum ...13

Rumus 2.5 Mel Filter Bank ...15

Rumus 2.6 Frekuensi Dari Mel Filter Bank ...15

Rumus 2.7 Frekuensi Bins ...15

Rumus 2.8 Output Melk Filter Bank ...15

Rumus 2.9 Mel Spectrum ...15

Rumus 2.10 Discrete Cosine Transforms (DCT) ...16

Rumus 2.11 Hidden Layer Recurrent Neural Network (RNN) ...16

Rumus 2.12 Output Layer Recurrent Neural Network (RNN) ...16

Rumus 2.13 Forward Hidden Layer Bidirectional RNN ...17

Rumus 2.14 Backward Hidden Layer Bidirectional RNN ...17

Rumus 2.15 Output Layer Bidirectional RNN ...17

Rumus 2.16 Input Gates LSTM ...18

Rumus 2.17 Forget Gates LSTM ...18

Rumus 2.18 Cell LSTM ...19

Rumus 2.19 Output Gates LSTM ...19

Rumus 2.20 Cell Output ...19

(17)

xvii

Rumus 2.22 Output Layer Deep RNN ...20

Rumus 2.23 Probabiltas Unigram ...21

Rumus 2.24 Probabiltas Bigram ...21

Rumus 2.25 Probabiltas Trigram ...21

Rumus 2.26 Probabilitas Label Untuk Waktu T ...22

Rumus 2.27 Probabilitas Label Untuk Setiap Waktu T ...22

Rumus 2.28 Probabilitas Transkripsi Keluaran ...22

Rumus 2.29 Fungsi Objektif CTC ...22

Rumus 2.30 Decoding ...23

(18)

xviii

DAFTAR LAMPIRAN

Lampiran 1 Nilai Loss Pada Proses Training Dan Validation Untuk Training A 66 Lampiran 2 Nilai Loss Pada Proses Training Dan Validation Untuk Training B. 67 Lampiran 3 Nilai Loss Pada Proses Training Dan Validation Untuk Training C. 69 Lampiran 4 Nilai Loss Pada Proses Training Dan Validation Untuk Training D 70 Lampiran 5 Nilai Loss Pada Proses Training Dan Validation Untuk Training E. 72 Lampiran 6 Hasil Testing Untuk Jenis Training B (Spectrogram 50 Epoch)...73 Lampiran 7 Hasil Testing Untuk Jenis Training E (MFCC 24 Epoch). ... 90

(19)

1

BAB I PENDAHULUAN

1.1 Latar Belakang

Suara merupakan suatu gelombang longitudinal yang berpropagasi melalaui medium, baik itu padat, cair, dan gas (udara)[1]. Suara merupakan sarana komunikasi utama untuk bertukar informasi sesama manusia. Namun, pada era modern, komunikasi tidak hanya berlangsung antar manusia tetapi juga antara manusia dengan komputer atau mesin. Komunikasi antara manusia dengan komputer juga menggunakan suara dengan mengubah suara tersebut menjadi teks atau lebih dikenal dengan speech to text[2]. Pada proses ini, suara sebagai input akan melewati berbagai tahapan proses yang kemudian akan menghasilkan data yang terdiri atas angka-angka sehigga dapat diperoses oleh komputer menjadi suatu kata-kata yang dapat dipahami oleh komputer[3].

Speech to text ini dapat diterapkan dalam berbagai hal diantaranya sebagai alat

bantu komunikasi bagi tuna rungu (tuli), smart home, atau penerjemah [2][4][5].

Output dari speech to text akan menjadi input dan akan menggantikan input text

secara manual sehingga mampu mempermudah dalam penerapannya di berbagai bidang.

Beberapa penelitian yang telah dilakukan berkaitan dengan speech to text dalam berbagai bahasa seperti: bahasa Inggris, bahasa Arab[6], bahasa Jepang[7], bahasa India[8], bahasa Jawi[9], bahasa Indonesia[10], dengan menggunakan berbagai macam metode diantaranya Hidden Markov Model (HMM), Neural

Network, Recurrent Neural Network (RNN), Deep Neural Network (DNN), dan Support Vector Machine (SVM).

Penelitian yang dilakukan oleh Su Myat Mon dan Hla Myo Tun [11] mengusulkan menggunakan metode Hidden Markov Model (HMM) dan Mel

Frequency Cepstal Coefficent (MFCC) sebagai ekstraksi ciri. Penelitian ini terbatas

(20)

2

itu, metode HMM ini memiliki kekurangan yaitu tidak efektif jika menggunakan

database dalam jumlah yang besar. Hal ini dikarenakan probabilitas kesamaan antar

kata juga akan semakin meningkat.

Penelitian lain yang dilakukan oleh Teguh Puji Laksono[10] membahas mengenai speech to text untuk bahasa Indonesia dan bahasa Jawa dengan menggunakan Deep Neural Network (DNN) dengan MFCC sebagai ekstraksi ciri. Hasil dari penelitian menunjukan tingkat akurasi yang masih rendah sehingga tidak cukup efektif.

Penelitian yang dilakukan oleh Zaini Arifah Othman, Zaidi Razak, Nor Aniza Abdullah dan Mohd. Yakub[9] membahas speech to text pada bahasa Jawi dengan metode linear predictive dan neural network. Berdasarkan hasil penelitian ini, akurasi yang didapatkan sudah baik akan tetapi dalam penelitian masih terbatas hanya pada per kata.

Alex Graves dan Navdeep Jaitly[12] dalam penelitiannya mendiskusikan mengenai speech recognition menggunakan metode Deep Bidirectional Long

Short-Term Memoey (LSTM). Hasil dari penelitian menunjukkan bahwa proses speech to text sudah dapat dilakukan dalam bentuk kalimat yang sempurna akan

tetapi dalam prosesnya, penelitian ini masih menggunakan data sekunder yang berasal dari Wall Street Journal corpus.

Untuk mengatasi kekurangan yang terjadi pada penelitian-penelitian sebelumnya maka pada penelitian ini akan dikembangkan konversi speech to text pada bahasa indonesia menggunakan metode Deep Bidirectional LSTM. Penelitian ini menggunakan Spectrogram dan MFCC sebagai ekstraksi ciri. Selain itu, data suara yang digunakan bukan hanya perkata tetapi sudah menggunakan bentuk kalimat sempurna yang terdiri dari subjek, predikat, objek dan keterangan dengan data suara yang diambil adalah data suara yang bersifat primer.

1.2 Permasalahan

Penelitian ini akan membahas mengenai konversi suara ke teks (speech to text) pada bahasa Indonesia sebagai komunikasi antara manusia dengan komputer. Penelitian sebelumnya sudah banyak membahas mengenai speech to text dalam

(21)

3

berbagai bahasa. Namun, penelitian yang membahas speech to text untuk bahasa indonesia masih sedikit, masih terbatas pada per kata, dan data yang digunakan masih merupakan data sekunder. Oleh karena itu, penulis akan mangatasi permasalahan tersebut dengan menggunakan metode Deep Bidirectional LSTM dengan ekstraksi ciri yang digunakan adalah pectrogram dan MFCC dengan data suara yang diambil berupa data primer.

1.3 Tujuan Penulisan

Tujuan dilakukannya penelitian ini adalah untuk melakukan konversi suara ke teks dalam bahasa indonesia dengan menggunakan metode Deep Bidirectional LSTM sehingga dimungkinkan terjadi komunikasi manusia dengan komputer. Selain itu, penelitian ini bertujuan untuk mengetahui unjuk kerja dari Deep

Bidirectional LSTM dalam melakukan konversi speech to text. 1.4 Pembatasan Masalah

Pada penelitian ini ada beberapa hal yang menjadi batasan masalah diantaranya:

1. Bahasa yang digunakan adalah bahasa indonesia baku yang terdiri dari subjek, predikat, objek, dan keterangan yang memenuhi kaidah bahasa Indonesia yang baik dan benar.

2. Ekstraksi ciri yang digunakan adalah Spectrogram dan MFCC. 3. Metode yang digunakan adalah Deep Bidirectional LSTM.

4. Menggunakan language model 5-gram.

5. Bahasa pemrograman yang digunakan adalah Python.

1.5 Keaslian Penelitian

Beberapa penelitian telah membahas mengenai speech to text dengan berbagai macam metode. Penelitian yang dilakukan oleh Su Myat Mon dan Hla Myo Tun mengusulkan menggunakan metode Hidden Markov Model (HMM) dan MFCC sebagai ekstraksi fitur untuk melakukan konversi speech to text[11]. Penelitian ini menggunakan MFCC untuk melakukan ekstraksi fitur dari 50 data suara yang terdiri atas 5 kata yakni apple, banana, computer, flower, dan key. Penelitian ini

(22)

4

mencoba membandingkan variasi nilai N pada hidden state. Secara rata-rata hasil akurasi pada saat N=3 sebesar 62,80%, untuk N=4 sebesar 73,20%, dan untuk N=5 sebesar 87,60% Penelitian ini memiliki kekurangan dari segi akurasi yang masih rendah dan jumlah dataset yang digunakan masih sedikit dan terbatas pada 1 kata.

Penelitian lain yang membahas mengenai speech to text dilakukan oleh Teguh Puji Laksono[10], dimana bahasa yang digunakan adalah bahasa Indonesia dan bahasa Jawa dengan menggunakan Deep Neural Network (DNN) dengan MFCC sebagai ekstraksi ciri[10]. Penelitian dilakukan dengan data uji 47 kata bahasa Indonesia dan 7 kata bahasa Jawa. Hasil dari penelitian menunjukan tingkat akurasi yang masih rendah yakni 65% pada bahasa Indonesia dan 57% untuk bahasa Jawa sehingga tidak cukup efektif dalam melakukan speech to text.

Zaini Arifah Othman, Zaidi Razak, Nor Aniza Abdullah dan Mohd. Yakub dalam penelitiannya[9] membahas mengenai speech to text pada bahasa Jawi dengan metode linear predictive dan neural network. Bahasa Jawi merupakan versi lama dari bahasa melayu dengan bentuk alfabet karakter arab. Penelitian ini menggunakan linear predictive untuk mengekstraksi fitur dan neural network untuk mengklasifikasi dan mengenali suara dalam bahasa Jawi. Data yang digunakan berjumlah 255 data suara bahasa Jawi yang berasal dari 15 orang narasumber dimana setiap narasumber mengucapkan 15 kata. Hasil penelitian menunjukkan akurasi yang dihasilkan mencapai 95%. Berdasarkan hasil penelitian ini, akurasi yang didapatkan sudah baik akan tetapi dalam penelitian masih terbatas hanya pada per kata belum membentuk kalimat yang sempurna.

Intan Sari Areni, Indrabayu, dan Anugrayani Bustamin melakukan penelitiannya[12] mengenai speech to text pada kata-kata homophone yang ada di bahasa Indonesia. Penelitian ini menggunakan MFCC untuk ekstraksi ciri dan

Backpropagation Neural Network (BPNN) sebagai metode untuk melatihnya. Data

suara diambil dari 6 orang dewasa yang terdiri atas 3 pria dan 3 wanita. Proses

training membutuhkan waktu cukup yang lama. Hasil percobaan dengan kata homophone menghasilkan akurasi yang sudah cukup baik. Akan tetapi, penelitian

(23)

5

ini masih memiliki beberapa kelemahan diantaranya jumlah dataset yang digunakan masih sangat sedikit dan belum mampu membentuk kalimat yang sempurna.

Penelitian yang dilakukan Yogita H. Ghadage dan Sushama D. Shelke[13] mengenai konversi speech to text untuk multilingual languages pada bahasa Inggris dan bahasa Marathi. Ekstraksi ciri yang digunakan pada penelitian ini adalah MFCC dan metode yang digunakan untuk mengklasifikasi adalah Support Vector Machine (SVM). Database suara yang digunakan terdiri atas bahasa Inggris, bahasa Marathi, dan kombinasi bahasa Inggris-Marathi. 2400 sampel digunakan sebagai data suara latih dan 1200 sampel sebagai data uji dengan frekuensi sampling 8 KHz. Hasil penelitian menunjukkan masih adanya kemungkinan terjadinya error yang cukup tinggi dan data suara yang dapat diolah hanya pada rentang waktu 3-5 detik.

Penelitian lain yang dapat dijadikan rujukan pada penelitian ini adalah penelitian yang dilakukan oleh Alex Graves dan Navdeep Jaitly[14] yang membahas mengenai speech recognition menggunakan metode Deep Bidirectional

Long Short Term Memory (LSTM) yang menggabungkan Deep Bidirectional

LSTM dan Connectionist Temporal Classification (CTC). Hasil penelitian menunjukkan Word Error Rate (WER) sebesar 21.9%. Penelitian ini berhasil melakukan konversi speech to text dalam bentuk kalimat yang sempurna. Namun, penelitian ini masih menggunakan data sekunder yang didapat dari Wall Street

(24)

62

DAFTAR PUSTAKA

[1] B. Gold, N. Morgan, and D. Ellis, Speech and Audio Signal Processing. John Wiley & Sons, Inc., 2011.

[2] P. Khilari and Bhope V. P., “A review on speech to text conversion,” Int. J.

Adv. Res. Comput. Eng. Technol., vol. 4, no. 7, pp. 3067–3072, 2015.

[3] L. Deng et al., “Recent advances in deep learning for speech research at microsoft,” in 2013 IEEE International Conference on Acoustics, Speech

and Signal Processing, 2013, vol. 26, no. 64, pp. 8604–8608.

[4] A. Munir, S. Kashif Ehsan, S. M. Mohsin Raza, and M. Mudassir, “Face and speech recognition based smart home,” 2019 Int. Conf. Eng. Emerg. Technol.

ICEET 2019, pp. 1–5, 2019.

[5] C. Jeyalakshml, “Speech recognition of deaf and hard of hearing people using hybrid neural network,” 2010 2nd Int. Conf. Mech. Electron. Eng., vol. I, pp. 83–87, 2010.

[6] B. H. A. Ahmed and A. S.Ghabayen, “Arabic automatic speech recognition enhancement,” Palest. Int. Conf. Inf. Commun. Technol. Arab., pp. 98–102, 2017.

[7] H. Hotta, “Japanese speaker-independent homonyms speech recognition,”

Procedia - Soc. Behav. Sci., vol. 27, no. Pacling, pp. 306–313, 2011.

[8] A. Kumar, M. Dua, and T. Choudhary, “Continuous hindi speech recognition using monophone based acoustic modeling,” Int. Conf. Adv. Comput. Eng.

Appl., pp. 1–5, 2014.

[9] Z. A. Othman, Z. Razak, N. A. Abdullah, M. Yakub, and Z. Bin Zulkifli, “Jawi character speech-to-text engine using linear predictive and neural network for effective reading,” Proc. - 2009 3rd Asia Int. Conf. Model.

Simulation, AMS 2009, pp. 348–352, 2009.

[10] T. P. Laksono, Speech To Text Untuk Bahasa Indonesia. Universitas Islam Indonesia, 2018.

(25)

63

Hidden Markov Model ( HMM ),” Int. J. Sci. Technol. Res., vol. 4, no. 6, pp. 349–352, 2015.

[12] I. S. Areni, Indrabayu, and A. Bustamin, “Improvement in speech to text for bahasa indonesia through homophone impairment training,” J. Comput., vol. 28, no. 5, pp. 1–10, 2017.

[13] Y. H. Ghadage and S. D. Shelke, “Speech to text conversion for multilingual languages,” Int. Conf. Commun. Signal Process. ICCSP 2016, pp. 236–240, 2016.

[14] A. Graves and N. Jaitly, “Towards end-to-end speech recognition with transfer learning,” Int. Conf. Mach. Learn., vol. 32, 2014.

[15] C. H. Taal, R. C. Hendriks, and R. Heusdens, “A Speech Preprocessing Strategy For Intelligibility Improvement In Noise Based On A Perceptual Distortion Measure,” in International Conference on Acoustics, Speech, and

Signal Processing 2012 (ICASSP 2012), 2012, pp. 4061–4064.

[16] L. O. H. S. Sagala and A. Harjoko, “Perbandingan ekstraksi ciri full, blocks, dan row mean spectrogram image dalam mengidentifikasi pembicara,”

Bimipa, vol. 24, no. 3, pp. 238–248, 2017.

[17] B. T. Atmaja and M. Akagi, “Speech Emotion Recognition Based on Speech Segment Using LSTM with Attention Model,” in Proceedings - 2019 IEEE

International Conference on Signals and Systems, ICSigSys 2019, 2019, pp.

40–44.

[18] Y. A. Ibrahim, J. C. Odiketa, and T. S. Ibiyemi, “Preprocessing technique in automatic speech recogntion for human computer interaction: an overview,”

Ann. Comput. Sci. Ser., vol. XV, no. 1, pp. 186–191, 2017.

[19] M. M. H. Nahid and B. Purkaystha, “End-to-End Bengali Speech Recognition using DeepSpeech,” J. Eng. Res. Innov. Educ., vol. 1, no. 1, 2019.

[20] J. W. G. Putra, “Pengenalan Konsep Pembelajaran Mesin dan Deep Learning,” 2018. [Online]. Available: https://wiragotama.github.io/.

[21] M. Suzuki, N. Itoh, T. Nagano, G. Kurata, and S. Thomas, “Improvements To N -Gram Language Model Using Text Generated From Neural Language

(26)

64

Model,” ICASSP 2019 - 2019 IEEE Int. Conf. Acoust. Speech Signal

Process., pp. 7245–7249, 2019.

[22] F. Song and W. B. Croft, “General language model for information retrieval,” Int. Conf. Inf. Knowl. Manag. Proc., pp. 316–321, 1999.

[23] A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” Proc. 23rd Int. Conf. Mach. Learn., pp. 369–376, 2006. [24] FIFINE Technology, “Microphone FIFINE K699B.” [Online]. Available:

https://fifinemicrophone.com/. [Accessed: 28-Nov-2019].

[25] Python Software Foundation, “Python.” [Online]. Available: https://www.python.org/. [Accessed: 12-Nov-2019].

[26] Audacity, Guide to Using Audacity. 2018.

[27] K. Kurniawan, “Indonesian NLP resources,” 2018. [Online]. Available: https://github.com/kmkurn/id-nlp-resource.

Referensi

Dokumen terkait

Aplikasi kamus bahasa inggris berbasis android ini juga dilengkapi dengan berbagai fitur, diantaranya adalah text to speech yang dapat membantu mempermudah pengguna dalam

Dari Berdasarkan hasil penelitian mengenai sintesis suara bernyanyi dengan teknologi text-to-speech untuk notasi musik angka dan lirik bahasa indonesia yang telah

Bagian Konverter text ke Fonem berfungsi untuk mengubah kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi yang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber... APLIKASI KAMUS BAHASA INGGRIS BERBASIS ANDROID DENGAN FITUR TEXT TO

Metode yang digunakan untuk aplikasi speech to text dapat diganti dengan metode lain yang lebih baik lagi dalam mengenali suatu kata. Kedepannya pada sistem ini bukan hanya

Hasil penelitian ini adalah akan dilakukan proses perancangan dan analisis penggunaan metode MFCC dan CNN untuk melakukan konfersi dari suara bahasa sasak menjadi teks meliputi