PEMBANGKITAN KORPUS DATA WICARA BAHASA BATAK TOBA MENGGUNAKAN PENDEKATAN HIDDEN MARKOV MODEL SKRIPSI MUHAMMAD WAHYU PRATAMA

(1)

HIDDEN MARKOV MODEL

SKRIPSI

MUHAMMAD WAHYU PRATAMA 171402032

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

Universitas Sumatera Utara

(2)

i

(3)

PERNYATAAN

PEMBANGKITAN KORPUS DATA WICARA BAHASA BATAK TOBA MENGGUNAKAN PENDEKATAN HIDDEN MARKOV MODEL

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 28 Desember 2021

MUHAMMAD WAHYU PRATAMA 171402032

(4)

iii

Ucapan Terima Kasih

Puji dan syukur penulis hadiahkan kepada Allah SWT, karena atas karunia dan rahmat- Nya penulis dapat menuntaskan penyusunan skripsi ini sebagai syarat untuk mencapai gelar Sarjana dari Program Studi Teknologi Informasi, Universitas Sumatera Utara.

Ucapan terima kasih disampaikan pada semua pihak yang ikut memberikan kontribusi dalam mengikuti masa perkuliahan dan masa pengelolaan skripsi ini hingga selesai. Skripsi ini disusun dengan dukungan dan doa dari keluarga penulis, Ayah Irwan Suardi dan Ibu Rahma Yanti Berutu, serta saudara penulis Adinda Azzahra Putri yang selalu memberi semangat hingga skripsi ini tuntas.

Pihak lain yang juga ikut terlibat antara lain :

1. Bapak Dr. Muryanto Amin, S.Sos., M.Si sebagai Rektor Universitas Sumatera Utara.

2. Ibu Dr. Maya Silvi Lydia B.Sc., M.Sc. sebagai Dekan Fasilkom-TI USU.

3. Ibu Sarah Purnamawati, ST., M.Sc., sebagai Ketua Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

4. Bapak Dedy Arisandi ST., M.Kom sebagai Sekretaris Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

5. Bapak Indra Aulia, S.TI., M.Kom, sebagai Dosen Pembimbing I dan Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc sebagai Dosen Pembimbing II, yang telah meluangkan banyak waktu untuk membimbing, dan memberikan saran serta motivasi kepada penulis.

6. Bapak Muhammad Anggia Muchtar ST., MMIT., selaku Dosen Pembanding I, dan Bapak Ivan Jaya S.Si., M.Kom., selaku Dosen Pembanding II yang telah memberikan kritik dan saran untuk membantu penyempurnaan skripsi.

7. Segenap Dosen Fakultas Ilmu Komputer dan Teknologi Informasi Universitas serta staff akademik yang mengakomodasi kelancaran penulis dalam menyelesaikan studi.

8. Keluarga dekat penulis, Opung Nurcahaya Pane, Tulang Muhammad Agustiawan Gultom, Ujing Fatimah Juli Gultom, Pak Tuo Edison Suardi dan Prof. Dr. Syafruddin Ilyas M.Biomed, Ibu Yunarti, yang telah memberikan

(5)

dukungan kepada penulis dari awal perkuliahan hingga sampai akhir penyelesaian skripsi.

9. Kerabat satu proyek skripsi, Rogate Sola Fide yang dari awal pembuatan skripsi mendampingi penulis dan menjadi sahabat baik suka dan duka, tempat berdiskusi dalam membuat hingga menuntaskan skripsi ini.

10. Sahabat seperjuangan kuliah, Mhd. Syafriansyah, Joshua Andrew, Alvin Febriando, dan seluruh mahasiswa Kom B 2017 yang telah menemani penulis dari awal kuliah hingga akhir penyelesaian skripsi.

11. Sahabat seperkerjaan, Nurul Andini dan Muhammad Ulwan Azmi serta segenap keluarga besar MAN 2 MODEL MEDAN yang telah memberikan semangat dalam menuntaskan skrispsi ini.

12. Kakak senior penulis pada saat kuliah, Jhon Rendi Sortono, Sahat Gebima Sihotang, Syarifah Atika yang banyak menyerukan nasehat dan arahan sebagai kakak untuk penulis semasa perkuliahan.

13. Adik penulis pada saat kuliah, Daniel Situmeang, Wanda Khalishah, Jason Surya Faylim yang telah menyerukan semangat dan dukungan hingga skripsi ini selesai dilaksanakan.

14. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis tuliskan satu persatu yang telah meringankan penyelesaian skripsi ini.

Semoga Allah SWT. melimpahkan karunia dan anugerah-Nya kepada segenap pihak yang telah terlibat baik secara langsung maupun tidak langsung memberikan bantuan, perhatian, serta dukungan kepada penulis dalam penuntasan skripsi ini.

Medan, 28 Desember 2021

Penulis

(6)

v

Abstrak

Pada era kemajuan teknologi 4.0, keberlangsungan dalam berkomunikasi antar bahasa tidak sesulit sebelumnya sebab adanya konsep yang berbasis elektronik dimana tidak mengharuskan mencari kamus ataupun buku bahasa untuk dijadikan acuan berbahasa.

Dengan kata lain, seseorang dapat dengan mudah menggunakan teknologi kebahasaan tersebut dengan cara cukup melakukan instalasi pada smartphone masing-masing. Salah satu teknologi kebahasaan yang familiar dijumpai yaitu sistem penerjemahan. Namun, dari kemudahan tersebut menghasilkan sebuah permasalahan serius dalam sistem penerjemahan, yaitu kurang kayanya sebuah data bahasa atau biasa disebut dengan corpus. Pada saat ini, corpus yang tersedia dalam Bahasa daerah di Indonesia hanya Bahasa Sunda dan Jawa saja dan tidak ada Bahasa Batak terutama Batak Toba. Oleh karena itu, penulis melakukan pembuatan speech corpus dengan tujuan utama untuk digunakan pada sebuah translasi yang dikhususkan pada bahasa batak toba dengan metode Hidden Markov Model. Metode Hidden Markov Model digunakan untuk memodelkan sekaligus memberikan akurasi kepada kata yang telah dimodelkan sehingga kata yang digunakan untuk proses terjemahan menjadi akurat. Metode ini juga dikombinasikan dengan Gaussian Mixture Model untuk membantu metode ini memodelkan kata yang digunakan menjadi lebih baik. Akurasi tertinggi yang didapatkan dengan kombinasi kedua metode tersebut sebesar 100% dan dengan nilai Mean Absolute Percentage Error sebesar 0% untuk evaluasi model dari data audio yang telah di latih serta untuk percobaan didapatkan 43,33% dari nilai Word Recognition Rate berdasarkan 10 narasumber yang berbeda.

Kata kunci: Batak Toba, Speech Corpus, Hidden Markov Model, Gaussian Mixture Model, Mean Absolute Percentage Error.

(7)

GENERATING THE BATAK TOBA SPEECH DATA CORPUS USING THE HIDDEN MARKOV MODEL APPROACH

Abstract

In the era of technological advancement 4.0, continuity in communicating between languages is not as difficult as before because there are electronic-based concepts which do not require looking for dictionaries or language books to be used as language references. In other words, one can easily use the language technology by simply installing it on their respective smartphones. One of the familiar language technologies found is the translation system. However, this convenience results in a serious problem in the translation system, namely the lack of rich language data or commonly known as corpus. At this time, the corpus available in regional languages in Indonesia is only Sundanese and Javanese and there is no Batak language, especially Toba Batak.

Therefore, the author made a speech corpus with the main aim of being used in a translation that is devoted to the Batak Toba language with the Hidden Markov Model method. The Hidden Markov Model method is used to model as well as provide accuracy to the words that have been modeled so that the words used for the translation process are accurate. This method is also combined with the Gaussian Mixture Model to help this method model the words used to be better. The highest accuracy obtained by the combination of the two methods is 100% and the Mean Absolute Percentage Error value is 0% for the evaluation of the model from the audio data that has been trained and for the experiment, it was obtained 43.33% of the Word Recognition Rate value based on 10 different sources.

Keywords : Batak Toba, Speech Corpus, Hidden Markov Model, Gaussian Mixture Model, Mean Absolute Percentage Error.

(8)

vii

DAFTAR ISI

Hal.

PERSETUJUAN Error! Bookmark not defined.

PERNYATAAN ii

Ucapan Terima Kasih iii

Abstrak v

Abstract vi

DAFTAR ISI vii

Daftar Tabel ix

Daftar Gambar x

BAB 1 PENDAHULUAN 1

1.1. Latar Belakang 1

1.2. Rumusan Masalah 3

1.3. Tujuan Penelitian 3

1.4. Batasan Penelitian 3

1.5. Manfaat Penelitian 4

1.6. Metodologi Penelitian 4

1.7. Sistematika Penulisan 5

BAB 2 LANDASAN TEORI 7

2.1. Speech Corpus 7

2.2. Speech Recognition 9

2.3. Hidden Markov Model 11

2.4. Gaussian Mixture Model (GMM) 12

2.5. STFT(Short-Time Fourier Transform) 13

2.6. Fast Fourier Transform 14

2.7. Penelitian Terdahulu 15

BAB 3 ANALISIS DAN PERANCANGAN SISTEM 19

3.1. Analisis Pembentukan Corpus 19

3.1.1. Analisis Masalah 19

3.1.2. Analisis Kebutuhan 19

3.1.2.1. Analisis Kebutuhan Fungsional Sistem 20 3.1.2.2. Analisis Kebutuhan Non-Fungsional Sistem 20

(9)

3.1.3. Analisis Proses 20

3.2. Arsiterktur Umum 20

3.3. Input 22

3.4. Preprocessing 23

3.4.1 Data Audio Analyser 23

3.4.2 Data Converter 24

3.4.3 Data downsampling 25

3.4.5 Data Filter 26

3.4.6 Data Extraction 28

3.5. Process 29

3.5.1 Data Modelling 30

3.5.2 Data Sampling 31

3.5.3 Data Probability 33

3.5.4 Data Identify 34

3.5.5 Data Accuracy 34

3.6. Metode Evaluasi 35

BAB 4 IMPLEMENTASI DAN PENGUJIAN 38

4.1. Konfigurasi Pembentukan Sistem 38

4.1.1. Konfigurasi Perangkat Keras 38

4.1.2. Konfigurasi Perangkat Lunak 38

4.2. Implementasi Sistem 39

4.3. Hasil Pengujian Sistem 40

4.4. Evaluasi Sistem 43

BAB 5 KESIMPULAN DAN SARAN 48

5.1. Kesimpulan 48

5.2. Saran 48

DAFTAR PUSTAKA 50

(10)

ix

Daftar Tabel

Hal.

Tabel 2.1. Tabel Standarisasi speech corpus (Yin et.al., 2007) 9

Tabel 2.2. Penelitian Terdahulu 17

Tabel 3.1. Analisa nilai MAPE 36

Tabel 4.1. Tabel Pemodelan Data 41

Tabel 4.2. Tabel hasil percobaan prediksi 42

(11)

Daftar Gambar

Hal.

Gambar 2.1. Flowchart Prosedur Production of Corpus (Yin et.al., 2007) 7

Gambar 2.2. Arsitektur SRS (Samudravijaya, 2015) 10

Gambar 3.1. Arsitektur Umum 21

Gambar 3.2. Ilustrasi arsitektur umum pada satu data audio 22

Gambar 3.3. Plot ukuran detik dan amplitude sinyal audio 23

Gambar 3.4. Hasil dari proses labeling 26

Gambar 3.5. Hasil detektor puncak berdasarkan frekuensi dengan FFT 27

Gambar 3.6. Contoh perhitungan Nilai Hanning 28

Gambar 3.7. Contoh Perhitungan STFT 29

Gambar 3.8 Potongan array hasil proses Data Extraction 29

Gambar 3.9. Hasil pemodelan data 31

Gambar 3.10 Proses pelatihan data 32

Gambar 3.11. Potongan nilai contoh dari proses pelatihan dan percobaan 33

Gambar 3.12. Potongan hasil probabilitas 33

Gambar 3.13. Potongan array yang sudah di identifikasi 34

Gambar 3.14. Potongan hasil akurasi data 35

Gambar 4.1 Output akhir setelah dilakukan proses training 40

Gambar 4.2. Plot Pembuktian hasil akurasi 100% 45

Gambar 4.3. Plot Pembuktian hasil akurasi 66,67% 45

Gambar 4.4. Plot Pembuktian hasil akurasi 33,33% 46

Gambar 4.5. Plot Pembuktian hasil akurasi 0% 46

(12)

1 BAB 1

PENDAHULUAN

1.1. Latar Belakang

Pada era kemajuan teknologi 4.0, keberlangsungan dalam berkomunikasi antar bahasa tidak sesulit sebelumnya sebab adanya konsep yang berbasis elektronik dimana tidak mengharuskan mencari kamus ataupun buku bahasa untuk dijadikan acuan berbahasa.

Dengan kata lain, seseorang dapat dengan mudah menggunakan teknologi kebahasaan tersebut dengan cara cukup melakukan instalasi pada smartphone masing-masing. Salah satu teknologi kebahasaan yang familiar dijumpai yaitu sistem penerjemahan (Abidin, 2017). Istilah penerjemahan merupakan upaya menemukan padanan makna dari suatu teks ke dalam bahasa kedua dengan menekankan kesetaraan makna (Nugroho, 2016).

Akan tetapi, dari kemudahan tersebut menghasilkan sebuah permasalahan serius dalam sistem penerjemahan, yaitu kurang kayanya sebuah data bahasa atau biasa disebut dengan corpus.

Corpus adalah sebuah bank data bahasa, seperti dalam bentuk tulisan maupun lisan yang mengacu pada studi bahasa melalui analisis empiris besar data dari bahasa yang muncul secara alami (Brysbaert, 2017). Untuk pembangkitannya harus dilengkapi unit linguistik dasar seperti kata, frasa, klausa, kalimat, dan wacana. Namun, untuk ketersediaan corpus terutama pada bahasa daerah yang berada di Indonesia sangatlah minim sehingga banyak bahasa daerah yang belum terealisasikan dalam pembuatan corpusnya mengingat peranan corpus dalam sebuah sistem penerjemahan sangatlah penting (Jung-Woo, 2020).

(13)

Terlebih lagi pada saat ini, corpus yang tersedia hanya berupa corpus dengan bahasa daerah Jawa dan Sunda yang mereferensi dari sumber google translate dan tidak ada yang merujuk ke Bahasa Batak terutama Bahasa Batak Toba.

Bahasa Batak Toba merupakan Bahasa ibu dari etnis Batak Toba dimana etnis ini termasuk dari enam sub etnis Batak yang berada di provinsi Sumatera Utara, di mana Batak Toba sendiri memiliki wilayah yang terbagi menjadi empat kabupaten (Sitanggang, 2017). Perbedaan jarak antar 4 kabupaten tersebut dapat menjadikan salah satu faktor dialek etnis Batak Toba memiliki ciri khas tersendiri dalam penyampaiannya seperti pelafalan logat Bahasa Batak Toba tersebut. Maka dari itu, penulis memilih Bahasa Batak Toba sebagai Bahasa yang akan penulis gunakan dalam pembuatan corpus karena ada ciri khas tersendiri dalam Bahasa Batak Toba dari beberapa Bahasa Batak yang ada.

Penulis telah menelusuri penilitian-penelitian terdahulu yang pernah dilakukan sebelumnya seperti Pembentukan corpus yang diciptakan oleh Fajardo et.al (2019) yang membahas tentang bagaimana melakukan segmentasi ucapan otomatis dalam membangun sebuah Speech Corpus dengan bahasa Filipina. Dimana, file audio yang isinya tidak homogen tidak dapat digunakan sebagai kumpulan data dalam speech berbasis deep learning. Kode secara otomatis akan menyegmentasikan dan memberi label file-file ini untuk membangun corpus yang dapat digunakan untuk deep learning pengenalan suara. Kinerja kode dalam hal keakuratan dalam segmentasi ucapan tergantung pada nilai himpunan untuk keheningan yang didasarkan pada analisis kumpulan data mentah aktual. Peringkat akurasi tertinggi dicapai oleh kode yang menggunakan kumpulan data asli adalah 95,39% yang ditetapkan oleh lamanya waktu silent pada 500 db.

Kemudian penelitian yang dilakukan sebelumnya untuk pembuatan corpus oleh Polat et.al (2020) membahas tentang prosedur alternatif yang layak untuk mengumpulkan data ucapan bahasa Turki ke teknik persiapan corpus yang ditranskripsi secara klasik yaitu dengan mengambil speech dari film dengan subtitlenya. Dalam pendekatan yang disajikan, mereka menggunakan 3 langkah untuk penyelesaiannya.

(14)

3

Selanjutnya, pada penelitian Khairani Mutiah (2021) membahas tentang perhitungan akurasi speech menggunakan metode Hidden Markov Model pada studi kasus transaksi jual beli pada kasir Supermarket menggunakan metode speech recognation untuk Bahasa Indonesia yang menghasilkan tingkat akurasi sebesar 80%

dari 30 kata dan berhasil memprediksi biagram (2 kata).

Berdasarkan masalah yang telah dipaparkan dan juga beberapa referensi penelitian sebelumnya, penulis memberikan sebuah solusi dengan melakukan penelitian dalam pembentukan suatu corpus dengan judul besar “PEMBANGKITAN KORPUS DATA WICARA BAHASA BATAK TOBA MENGGUNAKAN PENDEKATAN HIDDEN MARKOV MODEL”.

1.2. Rumusan Masalah

Permasalahan utama dalam pembuatan sistem seperti halnya sistem translasi adalah terbatasnya ketersediaan dari sebuah bank data atau corpus. Hal ini didasarkan pada pentingnya peranan sebuah corpus dalam sebuah sistem translasi yang digunakan sebagai acuan dalam melakukan sebuah penerjemahan. Beberapa bahasa terutama bahasa daerah sudah memiliki banyak referensi, namun tidak dengan Bahasa Batak Toba. Maka dari itu, penulis membuat penelitian ini untuk mengatasi kurang tersedianya corpus bahasa tersebut.

1.3. Tujuan Penelitian

Tujuan yang diinginkan dari penelitian ini adalah untuk membentuk sebuah corpus model bahasa Batak Toba dengan keakuratan dan kualitas data yang maksimal untuk digunakan pada sistem translasi pada penelitian selanjutnya maupun sistem lain yang membutuhkan.

1.4. Batasan Penelitian

Batasan yang ditetapkan dalam penelitian ini yaitu : 1. Isi corpus hanya berupa kata dan suara.

2. Isi corpus merupakan Bahasa Batak yang terpusat pada Bahasa Batak Toba.

3. Isi corpus hanya melihat referensi kamus Bahasa Batak Toba karya Richard Sinaga (2008).

(15)

4. Suara yang digunakan dalam corpus yaitu suara dengan jenis kelamin wanita.

5. Suara yang digunakan terbatas dengan resolusi 16 bit.

6. Mic yang digunakan untuk pengambilan data adalah mic default sebuah smartphone (MEMS (MicroElectrical-Mechanical System)).

1.5. Manfaat Penelitian

Adapun manfaat yang diperoleh dari penelitian ini adalah :

1. Membantu penelitian lain dalam pengambilan data melalui hasil akhir dari corpus yang digunakan dalam translasi ataupun proses pembelajaran lainnya.

2. Memerkaya kosakata dalam berbahasa batak khususnya batak toba.

3. Membantu penduduk sekitar Tapanuli maupun umum untuk berkomunikasi dengan menjadikan acuan dalam berbahasa sehingga meminimalisir disinformasi apa yang telah disampaikan.

1.6. Metodologi Penelitian

Beberapa tingkatan yang akan dikerjakan dalam penelitian ini, yaitu : 1. Studi Literatur

Pada tingkat ini sekaligus yang pertama dilaksanakan dengan menghimpunkan bahan referensi dari artikel, juklak, jurnal, prosidi, panduan dan sumber acuan lainnya perihal Speech Recognition dan Hidden Markov Model.

2. Analisis Permasalahan

Pada tingkat ini dilaksanakan penyelidikan terhadap tingkatan yang telah dilaksanakan sebelumnya yaitu studi literatur dan interview untuk memperoleh penafsiran perihal Corpus dan juga menerapkan Hidden Markov Model untuk pemodelan kata yang ada dalam Corpus.

3. Perancangan

Pada tingkat ini dilaksanakan proses penataan pembentukan data berdasarkan hasil analisis permasalahan yang telah dilaksanakan pada tahap sebelumnya.

Tingkatan ini meliputi pembentukan arsitektur umum dan pengumpulan data input hingga hasil akhir.

(16)

5

4. Implementasi

Pada tingkat ini dilaksanakan implementasi dalam bentuk kode program menurut penyelidikan dan penataan sistem yang telah dilaksanakan sebelumnya agar menghasilkan kualitas dan keakuratan data.

5. Pengujian

Pada tingkat ini dilaksanakan pengujian implementasi Hidden Markov Model dalam menghasilkan pemodelan kata yang sudah diatur dalam tata cara penulisan kata dalam bahasa yang baik.

6. Dokumentasi dan Penyusunan Laporan

Pada tingkat ini dilaksanakan dokumentasi dan penyusunan laporan dari hasil evaluasi menurut penelitian yang telah dilakukan.

1.7. Sistematika Penulisan

Sistematika penulisan pada skripsi ini terdiri dari lima bagian utama sebagai berikut.

Bab 1: Pendahuluan

Bab ini menjelaskan tentang latar belakang dari penelitian yang dilaksanakan, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode penelitian, dan sistematika penulisan.

Bab 2: Landasan Teori

Bab ini berisi beberapa teori yang diperlukan untuk penyelesaian masalah pada penelitian ini. Teori yang berhubungan diantaranya Speech Corpus, Speech Recognition, Hidden Markov Model,Gaussian Mixture Model, Short-Time Fourier Transform, Fast Fourier Transform hingga beberapa penelitian terdahulu akan ditelaah pada bab ini.

Bab 3: Analisis dan Perancangan

Bab ini menjelaskan bagaimana tahap demi tahap pembentukan sebuah corpus bahasa Batak Toba menggunakan acuan dari arsitektur umum yang telah dibuat.

(17)

Bab 4: Implementasi dan Pengujian

Bab ini berisi tentang implementasi dari hasil analisis dan perancangan sistem yang telah dijelaskan pada bab sebelumnya.

Bab 5: Kesimpulan dan Saran

Bab ini berisi kesimpulan dari keseluruhan penelitian yang telah dilakukan hingga saran yang diajukan oleh penulis untuk acuan pada penelitian berikutnya.

(18)

7 BAB 2

LANDASAN TEORI

2.1. Speech Corpus

Speech Corpus adalah dasar dari penelitian linguistik dan pemrosesan bahasa alami seperti SR (Speech Recognition) dan TTS (Text to Speech). Dengan perkembangan teknologi big data, orang bisa mendapatkan berbagai data (termasuk data speech) lebih banyak dengan mudah.

Pada umumnya, speech corpus dipakai dalam aplikasi pemroresan bahasa alami seperti chatbot, sistem translasi hingga yang lainnya (Yin, 2017). Berikut adalah prosedur untuk pembentukan sebuah speech corpus.

Gambar 2.1. Flowchart Prosedur Production of Corpus (Yin et.al., 2007)

(19)

Penjelasan flowchart diatas di uraikan seperti berikut ini :

1. Project analysis and design, yaitu menganalisis proyek speech corpus dan menyusun cetak birunya. Spesifikasi dari corpus akan diatur seperti ukuran corpus, jumlah pembicara, gaya bicara, peralatan perekaman, dan yang lainnya.

2. Mempersiapkan pengumpulan, yaitu mempersiapkan korpus sesuai dengan cetak biru seperti merancang petunjuk input, mempersiapkan perangkat keras dan perangkat lunak, mengumpulkan uang dan mengatur staf, mencari pembicara, dan yang lainnya.

3. Pre-collecting, yaitu jika speech corpus sangat besar dan rumit, pra- pengumpulan menghimpun beberapa sampel mutlak untuk dilakukan. Itu dapat menemukan masalah dan memperbaiki rencana, sehingga menghindari kemungkinan kesalahan dalam pengumpulan formal.

4. Pre-validation, yaitu mengevaluasi korpus yang telah dikumpulkan sebelumnya dan memperbaiki cetak biru.

5. Memulai koleksi data audio yang sesungguhnya untuk di terapkan pada tahap selanjutnya.

6. Annotating, yaitu membubuhi keterangan pada speech corpus seperti info audio, darimana audio didapatkan dan yang lainnya.

7. Menyusun kamus leksikal dengan cara menyiapkan beberapa aspek penting untuk pembuatan kamus yang direferensikan ke speech corpus.

8. Post validation yaitu mengevaluasi speech corpus dan memeriksa apakah sudah memenuhi kriteria atau belum. Ini digunakan untuk menerima atau menolak corpus yang telah dibuat.

9. Distribution yaitu mendistribusikan speech corpus yang lolos validasi dan siap digunakan.

Meskipun pengumpulan korpus ucapan hanyalah sebuah prosedur, penentuan kualitas dan efisiensinya sangatlah penting untuk dilakukan. Oleh karena itu, prosedur produksi korpus ucapan harus distandarisasi seperti halnya sistem ISO untuk industri, yaitu dijelaskan dalam tabel dibawah ini :

(20)

9

Tabel 2.1. Tabel Standarisasi speech corpus (Yin et.al., 2007)

Spesifikasi Penjelasan

Spesifikasi Pembicara (Narasumber)

Mendeskripikan ciri-ciri pembicara seperti usia, jenis kelamin, pendidikan latar belakang, kualitas suara, bahasa dan aksen.

Spesifikasi desain corpus

Mendeskripsikan organisasi korpus dan isinya. Contohnya, informasi terperinci atau organisasi skrip (prompt) dari membaca dan pengucapan secara spontan, dialog atau monolog, menimbulkan ucapan spontan (menjawab pertanyaan, dll.), ucapan ekspresif.

Spesifikasi rekaman Mendeskripsikan tentang spesifikasi teknis perekaman untuk peralatan dalam perekaman, kondisi lingkungan, platform perekaman dan strategi penyimpanan data, seperti laju pengambilan sampel, gelombang bicara, bit dalam sampel, dan yang lainnya.

Spesifikasi anotasi Mendeskripsikan konvensi anotasi suara ke karakter transkripsi, anotasi fonetik atau informasi lain seperti anotasi sintaksis.

Kriteria Validasi Menetapkan kriteria eksplisit yang harus dipenuhi korpus.

Memberikan gambaran umum tentang fitur yang akan diperiksa dan kriteria yang digunakan untuk menerima atau menolak korpus.

Spesifikasi distribusi Mendeskripsikan rencana distribusi, prinsip dan penyimpanan medium.

2.2. Speech Recognition

Speech Recognition System (SRS) atau identifikasi suara komputer yang merupakan teknik mengonversi sinyal speech menjadi rangkaian kata dengan menggunakan algoritma tertentu yang diimplementasikan sebagai program komputer. Metode ini memiliki potensi menjadi mode interaksi yang penting antara manusia dan komputer (Shaikh Naziya S. & R.R. Deshmukh, 2016).

(21)

Tujuan utama dari sistem SRS adalah untuk menghipotesiskan urutan simbol diskrit yang paling mungkin dari semua urutan yang valid dalam bahasa yang diinginkan, dari input akustik yang diberikan (Karpagavali S. et al, 2016).

Gambar 2.2. Arsitektur SRS (Samudravijaya, 2015)

Speech Recognition juga merupakan kasus khusus dari pengenalan suatu pola tertentu yang menunjukkan tahapan pemrosesan yang terlibat dalam pengenalan ucapan. Ada dua tahap dalam identifikasi pola terawasi, yaitu pelatihan dan pengujian.

Proses ekstraksi fitur yang relevan untuk klasifikasi adalah umum untuk kedua tahap.

Selama tahap pelatihan, parameter model klasifikasi diestimasi menggunakan sejumlah besar class eksemplar (data pelatihan).

Selama tahap pengujian atau pengenalan, fitur dari pola pengujian (test data ucapan) dicocokkan dengan model terlatih dari setiap kelas. Pola tes dideklarasikan untuk menjadi bagian dari kelas yang modelnya paling cocok dengan pola pengujian.

Kemudian semua kalimat tersebut tersusun atas satuan-satuan linguistik seperti kata, suku kata, fonem. Bukti akustik disediakan oleh model akustik unit tersebut dikombinasikan dengan aturan membangun valid dan kalimat bermakna dalam bahasa untuk menghipotesiskan kalimat tersebut. Oleh karena itu, dalam hal pengenalan suara, tahap pencocokan pola dapat dilihat terjadi dalam dua domain: akustik dan simbolik.

Di domain akustik, vektor fitur yang sesuai dengan segmen kecil ucapan uji (disebut kerangka pidato) dicocokkan dengan model akustik masing-masing dan setiap kelas.

Segmen diberi satu set sumur mencocokkan label kelas bersama dengan skor kecocokannya.

(22)

11

Proses pemberian label ini diulang untuk setiap vektor fitur dalam urutan vektor fitur dihitung dari data uji. Kisi-kisi yang dihasilkan dari hipotesis label diproses bersama dengan model bahasa untuk menghasilkan kalimat yang dikenali.

2.3. Hidden Markov Model

Hidden Markov Model (HMM) didasarkan pada penambahan rantai Markov. Rantai Markov adalah sebuah model yang memberi tahu kita sesuatu tentang probabilitas urutan variabel acak, pernyataan variabel, yang masing-masing dapat mengambil nilai dari beberapa himpunan. Kumpulan ini bisa berupa kata-kata, atau tag, atau simbol yang mewakili apa pun, seperti halnya label. Rantai Markov membuat asumsi yang sangat kuat bahwa jika ingin melakukan prediksi masa depan secara berurutan, semua itu masalahnya adalah keadaan saat ini. (Jurafsky D & James H., 2020)

Hidden Markov Model adalah alat untuk mewakili distribusi probabilitas atas urutan pengamatan. Di model ini, pengamatan Xt ada waktu t dihasilkan oleh proses stokastik, tetapi keadaan Zt dari proses ini tidak dapat diamati secara langsung, yaitu disembunyikan. Proses tersembunyi ini diasumsikan memenuhi sifat Markov, di mana keadaan Zt pada t hanya bergantung pada keadaan sebelumnya, Zt−1 pada waktu t−1.

Ini sebenarnya disebut model Markov orde pertama. Model Markov orde ke-n bergantung pada keadaan n sebelumnya. Distribusi bersama dari urutan keadaan dan pengamatan untuk HMM orde pertama dapat ditulis sebagai berikut,

𝑃(𝑍

_1:𝑁

, 𝑋

_1:𝑁

) = 𝑃(𝑍

₁

)𝑃(𝑋

₁

|𝑍

₁

) ∏ 𝑃(𝑍

_𝑡

|𝑍

_𝑡−1

)𝑃(𝑋

_𝑡

|

𝑁

𝑡=2

𝑍

_𝑡

)

(2.1) dimana notasi Z1:N digunakan sebagai singkatan untuk Z1…….. Zn. (Digermenci, 2014)

Untuk pengenala suara dengan Hidden Markov Model, metode ini membutuhkan model statistik di mana mempunyai rangkaian output berupa simbol dan kuantitas. Dengan adanya sebuah model tersebut, memberikan kemungkinan dari rangkaian akustik data yang telah diobservasi dari sebuah atau banyaknya rangkaian kata yang kemudian menyebabkan sistem bekerja dengan rangkaian kata tersebut

(23)

dimana untuk menghasilkan output rangkaian data akustik sesuai seperti dengan rumus dibawah ini :

𝑃𝑟 ( 𝑤𝑜𝑟𝑑|𝑎𝑐𝑜𝑢𝑠𝑡𝑖𝑐𝑠) = 𝑃𝑟 (𝑤𝑜𝑟𝑑) 𝑃𝑟 (𝑤𝑜𝑟𝑑) 𝑃𝑟 (𝑎𝑐𝑜𝑢𝑠𝑡𝑖𝑐𝑠)

(2.2) Dimana penjelasan rumus yaitu :

- Pr (acoustics) adalah nilai konstan dan tidak dapat diabaikan.

- Pr (word) adalah merupakan hasil kemungkinan terbesar dari suatu kata - Pr (acoustics|word) massa yang paling terlibat di dalam persamaan dan diperoleh dari Hidden Markov Model.

2.4. Gaussian Mixture Model (GMM)

Gaussian Mixture Model (GMM) adalah parametrik fungsi kepadatan probabilitas yang direpresentasikan sebagai jumlah tertimbang dari kepadatan komponen Gaussian.

GMM umum digunakan sebagai model parametrik dari distribusi probabilitas pengukuran kontinu atau fitur dalam sistem biometrik, seperti saluran vokal fitur spektral terkait dalam pengenalan speaker sistem.

Parameter GMM diperkirakan dari pelatihan data menggunakan algoritma Ekspektasi-Maximisasi berulang (EM) atau Maximum A Posteriori (MAP) dari model sebelumnya yang terlatih dengan baik.

Pilihan konfigurasi model (jumlah komponen, kovarians penuh atau diagonal matriks, dan pengikatan parameter) sering ditentukan oleh jumlah data yang tersedia untuk memperkirakan parameter GMM dan bagaimana GMM digunakan secara khusus di aplikasi atau sistem tertentu.

Komponen Gaussian bertindak bersama untuk memodelkan keseluruhan kepadatan fitur sehingga matriks kovarians penuh tidak diperlukan bahkan jika fitur tidak independen secara statistik. Kombinasi linier dari kovarians diagonal basis Gaussians mampu memodelkan korelasi antara elemen vektor fitur.

(24)

13

Efek dari menggunakan satu set M matriks kovarians penuh Gauss dapat sama- sama diperoleh dengan menggunakan set diagonal yang lebih besar. GMM sering digunakan dalam sistem pemodelan, sebagian besar terutama dalam sistem pengenalan speaker, karena kemampuan mereka untuk mewakili kelas sampel yang besar terdistribusi.

Salah satu atribut kuat dari GMM adalah kemampuannya untuk membentuk perkiraan yang halus untuk kepadatan yang berbentuk baik. unimodal klasik Model Gaussian merepresentasikan distribusi fitur dengan A posisi (vektor rata-rata) dan bentuk elips (kovarians matriks) dan vector quantizer (VQ) atau model tetangga terdekat mewakili distribusi oleh himpunan diskrit template karakteristik.

GMM bertindak sebagai hibrida antara dua model ini dengan menggunakan himpunan diskrit Fungsi Gaussian, masing-masing dengan mean dan matriks kovarians, untuk memungkinkan pemodelan yang lebih baik. (Reynolds, 2009)

2.5. STFT(Short-Time Fourier Transform)

Short Time Fourier Transform (STFT) merupakan salah satu algoritma untuk ekstraksi fitur, yaitu sebuah proses konversi sinyal suara menjadi beberapa parameter. STFT memiliki keunggulan dalam menangkap karakteristik suara yang sangat penting dalam melakukan pengenalan suara, menghasilkan informasi seminimal mungkin tanpa menghilangkan beberapa informasi penting (Yani K. et al, 2017). Dari keunggulan tersebut, STFT biasa digunakan untuk memproses segmen-segmen sinyal dalam domain frekuensi (Sharma S. et al, 2015). Data dibagi menjadi bingkai yang tumpang tindih sehingga didapatkan lompatan suara. Transformasi Fourier untuk setiap frame diberikan pada Persamaan 2.3.

STFT = ∑^{𝑛= ∞}_𝑛=−∞ x[n]w[n − m]e ^−jωn (2.3)

Dimana penjelasan rumus yaitu :

- x adalah data sinyal audio dalam bentuk array satu dimensi - n adalah periode audio dalam waktu detik

- w adalah fungsi jendela hanning

(25)

- m adalah lompatan audio

- e adalah eksponensial dengan nilai default yaitu 2.71828183

- ω adalah kecepatan sudut audio bersifat diskrit dan kontinu (Oppenheim et al., 1989) yaitu 0

Fungsi jendela hanning memiliki koefisien sebagaimana dijabarkan pada Persamaan 2.4.

w(n) = sin²(^πn

N−1) 0 ≤ n ≤ N − 1 (2.4)

Dimana penjelasan rumus yaitu :

- w adalah fungsi jendela hanning - n adalah jumlah sampel pada sinyal

- N-1 adalah nilai faktorisasi Fast Fourier Transform (FFT)

Besaran STFT memberikan hasil berupa spektogram. Analisis spektografi pada dasarnya mewakili informasi spektral 3D yang diperoleh dari spektrum besar, untuk segmen jendela yang tumpang tindih dalam waktu singkat. Sumbu X mewakili waktu, sumbu Y mewakili frekuensi, dan dimensi ketiga mewakili besaran log dari komponen frekuensi sinusoidal, yang diubah menjadi intensitas proporsional.

2.6. Fast Fourier Transform

Fast Fourier transform (FFT) adalah algoritma yang menghitung discrete Fourier transform (DFT) dari suatu urutan, atau kebalikannya (IDFT). Analisis Fourier mengubah sinyal dari domain aslinya menjadi representasi dalam domain frekuensi.

DFT diperoleh dengan menguraikan urutan nilai menjadi komponen frekuensi yang berbeda. Sebuah FFT dengan cepat menghitung transformasi dengan memfaktorkan matriks DFT menjadi produk dari faktor-faktor yang jarang seperti 0. Perbedaan kecepatan trasnformasi bisa sangat besar, terutama untuk kumpulan data yang panjang di mana N mungkin dalam satuan ribuan atau jutaan. Pada kasus kesalahan pembulatan, algoritma FFT jauh lebih akurat daripada mengevaluasi definisi DFT secara langsung atau tidak langsung.

(26)

15

Algoritma FFT bergantung pada faktorisasi N, tetapi ada FFT dengan kompleksitas O (N log N) untuk semua N, bahkan untuk N prima. Banyak algoritma FFT hanya bergantung pada fakta bahwa 𝑒^{−2𝜋𝑖/𝑁} adalah akar primitif ke-N dari kesatuan, dan dengan demikian dapat diterapkan pada transformasi analog pada bidang berhingga apa pun, seperti bilangan- transformasi teoritis. Karena DFT terbalik sama dengan DFT, tetapi dengan tanda yang berlawanan pada eksponen dan faktor 1/N, algoritma FFT apa pun dapat dengan mudah diadaptasi untuk itu. (Burrus, 2012) 2.7. Penelitian Terdahulu

Untuk menunjang penuntasan tugas akhir ini, penulis memahami sejumlah contoh penelitian yang telah dilaksanakan sebelumnya, seperti yang dilakukan unutk pembuatan corpus oleh Polat et.al (2020) yang membahas tentang prosedur alternatif yang layak untuk mengumpulkan data ucapan bahasa Turki ke teknik persiapan corpus yang ditranskripsi secara klasik yaitu dengan mengambil speech dari film dengan subtitlenya. Dalam pendekatan yang disajikan, mereka menggunakan 3 langkah untuk penyelesaiannya. Kemudian, pada penelitian yang dikemukan oleh Bakari et.al (2017) membahas bahwa corpus bahasa Arab memang penting untuk berbagai aplikasi dalam pemrosesan otomatisasi Natural Languange di Arab Saudi. Mereka menyajikan langkah pertama dalam bidang ini menuju pembangunan corpus baru yang didedikasikan untuk menjawab pertanyaan bahasa Arab.

Selanjutnya, penelitian terdahulu juga membahas tentang pendekatan berbasis corpus untuk pengajaran dan pembelajaran kosakata yang dapat di jadikan pengalaman yang memuaskan dan bermanfaat bagi guru dan siswa. Dengan menggunakan daftar kosakata berbasis frekuensi bernotasi yang dibuat dari corpus khusus dapat membantu memaksimalkan pembelajaran siswa untuk waktu belajar yang dihabiskan dengan berfokus pada kata-kata yang paling berguna untuk dipelajari dan bagaimana kata-kata ini digunakan di bidang atau konteks tertentu itu. (Toriida, 2016)

Kemudian penelitian dengan judul Building Corpora of Spoken Filipino Words Using Speech Segmentation with Automatic Labeling membahas tentang bagaimana melakukan segmentasi speech otomatis dalam membangun sebuah speech corpus Filipina. Skrip mereka dapat digunakan dalam file audio dimana ada campuran kalimat, kata, suku kata, dan yang lainnya dalam satu file.

(27)

File audio yang isinya tidak homogen tidak dapat digunakan sebagai kumpulan data dalam pidato berbasis deep learning. Skrip secara otomatis akan menyegmentasikan dan memberi label file-file ini untuk membangun corpus yang dapat digunakan untuk pembelajaran mendalam pengenalan suara. Kinerja dari skrip tersebut mendapatkan akurasi tertinggi dengan nilai 95,39% yang ditetapkan dari lamanya waktu diam pada 500 db suara.

Penelitian berikutnya oleh Simanjuntak (2018), membahas tentang bagaimana cara memperoleh kata dasar dalam file bahasa Batak Toba menggunakan metode dua tingkat morfologi. Dalam penelitiannya, ia menggunakan algoritma Porter Stemmer yang memiliki fungsi untuk pemecahan kata menjadi kata dasar dari dokumen yang diajukan. Dengan tingkat akurasi yang didapatkan yaitu sebesar 89,503%, ia menyatakan bahwa algoritma yang digunakan telah berhasil memecah kalimat ke dalam kata.

Lalu pada penelitianDaniel Dzibela & Armin Sehr membahas tentang sintesis speech berbasis HMM dan penggunaan informasi. Pada tes pertamanya menunjukkan hasil yang sangat menjanjikan, dengan peningkatan kualitas yang jelas dan kejelasan dibandingkan dengan yang biasanya dihasilkan oleh speech. Selanjutnya, tes yang berbeda akan dijalankan untuk memeriksa dampak dari setiap langkah pada hasil akhir untuk pembuktian speech dengan menggunakan HMM.

Dan Terakhir pada penelitian Khairani Mutiah membahas tentang perhitungan akurasi speech menggunakan metode Hidden Markov Model pada studi kasus transaksi jual beli pada kasir Supermarket menggunakan metode speech recognation untuk Bahasa Indonesia yang menghasilkan tingkat akurasi sebesar 80% dari 30 kata dan berhasil memprediksi biagram (2 kata).

(28)

17

Tabel 2.2. Penelitian Terdahulu

No. Nama Peneliti Judul Penelitian Tahun

1 Polat H., Oyucu S. Building a Speech and Text Corpus of Turkish: Large Corpus Collection with Initial

Speech Recognition Results

2020

2 Bakari W., Bellot P., Neji M.

A Preliminary Study for Building an Arabic Corpus of Pair Questions-Texts from the

Web:AQA-Webcorp

2016

3 Toriida Marie-Claude Steps for Creating a Specialized Corpus and Developing an Annotated Frequency-Based Vocabulary

List

2016

4 Felizardo Reyes Jr., Arnel Fajardo

Building Corpora of Spoken Filipino Words Using Speech Segmentation with

Automatic Labeling

2019

5 Simanjuntak, Tuti Implementasi Algoritma Porter Stemmer untuk

Mendapatkan Kata Dasar dalam Dokumen Bahasa Batak

Toba dengan

Metode Dua Tingkat Morfologi

2018

6 Daniel Dzibela, Armin Sehr Hidden-Markov-Model Based Speech Enhancement

2017

(29)

7 Khairani, Mutiah Optimasi Prediksi Speech Recognition Bahasa Indonesia Dengan Hidden Markov Model

2021

(30)

19 BAB 3

ANALISIS DAN PERANCANGAN SISTEM

3.1. Analisis Pembentukan Corpus

Analisis Pembentukan Corpus dapat diuraikan sebagai tingkat demi tingkat yang merujuk pada pengembangan data corpus tersebut. Pada tingkat ini, akan dibahas beberapa topik seperti analisis masalah, analisis kebutuhan dan analisis proses untuk dilanjutkan ke tingkatan percobaan.

3.1.1. Analisis Masalah

Permasalahan utama dalam pembentukan sebuah sistem seperti halnya sistem translasi adalah ketersediaan dari sebuah bank data atau corpus. Hal ini didasarkan pada pentingnya peranan sebuah corpus dalam sebuah sistem translasi yang digunakan sebagai acuan dalam melakukan sebuah penerjemahan. Namun, tidak semua Bahasa yang digunakan dalam sebuah penerjemahan memiliki sumber corpus khususnya Bahasa daerah seperti Bahasa Batak Toba. Oleh karena itu, penulis membuat sebuah speech corpus berdasarkan standarisasi yang telah di uraikan pada Bab 2 sehingga dapat di implementasikan langsung baik dalam sistem penerjemahan ataupun sistem lainnya yang membutuhkannya.

3.1.2 Analisis Kebutuhan

Pada tingkat ini, penganalisis terbagi pada dua bagian utama, yaitu kebutuhan fungsional dan kebutuhan non-fungsional.

(31)

3.1.2.1. Analisis Kebutuhan Fungsional Sistem

Kebutuhan fungsional sistem memaparkan sejumlah proses tindakan yang dilaksanakan dalam pelayanan dan pembentukan sistem, yaitu :

1. Fungsi Speech Recognition, yaitu pengenalan audio bahasa Batak Toba secara otomatis menuju teks bahasa tersebut.

2. Fungsi Hidden Markov Model (HMM), yaitu membangkitkan suatu metadata pada speech corpus melalui model yang telah dibuat.

3. Fungsi Short-time Fourier transform (STFT), yaitu pengorversian sinyal menjadi frekuensi yang selanjutnya diletakkan dalam array pada dimensi data tertentu.

4. Fungsi Converter Data, yaitu pengonversian ekstensi data dengan menetapkan ekstensi .wav sebagai ekstensi utama di dalam proses pembentukan speech corpus.

3.1.2.2. Analisis Kebutuhan Non-Fungsional Sistem

Kebutuhan non-fungsional sistem menjelaskan beberapa ciri umum seperti performa, penyimpanan, penggunaan, kontrol, dan ekonomi.

1. Kualitas data

Sistem yang dibentuk dapat memberikan hasil data dengan kualitas terbaik dengan minimum noice yang diterima.

2. Akurasi data

Sistem yang dibentuk dapat memberikan tingkat akurasi data yang akurat sehingga data dapat digunakan pada semua sistem yang membutuhkannya.

3.1.3. Analisis Proses

Pada penelitian ini, sistem yang dibentuk dengan metode Hidden Markov Model untuk pemodelan data yang telah di training untuk pembentukan speech corpus.

3.2. Arsiterktur Umum

Teknik yang penulis kemukakan untuk menginterpretasikan hasil speech corpus memiliki beberapa proses. Beberapa proses tersebut dapat diamati pada arsitektur umum yang ada dalam Gambar 3.1.

(32)

21

Gambar 3.1. Arsitektur Umum

Sebagai ilustrasi dari arsitektur umum yang dijelaskan, pemisalannya adalah dengan menggunakan salah satu audio yang digunakan dalam pembuatan speech corpus seperti kata “indahan”. Kata tesebut pertama di input dalam sistem pemodelan kemudian di analisis terlebih dahulu informasi yang ada pada audio tersebut dengan menghasilkan plot berupa informasi berapa detik audio tersebut dan yang lainnya seperti yang diperlihatkan pada gambar 3.2. Kemudian jika audio “indahan” tersebut tidak sesuai dengan ketetapan sistem pemodelan yang dibuat, maka akan dilakukan converting data dan downsampling data audio tersebut. Setelah itu, Ketika semua data audio sudah sesuai, maka data audio tersebut di labelling sesuai dengan kata yang di referensikan dari kamus Bahasa Batak Toba pada kata “indahan”. Lalu setelah data audio “indahan” tersebut terlabel maka selanjutnya data audio tersebut di filter

(33)

berdasarkan tinggi rendahnya frekuensi audio tersebut yang diperlihatkan pada gambar 3.2. dan langsung dilakukan ekstraksi fitur dari audio tersebut dengan menggunakan metode STFT yang menghasilkan array untuk keperluan pada tahap pemodelan.

Sesudah didapatkannya array hasil ekstraksi fitur dari data audio kata “indahan”, selanjutnya dilakukanlah pemodelan dari data audio tersebut yang menghasilkan model berupa model berformat pickle yang dapat digunakan. Isi dari model tersebut dapat dilihat pada gambar 3.2.

Gambar 3.2. Ilustrasi arsitektur umum pada satu data audio 3.3. Input

Dalam pembuatan speech corpus Batak Toba, terdapat input atau data masukan yang akan diolah berdasarkan referensi pada tabel 2.1. dalam bab sebelumnya. Input tersebut adalah audio bahasa Batak Toba yang diucapkan oleh 5 narasumber berjenis kelamin Wanita dengan rentang umur 20-22 tahun. Dipilihnya audio dengan jenis kelamin wanita karena intonasi dari pelafalan seorang Wanita sangat baik dan beragam hingga cocok untuk kesesuaian variatas data yang akan dibuat. Input dilakukan dengan mengucapkan sekaligus merekam audio Bahasa Batak per katanya berdasarkan kamus Bahasa Batak Toba (Sinaga, 2006) pada ruangan tertutup menggunakan microphone default smartphone yang didekatkan pada bibir narasumber tersebut dengan jarak 15 cm yang kemudian disimpan dalam ekstensi m4a.

(34)

23

Kata yang diucapkan per narasumbernya sebanyak 3898 kata. Setelah semua data input direkam oleh narasumber, data tersebut kemudian dikumpulkan pada satu folder sesuai dengan kata apa yang direkam oleh narasumber yang selanjutnya akan di proses dalam tingkat berikutnya.

3.4. Preprocessing

Preprocessing adalah tingkat awal dalam pra-proses yang dilakukan dalam penelitian ini. Tingkat tersebut dibagi per bagiannya yang dimulai dari Data Audio Analyser dan berakhir pada tingkat data extraction.

3.4.1 Data Audio Analyser

Data Audio Analyser adalah tingkat pertama dalam melakukan pra-proses. Pada tingkatan ini dilakukan analisis audio berdasarkan sinyal dan frekuensinya yang kemudian memberikan informasi-informasi tentang audio tersebut seperti berapa detiknya audio dan ukuran amplitudo yang berupa gambar plot seperti gambar 3.2.

Kemudian beberapa hasil informasi tersebut digunakan sebagai bahan acuan untuk proses berikutnya. Dilakukannya tingkat ini dengan tujuan untuk mengetahui informasi dari data audio yang telah di masukkan agar pada saat tingkat berikutnya dapat dilakukan sesuai ekstensi yang telah ditetapkan dalam sistem.

Gambar 3.3. Plot ukuran detik dan amplitude sinyal audio

(35)

3.4.2 Data Converter

Data Converter merupakan tingkat pengubahan ekstensi file audio yang akan di proses.

Setelah melewati proses analisis, audio yang tidak cocok ekstensinya dengan sistem akan diganti terlebih dahulu ke ekstensi .wav. Tujuannya digantinya ekstensi audio dari m4a ke wav adalah untuk meningkatkan kualitas audio dikarenakan untuk ekstensi m4a kurang baik akibat dari record default smartphone pada saat proses input. Maka dari itu ekstensi yang digunakan adalah wav karena dianggap baik untuk permasalahan kualitas audio data.

for (path_dir, nama_dir, nama_file) in os.walk("file/"):

for info_file in nama_file:

IF filename.endswith(tuple(formats_to_convert)):

ENDFOR

File_path <- path_dir + '/' + name_file

(path, ekstensi_file) <- os_path.split_text(filepath)

Ekstensi_file_final <- ganti_ekstensi_file('.', '')

try:

track <- AudioSegment.from_file(filepath, Ekstensi_file_final)

wav_filename <-

filename.replace(Ekstensi_file_final, 'wav')

wav_path <- path_dir + '/' + wav_filename OUTPUT 'CONVERTING: ' + str(filepath)

file_handle <- track.export(wav_path, format='wav')

os.remove(filepath) except:

OUTPUT "ERROR CONVERTING " + str(filepath) ENDIF

ENDFOR

(36)

25

Berdasarkan pseudocode diatas, pertama dilakukannya pemilihan tempat file yang akan dilakukan proses converting. Setelah didapatkannya tempat file yang dimaksud, sistem akan melakukan analisis terhadap file tersebut apakah sudah sesuai dengan ekstensi yang diinginkan. Jika sesuai maka sistem tidak akan melakukan proses converting dan jika tidak sesuai maka sistem melakukan proses tersebut dan disimpan sesuai dengan tempat file yang dimaksud tersebut. File dengan ektensi final (.wav) akan di proses pada tingkatan berikutnya.

3.4.3 Data downsampling

Setelah file audio sudah dalam ekstensi .wav, dilanjutkan proses berikutnya yaitu proses Data Downsampling. Di dalam pemrosesan sinyal audio, diperlukan adanya pengambilan sampel sebab akan terjadi pengurangan sinyal kontinyu ke dalam serangkaian nilai diskrit. Sampling rate atau biasa yang disebut laju sampling adalah jumlah sampel yang diambil selama beberapa waktu tetap. Jika frekuensi sampling tinggi, maka akan menghasilkan hilangnya noice lebih sedikit dan sebaliknya jika frekuensi sampling rendah maka akan menghasilkan hilangnya noice lebih banyak.

Dengan itu gelombang suara di digitalkan dengan adanya interval diskrit yang dikenal sebagai sampling rate dengan tujuan untuk memberikan kualitas audio yang bisa dijalankan di sistem sekaligus reduce noice yang ada. Proses downsampling data dilakukan ketika audio sudah di analisis terlebih dahulu dan sudah dengan ekstensi .wav agar nantinya dapat memudahkan sistem untuk memproses ke tingkatan berikutnya.

Hasil tingkatan ini berupa file audio dengan rentang sampel sebesar 8000 Hz dan resolusi 16 bit untuk digunakan dalam sistem pembuatan speech corpus.

3.4.4 Data Labeling

Setelah dilakukannya penyesuaian sampel pada tingkatan sebelumnya, maka dilanjutkan ke tingkat Data Labeling. Data Labeling merupakan tingkat dimana audio diberikan identifikasi oleh sistem untuk dapat dibaca sebagai data yang di inginkan.

Pemberian label audio pada proses ini dilakukan dengan dua fase yang berbeda.

Pertama, fase pemberian label pada audio sebagai judul dilakukan secara manual dengan memilih satu per satu file audio yang akan didengarkan lalu di buat label berdasarkan isi file tersebut. Kedua, fase pemberian label audio dilakukan setelah proses penyesuaian sample rate.

(37)

Kemudian audio diidentifikasi sekaligus diberikan informasi secara satu per satu agar sistem dapat membaca bahwa data tersebut sudah diberikan informasi berupa label atau judul yang telah terbuat. Tujuan utama dilakukannya tingkatan ini adalah untuk mempermudah sistem mencari sekaligus melihat data mana yang akan di proses sesuai dengan keinginan dari pengguna sistem. Berikut adalah pseudocode dari tingkatan Data Labeling.

Berdasarkan psedocode diatas, yang dilakukan dalam tingkat labeling adalah dengan mengambil semua data yang di inginkan dan kemudian memberikan bentuk data pada data tersebut. Lalu data tersebut akan dilakukan pelabelan otomatis dari sistem dengan input sebagai integer yang tujuan untuk memudahkan sistem dalam mengidentifikasi data yang akan digunakan sesuai dengan jumlah data yang di inginkan pula.

Gambar 3.4. Hasil dari proses labeling 3.4.5 Data Filter

Setelah tingkatan labeling selesai dilaksanakan, sistem melanjutkan ke proses selanjutnya yaitu tingkatan Data Filter. Data filter merupakan proses penyaringan data audio berdasarkan frekuensi masing masing audio baik frekuensi tinggi maupun rendah.

Untuk menemukan puncak frekuensi pada saat filterasi, teknik yang disebut Short Time Fourier Transform (STFT) digunakan.

Semua_label_audio <- np.zeros(data_label.shape[0]) for a, b in enumerate(set(labels)):

semua_label_audio[np.array([f for f, _ in enumerate(labels) IF _ = l[

ENDIF ENDFOR

OUTPUT 'Labels AND label indices', all_labels]

(38)

27

Penerapan pengembangan FFT ini diterapkan pada potongan data input untuk mengontrol jumlah resolusi frekuensi yang tersedia. Sementara overlap dalam proses windowing memungkinkan untuk mengontrol resolusi waktu dengan peningkatan ukuran data. Kemudian sistem melanjutkan proses dengan pendeteksian puncak yang diterapkan pada setiap frame FFT dari setiap file data. Lalu, detektor puncak setiap frame melakukan pekerjaan yang dapat diterima dalam mendeteksi puncak, meskipun tidak berarti sempurna.

Salah satu faktor pembatas di sini adalah panjang FFT, detektor puncak mencari lebih dari beberapa potongan sampel yang sangat besar ketika ukuran FFT hanya 64 bin. Maka dari itu, ketika ukuran FFT yang lebih panjang akan tampak lebih buruk, bahkan dengan overlap yang lebih tinggi dalam mempertahankan resolusi waktu yang sama. Hasil dari proses Data Filter ini berupa data audio yang telah terpilih oleh sistem berdasarkan tingkat puncak frekuensi dari rata rata audio yang digunakan dan di representasikan seperti gambar plot 3.4.

Gambar 3.5. Hasil detektor puncak berdasarkan frekuensi dengan FFT

(39)

3.4.6 Data Extraction

Setelah semua tingkatan dari proses sebelumnya terlaksanakan, maka masuk kedalam tingkatan terakhir dari pra-proses yaitu tingkat Data Extraction dimana tingkat untuk ekstraksi fitur data audio yang telah di filter akan dilakukan dengan menggunakan teknik STFT juga.

Seperti yang telah dipaparkan pada bagian 2.5 pada Bab 2, untuk melakukan ekstraksi data audio, STFT memerlukan ketentuan nilai standar audio manusia dan berapa banyak lompatan dimensi audio atau disebut sebagai hop dari data input.

Penelitian yang telah dilakukan oleh Mahdi (2008) dengan judul Frequency analyses of human voice using fast Fourier transform menjelaskan bahwa untuk mendapatkan nilai FFT dan hop berdasarkan pada data audio yang digunakan. Peneliti mengemukakan untuk kondisi audio tersebut, diperlukan FFT sebesar 512 dan hop sebanyak 0.5 lompatan pada percobaan kejernihan audio akan noise gema dan percakapan pengganggu lainnya. STFT sendiri dapat dihitung berdasarkan Persamaan 2.3 dimana data array pada setiap audio, dihitung per kolomnya. Untuk mendapatkan nilai STFT terlebih dahulu mencari nilai fungsi jendela hanning sebagaimana dijelaskan pada Persamaan 2.4.

Gambar 3.6. Contoh perhitungan Nilai Hanning

Berdasarkan pada Gambar 3.6, nilai fungsi jendela hanning pada kolom 0 didapatkan berdasarkan nilai sudut sin2 dengan sudut π yaitu 3,14 dikalikan dengan posisi kolom yang akan dihitung kemudian dibagi dengan nilai FFT yang sudah

Nilai hanning(n) = sin²(^πn

FFT) Nilai hanning (0) = sin²(^π∗0

512) Nilai hanning (0) = 0

(40)

29

ditentukan yaitu 512. Hasil nilai hanning tersebut digunakan pada STFT sebagaimana diberlakukan pada Gambar 3.7.

Gambar 3.7. Contoh Perhitungan STFT

Untuk prosesnya pertama, sistem akan melakukan review hasil dari proses filterasi, lalu sistem akan mengekstraksi data tersebut sebanyak data yang ada dengan membagi menjadi 10 bagian. Hasil dari proses ini berupa beberapa array yang berasal dari beberapa data. Kemudian hasil dari tingkatan ini akan dipakai pada tingkat berikutnya yaitu modeling dengan tujuan agar hasil dari model yang dibuat pada tingkat selanjutnya menjadi akurat dan konsisten dari hasil ekstraksi informasi.

Gambar 3.8 Potongan array hasil proses Data Extraction 3.5. Process

Pada tingkat proses dalam membangun sistem pembangkitan speech corpus, digunakan sebuah metode yang disebut Hidden Markov Model (HMM). Metode HMM digunakan dalam proses ini dengan maksud untuk mengambil hasil model yang baik dengan kombinasi metode Gaussian Mixture Model yang memiliki sub-proses dimulai dari data modelling dan berakhir pada tingkatan akurasi. Hasil dari tingkatan akurasi ini akan dijadikan pedoman dalam pembuatan sistem speech corpus.

STFT = ∑^{n= ∞}_n=−∞ x[n]w[n − m]e ^−jωn STFT = 5.671 * (w[0.5] ) * 1

STFT = 5.671 STFT = 5.3377*10^-15

(41)

3.5.1. Data Modelling

Tingkatan pertama dari proses yang akan dilakukan adalah Data Modelling. Data Modelling merupakan tingkat dimana semua data audio yang telah di lakukan ekstraksi informasinya di modelkan sesuai dengan metode Hidden Markov Model yang sudah dikombinasikan dengan metode Gaussian Mixture Model.

Untuk pemodelannya dimisalkan dalam contoh yang akan dijelaskan. Dalam satu model keterangan kata dapat dimodelkan kedalam 3 status yaitu ahu(1), ho(2), dan nasida (3). Aturan pada setiap probabilitas dari setiap transisi status di deskripsikan sebagai berikut :

𝐴 = {𝑎_𝑖𝑗} =

0.4 0.3 0.3 0.2 0.6 0.2 0.1 0.1 0.8

Kemudian probabilitas untuk kata yang teramal secara berurut yaitu “nasida- nasida-nasida-ahu-ahu-nasida-ho-nasida”.

Dengan O adalah tahap pengamatan dimana :

O = {nasida, nasida, nasida, ahu, ahu, nasida, ho, nasida} = {3, 3 ,3 ,1 ,1 ,3 ,2 ,3}. Maka pemodelan peluangnya dalam Markov Model adalah

P(O|Model) = P[3,3,3,1,1,3,2,3|Model]

= P[3] P[3|3]²P[1|3] P[1|1] P[3|1] P[2|3] P[3|2]

= Π3 . (a33)²a31 a11 a13 a32 a23

= (1.0)(0.8)²(0.1)(0.4)(0.3)(0.1)(0.2)

= 1.536 x 10^-4

Untuk proses pemodelannya, pertama akan dilakukan pembuatan kombinasi kedua metode tersebut kedalam satu class khusus, lalu semua data audio dijadikan model dengan berisikan array sesuai dengan label yang sudah dibentuk sebelumnya.

Model yang dibentuk berupa model dengan format model subjek, predikat, dan objek guna untuk memudahkan implementasi model dalam sebuah sistem. Kemudian hasil model disimpan sementara dalam array kosong yang telah dibuat sebelumnya. Hasil model yang telah disimpan dapat digunakan pada tingkatan selanjutnya untuk dilakukannya pelatihan terhadap model tersebut.

(42)

31

Tujuan dilakukannya Data Modelling ini adalah untuk meyakinkan bahwa semua data yang telah dilakukan pra-proses disimpan dalam satu model yang nantinya dapat dengan mudah digunakan dengan cara load model tanpa harus melakukan kembali runtutan pra-proses yang telah dilakukan sebelumnya. Berikut adalah pseudocode dari Data modelling.

Berdasarkan pseudocode diatas dijelaskan bahwa pembuatan model berasal dari class gmmhmm yang kemudian model tersebut di inisiasikan untuk keperluan proses sampling. Hasil model tersebut ditunjukkan dalam gambar 3.6.

Gambar 3.9. Hasil pemodelan data

3.5.2 Data Sampling

Setelah data audio sudah dimodelkan, proses yang dilakukan berikutnya adalah Data Sampling. Data Sampling adalah tingkat untuk melakukan pengambilan sampel dari model yang telah dibuat untuk dilakukannya pelatihan data. Pelatihan data audio dilakukan dengan menggunakan parameter dari hasil labelling dan hasil ekstraksi data pada model berdasarkan audio pada tingkat input sebelumnya. Akan tetapi pada tingkatan ini, audio ditambahkan 4 variasi data lagi dengan tujuan untuk mendapatkan hasil akurasi nantinya secara maksimal pada tingkatan akhir proses.

model <- [gmm_hmm(2) for i in y_model]

ENDFOR

model <- [model.fit(X_train[y_train = i, :, :]) for k, i in zip(model, y_model)]

ENDFOR OUTPUT "Bentuk model: ",model

(43)

Gambar 3.10 Proses pelatihan data

Kemudian kedua parameter tadi diberikan hasil ukuran pelatihan berdasarkan jumlah data yang digunakan dan ketetapan batas ukuran percobaan yang dilakukan.

Kedua hasil tersebut nantinya dapat digunakan untuk melakukan probabilitas data pada tingkatan selanjutnya. Pelatihan data tersebut memiliki tujuan agar model yang telah dibuat pada proses sebelumnya dapat dikatakan baik untuk digunakan dalam proses ini maupun penelitian lainnya. Berikut ini adalah pseudocode dari tahapan data sampling.

Sss <- StratifiedShuffleSplit(n_splits=jumlah+1, size_test

=0.1, state_random =0)

sss.get_s_splits(semua_objek, semua_label) OUTPUT "Untuk n_splits <- ",jumlah+1

for t,e in enumerate(semua_objek):

semua_objek [n] /= semua_objek[n].sum(axis=0) ENDFOR

for train_index, test_index in sss.split(semua_objek, semua_label):

X_train, X_test <- semua_objek[index_train, ...], semua_objek[test_index, ...]

y_train, y_test <- semua_label[index_train], semua_label[index_test]

ENDFOR

OUTPUT ‘ukuran data training matrix:', X_train.shape

OUTPUT ‘ukuran data testing matrix:', X_test.shape Universitas Sumatera Utara