• Tidak ada hasil yang ditemukan

Penerapan mel-frequency cepstrum coefficients (mfcc) sebagai ekstraksi ciri pada transkripsi suara ke teks dengan self organizing maps (som)

N/A
N/A
Protected

Academic year: 2017

Membagikan "Penerapan mel-frequency cepstrum coefficients (mfcc) sebagai ekstraksi ciri pada transkripsi suara ke teks dengan self organizing maps (som)"

Copied!
30
0
0

Teks penuh

(1)

PENERAPAN

MEL-FREQUENCY CEPSTRUM COEFFICIENTS

(MFCC) SEBAGAI EKSTRAKSI CIRI PADA

TRANSKRIPSI SUARA KE TEKS DENGAN

SELF ORGANIZING MAPS

(SOM)

TINO AKBAR

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai Ekstraksi Ciri pada Transkripsi Suara ke Teks dengan Self Organizing Maps (SOM) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Februari 2014

Tino Akbar

(4)

ABSTRAK

TINO AKBAR. Penerapan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai Ekstraksi Ciri pada Transkripsi Suara ke Teks dengan Self Organizing Maps (SOM). Dibimbing oleh AGUS BUONO.

Transkripsi suara ke teks adalah suatu teknik yang memungkinkan sebuah komputer untuk menerima input berupa kata yang diucapkan dan ditranskripsikan ke dalam sebuah teks. Tujuan penelitian ini adalah mengembangkan suatu sistem transkripsi suara ke teks dengan ekstraksi ciri MFCC dan pemodelan jaringan syaraf tiruan Self Organizing Maps (SOM). Data yang digunakan adalah data suara yang telah direkam dari satu pembicara yang mengucapkan 15 kata untuk data latih dan 5 kata untuk data uji. Masing-masing kata diulang hingga mencapai 240 data latih dan 50 data uji. Kemudian ciri data suara diekstraksi dengan sampling rate 11000 Hz, time frame 23.27 ms, overlap 0.39 ms, dan koefisien

cepstral 13 untuk mendapatkan karakteristik dari sinyal suara dalam setiap frame. Percobaan dilakukan dengan mengenali tiap suku kata yang ada pada data uji. Hasil menunjukkan bahwa akurasi tertinggi yang diperoleh sebesar 95% pada kombinasi parameter epoch 10, 30, 50, 70, 90 dan 110, learning rate sebesar 0.5, penurunan learning rate 0.999, dan radius 0.

Kata kunci: ekstraksi fitur, Mel-Frequency Cepstrum Coefficients (MFCC), Self Organizing Map, pembicara tunggal, transkripsi

ABSTRACT

TINO AKBAR. Application of Mel-Frequency Cepstrum Coefficients (MFCC) for Extraction Feature in Voice Transcription to Text Using Self Organizing Map (SOM). Supervised by AGUS BUONO.

Transcripting voice to the text is a technique that enables a computer to receive spoken words as input. The purpose of this experiment is to develop a voice to text transcription system by extracting the characteristics of MFCC and artificial neural network of Self Organizing Maps (SOM). The data used are recorded from one speaker who pronounced is words 15 for training data and 5 words for testing data. In total, training and testing data consisted of 240 and 50 data respectively. Then the voice data are extracted with a sampling rate of 11000 Hz, 23.27 ms, 0.39 ms and a cepstral coefficient of 13 to obtain the characteristics of the speech signal in each frame. The experiment is conducted by identifying every syllable found in the experiment data. The highest accuration is 95% at epochs 10, 30, 50, 70, 90 and 110 with a learning rate of 0.5, a learning reduction rate of 0.999, and a radius of 0.

(5)

Penguji:

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

Departemen Ilmu Komputer

PENERAPAN

MEL-FREQUENCY CEPSTRUM COEFFICIENTS

(MFCC) SEBAGAI EKSTRAKSI CIRI PADA

TRANSKRIPSI SUARA KE TEKS DENGAN

SELF ORGANIZING MAPS

(SOM)

TINO AKBAR

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

Penguji:

(7)

Judul Skripsi : Penerapan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai Ekstraksi Ciri pada Transkripsi Suara ke Teks dengan Self

Organizing Maps (SOM) Nama : Tino Akbar

NIM : G64114024

Disetujui oleh

Dr Ir Agus Buono, MSi MKom Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul Penerapan Mel-Frequency Cepstrum Coefficient (MFCC) sebagai Ekstraksi Ciri pada Transkripsi Suara ke Teks dengan Self Organizing Maps

(SOM).

Terima kasih penulis ucapkan kepada:

1 Keluarga tercinta yaitu Almarhum Ayahanda Soewery Syukri, Ibunda Wahyuningsih, Kakak Nadya Tamara, Hiko Rizky dan kekasih Nur Iqlima atas doa dan dukungannya.

2 Dosen pembimbing, Bapak Dr Ir Agus Buono, MSi MKom atas saran dan bimbingannya selama penelitian berlangsung.

3 Dosen penguji, Bapak Toto Haryanto, SKom MSi dan Ibu Karlisa Priananda, ST MEng selaku penguji.

4 Teman-teman satu bimbingan, Aren atas bantuannya, Ima dan teman-teman ILKOM 6 dan seluruh pihak yang membantu dalam penyelesaian penelitian ini.

Semoga karya ilmiah ini bermanfaat bagi mahasiswa Ilmu Komputer dan pembacanya.

Bogor, Februari 2014

(9)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 1

Manfaat Penelitian 2

Ruang Lingkup Penelitian 2

METODE 2

Pengumpulan Data 3

Normalisasi 3

Segmentasi 3

Ekstraksi Ciri Menggunakan MFCC 5

Penentuan Data Latih dan Data Uji 6

Pemodelan Self Organizing Maps (SOM) 7

Pengujian 8

Perhitungan Nilai Akurasi 8

Sensitivity dan Specificity 8

Lingkungan Pengembangan 9

HASIL DAN PEMBAHASAN 9

Pengumpulan Data 9

Ekstraksi Ciri dengan MFCC 9

Pemodelan Self Organizing Maps (SOM) 10

Percobaan Menggunakan Kombinasi Parameter SOM 10

SIMPULAN DAN SARAN 13

Simpulan 13

Saran 13

DAFTAR PUSTAKA 14

(10)

DAFTAR TABEL

1 Data latih dalam penelitian 3

2 Jumlah data latih dan bobot 6

3 Jumlah data uji 7

4 Hasil percobaan SOM dengan radius 0 dan penurunan learning rate

0.999 11

5 Hasil percobaan SOM dengan radius 1 dan penurunan learning rate

0.999 11

DAFTAR GAMBAR

1 Diagram alur penelitian proses transkripsi suara ke teks 4

2 Contoh segmentasi kata 'Hama' 4

3 Alur blok diagram MFCC 5

4 Kohonen Self Organizing Maps 7

5 Grafik hasil percobaan SOM 12

6 Grafik performance sensitivity dan specificity pada transkripsi suara

ke teks 12

DAFTAR LAMPIRAN

1 Pengulangan data uji 15

2 Hasil percobaan sistem transkripsi suara ke teks 15

3 Klusterisasi data uji pada suku pertama 16

4 Perhitungan awalan HA- pada kata HAMA 17

5 Perhitungan awalan MA- pada kata MAMA, MAHA dan MAMI 17

6 Perhitungan awalan MI pada kata MIMI 17

7 Perhitungan awalan ME pada kata MEMI 17

8 Klusterisasi data uji pada suku kedua 18

9 Perhitungan akhiran MA pada kata HAMA dan MAMA 18

10 Perhitungan akhiran HA pada kata MAHA 18

(11)

PENDAHULUAN

Latar Belakang

Suara adalah alat komunikasi yang digunakan antar manusia yang dilakukan saat bercakap-cakap. Perkembangan teknologi informasi semakin pesat dan dapat mempermudah pekerjaan manusia dalam kehidupan sehari-hari. Salah satu sistem otomatis adalah sistem yang membuat komputer dapat berkomunikasi dengan manusia. Pengenalan sebuah kata atau kalimat bukanlah hal yang sulit dilakukan oleh manusia karena kata atau kalimat yang digunakan sehari-hari sudah sering digunakan dalam kehidupan nyata. Selain sebagai alat komunikasi antar manusia, suara juga memiliki fungsi lain sebagai alat komunikasi dengan komputer (mesin). Salah satu contoh penerapan aplikasi yang telah menerapkan suara pada konversi suara digital sebagai alat komunikasi adalah menerapkan suara kepada mesin atau robot dalam bentuk perintah.

Penelitian ini memfokuskan pada transkripsi suara ke teks dalam bahasa Indonesia. Transkripsi suara ke teks adalah suatu teknik yang memungkinkan sebuah komputer untuk menerima input berupa kata yang diucapkan dan ditranskripsikan ke dalam sebuah teks. Untuk ekstraksi ciri dan pengenalan pola digunakan Mel Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri dengan Self Organizing Maps (SOM).

Penelitian terkait sebelumnya menggunakan ekstraksi ciri Mel Frequency Cepstrum Coefficients (MFCC) dan pengenalan pola dengan Self Organizing Maps (SOM) pada penelitian berjudul Pengenalan Suara Nyanyian untuk Deteksi Lagu, hasil yang dicapai sistem untuk dapat mengenali suara nyanyian dengan tingkat akurasi yang didapatkan sebesar 99.6% (Pandu 2012). Pada penelitian terkait lainnya dengan membandingkan Wavelet dan MFCC sebagai ekstraksi ciri pada proses pengenalan fonem, penggunaan metode Wavelet Daubechies sebagai ekstraksi ciri pada pengenalan pola tidak lebih baik dari metode MFCC. Untuk

Wavelet Daubechies mempunyai tingkat akurasi 36% sedangkan MFCC mencapai tingkat akurasi 100% (Taufani 2011). MFCC merupakan ekstraksi fitur yang umum digunakan pada pengolahan suara dan pengenalan pembicara (Buono et al

2011). Maka dari itu, penelitian ini akan mengimplementasikan MFCC sebagai ekstraksi ciri dengan Self Organizing Maps (SOM) pada transkripsi suara ke teks.

Tujuan Penelitian

Tujuan penelitian ini adalah:

1 Memodelkan jaringan syaraf tiruan yaitu Self Organizing Maps (SOM) untuk transkripsi suara ke teks.

(12)

2

Manfaat Penelitian

Penelitian ini dilakukan untuk memberikan informasi nilai akurasi dan mengetahui kinerja dari pemodelan dengan metode menggunakan jaringan syaraf tiruan Self Organizing Maps (SOM) dengan ekstraksi ciri MFCC dalam transkripsi suara ke teks.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah:

1 Kata-kata yang digunakan adalah kata dalam bahasa Indonesia 2 Jumlah pembicara dalam penelitian ini adalah satu

3 Kata acuan yang digunakan adalah MEMAHAMI

4 Kata yang dapat dikenali adalah potongan tiap suku kata pada kata acuan MEMAHAMI

5 Jumlah suku kata acuan ada empat yaitu ME-, MA-, HA- dan MI-. 6 Kata yang diujikan adalah hama, mama, maha, mimi dan mami

7 Jumlah suku kata yang digunakan pada perulangan suku kata pada kata acuan untuk penelitian ini adalah dua suku kata

8 Masing-masing 15 kata dari suku kata pada kata acuan ME-, MA-, HA- dan MI- yang digunakan untuk data latih dan bobot adalah sebagai berikut :

• 15 kata berawalan me- adalah megah, mekar, mekah, melar, melas, menang, menit, merak, mesin, mesir, melit, mecut, meluk, meram dan metik

• 15 kata berawalan ma- adalah mabuk, mahar, malas, majas, makam, makan, mama, mari, malang, main, marah, masuk, maling, malam dan manis

• 15 kata berawalan ha- adalah hama, halo, haji, hadir, hadis, hakim, halus, hati, hawa, hafal, hapus, harap, hadap, hari dan hasil

• 15 kata berawalan mi- adalah mika, mikir, milan, mili, mi lik, mimik, minat, minor, minum, minus, mirah, miring, mirip, misal dan mitos

METODE

Penelitian ini dilakukan dengan beberapa tahapan, yaitu pengumpulan data, normalisasi, segmentasi, ekstraksi ciri dan pengenalan pola. Penelitian ini dilakukan dengan mengambil data suara dari satu orang dengan mengucapkan 15 kata berbeda dengan pengulangan sebanyak 4 kali untuk data latih dan bobot dan mengucapkan 5 kata dengan pengulangan sebanyak 10 kali untuk data uji. Bagian

(13)

3 Pengumpulan Data

Penelitian ini akan menggunakan data yang telah didigitalisasi dan direkam dari satu orang pembicara yang mengucapkan 15 kata dengan pengulangan sebanyak 4 kali dan mengucapkan 5 kata dengan pengulangan sebanyak 10 kali. Setiap suara direkam dengan rentang waktu 5 detik dengan sampling rate 11000 Hz dalam bentuk berekstensi WAV sehingga data yang dikumpulkan sebanyak 290 data suara. Hasil rekaman sebanyak 236 data suara dijadikan data latih, 4 data suara dijadikan data bobot dan 50 data suara dijadikan data uji. Kata yang digunakan untuk data latih dalam penelitian ini dapat dilihat pada Tabel 1.

Tabel 1 Data latih dalam penelitian

Awalan Me- Awalan Ma- Awalan Ha- Awalan Mi-

Normalisasi dilakukan dengan membagi nilai setiap frekuensi sinyal dengan

absolute maksimum dari sebuah frekuensi sinyal suara. Tujuan normalisasi untuk menghasilkan amplitude maksimum dan minimum yang normal yaitu satu dan

minus satu sehingga dapat menormalkan tingkat kekerasan suara. Segmentasi

(14)

4

Mulai

Pengumpulan Data Suara (290 Data

Suara)

Normalisasi

Segmentasi

MFCC

Data

Latih Data Uji

SOM

Hasil Pembobotan

Pengajuan Model SOM

Analisis Akurasi

Selesai

Gambar 1 Diagram alur penelitian proses transkripsi suara ke teks

HAMA HA-MA

(15)

5 Ekstraksi Ciri Menggunakan MFCC

Tujuan ekstraksi ciri untuk mereduksi ukuran data suara tanpa mengubah karakteristik dari sinyal suara dalam setiap frame yang dapat digunakan sebagai penciri serta digunakan pada berbagai bidang pemrosesan suara, karena dianggap cukup baik dalam merepresentasikan ciri sebuah sinyal (Buono 2009). Ciri yang digunakan adalah koefisien Cepstral dengan mempertimbangkan pendengaran manusia. Gambar 3 menampilkan tahapan MFCC sebagai berikut (Do 1994):

1 Frame Blocking

Pada tahap ini dilakukan segmentasi frame dengan lebar tertentu yang saling

overlapping frame. Tiap hasil frame direpresentasikan dalam sebuah vektor. Agar tidak kehilangan informasi (Do 1994).

2 Windowing

Merupakan salah satu jenis filtering frame dengan mengalikan frame dengan

window yang digunakan. Windowing dilakukan untuk meminimalkan

diskontinuitas (non-summary) sinyal pada bagian awal dan akhir sinyal suara. Penelitian suara banyak menggunakan Window Hamming karena kesederhanaan formulanya dan nilai kerja window. Persamaan Window Hamming dapat dituliskan sebagai berikut (Do 1994):

w(n)=0.54-0.46cos2πn

N-1� (1) Keterangan :

n = 0,…,N-1

3 Fast Fourier Transform (FFT)

FFT merupakan algoritme yang mengimplementasikan discrete fouries transform (DFT). DFT adalah mengubah tiap frame dari domain waktu ke domain

frekuensi yang didefinisikan pada persamaan berikut (Do 1994) :

Xk=N-n=10Xne-jkn/N , k=0,1,2,…,N-1 (2)

Keterangan :

Xk = magnitude frekuensi

Gambar 3 Alur blok diagram MFCC

Frame Windowing FFT

(16)

6

Xn = nilai sampel yang akan diproses , k = N/2 + 1

N = jumlah data , j = bilangan imajiner

4 Mel-Frequency Wrapping

Persepsi sistem pendengaran manusia terhadap sinyal suara ternyata tidak hanya bersifat linear (Buono 2009). Penerimaan sinyal suara untuk frekuensi rendah di bawah 1000 bersifat linear, sedangkan frekuensi tinggi di atas 1000 bersifat logaritmik. Skala inilah yang disebut skala mel-frequency berupa filter. Persamaan berikut dapat digunakan untuk perhitungan mel-frequency dalam frekuensi Hz (Buono 2009):

Fmel=� 2595* log10 �1+

Cepstrum merupakan hasil mel-frequency yang diubah menjadi domain waktu menggunakan discrete cosine transform (DCT). Berikut persamaannya (Buono 2009) :

Penentuan Data Latih dan Data Uji

Pada tahap ini, dilakukan pembagian data latih dan data uji. Pembagian masing-masing data tersebut adalah 236 untuk data latih, 50 untuk data uji dan 4 untuk bobot. Kemudian, data latih yang sudah dipilih akan dilakukan tahap pemodelan Self Organizing Maps (SOM) sebagai vektor input dan data bobot untuk bobot awal. Lebih detail banyaknya data latih dan data uji untuk masing-masing suku kata dapat dilihat pada Tabel 2 dan Tabel 3.

Tabel 2 Jumlah data latih dan bobot Suku kata Banyaknya kata

direkam

Suku kata yang

diambil Pengulangan Jumlah

Me- 15 kata 15 suku kata me- 4 kali 60

Ma- 15 kata 15 suku kata ma- 4 kali 60

Ha- 15 kata 15 suku kata ha- 4 kali 60

Mi- 15 kata 15 suku kata mi- 4 kali 60

(17)

7 Tabel 3 Jumlah data uji

Kata Banyaknya kata direkam

Suku kata yang

diambil Pengulangan Jumlah

Hama 1 kata ha- dan ma- 10 kali 10

Mama 1 kata ma- dan ma- 10 kali 10

Maha 1 kata ma- dan ha- 10 kali 10

Mimi 1 kata mi- dan mi- 10 kali 10

Mami 1 Kata ma- dan mi- 10 kali 10

Memi 1 Kata me dan mi- 10 kali 10

Tabel 3 menunjukkan jumlah data uji dan kata yang digunakan pada penelitian transkripsi suara ke teks. Total data uji yang digunakan sebanyak 50, dari banyaknya lima kata yang direkam dengan pengulangan 10 kali.

Pemodelan Self Organizing Maps (SOM)

Self Organizing Maps atau juga disebut topology preserving adalah topologi antara unit kluster. Metode ini merupakan salah satu model jaringan syaraf tiruan. Bobot vektor untuk tiap unit kluster berfungsi sebagai contoh dari input pola yang terkait dengan unit kluster tersebut. Selama proses pengenalan pola Self Organizing Maps, akan dipilih satu kluster sebagai winner dan kluster winner

serta kluster tetangganya akan memperbaharui bobot kluster. Kluster winner

ditentukan berdasarkan jarak minimal atau jarak terdekat dari bobotnya. Arsitektur dan model SOM dapat dilihat pada Gambar 4 (Fausett 1994).

Jika:

��� = Bobot yang diambil dari data suara per suku kata

��� = Vektor input dari data suara

R = Mengatur jarak topologi sekitarnya pada transkripsi suara ke teks yaitu 0,1 dan 2

(18)

8

D(j) = Perhitungan vektor masukan dan bobot yang sudah ditentukan

J = Vektor input terdekat yang akan diambil (minimum)

���(����) = Bobot pemenang yang diperoleh pada saat pelatihan akan

diperbaharui

Maka algoritme pengelompokkan pola jaringan SOM adalah sebagai berikut (Fausett 1994):

0 Inisialisasi

• Bobot ��� (Acak)

• Laju pembelajaran awal dan faktor penurunannya. • Bentuk dan jari-jari (=R) topologi sekitarnya.

1 Selama kondisi penghentian bernilai salah, lakukan langkah 2-7 2 Untuk setiap vektor masukan x, lakukan langkah 3-5

3 Hitung jarak Euclidean untuk semua j :

D(j) = ∑(��� − ���)2 (5) 4 Tentukan indeks J sedemikian hingga D(J)minimum

5 Untuk setiap unit j di sekitar J modifikasi bobot :

���(����) =���(����) + �(�� − ���(����) (6)

6 Modifikasi laju pembelajaran (learning rate) 7 Uji kondisi penghentian

Pengujian

Pengujian dilakukan pada data uji yang telah dinormalisasi dan disegmentasi lalu diekstraksi ciri dengan MFCC kemudian di-cluster dengan SOM menggunakan bobot dari data latih. Pengenalan kata untuk transkripsi suara ke teks suara yang masuk akan dilihat masuk ke kluster yang sesuai. Output yang akan dihasilkan berupa nilai akurasi yang didapat dan tulisan kata yang telah diucapkan.

Perhitungan Nilai Akurasi

Pengujian dilakukan pada data uji yang sudah disiapkan. Perhitungan dilakukan dengan membandingkan banyaknya hasil suku kata yang benar dengan suku kata yang diuji. Presentase tingkat akurasi akan dihitung dengan fungsi berikut :

Hasil=∑suku kata yang benar

∑suku kata yang diuji x 100% (7)

Sensitivity dan Specificity

Dari hasil pengujian yang dilakukan akan menghasilkan matriks konfusion yang selanjutnya akan diproses untuk menentukan nilai sensitivity dan specificity.

(19)

9

Sensitivity= Number of True Positive

Number of True Positive+Number of False Negative (8)

Specificity= Number of True Negative

Number of True Negative+Number of False Positive (9)

Keterangan :

True Positive = Correctly Identified (diidentifikasi dengan benar) • False Positive = Incorrectly Identified (salah diidentifikasi) • True Negative = Correctly Rejected (ditolak dengan benar ) • False Negative = Incorrectly Rejected (salah ditolak )

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam penelitian ini adalah sebagai berikut :

1 Perangkat Keras

Processor Intel(R) CoreTM 2 Duo CPU @1.83GHz. • Memori 2.5GB.

Harddisk 100GB.

Keyboard dan Mouse Optic. • Monitor.

2 Perangkat Lunak

• Sistem operasi Windows 7 Ultimate 64 bit • Matlab 7.7.0 (R2008b).

HASIL DAN PEMBAHASAN

Pengumpulan Data

Data suara yang digunakan pada penelitian ini telah didigitalisasi dan direkam dari satu pembicara dengan mengucapkan kata sebanyak 15 kata untuk data latih dan 5 kata untuk data uji. Kata direkam dengan rentang waktu 5 detik dengan sampling rate 11000 Hz dalam bentuk file berekstensi WAV. Jumlah data suara untuk data latih dan bobot yang direkam adalah sebanyak 240 data suara dari empat suku kata acuan masing-masing suara sebanyak 15 data suara. Sebanyak 50 data suara yang direkam akan dijadikan data uji dari kata yang diujikan yaitu hama, mama, maha, mimi, mami dan memi.

Ekstraksi Ciri dengan MFCC

(20)

10

minus satu, sehingga dapat menormalkan tingkat kekerasan suara. Data yang telah dinormalisasi akan dilakukan tahap segmentasi yaitu memisahkan potongan suku kata yang telah direkam. Potongan suku kata nya hanya diambil suku kata pertama saja, suku kata terakhir tidak digunakan.

Kemudian data suara diekstraksi ciri menggunakan MFCC, time frame

yang digunakan sebesar 23.27, sampling rate 11000, overlap 0.39 serta koefisien

cepstral 13. Proses ekstraksi ciri ini dilakukan tehadap data latih, data uji dan bobot. MFCC mengubah sinyal suara ke dalam sebuah matriks yang berukuran jumlah koefisien yang digunakan dikali dengan banyaknya frame suara yang terbentuk. Matriks yang dihasilkan menunjukkan ciri spectral dari sinyal suara. Data suara yang dihasilkan dari proses MFCC memiliki jumlah frame yang berbeda-beda.

Pemodelan Self Organizing Maps (SOM)

Tahap pemodelan SOM menentukan nilai parameter yang digunakan seperti

epoch, learning rate, penurunan learning rate dan radius. Vektor masukan x diambil dari data latih dan bobot awal diambil dari data latih. Parameter awal dari algoritme SOM yang digunakan adalah :

Learning rate : 0.1, 0.3, 0.5, 0.7, dan 0.9 • Penurunan learning rate sebesar, 0.999 • Ukuran lingkungan (R) : 0,1, dan 2

Bobot awal yang diambil dari data latih digunakan untuk melatih dengan pemodelan SOM. Selama proses pelatihan data latih maka bobot akan selalu terupdate. Kriteria pemberhentian algoritme SOM dalam penelitian ini adalah iterasi (epoch) dengan banyak iterasi: 10, 30, 50, 70, 90 dan 110. Dari berbagai kombinasi parameter awal dan iterasi, akan dipilih kluster yang bobot vektornya sesuai dengan pola masukan dipilih sebagai kluster pemenang sebagai kluster terbaik dan kluster pemenang serta kluster tetanggannya akan memperbaharui bobot kluster.

Percobaan Menggunakan Kombinasi Parameter SOM

Pada tahap pengujian ini dilakukan kombinasi parameter agar memperoleh perbandingan akurasi yang terbaik mana yang akan diperoleh. Percobaan yang sudah dilakukan yaitu pada percobaan SOM dengan radius 0 dan 1 dilakukan kombinasi parameter dengan learning rate sebesar 0.1, 0.3, 0.5, 0.7, 0.9, 0.001, 0.003, 0.005, 0.007 dan 0.009, nilai epoch 10, 30, 50, 70 dan 90 dan penurunan

learning rate 0.999. Percobaan tersebut menghasilkan akurasi tertinggi sebesar 95% dengan nilai epoch 10, 30, 50, 70 dan 90, learning rate 0.5, penurunan

(21)

11 Tabel 4 Hasil percobaan SOM dengan radius 0 dan penurunan learning rate 0.999

Epoch Learning Rate

0.1 0.3 0.5 0.7 0.9 0.001 0.003 0.005 0.007 0.009 Tabel 4 menunjukan hasil keluaran transkripsi suara ke teks dengan akurasi terbaik yang didapatkan pada percobaan sebelumnya yang dilakukan yaitu sebesar 95% dengan epoch 10, 30, 50, 70 dan 90, learning rate 0.5, ralpha 0.999 dan radius berjarak 0.

Tabel 5 Hasil percobaan SOM dengan radius 1 dan penurunan learning rate 0.999

Epoch Learning Rate

0.1 0.3 0.5 0.7 0.9 0.001 0.003 0.005 0.007 0.009

Tabel 5 menunjukkan akurasi terendah sebesar 1% dengan nilai epoch 90,

learningrate 0.005, penurunan learningrate 0.999 dan radius berjarak 1. Gambar 5 menunjukkan grafik hasil akurasi dari beberapa percobaan kombinasi parameter dan Gambar 6 menunjukkan grafik performance sensitivity dan specificity pada transkripsi suara ke teks.

Pada Gambar 5 menunjukkan rata-rata hasil akurasi, transkripsi suara ke teks maksimum dan minimum memiliki akurasi yang paling baik yaitu 95% pada kombinasi parameter SOM radius berjarak 0. Dengan jarak radius bernilai nol menghasilkan akurasi terbaik tergantung dengan parameter yang dikombinasikan sehingga didapatkan akurasi tertinggi.

(22)

12

Gambar 5 Grafik hasil percobaan SOM

Pada Gambar 6 menunjukkan sensitivity dan specificity pada kombinasi parameter SOM tertinggi yaitu epoch 10, 30, 50, 70,90 dan 110, learningrate 0.5, penurunan learning rate 0.999 dan radius 0. Kelas Me menunjukkan specificity

dan sensitifity tertinggi yaitu 1, hal ini menunjukkan sensitifity data yang diidentifikasi masuk ke kelas Me adalah benar dan specificity tinggi untuk membedakan data yang bukan dari kelas Me dari semua data. Kelas Ha- menunjukkan sensitivity tertinggi sebesar 1. Hal ini menunjukkan sensitivity data yang diidentifikasi masuk ke kelas Ha adalah benar. Kemampuan kelas Ha kecil untuk membedakan data yang bukan dari kelas Ha dari semua data sehingga

specificity yang didapat kelas HA sebesar 0.95.

Gambar 6 Grafik performancesensitivity dan specificity pada transkripsi suara ke teks

0,1 0,3 0,5 0,7 0,9 0,001 0,003 0,005 0,007 0,009

Parameter SOM Radius 0 Parameter SOM Radius 1

(23)

13 Kelas Ma dan Mi menunjukkan sensitivity rendah yaitu sebesar 0.925 dan 0.98 ini menunjukkan kelas Ma- dan Mi- salah mengidentifikasi kelas lain sebagai kelasnya. Kemampuan kelas Ma dan Mi tinggi untuk membedakan data yang bukan dari kelas Ma dan Mi sehingga specificity yang didapatkan tinggi sebesar 1. Rata-rata pada suku kata dengan sensitivity dan specificity dapat dilihat di Lampiran 12.

SIMPULAN DAN SARAN

Simpulan

Penelitian ini telah berhasil dalam menerapkan Mel Frequency Cepstrum Coeffiicients (MFCC) dalam transkripsi suara ke teks dengan Self Oranizing Maps

(SOM). Dari kombinasi parameter yang dilakukan menghasilkan akurasi tertinggi yaitu 95% pada kombinasi parameter dengan epoch 10, 30, 50, 70 dan 90, learning rate 0.5, penurunan learning rate 0.999 dan radius berjarak 0. Dan menghasilkan akurasi tertinggi sebesar 64% pada kombinasi parameter epoch 10 dan 30, learning rate 0.9, ralpha 0.999 dan radius berjarak 1.

Berdasarkan hasil percobaan yang dilakukan, nilai epoch semakin kecil dengan kombinasi learning rate semakin besar dan radius berjarak nol akan menghasilkan akurasi yang lebih tinggi dibandingkan dengan nilai epoch yang semakin besar dengan kombinasi learning rate semakin kecil dan radius berjarak satu dan dua akan menghasilkan akurasi lebih rendah. Ini menunjukkan bahwa penentuan nilai parameter sangat berpengaruh dalam mendapatkan hasil akurasi yang terbaik.

Saran

Penelitian ini memungkinkan untuk dikembangkan lebih lanjut Saran untuk pengembangan selanjutnya ialah:

1 Jumlah kata yang lebih banyak agar memperoleh suku kata yang lebih variatif 2 Jumlah pembicara yang lebih banyak

3 Akurasi terbaik didapatkan pada penelitian transkripsi suara ke teks dengan

(24)

14

DAFTAR PUSTAKA

Buono A. 2009. Representasi Nilai HOS dan Model MFCC Sebagai Ekstraksi Ciri Pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM [Disertasi]. Depok (ID): Program Pascasarjana, Universitas Indonesia. Buono A, Jatmiko W, Kusumoputro B. 2011. Mel-frequency cepstrum

coefficients as higher order statistics representation to characterize speech signal for speaker identification system in noisy environment using hidden Markov model. Di dalam: Mwasiagi JI, editor. Self Organizing Maps - Applications and Novel Algorithm Design. Rijeka (HR): Intech. hlm 189-206. doi: 10.5772/566.

Do MN. 1994. DSP Mini Project: An Automatic Recognition System. Audio Visual Communication Laboratory. Swiss Federal Institute of Technology. http://www.ifp.illinois.edu/~minhdo/teaching/speaker_recognition/

Fausett L. 1994. Fundamentals Of Neural Networks: Architectures, Algorithms, and Applications. New Jersey (US): Prentice Hall.

Novianti FA, Purnami SW. 2012. Analisis Diagnosis Pasien Kanker Payudara Menggunakan Regresi Logistik dan Support Vector Machine (SVM) Berdasarkan Hasil Mamografi. Jurnal Sains dan Seni. 1(1):D-147-D-152.

Pandu RS. 2012. Pengenalan suara nyanyian deteksi lagu menggunakan jaringan syaraf tiruan Self Organizing Map (SOM) [skripsi]. Bandung (ID): Jurusan Teknik Telekomunikasi, Fakultas Elektro dan Komunikasi, Institut Teknologi Telkom.

(25)

15

Lampiran 1 Pengulangan data uji

Pengulangan Hama Mama Maha Mimi Mami Memi

Lampiran 2 Hasil percobaan sistem transkripsi suara ke teks

Nama File Hasil penggal kata Hasil Pengujian

(26)

16

Lampiran 3 Klusterisasi data uji pada suku pertama Suku Pertama Cluster 1

(27)

17 Lampiran 4 Perhitungan awalan HA- pada kata HAMA

HA BUKAN HA

Lampiran 5 Perhitungan awalan MA- pada kata MAMA, MAHA dan MAMI

MA BUKAN MA

Lampiran 6 Perhitungan awalan MI pada kata MIMI

MI BUKAN MI

Lampiran 7 Perhitungan awalan ME pada kata MEMI

(28)

18

Lampiran 8 Klusterisasi data uji pada suku kedua Suku Kedua Cluster 1

Lampiran 9 Perhitungan akhiran MA pada kata HAMA dan MAMA

MA BUKAN MA

Lampiran 10 Perhitungan akhiran HA pada kata MAHA

HA BUKAN HA

Lampiran 11 Perhitungan akhiran MI pada kata MIMI dan MAMI

(29)

19

= 0.96 = 1

Lampiran 12 Rata-rata pada suku kata dengan Sensitivity dan Specificity Sensitifity Specificity

HA 1 0.95

MA 0.925 1

MI 0.98 1

(30)

20

RIWAYAT HIDUP

Penulis dilahirkan pada tanggal 17 Desember 1990 di Balikpapan. Penulis merupakan anak ketiga dari tiga bersaudara.

Gambar

Tabel 1 Data latih dalam penelitian
Gambar 1 Diagram alur penelitian proses transkripsi suara ke teks
Gambar 3 Alur blok diagram MFCC
Tabel 2 Jumlah data latih dan bobot
+4

Referensi

Dokumen terkait

(1) Fasilitas bagi Ketua dan Anggota Dewan Jaminan sosial Nasional sebagaimana dimaksud dalam pasal 1 diberikan dalam bentuk biaya perjalanan dinas. (2) Biaya

Dalam transaksi efek di pasar reguler, tanggal timbulnya perikatan transaksi berbeda dengan tanggal penyelesaian transaksi. Risiko, manfaat dan potensi ekonomi timbul pada tanggal

menyegelnya. 4) Staf Administrasi Fakultas menyimpan berkas ujian yang telah disegel. 5) Ujian dilaksanakan oleh masing-masing dosen pengampu mata kuliah, pelaksanaan. ujian

Himpunan Peraturan Daerah Tahun 2014 46 ayat (1), pemegang IUP dapat menggunakan perusahaan jasa pertambangan lain yang berbadan hukum Indonesia. konsultasi, perencanaan,

5) Ujian susulan dilaksanakan paling lambat 1(satu) minggu setelah masa UAS berakhir. Waktu ujian susulan ditentukan oleh Dosen bersangkutan. 6) Naskah soal ujian susulan

Himpunan Peraturan Daerah Tahun 2014 128 Perubahan Fungsi Kawasan Hutan Seluas ± 10.878 (sepuluh ribu delapan ratus tujuh puluh delapan) Hektar dan Penunjukan Bukan

revisi dilakukan sesuai dengan saran / masukan dari dewan penguji. Berkas ujian skripsi diserahkan kepada Staf Akademik Fakultas. 7. Staf Akademik Fakultas merekap Berita Acara

[r]