• Tidak ada hasil yang ditemukan

ANALISIS DAN PERANCANGAN SISTEM

3.2. Arsiterktur Umum

Teknik yang penulis kemukakan untuk menginterpretasikan hasil speech corpus memiliki beberapa proses. Beberapa proses tersebut dapat diamati pada arsitektur umum yang ada dalam Gambar 3.1.

Universitas Sumatera Utara

21

Gambar 3.1. Arsitektur Umum

Sebagai ilustrasi dari arsitektur umum yang dijelaskan, pemisalannya adalah dengan menggunakan salah satu audio yang digunakan dalam pembuatan speech corpus seperti kata “indahan”. Kata tesebut pertama di input dalam sistem pemodelan kemudian di analisis terlebih dahulu informasi yang ada pada audio tersebut dengan menghasilkan plot berupa informasi berapa detik audio tersebut dan yang lainnya seperti yang diperlihatkan pada gambar 3.2. Kemudian jika audio “indahan” tersebut tidak sesuai dengan ketetapan sistem pemodelan yang dibuat, maka akan dilakukan converting data dan downsampling data audio tersebut. Setelah itu, Ketika semua data audio sudah sesuai, maka data audio tersebut di labelling sesuai dengan kata yang di referensikan dari kamus Bahasa Batak Toba pada kata “indahan”. Lalu setelah data audio “indahan” tersebut terlabel maka selanjutnya data audio tersebut di filter

Universitas Sumatera Utara

berdasarkan tinggi rendahnya frekuensi audio tersebut yang diperlihatkan pada gambar 3.2. dan langsung dilakukan ekstraksi fitur dari audio tersebut dengan menggunakan metode STFT yang menghasilkan array untuk keperluan pada tahap pemodelan.

Sesudah didapatkannya array hasil ekstraksi fitur dari data audio kata “indahan”, selanjutnya dilakukanlah pemodelan dari data audio tersebut yang menghasilkan model berupa model berformat pickle yang dapat digunakan. Isi dari model tersebut dapat dilihat pada gambar 3.2.

Gambar 3.2. Ilustrasi arsitektur umum pada satu data audio 3.3. Input

Dalam pembuatan speech corpus Batak Toba, terdapat input atau data masukan yang akan diolah berdasarkan referensi pada tabel 2.1. dalam bab sebelumnya. Input tersebut adalah audio bahasa Batak Toba yang diucapkan oleh 5 narasumber berjenis kelamin Wanita dengan rentang umur 20-22 tahun. Dipilihnya audio dengan jenis kelamin wanita karena intonasi dari pelafalan seorang Wanita sangat baik dan beragam hingga cocok untuk kesesuaian variatas data yang akan dibuat. Input dilakukan dengan mengucapkan sekaligus merekam audio Bahasa Batak per katanya berdasarkan kamus Bahasa Batak Toba (Sinaga, 2006) pada ruangan tertutup menggunakan microphone default smartphone yang didekatkan pada bibir narasumber tersebut dengan jarak 15 cm yang kemudian disimpan dalam ekstensi m4a.

Universitas Sumatera Utara

23

Kata yang diucapkan per narasumbernya sebanyak 3898 kata. Setelah semua data input direkam oleh narasumber, data tersebut kemudian dikumpulkan pada satu folder sesuai dengan kata apa yang direkam oleh narasumber yang selanjutnya akan di proses dalam tingkat berikutnya.

3.4. Preprocessing

Preprocessing adalah tingkat awal dalam pra-proses yang dilakukan dalam penelitian ini. Tingkat tersebut dibagi per bagiannya yang dimulai dari Data Audio Analyser dan berakhir pada tingkat data extraction.

3.4.1 Data Audio Analyser

Data Audio Analyser adalah tingkat pertama dalam melakukan pra-proses. Pada tingkatan ini dilakukan analisis audio berdasarkan sinyal dan frekuensinya yang kemudian memberikan informasi-informasi tentang audio tersebut seperti berapa detiknya audio dan ukuran amplitudo yang berupa gambar plot seperti gambar 3.2.

Kemudian beberapa hasil informasi tersebut digunakan sebagai bahan acuan untuk proses berikutnya. Dilakukannya tingkat ini dengan tujuan untuk mengetahui informasi dari data audio yang telah di masukkan agar pada saat tingkat berikutnya dapat dilakukan sesuai ekstensi yang telah ditetapkan dalam sistem.

Gambar 3.3. Plot ukuran detik dan amplitude sinyal audio

Universitas Sumatera Utara

3.4.2 Data Converter

Data Converter merupakan tingkat pengubahan ekstensi file audio yang akan di proses.

Setelah melewati proses analisis, audio yang tidak cocok ekstensinya dengan sistem akan diganti terlebih dahulu ke ekstensi .wav. Tujuannya digantinya ekstensi audio dari m4a ke wav adalah untuk meningkatkan kualitas audio dikarenakan untuk ekstensi m4a kurang baik akibat dari record default smartphone pada saat proses input. Maka dari itu ekstensi yang digunakan adalah wav karena dianggap baik untuk permasalahan kualitas audio data.

for (path_dir, nama_dir, nama_file) in os.walk("file/"):

for info_file in nama_file:

IF filename.endswith(tuple(formats_to_convert)):

ENDFOR

25

Berdasarkan pseudocode diatas, pertama dilakukannya pemilihan tempat file yang akan dilakukan proses converting. Setelah didapatkannya tempat file yang dimaksud, sistem akan melakukan analisis terhadap file tersebut apakah sudah sesuai dengan ekstensi yang diinginkan. Jika sesuai maka sistem tidak akan melakukan proses converting dan jika tidak sesuai maka sistem melakukan proses tersebut dan disimpan sesuai dengan tempat file yang dimaksud tersebut. File dengan ektensi final (.wav) akan di proses pada tingkatan berikutnya.

3.4.3 Data downsampling

Setelah file audio sudah dalam ekstensi .wav, dilanjutkan proses berikutnya yaitu proses Data Downsampling. Di dalam pemrosesan sinyal audio, diperlukan adanya pengambilan sampel sebab akan terjadi pengurangan sinyal kontinyu ke dalam serangkaian nilai diskrit. Sampling rate atau biasa yang disebut laju sampling adalah jumlah sampel yang diambil selama beberapa waktu tetap. Jika frekuensi sampling tinggi, maka akan menghasilkan hilangnya noice lebih sedikit dan sebaliknya jika frekuensi sampling rendah maka akan menghasilkan hilangnya noice lebih banyak.

Dengan itu gelombang suara di digitalkan dengan adanya interval diskrit yang dikenal sebagai sampling rate dengan tujuan untuk memberikan kualitas audio yang bisa dijalankan di sistem sekaligus reduce noice yang ada. Proses downsampling data dilakukan ketika audio sudah di analisis terlebih dahulu dan sudah dengan ekstensi .wav agar nantinya dapat memudahkan sistem untuk memproses ke tingkatan berikutnya.

Hasil tingkatan ini berupa file audio dengan rentang sampel sebesar 8000 Hz dan resolusi 16 bit untuk digunakan dalam sistem pembuatan speech corpus.

3.4.4 Data Labeling

Setelah dilakukannya penyesuaian sampel pada tingkatan sebelumnya, maka dilanjutkan ke tingkat Data Labeling. Data Labeling merupakan tingkat dimana audio diberikan identifikasi oleh sistem untuk dapat dibaca sebagai data yang di inginkan.

Pemberian label audio pada proses ini dilakukan dengan dua fase yang berbeda.

Pertama, fase pemberian label pada audio sebagai judul dilakukan secara manual dengan memilih satu per satu file audio yang akan didengarkan lalu di buat label berdasarkan isi file tersebut. Kedua, fase pemberian label audio dilakukan setelah proses penyesuaian sample rate.

Universitas Sumatera Utara

Kemudian audio diidentifikasi sekaligus diberikan informasi secara satu per satu agar sistem dapat membaca bahwa data tersebut sudah diberikan informasi berupa label atau judul yang telah terbuat. Tujuan utama dilakukannya tingkatan ini adalah untuk mempermudah sistem mencari sekaligus melihat data mana yang akan di proses sesuai dengan keinginan dari pengguna sistem. Berikut adalah pseudocode dari tingkatan Data Labeling.

Berdasarkan psedocode diatas, yang dilakukan dalam tingkat labeling adalah dengan mengambil semua data yang di inginkan dan kemudian memberikan bentuk data pada data tersebut. Lalu data tersebut akan dilakukan pelabelan otomatis dari sistem dengan input sebagai integer yang tujuan untuk memudahkan sistem dalam mengidentifikasi data yang akan digunakan sesuai dengan jumlah data yang di inginkan pula.

Gambar 3.4. Hasil dari proses labeling 3.4.5 Data Filter

Setelah tingkatan labeling selesai dilaksanakan, sistem melanjutkan ke proses selanjutnya yaitu tingkatan Data Filter. Data filter merupakan proses penyaringan data audio berdasarkan frekuensi masing masing audio baik frekuensi tinggi maupun rendah.

Untuk menemukan puncak frekuensi pada saat filterasi, teknik yang disebut Short Time Fourier Transform (STFT) digunakan.

Semua_label_audio <- np.zeros(data_label.shape[0]) for a, b in enumerate(set(labels)):

semua_label_audio[np.array([f for f, _ in enumerate(labels) IF _ = l[

ENDIF ENDFOR

OUTPUT 'Labels AND label indices', all_labels]

Universitas Sumatera Utara

27

Penerapan pengembangan FFT ini diterapkan pada potongan data input untuk mengontrol jumlah resolusi frekuensi yang tersedia. Sementara overlap dalam proses windowing memungkinkan untuk mengontrol resolusi waktu dengan peningkatan ukuran data. Kemudian sistem melanjutkan proses dengan pendeteksian puncak yang diterapkan pada setiap frame FFT dari setiap file data. Lalu, detektor puncak setiap frame melakukan pekerjaan yang dapat diterima dalam mendeteksi puncak, meskipun tidak berarti sempurna.

Salah satu faktor pembatas di sini adalah panjang FFT, detektor puncak mencari lebih dari beberapa potongan sampel yang sangat besar ketika ukuran FFT hanya 64 bin. Maka dari itu, ketika ukuran FFT yang lebih panjang akan tampak lebih buruk, bahkan dengan overlap yang lebih tinggi dalam mempertahankan resolusi waktu yang sama. Hasil dari proses Data Filter ini berupa data audio yang telah terpilih oleh sistem berdasarkan tingkat puncak frekuensi dari rata rata audio yang digunakan dan di representasikan seperti gambar plot 3.4.

Gambar 3.5. Hasil detektor puncak berdasarkan frekuensi dengan FFT

Universitas Sumatera Utara

3.4.6 Data Extraction

Setelah semua tingkatan dari proses sebelumnya terlaksanakan, maka masuk kedalam tingkatan terakhir dari pra-proses yaitu tingkat Data Extraction dimana tingkat untuk ekstraksi fitur data audio yang telah di filter akan dilakukan dengan menggunakan teknik STFT juga.

Seperti yang telah dipaparkan pada bagian 2.5 pada Bab 2, untuk melakukan ekstraksi data audio, STFT memerlukan ketentuan nilai standar audio manusia dan berapa banyak lompatan dimensi audio atau disebut sebagai hop dari data input.

Penelitian yang telah dilakukan oleh Mahdi (2008) dengan judul Frequency analyses of human voice using fast Fourier transform menjelaskan bahwa untuk mendapatkan nilai FFT dan hop berdasarkan pada data audio yang digunakan. Peneliti mengemukakan untuk kondisi audio tersebut, diperlukan FFT sebesar 512 dan hop sebanyak 0.5 lompatan pada percobaan kejernihan audio akan noise gema dan percakapan pengganggu lainnya. STFT sendiri dapat dihitung berdasarkan Persamaan 2.3 dimana data array pada setiap audio, dihitung per kolomnya. Untuk mendapatkan nilai STFT terlebih dahulu mencari nilai fungsi jendela hanning sebagaimana dijelaskan pada Persamaan 2.4.

Gambar 3.6. Contoh perhitungan Nilai Hanning

Berdasarkan pada Gambar 3.6, nilai fungsi jendela hanning pada kolom 0 didapatkan berdasarkan nilai sudut sin2 dengan sudut π yaitu 3,14 dikalikan dengan posisi kolom yang akan dihitung kemudian dibagi dengan nilai FFT yang sudah

Nilai hanning(n) = sin2(πn

FFT) Nilai hanning (0) = sin2(π∗0

512) Nilai hanning (0) = 0

Universitas Sumatera Utara

29

ditentukan yaitu 512. Hasil nilai hanning tersebut digunakan pada STFT sebagaimana diberlakukan pada Gambar 3.7.

Gambar 3.7. Contoh Perhitungan STFT

Untuk prosesnya pertama, sistem akan melakukan review hasil dari proses filterasi, lalu sistem akan mengekstraksi data tersebut sebanyak data yang ada dengan membagi menjadi 10 bagian. Hasil dari proses ini berupa beberapa array yang berasal dari beberapa data. Kemudian hasil dari tingkatan ini akan dipakai pada tingkat berikutnya yaitu modeling dengan tujuan agar hasil dari model yang dibuat pada tingkat selanjutnya menjadi akurat dan konsisten dari hasil ekstraksi informasi.

Gambar 3.8 Potongan array hasil proses Data Extraction 3.5. Process

Pada tingkat proses dalam membangun sistem pembangkitan speech corpus, digunakan sebuah metode yang disebut Hidden Markov Model (HMM). Metode HMM digunakan dalam proses ini dengan maksud untuk mengambil hasil model yang baik dengan kombinasi metode Gaussian Mixture Model yang memiliki sub-proses dimulai dari data modelling dan berakhir pada tingkatan akurasi. Hasil dari tingkatan akurasi ini akan dijadikan pedoman dalam pembuatan sistem speech corpus.

STFT = ∑n= ∞n=−∞ x[n]w[n − m]e −jωn STFT = 5.671 * (w[0.5] ) * 1

STFT = 5.671 STFT = 5.3377*10-15

Universitas Sumatera Utara

3.5.1. Data Modelling

Tingkatan pertama dari proses yang akan dilakukan adalah Data Modelling. Data Modelling merupakan tingkat dimana semua data audio yang telah di lakukan ekstraksi informasinya di modelkan sesuai dengan metode Hidden Markov Model yang sudah dikombinasikan dengan metode Gaussian Mixture Model.

Untuk pemodelannya dimisalkan dalam contoh yang akan dijelaskan. Dalam satu model keterangan kata dapat dimodelkan kedalam 3 status yaitu ahu(1), ho(2), dan nasida (3). Aturan pada setiap probabilitas dari setiap transisi status di deskripsikan sebagai berikut :

𝐴 = {𝑎𝑖𝑗} =

0.4 0.3 0.3 0.2 0.6 0.2 0.1 0.1 0.8

Kemudian probabilitas untuk kata yang teramal secara berurut yaitu “nasida-nasida-nasida-ahu-ahu-nasida-ho-nasida”.

Dengan O adalah tahap pengamatan dimana :

O = {nasida, nasida, nasida, ahu, ahu, nasida, ho, nasida} = {3, 3 ,3 ,1 ,1 ,3 ,2 ,3}. Maka pemodelan peluangnya dalam Markov Model adalah

P(O|Model) = P[3,3,3,1,1,3,2,3|Model]

= P[3] P[3|3]2 P[1|3] P[1|1] P[3|1] P[2|3] P[3|2]

= Π3 . (a33)2 a31 a11 a13 a32 a23

= (1.0)(0.8)2(0.1)(0.4)(0.3)(0.1)(0.2)

= 1.536 x 10-4

Untuk proses pemodelannya, pertama akan dilakukan pembuatan kombinasi kedua metode tersebut kedalam satu class khusus, lalu semua data audio dijadikan model dengan berisikan array sesuai dengan label yang sudah dibentuk sebelumnya.

Model yang dibentuk berupa model dengan format model subjek, predikat, dan objek guna untuk memudahkan implementasi model dalam sebuah sistem. Kemudian hasil model disimpan sementara dalam array kosong yang telah dibuat sebelumnya. Hasil model yang telah disimpan dapat digunakan pada tingkatan selanjutnya untuk dilakukannya pelatihan terhadap model tersebut.

Universitas Sumatera Utara

31

Tujuan dilakukannya Data Modelling ini adalah untuk meyakinkan bahwa semua data yang telah dilakukan pra-proses disimpan dalam satu model yang nantinya dapat dengan mudah digunakan dengan cara load model tanpa harus melakukan kembali runtutan pra-proses yang telah dilakukan sebelumnya. Berikut adalah pseudocode dari Data modelling.

Berdasarkan pseudocode diatas dijelaskan bahwa pembuatan model berasal dari class gmmhmm yang kemudian model tersebut di inisiasikan untuk keperluan proses sampling. Hasil model tersebut ditunjukkan dalam gambar 3.6.

Gambar 3.9. Hasil pemodelan data

3.5.2 Data Sampling

Setelah data audio sudah dimodelkan, proses yang dilakukan berikutnya adalah Data Sampling. Data Sampling adalah tingkat untuk melakukan pengambilan sampel dari model yang telah dibuat untuk dilakukannya pelatihan data. Pelatihan data audio dilakukan dengan menggunakan parameter dari hasil labelling dan hasil ekstraksi data pada model berdasarkan audio pada tingkat input sebelumnya. Akan tetapi pada tingkatan ini, audio ditambahkan 4 variasi data lagi dengan tujuan untuk mendapatkan hasil akurasi nantinya secara maksimal pada tingkatan akhir proses.

model <- [gmm_hmm(2) for i in y_model]

ENDFOR

model <- [model.fit(X_train[y_train = i, :, :]) for k, i in zip(model, y_model)]

ENDFOR OUTPUT "Bentuk model: ",model

Universitas Sumatera Utara

Gambar 3.10 Proses pelatihan data

Kemudian kedua parameter tadi diberikan hasil ukuran pelatihan berdasarkan jumlah data yang digunakan dan ketetapan batas ukuran percobaan yang dilakukan.

Kedua hasil tersebut nantinya dapat digunakan untuk melakukan probabilitas data pada tingkatan selanjutnya. Pelatihan data tersebut memiliki tujuan agar model yang telah dibuat pada proses sebelumnya dapat dikatakan baik untuk digunakan dalam proses ini maupun penelitian lainnya. Berikut ini adalah pseudocode dari tahapan data sampling.

Sss <- StratifiedShuffleSplit(n_splits=jumlah+1, size_test

=0.1, state_random =0)

sss.get_s_splits(semua_objek, semua_label) OUTPUT "Untuk n_splits <- ",jumlah+1

for t,e in enumerate(semua_objek):

semua_objek [n] /= semua_objek[n].sum(axis=0) ENDFOR

for train_index, test_index in sss.split(semua_objek, semua_label):

X_train, X_test <- semua_objek[index_train, ...], semua_objek[test_index, ...]

y_train, y_test <- semua_label[index_train], semua_label[index_test]

ENDFOR

OUTPUT ‘ukuran data training matrix:', X_train.shape

OUTPUT ‘ukuran data testing matrix:', X_test.shape Universitas Sumatera Utara

33

Berdasarkan pseudocode diatas dijelaskan bahwa proses pelatihan dan percobaan dilakukan berdasarkan semua label data dan semua objek data yang telah di ekstraksi. Proses yang dilakukan dibuat secara berulang lalu kemudian sistem akan menghasilkan nilai dari proses pelatihan yang dilakukan seperti tertera pada gambar 3.7.

Gambar 3.11. Potongan nilai contoh dari proses pelatihan dan percobaan 3.5.3. Data Probability

Sesudah dilakukannya pelatihan data pada tingkat data sampling, sistem melanjutkan proses ketingkatan berikutnya yaitu tingkat Data Probability. Data Probability merupakan tingkatan untuk melakukan beberapa kemungkinan dari hasil pelatihan dan percobaan model yang nantinya digunakan pada tingkatan akurasi. Proses tingkatan ini dilakukan dengan mengambil data hasil ekstraksi dan kemudian diambil bentuk 2D data tersebut untuk dibuat pemisalan kemungkinan. Setelah itu data kemudian dikombinasikan dengan pemisalan kemungkinan berdasarkan jumlah variasi data yang dibuat. Tujuan Data Probability pada tingkat proses yaitu untuk memperlihatkan kemungkinan model dapat digunakan atau tidak sesuai dengan proses probabilitas yang telah dilakukan. Hasil dari tingkatan ini berupa array probabilitas yang direpresentasikan dalam gambar 3.8. dibawah ini.

Gambar 3.12. Potongan hasil probabilitas

Universitas Sumatera Utara

3.5.4 Data Identify

Data Identify atau biasa disebut dengan identifikasi data merupakan tingkat lanjutan dari tingkat Data Probability. Identifikasi data pada tingkat ini merupakan pengecekan kembali terhadap model dan probabilitas yang telah dilakukan sebelumnya dengan tujuan untuk memberikan saran pada tingkat pembuatan akurasi.

Tingkatan ini juga melakukan proses vstack dimana sistem menggunakannya untuk menumpuk urutan array input hasil probabilitas secara vertikal dan membuat array tunggal sebagai saran untuk akurasi. Hasil dari tingkat Data identify berupa array yang berguna pada tingkatan selanjutnya ketika sistem akan melakukan sebuah akurasi data berdasarkan array yang telah dibuat yang berisikan model dan probabilitas sebelumnya seperti gambar 3.9.

Gambar 3.13. Potongan array yang sudah di identifikasi 3.5.5 Data Accuracy

Terakhir tingkat proses yang dilakukan dalam pembuatan sistem speech corpus adalah tingkat Data Accuracy. Data Accuracy adalah tingkatan dimana hasil dari semua proses yang dilakukan diberi nilai dengan format persentase. Pertama, tingkat ini melakukan pengumpulan model yang sudah terlebih dahulu di simpan dalam array kosong dan telah melalui beberapa proses sebelumnya yang kemudian diberikan nilai sesuai dengan isi model tersebut secara satu per satu berdasarkan dengan banyak data yang ada.

Kemudian setelah diberikan nilai, sistem menyimpan semua model yang sudah dinilai tersebut ke dalam file dengan format .pkl (pickle). Hasil dari model dengan akurasi tertinggi yang dapat digunakan sebagai speech corpus yang kemudian bisa dimanfaatkan pada penelitian selanjuttnya. Rumus yang digunakan untuk mencari nilai akurasi yaitu :

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 100 𝑥 (1 − 𝑛𝑖𝑙𝑎𝑖 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑑𝑎𝑟𝑖 𝑝𝑒𝑚𝑖𝑠𝑎𝑙𝑎𝑛 𝑘𝑒𝑚𝑢𝑛𝑔𝑘𝑖𝑛𝑎𝑛) (3.1) Nilai dari hasil perhitungan rumus diatas diatur dengan hanya menampilkan dua digit dari bilangan desimal saja. Berikut ini adalah pseudocode dari tingkatan proses data accuracy.

Universitas Sumatera Utara

35

Berdasarkan pseudocode yang dijelaskan diatas bahwa model yang telah modeling dan dibuat probabilitasnya dimasukkan kedalam suatu array lalu array tersebut dijadikan acuan untuk melakukan sebuah prediksi berdasarkan perulangan yang telah dilakukan pada tingkatan pelatihan dan percobaan sebelumnya. Hasil akurasi diperlihatkan seperti pada gambar 3.7.

Gambar 3.14. Potongan hasil akurasi data 3.6. Metode Evaluasi

Untuk evaluasi dari model yang telah dibuat, digunakan dua metode dalam melakukan evaluasi, yaitu metode Mean Absolute Percentage error (MAPE) dan Word Error Rate (WER). MAPE merupakan pengembangan dari metode Mean Absolute Error (MAE) dalam persentase kesalahan rata-rata dengan nilai absolut untuk akurasi perkiraan pada metode peramalan tertentu.

ps <- [model.transform(X_test) for i in model]

ENDFOR resb <- np.vstack(predc)

label_predict <- np.argmax(resb, axis=0) missed <- (label_predict != y_test) OUTPUT "hasil akurasi ", jumlah+1

OUTPUT 'Akurasi yang didapat : %.2f percent' % (100

* (1 - np.mean(missed)))

Universitas Sumatera Utara

Metode ini memberikan informasi seberapa besar kesalahan peramalan dibandingkan dengan nilai sebenarnya dari series tersebut dan diperlihatkan dalam satuan persen (%). Semakin kecil nilai presentasi kesalahan (percentage error) pada MAPE maka semakin akurat hasil peramalan tersebut pada model yang telah dilatih.

Dalam metode ini, terdapat analisa khusus tentang nilai hasil dari MAPE sebagaimana yang diperlihatkan pada tabel di bawah ini.

Tabel 3.1. Analisa nilai MAPE

Range MAPE Arti Penilaian

<10% Kemampuan model peramalan sangat baik 11-20 % Kemampuan model peramalan baik 21-50 % Kemampuan model peramalan cukup baik

>50 % Kemampuan model peramalan buruk

Dari tabel tersebut dapat dipahami rentang nilai yang menunjukkan arti dari nilai persentase error pada MAPE, dimana nilai MAPE masih bisa digunakan apabila tidak melebihi dari 50%. Dan jika nilai MAPE sudah di atas 50%, maka model peramalan tersebut tidak dapat digunakan dalam sistem apapun.

Untuk rumus metode MAPE akan diperlihatkan sebagaimana persamaan di bawah ini.

𝑀𝐴𝑃𝐸 = Σ

𝑖=1𝑛

|𝑦

𝑖

− 𝑥

𝑖

|

𝑛 𝑥 100

(3.2) Dengan Keterangan :

-

𝑦

𝑖 = Sebagai nilai prediksi

-

𝑥

𝑖 = Sebagai nilai asli hasil testing - n = Sebagai jumlah total titik data

- Dan juga terdapat simbol absolut pada rumus MAPE yang menunjukkan bahwa nilai negatif hasil perhitungan akan tetap bernilai positif.

Universitas Sumatera Utara

37

Kemudian Word Error Rate (WER) adalah metrik umum untuk mengukur akurasi ucapan-ke-teks dari sistem pengenalan suara. Kesulitan umum untuk mengukur kinerja WER terletak pada kenyataan bahwa urutan kata yang dikenali dapat memiliki panjang yang berbeda dari urutan kata referensi (seharusnya yang benar). Permasalahan WER dapat diselesaikan dengan terlebih dahulu menyelaraskan urutan kata yang dikenali dengan urutan kata referensi (diucapkan) menggunakan penyelarasan string dinamis. Pemeriksaan WER dilihat melalui teori yang disebut hukum kekuatan yang menyatakan hubungan antara kebingungan dan tingkat kesalahan kata. Tingkat kesalahan kata kemudian dapat dihitung sebagai :

𝑊𝐸𝑅(%) =𝐼𝑛𝑠𝑒𝑟𝑡𝑖𝑜𝑛(I) + 𝑆𝑢𝑏𝑠𝑡𝑖𝑡𝑢𝑡𝑖𝑜𝑛(𝑆) + 𝐷𝑒𝑙𝑒𝑡𝑖𝑜𝑛(𝐷)

𝑁𝑜. of 𝑅𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑊𝑜𝑟𝑑𝑠(N) ∗ 100 %

(3.3)

Dimana :

- Substitution merupakan ketika sebuah kata diganti (misalnya, "makan"

ditranskripsikan sebagai "minum").

- Insertion merupakan ketika sebuah kata ditambahkan yang tidak diucapkan (misalnya, "nyonya rumah" ditranskripsikan sebagai "tuan rumah").

- Deletion merupakan ketika sebuah kata dihilangkan dari transkrip (misalnya, "menyelesaikan" ditranskripsikan sebagai "dapat diselesaikan").

- No of Reference Words merupakan banyaknya jumlah kata.

Setelah didapatkan nilai WER, diperlukan nilai akurasi total atau Word Recognition Rate (WRR) sebagai hasil akhir pengujian sistem (Karpagavali S.

et al, 2016). Untuk menghitung WRR, diberlakukan rumus seperti pada Persamaan 3.4.

𝑊𝑅𝑅(%) = 1 − WER

(3.4) Berdasarkan Persamaan 3.4, WRR, dalam satuan persen, didapatkan dari hasil pengurangan angka 1 dengan nilai WER yang diperoleh dari perhitungan sebelumnya.

Universitas Sumatera Utara

38 BAB 4

Dokumen terkait