• Tidak ada hasil yang ditemukan

IMPLEMENTASI DAN ANALISIS KONVERSI SUARA MENGGUNAKAN ALGORITMA PITCH SHIFTING DENGAN TIME DOMAIN PITCH SYNCHRONOUS OVERLAP ADD (TD-PSOLA)

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI DAN ANALISIS KONVERSI SUARA MENGGUNAKAN ALGORITMA PITCH SHIFTING DENGAN TIME DOMAIN PITCH SYNCHRONOUS OVERLAP ADD (TD-PSOLA)"

Copied!
10
0
0

Teks penuh

(1)

IMPLEMENTASI DAN ANALISIS KONVERSI SUARA MENGGUNAKAN ALGORITMA PITCH SHIFTING DENGAN TIME DOMAIN PITCH SYNCHRONOUS

OVERLAP ADD (TD-PSOLA)

Mutiara Nur Farida Hernawan¹, Iwan Iwut Tritoasmoro², Inung Wijayanto³

¹Teknik Telekomunikasi, Fakultas Teknik Elektro, Universitas Telkom

Abstrak

Konversi suara merupakan suatu teknologi yang memungkinkan user untuk mengubah pola bicara seseorang menjadi pola bicara lain dengan karakteristik yang berbeda dan memberikan identitas baru, dengan tetap menjaga konten aslinya. Hal ini berarti mengubah cara sesuatu dikatakan tanpa mengubah apa yang dikatakan. Diperlukan metode tertentu untuk dapat mengimplementasikan teknologi konversi suara ini. Sudah banyak metode yang dilakukan oleh penelitian-penelitian lain untuk mengembangkan teknologi ini, metode yang dibahas pada tugas akhir adalah algoritma pitch shifting dengan PSOLA. Algoritma pitch shifting merupakan metode dalam teknologi konversi suara yang tergantung pada pendeteksian pitch sinyal sumber

(frekuensi dasar) dengan menggunakan pitch marker dan mengubahnya sesuai dengan pitch target yang diinginkan menggunakan metode TD-PSOLA.

Pada tugas akhir dilakukan pengujian dan analisis mengenai efek dari pengimplementasian TD-PSOLA pada sistem konversi suara. Masukan berupa data suara perempuan dan laki-laki yang mengucapkan kalimat “konversi suara”, data suara disimpan sebagai database dengan format digital *.wav. Kemudian database tersebut diproses sehingga menghasilkan suara keluaran yang berbeda.

Pengujian untuk menilai performansi sitem menggunakan metode penilaian MOS (Conversation Opinion Test dan Listening Test) dan metode perhitungan cross correlation. Untuk hasil penilaian MOS Conversation Opinion Test diperoleh hasil terbaik sebesar 4.2 untuk konversi suara

perempuan ke low pitch ketika β = 0.1 dan α = 1 serta 4.1667 untuk konversi suara laki-laki ke high pitch ketika β = 1 dan α = 3. Untuk hasil penilaian MOS Listening Test diperoleh hasil terbaik sebesar 4.133 untuk konversi suara perempuan ke low pitch ketika α = 1 dan β = 1. Untuk hasil perhitungan cross correlation diperoleh hasil terbaik sebesar 0 untuk konversi suara

perempuan ke low pitch ketika β = 0.25 dan α = 1 serta 0.019 untuk konversi suara perempuan ke high pitch ketika β = 1 dan α = 1.25.

Kata Kunci : Konversi Suara, TD-PSOLA, MOS, cross correlation

Tugas Akhir - 2012

(2)

Speech conversion is a technology that allows user to alter a person's speech pattern into another pattern with different characteristics and provide a new identity, while maintaining the original content. This means changing the way something said without changing what is being said. Specific methods are needed to be able to implement this voice conversion technology. There have been many methods undertaken by other studies to develop this technology, the methods discussed in the final task is to pitch shifting with PSOLA algorithm. Pitch shifting algorithm is a method in voice conversion technology which depends on the detection of the source signal pitch (fundamental frequency) using the pitch marker and pitch change in accordance with the desired target using TD-PSOLA method.

This final project performs testing and analysis of the effects of implementing TD-PSOLA on speech conversion system. Input voice is from female and male speech who say “konversi suara”, then the database is processed to be converted into another speech data in accordance with the desired target, thereby producing a different sound output.

Testing to analyses system performance using Mean Opinion Score and cross correlation. For the Conversation Opinion Test MOS ratings obtained the best results of 4.2 for the conversion of female speech into low pitch when β = 0.1 and α = 1, and the best result of 4.1667 for the conversion of male speech into high pitch when α = 3 and β = 1. For the Listening Test MOS ratings obtained the best results of 4.133 for the conversion of female speech into low pitch when α = 1 and β = 1. For the results calculation of cross correlation obtained the best results at 0 for the conversion of female speech into low pitch when β = 0.25 and α = 1, and calculation of cross correlation obtained the best results at 0.09 for the conversion of female speech into high pitch when β = 1 and α = 1,25.

(3)

BAB I PENDAHULUAN

Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time

Domain Pitch Synchronous Overlap Add (TD-PSOLA) 1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dewasa ini, teknologi berkembang sangat pesat dan memiliki peranan yang sangat besar dalam kehidupan. Perkembangan teknologi ini memicu perkembangan yang lainnya, salah satunya adalah perkembangan dunia multimedia (meliputi image,

audio, dan video) yang berbasiskan teknologi komputer. Khusus untuk audio,

sekarang ini semakin banyak pengembangan untuk teknologinya. Salah satu dari banyak teknologi yang dikembangkan adalah konversi suara. Konversi suara merupakan sebuah teknologi yang dapat mengubah suara asli menjadi suara lain yang berbeda, sehingga dapat menghasilkan suara yang baru.

Para pengembang dan pengguna teknologi multimedia menginginkan beraneka ragam jenis suara untuk diaplikasikan di berbagai teknologi, seperti speech

to text. Konversi suara merupakan alternatif untuk hal ini. Banyak aplikasi yang dapat

dikembangkan dan diterapkan dalam kehidupan sehari-hari dari teknologi konversi suara ini, seperti bidang pelatihan bahasa asing, dubbing film, proses sintesis pidato, dan aplikasi pengubah suara di perangkat telekomunikasi. Beberapa penelitian dalam bidang konversi suara telah banyak dilakukan. Penelitian yang dilakukan sebelumnya[9] adalah konversi suara perempuan ke laki-laki dan sebaliknya dengan menggunakan dua input, satu input untuk source speech dan satu lagi untuk target

speech dengan menggunakan algoritma TD-PSOLA.

Pada tugas akhir ini penulis melakukan penelitian mengenai konversi suara dengan input suara laki-laki dan perempuan yang menucapkan kalimat “konversi suara”, sehingga dihasilkan output suara yang berbeda. Metode yang digunakan adalah algoritma

pitch shifting menggunakan TD-PSOLA. Dan untuk menilai performansi sitem

menggunakan metode penilaian MOS dan perhitungan cross correlation.

Tugas Akhir - 2012

(4)

1.2 Tujuan

Tujuan tugas akhir dapat dirumuskan sebagai berikut:

1. Membuat simulasi konversi suara dengan metode PSOLA.

2. Mengetahui perubahan yang dihasilkan pada suara yang telah mengalami proses PSOLA dengan suara asli.

1.3 Rumusan Masalah

Beberapa permasalahan yang dibahas pada tugas akhir sebagai berikut:

1. Bagaimana perubahan yang dihasilkan oleh metode PSOLA dalam proses konversi suara dari suara asli menjadi suara target yang diinginkan.

2. Bagaimana mengakuisisi suara dalam lingkungan MATLAB.

3. Bagaimana performansi sistem konversi suara ditinjau melalui metode penilaian MOS dan metode perhitungan cross correlation.

1.4 Batasan Masalah

Tugas akhir ini akan membatasi permasalahan pada poin-poin berikut: 1. Data suara merupakan file digital dalam format *.wav.

2. Data suara yang dianalisis dan dideteksi merupakan data suara perempuan dan laki-laki berusia 21 tahun yang mengucapkan kalimat “konversi suara”. 3. Hasil dari proses konversi suara dinilai performansinya menggunakan metode

evaluasi MOS dan cross correlation.

1.5 Metodologi Penelitian

Langkah penelitian yang digunakan dalam penyelesaian tugas akhir ini ada beberapa tahapan, yaitu:

1. Studi literatur

Pencarian dan pengumpulan referensi dan sumber-sumber yang berkaitan dengan konversi suara, PSOLA, dan MATLAB. Referensi dan sumber-sumber diperoleh melalui internet, makalah, jurnal, buku, Tugas Akhir, serta

(5)

BAB I PENDAHULUAN

Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time

Domain Pitch Synchronous Overlap Add (TD-PSOLA) 3

melalui diskusi dan konsultasi dengan pembimbing. Kemudian dilakukan pendalaman materi yang diperlukan berdasarkan referensi-referensi tersebut. 2. Pengumpulan Data

Pengumpulan data berupa suara manusia yang nantinya digunakan sebagai

database untuk dilakukan proses konversi suara.

3. Analisis dan Perancangan Sistem

Menganalisis deskripsi dan kebutuhan sistem berdasarkan batasan masalah dan ketersediaan data. Kemudian melakukan pemodelan sistem konversi suara. 4. Implementasi

Melakukan implementasi terhadap hasil desain sistem yang dilakukan dengan menggunakan bantuan MATLAB sebagai program pembangun proses konversi suara.

5. Pengujian

Menguji sistem untuk melihat kinerja aplikasi tersebut, evaluasi keberhasilan metode dan menganalisis faktor-faktor yang mempengaruhi kinerjanya.

6. Perumusan Kesimpulan dan Penyusunan Buku

Dilakukan analisis hasil implementasi dan pengujian sistem yang telah dilakukan dan kemudian disusun ke dalam buku tugas akhir.

1.6 Sistematika Penulisan

Tugas akhir disusun berdasarkan sistematika sebagai berikut:

BAB I PENDAHULUAN

Bab ini membahas mengenai latar belakang penelitian, tujuan penelitian, rumusan dan batasan masalah, metodologi penelitian, dan sistematika penulisan tugas akhir.

BAB II DASAR TEORI

Berisi tentang teori-teori yang mendukung di dalam pengerjaan tugas akhir.

Tugas Akhir - 2012

(6)

Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time

BAB III PERANCANGAN SISTEM

Bab ini menguraikan tentang tahap proses perancangan dalam mengimplementasikan perangkat lunak untuk melakukan proses sistem konversi suara.

BAB IV PENGUJIAN SISTEM DAN ANALISIS

Berisi pengujian dan analisis terhadap hasil yang diperoleh dari tahap perancangan dan implementasi.

BAB V KESIMPULAN DAN SARAN

Bab ini memberikan kesimpulan dari permasalahan yang dibahas berdasarkan serangkaian penelitian yang dilakukan. Serta memberikan saran-saran untuk pengembangan penelitian selanjutnya.

(7)

BAB V KESIMPULAN DAN SARAN

Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time

Domain Pitch Synchronous Overlap Add (TD-PSOLA) 60

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Dari hasil analisis terhadap pengujian sistem konversi suara menggunakan algoritma pitch shifting dengan TD-PSOLA pada suatu sinyal suara, dapat ditarik kesimpulan sebagai berikut:

1. Algoritma pitch shifting dengan TD-PSOLA merupakan metode yang baik dalam sistem konversi suara, karena tingkat keberhasilan perubahan dari suara

input dikonversi menjadi suara output menghasilkan nilai MOS sebesar 4.2

untuk konversi suara perempuan ke low pitch serta 4.1667 untuk konversi suara laki-laki ke high pitch

2. Untuk hasil penilaian MOS Listening Test diperoleh hasil terbaik sebesar 4.133 untuk konversi suara perempuan ke low pitch. Untuk hasil perhitungan

cross correlation diperoleh hasil terbaik sebesar 0 untuk konversi suara

perempuan ke low pitch, serta 0.019 untuk konversi suara perempuan ke high

pitch.

3. Dari 38 uji coba konversi suara yang dilakukan pada penelitian ini, untuk hasil penilaian MOS Conversation Opinion Test diperoleh hasil terbaik sebesar 4.2 untuk konversi suara perempuan ke low pitch ketika β = 0.1 dan α = 1 serta 4.1667 untuk konversi suara laki-laki ke high pitch ketika β = 1 dan α = 3. Untuk hasil penilaian MOS Listening Test diperoleh hasil terbaik sebesar 4.133 untuk konversi suara perempuan ke low pitch ketika α = 1 dan β = 1. Untuk hasil perhitungan cross correlation diperoleh hasil terbaik sebesar 0 untuk konversi suara perempuan ke low pitch ketika β = 0.25 dan α = 1 serta 0.019 untuk konversi suara perempuan ke high pitch ketika β = 1 dan α = 1.25.

4. Kinerja sistem konversi suara dipengaruhi oleh faktor skala alpha (α) dan beta (β) yaitu sebagai parameter time stretching dan pitch shifting, karena pada saat proses TD-PSOLA faktor skala alpha (α) dan beta (β) yang digunakan.

Tugas Akhir - 2012

(8)

Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time

5. Semakin nilai alpha (α) dan beta (β) mendekati angka 1 (satu) maka suara

output hasil konversi suara akan terdengar semakin mirip dengan suara input/asli, dan sebaliknya semakin nilai alpha (α) dan beta (β) menjauhi

angka 1 (satu) maka suara output hasil konversi suara akan terdengar semakin berbeda dari suara input/asli.

6. Nilai pitch period sinyal suara output akan menjadi lebih tinggi dari sinyal suara input setelah dilakukan proses pitch shifting jika suara input dikonversi ke low pitch dan sebaliknya, nilai pitch period sinyal suara output akan menjadi lebih rendah dari sinyal suara input setelah dilakukan proses pitch

shifting jika suara input dikonversi ke high pitch.

7. Hasil penilaian menggunakan metode MOS tidak selamanya akurat, seperti ketika dilakukan konversi suara dari input suara laki-laki ke high pitch dengan nilai α = 1.75 dan nilai β = 2, seharusnya penilaian naik tetapi yang terjadi sebaliknya, hal ini menjadi kelemahan metode MOS.

5.2 Saran

Beberapa hal yang penulis sarankan untuk pengembangan yang akan dilakukan pada tugas akhir ini, antara lain:

1. Penambahan pre-processing untuk memperbaiki kualitas sampel suara yang direkam, sehingga hasil suara output dari sistem konversi suara pun akan lebih bagus.

2. Penambahan filter setelah proses overlap add untuk membuang noise yang masuk dalam proses, sehingga hasil suara output dari sistem konversi suara pun akan lebih bagus.

3. Karena waktu komputasinya yang relatif cepat, bisa diimplementasikan secara

(9)

62

DAFTAR PUSTAKA

[1] CSIR, Pretoria. “Local Language Speech Technology Initiative”. A Short Guide

to Pitch Marking in the Festival Speech Synthesis System and Recommendations for Improvements.

[2] Colotte, Vincent dan Laprie, Yues. 2009. Automatic Pitch Marking For

SpeechTransformation via TD-PSOLA. France: Campus Scientifique.

[3] Colotte, Vincent dan Laprie, Yues. 2009. Higher Precision Pitch Marking For

TD-PSOLA. France: Campus Scientifique.

[4] Digital Signal Processing Laboratory. “MATLAB GUI Basic Course”. December - , 2010.

[5] Fitriawati, Atika. 2010. Speech Synthesizer Berbasis Diphone Menggunakan

Algoritma Time Domain Pitch Synchronous Overlap Add. Tugas Akhir.

Bandung: IT Telkom.

[6] Koriyanti, Eri. 2009. Pengukuran Waktu Tunda (Time Delay) pada Dua Sinyal

dengan Cross Correlation Function (CCF). Sumatera Selatan: Universitas

Sriwijaya.

[7] Makalah ilmiah. “Pengolahan Sinyal Biomedika”. http://www.scribd.com/doc/74291489/PROSES-DASAR. Diakses 4 Januari 2012.

[8] Mathwork, MATLAB 2007a, HELP.

[9] Mousa, Allam. 2010. “Voice Conversion Using Pitch Shifting Algorithm by Time Stretching with PSOLA and Resampling”. Journal of Electrical

Engineering. 61 (1), 57-61.

[10] Mr. Endi. 05 Mei 2009. Proses Produksi Suara Manusia. http://dejavu-anakselatan.blogspot.com/2011/01/proses-produksi-suara-manusia.html. Diakses 16 Maret 2011.

[11] Nugraha, Leonardo. 2009. Konversi Voice Dengan Algoritma Speaker

Transformation Berbasis Pemetaan Codebook. Tugas Akhir. Bandung: IT

Telkom.

Tugas Akhir - 2012

(10)

[12] Patton, Joshua. 2010. Pitch Synchronous Overlap Add. Final Project. Canada: University of Victoria.

[13] Telecommunication Standardization Sector of ITU. 2003. “Mean Opinion Score Terminology”.

[14] Zolzer, Udo (ed). 2005. Digital Audio Effects. Hamburg: University of the Federal Armed Forces.

Referensi

Dokumen terkait

Perbedaan karakter sikap dan perilaku dapat menyebabkan tidak sejalannya proses interaksi yang terjadi.Banyaknya perbedaan dalam suatu interaksi masyarakat bisa timbul

Untuk masuk ke halaman Penerimaan Siswa Baru (PSB), pada halaman utama SIMAKA, klik menu PSB yang berada di bagian atas (header), maka akan tampil halaman utamanya seperti

Setelah aplikasi sudah menjadi suatu perangkat lunak yang siap pakai, harus dites dahulu sebelum digunakan menggunakan pengujian blackbox atau whitebox, pengujian pada beberapa

Selaras dengan hasil kajian oleh Lau Pik Hua (2003) terhadap tahap penguasaan penggunaan alat-alat tangan dan mesin pada tahap yang sederhana, ia menunjukkan kaedah

Wijayanti membahas mengenai kawin paksa yang terdapat pada novel Salah Asuhan dan Malaysia Mencari Isti serta melihat sikap kedua pengarang novel tersebut

Adapun masalah yang menjadi fokus penelitian ini adalah tentang bagaimana pengaruh model pembelajaran berbasis proyek terhadap kemampuan menulis teks eksplanasi oleh

Adanya air akan mempercepat pembentukan peroksida dari persenyawaan asam lemak tidak jenuh tetapi peroksida tidak terbentuk jika minyak mengandung bahan

Meninjau sangat pentingnya peranan kurikulum, pemahaman dan pengembangannya dalam menentukan kualitas lulusan suatu program studi, maka kegiatan workshop kurikulum berbasis