• Tidak ada hasil yang ditemukan

BAB II LANDASAN TEORI. Sistem sulih suara yang ada di Indonesia mayoritas sama sekali tidak

N/A
N/A
Protected

Academic year: 2021

Membagikan "BAB II LANDASAN TEORI. Sistem sulih suara yang ada di Indonesia mayoritas sama sekali tidak"

Copied!
14
0
0

Teks penuh

(1)

10 2.1 Sistem Sulih Suara di Indonesia

Sistem sulih suara yang ada di Indonesia mayoritas sama sekali tidak terkomputerisasi. Bahkan dalam proses mixing, hampir tidak dilakukan perubahan

sama sekali seperti halnya yang dilakukan oleh studio sulih suara SCTV yang menambahkan efek-efek latar, musik dan lain sebagainya agar tampak lebih nyata. Jadi bagus tidaknya kualitas sulih suara benar-benar hanya bergantung pada kualitas penyulih suara dan proses sulih suara yang terjadi. Kesalahan sinkronisasi yang terjadi dalam proses sulih suara akan menimbulkan ketidaknyamanan pada saat menonton.

Karena itu dibutuhkan cara untuk melakukan pengukuran apakah sebuah suara hasil dubbing dapat cocok dan memiliki kesinkronisasian yang tepat dengan

suara aslinya. Dan jika tidak tepat berapakah nilai yang dapat ditolerir agar tetap nyaman ditelinga para pemirsa film dubbing.

2.2 Sistem Transplantasi Suara

Sistem modifikasi suara yang dipelajari kali ini sangat bergantung pada pitch, loudness, timing, dan juga timbre dari suara asli ke suara sulih suara. Dengan

(2)

kualitas baik, secara meyakinkan mampu memberi gambaran tentang betapa pentingnya proses sulih suara itu sendiri.

2.2.1 Pengenalan

Bagian terpenting dari suara manusia dan semua sinyal audio adalah pitch, volume, timbre, tempo dan ritma. Dalam model pemrosesan sinyal, umumnya

kesemua bidang itu memiliki karateristik yang umumnya berdiri sendiri dari satu bidang ke bidang lain. Namun meskipun begitu, mereka terikat oleh acousticsignal's fundamental frequency f0, amplitude, spectral envelope dan time variation, secara

berturut-turut. Dengan mengetahui apa saja yang mempengaruhi sebuah suara dan transplantasinya, maka akan lebih mudah untuk mengatur hal-hal tersebut di dalam langkah selanjutnya

2.2.2 Arsitektur

Setelah melewati beberapa tahun, teknik overlap-add (OLA) sudah ditujukan

untuk melakukan modifikasi prosodik suara dengan kualitas tinggi. Dalam fase analisis, algoritma tersebut secara eksplisit mempresentasikan fo dan informasi

amplitudo dari input speech sebagai fungsi dari waktu, dimana informasi spektral

terepresentasikan secara nyata oleh bagian dari segmen singkat dari sinyal aslinya. Sistem transplantasi yang dibicarakan dalam makalah ini menggunakan teknik OLA untuk mendapat kualitas baik dalam modifikasi karakter suara dalam Dynamic

(3)

Time-Warping (DTW) untuk penyesuaian waktu yang cocok dari karakter suara yang telah diekstrak dari kalimat yang berbeda (Verhelst, Werner dan Brouckxon, Henk. (2002).

Voice Modification for Lip Synchronization, Voice Dubbing and Karaoke). Konsep

dasarnya diilustrasikan dalam gambar 2.1.

Sebuah teks yang sama dibaca oleh orang yang sama atau orang yang berbeda menghasilkan dua jalur U1 dan U2. Kontur dari akustik parameter yang

muncul setelah analisis U1 akan disesuaikan waktunya sama seperti penskalaan

kontur penyesuaian waktu pada U2. Fungsi penskalaan waktu yang sesuai akan

didapat dengan menggunakan Dynamic Time-Warping (DTW) teknik yang diketahui

dengan baik dalam speech recognition. Pada akhirnya sintesis OLA dari kalimat baru

Ux akan ditampilkan seusai pemilihan dari setiap akustik parameter. Kita dapat menggunakan secara bebas versi U1 ataupun U2. Dalam hal ini, dapat

mentransplantasi karakteristik suara dari satu kalimat ke kalimat lain. Ingat bahwa dalam setiap pasangan kalimat salah satunya dapat memilih kalimat mana yang berhubungan dengan U1 dan mana yang berhubungan dengan U2 (Verhelst, Werner

and Brouckxon, Henk. (2002). Voice Modification for Lip Synchronization, Voice Dubbing and Karaoke.)

(4)

Gambar 2.1 Sistem Transplantasi Suara

Sumber :

VOICE MODIFICATION FOR LIP SYNCHRONIZATION, VOICE DUBBING AND KARAOKE

Werner Verhelst dan Henk Brouckxon

2.2.3 Dynamic Time Warping

Analisis short-time LPC menyediakan kedua kalimat U1 dan U2. Matrix yang

tersusun dengan elemen d(j,i),j = 1.... J, i = 1 ... I yang mana sebanding terhadap jarak gelombang antara frame j dari U2 dan frame i dari U1. J dan I mempresentasikan

jumlah frame dalam sinyal yang dihasilkan U2 dan U1.

Jalur Time-Warping yang muncul sebagai jalur (jk, ik) untuk memimalisasi

(5)

Brouckxon, Henk. (2002). Voice Modification for Lip Synchronization, Voice Dubbing and Karaoke)

= = N 1 k k k,i ) j ( d D

Adapun penjelasan dari rumus tersebut

) I , J ( ) i , j ( ); 1 , 1 ( ) i , j (1 1 = N N = )} i , j ( ), i , j ( ), i , j {( ) i , j (k1 k1k1 k k1 k1 k k1

Rumus yang akan kita tampilkan selanjutnya adalah rumus untuk menghitung perbedaan gelombang antara frame individu. Yaitu bagaimana dua jalur frame yaitu i dan j yang berjumlah n frame dapat menghasilkan perbedaan gelombang.

= − = M 1 n 2 ik jk k k,i ) w(n)(c (n) c (n)) j ( d ) M n sin( 6 1 ) n ( w = + π M = ⎦ ⎤ ⎢ ⎣ ⎡ 6600 f 12 s

Dimana fs adalah sampel frekuensi dalam Hz dan Cjk dan Cik merupakan LPC

(Linear Predictive Coding) cpstral vectors untuk frames jk dan ik dari U2 dan U1.

Perhatikan bahwa panjang M dibuat proposional dalam sample frekuensi dan jika diperoleh n=0, maka itu dapat diabaikan, sehingga menghasilkan nilai Weight Windows.

Dynamic Time Warping sudah sangat digunakan dengan baik dalam speech recognition dan form yang lebih rumit untuk sebuah fungsi D dan untuk perumusan

(6)

yang lebih detil tentang pengenalan nilai dalam sebuah sistem. Bagaimanapun, dalam proses transplantasi suara, kita tidak dapat menemukan kelebihannya apabila ditilik dari akurasi time-warping (umumnya DTW memperkenalkan ketidaktepatan saat

perbedaan antara realisasi akustik muncul. Contohnya pada saat salah satu kalimat mengandung jeda nafas). Oleh karena itu, penulis akan memfokuskan diri kepada versi dasar dari DTW seperti yang akan dijelaskan sebagai berikut.

2.3 PSOLA (Pitch Syncronous OverLap and Add) 2.3.1 Devinisi

PSOLA atau yang merupakan singkatan dari Pitch Syncronous OverLap and Add merupakan suatu metoda yang digunakan dalam sintesis suara untuk

menciptakan speech material dimana tetap mempertahankan sifat suara aslinya

(Tassa, A. dan Liénard, J.S.. (2006). A New Approach to the Evaluation of Vocal Effort by the PSOLA Method).

Dapat dilihat dari singkatan PSOLA, bahwa materi yang tercipta adalah hasil dari ‘overlapping’ dan ‘adding’ berbagai elemen yang dibutuhkan. Durasi dari

elemen-elemen tersebut harus proporsional dengan pitch periodenya. Bahkan metode

ini dapat dipakai untuk merubah pitch dan durasi dari sebuah dialog. Transformasi ini

dapat diselesaikan dengan mengekstrak suatu periode tertentu dan merelokasikan mereka kembali dalam tempat yang berbeda dari suara original. PSOLA sendiri dapat dibagi atas tiga langkah dasar yaitu tahap analisis sintesis dan tahap modifikasi.

(7)

Namun karena penulis hanya bertujuan untuk mendeteksi sinkronisasi gerak bibir dan bukan memperbaikinya, maka penulis akan membahas dua langkah awal saja.

2.3.2 Analisis dan Sintesis

Modifikasi prosodic yang menggunakan PSOLA, dapat dijelaskan dengan

menggunakan pitch-excited time dalam mengubah sistem linear seperti yang

digambarkan dalam gambar 2.

Gambar 2.2 ilustrasi dari formulasi sistem pitch-excited untuk PSOLA

Sumber :

VOICE MODIFICATION FOR LIP SYNCHRONIZATION, VOICE DUBBING AND KARAOKE

Werner Verhelst dan Henk Brouckxon

Input i(n) dibangun sebagai sebuah urutan impuls dengan unit impuls yang dilokasikan pada analisis pitchmarks : i(n) =

k+∞=−∞δ(n−pa(k))

Bagian analisis pitchmarks pa(k) berisi contoh yang mengindikasikan zero-crossing pada saat mulai eksekusi periode pitch dari input sequence x(n). Respon dari

impuls dalam jarak waktu pa(k) muncul dengan prosedur windowing sederhana yang

diaplikasikan pada input speech : h(n,pa(k)) = x(n).w(n-pa(k)), di mana w(n-Pa(k))

(8)

Durasi dari window (Wm) haruslah proposional dengan analisis pitch period

dm (t) dengan rumus ( Tassa, A. dan Liénard, J.S.. (2006). A New Approach to the Evaluation of Vocal Effort by the PSOLA Method ) :

) t t ( h ) t ( x ) t ( xm = mm m = 0,...,M ) t t ( m md Wm = m = mm1 Dimana :

³ x(t) adalah adalah sinyal suara yang asli

³ hm(t) adalah weighting windows

³ xm(t) adalah analisis dari ST-signal

³ tm adalah sequence dari pitch mark point

³ M jumlah total pitch dimana umumnya bernilai 2

Dalam hal ini, x(n) dianalisa untuk menemukan informasi pitch Pa(k) dan

respon sintesis filter impuls h(n,Pa(k)), yang mana juga merupakan parameter yang

digunakan dalam traditional pitch excited vocoder schemes. Juga modifikasi dan

strategi sintesis serupa dalam tampilan standar seperti LPC vocoders (hanya di sini filter sintesa adalah filter FIR didefinisikan pada sample distribusi non-uniformly instands Pa(k)). y(n) =

+∞ −∞ = k ) k , n ( h ) k ( i

Dimana i(k) dan h(n,k) mempresentasikan sumber dan parameter filter sintesis, yang dihasilkan dengan memodifikasi parameters analisis. Untuk modifikasi

(9)

pitch, sebagai contoh, sekali urutan speech impuls digenerate menghasilkan sebuah pitch yang diinginkan

i(k) =

+∞ −∞ = − δ i s(l)) p k (

Dan sintesis speech sangat sederhana ditampilkan dalam

y(n) =

+∞ −∞ = k s(k)) p , n ( h

Respon implus pada waktu Ps(k) dapat muncul sengan interpolasi antara

respons impuls yang tersedia dari analisis: h(n,m) = h(n,Pa(argmink | m – Pa(k)|)))

dengan menganggap telah terjadi zero-order interpolation.

Dengan cara yang sama, time scalling dapat diterima dengan scalling yang

tepat pada parameter yang sesuai, seperti contoh : )) m ( , n ( h ) m . n ( h 1 a s = τ− )) k ( T ( p ) 1 ) k ( T ( p ) k ( p ) 1 k ( ps + = s + a sa + − a sa ) l ( p )) k ( p ( min arg ) k ( T 1 s a 1 sa = τ− − 2.3.3 Rumus PSOLA

Dari rumus-rumus yang sudah tertera diatas, ada satu persamaan final yang merupakan cara menghitung suara sintetis yang dihasilkan oleh metoda PSOLA ( Kamen, Edward W dan Heck, Bonnie S. (2000) Fundamentals of signals and systems using the Web and MATLAB. Amerika Serikat : Prentice Hall ).

(10)

) n t ( h S ) n t ( h ) n ( x S ) n ( x q 2 q q q q q q synth − − =

Setiap bagian dalam rumus tersebut akan dijabarkan dalam penjelasan berikut ini. (Kamen, Edward W dan Heck, Bonnie S. (2000) Fundamentals of signals and systems using the Web and MATLAB)

Q adalah lambang atribut yang menunjukan bahwa segala yang memiliki lambang subscipt Q dimiliki oleh suara target (suara dubbing).

n adalah jumlah suara yang diteliti (1). Sq = (X( ) X( )) 2 A c c + ω−ω ω + ω

Dimana ω = frekuensi suara asli dan ωc = frekuensi suara dubbing

X adalah Forier Transform dari xq

) t t ( h ) t ( x xq = mm

A adalah amplitudo suara t adalah waktu suara

tm dan tq adalah pitch mark point (dalam Hz) yang bisa disamakan artinya

sebagai frekuensi suara. x(t) =

= θ + ω n 1 k k) t cos( A untuk n=1 maka x(t) = Acos(ωt+θk) A= amplitudo suara

(11)

h = weighting windows atau yang bisa dilambangkan dengan w. Namun w(n)

adalah rumus weighting windows untuk n suara

h ) M n sin( 6 1 ) n ( w = + π = M = ⎦ ⎤ ⎢ ⎣ ⎡ 6600 f 12m k θ = ωct+kp

kp = fase suara asli

kp = t/T - x/lamda

t = waktu suara (second) x = panjang suara (meter)

lamda = panjang gelombang (meter)

2.4 Singkronisasi Gerak Bibir dalam Sulih Suara.

Pada aplikasi jenis ini, transplantasi sistem harus menghasilkan Ux dengan

semua akustik parameter dari U1 dan timing dari U2. Hasilnya idealnya harus

terhubung kepada versi time-skaled. Dari U1 yang tersinkronisasi dengan U2. Hal ini

akan otomatis mengijinkan koreksi terhadap kesalahan singkronisasi gerak bibir dalam post syncrhronization work seperti dalam timing dari track yang tersedia atau

dari film yang dapat ditransplantasikan pada replacement traxk recorded dalam

(12)

2.4.1 Implementasi

Penulis menggunakan argoritma PSOLA untuk menghasilkan time-scaled version dari hasil rekaman asli time-warping path. PSOLA memiliki kelebihan yaitu

lebih mudah dipakai dan memiliki kepastian yang lebih baik karena dia tidak mengijinkan perubahan pitch.

2.4.2 Evaluasi Hasil Diagnosa

Akurasi dari time-scaling dari PSOLA muncul dengan sangat baik untuk

aplikasi sulih suara. PSOLA beroperasi dengan toleransi waktu [-∆max ... + ∆max] guna

meyakinkan pitch cotinuity dalam sinyal time-caled. Dengan toleransi

∆ max = 7 ms, pitch continuity dapat dipastikan tanpa adanya kesalahan

waktu.

Seperti transplantasi prosody pada dan aplikasi karaoke, sistem ini

menghasilkan hasil yang memuaskan, tapi kurang tegas dan biasanya terjadi distorsi. Distorsi tersebut dapat dilacak dengan beberapa event dalam jalur time-warping,

namun tidak selalu dapat dideteksi dimanakan jalur yang salah.

2.4.3 Masukan yang mustahil

Saat telepon memiliki teknologi realtime yang sangat baik, namun ini berbeda

dengan 2 suara atau lebih yang terdapat pada dunia sulih suara. Sinkronisasi yang tepat sangat dibutuhkan dalam mentrasmit suara dubbing ke dalam suara asli.

(13)

Algoritma time-scalling tidak dapat mengadaptasi karakteristik gelombang suara

secara baik. Dan mungkin hasilnya akan mengalami penyimpangan.

2.4.4 Penghapusan yang Tidak Lengkap

Dalam beberapa kasus, sebuah masalah dapat timbul tanpa diakibatkan oleh sistem itu sendiri. Saat transfer suara dubbing, sementara time-scalling yang

dihasilkan tidak tepat, maka akan terjadi ketidak harmonisan suara yang terjadi. Hal ini menimbulkan hilangnya suara yang terbuang pada saat salah satu suara sudah lebh dulu berhenti.

2.4.5 Subtitusi yang Tidak Lengkap

Beberapa allophones dapat memiliki realisasi akustik yang berbeda dalam

seting waktunya. Jika terjadi perbedaan panjang suara, maka sistem akan menghasilkan bunyi lain yang berbeda dari suara aslinya dengan memperhitungkan distorsi bahkan kadang menyebabkan terjadinya scaling eror. Bahkan kesalahan itu

akan semakin mencolok jika distorsi atau noise itu ada di suara aslinya.

Permasalahan di atas sudah menjadi masalah yang sering dalam time-caling prosedur dan dapat menjadi sumber kesalahan pada distorsi., dalam Authomatic speech resyncronization dapat dilihat bahwa akan sangat membantu untuk

(14)

Banyak masalah distorsi bisa diidentifikasi secara visual sama seperti saat mereka terkarakteristik oleh tarikan garis panjang atau justru sangat kecil (dekat garis horizontal dan vertikal)

Fungsi yang diperjelas dapat dioperasikan dalam semua visual display dan

secara otomatis di tampilkan secara teratur

Kalimat tersebut dapat dilihat dengan mengklik waveform yg sesuai. Kita juga

bisa memilih apakah hendak menyalakannya seluruhnya atau hanya sebagian.

Dalam posisi meng-edit, kita bisa menambah suara baru tanpa khawatir akan mengubah Ux secara acak. Ux akan terupdate dg sangat rapih (menyesuaikan dirinya

sendiri)

Beberapa tes telah dilakukan dan mendapatkan kesimpulan bahwa user akan sangat mudah menyusun panjang teks yang ada, dengan waktu sebenarnya. Bahkan transplantasi suara akan sangat mudah dilakukan dan dengan ketepatan yang cukup memuaskan.

Gambar

Gambar 2.1 Sistem Transplantasi Suara
Gambar 2.2 ilustrasi dari formulasi sistem pitch-excited untuk PSOLA

Referensi

Dokumen terkait

Untuk mempermudah penelitian yang akan dilakukan dan mempertajam permasalahan yang akan dibahas, maka penulis membatasi permasalahan tersebut pada

Bagi siswa melalui penerapan model pembelajaran Advance Organizer dengan Peta Konsep diharapkan dapat meningkatkan hasil belajar matematika siswa kelas X SMK Tritech

Secara konvensional, sejarah politik membahas sejarah perang, sejarah parlementer, sejarah kerajaan; dan sejarah modern dalam arti teori dan metodologisnya sejarah politik

Adanya integritas yang tinggi dari kaum Muslimin untuk memajukan pendidikan, menghasilkan kemajuan ilmu pengetahuan dan lapangan kebudayaan lainnya, seperti terlihat pada

Kesimpulan yang dapat diambil dari penelitian terhadap variabel keputusan pembelian adalah bahwa mayoritas responden sejumlah 71% responden menyatakan bahwa

Teknik imunohistokimiawi telah digunakan untuk mendeteksi antigen IB pada ayam pedaging yang berumur 14 hari yang diinfeksi secara buatan dengan isolat IB lokal I-269 dan

Belajar bahasa pemrograman adalah memakai suatu bahasa, aturan, tata bahasanya, instruksi-instruksinya, tata cara pengoperasian compiler-nya untuk membuat program yang ditulis

19 Tahun 2008 tentang Kecamatan, tugas Camat dalam implementasi kebijakan otonomi daerah dikelompokkan ke dalam dua bidang yaitu : (1) penyelenggaraan tugas umum