Kompresi Sinyal Suara Dengan Menggunakan Standar MPEG-4.

(1)

i

KOMPRESI SINYAL SUARA DENGAN MENGGUNAKAN

STANDAR MPEG-4

Disusun Oleh :

Nama : Michael Darmawan Nrp : 0322130

Jurusan Teknik Elektro, Fakultas Teknik, Universitas Kristen Maranatha, Jl. Prof.Drg.Suria Sumantri, MPH no.65, Bandung, Indonesia.

Email : [email protected]

ABSTRAK

Pengkodean suara dengan laju bit rendah memiliki efisiensi pengkodean yang sangat tinggi. Algoritma pengkodean suara dengan efisiensi pengkodean yang tinggi dan fungsional memegang peranan penting untuk efisiensi penggunaan bandwitdh khususnya untuk aplikasi-aplikasi pada sistem multimedia.

Standar MPEG-4 merupakan standar ISO/IEC yang dibuat oleh MPEG (Moving Picture Experts Group) untuk aplikasi multimedia yang meliputi video dan audio (suara dan musik). HVXC (Harmonic Vector eXcitation Coding) adalah bagian dari standar MPEG-4 audio, yang digunakan untuk pengkodean suara narrow band (300-3400Hz) dengan frekuensi sampling 8 kHz pada laju bit 2 kbps.

Pengkodean suara HVXC pada simulasi ini telah berhasil direalisasikan menggunakan MATLAB dengan laju bit 2 kbps dan memiliki kualitas yang cukup baik dan informasi yang terkandung masih dapat ditangkap dengan cukup baik

(2)

ii

SPEECH CODING ALGORITHM BASED ON MPEG-4

STANDARD

Composed by :

Name : Michael Darmawan Nrp : 0322130

Electrical Engineering, Maranatha Cristian University, Jl. Prof.Drg.Suria Sumantri, MPH no.65, Bandung, Indonesia.

Email : [email protected]

ABSTRACT

Low bit rate coder has a very high coding efficiency. Speech coding algorithms with high coding efficiency and multiple functionalities play important role for efficient use of bandwidth and emerging new applications of multimedia systems.

Standard MPEG-4 is an ISO/IEC standard developed by MPEG (Moving Picture Experts Group) for applications multimedia include video and audio (speech and music). HVXC (Harmonic Vector eXcitation Coding) is part of MPEG-4 audio standard and was used to code narrow band speech (300-3400Hz) with 8 kHz sample rate at bitrate 2 kbps.

HXVC voice coding in this simulation has been implemented by using MATLAB approach speech at bit rates as 2 kpbs and this simulation has a good quality result and the information can be captured well enough.

(3)

iii

DAFTAR ISI

Halaman

ABSTRAK ... i

ABSTRACT ... ii

KATA PENGANTAR ... iii

DAFTAR ISI ... v

DAFTAR TABEL ... viii

DAFTAR GAMBAR ... ix

BAB I PENDAHULUAN I.1 Latar Belakang ... 1

I.2 Identifikasi Masalah ... 1

I.3 Tujuan ... 1

I.4 Pembatasan Masalah ... 2

I.5 Sistematika Penulisan ... 2

BAB II LANDASAN TEORI 2.1 Pengkodean Suara ... 3

2.2 Pemodelan Sinyal Suara ... 5

2.2.1 Analisis Spektral shot-time ... 6

2.2.2 Pengkodean Prediksi Linier (LPC) ... 6

2.2.2.1 Konvers Koefisien Prediksi Linier ke LSP ... 11

2.3 Sampling dan Kuantisasi ... 13

2.3.1 Sampling ... 13

2.3.2 Kuantisasi ... 13

(4)

iv

2.3.2.2 Kuantisasi Vektor ... 15

2.4 Fost Fourier Transform (FFT) ... 15

2.4.1 Pengurangan Pada Kawasan Waktu ... 17

2.4.2 Pengurangan Pada Kawasan Frekuensi ... 21

BAB III PENGKODEAN SUARA MPEG-4 AUDIO HVXC 3.1 Enkoder MPEG-4 Audio HVXC ... 22

3.1.1 Cara Kerja Enkoder Secara Umun ... 22

3.1.2 Normalisasi ... 24

3.1.2.1 Analisis LPC ... 24

3.1.2.2 Kuantisasi LSF ... 24

3.1.2.3 Filter Invers LPC ... 28

3.1.3 Estimasi Pitch... 28

3.1.4 Ekstralisi Magnituda Harmonik ... 29

3.1.5 Pembobotan Perceptual... 30

3.1.6 Enkoder VQ Harmonik ... 31

3.1.7 Enkoder Time Domain ... 33

3.1.8 Keputusan V/UV... 35

3.2 Dekoder MPEG-4 Audio HVXC... 35

3.2.1 Cara kerja Dekoder Secara Umum... 35

3.2.2 Mode Delay... 38

3.2.3 Dekoder LSF... 39

3.2.3.1 Mengubah Indeks ke LSF ... 39

3.2.3.2 Proses Pendekodean VQ Tanpa Prediksi Interframe... 40

3.2.3.3 Proses Pendekodean VQ Dengan Prediksi Interframe ... 41

3.2.3.4 Stabilisasi LSF... 42

3.2.4 Dekoder Kuantisasi Vektor Harmonik ... 43

3.2.5 Dekoder Time Domain ... 44

(5)

v

3.2.7 Pensintesi Komponen Voiced ... 46

3.2.8 Pensintesi Komponen Unvoiced ... 46

3.2.9 Postfilter... 47

3.3 Alokasi Bit Frame HVXC ... 47

BAB IV DATA PENGAMATAN DAN ANALISA 4.1 Simulasi ... 49

4.2 Analisis Sinyal Suara ... 50

4.2.1 Proses Awal ... 51

4.2.2 Windowing ... 53

4.2.3 Perhitungan Autokorelasi ... 54

4.2.4 Perhitungan Koefisien Prediksi Linier ... 54

4.2.5 Perhitungan Koefisien LSP dan LSF ... 55

4.2.6 Kuantisasi Koefisien LSP ... 56

4.2.7 Perhitungan Sinyal Residu LPC... 58

4.2.8 Estimasi Pitch... 60

4.2.9 Ekstraksi Magnituda Harmonik ... 60

4.2.10 Perbandingan Sinyal Pembobotan perceptual ... 61

4.2.11 Keputusan V/UV ... 63

4.2.12 Enkoder VQ harmonik ... 64

4.2.13 Enkoder Time Domain ... 64

4.2.14 Sinyal Sintesis ... 65

4.3 Pengujian Kualitas ... 66

4.3.1 Metode SNR ... 66

4.4 Perhitungan Laju bit... 68

BAB V KESIMPULAN DAN SARAN V.1 Kesimpulan ... 70

V.2 Saran ... 70

(6)

vi

DAFTAR TABEL

Halaman

Tabel 3.1 Pembagian bit LSF terkuantisasi... 28

Tabel 3.2 Pembagian bit vektor kuantisasi shape dan gain ... 43

Tabel 3.3 Pembagian bit vektor eksitasi shape dan gain ... 45

Tabel 3.4 Alokasi bit untuk laju bit 2 kbps ... 48

Tabel 4.1 Hasil autokorelasi frame ke 20... 54

Tabel 4.2 LPC frame ke 20 ... 54

Tabel 4.3 Koefisien LSP frame ke 20 ... 55

Tabel 4.4 Koefisien LSF frame ke 20 ... 56

Tabel 4.5 LSF terkuantisasi tahap pertama ... 56

Tabel 4.6 LSF terkuantisasi tahap kedua ... 57

Tabel 4.7 LSF terkuantisasi tahap ketiga ... 57

Tabel 4.8 LSP terkuantisasi tahap kedua ... 58

Tabel 4.9 LPC terkuantisasi tahap ketiga... 59

Tabel 4.10 Alokasi bit tiap frame hasil simulasi ... 68

(7)

vii

DAFTAR GAMBAR

Halaman

Gambar 2.1 Sistem pengkodean suara ... 3

Gambar 2.2 Proses pengkodean suara ... 4

Gambar 2.3 Pemodelan untuk produksi suara... 5

Gambar 2.4a Suara voice... 6

Gambar 2.4b Suara unvoice ... 6

Gambar 2.5 Pemodelan source filter dalam domain-z... 7

Gambar 2.6 Cara kerja quantizer skalar... 15

Gambar 2.7 Partisi garis bilangan 6 interval ... 15

Gambar 2.8 Cara kerja quantizer vektor ... 16

Gambar 2.9 Tahap pertama pada FFT kawasan waktu... 18

Gambar 2.10 Tahap akhir penurunan jumlah perkalian... 19

Gambar 2.11 Tahap FFT kawasan frekuensi ... 21

Gambar 3.1 Struktur frame HVXC... 22

Gambar 3.2 Blok Diagram enkoder HVXC ... 23

Gambar 3.3 Windows Sinc... 32

Gambar 3.4 Vector eXcitation Coding untuk segmen unvoiced... 34

Gambar 3.5 Blok Diagram dekoder HVXC ... 37

Gambar 3.6 Mode enkoder dan dekoder delay normal dan rendah... 38

Gambar 3.7 Dekoder LSF ... 39

Gambar 3.8 Dekoder Time Domain ... 45

Gambar 4.1 Proses simulasi pengkodean suara... 50

Gambar 4.2 Sinyal suara asli dengan ucapan “maranatha”... 50

Gambar 4.3 Sinyal suara asli setelah difilter... 51

Gambar 4.4 Frame ke 20 sinyal suara dengan ucapan “maranatha” ... 52

(8)

viii

Gambar 4.6 Spektrum frekuensi frame ke 20 sebelum di filter ... 53

Gambar 4.7 Spektrum frekuensi frame ke 20 setelah di filter ... 53

Gambar 4.8 Sinyal keluaran windows... 53

Gambar 4.9 Grafik ACF frame ke 20 ... 54

Gambar 4.10 Grafik koefisien prediksi linier... 54

Gambar 4.11 Grafik LSP sebelum terkuantisasi ... 55

Gambar 4.12 Grafik LSP sebelum terkuantisasi ... 56

Gambar 4.13 Grafik kuantisasi LSF tahap1 ... 56

Gambar 4.14 Grafik kuantisasi LSF tahap II ... 57

Gambar 4.15 Grafi kuantisasi LSF tahap III ... 57

Gambar 4.16 Grafik terkuantisasi LSF tahap III ... 58

Gambar 4.17 Grafik LPC terkuantisasi... 59

Gambar 4.18 Sinyal residu LPC ... 59

Gambar 4.19a Spektrum asli, (X)j ... 60

Gambar 4.19b Amplitudaerror estimasi,

ε

_m ... 60

Gambar 4.20 Respon magnituda dan fasa filter pembobotan W(z) ... 61

Gambar 4.21 Respon magnituda dan fasa filter sintesis LPC H(z) ... 62

Gambar 4.22 Respon magnituda filter W(z)H(z) ... 63

Gambar 4.23 Sinyal setelah melewati filter pembobotan sw(n)... 63

Gambar 4.24 Selubung spektral frame ke 20 ... 64

Gambar 4.25 Subframe 1 dan 2 dari frame ke 5... 65

Gambar 4.26 Sinyal sintesis frame ke 20 ... 66

Gambar 4.27 Grafik sinyal asli dan sinyal sintesis... 67

(9)

LAMPIRAN A

PROGRAM M-FILE PADA MATLAB 6.5.1

Program Utama

clc;

% program Mpeg-4 audio %

clear; close all; clc;

% parameter input %

Lfr = 160; %interval frame dalam sample Lan = 256; %panjang frame yang dianalisa over = 96; %overlap

file = 'maranata.wav'; %input wav file % ambil tabel

[SE_Gain,SE_Shape1,SE_Shape2,SE_Shape3,SE_Shape4,SE_Shape5,SE_Shape6]=tabel 1;

[cbL0_g,cbL_s,cbL1_g,cbL1_s,lsf_tbl,pd_tbl,d_tbl,lsf_q_enh]=tabel2; %======ENCODER======%

%inialisasi encoder%

[si_asli,fs,nbits]=wavread(file); %membaca wav file mfr=floor(length(si_asli)/Lfr); %jumlah frame maksimum dummy_si(1:over/2)=0;

si(1:length(si_asli)+over/2)=[dummy_si si_asli(:,1)']; %window hamming:

for n=1:Lan

window(n)=0.54-0.46*cos(2*pi*(n-1)/(Lan-1)); end;

[ipc_bsamp] = bsamp (window,Lan); min_gap = 4/256;

rasio_predict = 0.7; mineub = 1000000000; for i=1:10

lsf_prev(i)=(pi*(i+1)/11); end

% Inisialisasi pitch :

% Pitch =Prm(1) pitch dengan proses tracking

% Prob =Prm(2) puncak pertama dibagi puncak kedua dari autokorelasi % R0r =Prm(3) puncak pertama autokorelasi - termodifikasi

% rawR0r=Prm(4) puncak pertama autokorelasi - belum dimodifikasi % rawPch=Prm(5) pitch tanpa tracking

(10)

A-1

(11)

A-2 r = autocorr (sw_temp,10);

(12)

A-3

err201(m)=err201(m)+((lsf_res(6-j)+d_tbl(m,j)^2)*lsfWeight(6-j)); end;

for j=6:10

lsf_res(11-j)=lsf(11-j)-lsf_first(11-j);

err202(m)=err202(m)+((lsf_res(11-j)+d_tbl(m,j-5)^2)*lsfWeight(11-j)); end;

for j=1:5

err211(m)=err211(m)+((lsf_res(6-j)-d_tbl(m,j))^2)*lsfWeight(6-j); end;

for j=6:10

(13)

(14)

(15)

A-6

(16)

A-7

(17)

(18)

(19)

(20)

A-11

function [rms,ang,re,im,lev] = freq_balance(arys,SAMPLE)

% ================================================= % Fungsi untuk menghitung level sinyal dalam kawasan frekuensi % ================================================= % Fungsi untuk stabilisasi koefisien lsf pada tahap % ========================================

if (lsf_curr (j+1)-lsf_curr(j)) < min_gap lsf_curr (j+1) = lsf_curr(j)+min_gap;

(21)

(22)

A-13

(23)

(24)

1 Universitas Kristen Maranatha

BAB I

PENDAHULUAN

I.1 Latar Belakang

Berkembangnya teknologi digital untuk aplikasi-aplikasi multimedia, berbagai pengkodean sinyal suara bermunculan. Namun kebanyakan pengkodean suara yang ada hanya mendukung fungsi “kompresi” tunggal. MPEG-4 adalah standar ISO/IEC yang dibuat oleh MPEG (Moving Picture Experts Group) untuk aplikasi multimedia yang meliputi video dan audio (suara dan musik). MPEG-4 memiliki algoritma pengkodean suara dengan efisiensi pengkodean tinggi dan fungsional yang banyak berperan penting untuk efisiensi penggunaan bandwidth. Standar MPEG-4 Audio dengan metode pengkodean parametrik audio (untuk aplikasi very low bit rate) dibagi menjadi dua bagian yaitu HVXC (Harmonic Vector eXcitation Coding) untuk pengkodean sinyal suara dan HILN (Harmonic and Individual Line plus Noise) untuk pengkodean sinyal musik. Pada tulisan ini akan dibahas proses pada encoder dan decoder pengkodean sinyal suara menggunakan HVXC. Sinyal input yang digunakan memiliki bandwidth Narrowband (300-3400Hz) yang dinyatakan secara digital ke bentuk frame-frame pada frekuensi sampling 8 kHz dan bit rate tetap 2 kbps.

I.2 Identifikasi Masalah

Bagaimana kompresi sinyal suara dan kualitas sinyal suara sintesis yang dihasilkan dengan metode Harmonic Vektor Exitation Coding (HVXC)?

I.3 Tujuan

(25)

BAB I Pendahuluan 2

Universitas Kristen Maranatha I.4 Pembatasan Masalah

1. Algoritma yang digunakan untuk proses pengkodean sinyal suara adalah Harmonic Vector Exitation Coding (HVXC).

2. Sinyal input yang digunakan memiliki bandwidth 300-3400Hz. 3. Frekuensi sampling 8 kHz dan bit rate tetap 2 kbps.

4. Perangkat lunak yang dipakai dalam simulasi ini adalah MATLAB.

I.5 Sistematika Penulisan

BAB I PENDAHULUAN

Berisi latar belakang, identifikasi masalah, tujuan, pembatasan masalah, dan sistematika penulisan.

BAB II LANDASAN TEORI

Membahas teori dasar utama yang digunakan dalam membuat Tugas Akhir ini: sistem pengkodean suara, pemodelan sinyal suara, sampling dan kuantisasi.

BAB III PERANCANGAN DAN REALISASI

Membahas perancangan dan cara kerja program dalam Tugas Akhir ini: MPEG-4, perancangan pengkodean sinyal suara MPEG-4 dengan metode HVXC.

BAB IV DATA PENGAMATAN DAN ANALISA

Berisi simulasi dan analisis MPEG-4 dengan metode HVXC.

(26)

70 Universitas Kristen Maranatha

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Dari laporan tugas akhir ini dan hasil simulasi pengkode suara HVXC (Harmonic Vector eXcitation Coding) maka dapat diambil beberapa kesimpulan

sebagai berikut:

• Pengkodean suara menggunakan standar MPEG-4 dengan laju bit 2 kbps telah berhasil direalisasikan

• Hasil dekompresi sinyal suara dengan standar MPEG-4 nilai informasi yang terkandung masih dapat ditangkap cukup baik, yang diperdengarkan kepada responden.

5.2 Saran

(27)

71 Universitas Kristen Maranatha

DAFTAR PUSTAKA

1. Edter Bernd, “Very Low Bit Rate Audio Coding Development”, Laboratorium fur Informations technologie University of Hannover,Germany.

2. ISO/IEC, ‘MPEG-4 Overview”, ISOI/IEC JTCI/SC29/WGll N3536, Beijing, Juli 2000.

3. ISO/IEC, “FDIS 14496-3: MPEG-4 Audio”, ISO/IEC JTC1/SC29/WG11 N2503, October 1998.

4. Kondoz A.M., Digital Speech (Coding for low bit rate Communication Systems), November 1995.

5. Masayuki Nishiguchi, “MPEG-4 Speech Coding”, Audio and Speech Group, HomeNet Processing Lab, HomeNet Laboratories, Sony Corporation. 6. Masayuki Nishiguchi,"MPEG-4 Speech Coding", Audio and Speech Group,

Home Net Processing Inb, Home Net Laboratories, Sony Corporation

7. http://www.iis.fhg.de/amm/techinf/layer3/index.html “MPEG Audio Layer3”. 8. http://www.iis.fhg.de/amm/techinf/basics.html “Basics about MPEG

Perceptual Audio Coding”.

9. http://leonardo.telecomitalialab.com/icjfiles/mpeg-4-si/9-natural-audio paper/ speechqual.html “Coding Quality of MPEG-4 Natural Speech Coding Tools” 10.http:/ /www.iis.fhg.de/amm/techinf/basic.html :”Basics about MPEG