Analisis Pengaruh Panjang Bit Kode Pada Kinerja Program Kompresi Yang Menggunakan Algoritma Lempel Ziv Welch (LZW)

(1)

ANALISIS PENGARUH PANJANG BIT KODE PADA KINERJA PROGRAM KOMPRESI YANG MENGGUNAKAN

ALGORITMA LEMPEL ZIV WELCH (LZW)

SKRIPSI

Diajukan untuk melengkapi tugas akhir dan memenuhi syarat mencapai gelar

Sarjana Komputer

FAHRUR RAZI 041401023

PROGRAM STUDI S1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

PERSETUJUAN

Judul : ANALISIS PENGARUH PANJANG BIT KODE

PADA KINERJA PROGRAM KOMPRESI YANG MENGGUNAKAN ALGORITMA LEMPEL ZIV WELCH (LZW)

Kategori : SKRIPSI

Nama : FAHRUR RAZI

Nomor Induk Mahasiswa : 041401023

Program Studi : SARJANA (S1) ILMU KOMPUTER

Departemen : ILMU KOMPUTER

Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN

ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, 10 Maret 2009

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Drs. Haluddin Panjaitan Prof. Dr. Herman Mawengkang

NIP 130 701 888 NIP 130 442 447

Diketahui/Disetujui oleh Prog. Studi Ilmu Komputer S-1 Ketua,

(3)

PERNYATAAN

ANALISIS PENGARUH PANJANG BIT KODE PADA KINERJA

PROGRAM KOMPRESI YANG MENGGUNAKAN

ALGORITMA LEMPEL ZIV WELCH (LZW)

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya

Medan, 10 Maret 2009

(4)

PENGHARGAAN

Syukur Alhamdulillah penulis nyatakan kehadirat ALLAH SWT Yang Maha Pengasih dan Maha Penyayang, dengan limpahan rahmat dan karunia-Nya skripsi ini berhasil diselesaikan dalam waktu yang telah ditetapkan.

(5)

ABSTRAK

(6)

THE EFFECT OF CODEWORD LENGTH TO PERFORMANCE OF COMPRESSION PROGRAM USED LZW ALGORITHM

ABSTRACT

LZW algorithm is compression algorithm based on dictionary coding where codeword length is a factor that very important to performance of LZW algorithm. But compression with bad codeword length result not optimal compression ratio. Problem solving method are some codeword length are test with program based on LZW, with the result conclusion how effect codeword length to performance of compression program used LZW algorithm. Test file are Calgary Corpus and Canterbury Corpus. From research the result are in Calgary Corpus optimal codeword length is 14 bit, in Canterbury Corpus optimal codeword length is 13 bit, and in Canterbury Corpus Large File optimal codeword length is 19 bit.

(7)

DAFTAR ISI

Halaman

Persetujuan ii

Pernyataan iii

Penghargaan iv

Abstrak v

Abstract vi

Daftar Isi vii

Daftar Tabel ix

Daftar Gambar x

Bab 1 Pendahuluan 1

1.1Latar Belakang 1

1.2Perumusan Masalah 2

1.3Batasan Masalah 2

1.4Tujuan 2

1.5Manfaat 2

1.6Tinjauan Pustaka 3

1.7Metodologi Penelitian 4

1.8Sistematika Penulisan 4

Bab 2 Landasan Teori 6

2.1 Pengertian Kompresi 6

2.2 Metode Kompresi 7

2.3 Rasio Kompresi 7

2.4 Dictionary Coding 7

2.5 Algoritma Lempel Ziv 77 (LZ77) 9

2.6 Algoritma Lempel Ziv 78 (LZ78) 12

2.7 Algoritma Lempel Ziv Welch (LZW) 15

2.8 Struktur Data pada Dictionary 19

2.8.1 Struktur Data Binary Tree 19

Bab 3 Perancangan dan Implementasi Perangkat Lunak 21

3.1 Karateristik Algoritma LZW 21

3.1.1 Proses Kompresi LZW 21

3.1.2 Proses Dekompresi LZW 24

3.2 Pemodelan Fungsional 24

3.2.1 DFD Level 0 ( Context Diagram ) 25

3.2.2 DFD Level 1 26

3.2.3 DFD Level 2 27

(8)

3.2.5 Perancangan Struktur Data 31

3.2.6 Perancangan Prosedural 31

3.3 Perangkat Keras Dan Perangkat Lunak Pengujian 37

3.4 Implementasi Antarmuka 37

Bab 4 Analisis Pengaruh Panjang Bit Kode pada Kinerja Program Kompresi yang

Menggunakan Algoritma LZW 42

4.1 File Yang Dicoba 42

4.1.1 Calgary Corpus 42

4.1.2 Canterbury Corpus 43

4.2 Analisis Pengaruh Panjang Bit Kode pada Program Kompresi yang

Menggunakan Algoritma LZW 43

4.2.1 Analisis Pada Calgary Corpus 44

4.2.2 Analisis Pada Canterbury Corpus 51

4.2.3 Analisis Menggunakan Canterbury Corpus Large File 53

Bab 5 Penutup 56

5.1 Kesimpulan 56

5.2 Saran 56

(9)

DAFTAR TABEL

Halaman

Tabel 2.1 Proses kompresi 17

Tabel 2.2 Proses dekompresi 19

Tabel 3.1 Contoh proses kompresi 22

Tabel 3.2 Contoh proses dekompresi 24

Tabel 3.3 Spesifikasi proses context diagram perangkat lunak kompresi LZW 26

Tabel 3.4 Spesifikasi proses diagram level 1 P.0 27

Tabel 3.7 Kamus data 30

Tabel 4.1 Daftar ukuran file pada Calgary Corpus 45

Tabel 4.2 Hasil pengujian rata-rata rasio algoritma LZW pada Calgary Corpus 46 Tabel 4.3 Hasil pengujian waktu proses rata-rata kompresi algoritma LZW pada

Calgary Corpus 48

Tabel 4.4 Jumlah item rata-rata proses kompresi algoritma LZW pada Calgary

Corpus 50

Tabel 4.5 Daftar ukuran file pada Canterbury Corpus 51

(10)

DAFTAR GAMBAR

Halaman

Gambar 2.1 Ilustrasi contoh cara kerja algoritma LZ77 9

Gambar 2.2 Ilustrasi penggeseran window pada algoritma LZ77 10

Gambar 2.3 Ilustrasi penggunaan token (offset,length) 10

Gambar 2.4 Ilustrasi contoh fragmen lookahead yang terdapat pada history 11

Gambar 2.5 Ilustrasi implementasi dari algoritma LZ77 12

Gambar 2.6 Ilustrasi proses encoding algoritma LZ78 14

Gambar 2.7 Ilustrasi proses decoding algoritma LZ78 15

Gambar 2.8 Ilustrasi binary tree 20

Gambar 3.1 Ilustrasi binary tree pada proses kompresi 23

Gambar 3.2 DFD level 0 25

Gambar 3.3 DFD level 1 26

Gambar 3.4 DFD level 2 Proses P.1 27

Gambar 3.5 DFD level 2 Proses P.2 28

Gambar 3.6 Flowchart proses encoding algoritma LZW 33

Gambar 3.7 Flowchart proses decoding algoritma LZW 36

Gambar 3.8 Tampilan halaman utama 38

Gambar 3.9 Tampilan proses kompresi 39

Gambar 3.10 Tampilan proses dekompresi 39

Gambar 3.11 Tampilan pencarian file 40

Gambar 3.12 Tampilan bantuan 41

Gambar 4.1 Grafik rasio rata-rata hasil kompresi algoritma LZW pada

Calgary Corpus 47

(11)

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi komputer yang sangat pesat menyebabkan data digital

menjadi media yang umum dalam masyarakat. Pemakaian data digital ini meliput i

seluruh lapisan masyarakat mulai dari perseorangan, lembaga, dan bisnis. Pemakaian

data digital sangat efektif karena pada media dengan ukuran relatif kecil kita dapat

menyimpan sangat banyak berkas dibandingkan pada media kertas yang berukuran

relatif lebih besar.

Akan tetapi media penyimpanan data digital memiliki keterbatasan dalam

ukuran data yang dapat disimpan. Sedangkan data digital terus bertambah besar dan

banyak sehingga pada suatu saat media penyimpanan data digital akan penuh oleh

data digital tersebut.

Pengiriman data digital membutuhkan bandwidth dalam pengirimannya dan

bandwidth tersebut memerlukan biaya. Sehingga semakin besar data digital yang

dikirim maka makin besar pula biaya yang dikeluarkan. Oleh karena sebab-sebab

inilah maka kompresi data menjadi solusi tepat dalam menghemat pemakaian

perangkat keras serta menurunkan biaya pengiriman data melalui internet. Selain lebih

murah juga mengirim data yang telah terkompresi akan lebih cepat karena ukuran file

telah diperkecil.

Menurut Yair Wiseman algoritma Lempel Ziv terbagi atas dua kelompok.

Kelompok pertama didasarkan pada penggunaan referensi pada data yang berulang,

kelompok ini kemudian dikenal dengan LZ77 dan kelompok yang kedua

(12)

data, grup ini dikenal dengan LZ78. Menurut David Salomon algoritma LZW adalah

varian dari algoritma LZ78.

Menurut Yair Wiseman algoritma LZW merupakan algoritma yang

menggunakan pointer. Dan jumlah bit yang digunakan pointer akan mempengaruhi

efesiensi kompresi dari kedua algoritma tersebut. Analisis akan dilakukan dengan

mencoba jumlah bit pointer yang berbeda-beda sehingga dapat disimpulkan jumlah bit

mana yang paling tepat pada jenis file tertentu.

1.2. Rumusan Masalah

Dari latar belakang diatas dapatlah dirumuskan masalah yang menjadi latar belakang

tugas akhir ini, yaitu bagaimana pengaruh panjang bit kode pada kinerja program

kompresi yang menggunakan algoritma LZW dimana kinerja tersebut diukur dengan

parameter rasio file hasil kompresi dan waktu yang dibutuhkan untuk proses kompresi

dan dekompresi.

1.3. Batasan masalah

Batasan masalah adalah file-file yang dicoba terbatas pada Calgary Corpus dan

Canterbury Corpus sebagai set file yang digunakan.

1.4. Tujuan

Tujuan dari penulisan tugas akhir ini adalah untuk mengetahui pengaruh panjang bit

kode pada program kompresi yang menggunakan algoritma LZW.

(13)

Manfaat dari penulisan Tugas Akhir ini menambah pengetahuan bagaimana pengaruh

panjang bit kode pada program kompresi yang menggunakan algoritma LZW.

1.6. Tinjauan Pustaka

Menurut David Salomon kompresi data adalah proses pengkodean informasi dengan

menggunakan bit yang lebih sedikit dibandingkan dengan kode yang sebelumnya

dipakai dengan menggunakan skema pengkodean tertentu. Kompresi data, terutama

untuk komunikasi, dapat bekerja jika kedua pihak antara pengirim dan penerima data

komunikasi memiliki skema pengkodean yang sama (Salomon, 2005).

Menurut Mengyi (2006, hal:117) Dictionary Coding adalah metode yang

menggunakan sekumpulan daftar frase (kamus), yang diharapkan berisikan banyak

frase yang terdapat pada file sumber, dimana kamus digunakan untuk menggantikan

fragmen dari sumber dengan pointer kamus tersebut. Kompresi hanya dapat dilakukan

jika pointer yang dibutuhkan kurang dari ukuran fragmen tersebut. Dalam banyak hal,

metode dictionary lebih mudah dimengerti daripada metode probabilistik.

Algoritma Lempel Ziv ini terbagi atas dua varian utama yaitu LZ77 dan LZ78.

Perbedaan utama kedua algoritma ini adalah pada teknik pembuatan dictionary. Pada

LZ77 dictionary adalah fragmen dari sebuah window (sliding window). LZ78

menggunakan frase-frase yang pada file sebagai dictionary. Algoritma LZW adalah

varian dari algoritma LZ78. Keunggulan masing-masing adalah algoritma LZ78

menggunakan struktur data yang lebih kompleks dalam mengelola penyimpanan

dictionary, LZ77 mengubah dengan cepat dictionary dan lebih cepat pada saat

decoding. Pada aplikasi pemilihan skema dapat sangat kompleks karena telah

dipatenkan (Hankerson et al, 2003).

Algoritma Lempel-Ziv-Welch (LZW) menggunakan teknik adaptif dan

berbasiskan “kamus” Pendahulu LZW adalah LZ77 dan LZ78 yang dikembangkan

(14)

mengembangkan teknik tersebut pada tahun 1984. LZW banyak dipergunakan pada

UNIX, GIF, V.42 untuk modem.

Algoritma ini bersifat adaptif dan efektif karena banyak karakter dapat

dikodekan dengan mengacu pada string yang telah muncul sebelumnya dalam teks.

Prinsip kompresi tercapai jika referensi dalam bentuk pointer dapat disimpan dalam

jumlah bit yang lebih sedikit dibandingkan string aslinya. Panjang bit yang digunakan

akan berpengaruh pada rasio hasil kompresi maupun kecepatan kompresi.

1.7. Metodologi Penelitian

Metodologi penelitian yang digunakan adalah metodologi penelitian komparatif.

Dimana untuk menunjukkan pengaruh panjang bit kode pada kinerja program

kompresi yang menggunakan algoritma LZW, beberapa panjang bit kode dicoba

untuk dibandingkan. Kinerja program kompresi tersebut diukur dari rasio file hasil

kompresi dan waktu proses yang dibutuhkan. Setelah dibandingkan maka dari hasil

tersebut dibuat grafik untuk mempermudah analisis pengaruh panjang bit kode pada

program kompresi yang menggunakan algoritma LZW. Dan kemudian disimpulkan

bagaimana pengaruh panjang bit kode pada program kompresi yang menggunakan

algoritma LZW. File-file yang digunakan dalam perbandingan ini adalah Calgary

Corpus dan Canterbury Corpus.

1.8. Sistematika Penulisan

Dalam penulisan tugas akhir ini, Penulis membagi sistematika penulisan menjadi 5

Bab, yang lebih jelasnya dapat dilihat di bawah ini :

BAB 1 PENDAHULUAN

Berisi tentang latar belakang diambilnya judul Tugas Akhir “Pengaruh

(15)

Algoritma Lempel Ziv Welch”, rumusan masalah, batasan masalah,

tujuan, manfaat, tinjauan pustaka, metodologi penelitian, dan

sistematika penulisan Tugas Akhir yang menjelaskan secara garis besar

susbstansi yang diberikan pada masing-masing bab.

BAB 2 LANDASAN TEORI

Membahas tentang pengertian pemampatan data (file compression)

secara umum, metode dan cara kerja dari algoritma LZW.

BAB 3 PERANCANGAN DAN IMPLEMENTASI PERANGKAT

LUNAK

Membahas bagaimana perancangan program kompresi. Dimana

perancangan sangat penting dalam pembuatan sebuah program. Pada

bab ini juga dibahas mengenai hasil implementasinya pada perangkat

lunak.

BAB 4 ANALISIS PENGARUH PANJANG BIT KODE PADA KINERJA PROGRAM KOMPRESI YANG MENGGUNAKAN ALGORITMA LZW

Membahas bagaimana pengaruh panjang bit kode pada program

kompresi yang menggunakan algoritma LZW. Program yang telah

implementasi sebelumnya kemudian digunakan sebagai alat penguji.

Panjang bit kode yang berbeda-beda akan dicoba untuk mendapatkan

kesimpulan.

BAB 5 KESIMPULAN DAN SARAN

(16)

BAB 2

LANDASAN TEORI

2.1 Pengertian Kompresi

Menurut David Salomon kompresi data adalah proses pengkodean informasi dengan

menggunakan bit yang lebih sedikit dibandingkan dengan kode yang sebelumnya

dipakai dengan menggunakan skema pengkodean tertentu. Kompresi data, terutama

untuk komunikasi, dapat bekerja jika kedua pihak antara pengirim dan penerima data

komunikasi memiliki skema pengkodean yang sama (Salomon, 2005).

Pemampatan merupakan salah satu dari bidang teori informasi yang bertujuan

untuk menghilangkan redundansi dari sumber. Pemampatan bermanfaat dalam

membantu mengurangi konsumsi sumber daya yang mahal, seperti ruang hard disk

atau perpindahan data melalui internet (Nelson, 1996).

Kompresi data ditujukan untuk mereduksi penyimpanan data yang redundan

atau merepresentasikan kembali data tersebut kedalam bentuk yang lebih efisien dari

segi kapasitas. Kompresi data terdiri dari dua kategori yaitu kompresi lossy dan

lossless, dan pada citra digital kompresi jenis lossy yang sering digunakan. Kompresi

jenis lossy merupakan suatu teknik kompresi yang pada prosesnya menghilangkan

sebagian dari data sehingga file tidak dapat dikembalikan secara utuh, sebaliknya

kompresi lossless merupakan teknik kompresi yang tetap mempertahankan informasi

asli dari suatu data secara utuh. Pada citra digital kompresi lossy merupakan kategori

yang sering digunakan. Akan tetapi tidak menutup kemungkinan untuk melakukan

(17)

2.2 Metode Kompresi

Terdapat banyak metode kompresi dan metode-metode tersebut dapat dibagi menjadi:

1. Metode Lossless

Menurut Mengyi (2006, hal:5) kompresi lossless adalah kompresi data yang

menghasilkan file data hasil kompresi yang dapat dikembalikan menjadi file

data asli sebelum dikompresi secara utuh tanpa perubahan apapun. Kompresi

jenis ini ideal untuk kompresi teks. Algoritma yang termasuk dalam metode

kompresi lossless diantaranya adalah dictionary coding dan huffman coding.

2. Metode Lossy

Menurut Mengyi (2006, hal:6) kompresi data yang menghasilkan file data hasil

kompresi yang tidak dapat dikembalikan menjadi file data sebelum dikompresi

secara utuh. Ketika data hasil kompresi di-decode kembali, data hasil decoding

tersebut tidak dapat dikembalikan menjadi sama dengan data asli tetapi ada

bagian data yang hilang.

2.3 Rasio Kompresi

Menurut Mengyi (2006, hal:11) rasio kompresi adalah ukuran dari output stream

dibagi dengan ukuran dari input stream. Misalnya nilai rasio kompresi adalah 0.6 itu

berarti data yang terkompres menggunakan hanya 60% dari ukuran sebenarnya. Dan

nilai rasio kompresi yang lebih dari 1 berarti data yang dikompres malah membesar.

Rasio = 100%

_ _ _ _ ×     asli file Ukuran i terkompres file Ukuran

( 2.1 )

(18)

Menurut Mengyi (2006, hal:117) Dictionary Coding adalah metode yang

menggunakan sekumpulan daftar frase (kamus), yang diharapkan berisikan banyak

frase yang terdapat pada file sumber, dimana kamus digunakan untuk menggantikan

fragmen dari sumber dengan pointer kamus tersebut. Kompresi hanya dapat dilakukan

jika pointer yang dibutuhkan kurang dari ukuran fragmen tersebut. Dalam banyak hal,

metode dictionary lebih mudah dimengerti daripada metode probabilistik.

Metode dictionary yang termudah dibuat adalah metode dengan menggunakan

kamus yang tetap (statis) dimana kamus ini telah ada pada coder dan decoder. Untuk

file teks misalnya teks bahasa inggris, beberapa ribu kata yang paling sering

digunakan sebagai dictionary. Jika file sumber adalah file yang berisi kode sumber

sebuah bahasa pemrograman tertentu misalnya bahasa C, maka daftar keyword dan

standard library function dapat digunakan sebagai dictionary. Dictionary yang tetap

(statis) lebih baik untuk situasi tertentu, tetapi setidaknya terdapat dua permasalahan

serius. Penambahan, perubahan, penghapusan pada dictionary harus mengubah juga

seluruh program kompresi yang telah tersebar luas. Permasalah kedua adalah

dictionary yang statis tidak dapat melakukan kompresi pada teks yang tidak terdapat

pada dictionary. Misalnya bahasa pemrograman C, dimana kompresi tidak dapat

dilakukan pada nama variabel yang dibuat oleh programer (Hankerson et al, 2003).

Hal yang terpenting pada metode Dictionary adalah bagaimana menciptakan

algoritma yang dapat mengadaptasi seluruh jenis file sumber, dan biasanya untuk

melakukan harus dilakukan scan pada file tersebut. Akan tetapi, komunikasi melalui

modem yang misalnya V.42bis dimana penggunaan dictionary yang statis tidak

digunakan melainkan penambahan dictionary akan dilakukan secara on-the-fly

(Hankerson et al, 2003).

Metode Adaptive dictionary ditemukan oleh Ziv dan Lempel pada tahun 1977

dan 1978. Sehingga kedua algoritma tersebut kemudian dikenal luas sebagai LZ77 dan

LZ78. Algoritma LZ77 telah diaplikasikan pada Lharc, PKZIP, GNU zip, Info-ZIP,

(19)

didesain sebagai penerus dari GIF. Algoritma LZ78 telah digunakan pada standar

komunikasi modem (V.42bis), dan program kompres Unix bernama compress, dan

pada GIF format file citra (Hankerson et al, 2003).