IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN
LONGEST COMMON SUBSEQUENCES (LCS)
SKRIPSI
FILBERT NICHOLAS
101402066
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi
FILBERT NICHOLAS 101402066
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : IDENTIFIKASI TIPE FILE DARI FILE
FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
Kategori : SKRIPSI
Nama : FILBERT NICHOLAS
Nomor Induk Mahasiswa : 101402066
Program Studi : S1 TEKNOLOGI INFORMASI
Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. Prof. Dr. Opim Salim Sitompul, M.Sc NIP 19860303 201012 1 004 NIP 19610817 198701 1 001
Diketahui/Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
PERNYATAAN
IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 23 Maret 2015
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan kehadirat Tuhan Yang Maha Esa atas berkat dan rahmat yang telah diberikan sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Universitas Sumatera Utara.
Penulis mengucapkan banyak terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul selaku dosen pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc, M.Sc. selaku dosen pembimbing kedua yang telah membimbing, memberi kritik dan saran kepada penulis selama proses penelitian serta penulisan skripsi. Tanpa inspirasi serta motivasi dari kedua dosen pembimbing, tentunya penulis tidak akan mampu menyelesaikan skripsi ini. Penulis juga mengucapkan terima kasih kepada Ibu Sarah Purnamawati, ST., M.Sc. selaku dosen pembanding pertama dan Bapak Dani Gunawan ST., MT. sebagai dosen pembanding kedua yang telah membantu memberikan kritik dan saran yang membantu penulis dalam pengerjaan skripsi ini. Ucapan terima kasih juga penulis tujukan pada semua dosen, pegawai serta staff pada program studi S1 Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan.
Penulis juga berterima kasih terutama kepada kedua orang tua penulis, Bapak Thomas Udjung serta Ibu Jap Mie Giok yang telah membesarkan penulis dengan sabar dan penuh kasih sayang. Penulis juga berterima kasih kepada seluruh anggota keluarga penulis yang namanya tidak dapat disebutkan satu per satu.
ABSTRAK
Analis forensik komputer merupakan pihak yang melakukan investigasi dan pencarian barang bukti digital. Pada kasus tertentu, file yang dibutuhkan sebagai barang bukti digital untuk proses pengadilan telah dihapus. Pada saat proses restore, header file dari file tersebut seringkali hilang atau bahkan file tersebut tidak diketahui tipe file-nya sehingga mempersulit proses rekonstruksi file. Metode identifikasi file fragment melalui ekstensi nama file tidak dapat dilakukan dikarenakan kemungkinan besar file fragment kehilangan header file. Atas dasar ini, metode identifikasi tipe file dari file fragment menjadi hal yang
penting. Metode yang diajukan pada penelitian ini adalah penggunaan metode Longest Common Subsequences, dengan melalui tiga tahap, yaitu tahap training, testing, dan validasi. Pada penelitian ini ditunjukkan bahwa metode yang diajukan mampu melakukan identifikasi tipe file dari file fragment dengan hasil akurasi 92.91% untuk tiga jenis tipe data.
FILE TYPE IDENTIFICATION FROM FILE FRAGMENT USING LONGEST COMMON SUBSEQUENCES (LCS)
ABSTRACT
Computer forensic analyst is a person in charge of investigation and evidence tracking. In certain cases, the file that is needed for digital evidence to be presented to court was deleted. While the file is being restored, it is often lost its header and cannot be identified, therefore it is hard to reconstruct the file. For this reason, a method for file fragment‟s file type identification is needed. The method proposed in this research is using Longest Common Subsequences, consists of three steps: training, testing and validation. In this
research, it can be seen that this method works well and achieves 92.91% accuracy of identifying the file type of file fragment for three data types.
DAFTAR ISI
Hal.
Persetujuan ii
Pernyataan iii
Ucapan Terima Kasih iv
Abstrak v
1.3 Tujuan Penelitian 2
1.4 Batasan Masalah 3
1.5 Manfaat Penelitian 3
1.6 Metodologi Penelitian 3
1.7 Sistematika Penulisan 4
BAB 2 Landasan Teori 6
2.1 Forensik Digital 6
2.2 File 7
2.2.1. File Types and Format 8
2.2.2.File Type Validation 10
2.2.3.File Fragment 10
2.2.4.File Recovery 12
2.3 Jenis-Jenis File 13
2.3.2.RTF 16
2.2.7.DOC 17
2.4 Binary File 18
2.5 Longest Common Subsequences 20
BAB 3 Analisis dan Perancangan Sistem 26
3.1 Arsitektur Umum 26
3.1.1. Fase Training 27
3.1.2. Fase Testing 29
3.1.3. Fase Validasi 29
3.2 Membaca Hex Number dan Generate String 30
3.3 Aplikasi Algoritma LCS 31
3.4 Perhitungan Rata-Rata Persentase untuk Mendapatkan Tipe File 33
3.5 Validasi 34
3.6 Dataset 35
3.7 Proses Pengecekan Akurasi 37
BAB 4 Implementasi dan Pengujian Sistem 38
4.1 Hasil Training 38
Lampiran A : List File untuk Fase Training 54
DAFTAR TABEL
Hal. Tabel 2.1. Contoh Signature File pada Header file 8 Tabel 2.2. Komposisi Struktur dari file PDF (Roussev & Garfinkel, 2009) 15
Tabel 3.1. Tabel Perbandingan LCS 31
Tabel 3.2. Tabel Rumus Apabila String Cocok 32
Tabel 3.3. Tabel Rumus Apabila String tidak Cocok 32
Tabel 3.4. Tabel Hasil Perbandingan LCS 32
Tabel 3.5. Spesifikasi file-file data penelitian untuk fase training 36 Tabel 3.6. Spesifikasi file-file data penelitian untuk fase testing 36 Tabel 4.1. Tabel Perbandingan LCS File Utuh dengan File Fragment 40 Tabel 4.2. Tabel Perbandingan LCS Trailer File Utuh dengan File Fragment 41 Tabel 4.2. Tabel Perbandingan LCS Trailer File Utuh dengan File Fragment
(lanjutan) 42
Tabel 4.3. Tabel Akurasi Hasil Pengujian dengan Data Uji File Utuh 43 Tabel 4.4. Tabel Akurasi Hasil Pengujian dengan Data Uji File Fragment 44
Tabel 4.5. Tabel Spesifikasi File HTML 47
Tabel 4.6. Hasil Identifikasi File HTML 47
Tabel 4.7. Tabel Hasil Identifikasi HTML Setelah Training 47
DAFTAR GAMBAR
Hal.
Gambar 2.1. Ilustrasi hex number file terpotong 11
Gambar 2.2. Ilustrasi hex number file tertimpa file lain 11 Gambar 2.3. Komponen dari file PDF (Adobe, 2008) 14 Gambar 2.4. Contoh rangkaian hex number dari random PDF
(Roussev & Garfinkel, 2011) 15
Gambar 2.5. Contoh rangkaian hex number dari random RTF 17 Gambar 2.6. Contoh rangkaian hex number dari random DOC 18
Gambar 2.7. Binary pada file PDF 19
Gambar 2.8. Hex pada file PDF 20
Gambar 2.9. Kesamaan substring S1 dan S2 22
Gambar 2.10. Tabel X dan Y 23
Gambar 2.11. Gambar ilustrasi perhitungan LCS 24
Gambar 3.1. Arsitektur umum fase training 28
Gambar 3.2. Arsitektur umum fase testing 29
Gambar 3.3. Arsitektur umum fase validasi 30
Gambar 4.1. Hasil training LCS PDF 39
Gambar 4.2. Hasil training LCS RTF 39