• Tidak ada hasil yang ditemukan

Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine

N/A
N/A
Protected

Academic year: 2019

Membagikan "Identifikasi File Dokumen Berdasarkan Konten Menggunakan Distributed Autonomous Neuro-Gen Learning Engine"

Copied!
14
0
0

Teks penuh

(1)

IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

SKRIPSI

AARON 101402027

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(2)

IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

AARON 101402027

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(3)

PERSETUJUAN

Judul : IDENTIFIKASI FILE DOKUMEN BERDASARKAN

KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING

ENGINE

Kategori : SKRIPSI

Nama : AARON

Nomor Induk Mahasiswa : 101402027

Program Studi : S1 TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Romi Fadillah Rahmat, B.Comp.Sc M.Sc Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19860303 201012 1 004 NIP. 19610817 198701 1 001

Diketahui/disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

(4)

PERNYATAAN

IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 25 Mei 2014

(5)

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikah kehadirat Tuhan Yang Maha Esa yang telah memberikan rahmat serta restu-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi.

Pertama, penulis ingin mengucapkan terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc. M.Sc selaku pembimbing kedua yang telah membimbing penulis dalam penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari kedua pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini. Penulis juga mengucapkan terima kasih kepada Bapak Muhammad Fadly Syahputra, B.Sc. M. Sc. IT sebagai dosen pembanding pertama dan Bapak M. Anggia Muchtar, ST. MM.IT sebagai dosen pembanding kedua yang telah memberikan masukan serta kritik yang bermanfaat dalam penulisan skripsi ini. Ucapan terima kasih juga ditjukan kepada semua dosen serta semua pegawai pada program studi S1 Teknologi Informasi, yang telah membantu serta membimbing penulis selama proses perkuliahan.

Penulis tentunya tidak lupa berterima kasih kepada kedua orang tua penulis, Bapak penulis Amin Maslim, serta Alm. Ibu Miwana Agus yang telah membesarkan penulis dengan sabar dan penuh cinta. Terima kasih juga penulis ucapkan kepada adik penulis, Vincent Maslim, yang selalu memberikan dukungan kepada penulis. Penulis juga berterima kasih kepada seluruh anggota keluarga penulis yang namanya tidak dapat disebutkan satu satu.

(6)

ABSTRAK

Identifikasi jenis file merupakan salah satu tahapan yang dilakukan pada forensik komputer terutama identifikasi jenis file dokumen, dimana identifikasi jenis file merupakan proses mengetahui format dari sebuah file sehingga dapat didapatkan jenis file sebenarnya dari file tersebut. Metode-metode identifikasi jenis file berdasarkan magic bytes dan ekstensi nama file sangat mudah dikelabui dengan melakukan pemalsuan file sederhana, seperti pengubahan ekstensi nama file ataupun pengubahan beberapa byte awal sebuah file. Atas dasar hal ini, metode identifikasi jenis file berdasarkan konten menjadi sangat penting. Metode yang diajukan pada penelitian ini adalah penggunaan fitur Byte Frequency Distribution, dilanjutkan dengan ekstraksi fitur dengan Principal Component Analysis dan implementasi mesin pembelajaran Distributed Autonomous Neuro-Gen Learning Engine dalam melakukan identifikasi jenis file dokumen berdasarkan konten. Pada penelitian ini ditunjukkan bahwa metode yang diajukan mampu melakukan identifikasi file dokumen dengan hasil akurasi yang cukup baik untuk lima jenis file dokumen.

Kata kunci: forensik digital dan komputer, identifikasi file berbasis konten, Principal Component Analysis, Distributed Autonomous Neuro-Gen Learning Engine, Distributed

(7)

CONTENT-BASED DOCUMENT FILE TYPE IDENTIFICATION USING

DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE

ABSTRACT

File type identification is one of the phases being done in computer forensics, especially document file type identification. File type identification is a process of knowing the format of a file to determine the real file type of the file. File identification methods based on magic bytes and file name extension are easily spoofed by simple file forgery such as changing the file name extension or editing the first few bytes of a file. A content-based file type identification method become very important because of the fact stated before. The method proposed in this research consists of using Byte Frequency Distribution of a file as features, using Principal Component Analysis for dimensionality reduction of features and finally implementing a Distributed Autonomous Neuro-Gen Learning Engine in identifying a document file based on its content. In this research, it is shown that the proposed method is capable of identifying document files with good accuracy for five types of document files.

(8)
(9)

2.3. File 8

2.3.1. Identifikasi Format File 8

2.3.2. File forgery 13

2.4. Normalisasi 14

2.5. Companding Function 16

2.6. Ekstraksi Fitur menggunakan Principal Component Analysis 16

2.7. Artificial Neural Network 19

2.7.1. Kelemahan Artificial Neural Network 21

2.7.1. Multilayer Perceptron 21

2.8. Distributed Autonomous Neuro-Gen Learning Engine 24

2.8.1. Gene Regulatory Engine 25

2.8.2. Distributed Adaptive Neural Network 30

BAB 3 Analisis dan Perancangan 32

3.1. Arsitektur Umum 32

3.2. Dataset 34

3.3. Pre-process 35

3.3.1. Kalkulasi Byte Frequency Distribution 36

3.3.2. Normalisasi Byte Frequency Distribution 36

3.3.3. Kompresi dan Ekspansi Byte Frequency Distribution 37

3.3.4. Principal Component Analysis 40

3.4. Implementasi Distributed Autonomous Neuro-Gen Learning Engine 40

3.4.1. Implementasi jaringan 41

3.4.2. Parameter pelatihan yang digunakan 42

(10)

3.4.4. Modifikasi 43

3.4.5. Target output 44

BAB 4 Implementasi dan Pengujian 45

4.1. Hasil dari DANN 45

4.2. Hasil dari GRE 48

4.2.1. Hasil objective function 49

4.2.2. Hasil dari regulator mutasi 50

4.2.3. Hasil fitness function 53

4.3. Hasil pengujian 53

BAB 5 Kesimpulan dan Saran 57

5.1. Kesimpulan 57

5.2. Saran 58

Daftar Pustaka 59

Lampiran A: Source Code Aplikasi Client 62

(11)

DAFTAR TABEL

Hal.

Tabel 2.1. Daftar magic bytes untuk beberapa jenis file dokumen 10

Tabel 3.1. Spesifikasi file-file yang digunakan sebagai data penelitian 34

Tabel 3.2. Spesifikasi training dataset 35

Tabel 3.3. Spesifikasi testing dataset 35

Tabel 3.4. Tabel BFD untuk file sampel 37

Tabel 3.5. Tabel BFD hasil normalisasi 37

Tabel 3.6. Tabel BFD hasil kompresi dan ekspansi 39

Tabel 3.7. Tabel fitur hasil ekstraksi metode PCA 40

Tabel 3.8. Nilai-nilai parameter DANGLE 42

Tabel 3.9. Partisi data untuk setiap node 43

Tabel 3.10. Target output untuk setiap jenis file 44

Tabel 4.1. Hasil akhir gen node 1 45

Tabel 4.2. Hasil akhir gen node 2 46

Tabel 4.3. Hasil akhir gen node 3 46

Tabel 4.4. Hasil akhir gen node 4 46

Tabel 4.5. Hasil akhir gen node 5 47

Tabel 4.6. Akurasi hasil pelatihan untuk setiap node pada generasi ke-6 48

Tabel 4.7. Hasil akurasi untuk setiap jenif file pada pengujian menggunakan

dataset pelatihan 54

Tabel 4.8. Hasil akurasi untuk setiap jenif file pada pengujian menggunakan

dataset pengujian 54

(12)

Tabel 4.10. Confusion Matrix untuk dataset pengujian 55

Tabel 4.11. Hasil akurasi untuk setiap jenis file pada pengujian menggunakan

(13)

DAFTAR GAMBAR

Hal.

Gambar 2.1. Distribusi Frekuensi untuk dua file rtf yang berbeda (McDaniel, 2001) 12

Gambar 2.2. Distribusi Frekuensi untuk dua file gif yang berbeda (McDaniel, 2001) 12

Gambar 2.3. Arsitektur umum sebuah jaringan saraf tiruan (Negnetvisky, 2005) 20

Gambar 2.4. Fungsi aktivasi dari sebuah neuron (Negnetvisky, 2005) 20

Gambar 2.5. Arsitektur Multilayer Perceptron dengan dua hidden layer

(Negnetvisky, 2005) 22

Gambar 2.6. Arsitektur Gene Regulatory Engine (Rahmat, 2008) 25

Gambar 2.7. Diagram lengkap model GRE (Rahmat, 2008) 26

Gambar 2.8. Node Behavior’s Gene (Pasha, 2010) 27

Gambar 2.9. Neural Network’s Gene (Rahmat, 2008) 27

Gambar 2.10.Arsitektur umum dari Distributed Autonomous Neural Network

(Rahmat, 2008) 31

Gambar 3.1. Arsitektur umum metode yang diajukan 33

Gambar 3.2. Grafik BFD hasil normalisasi 38

Gambar 3.3. Grafik BFD hasil kompresi dan ekspansi 39

Gambar 3.4. Rancangan jaringan implementasi DANGLE 41

Gambar 4.1. Hasil output untuk setiap node pada setiap generasi 48

Gambar 4.2. Hasil RMSE untuk setiap node pada setiap generasi 49

Gambar 4.3. Mutasi Epoch pada setiap node untuk setiap generasi 50

Gambar 4.4. Mutasi jumlah hidden layer pada setiap node untuk setiap generasi 51

Gambar 4.5. Mutasi jumlah neuron hidden layer 1 pada setiap node untuk

(14)

Gambar 4.6. Mutasi jumlah neuron hidden layer 2 pada setiap node untuk

setiap generasi 52

Gambar 4.7. Mutasi jumlah neuron hidden layer 3 pada setiap node untuk

setiap generasi 52

Referensi

Dokumen terkait

halaman awal dari sistem keamanan ini setelah user melakukan login. Pada form menu utama terdapat menu-menu yang dapat digunakan untuk menjalankan sistem keamanan

Dalam penelitian ini yang menjadi rumusan masalah adalah: Apakah penerapan model konseling Reality Therapy dapat mengatasi siswa yang suka berkelahi di kelas

Indeks kepuasan konsumen merupakan hal yang sangat penting untuk mengukur kepuasan konsumen dalam melakukan suatu transaksi karena konsumen dapat memberikan

Tesis yang berjudul :” PARTISIPASI ANGGOTA KELOMPOK WANITA TANI DALAM KEGIATAN OPTIMALISASI PEMANFAATAN PEKARANGAN DI KOTA BOGOR PROVINSI JAWA BARAT” ini adalah karya penelitian

Bali Mandalaika Tours (Puma Tour) Jl. Hang Tuah Raya, No. Barata Tours & Travel... Jl. Hang Tuah The Grand bali Beacsh

4.4.2 Menyusun teks information report lisan dan tulis, sangat pendek dan sederhana, terkait topik yang tercakup dalam mata pelajaran lain di Kelas IX, dengan

Band indie Utopia sebagai karakter image pada channel identity ini dimaksudkan sebagai perwujudan bahwa MTV dapat memasuki berbagai genre musik yang ada dan dapat

Hukum memiliki batas dalam efektivitasnya (degree of compliance). Terdapat kecenderungan umum di berbagai negara untuk membuat peraturan perundangan tanpa melakukan