BAB 1 PENDAHULUAN Latar Belakang

(1)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Identifikasi file adalah proses yang dilakukan untuk memahami urutan dari byte-byte yang menyusun sebuah file, sehingga jenis file sebenarnya dari file tersebut dapat diketahui. Identifikasi file merupakan salah satu tahapan dari prosedur forensik digital yang diterapkan pada kasus kriminal untuk mendapatkan barang bukti digital yang valid digunakan dalam proses pengadilan.

Pada kasus-kasus kriminal, seperti kasus korupsi, file-file dokumen yang tersimpan dalam hard disk komputer dapat dijadikan sebagai barang bukti. Tetapi pada kenyataannya dalam mengumpulkan file-file dokumen yang dapat menjadi bukti digital tersebut, para penyidik seringkali mengalami kesulitan karena dilakukannya

file forgery oleh pihak tersangka. File forgery adalah pemalsuan file-file dokumen

yang dapat menjadi bukti digital sehingga file-file dokumen tersebut tidak dapat dikenali sebagai file dokumen dengan mudah.

Cara paling sederhana yang digunakan dalam file forgery adalah mengubah ekstensi dari file. File-file dokumen yang telah diubah ekstensinya menjadi tidak dapat dikenali secara langsung apabila di-browse melalui file browser saja, sebagai contoh sebuah file dokumen dengan ekstensi doc diganti extensinya menjadi jpg, file browser tidak lagi mengenali file tersebut sebagai file dokumen melainkan mengenalinya sebagai sebuah file citra. Hal ini dikarenakan file browser sistem operasi secara umum mengenali jenis dari sebuah file hanya dari ekstensi file tersebut.

Salah satu cara untuk mengidentifikasi jenis file sebenarnya dari file dokumen yang telah diubah ekstensinya ini dapat dilakukan dengan mengecek magic

bytes dari file tersebut (Hickok, et al. 2005). Magic Bytes adalah beberapa byte awal

dari sebuah file yang menunjukkan isi dari file tersebut. Misalnya file dokumen dengan ekstensi doc memiliki magic bytes: “D0 CF 11 E0 A1 B1 1A E1”. Akan tetapi, cara identifikasi ini memiliki kelemahan yakni magic bytes dari sebuah file

(2)

dapat diubah dengan mudah menggunakan hex editor, sehingga identifikasi jenis file tidak dapat dilakukan.

Selain mengidentifikasi jenis file dari magic bytes, identifikasi jenis file juga dapat dilakukan melalui konten dari file menggunakan N-gram Analysis dan Vector

Space Model (Cao, et al. 2010), Cosine distance similarity dan metode divide and conquer (Ahmed, et al. 2010), Jaringan Saraf Tiruan (Harris, 2007), serta Principal Component Analysis (PCA) dan Jaringan Saraf Tiruan (Amirani, et al. 2008). Apabila

identifikasi dilakukan melalui konten file, maka pengubahan terhadap ekstensi maupun magic bytes dari file tidak akan mempengaruhi hasil identifikasi jenis file yang sebenarnya. Namun, penggunaan Jaringan Saraf Tiruan dalam identifikasi file memiliki kelemahan seperti sulitnya menentukan arsitektur dari system dan pembelajaran yang baru akan membuat sistem melupakan pembelajaran yang lama (Kasabov, 2007). Pelatihan yang hanya menggunakan satu Jaringan Saraf Tiruan juga memerlukan waktu pelatihan yang lama dan mengalami kesulitan dalam mengatasi data yang besar karena keterbatasan sumber daya. Dengan pertimbangan beberapa kelemahan dari Jaringan Saraf Tiruan ini, penulis mengajukan metode Distributed

Autonomous Neuro-Gen Learning Engine (DANGLE).

DANGLE merupakan mesin pembelajaran yang mengimplementasikan lebih

dari satu Jaringan Saraf Tiruan dalam pembelajarannya, dimana kumpulan Jaringan Saraf Tiruan ini disebut dengan Distributed Adaptive Neural Network (DANN) dan setiap Jaringan Saraf Tiruan di dalam DANN dibangun, diatur dan dilatih oleh sebuah

Gene Regulatory Engine (GRE). Adapun karakteristik dari DANGLE adalah adanya

distribusi beban pada beberapa Jaringan Saraf Tiruan sekaligus, sehingga memungkinkan DANGLE untuk mengurangi waktu pelatihan yang diperlukan, mengatasi data yang besar serta memiliki fleksibilitas tinggi (tidak terikat pada satu jenis Jaringan Saraf Tiruan). DANGLE telah digunakan dalam menyelesaikan analisis lattice dari permasalahan identifikasi struktur kubik (Pasha, et al. 2010).

Berdasarkan latar belakang diatas, penulis mengajukan penelitian dengan judul “IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING

(3)

1.2. Rumusan Masalah

Forgery terhadap file-file dokumen dengan cara mengubah ekstensi dari file dokumen

maupun mengubah magic bytes dari file-file dokumen, membuat file-file dokumen susah diidentifikasi secara langsung melalui file browser, sehingga menyulitkan para penyidik dalam menemukan file-file dokumen yang dapat saja menjadi bukti digital dalam proses pengadilan tersangka pada kasus-kasus kriminal. Bagaimana mengidentifikasi file-file sehingga dapat diketahui apakah jenis file sebenarnya adalah merupakan file dokumen atau bukan?

1.3. Tujuan Penelitian

Mengidentifikasi file-file berdasarkan konten menggunakan Distributed Autonomous

Neuro-Gen Learning Engine, sehingga dapat diketahui apakah file merupakan file

dokumen atau bukan.

1.4. Batasan Masalah

Untuk menghindari penyimpangan dan perluasan yang tidak diperlukan, penulis membuat batasan:

1. Identifikasi dilakukan pada file dokumen, dengan ekstensi dari file dokumen yang akan diidentifikasi adalah doc, html, pdf, ppt, dan xls.

2. Identifikasi dilakukan hanya melalui konten atau isi dari file, dengan tidak mempertimbangkan nama file, file header, file trailer serta atribut file yang lainnya.

(4)

1.5. Manfaat Penelitian

Manfaat yang diperoleh dari penelitian ini adalah:

1. Membantu proses identifikasi file-file dokumen dari sekumpulan file yang tidak diketahui jenis file sebenarnya.

2. Mengetahui kemampuan Distributed Autonomous Neuro-Gen Learning Engine dalam mengidentifikasi file-file dokumen.

3. Memberikan masukan pada bidang forensik digital serta kecerdasan buatan.

1.6. Metodologi Penelitian

Tahapan-tahapan yang akan dilakukan pada pelaksanaan penelitian adalah sebagai berikut:

1. Studi Literatur

Studi Literatur dilakukan dalam rangka pengumpulan bahan referensi mengenai forensik digital, file, ekstraksi fitur, identifikasi file, jaringan saraf tiruan, dan

Distributed Autonomous Neuro-Gen Learning Engine.

2. Analisis Permasalahan

Pada tahap ini dilakukan analisis terhadap bahan referensi yang telah dikumpulkan pada tahap sebelumnya untuk mendapatkan pemahaman mengenai metode yang diterapkan yakni Distributed Autonomous Neuro-Gen Learning

Engine, serta domain masalah yang akan diselesaikan yakni permasalahan

identifikasi file. 3. Pengumpulan Data

Pada tahap ini dilakukan pengumpulan data serta pembagian data yang telah didapatkan ke dalam training dataset dan testing dataset.

4. Implementasi

Pada tahap ini dilakukan implementasi metode Distributed Autonomous

Neuro-Gen Learning Engine dalam penyelesaian masalah identifikasi file dokumen

(5)

5. Evaluasi dan Analisis Hasil

Pada tahap ini dilakukan evaluasi serta analisis terhadap hasil yang didapatkan melalui implementasi metode Distributed Autonomous Neuro-Gen Learning

Engine dalam penyelesaian masalah identifikasi file dokumen

6. Dokumentasi dan Pelaporan

Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil evaluasi dan analisis serta implementasi Distributed Autonomous Neuro-Gen Learning

Machine dalam identifikasi jenis file dokumen.

1.7. Sistematika Penulisan

Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut:

Bab 1: Pendahuluan

Bab ini berisi latar belakang dari peneltian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan.

Bab 2: Landasan Teori

Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan forensik digital, file, ekstraksi fitur, identifikasi file, jaringan saraf tiruan serta Distributed Autonomous

Neuro-Gen Learning Engine akan dibahas pada bab ini.

Bab 3: Analisis dan Perancangan

Bab ini membahas analisis dan penerapan metode Distributed Autonomous

Neuro-Gen Learning Engine untuk melakukan identifikasi file dokumen. Pada bab ini

dijabarkan arsitektur umum, pre-process yang dilakukan serta desain jaringan yang digunakan.

(6)

Bab 4: Implementasi dan Pengujian

Bab ini berisi pembahasan tentang implementasi dari perancangan penerapan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan dari pengujian yang dilakukan terhadap implementasi yang dilakukan juga dijabarkan pada Bab ini.

Bab 5: Kesimpulan dan Saran

Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4. Bagian akhir dari bab ini akan berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.