TEKNIK DATA MINING UNTUK MENDAPATKAN INFORMASI DARI KELUARAN PERANGKAT JARINGAN

(1)

TEKNIK DATA MINING UNTUK

MENDAPATKAN INFORMASI DARI

KELUARAN PERANGKAT

JARINGAN

Haryanto

Binus University, Jakarta, DKI Jakarta, Indonesia

Abstrak

Data mining adalah sebuah tool yang banyak digunakan dalam dunia bisnis,

khususnya dalam transaksi bisnis. Data mining yang digunakan untuk dunia bisnis

tersebut umumnya menggunakan sebuah file database yang tersimpan dari hasil

transaksi yang ada. Kemudian file database yang terdapat banyak data transaksi bisnis dicari atau digali informasinya dengan tujuan agar dapat mengetahui pola atau karakteristik dari para konsumen yang ada. Dalam penelitian ini, tujuan pemakaian data

mining ialah mencari informasi dari sejumlah besar data dalam database untuk dapat

mengklasifikasi sambungannya, klasifikasi IP destination yang paling banyak dituju oleh user / client yang terhubung dengan jaringan komputer yang ada, klasifikasi protokol yang digunakan dalam melakukan koneksi antara IP source dan IP destination. Untuk menunjang pembuatan penelitian ini maka dibutuhkan data dari jaringan komputer yang aktual dan berbagai informasi teknik maupun non teknik yang dapat dijadikan sebagai bahan acuan dalam penelitian ini. Metodologi dalam mengumpulkan data dan mendapatkan informasi dari data ialah mengumpulkan data, menjalankan

program data mining untuk melakukan data mining. Hasil yang dicapai adalah

mendapatkan informasi dari keluaran perangkat jaringan menggunakan teknik data

mining. Dari penelitian yang dilakukan, ada beberapa hal yang perlu diperhatikan agar didapatkan informasi yang akurat untuk menggunakan teknik data mining dari keluaran perangkat jaringan. Salah satu hal terpenting itu adalah atribut kelas yang digunakan dalam proses klasifikasi.

(2)

1. Pendahuluan

Informasi merupakan sebuah komponen yang penting dalam sebuah jaringan

komputer dari sebuah perusahaan. Integrity, availability (ketersediaan), dan

confidentiality (kerahasiaan) informasi yang ada di dalam sebuah perusahaan sangat

penting. Apabila dari ketiga sifat (Integrity, availability, dan confidentiality) ada yang terganggu maka keamanan jaringan (network security) dari perusahaan tersebut patut diperhatikan dengan seksama. Sistem keamanan jaringan yang ada harus diperbaiki. Apabila data dari perusahaan tersebut diubah atau dicuri oleh perusahaan lain yang berperan sebagai kompetitornya, maka perusahaan tersebut dapat terganggu kelangsungan bisnisnya.

Trend connection yang dilakukan oleh user yang terhubung ke internet via

jaringan komputer yang ada perlu juga diperhatikan. Apabila user terlalu banyak

mengakses ke website yang tidak ada hubungan dengan bisnis dan produktivitas perusahaan yang menyebabkan bisnis dan produktivitas perusahaan tersebut menurun maka perlu dipertimbangkan beberapa tindak lanjut seperti akses untuk ke website tersebut bisa di block atau ditutup. Customer yang ingin mencari atau mendownload informasi akan mendapatkan kemudahan.

Dari sejumlah besar data jaringan komputer yang telah terkumpul melalui sebuah program analisis jaringan, Wireshark, dapat diketahui kegiatan keseluruhan dari jaringan komputer yang ada tersebut. Sejumlah besar data tersebut mengandung data mengenai

protocol yang digunakan, waktu pengambilan data, siapa saja yang berperan sebagai

source dan sebagainya. Namun, dari data yang terkumpul tersebut perlu diperoleh informasi yang bermakna.

(3)

Data yang dikumpulkan ini sekedar data mentah (raw data) yang berasal dari jaringan. Data hanya menunjukkan kegiatan pemakai jaringan. Data akan lebih bermakna bilamana dapat ditarik informasi darinya.

2. Metodologi

Penelitian ini meneliti informasi yang dapat ditarik bilamana data diproses

dengan salah satu teknik data mining. Mengambil informasi dari data jaringan yang

sudah terkumpul dari hasil capture Wireshark menggunakan metode classify dan

algoritma tree J-48 dari software data mining (WEKA: Waikato Environment for

Knowledge Analysis) yang meliputi:

1. Source

2. Destination

3. Protocol yang digunakan antara source dan destination

Adapun pembahasan yang dilakukan meliputi sebagai berikut:

1 Studi kepustakaan

• Perangkat jaringan

• Data mining

• Data mining Tools

2 Pengumpulan data

(4)

2.1 . Studi keputakaan

Switch

Switch adalah perangkat yang menghubungkan segmen jaringan. Switch

merupakan pengembangan lanjutan dari ‘bridge’.

50 port network switch

Switch bisa digunakan juga untuk menghubungkan switch satu dengan switch

lainnya, untuk memperbanyak jumlah port, atau memperluas jangkauan dari jaringan (misalkan ada satu gedung dengan gedung yang lainnya). Pada vendor network

equipment, berbagai switch dipecah ke level berbeda seperti core, aggregation dan

access. Pemisahan berbagai level ini dikarenakan setiap level dimaksudkan untuk fungsi

yang berbeda. Switch yang beredar di pasaran terdiri dari 2 (dua) jenis yaitu: Non Manageable Switch

Adalah switch yang tidak dapat di manage, switch tersebut sudah siap pakai, hanya dipasang dan switch sudah bisa digunakan tanpa perlu diseting.

Manageable Switch

Adalah switch yang bisa diatur untuk kebutuhan jaringan tertentu, ada beberapa

perbedaan mendasar yang membedakan antara manageable switch dengan non

manageable switch. Perbedaan tersebut bisa dilihat dari kelebihan dan keunggulan yang

(5)

1. Mendukung penyempitan broadcast jaringan dengan VLAN (Virtual Local Area

Network).

2. Pengaturan akses pengguna dengan access list. 3. Membuat keamanan network lebih terjamin.

4. Bisa melakukan pengaturan trafik maintenance network karena dapat diakses tanpa harus berada di dekat switch.

Data Mining

Proses dalam menemukan pola atau informasi menarik dari sejumlah data yang besar, dimana data dapat disimpan dalam database, data warehouse atau dapat disimpan di tempat penyimpanan informasi lainnya dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika. (Han dan Kamber, 2006:39; Larose, 2005:2).

Banyak orang menggunakan istilah data mining dan knowledge discovery in

databases (KDD) secara bergantian untuk menjelaskan proses penggalian informasi

tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam proses KDD adalah data mining (Han dan Kamber, 2006:5).

Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis

untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text, dan multimedia (citra). Data mining dapat juga didefinisikan sebagai “pemodelan dan

(6)

penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar”

Data mining menggunakan pendekatan discovery-based dimana pencocokan pola

(pattern-matching) dan algoritma-algoritma yang lain digunakan untuk menentukan

relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan. Data Mining Tool (WEKA)

WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat

lunak pembelajaran mesin yang populer ditulis dengan Java, yang dikembangkan di

Universitas Waikato di Selandia Baru. WEKA adalah perangkat lunak gratis yang

tersedia di bawah GNU General Public License. WEKA menyediakan penggunaan

teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik klasifikasi dan algoritma yang digunakan di WEKA disebut classifier.

2.2. Pengumpulan data

Start and stop Capturing

Untuk memulai mencapture lalu-lintas paket di jaringan komputer menggunakan

Wireshark, maka langkah-langkah yang harus dilakukan adalah sebagai berikut:

1. Jalankan aplikasi Wireshark yang telah terinstall di PC/laptop yang akan

digunakan untuk mencapture dengan mengklik start → all programs →

Wireshark atau dapat juga melalui menu run yang ada di microsoft window ketikkan Wireshark

(7)

2. Ketika Wireshark terbuka seperti gambar di bawah ini

Tampilan awal Wireshark

3. Pilih capture → interface → tentukan interface mana yang akan di capture lalu-lintas paketnya → start

Tampilan kotak dialog “Capture interfaces” pada Microsoft Windows

Untuk selesai menangkap paket, maka tinggal klik pada tombol yang ditunjukkan oleh panah berikut.

(8)

2.3. Pemrosesan data menggunakan salah satu teknik data mining

Proses data mining menggunakan Software WEKA

Setelah WEKA terinstall, maka aktivitas data mining menggunakan software WEKA tersebut dapat dimulai. Proses data mining tersebut dibagi menjadi 2 tahap yaitu Tahap Preprocess dan Tahap Classify (Classification)

Tahap Preprocess

Tahap Preprocess digunakan untuk memasukkan data laporan jaringan yang telah

dihasilkan melalui proses packet capture dan export file sehingga didapatkan file dalam bentuk .csv agar dapat diolah menggunakan WEKA. Adapun caranya adalah sebagai berikut:

1) Jalankan aplikasi WEKA dengan cara start → All Programs → WEKA 3.7.5 →

WEKA 3.7 sehingga muncul tampilan seperti di bawah ini:

Tampilan awal WEKA

2) Kemudian klik Explorer yang terdapat di bagian Applications 3) Sehingga muncul window seperti berikut ini

(9)

Tampilan preprocess pada WEKA

4) Kemudian pada Preprocess pilih open file → cari file .csv yang berisi laporan

jaringan yang telah didapat sebelumnya dari Wireshark → ubah file typenya

menjadi .csv data file → pilih file .csv yang ingin diolah menggunakan toolsdata

mining (WEKA) → kemudian klik tombol open seperti yang ditunjukkan di

bawah ini:

Berisikan file-file hasil capturing paket yang akan diolah menggunakan WEKA 5) Maka pada WEKA Explorer akan ditampilkan berupa grafik dari isi file tersebut.

Pada tahap preprocess ini, dapat digunakan untuk memfilter data-data yang ada. Namun, pemfilteran ini tidak akan dibahas karena pada tahapan preprocess ini

hanya digunakan untuk memasukkan data laporan jaringan ke tools data mining

(WEKA) dengan tujuan agar data dapat diolah menggunakan software WEKA

(10)

Hasil preprocess dari laporan jaringan yang telah dimasukkan pada tahap sebelumnya

Klasifikasi pada WEKA 1. Memilih sebuah Classifier

Di bagian atas dari bagian classify terdapat kotak Classifier. Kotak ini

memiliki kolom teks yang memberikan nama dari classifier yang sedang

dipilih. Mengklik pada kotak teks dengan tombol kiri mouse memunculkan

kotak dialog Generic Object Editor, sama seperti untuk filter, yang dapat digunakan untuk mengkonfigurasi opsi-opsi dari classifier saat ini. Dengan klik kanan (atau Alt + Shift + klik kiri) dapat digunakan untuk menyalin

string setup ke clipboard atau menampilkan properti di kotak dialog Generic

Object Editor. Tombol select memungkinkan untuk memilih salah satu dari

pengklasifikasi yang tersedia di WEKA seperti yang ditunjukkan oleh gambar berikut ini:

(11)

Memilih metode Classify yang akan digunakan untuk teknik data mining

Memilih Algoritma yang digunakan sebagai Classifier 2 Test Options

Hasil menerapkan classifier yang dipilih akan diuji sesuai dengan pilihan yang ditetapkan dengan mengklik pada kotak Test Option.

Ada empat mode tes:

1. Use training set

Pengetesan dilakukan dengan menggunakan data training itu sendiri.

2. Supplied test set

Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, bisa dilakukan prediksi terhadap data tes.

(12)

3. Cross-validation

Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut : Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi,

akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes

sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian,

error dari k tes tersebut akan dihitung rata-ratanya.

4. Percentage split

Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user.

Dalam penelitian ini, digunakan mode tes yang pertama, yaitu mode Use training set

seperti yang ditunjukkan oleh gambar berikut ini:

(13)

Pilihan pengujian lebih lanjut dapat diatur dengan mengklik tombol More options seperti yang ditunjukkan oleh gambar berikut ini:

More Option yang dapat diatur untuk pengujian lebih lanjut

Classifier evaluation options 1. Output model.

Model klasifikasi pada training set lengkap output sehingga dapat dilihat, divisualisasikan, dan lain-lain. Opsi ini dipilih secara default.

(14)

2. Output per-class stats.

Ketepatan dan statistik benar / salah untuk setiap kelas. Pilihan ini juga dipilih secara default.

3. Output entropy evaluation measures.

Langkah-langkah evaluasi entropi termasuk dalam output. Pilihan ini tidak dipilih secara default.

4. Output confusion matrix.

Matriks confusion pada prediksi classifier termasuk dalam output. Opsi ini dipilih secara default.

5. Store predictions for visualization.

Prediksi classifier diingat atau disimpan sehingga dapat divisualisasikan. Opsi ini dipilih secara default.

6. Output predictions.

Prediksi pada data evaluasi untuk ditampilkan sebagai output. Perhatikan bahwa dalam kasus validasi silang nomor contoh tidak sesuai dengan lokasi dalam data.

7. Output additional attributes.

Jika atribut tambahan perlu menjadi output samping prediksi, misalnya, atribut ID untuk misclassifications pelacakan, maka indeks dari atribut ini dapat ditentukan di sini.

8. Cost-sensitive evaluation.

Kesalahan dievaluasi sehubungan dengan matriks biaya. Tombol set memungkinkan untuk menentukan matriks biaya yang digunakan.

(15)

9. Random seed for xval / % Split.

Ini menentukan benih acak yang digunakan ketika mengacak data sebelum dibagi untuk tujuan evaluasi.

10. Preserve order for % Split.

Hal ini menekan pengacakan data sebelum membelah diri menjadi train set

dan test set.

11. Output source code.

Jika classifier output dibangun sebagai kode sumber Java, maka dapat

ditentukan nama kelas di sini. Kode akan dicetak di daerah "Classifier output".

3 Atribut kelas

Pengklasifikasi dalam WEKA dirancang untuk dilatih untuk memprediksi 'kelas' satu atribut, yang merupakan target untuk prediksi. Beberapa pengklasifikasi hanya bisa memahami kelas nominal; pengklasifikasi lain hanya dapat memahami kelas numerik (masalah regresi); yang lainnya dapat memahami kedua-duanya.

Secara default, kelas diambil menjadi atribut terakhir dalam data. Jika ingin mencoba classifier untuk memprediksi atribut berbeda, klik pada kotak di bawah kotak Test Options untuk membawa sebuah daftar drop-down dari atribut untuk memilih nya seperti yang ditunjukkan oleh gambar berikut ini:

(16)

Atribut kelas yang digunakan dalam proses klasifikasi (default) 4. Training a Classifier

Setelah classifier, tes dan kelas pilihan semuanya telah ditetapkan, proses belajar dimulai dengan mengklik tombol Start. Proses pelatihan dapat dihentikan setiap saat dengan mengklik tombol Stop. Ketika pelatihan selesai, beberapa hal akan dihasilkan.

Classifier output area di kanan layar diisi dengan teks yang menjelaskan hasil pelatihan

dan pengujian. Sebuah entri baru akan muncul dalam kotak Result List.

3. Kesimpulan

Dari penelitian ini, dapat ditarik beberapa simpulan. Simpulan tersebut yaitu:

1. Parameter-parameter atau atribut kelas yang harus digunakan adalah source dan

destination agar diperoleh hasil dengan tingkat reliabilitynya yang besar

2. Teknik data mining yang banyak digunakan dalam strategi bisnis dapat

digunakan pula untuk mendapatkan informasi dari sejumlah besar data jaringan

di mana data jaringan tersebut diperoleh dengan cara mencapture paket pada

jaringan komputer menggunakan Wireshark.

3. Terdapat tahapan preprocess yang digunakan untuk memasukkan data agar dapat diolah menggunakan salah satu teknik data mining yaitu klasifikasi.

(17)

4. Setelah tahapan preprocess ini, dapat ditentukan teknik data mining (klasifikasi,

clustering, regresi, Association rule mining) yang akan digunakan untuk

mendapatkan informasi dari sejumlah besar data jaringan tersebut.

5. Setelah diperoleh output dari hasil klasifikasi, maka diperoleh informasi dari sejumlah besar data jaringan yang ada tersebut.

6. Informasi yang diperoleh dengan data mining tergantung pada teknik data

mining, atribut, dan output yang dipilih. Peran kepakaran/kemahiran manusia

yang menggunakan tools akan berpengaruh pada penafsiran informasi yang

diperoleh.

Daftar Pustaka

Bramer, Max. (2007). Principles of Data Mining. London: Springer

Han, J. and Kamber, M. (2006). Data Mining Concepts and Techniques. ( edition). San Francisco: Morgan Kauffman

Kusrini, dan Emha Taufik Luthfi. (2009). Algoritma Data Mining. Yogyakarta: Penerbit Andi.

Orebaugh, A. , Ramirez, G. and Burke, J. (2007). Wireshark & Ethereal Network

Protocol Analyzer Toolkit. United States: O’Reilly Media, Inc.

Pramudiono, I. (2007). Pengantar Data Mining : Menambang Permata Pengetahuan di

Gunung Data. Retrieved (Februari 26 2011)from

http://www.ilmukomputer.org/wp-content/uploads/2006/08/iko-datamining.zip. Ruoff, L. (2010, April 14). Wireshark. Retrieved April 28, 2010, from Wireshark

Website: http://wiki.wireshark.org/CaptureSetup/Ethernet

Witten, Ian. H. (2011). Data Mining Practical Machine Learning Tools and Technique.

( edition).New York: Morgan Kauffman.

Witten, I. H and Frank, E. (2005). Data Mining Practical Machine Learning Tools and