• Tidak ada hasil yang ditemukan

Berisi kesimpulan dan saran dari penulis yang sudah diperoleh dari hasil penulisan tugas akhir.

TINJ AUAN PUSTAKA

2.1 PENELITIAN TERDAHULU

Sebagai bahan acuan dalam tugas akhir ini akan dipaparkan hasil penelitian terdahulu yang pernah dibaca oleh penulis, diantaranya :

Penelitian yang dilakukan oleh O.Oriola dari Department of Computer Science

Adekunle Ajasin University dan A.B. Adeyemo & A.B.C. Robert dari Department of Computer Science University of Ibadan, dengan judul “Distributed Intrusion Detection System Using P2P Agent Mining Scheme”, dengan tujuan untuk deteksi

intrusi terdistribusi, menggunakan Distributed Data Mining (DDM) untuk menganalisis data dan operasi mining secara terdistribusi.

Pada penelitian tersebut dilakukan uji analisis dari data set KDD CUP 99 dengan menggunakan K-Means dan Expectation Maximization (EM) Algoritma

Clustering, Multilayer Perceptron Neural Networks (MLP) dan Radial Basis Function Neural Networks (RBF), Algoritma C4 Decision Tree, Algoritma Naive Bayes Tree (NBTree) dan Classification and Regression Tree (CART).

Hasil dari uji analisis tersebut adalah K-means memiliki hasil buruk dengan presentase akurasi kurang dari 60%. Dan EM dengan akurasi 63% dan untuk

Multilayer Perceptron Neural Networks (MLP) dan Radial Basis Function Neural Networks (RBF), C4.5, NBTree dan CART paling tidak memiliki tingkat akurasi

sekitar 80%. Hal ini menunjukkan perlunya data mining terdistribusi yang didukung oleh sistem multi agen cerdas untuk deteksi intrusi yang efektif pada deteksi intrusi terdistribusi.

2.2 DASAR TEORI

Pada dasar terori ini akan dibahas mengenai Intrusion Detection System (IDS),Data mining, Algoritma C4.5,DOS , Smurf dan Ping of Death.

2.2.1 TEORI SECURITY

Pada teori security menjelaskan macam-macam serangan yang dapat mengganggu keamanan sistem jaringan komputer.

2.2.1.1 SERANGAN PADA KEAMANAN J ARINGAN

Untuk sistem jaringan yang mempunyai keamanan canggih dan ketat pun masih memungkinkan sistem jaringan tersebut tidak dapat aman seratus persen dari penyalahgunaan sumber daya atau serangan sistem jaringan para pencuri dunia maya. Berikut adalah macam-macam serangan pada sistem jaringan komputer :

1). Spoofing

Spoofing adalah teknik yang digunakan untuk memperoleh akses yang tidak sah

ke suatu komputer atau informasi, dimana penyerang berhubungan dengan pengguna dengan berpura-pura memalsukan bahwa mereka adalah host yang dapat dipercaya. Hal ini biasanya dilakukan oleh seorang hacker/ cracker.

2). DOS (Denial of Service)

Serangan DOS (Denial-Of-Service attacks) adalah jenis serangan terhadap sebuah komputer atau server di dalam jaringan internet dengan cara menghabiskan sumber (resource) yang dimiliki oleh komputer tersebut sampai komputer tersebut tidak dapat menjalankan fungsinya dengan benar sehingga secara tidak langsung

mencegah pengguna lain untuk memperoleh akses layanan dari komputer yang diserang tersebut.

3). DNS Poisoning

DNS Poisoning merupakan sebuah cara untuk menembus pertahanan dengan cara

menyampaikan informasi IP Address yang salah mengenai sebuah host, dengan tujuan untuk mengalihkan lalu lintas paket data dari tujuan yang sebenarnya. Cara ini banyak dipakai untuk menyerang situs-situs e-commerce dan banking yang saat ini bisa dilakukan dengan cara online dengan pengamanan Token. Teknik ini dapat membuat sebuah server palsu tampil identik dengan dengan server online

banking yang asli. Oleh karena itu diperlukan digital cerficate untuk

mengamankannya, agar server palsu tidak dapat menangkap data otentifikasi dari nasabah yang mengaksesnya. Jadi dapat disimpulkan cara kerja DNS (Domain

Name System) poisoning ini adalah dengan mengacaukan DNS Server asli agar

pengguna internet terkelabui untuk mengakses web site palsu yang dibuat benar-benar menyerupai aslinya tersebut, agar data dapat masuk ke server palsu.

4). Trojan Horse

Trojan horse atau Kuda Troya atau yang lebih dikenal sebagai Trojan dalam

keamanan komputer merujuk kepada sebuah bentuk perangkat lunak yang mencurigakan (malicious software/malware) yang dapat merusak sebuah sistem atau jaringan. Tujuan dari Trojan adalah memperoleh informasi dari target (password, kebiasaan user yang tercatat dalam system log, data, dan lain-lain), dan mengendalikan target (memperoleh hak akses pada target).

Injeksi SQL atau SQL Injection memiliki makna dan arti yaitu sebuah teknik yang menyalahgunakan sebuah celah keamanan yang terjadi dalam lapisan basis data sebuah aplikasi. Celah ini terjadi ketika masukan pengguna tidak disaring secara benar dari karakter-karakter pelolos bentukan string yang diimbuhkan dalam pernyataan SQL atau masukan pengguna tidak bertipe kuat dan karenanya dijalankan tidak sesuai harapan. Ini sebenarnya adalah sebuah contoh dari sebuah kategori celah keamanan yang lebih umum yang dapat terjadi setiap kali sebuah bahasa pemrograman atau skrip diimbuhkan di dalam bahasa yang lain.

2.2.1.2 DENIAL OF SERVICE (DOS)

Serangan DoS (bahasa Inggris: denial-of-service attacks') adalah jenis serangan terhadap sebuah komputer atau server di dalam jaringan internet dengan cara menghabiskan sumber (resource) yang dimiliki oleh komputer tersebut sampai komputer tersebut tidak dapat menjalankan fungsinya dengan benar sehingga secara tidak langsung mencegah pengguna lain untuk memperoleh akses layanan dari komputer yang diserang tersebut. Dalam sebuah serangan Denial of

Service, si penyerang akan mencoba untuk mencegah akses seorang pengguna

terhadap sistem atau jaringan Jenis–jenis DoS :

1). Lokal DoS : Kegiatan DoS yang dilakukan oleh cracker menggunakan interaksi langsung dengan konsole sistem operasi. Pelaku dapat berinteraksi langsung dengan konsole sistem operasi korban dan mengeksekusi perintah – perintah (script) yang dapat menghabiskan resource komputer korban tersebut.

Resource yang dimaksud adalah CPU, RAM, SWAP Space, disk, Kernel, cache

2). Remote DoS : kegiatan DoS yang dilakukan oleh cracker secara jarak jauh tanpa interaksi secara langsung dengan konsole sistem operasi korban. Pelaku melakukan kegiatan DoS dengan memanfaatkan media jaringan komputer dan internet. Pada tehnik ini, Pelaku memanfaatkan kelamahan dari protokol TCP/IP dan kelamahan lebih detail mengenai teknik remote DoS.

2.2.1.3 PING OF DEATH (POD)

Ping of Death adalah jenis serangan pada komputer yang melibatkan

pengiriman ping yang salah atau berbahaya ke komputer target. Sebuah ping biasanya berukuran 56 byte (atau 84 bytes ketika header IP dianggap). Dalam sejarahnya, banyak sistem komputer tidak bisa menangani paket ping lebih besar daripada ukuran maksimum paket IP, yaitu 65.535 byte. Mengirim ping dalam ukuran ini (65.535 byte) bisa mengakibatkan kerusakan (crash) pada komputer target. Secara tradisional, sangat mudah untuk mengeksploitasi bug ini. Secara umum, mengirimkan paket 65.536 byte ping adalah illegal menurut protokol jaringan, tetapi sebuah paket semacam ini dapat dikirim jika paket tersebut sudah terpecah-pecah, Ketika komputer target menyusun paket yg sudah terpecah-pecah tersebut, sebuah buffer overflow mungkin dapat terjadi, dan ini yang sering menyebabkan sistem crash.

Eksploitasi pada kelemahan ini telah memengaruhi berbagai sistem, termasuk Unix, Linux, Mac, Windows, printer, dan router. Namun, kebanyakan sistem sejak 1997 - 1998 telah diperbaiki, sehingga sebagian besar bug ini telah menjadi sejarah. Dalam beberapa tahun terakhir, muncul jenis serangan ping yang berbeda yang telah menyebar luas, contohya membanjiri korban dengan ping

yang mengakibatkan kegagalan normal ping mencapai sistem yg dituju (dasar serangan Denial of Service).

2.2.1.4 SMURF

Smurf attack, merupakan salah satu jenis serangan Denial of Service yang

mengeksploitasi protokol Internet Control Message Protocol (ICMP). Smurf

attack adalah sebuah serangan yang dibangun dengan menggunakan pemalsuan

terhadap paket-paket ICMP echo request, yakni sebuah jenis paket yang digunakan oleh utilitas troubleshooting jaringan, PING. Si penyerang akan memulai serangan dengan membuat paket-paket "ICMP echo request" dengan alamat IP sumber berisi alamat IP host target yang akan diserang (berarti alamat telah dipalsukan atau telah terjadi address spoofing). Paket-paket tersebut pun akan dikirimkan secara broadcast ke jaringan di mana komputer target berada, dan host-host lainnya yang menerima paket yang bersangkutan akan mengirimkan balasan dari "ICMP echo request" ("ICMP echo reply") kepada komputer target, seolah-olah komputer target merupakan komputer yang mengirimkan ICMP echo

request tersebut. Pada gambar 2.1 menunjukkan cara kerja dari serangan smurf.

Semakin banyak komputer yang terdapat di dalam jaringan yang sama dengan target, maka semakin banyak pula ICMP echo reply yang dikirimkan kepada target, sehingga akan membanjiri sumber daya komputer target, dan mengakibatkan kondisi penolakan layanan (Denial of Service) yang menjadikan para pengguna tidak dapat mengakses layanan yang terdapat di dalam komputer yang diserang. Beberapa sistem bahkan mengalami crash atau hang, dan lagi, banjir yang berisi paket-paket "ICMP echo request/reply" akan membuat kongesti (kemacetan) jaringan yang dapat memengaruhi komputer lainnya.

2.2.2 INTRUSION DETECTION SYSTEM (IDS)

Intrusion Detection System (disingkat IDS) adalah sebuah aplikasi

perangkat lunak atau perangkat keras yang dapat mendeteksi aktivitas yang mencurigakan dalam sebuah sistem atau jaringan. IDS dapat melakukan inspeksi terhadap lalu lintas inbound dan outbound dalam sebuah sistem atau jaringan, melakukan analisis dan mencari bukti dari percobaan intrusi (penyusupan).

Ada dua jenis IDS, yakni:

1). Network-based Intrusion Detection System (NIDS): Semua lalu lintas yang mengalir ke sebuah jaringan akan dianalisis untuk mencari apakah ada percobaan serangan atau penyusupan ke dalam sistem jaringan. NIDS umumnya terletak di dalam segmen jaringan penting di mana server berada atau terdapat pada "pintu masuk" jaringan. Kelemahan NIDS adalah bahwa NIDS agak rumit diimplementasikan dalam sebuah jaringan yang menggunakan switch Ethernet, meskipun beberapa vendor switch Ethernet sekarang telah menerapkan fungsi IDS di dalam switch buatannya untuk memonitor port atau koneksi.

2). Host-based Intrusion Detection System (HIDS): Aktivitas sebuah host jaringan individual akan dipantau apakah terjadi sebuah percobaan serangan atau penyusupan ke dalamnya atau tidak. HIDS seringnya diletakkan pada

server-server kritis di jaringan, seperti halnya firewall, web server-server, atau server-server yang

terkoneksi ke Internet.

Kebanyakan produk IDS merupakan sistem yang bersifat pasif, mengingat tugasnya hanyalah mendeteksi intrusi yang terjadi dan memberikan peringatan kepada administrator jaringan bahwa mungkin ada serangan atau gangguan terhadap jaringan. Akhir-akhir ini, beberapa vendor juga mengembangkan IDS yang bersifat aktif yang dapat melakukan beberapa tugas untuk melindungi host atau jaringan dari serangan ketika terdeteksi, seperti halnya menutup beberapa

port atau memblokir beberapa alamat IP. Produk seperti ini umumnya disebut

sebagai Intrusion Prevention System (IPS). Beberapa produk IDS juga menggabungkan kemampuan yang dimiliki oleh HIDS dan NIDS, yang kemudian disebut sebagai sistem hibrid (hybrid intrusion detection system).

2.2.3 DATA MINING

Data mining adalah suatu proses yang digunakan untuk mencari informasi

dan knowledge yang berguna, dimana diperoleh dari data-data yang dimiliki. Dari buku Data Mining Technique yang dikarang oleh Berry and Linoff, proses terjadinya data mining dapat dideskripsikan sebagai virtous cycle. Didasari oleh pengembangan berkelanjutan dari proses bisnis serta didorong oleh penemuan

knowledge ditindaklanjuti dengan pengambilan tindakan dari penemuan tersebut.

Terdapat beberapa metode dalam data mining, antara lain adalah : 1). Clustering

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk

mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.

Gambar dibawah ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan).

Gambar 2.2 Clustering (Sumber:Anonim, November 2014)

Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.

a) Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

b) Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih

tinggi

c) Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah. Clustering adalah metode data mining yang Unsupervised, karena tidak ada

satu atribut pun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama.

Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).

2). Association

Association juga disebut sebagai Market Basket Analysis. Sebuah problem

bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti gambar dibawah ini.

Gambar 2.3 Association (Sumber:Anonim, November 2014) Bisa lihat disini, beberapa hal dapat kita baca, misalnya :

a) Ketika orang membeli susu, dia biasanya membeli keju

b) Ketika orang membeli pepsi atau coke, biasanya dia membeli juice

Didalam istilah association, setiap item dipertimbangkan sebagai informasi. Metode association memiliki dua tujuan:

a) Untuk mencari produk apa yang biasanya terjual bersamaan.

b) Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut. 3). Classification

Classification adalah tindakan untuk memberikan kelompok pada setiap

keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class

attribute. Metode ini butuh untuk menemukan sebuah model yang dapat

menjelaskan class attribute itu sebagai fungsi dari input attribute.

Data Mining Untuk Deteksi Intr usi

Data mining untuk deteksi intrusi disini diambil dari paper Dwi Widiastuti

Jurusan Sistem Informasi dari Universitas Gunadarma dengan judul “Analisa Perbandingan Algoritma SVM, Naive Bayes,dan Decision tree Dalam Mengklasifikasikan Serangan (Attack) Pada Sistem Pendeteksi Intrusi “. Pada penelitian tersebut dilakukan terhadap dataset yang diperoleh dari KDD 1999 sebanyak 5092 record dan dikelompokkan menjadi lima kelas. Klasifikasi dilakukan dengan menerapkan algoritma SVM (menggunakan teknik SMO),

Bayesian (menggunakan teknik NBC), dan Decision Tree (menggunakan teknik

J48) yang telah tersedia pada tools data mining yakni WEKA 3.4.13.

Berdasarkan penelitian Charles Elkan (2000), data log file sebelum menjadi

data set dieksrak sedemikian rupa dengan menggunakan 41 variable/atribut yang

dianggap berpengaruh pada sistem pendeteksi intrusi dan merupakan variable yang cukup efektif untuk menghitung performa algoritma.

Pada dataset tersebut terdapat 24 jenis serangan, antara lain: back, buffer_overflow,ftp_write, guess_passwd, imap, ipsweep, land, loadmodule,

multihop, neptune, nmap, normal,perl, phf, pod, portsweep, rootkit, satan, smurf, spy, teardrop, warezclient, warezmaster. Dataset penelitian ini (5092 record) serangan-serangan tersebut diklasifikasikan berdasarkan sasaran dan tujuan serangan menjadi lima kelas kategori, yakni : DoS, Probe, U2R, dan U2L, dan Normal (Mrutyunjaya Panda dan Mana R. Patra, 2007).

Dari data yang tersedia, diolah menggunakan Microsoft Excel di konversi menjadi format csv yang kemudian diubah menjadi format file yang dikenali oleh WEKA yaitu arff. Hasil pemrosesan data diringkas dalam bentuk tabel sebagai berikut :

Tabel 2.1 Perbandingan SVM, Naïve Bayes, dan Decision Tree Pada Data Numerik

SVM

Use Training Set Cross Validation Percentage Split Correctly Classified 96.6614 % 96.6418 % 96.7277 % Incorrectly Classified 3.3386 % 3.3582 % 3.2723 %

Kappa Statistic 0.9394 0.939 0.9397

Mean Absolute Error 0.2417 0.2418 0.2419

Root Mean Squared Error

0.3188 0.319 0.3192

Relative Absolute Error

108.8735 % 108.9107 % 109.3525 % Root Relative Squared

Error

Naive Bayes

Use Training Set Cross Validation Percentage Split Correctly Classified 94.0691 % 93.5192 % 94.3717 % Incorrectly Classified 5.9309 % 6.4808 % 5.6283 %

Kappa Statistic 0.8919 0.8824 0.8952

Mean Absolute Error 0.0246 0.0266 0.0233

Root Mean Squared Error 0.1475 0.1539 0.1491 Relative Absolute Error 11.0745 % 11.9813 % 10.5501 % Decisionn Tr ee

Use Training Set Cross Validation Percentage Split Correctly Classified 98.0558 % 97.7612 % 97.7094 % Incorrectly Classified 1.9442 % 2.2388 % 2.2906 %

Kappa Statistic 0.9648 0.9594 0.9582

Mean Absolute Error 0.0258 0.0269 0.0304

Root Mean Squared Error

0.0917 0.0961 0.1001

Relative Absolute Error

11.6323 % 12.1196 % 13.7302 %

Dari tabel 2.1 bisa disimpulkan, secara keseluruhan algoritma Decision Tree merupakan teknik yang paling sederhana dalam mengelompokkan kasus IDS dan memiliki kecenderungan tingkat akurasi yang tinggi. Akan tetapi algoritma NBC merupakan algoritma yang paling baik dalam hal waktu komputasi (waktu yang

dibutuhkan untuk membangun sebuah model), terlihat dari perbandingan tabel 2.2.

Tabel 2.2 Hasil Perbandingan Waktu Komputasi Algoritma (Satuan : second )

SVM (SMO) Bayesian (Naive Bayes)

Decision Tree (J 48)

Use Training Set 182.97 0.58 1.83

Cross Validation 170.61 0.42 1.99

Percentage Split 183.34 0.41 1.7

2.2.4 ALGORITMA C4.5

Algoritma data mining C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokan dan bersifat prediktif. Dasar algoritma C4.5 adalah pembentukan pohon keputusan (decision tree). Dengan algoritma ini, mesin (komputer) akan diberikan sekelompok data untuk dipelajari yang disebut learning dataset. Kemudian hasil dari pembelajaran selanjutnya akan digunakan untuk mengolah data-data yang baru yang disebut test dataset. Karena algoritma C4.5 digunakan untuk melakukan klasifikasi, jadi hasil dari pengolahan test dataset berupa pengelompokkan data ke dalam kelas-kelasnya.

Dalam pembentukan decision tree C4.5 digunakan rumus menghitung entropy dan

Rumus hitung entropy : Entropy (S) = 1 =

i n - Pi * log2 Pi .... (2.1) S : Himpunan Kasus n : Jumlah partisi S

pi : Proporsi dari Si terhadap S Rumus hitung information gain :

Gain (S,A) = Entropy (S) -

1 | | | | =

i S Si n * Entropy (Si) .... (2.2) Dengan : S : Himpunan kasus A : Atribut

n : Jumlah partisi atribut A

|Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S

2.2.5 WEKA ( Waikato Environment for Knowladge Analysis )

Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum

menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.

Gambar 2.4 Tampilan WEKA (Sumber:Erdi Susanto, November 2014) Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi :

1) Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 2) Experimenter digunakan untuk melakukan percobaan dengan pengujian

statistic skema belajar

3) Knowledge Flow digunakan untuk pengetahuan pendukung

4) Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung

Gambar 2.5 Tampilan explorer WEKA (Sumber:Erdi Susanto, November 2014) Pada bagian atas window, tepatnya pada bawah judul bar. Terdapat deretan data, seperti Prepocess, Classify, Cluster, Associate, Select Attributes Visualize. Namun yang aktif hanya Prepocess ini dikarenakan sebelum menggunakan algoritma diatas pastikan sudah melakukan set file yang akan dieksekusi Berikut langkah-langkahnya :

Buka file yang akan dieksekusi oleh Weka, pergunakan extensi file .csv (Command Separated Values). Perlu diingat bahwa sebelumnya kita sudah harus menyediakan data-data pada file tersebut. Disini menggunakan contoh Transaksi.csv sebagai berikut

Gambar 2.7 Tampilan data transaksi (Sumber:Erdi Susanto, November2014) Kemudian pilih algoritma yang akan digunakan seperti tampilan berikut ini :

Algoritma yang akan digunakan adalah J48. Perbedaan ID3, C4.5 dan J48 sebagai berikut ini:

ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. Bisa dilihat, bahwa atribut “patron” membagi 3, dimana hasil pembagiannya cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau merah saja. Memang, untuk cabang “full” tidak satu warna (hijau saja atau merah saja). Tapi, pemilihan atribut patron jelas lebih baik daripada atribut type.

Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakanlah teori informasi. Pada WEKA, ada pilihan untuk menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus bertipe nominal, dan tidak boleh ada yang kosong

Sedangkan, C4.5 merupakan pengembangan dari ID3. Beberapa perbedaannya antara lain :

1). Mampu menangani atribut dengan tipe diskrit atau kontinu. 2). Mampu menangani atribut yang kosong (missing value) 3). Bisa memangkas cabang.

Gambar 2.9 Contoh hasil klasifikasi (Sumber:Erdi Susanto, November 2014) Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan. Berikut penjelasan mengenai masing-masing option.

1). Use training set

Pengetesan dilakukan dengan menggunakan data training itu sendiri. 2). Supplied test set

Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data test.

3). Cross-validation

Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai

Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai

dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian, error dari k tes tersebut akan dihitung rata-ratanya.

4. Percentage split

Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user. Untuk melihat decision tree-nya liat tampilan sebagai berikut ini :

Gambar 2.10 Contoh Hasil Pohon Keputusan (Sumber:Erdi Susanto, 2014) Bahwa dari decision tree tersebut maka root node pada pink menunjukkan cabang sebelah kiri untuk false dengan harga 15000-20000, dimana yang true dengan harga tersebut adalah kode pelanggan dengan A05 sebanyak 4 dan false dengan kode pelanggan A01 sebanyak 6. Sedangkan disebelah kanan menunjukkan true dengan warna node selanjutnya putih dimana disebelah kiri

dengan node warna merah yang disebelah kiri menunjukkan true untuk kode pelanggan A04 sebanyak 2, dan sebelah kanan menunjukkan false dengan kode pelanggan A03 sebanyak 3. Artinya bahwa pelanggan lebih menyukai warna pink kemudian diikuti warna putih selanjutnya diikuti dengan warna merah dimana

Dokumen terkait