KLASIFIKASI DATA MINING DENGAN METODE POHON KEPUTUSAN MENGGUNAKAN ID3
Mary Dona Mailoa¹, Eko Darwiyanto², Iman Lukmanul Hakim³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Classification adalah salah satu task dalam data mining yaitu predictive task yang digunakan untuk memprediksi nilai dari variable target yang diskrit. Classification telah secara luas diimplementasikan diberbagai bidang seperti Direct Marketing, Spam detection, Functional Classification of Proteins, Galaxy Classficaiton dan sebagainya. Metode dalam Data Mining Classification antara lain adalah Decision tree, Neural Network, k-Nearest Neighbor, Case Based Reasoning, Algoritma Genetika dan sebagainya. Decision Tree sendiri merupakan salah satu fungsional yang menggunakan representasi tree untuk menentukan aturan-aturan klasifikasi. Salah satu metode dalam Decision Tree ialah ID3 (iterative Dichotomiser three). Algoritma memiliki fungsi yaitu dengan melakukan pembobotan pada setiap atribut, kemudian dengan melihat bobot tersebut dibangun tree berdasarkan bobot terbesar ke bobot terkecil dan pohon ini akan rekursif dibangun dengan memanggil fungsi itu sendiri. Walaupun pohon yang dibangun cukup baik, namun terdapat cara lebih baik untuk meningkatkan efisiensi waktu dan ukuran pohon, dengan tidak mengabaikan akurasi. Hasil analisa didapatkan bahwa penggunaan nilai ambang batas atau threshold cenderung memberikan waktu pembangunan tree yang lebih efisiesn, ukuran pohon yang lebih kecil, dan akurasi yang cukup baik, bergantung terhadap karakteristik dari setiap dataset.
Kata Kunci : data mining, classification, ID3
Abstract
Classification is one of predictive Data Mining Task, which used to predict the value form discrete variable target. Classification has been widely implemented in various fields, such as Direct Marketing, Spam Detection, Functional Classification of Proteins, Galaxy Classification etc. Methods in Data Mining Classification are Decision Tree, Neural Network, k-Nearest Neighbor, Case Based Reasoning, Genetic Algorithm etc. Decision tree itself is a functional that uses a tree representation to determine the rules of classification. One of Decision tree method is ID3 (Iterative Dichotomiser three). The algorithm is a function that is by performing weighting on each attribute. Then the tree is built based on the greatest weight to the weight of the smallest and the tree will be constructed by calling the function recursively. Although the tree is built pretty good, but there are better ways to improve the efficiency of time and size of trees, by not ignoring accuracy. Results of analysis found that the use of threshold values can provide a tree construction with efficiency in time, smaller tree size, and good enough accuracy depend on each characteristics that each dataset has.
1. PENDAHULUAN
1.1
Latar Belakang
Seiring dengan perkembangan teknologi, semakin berkembang pula kemampuan manusia dalam mengumpulkan dan mengolah data. Penggunaan sistem komputerisasi dalam berbagai bidang baik itu dalam transaksi-transaksi bisnis, maupun untuk kalangan pemerintah dan sosial, telah menghasilkan data yang berukuran sangat besar. Data-data yang terkumpul ini merupakan suatu tambang emas yang dapatdigunakan sebagai informasi dalam dunia bisnis. Sehingga dari sinilah muncul teknik data mining yang merupakan proses analisa data dengan menggunakan perangkat lunak untuk menemukan suatu pola dan aturan dalam himpunan data. Data mining mampu mengalisa data yang besar menjadi informasi berupa pola yang mempunyai arti dalam mendukung keputusan.
Adapun hasil yang diharapkan dari teknik data mining ini adalah diperolehnya informasi-informasi yang berguna dari data-data yang ada, hubungan antara item dalam transaksi, maupun informasi informasi-yang potensial, selanjutnya dapat diekstrak, dianalisa dan diteliti lebih lanjut dari berbagai sudut pandang. Salah satu teknik yang ada dalam teknik data mining yaitu Classification atau teknik klasifikasi.
Klasifikasi adalah salah satu teknik data mining yang disebut supervised, dimanalabel kelas dari setiap Training tuple sudah disediakan[2]. Macam-macam teknik klasifikasi adalah Bayesian, neural network, genetic algorithm k-nearest neighbor, case-based reasoningdan decision tree [1]. Dalam tugas akhir ini metode yang digunakan dalam data miningclassification yaitu Decision Tree. Decision Tree memiliki karakteristik membentuk pohon keputusan secara Top Down dan Divide Conquer. Top down artinya pohon keputusan dibangun dari simpul akar ke daun, sementara Divide and Conquer artinya training data dipartisi kedalam bagian-bagian yang lebih kecil saat pembangunan pohon. Berdasarkan cara pembelajaran tree, decision tree dibagi menjadi Incremental dan Non Incremental. Algoritma non-incremental salah satunya ID3 seringkali digunakan karena kemampuan klasifikasinya yang cukup baik dalam menanggulangi kasus data mining, namun jumlah node yang dihasilkan masih cukup banyak,sehingga diperlukan suatu cara untuk meminimalisir jumlah node dengan mengeliminasi ambang batas nilai gain atau threshold.
Pada penelitian sebelumnya telah dilakukan penelitian terhadap data yang bertipe kontinyu, sehingga hanya difokuskan pada pendiskritan data atribut tanpa menganalisa atribut dan sklabilitas data yang berpengaruh terhadap pembangunan pohon, namun pada tugas akhir ini akan digunakan algoritma ID3 untuk mengetahui bagaimana performansi algoritma ini dalam mengklasifikasikan suatu data, dilihat dari sisi akurasi, waktu, dan simplisitas node yang dihasilkan berdasarkan inputan nilai thresholddari user.
1.2 Perumusan Masalah
Permasalahan yang akan dibahas dan diteliti pada tugas akhir ini adalah : 1. Bagaimana menerapkan Algoritma ID3 dalam klasfikasi data mining
2. Bagaimana pengaruh nilai ambang batas atau thresholduntuk mengeliminasi atribut dan pengaruh banyaknya instance terhadap akurasi, simplisitas node dan waktu pembuatan tree
Batasan masalah dalam tugas Akhir ini adalah :
1. Data yang digunakan adalah data yang berasal dari database UCI Machine LearningRepository (http://archive.ics.uci.edu/ml/datasets.html.) yaitu Breast Cancer, House Vote dan Mushroom
2. Data yang digunakan merupakan data kategorikal 3. Hanya dapat menangani kasus untuk binary class
1.3 Tujuan
Tujuan yang ingin dicapai dari Tugas Akhir ini adalah : 1. Menerapkan Algoritma ID3 dalam klasfikasi data mining
2. Melihat pengaruh nilai ambang batas atau threshold untuk mengeliminasi atribut dan pengaruh banyaknya instance terhadap akurasi, simplisitas node dan waktu pembuatan tree
1.4 Metodologi Penelitian
Metodologi penyelesaian masalah yang digunakan dalam tugas akhir ini adalah :
1. Studi Literatur
Dengan mempelajari literatur-literatur yang berhubungan dengan Teknik Klasifikasi dengan Decision Tree ID3, Confusion matrix dalam hubungannya dengan akurasi algoritma tersebut.
2. Implementasi perangkat lunak
a. Analisa dan design perangkat lunak
Melakukan analisa dan design perangkat lunak, mengenai kebutuhan sistem serta fungsionalitas yang dibutuhkan dalam sistem.
b. Implementasi
Mengimplementasikan hasil perancangan menjadi sebuah sistem klasifikasi
c. Pengujian
Melakukan pengujian terhadap sistem yang telah dibangun dengan menggunakan data validasi dan data uji
3. Analisis hasil
a. Melakukan analisa node hasil klasifikasi yang terbentuk untuk melihat akurasi yang terbentuk
b. Melihat pengaruh banyaknya instance yang dilatih terhadap akurasi tree c. Melakukan analisa terhadap waktu yang dibutuhkan dalam proses
klasifikasi.
4. Pengambilan keputusan dan pembuatan laporan
Menulis laporan hasil pengujian dan menyimpulkan berdasarkan nilai akurasi yang dihasilkan dari Metode tersebut dalam Buku Laporan Tugas Akhir
5. Penutup
5.1 Kesimpulan
Berdasarkan percobaan dan analisis yang dilakukan, maka dapat diambil beberapa kesimpulan sebagai berikut:
1. Nilai threshold dapat memangkas nilai atribut yang berada dibawah ambang batas yang ditentukan, dan tetap mempertahankan atribut yang memiliki gain lebih besar dari ambang batas sebagai root dari pohon yang dihasilkan. Nilai threshold digunakan untuk menghasilkan pohon dan waktu pembangunan pohon yang cenderung lebih kecil dengan tidak mengabaikan akurasi. Berdasarkan hasil pengujian terhadap data breastCancer, HouseVote dan Mushroom, nilai threshold pada proses prepruning akan maksimal dari segi akurasi ketika karakterisitik data yang digunakan memiliki skalabilitas besar, perbandingan jumlah atribut yang nilainya tidak bervariasi lebih
biner. Sehingga didapat bahwa data Mushroom memiliki akurasi yang terbaik, kemudian houseVote lalu data BreastCancer.
2. Pada data Mushroom yang memiliki atribut pencilan yaitu terdapat atribut yang memiliki nilai gain hampir bernilai 1, didapat hasil bahwa dengan adanya atribut pencilan, memberikan akurasi dan waktu yang lebih baik dibandingkan dengan menghilangkan atribut pencilan tersebut.
5.2 Saran
Saran yang dapat diberikan guna pengembangan tugas akhir ialah :
1. Menggunakan data yang yang memiliki kelas multivariate atau multiclass
2. Dapat menggunakan algoritma pohon keputusan lain yang lebih mangkus seperti ITI dengan membangun pohon secara incremental, sehingga dapat memangkas penggunaan memori untuk membangun pohon baru dengan data baru
Daftar Pustaka
[1] Aas, Kjerti and Line Eikvil, Text Categorisation: ASurvey.Diunduh pada : http://lvk.cs.msu.su/~bruzz/articles/classification/Text%20Categorisation%20A%20S urvey.pdf, Maret 2011.
[2] Han Jiawei, Micheline Kembar. Data Mining : Concept and Techniques. Second Edition
biner. Sehingga didapat bahwa data Mushroom memiliki akurasi yang terbaik, kemudian houseVote lalu data BreastCancer.
2. Pada data Mushroom yang memiliki atribut pencilan yaitu terdapat atribut yang memiliki nilai gain hampir bernilai 1, didapat hasil bahwa dengan adanya atribut pencilan, memberikan akurasi dan waktu yang lebih baik dibandingkan dengan menghilangkan atribut pencilan tersebut.
5.2 Saran
Saran yang dapat diberikan guna pengembangan tugas akhir ialah :
1. Menggunakan data yang yang memiliki kelas multivariate atau multiclass
2. Dapat menggunakan algoritma pohon keputusan lain yang lebih mangkus seperti ITI dengan membangun pohon secara incremental, sehingga dapat memangkas penggunaan memori untuk membangun pohon baru dengan data baru
Daftar Pustaka
[1] Aas, Kjerti and Line Eikvil, Text Categorisation: ASurvey.Diunduh pada : http://lvk.cs.msu.su/~bruzz/articles/classification/Text%20Categorisation%20A%20S urvey.pdf, Maret 2011.
[2] Han Jiawei, Micheline Kembar. Data Mining : Concept and Techniques. Second Edition
[3] Humairah.Nur.2008. Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C5.0-bab2. UPNVJ.Jakarta.
[4] Kalles, Dimitrios & Tim Moris. Efficient Incremental Induction of Decision Trees.
Diunduh pada
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8054&rep=rep1&type=p df, Oktober 2010.
[5] Ramadan,Riza. Penerapan Pohon Untuk Klasifikasi Dokumen Teks Berbahasa Inggris.Diunduh pada http://www.informatika.org/~rinaldi/Matdis/2006-2007/ Makalah/Makalah0607-121.pdf, Oktober 2010.
[6] Suyanto,M.T. Artificial Intelligence: Searching, Reasoning, Planning and Learning, Indonesian version, Penerbit Informatika Bandung, Indonesia, Juni 2007.
[7] Setiawan, Bambang.Perancangan Sistem Pendukung Keputusan (SPK) Untuk
Menentukan Kelaiklautan Kapal. Diunduh pada http://digilib.its.ac.id/public/ITS-Master-10163-Paper.pdf Januari 2011.
[8] Soemartini. 2007. Pencilan (outlier).Jurusan Statistika Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Padjadjaran. Jatinangor.
[9] Tan, Pang-ning, Michael Steinbach, and Vipin Kumar. 2006. Introduction to Data mining. Pearson education, Inc.
[10] Utgoff , Paul E. Incremental Induction of Decision Trees. Diunduh pada http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.64.4884&rep=rep1&type=p df, Oktober 2010.
[11] Quinlan. Induction of Decision Trees. Diunduh padahttp://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.167.3624&rep=rep1&type=pdf, September 2010.
[12] Witten, Ian H. , Eibe Frank. 2005. Data Mining: Practical Machine Learning Tools and Techniques . Elsevier publishing.