Angelina Prima Kurniati¹, -². ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

(1)

ANALISIS DAN IMPLEMENTASI ALGORITMA PUBLIC SEBAGAI SEBUAH CLASSIFIER POHON KEPUTUSAN YANG SCALABLE DALAM DATA MINING ANALYSIS AND IMPLEMENTATION OF PUBLIC ALGORITHM AS A SCALABLE

DECISION TREE CLASSIFIER IN DATA MINING

Angelina Prima Kurniati¹, -²

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Data Mining merupakan salah satu bidang ilmu yang berupaya untuk menemukan informasi yang menarik dan bersifat baru dari sekumpulan data. Salah satu task dalam data mining yang

menarik dan menjadi pokok perhatian dalam Tugas Akhir ini adalah klasifikasi, khususnya yang menggunakan pohon keputusan. Pembentukan pohon keputusan dalam klasifikasi biasanya dilakukan dalam 2 fase yang terpisah, yaitu fase pertumbuhan yang dilanjutkan dengan fase pemangkasan.

Tugas Akhir ini menganalisis performansi PUBLIC sebagai sebuah algoritma klasifikasi yang menawarkan integrasi fase pemangkasan dengan fase pembangunan pohon terhadap parameter akurasi, kecepatan, kesederhanaan pohon keputusan dan skalabilitas, serta

mengimplementasikannya untuk menyelesaikan persoalan klasifikasi dalam data mining.

Hasilnya, integrasi fase pertumbuhan dan pemangkasan pohon dalam algoritma PUBLIC terbukti dapat meningkatkan kecepatan pembentukan pohon keputusan dengan mempertahankan akurasi dan skalabilitasnya.

Kata Kunci : data mining, klasifikasi, pohon keputusan, PUBLIC (PrUning and BuiLding Integrated in Classification)

Abstract

Data mining is a scientific field which tries to find interesting and novel information from a large data set. One interesting task in data mining that would be the point of view in this Final Project is classification, especially those which uses decision tree. The making of decision trees are ussually held on two separate phases, which are building phase and pruning phas, respectively. This Final Project analyses the performance of PUBLIC as a classification algorithm which offers integration of pruning phase on data mining with its building phase of the tree within parameters of accuration, speed, decision tree’s simplicity, and scalability, and implements it to solve

classification problems in data mining.

As the result, it had been proved that integration of tree building and pruning phases in PUBLIC algorithm can speed up the decision tree making and keep the accuration and scalability. Keywords : data mining, classification, decision tree, PUBLIC (PrUning and BuiLding Integrated in Classification)

(2)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Data Mining merupakan salah satu bidang ilmu yang berupaya untuk menemukan kaidah, pola, model, maupun informasi dalam bentuk lain yang menarik dan bersifat baru dari sekumpulan data. Salah satu task dalam data mining yang menjadi pokok perhatian dalam Tugas Akhir ini adalah klasifikasi. Salah satu metode klasifikasi yang banyak digunakan karena kesederhanaannya adalah pohon keputusan.

Fase pemangkasan pohon keputusan biasanya dilakukan setelah fase pertumbuhan pohon selesai dilakukan. Hal ini memerlukan waktu pemrosesan yang lama seiring dengan meningkatnya ukuran data yang dilatihkan. Bahkan penelitian menunjukkan bahwa fase pemangkasan akan memangkas sebagian besar dari pohon keputusan yang dibangun dalam fase pertumbuhan pohon.

Algoritma PUBLIC menawarkan integrasi fase pertumbuhan dan pemangkasan pohon keputusan dalam data mining. Dalam PUBLIC, sebuah node tidak diperluas selama fase pertumbuhan jika ditemukan bahwa node tersebut akan dipangkas pada fase pemangkasan.

Pada Tugas Akhir ini dilakukan studi analisis performansi algoritma PUBLIC terhadap parameter akurasi, kecepatan, kesederhanaan pohon yang dihasilkan dan skalabilitas.

1.2 Rumusan Masalah

PUBLIC adalah sebuah algoritma klasifikasi dengan metode pohon keputusan yang mengintegrasikan fase pertumbuhan dan pemangkasan pohon.

Fase pemangkasan pohon keputusan dalam PUBLIC dilakukan berdasarkan prinsip MDL (Minimum Description Length) karena prinsip ini

(3)

Bab I Pendahuluan I - 2

akurat, memungkinkan pemangkasan dilakukan dengan data pelatihan, serta menghasilkan pohon keputusan yang lebih ringkas.

Permasalahan yang menjadi obyek penulisan Tugas Akhir ini adalah:

1. Bagaimana implementasi integrasi prinsip MDL untuk pemangkasan pohon dengan pembangunan pohon keputusan untuk masalah klasifikasi? 2. Bagaimana melakukan pengujian dan analisis hasil implementasi

PUBLIC?

1.3 Maksud dan Tujuan

Maksud penyusunan Tugas Akhir ini:

1. Mengimplementasikan algoritma PUBLIC dalam perangkat lunak.

2. Menganalisis akurasi, kecepatan, kesederhanaan pohon yang dihasilkan, dan skalabilitas algoritma PUBLIC dalam perangkat lunak.

Tujuan penulisan Tugas Akhir ini:

1. Membangun perangkat lunak yang mengimplementasikan algoritma PUBLIC untuk menyelesaikan masalah klasifikasi dalam data mining. 2. Menganalisis pengaruh integrasi fase pertumbuhan dan pemangkasan

pohon keputusan dalam algoritma PUBLIC.

1.4 Batasan Masalah

Agar penulisan Tugas Akhir ini tidak terlalu luas dan menjadi lebih mudah dipahami, perlu dilakukan pembatasan masalah sebagai berikut :

1. Data yang digunakan adalah himpunan data yang ada dalam basis data dbPUBLIC di SQL Server 2000.

2. Data yang digunakan harus sudah melalui preproses dan siap digunakan. 3. Pengujian dilakukan dengan parameter akurasi, kecepatan, kesederhaan

pohon yang dihasilkan, skalabilitas, dan kompleksitas algoritma.

4. Versi PUBLIC yang diimplementasikan dalam Tugas Akhir ini adalah PUBLIC(1) karena implementasinya lebih sederhana namun akurasi tidak kurang dari dua versi lainnya yaitu PUBLIC(S) dan PUBLIC(V).

(4)

1.5 Metode Penyelesaian Masalah

Metode penyelesaian masalah dalam penulisan tugas Akhir ini disusun dalam langkah-langkah sebagai berikut:

1. Studi literatur, yang dilakukan dengan membaca dan mempelajari beberapa sumber tertulis (makalah, buku dan jurnal) yang berkaitan dengan data mining, klasifikasi, pohon keputusan, fase pertumbuhan dan pemangkasan, prinsip MDL, induksi yang scalable, serta algoritma SLIQ dan J4.8 yang digunakan sebagai pembanding dalam pengujian.

2. Pengumpulan dan analisis data yang mendukung implementasi dan analisis algoritma PUBLIC dalam perangkat, yaitu data dari UCI maupun data sintetik yang diperoleh dari generator data.

3. Analisis kebutuhan dan perancangan perangkat lunak, untuk menentukan kebutuhan pembangan pembangunan perangkat lunak, serta perancangan struktur data dan aktivitas perangkat lunak yang dibangun, dengan metode berorientasi objek.

4. Implementasi, yang merupakan langkah penerapan rancangan yang telah dibuat ke dalam perangkat lunak yang dapat digunakan untuk menyelesaikan masalah klasifikasi dengan algoritma PUBLIC.

5. Pengujian dan analisis hasil, yaitu langkah yang diambil untuk menilai performansi algoritma PUBLIC dalam perangkat lunak dengan parameter yang disebutkan dalam batasan masalah, terhadap algoritma SLIQ sebagai sebuah classifier pohon keputusan dengan post-pruning dan J4.8 dalam WEKA sebagai classifier yang biasa digunakan dalam data mining.

1.6 Sistematika Penulisan

Penulisan Tugas Akhir ini dibagi dalam enam bab, yang terdiri atas : Bab I Pendahuluan

Bab ini berisi latar belakang, rumusan masalah, batasan masalah, maksud dan tujuan, metode pemecahan, serta sistematika penulisan yang digunakan dalam penyusunan Tugas Akhir ini.

Sekolah Tinggi Teknologi Telkom 113010075

(5)

Bab I Pendahuluan I - 4

Bab II Landasan Teori

Berisi teori dan rumusan awal yang diperoleh dari berbagai sumber tentang data mining, klasifikasi, dan algoritma PUBLIC.

Bab III Analisis dan Perancangan Sistem

Bab ini berisi uraian tentang perancangan perangkat lunak, meliputi spesifikasi kebutuhan, perancangan struktur data dan proses dari perangkat lunak yang dibuat.

Bab IV Implementasi

Berisi penjelasan tentang pelaksanaan dan penerapan algoritma PUBLIC dalam suatu perangkat lunak yang dibangun.

Bab V Pengujian dan Analisis Hasil

Bab ini menguraikan analisis sistem dalam menyelesaikan proses klasifikasi pada himpunan data yang digunakan serta hasil pengujian terhadap perangkat lunak.

Bab VI Kesimpulan dan Saran

Berisi kesimpulan dari keseluruhan sistem yang dibuat serta saran untuk pengembangan perangkat lunak agar menjadi lebih baik.

(6)

BAB VI

KESIMPULAN DAN SARAN

6.1 Kesimpulan

1. PUBLIC merupakan sebuah classifier pohon keputusan yang scalable. Terbukti pada pengujian pada dataset sintetik, PUBLIC tetap dapat bekerja pada dataset dengan jumlah baris data 200000, sementara WEKA sebagai sebuah tools populer untuk data mining sudah tidak dapat menanganinya. 2. Rata-rata akurasi algoritma PUBLIC lebih baik 1.06 kali dibandingkan

SLIQ dalam menangani data UCI namun lebih rendah 0.99 kali dari J4.8 pada WEKA dalam menangani data sintetik. Hal ini menunjukkan bahwa integrasi fase pertumbuhan dan pemangkasan pohon dalam PUBLIC tidak mengganggu akurasi namun masih kalah dari J4.8.

3. PUBLIC adalah classifier yang relatif cepat dibandingkan dengan

classifier pohon keputusan lainnya (misalnya SLIQ). Dari rata-rata hasil pengujian dengan data UCI, terbukti bahwa PUBLIC hanya memerlukan waktu 0.37 kali dari waktu yang diperlukan SLIQ untuk menyelesaikan masalah yang sama. Namun, menurut hasil pengujian, PUBLIC lebih lambat 370.37 kali dibandingkan dengan J4.8 dalam WEKA.

4. PUBLIC menghasilkan pohon keputusan dengan rata-rata jumlah node 4.55 kali lebih banyak daripada SLIQ dan 0.77 kali lebih ringkas dibandingkan J4.8 dalam WEKA.

5. PUBLIC adalah classifier pohon keputusan yang tepat untuk menyelesaikan masalah klasifikasi pada dataset berukuran besar, terutama dengan jumlah baris data minimal 1000 baris. Pohon keputusan yang dihasilkannya relatif lebih ringkas dibandingkan dengan pohon keputusan yang dihasilkan J4.8 dalam WEKA.

VI - 1

(7)

Bab V – Analisis dan Pengujian Sistem V - 2

6.2 Saran

Implementasi PUBLIC dapat dikembangkan dengan implementasi versi PUBLIC(S) dan PUBLIC(V) yang diharapkan dapat meningkatkan performansi algoritma PUBLIC, terutama dalam memperingkas pohon keputusan yang dihasilkan tanpa mengganggu akurasinya.

(8)

DAFTAR PUSTAKA

[1] Apte, Chidanand dan Sholom Weiss, 1997. Data Mining with Decision Trees and Decision Rules. IBM Research Division and Rutgers University. [2] Esposito, Floriana. Donato Malerba dan Giovanni Semeraro, 1997. A Comparative Analysis of Methods for Pruning Decision Trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19 No. 5. [3] Fayyad, Usama. Gregory Piatetsky – Shapiro dan Padhraic Smyth, 1996.

The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communication of ACM, Vol. 39 No. 11.

[4] Gehrke, Johannes. Advances in Decision Tree Construction. Cornell University, Visconsin, Madison.

[5] Han, Jiawei and M. Kamber, 2001. Data Mining: Concepts and Techniques. San Francisco, CA: Morgan Kaufmann, 2001.

[6] Mehta, Manish. Jorma Rissanen dan Rakesh Agrawal. 1995. MDL-based Decision Tree Pruning. IBM Almaden Research Center - San Jose, CA. [7] Mitchell, T, 1997. Lecture Slides for Textbook Machine Learning/Decision

Trees.Mc Graw Hill.

[8] Provost, Foster dan Venkateswarlu Kolluri, 1997. Scalling Up Inductive Algorithms: An Overview. American Association for Artificial Intelligence.

[9] Rastogi, Rajeev dan Kyuseok Shim1998. PUBLIC: A Decision Tree Classifier that Integrates Building and Pruning. Bell Laboratories, Murray Hill, NJ.

[10] Shaufiah, 2004. Klasifikasi dalam Data Mining Menggunakan Algoritma SLIQ. STT Telkom, Bandung.

[11] UCI Machine Learning Repository.

http://www.ics.uci.edu/~mlearn/MLRepository.html 2005.

[12] Whitten, Ian H., 2000. WEKA Machine Learning Algorithms in Java.

Department of Computer Science University of Waikato. Hamilton, New Zealand.

Powered by TCPDF (www.tcpdf.org)