Hery Suwandy Ompusunggu¹, Dhinta Darmantoro², Moch Arif Bijaksana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

(1)

IMPLEMENTASI SELEKSI VARIABEL MENGGUNAKAN METODE

CORRELATION-BASED FEATURE SELECTION DALAM TASK CLASSIFICATION VARIABLE SELECTION IMPLEMENTATION USING CORRELATION-BASED

FEATURE SELECTION METHOD ON TASK CLASSIFICATION

Hery Suwandy Ompusunggu¹, Dhinta Darmantoro², Moch Arif Bijaksana³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Data mining adalah proses mengekstraksi atau menggali informasi dari sekumpulan data. Dalam data mining ada tiga task utama yaitu klasifikasi, asosiasi dan klasterisasi. Klasifikasi dalam data mining merupakan proses mencari pola dari sekumpulan data. Tujuan dari pencarian pola

tersebut adalah untuk menjawab nilai dari suatu data yang belum diketahui nilainya. Namun kerap kali dibutuhkan resource yang cukup besar untuk melakukan klasifikasi. Hal ini dapat disebabkan karena data yang akan dilakukan klasifikasi memiliki dimensionalitas yang tinggi, banyak variabel yang irrelevant, ataupun variabel yang redundant.

Untuk itu diperlukan tahap pre-prosessing sebelum dilakukan proses klasifikasi. Ada banyak jenis tahap preprosesing, salah satunya adalah Variabel Selection. Variabel Selection adalah suatu proses pengidentifikasian dan penghapusan variabel yang bersifat irrelevant atau mengalami redundant.

Tugas akhir ini secara khusus membahas tentang seleksi variabel dengan menggunakan metode Correlation-based. Dalam melakukan seleksi variabel, correlation-based melakukan penghitungan dan pembandingan tingkat korelasi antara masing-masing variabel dengan variabel Classnya dan antara variabel dengan variabel lainnya. Kemudian dilakukan pengujian dengan membandingan nilai akurasi, precision dan recall antara dataset asli dengan dataset hasil seleksi variabel dengan metode correlation-based. Dari hasil pengujian diketahui bahwa seleksi variabel dengan metode correlation-based mampu mengurangi dimensionalitas data dengan nilai akurasi, precison dan recall yang mampu menyamai dataset aslinya.

Kata Kunci : Klasifikasi , Pre-prosessing , Variabel Selection, Correlation-based

Abstract

Data mining is a process of extracting or mining knowledge from large amount of data. There are three tasks in data mining, they are classification, association, and clusterization. A classification in data mining is a task to find the pattern of a data group. The aim of finding the pattern is to get the data value which still not known. But in many times it needs a huge resource to do classification. It is because the dataset which to be classified has high dimensionality ,many irrelevant or redundant variables.

Therefore a proccessing task is needed before the classification proses. There are many pre-proccessing steps, one of them is Variable Selection. Variable selection is a proccess of

identifying and deleting variables which are irrelevant or redundant.

This final assignment spesifically studying about variable selection using Correlation-based method. In selecting variable, Correlation-based method do counting and comparing correlation level between variable and its class variable or variables with other variables . Then the test is done by comparing the accuration, precision and recall value between original dataset and the Correlation-based dataset. From the test result is known that variable selection using correlation-based method can reduce data dimensionality with accuration, precision and recall value close to original dataset.

Keywords : Classification, pre-proccessing, Variable Selection, Correlation

Powered by TCPDF (www.tcpdf.org)

(2)

1.Pendahuluan

1.1Latar belakang

Meningkatnya kebutuhan manusia akan informasi menyebabkan bertambahnya jumlah data yang ada. Hal ini justru semakin didukung oleh murahnya wadah penyimpanan data (Space). Oleh sebab itu sebagian besar perusahaan dan organisasi memilih untuk menyimpan semua data hasil transaksinya dalam sebuah

storage. Namun data yang banyak tersebut akan kurang berarti apabila tidak

diolah. Melalui analisis data tesebut, kita akan mendapatkan informasi yang bisa dijadikan sebagai bahan pertimbangan untuk pengambilan keputusan dimasa yang akan datang. Saat ini ada bidang ilmu yang khusus untuk melakukan analisis data, yaitu data mining.

Analisis yang dilakukan data mining bertujuan untuk menentukan pola dari suatu kumpulan data. Melalui pola ini, data akan dapat ditampilkan dengan lebih sederhana, sehingga lebih mudah untuk dipahami. Salah satu teknik data

mining dalam melakukan pengolahan data adalah klasifikasi. Klasifikasi

merupakan proses menemukan model atau fungsi untuk dapat memprediksi suatu objek yang belum diketahui Classnya. Model yang dibuat dalam klasifikasi dapat berupa aturan ”if - then”, decision tree atau dalam metode Bayesian, Support

Vector Mechines, Jaringan syaraf tiruan, Case-based Reasoning, dan lain lain.

Dalam klasifikasi, data yang digunakan untuk proses pembentukan pola sangatlah penting . Untuk mendapatkan pola yang lebih baik dibutuhkan data yang baik pula. Proses pembentukan pola dalam klasifikasi dikenal dengan dua buah proses yaitu proses training dan proses test. Proses klasifikasi digunakan varibel input untuk training dan test untuk mengetahui tingkat akurasi kebenaran model yang dibangun, pemilihan variabel yang digunakan untuk proses klasifikasi sangatlah penting, hal ini bertujuan untuk meningkatkan performansi prediksi suatu Class, harga prediksi yang efektif, kemudahan visualisasi dan pemahanan data dan juga untuk mengurangi dimensionalitas dari variabel input.

Tugas akhir ini akan mengimplementasikan pemilihan variabel (Feature Selection) dalam proses klasifikasi dengan menerapkan metode

Correlation-based Feature Selection. Dalam metode ini sebelum data input

mengalami proses training dan test, variabel data input tersebut akan diseleksi terlebih dahulu. Correlation-based Feature Selection akan meminimalkan subset dari variabel data input yang akan digunakan pada proses training dan test dengan cara memilih variabel-variabel yang dinilai memiliki korelasi yang tinggi dengan variabel-variabel yang lain. Variabel-variabel yang kurang relevan akan dihilangkan sehingga dihasilkan data inputan dengan variabel yang lebih sedikit..

1.2Perumusan masalah

Klasifikasi dalam data mining digunakan untuk mencari pola dengan cara menganalisis sekumpulan data set yang mendeskripsikan dan membedakan Class data. Sehingga pola yang didapat nantinya dapat memprediksi data yang belum diketahui Classnya. Pada klasifikasi dataset akan dijadikan sebagai data input

1

(3)

untuk proses training dan test. Namun untuk jumlah data yang besar dan variabel yang banyak, akan sangat kompleks untuk membuat model classifier dari dataset tersebut. Oleh karena itu, Sebelum proses training dan test pada klasifikasi, variabel input yang digunakan perlu dipilih untuk mendapatkan pola yang lebik baik, sehingga dimensi data dapat dikurangi.

Pemilihan variabel yang dimaksudkan adalah dengan mereduksi beberapa variabel yang ada, sehingga tidak semua variabel dalam dataset digunakan, tetapi sebagian saja. Pada tugas akhir ini akan dianalisis pemilihan variabel dengan menggunakan metode Correlation-Based Feature Selection pada data mining. Dari uraian diatas dapat dirumusan masalah dalam tugas akhir ini adalah :

1. Bagaimana cara melakukan pemilihan variabel (pengurangan dimensionalitas data) apabila jumlah variabel data inputan terlalu banyak.

Correlation-Based Feature Selection merupakan teknik untuk mengurangi atau menghapus suatu variabel yang mungkin yang sifatnya kurang

relevan dengan variabel yang lain tanpa adanya penurunan tingkat keakuratan

data yang berarti.

Adapun batasan-batasan masalah dalam tugas akhir ini adalah sebagai berikut :

1. Dataset yang digunakan dalam kasus ini adalah dataset yang bertipe data

record.

2. Data yang digunakan sudah dalam bentuk data diskret dan tidak menangani data kontinu.

3. Tidak menangani data cleaning.

4. Implementasi perangkat lunak hanya pada pemilihan variabel dari dataset,

sedangkan untuk klasifikasi dataset menggunakan software pembantu

1.3Tujuan

Tujuan dari pembuatan tugas akhir ini adalah sebagai berikut :

1. Merancang dan membangun perangkat lunak untuk mengimplementasikan

variable selection dengan menggunakan metode Correlation-based Feature Selection.

2. Membandingkan hasil pemilihan variabel menggunakan metode Correlation-based Feature Selection dengan hasil pemilihan variabel dari perangkat lunak yang sudah ada (menggunakan metode Best First).

3. Membandingkan hasil pengukuran classifier sebelum dan sesudah dilakukan variable selection pada dataset yang meliputi Precision, Recall dan Accuracy yang dihitung dari confusion matrix yang dihasilkan oleh perangkat lunak yang digunakan.

1.4Metodologi penyelesaian masalah

Metodologi yang akan digunakan untuk menyelesaikan tugas akhir ini adalah: 1. Studi Literatur

2

(4)

Pada tahap ini akan dilakukan pendalaman materi, identifikasi masalah, dan metodologi yang akan digunakan dalam pemecahan masalah. Mempelajari teori dasar proses pemilihan variabel secara umum, teori dasar Correlation-based Feature Selection serta penghitungan tingkat korelasi pada pemilihan variabel

2. Perancangan

Mengumpulkan data yang diperlukan, melakukan analisis dan perancangan akan sistem yang akan diimplementasikan.

3. Implementasi

Impementasi pada program untuk pemilihan variabel dari data inputan dengan menggunakan metode Correlation-based Feature Selection yang akan digunakan pada klasifikasi untuk membentuk classifier.

4. Pengujian

Menguji perangkat lunak yang telah dibangun, dan kemudian melakukan perbaikan jika ditemukan bug dan error.

5. Membuat analisis dari hasil implementasi yang telah dibuat sesuai dengan parameter yang telah ditentukan sebelumnya dan membuat laporan hasil analisis.

1.5Sistematika Penulisan

Adapun sistematika penulisan Tugas Akhir ini adalah sebagai berikut : 1. Pendahuluan

Berisi latar belakang, perumusan masalah, tujuan, metodologi penyelesaian masalah dan sistematika penulisan.

2. Landasan Teori

Menguraikan berbagai teori yang mendukung pengerjaan tugas akhir ini, seperti Data Mining, Feature Selection, Corelation-Based Feature

Selection.

3. Analisis dan Perancangan

Membahas tentang analisis kebutuhan dan perangan awal sistem dengan menggunakan diagram alir.

4. Pengujian dan Analisis Hasil

Melakukan pengujian dan analisis terhadap hasil pengujian. 5. Kesimpulan dan Saran

Berisi tengan kesimpulan dari sistem yang telah di buat, serta saran untuk pengembangan lebih lanjut.

3

(5)

5.Penutup

5.1 Kesimpulan

1. Jumlah variabel dataset hasil yang dihasilkan moteda Correlation-Based lebih sedikit dari pada jumlah variabel yang dihasilkan metode Best-First (Weka).

2. Dari ketiga clasifier yang digunakan untuk proses klasifikasi dataset hasil dari correlatin-based, yaitu IBk, J48 dan Random-forest. Clasifier Random-forest memberikan nilai akurasi yang tertinggi.

3. Metode Correlation-based kurang cocok jika diterapkan pada dataset yang mengalami missing value.

4. Nilai rata-rata korelasi antar variabel dalam suatu dataset, berbanding terbalik dengan jumlah variabel dataset yang akan dihasilkan oleh metode Correlation-based.

5. Correlation-based terbukti mampu memperkecil tingkat dimensionalitas dari sebuah dataset. Hal ini dapat dilihat dari semakin kecilnya jumlah variabel dan lebih sederhannya tree dataset hasil.

6. Correlation-based terbukti mampu menghemat waktu proses mencarian model dari sebuah dataset oleh machine learning.

7. Nilai Precison dan Recall untuk class pertama dataset hasil dari Correlation-based mampu menyamai nilai precison dan recall dataset Asli.

8. Nilai Precison dan Recall untuk class pertama dataset hasil dari Correlation-based mampu menyamai nilai precison dan recall dataset hasil dari Best-First.

5.2Saran

1. Akan lebih baik jika perangkat lunak ini dapat melakukan seleksi variabel pada kasus dataset yang memiliki variabel kombinasi.

2. Akan lebih baik jika pengujian juga dilakukan dengan menggunakan

machine learning yang lain, seperti Clementine sebagai bahan perbandingan.

48

(6)

Daftar Pustaka

[1] Diane J. Cook, R. Craig Varnell, 1998, ”Adaptive Parallel Iterative Deepening Searh”. Journal of Artificial Intelligence Research.

[2] I. Guyon and A.Elisseeff. “An Introduction to Variable and Feature Selection“, Journal of Machine Learning Research 3, 2003.

[3] John F. Elder IV, Dean w. Abbott, “A Comparison of Leading Data Mining Tools”, http://www.datamininglab.com United States.

[4] J. Han and M. Khamber. “Data Mining : Concepts and Techniques”, Morgan Kaufmann Publishers, San Francisco,USA, 2001.

[5] Kim YongSeong, W. Nick Street, M. Filipo, “Feature Selection in Data Mining”, Lowa University USA.

[6] Mark A. Hall, Lloyd A. Smith, “A Correlation Based Filter Aproach”, Department of Science University of Waikato Hamilton New Zealand. [7] Mark A. Hall, Lloyd A. Smith, “Feature Selection For Machine

Learning : Comparing Correlation-based Filter Aproach to Wrapper”, Department of Science University of Waikato Hamilton New Zealand. [8] Pressman Roger. S. “Software Engineering a Practitioner Approach”,

McGraw- Hill Inc, Sixth Edition, 2005.

[9] Tan, Pang-Ning, et all. Introduction to Data Mining. Pearson Education, Inc., Boston, 2006.

[10] Two Crows Corporation, 2005, “Introduction to Data Mining and Knowledge Discovery”. Two Crows Corporation.

[11] Yu Lei, Liu Huan, 2004, “Feature Selection for High-Dimensional Data : A Fast Correlation-Based Filter Solution”, Departemen Of Science & Engineering, Arizona State University.

49