TINJAUAN PUSTAKA Data Mining - Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Mea

Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining

merupakan keseluruhan proses

mengaplikasikan komputer dan bermacam- macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang

analisis data, data mining dapat

diklasifikasikan menjadi dua yaitu

descriptive data mining dan predictive data mining. Descriptive data mining

menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi

PENDAHULUAN

Latar Belakang

Basis data saat ini telah berkembang sangat cepat. Di dalam tumpukan data tersebut mungkin terdapat informasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Penumpukan data tersebut dialami pula oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information”. Oleh karena itu, diperlukan suatu cara agar kumpulan data tersebut tidak hanya dibiarkan menggunung namun dapat di’tambang’ untuk mencari informasi yang berguna bagi organisasi yang bersangkutan.

Data tanaman pangan dan hortikultura yang dimiliki Departemen Pertanian telah dianalisis pada penelitian sebelumnya dengan menerapkan teknik klasifikasi menggunakan metode pohon keputusan dengan algoritme C5.0 (Purnamasari 2006). Tahap preprocessing adalah salah satu langkah yang perlu dilakukan agar data dapat sesuai untuk data mining. Strategi atau pendekatan yang sering digunakan adalah agregasi, sampling, reduksi dimensional, feature subset selection, pembuatan fitur, diskretisasi dan binerisasi, serta transformasi variabel. Pendekatan- pendekatan ini dapat dikelompokkan ke dalam dua kategori, yaitu seleksi objek- objek data dan atribut-atribut untuk analisis atau pembuatan/perubahan atribut. Tujuan dari kedua kategori tersebut adalah untuk meningkatkan analisis data mining terhadap waktu, biaya dan kualitas (Tan et al. 2005).

Pendiskretan atribut merupakan salah satu aspek yang penting dalam data mining

salah satunya dalam metode klasifikasi. Ada beberapa metode untuk mendiskretkan data

yaitu binning, analisis histogram,

diskretisasi berbasis entropy, 2- merging,

analisis cluster, dan diskretisasi dengan Partisi Intuitif. (Han & Kamber 2006).

Dalam penelitian ini tahapan praproses data

akan menggunakan teknik diskretisasi Partisi Intuitif dan clustering menggunakan algoritme K-meansyang diaplikasikan pada Data Tanaman Padi, Tanaman Pangan dan Hortikultura, Departemen Pertanian.

Tujuan

Tujuan penelitian ini adalah :

• Menerapkan teknik Partisi Intuitif dan

clustering dengan algoritme K-Means dalam diskretisasi atribut.

• Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 yang diaplikasikan pada data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian.

• Membandingkan akurasi pohon yang

dihasilkan dengan Partisi Intuitif dan

clustering sebagai metode diskretisasi atribut.

Ruang Lingkup

Dalam penelitian ini pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA

(Waikato Environment for Knowledge

Analysis).

Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian dari tahun 1970 – 2003 (data berasal dari Badan Pusat Statistik)

TINJAUAN PUSTAKA

Data Mining

Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining

merupakan keseluruhan proses

mengaplikasikan komputer dan bermacam- macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang

analisis data, data mining dapat

diklasifikasikan menjadi dua yaitu

descriptive data mining dan predictive data mining. Descriptive data mining

perilaku dari kumpulan data yang baru.(Tan et al 2005). Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen resiko, telekomunikasi, asuransi dan keuangan.

Praproses Data

Hal yang sering ditemui pada basis data adalah data tidak lengkap (terdapat data yang bernilai null atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik praproses data dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses pengolahan data selanjutnya (Han & Kamber 2006). Tahapan praproses data adalah (Han & Kamber 2006):

1 Pembersihan data (cleaning)

Pada proses ini data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan

dengan mengisi nilai yang kosong,

mengurangi atau menghilangkan noise dan memperbaiki ketidakkonsistenan dalam data.

Permasalahan data kotor dan cara

membersihkannya yaitu: Nilai yang kosong (hilang)

Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan

tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’unknown’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.

Nilai mengandung noise

Data dengan nilai yang mengandung

noise dapat diganti dengan nilai hasil perhitungan dengan metode binning

(mengelompokkan nilai), metode regresi, atau dengan cara clustering.

Data tidak konsisten

Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2 Integrasi data

Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan

beberapa masalah seperti masalah

identifikasi entitas misalnya pada entitas

yang sama terdapat nama yang berbeda. Redudansijuga menjadi salah satu masalah, terdapat lebih dari satu tuple untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton. 3 Transformasi data (transformation)

Tahap transformasi data dilakukan agar data tetap konsisten yaitu setelah dilakukan integrasi dengan sumber data yang lain, tampilan dan isi tetap sama. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda (Kantardzic 2003). Transformasi data mencakup hal berikut:

Smoothing. Dilakukan untuk

menghilangkan noise dari data.

Tekniknya meliputi binning, regresi, dan

clustering.

Agregasi. Peringkasan dan agregasi diterapkan pada data, misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.

Generalisasi. Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki.

Misalkan kategori jalan bisa

digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.

Normalisasi yaitu proses dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan.

Konstruksi atribut. Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.

4 Reduksi data

Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Strategi mereduksi data meliputi:

Agregasi kubus data. Operasi agregasi diterapkan pada data dalam konstruksi kubus data.

Reduksi dimensi. Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.

Kompresi data, mereduksi ukuran data dengan mekanisme encoding.

Numerosity reduction. Data diganti atau diestimasikan dengan alternatifnya. Diskretisasi dan generasi konsep hirarki.

Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk membangkitkan konsep hirarki secara otomatis.

Dijelaskan oleh Han & Kamber (2006) bahwa tahapan praproses data tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.

Diskretisasi

Teknik diskretisasi digunakan untuk mengurangi jumah nilai pada atribut yang diberikan, dengan membagi kisaran nilai atribut ke dalam sejumlah interval. Label interval tersebut kemudian dapat digunakan untuk menggantikan nilai data yang aktual. Metode diskretisasi diantaranya: binning,

analisis histogram, diskretisasi berbasis

entropy, 2-merging, analisis cluster, dan diskretisasi dengan Partisi Intuitif (Han & Kamber 2006).

- Binning

Metode ini menghaluskan nilai yang telah terurut dengan nilai di sekitarnya, nilai tersebut didistribusikan ke dalam sejumlah

bucket atau bins. Data yang telah terurut tadi dipartisi ke dalam bins dengan kedalaman yang sama, misal 3 maka setiap bins akan berisi 3 nilai.

- Analisis Histogram

Seperti binning, analisis histogram adalah metode diskretisasi yang tidak ’terawasi’ karena dia tidak menggunakan informasi kelas. Histogram mempartisi nilai dari atribut ke dalam bucket. Secara khas lebar masing masing bucket adalah seragam. Setiap bucket ditampilkan melalui histogram yang tingginya mewakili frekuensi dari nilai setiap bucket.

- Diskretisasi berbasis entropy

Entropy adalah salah satu metode diskretisasi yang sering digunakan. Diskretisasi berbasis entropy adalah teknik partisi top-down. Untuk mendiskretkan atribut numerik, metode ini memilih nilai dari atribut yang memiliki entropy minimum

sebagai split-point, dan secara rekursif mempartisi hasil interval yang dihasilkan.

- 2-merging

Dasar metode diskretisasi ini adalah

ChiMerge. Ide dasar untuk diskretisasi akurat adalah nilai yang mirip secara konsisten digabungkan ke dalam sebuah interval. Jika ada dua interval yang bersebelahan dan mempunyai distribusi nilai yang mirip, maka intervalnya bisa digabung. Selainnya interval yang lain tetap harus dipisahkan.

- Analisis cluster

Analisis cluster juga metode diskretisasi

yang cukup populer. Metode ini

mengelompokkan nilai nilai yang sama ke dalam sebuah group (cluster)

- Diskretisasi dengan Partisi Intuitif Metode ini digunakan karena banyak pengguna yang menginginkan setiap range

dipartisi menjadi interval yang cukup seragam, dan setiap interval mudah dibaca karena terlihat intuitif atau natural.

Aturan 3-4-5 dapat digunakan untuk membagi data numerik menjadi data yang cukup seragam. Secara umum, aturan partisi membagi kisaran data menjadi 3, 4 atau 5 interval yang lebarnya cukup sama, rekursif, dan setiap tingkatan berdasar pada kisaran nilai dengan angka yang paling signifikan. Penjelasan mengenai aturan ini adalah sebagai berikut :

Jika interval mencakup 3, 6, 7, 9 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 3 interval. Untuk nilai 3, 6, dan 9, interval dibagi menjadi 3 dengan lebar yang sama sedangkan untuk nilai 7, interval akan dikelompokkan dengan perbandingan lebar 2-3-2. Jika interval mencakup 2, 4, atau 8 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 4 interval dengan lebar yang sama. Jika interval mencakup 1,5 atau 10 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 5 interval dengan lebar yang sama.

Algoritme K-Means

Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu objek data. Clustering memiliki bermacam- macam teknik, namun dua teknik yang

banyak digunakan adalah K-Means dan K- Medoid(Tan et al. 2005).

K-Means merupakan algoritme

clustering yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukan dari penggunanya. Algoritme dasar dari K- Means adalah (Tan et al. 2005):

Select K points as the initial centroids

Repeat

From K cluster by assigning all points to the closest centroids

Recomputed the centroids of each cluster

Until the centroids don’t

change

Algoritme ID3

Algoritme ID3 diperkenalkan dan

dikembangkan pertama kali oleh Ross Quinlan. Algoritme ID3 membentuk pohon

keputusan dengan metode divide-and-

conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree

dengan algoritme ID3 adalah (Quinlan, 2008):

1 Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data.

2 Sesudah node akar dibentuk, maka data pada node akar akan diukur dengan

information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.

3 Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing- masing.

4 Algoritme ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah pohon keputusan. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai

information gain.

5 Proses pembagian rekursif akan berhenti jika salah satu dari kondisi di bawah ini terpenuhi:

a Semua data dari anak cabang telah termasuk dalam kelas yang sama. b Semua atribut telah dipakai, tetapi

masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.

c Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node

daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.

Pohon Keputusan

Decision Tree adalah salah satu teknik

klasifikasi sederhana yang banyak

digunakan. Masalah klasifikasi diselesaikan dengan mengajukan serangkaian pertanyaan tentang atribut dari test record. Rangkaian

pertanyaan tersebut dan jawaban-

jawabannya diorganisasikan ke dalam bentuk pohon keputusan, yang merupakan struktur hirarki yang terdiri dari node-node

dan edge-edge berarah. Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari

root dan internal node lainnya, mengandung

kondisi-kondisi uji atribut untuk

memisahkan record yang memiliki

karakteristik yang berbeda. Setelah pohon keputusan dikonstruksi, test record dapat diklasifikasi. Bermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes. Hal ini akan membawa kita ke

internal node yang lain, dimana kondisi tes yang baru diaplikasikan, atau ke leaf node

(Tan et al. 2005).

Root Means Square Error (RMSE)

(Meese dan Rogoff 1983, diacu dalam

Wibowo dan Amir 2005) menyatakan

beberapa metode dapat digunakan untuk menunjukkan kesalahan dari suatu teknik prakiraan. Metode yang digunakan adalah menggunakan analisis residual yaitu melihat kesalahan atau perbedaan antara nilai hasil prakiraan dengan nilai yang sebenarnya terjadi. Kesalahan prakiraan pada periode t dapat dirumuskan t t t Y Y e = − ˆ di mana: = t

= t

Y nilai sebenarnya pada periode t

Yˆ nilai prakiraan pada periode t

Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE.

n Y Y MSE t n t t 2 1 ) ˆ ( − =

∑

= MSE RMSE= Cross Validation

Cross validation adalah metode yang

umum digunakan untuk mengevaluasi

kinerja classifier. Dalam pendekatan cross- validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua

subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai

training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two- fold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk

training dan satu kali untuk testing. Metode

k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk

testing, sedangkan sisanya digunakan untuk

training. Prosedur ini diulangi k kali

sedemikian sehingga setiap partisi

digunakan untuk testing tepat satu kali.

Total error ditentukan dengan

menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set

hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).

METODE PENELITIAN

Dalam dokumen Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Means Clustering terhadap Pembuatan Pohon Keputusan (Halaman 54-59)