Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining
merupakan keseluruhan proses
mengaplikasikan komputer dan bermacam- macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang
analisis data, data mining dapat
diklasifikasikan menjadi dua yaitu
descriptive data mining dan predictive data mining. Descriptive data mining
menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi
PENDAHULUAN
Latar BelakangBasis data saat ini telah berkembang sangat cepat. Di dalam tumpukan data tersebut mungkin terdapat informasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Penumpukan data tersebut dialami pula oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information”. Oleh karena itu, diperlukan suatu cara agar kumpulan data tersebut tidak hanya dibiarkan menggunung namun dapat di’tambang’ untuk mencari informasi yang berguna bagi organisasi yang bersangkutan.
Data tanaman pangan dan hortikultura yang dimiliki Departemen Pertanian telah dianalisis pada penelitian sebelumnya dengan menerapkan teknik klasifikasi menggunakan metode pohon keputusan dengan algoritme C5.0 (Purnamasari 2006). Tahap preprocessing adalah salah satu langkah yang perlu dilakukan agar data dapat sesuai untuk data mining. Strategi atau pendekatan yang sering digunakan adalah agregasi, sampling, reduksi dimensional, feature subset selection, pembuatan fitur, diskretisasi dan binerisasi, serta transformasi variabel. Pendekatan- pendekatan ini dapat dikelompokkan ke dalam dua kategori, yaitu seleksi objek- objek data dan atribut-atribut untuk analisis atau pembuatan/perubahan atribut. Tujuan dari kedua kategori tersebut adalah untuk meningkatkan analisis data mining terhadap waktu, biaya dan kualitas (Tan et al. 2005).
Pendiskretan atribut merupakan salah satu aspek yang penting dalam data mining
salah satunya dalam metode klasifikasi. Ada beberapa metode untuk mendiskretkan data
yaitu binning, analisis histogram,
diskretisasi berbasis entropy, 2- merging,
analisis cluster, dan diskretisasi dengan Partisi Intuitif. (Han & Kamber 2006).
Dalam penelitian ini tahapan praproses data
akan menggunakan teknik diskretisasi Partisi Intuitif dan clustering menggunakan algoritme K-meansyang diaplikasikan pada Data Tanaman Padi, Tanaman Pangan dan Hortikultura, Departemen Pertanian.
Tujuan
Tujuan penelitian ini adalah :
• Menerapkan teknik Partisi Intuitif dan
clustering dengan algoritme K-Means dalam diskretisasi atribut.
• Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 yang diaplikasikan pada data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian.
• Membandingkan akurasi pohon yang
dihasilkan dengan Partisi Intuitif dan
clustering sebagai metode diskretisasi atribut.
Ruang Lingkup
Dalam penelitian ini pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA
(Waikato Environment for Knowledge
Analysis).
Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian dari tahun 1970 – 2003 (data berasal dari Badan Pusat Statistik)
TINJAUAN PUSTAKA
Data MiningData mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining
merupakan keseluruhan proses
mengaplikasikan komputer dan bermacam- macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang
analisis data, data mining dapat
diklasifikasikan menjadi dua yaitu
descriptive data mining dan predictive data mining. Descriptive data mining
menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi
perilaku dari kumpulan data yang baru.(Tan et al 2005). Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen resiko, telekomunikasi, asuransi dan keuangan.
Praproses Data
Hal yang sering ditemui pada basis data adalah data tidak lengkap (terdapat data yang bernilai null atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik praproses data dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses pengolahan data selanjutnya (Han & Kamber 2006). Tahapan praproses data adalah (Han & Kamber 2006):
1 Pembersihan data (cleaning)
Pada proses ini data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan
dengan mengisi nilai yang kosong,
mengurangi atau menghilangkan noise dan memperbaiki ketidakkonsistenan dalam data.
Permasalahan data kotor dan cara
membersihkannya yaitu: Nilai yang kosong (hilang)
Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan
tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’unknown’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.
Nilai mengandung noise
Data dengan nilai yang mengandung
noise dapat diganti dengan nilai hasil perhitungan dengan metode binning
(mengelompokkan nilai), metode regresi, atau dengan cara clustering.
Data tidak konsisten
Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2 Integrasi data
Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan
beberapa masalah seperti masalah
identifikasi entitas misalnya pada entitas
yang sama terdapat nama yang berbeda. Redudansijuga menjadi salah satu masalah, terdapat lebih dari satu tuple untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton. 3 Transformasi data (transformation)
Tahap transformasi data dilakukan agar data tetap konsisten yaitu setelah dilakukan integrasi dengan sumber data yang lain, tampilan dan isi tetap sama. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda (Kantardzic 2003). Transformasi data mencakup hal berikut:
Smoothing. Dilakukan untuk
menghilangkan noise dari data.
Tekniknya meliputi binning, regresi, dan
clustering.
Agregasi. Peringkasan dan agregasi diterapkan pada data, misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.
Generalisasi. Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki.
Misalkan kategori jalan bisa
digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.
Normalisasi yaitu proses dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan.
Konstruksi atribut. Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.
4 Reduksi data
Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Strategi mereduksi data meliputi:
Agregasi kubus data. Operasi agregasi diterapkan pada data dalam konstruksi kubus data.
Reduksi dimensi. Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.
Kompresi data, mereduksi ukuran data dengan mekanisme encoding.
Numerosity reduction. Data diganti atau diestimasikan dengan alternatifnya. Diskretisasi dan generasi konsep hirarki.
Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk membangkitkan konsep hirarki secara otomatis.
Dijelaskan oleh Han & Kamber (2006) bahwa tahapan praproses data tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.
Diskretisasi
Teknik diskretisasi digunakan untuk mengurangi jumah nilai pada atribut yang diberikan, dengan membagi kisaran nilai atribut ke dalam sejumlah interval. Label interval tersebut kemudian dapat digunakan untuk menggantikan nilai data yang aktual. Metode diskretisasi diantaranya: binning,
analisis histogram, diskretisasi berbasis
entropy, 2-merging, analisis cluster, dan diskretisasi dengan Partisi Intuitif (Han & Kamber 2006).
- Binning
Metode ini menghaluskan nilai yang telah terurut dengan nilai di sekitarnya, nilai tersebut didistribusikan ke dalam sejumlah
bucket atau bins. Data yang telah terurut tadi dipartisi ke dalam bins dengan kedalaman yang sama, misal 3 maka setiap bins akan berisi 3 nilai.
- Analisis Histogram
Seperti binning, analisis histogram adalah metode diskretisasi yang tidak ’terawasi’ karena dia tidak menggunakan informasi kelas. Histogram mempartisi nilai dari atribut ke dalam bucket. Secara khas lebar masing masing bucket adalah seragam. Setiap bucket ditampilkan melalui histogram yang tingginya mewakili frekuensi dari nilai setiap bucket.
- Diskretisasi berbasis entropy
Entropy adalah salah satu metode diskretisasi yang sering digunakan. Diskretisasi berbasis entropy adalah teknik partisi top-down. Untuk mendiskretkan atribut numerik, metode ini memilih nilai dari atribut yang memiliki entropy minimum
sebagai split-point, dan secara rekursif mempartisi hasil interval yang dihasilkan.
- 2-merging
Dasar metode diskretisasi ini adalah
ChiMerge. Ide dasar untuk diskretisasi akurat adalah nilai yang mirip secara konsisten digabungkan ke dalam sebuah interval. Jika ada dua interval yang bersebelahan dan mempunyai distribusi nilai yang mirip, maka intervalnya bisa digabung. Selainnya interval yang lain tetap harus dipisahkan.
- Analisis cluster
Analisis cluster juga metode diskretisasi
yang cukup populer. Metode ini
mengelompokkan nilai nilai yang sama ke dalam sebuah group (cluster)
- Diskretisasi dengan Partisi Intuitif Metode ini digunakan karena banyak pengguna yang menginginkan setiap range
dipartisi menjadi interval yang cukup seragam, dan setiap interval mudah dibaca karena terlihat intuitif atau natural.
Aturan 3-4-5 dapat digunakan untuk membagi data numerik menjadi data yang cukup seragam. Secara umum, aturan partisi membagi kisaran data menjadi 3, 4 atau 5 interval yang lebarnya cukup sama, rekursif, dan setiap tingkatan berdasar pada kisaran nilai dengan angka yang paling signifikan. Penjelasan mengenai aturan ini adalah sebagai berikut :
Jika interval mencakup 3, 6, 7, 9 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 3 interval. Untuk nilai 3, 6, dan 9, interval dibagi menjadi 3 dengan lebar yang sama sedangkan untuk nilai 7, interval akan dikelompokkan dengan perbandingan lebar 2-3-2. Jika interval mencakup 2, 4, atau 8 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 4 interval dengan lebar yang sama. Jika interval mencakup 1,5 atau 10 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 5 interval dengan lebar yang sama.
Algoritme K-Means
Dasar dari teknik clustering adalah membentuk suatu level partisi pada suatu objek data. Clustering memiliki bermacam- macam teknik, namun dua teknik yang
banyak digunakan adalah K-Means dan K- Medoid(Tan et al. 2005).
K-Means merupakan algoritme
clustering yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukan dari penggunanya. Algoritme dasar dari K- Means adalah (Tan et al. 2005):
Select K points as the initial centroids
Repeat
From K cluster by assigning all points to the closest centroids
Recomputed the centroids of each cluster
Until the centroids don’t
change
Algoritme ID3
Algoritme ID3 diperkenalkan dan
dikembangkan pertama kali oleh Ross Quinlan. Algoritme ID3 membentuk pohon
keputusan dengan metode divide-and-
conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree
dengan algoritme ID3 adalah (Quinlan, 2008):
1 Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data.
2 Sesudah node akar dibentuk, maka data pada node akar akan diukur dengan
information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
3 Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing- masing.
4 Algoritme ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah pohon keputusan. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai
information gain.
5 Proses pembagian rekursif akan berhenti jika salah satu dari kondisi di bawah ini terpenuhi:
a Semua data dari anak cabang telah termasuk dalam kelas yang sama. b Semua atribut telah dipakai, tetapi
masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
c Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node
daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Pohon Keputusan
Decision Tree adalah salah satu teknik
klasifikasi sederhana yang banyak
digunakan. Masalah klasifikasi diselesaikan dengan mengajukan serangkaian pertanyaan tentang atribut dari test record. Rangkaian
pertanyaan tersebut dan jawaban-
jawabannya diorganisasikan ke dalam bentuk pohon keputusan, yang merupakan struktur hirarki yang terdiri dari node-node
dan edge-edge berarah. Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari
root dan internal node lainnya, mengandung
kondisi-kondisi uji atribut untuk
memisahkan record yang memiliki
karakteristik yang berbeda. Setelah pohon keputusan dikonstruksi, test record dapat diklasifikasi. Bermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes. Hal ini akan membawa kita ke
internal node yang lain, dimana kondisi tes yang baru diaplikasikan, atau ke leaf node
(Tan et al. 2005).
Root Means Square Error (RMSE)
(Meese dan Rogoff 1983, diacu dalam
Wibowo dan Amir 2005) menyatakan
beberapa metode dapat digunakan untuk menunjukkan kesalahan dari suatu teknik prakiraan. Metode yang digunakan adalah menggunakan analisis residual yaitu melihat kesalahan atau perbedaan antara nilai hasil prakiraan dengan nilai yang sebenarnya terjadi. Kesalahan prakiraan pada periode t dapat dirumuskan t t t Y Y e = − ˆ di mana: = t
= t
Y nilai sebenarnya pada periode t
=
t
Yˆ nilai prakiraan pada periode t
Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE.
n Y Y MSE t n t t 2 1 ) ˆ ( − =
∑
= MSE RMSE= Cross ValidationCross validation adalah metode yang
umum digunakan untuk mengevaluasi
kinerja classifier. Dalam pendekatan cross- validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua
subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai
training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two- fold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk
training dan satu kali untuk testing. Metode
k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk
testing, sedangkan sisanya digunakan untuk
training. Prosedur ini diulangi k kali
sedemikian sehingga setiap partisi
digunakan untuk testing tepat satu kali.
Total error ditentukan dengan
menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set
hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).