ABSTRAK
LIESCA LEVY SHANDY. Perbandingan Metode Diskretisasi Data Partisi Intuitif Dan Clustering Terhadap Pembuatan Pohon Keputusan. Dibimbing oleh IMAS S. SITANGGANG.
Data sektor pertanian yang dimiliki Departemen Pertanian selalu bertambah setiap tahun sehingga menghasilkan sekumpulan data berukuran besar. Data tesebut mengandung informasi yang masih harus ditambang. Dalam penelitian ini, dibandingkan hasil pembentukan pohon keputusan menggunakan algoritme ID3 dengan metode diskretisasi Partisi Intuitif dan algoritme K-Means Clustering dengan jumlah cluster 4 dan 5 cluster
Pohon keputusan dibentuk menggunakan algoritme ID3 yang sudah tersedia dalam perangkat lunak WEKA (Waikato Environment Knowledge Analysis). Berdasarkan keluaran dari WEKA, aturan yang dihasilkan oleh metode Partisi Intuitif berjumlah 63 dengan akurasi sebesar 84,54%. Aturan yang dihasilkan oleh algoritme K-Means clustering dengan 4 cluster berjumlah 49 dengan akurasi sebesar 87.40% dan aturan yang dihasilkan menggunakan algoritme K-Means
clustering dengan jumlah cluster 5 berjumlah 59 dengan akurasi sebesar 76.87%. Nilai Root Means Square Error (RMSE) yang dihasilkan oleh masing masing metode yaitu Partisi Intuitif sebesar 0.12, algoritme K-Means clustering dengan jumlah cluster 4 sebesar 0.2 dan algoritme K-Means clustering dengan jumlah cluster 5 sebesar 0.24. Nilai RMSE dari hasil percobaan menunjukkan bahwa hasil terbaik terdapat pada pohon keputusan yang dibentuk dengan metode diskretisasi data partisi intuitif.
PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP
PEMBUATAN POHON KEPUTUSAN
LIESCA LEVY SHANDY
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP
PEMBUATAN POHON KEPUTUSAN
LIESCA LEVY SHANDY
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ABSTRAK
LIESCA LEVY SHANDY. Perbandingan Metode Diskretisasi Data Partisi Intuitif Dan Clustering Terhadap Pembuatan Pohon Keputusan. Dibimbing oleh IMAS S. SITANGGANG.
Data sektor pertanian yang dimiliki Departemen Pertanian selalu bertambah setiap tahun sehingga menghasilkan sekumpulan data berukuran besar. Data tesebut mengandung informasi yang masih harus ditambang. Dalam penelitian ini, dibandingkan hasil pembentukan pohon keputusan menggunakan algoritme ID3 dengan metode diskretisasi Partisi Intuitif dan algoritme K-Means Clustering dengan jumlah cluster 4 dan 5 cluster
Pohon keputusan dibentuk menggunakan algoritme ID3 yang sudah tersedia dalam perangkat lunak WEKA (Waikato Environment Knowledge Analysis). Berdasarkan keluaran dari WEKA, aturan yang dihasilkan oleh metode Partisi Intuitif berjumlah 63 dengan akurasi sebesar 84,54%. Aturan yang dihasilkan oleh algoritme K-Means clustering dengan 4 cluster berjumlah 49 dengan akurasi sebesar 87.40% dan aturan yang dihasilkan menggunakan algoritme K-Means
clustering dengan jumlah cluster 5 berjumlah 59 dengan akurasi sebesar 76.87%. Nilai Root Means Square Error (RMSE) yang dihasilkan oleh masing masing metode yaitu Partisi Intuitif sebesar 0.12, algoritme K-Means clustering dengan jumlah cluster 4 sebesar 0.2 dan algoritme K-Means clustering dengan jumlah cluster 5 sebesar 0.24. Nilai RMSE dari hasil percobaan menunjukkan bahwa hasil terbaik terdapat pada pohon keputusan yang dibentuk dengan metode diskretisasi data partisi intuitif.
PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP
PEMBUATAN POHON KEPUTUSAN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
LIESCA LEVY SHANDY
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul Skripsi : PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING
TERHADAP PEMBUATAN POHON KEPUTUSAN
Nama
: Liesca Levy Shandy
NRP
: G64101069
Menyetujui:
Pembimbing
Imas S. Sitanggang, S.Si, M.Kom
NIP 132206235
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Drh. Hasim, DEA
NIP 131578806
PRAKATA
Puji syukur Penulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini.
Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing yang telah begitu sabar dalam memberi saran, masukan, dan ide-ide kepada Penulis saat menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si selaku penguji yang telah memberi saran dan masukan kepada Penulis. Penulis juga mengucapkan terima kasih kepada:
1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kedua kakakku dan keluarganya yang selalu memberikan perhatian dan dukungan.
2 Mas Totok, Dina, dan Mba’E sahabat terbaik yang terus memberikan motivasi kepada Penulis dalam mengerjakan tugas akhir.
3 Segenap keluarga besar staf ekstensi Agribisnis IPB yang telah memberikan bantuan, semangat dan doa pada Penulis untuk bertahan sampai tetes tinta terakhir
4 Wina dan kru Az Zahra, Kiki dan kru M-17, Dyah, Yani, Mus, Aisyah, Rio dan Pipin yang memberikan keceriaan dan senyuman saat kejenuhan melanda.
5 Mbak Matus, Shandra dan Bembi atas pinjaman komputernya sehingga skripsi ini terselesaikan.
6 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di IPB terutama pada G64101038 atas solusi terbaliknya.
7 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.
Semoga penelitian ini dapat memberikan manfaat.
Bogor, Agustus 2008
RIWAYAT HIDUP
Penulis dilahirkan di Kediri pada tanggal 9 April 1982 dari ayah Suroso dan ibu Sri Hartatik. Penulis merupakan anak ketiga dari tiga bersaudara.
DAFTAR ISI
Halaman
DAFTAR TABEL ... vi
DAFTAR GAMBAR ... vi
DAFTAR LAMPIRAN ... vi
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup ... 1
TINJAUAN PUSTAKA Data Mining ... 1
Praproses Data ... 2
Diskretisasi ... 3
Algoritme K-Means ... 3
Algoritme ID3 ... 4
Pohon Keputusan ... 4
Root Means Square Error (RMSE) ... 4
Cross Validation ... 5
METODE PENELITIAN Proses Dasar Sistem ... 5
Lingkungan Pengembangan ... 6
HASIL DAN PEMBAHASAN Metode Partisi Intuitif ... 7
Algoritme K-Means dengan 4 cluster ... 8
Algoritme K-Means dengan 5 cluster ... 9
Perbandingan Metode Partisi Intuitif dengan Algoritme K-Means ... 9
KESIMPULAN ...10
DAFTAR PUSTAKA ...11
DAFTAR TABEL
Halaman
1 Nilai pada atribut produksi ... 7
2 Nilai pada atribut luas_panen ... 8
3 Interval atribut produksi untuk setiap cluster dengan jumlah cluster 4 ... 8
4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster 4 ... 8
5 Matriks confusion untuk algoritme K-Means dengan 4 cluster ... 9
6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster 5... 9
7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster 5 ... 9
8 Matriks confusion untuk algoritme K-Means dengan 5 cluster ... 9
9 Perbandingan hasil pohon keputusan metode Partisi Intuitif dengan algoritme K-Means ... 10
DAFTAR LAMPIRAN
Halaman 1 Pohon keputusan menggunakan metode Partisi Intuitif ...132 Aturan yang terbentuk menggunakan metode Partisi Intuitif ...20
3 Matriks confusion pohon keputusan dengan metode Partisi Intuitif ...22
4 Pohon keputusan menggunakan algoritme K-Means clustering dengan 4 cluster ...22
5 Aturan yang terbentuk menggunakan algoritme K-Means clustering dengan 4 cluster ...23
6 Matriks confusion pohon keputusan dengan Algoritme K-Means clustering untuk 4 cluster ...25
7 Pohon keputusan menggunakan algoritme K-Means clustering dengan 5 cluster ...25
8 Aturan yang terbentuk menggunakan algoritme K-Means clustering dengan 5 cluster ...26
PENDAHULUAN
Latar Belakang
Basis data saat ini telah berkembang sangat cepat. Di dalam tumpukan data tersebut mungkin terdapat informasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Penumpukan data tersebut dialami pula oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information”. Oleh karena itu, diperlukan suatu cara agar kumpulan data tersebut tidak hanya dibiarkan menggunung namun dapat di’tambang’ untuk mencari informasi yang berguna bagi organisasi yang bersangkutan.
Data tanaman pangan dan hortikultura yang dimiliki Departemen Pertanian telah dianalisis pada penelitian sebelumnya dengan menerapkan teknik klasifikasi menggunakan metode pohon keputusan dengan algoritme C5.0 (Purnamasari 2006). Tahap preprocessing adalah salah satu langkah yang perlu dilakukan agar data dapat sesuai untuk data mining. Strategi atau pendekatan yang sering digunakan adalah agregasi, sampling, reduksi dimensional, feature subset selection, pembuatan fitur, diskretisasi dan binerisasi, serta transformasi variabel. Pendekatan-pendekatan ini dapat dikelompokkan ke dalam dua kategori, yaitu seleksi objek-objek data dan atribut-atribut untuk analisis atau pembuatan/perubahan atribut. Tujuan dari kedua kategori tersebut adalah untuk meningkatkan analisis data mining terhadap waktu, biaya dan kualitas (Tan et al. 2005).
Pendiskretan atribut merupakan salah satu aspek yang penting dalam data mining
salah satunya dalam metode klasifikasi. Ada beberapa metode untuk mendiskretkan data
yaitu binning, analisis histogram,
diskretisasi berbasis entropy, 2- merging,
analisis cluster, dan diskretisasi dengan Partisi Intuitif. (Han & Kamber 2006).
Dalam penelitian ini tahapan praproses data
akan menggunakan teknik diskretisasi Partisi Intuitif dan clustering menggunakan algoritme K-meansyang diaplikasikan pada Data Tanaman Padi, Tanaman Pangan dan Hortikultura, Departemen Pertanian.
Tujuan
Tujuan penelitian ini adalah :
• Menerapkan teknik Partisi Intuitif dan
clustering dengan algoritme K-Means dalam diskretisasi atribut.
• Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 yang diaplikasikan pada data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian.
• Membandingkan akurasi pohon yang
dihasilkan dengan Partisi Intuitif dan
clustering sebagai metode diskretisasi atribut.
Ruang Lingkup
Dalam penelitian ini pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA
(Waikato Environment for Knowledge
Analysis).
Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian dari tahun 1970 – 2003 (data berasal dari Badan Pusat Statistik)
TINJAUAN PUSTAKA
Data Mining
Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining
merupakan keseluruhan proses
mengaplikasikan komputer dan bermacam-macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang
analisis data, data mining dapat
diklasifikasikan menjadi dua yaitu
descriptive data mining dan predictive data mining. Descriptive data mining
perilaku dari kumpulan data yang baru.(Tan et al 2005). Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen resiko, telekomunikasi, asuransi dan keuangan.
Praproses Data
Hal yang sering ditemui pada basis data adalah data tidak lengkap (terdapat data yang bernilai null atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik praproses data dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses pengolahan data selanjutnya (Han & Kamber 2006). Tahapan praproses data adalah (Han & Kamber 2006):
1 Pembersihan data (cleaning)
Pada proses ini data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan
dengan mengisi nilai yang kosong,
mengurangi atau menghilangkan noise dan memperbaiki ketidakkonsistenan dalam data.
Permasalahan data kotor dan cara
membersihkannya yaitu:
Nilai yang kosong (hilang)
Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan
tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’unknown’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.
Nilai mengandung noise
Data dengan nilai yang mengandung
noise dapat diganti dengan nilai hasil perhitungan dengan metode binning
(mengelompokkan nilai), metode regresi, atau dengan cara clustering.
Data tidak konsisten
Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal.
2 Integrasi data
Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan
beberapa masalah seperti masalah
identifikasi entitas misalnya pada entitas
yang sama terdapat nama yang berbeda. Redudansijuga menjadi salah satu masalah, terdapat lebih dari satu tuple untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.
3 Transformasi data (transformation) Tahap transformasi data dilakukan agar data tetap konsisten yaitu setelah dilakukan integrasi dengan sumber data yang lain, tampilan dan isi tetap sama. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda (Kantardzic 2003). Transformasi data mencakup hal berikut:
Smoothing. Dilakukan untuk
menghilangkan noise dari data.
Tekniknya meliputi binning, regresi, dan
clustering.
Agregasi. Peringkasan dan agregasi diterapkan pada data, misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.
Generalisasi. Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki.
Misalkan kategori jalan bisa
digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.
Normalisasi yaitu proses dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan.
Konstruksi atribut. Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.
4 Reduksi data
Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Strategi mereduksi data meliputi:
Agregasi kubus data. Operasi agregasi diterapkan pada data dalam konstruksi kubus data.
Kompresi data, mereduksi ukuran data dengan mekanisme encoding.
Numerosity reduction. Data diganti atau diestimasikan dengan alternatifnya. Diskretisasi dan generasi konsep hirarki.
Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk membangkitkan konsep hirarki secara otomatis.
Dijelaskan oleh Han & Kamber (2006) bahwa tahapan praproses data tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.
Diskretisasi
Teknik diskretisasi digunakan untuk mengurangi jumah nilai pada atribut yang diberikan, dengan membagi kisaran nilai atribut ke dalam sejumlah interval. Label interval tersebut kemudian dapat digunakan untuk menggantikan nilai data yang aktual. Metode diskretisasi diantaranya: binning,
analisis histogram, diskretisasi berbasis
entropy, 2-merging, analisis cluster, dan diskretisasi dengan Partisi Intuitif (Han & Kamber 2006).
- Binning
Metode ini menghaluskan nilai yang telah terurut dengan nilai di sekitarnya, nilai tersebut didistribusikan ke dalam sejumlah
bucket atau bins. Data yang telah terurut tadi dipartisi ke dalam bins dengan kedalaman yang sama, misal 3 maka setiap bins akan berisi 3 nilai.
- Analisis Histogram
Seperti binning, analisis histogram adalah metode diskretisasi yang tidak ’terawasi’ karena dia tidak menggunakan informasi kelas. Histogram mempartisi nilai dari atribut ke dalam bucket. Secara khas lebar masing masing bucket adalah seragam. Setiap bucket ditampilkan melalui histogram yang tingginya mewakili frekuensi dari nilai setiap bucket.
- Diskretisasi berbasis entropy
Entropy adalah salah satu metode diskretisasi yang sering digunakan. Diskretisasi berbasis entropy adalah teknik partisi top-down. Untuk mendiskretkan atribut numerik, metode ini memilih nilai dari atribut yang memiliki entropy minimum
sebagai split-point, dan secara rekursif mempartisi hasil interval yang dihasilkan.
- 2-merging
Dasar metode diskretisasi ini adalah
ChiMerge. Ide dasar untuk diskretisasi akurat adalah nilai yang mirip secara konsisten digabungkan ke dalam sebuah interval. Jika ada dua interval yang bersebelahan dan mempunyai distribusi nilai yang mirip, maka intervalnya bisa digabung. Selainnya interval yang lain tetap harus dipisahkan.
- Analisis cluster
Analisis cluster juga metode diskretisasi
yang cukup populer. Metode ini
mengelompokkan nilai nilai yang sama ke dalam sebuah group (cluster)
- Diskretisasi dengan Partisi Intuitif Metode ini digunakan karena banyak pengguna yang menginginkan setiap range
dipartisi menjadi interval yang cukup seragam, dan setiap interval mudah dibaca karena terlihat intuitif atau natural.
Aturan 3-4-5 dapat digunakan untuk membagi data numerik menjadi data yang cukup seragam. Secara umum, aturan partisi membagi kisaran data menjadi 3, 4 atau 5 interval yang lebarnya cukup sama, rekursif, dan setiap tingkatan berdasar pada kisaran nilai dengan angka yang paling signifikan. Penjelasan mengenai aturan ini adalah sebagai berikut :
Jika interval mencakup 3, 6, 7, 9 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 3 interval. Untuk nilai 3, 6, dan 9, interval dibagi menjadi 3 dengan lebar yang sama sedangkan untuk nilai 7, interval akan dikelompokkan dengan perbandingan lebar 2-3-2. Jika interval mencakup 2, 4, atau 8 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 4 interval dengan lebar yang sama. Jika interval mencakup 1,5 atau 10 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 5 interval dengan lebar yang sama.
Algoritme K-Means
banyak digunakan adalah Means dan K-Medoid(Tan et al. 2005).
K-Means merupakan algoritme
clustering yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukan dari penggunanya. Algoritme dasar dari K-Means adalah (Tan et al. 2005):
Select K points as the initial centroids
Repeat
From K cluster by assigning all points to the closest centroids
Recomputed the centroids of each cluster
Until the centroids don’t
change
Algoritme ID3
Algoritme ID3 diperkenalkan dan
dikembangkan pertama kali oleh Ross Quinlan. Algoritme ID3 membentuk pohon
keputusan dengan metode
divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree
dengan algoritme ID3 adalah (Quinlan, 2008):
1 Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data.
2 Sesudah node akar dibentuk, maka data pada node akar akan diukur dengan
information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
3 Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
4 Algoritme ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah pohon keputusan. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai
information gain.
5 Proses pembagian rekursif akan berhenti jika salah satu dari kondisi di bawah ini terpenuhi:
a Semua data dari anak cabang telah termasuk dalam kelas yang sama. b Semua atribut telah dipakai, tetapi
masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
c Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node
daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Pohon Keputusan
Decision Tree adalah salah satu teknik
klasifikasi sederhana yang banyak
digunakan. Masalah klasifikasi diselesaikan dengan mengajukan serangkaian pertanyaan tentang atribut dari test record. Rangkaian
pertanyaan tersebut dan
jawaban-jawabannya diorganisasikan ke dalam bentuk pohon keputusan, yang merupakan struktur hirarki yang terdiri dari node-node
dan edge-edge berarah. Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari
root dan internal node lainnya, mengandung
kondisi-kondisi uji atribut untuk
memisahkan record yang memiliki
karakteristik yang berbeda. Setelah pohon keputusan dikonstruksi, test record dapat diklasifikasi. Bermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes. Hal ini akan membawa kita ke
internal node yang lain, dimana kondisi tes yang baru diaplikasikan, atau ke leaf node
(Tan et al. 2005).
Root Means Square Error (RMSE)
(Meese dan Rogoff 1983, diacu dalam
Wibowo dan Amir 2005) menyatakan
beberapa metode dapat digunakan untuk menunjukkan kesalahan dari suatu teknik prakiraan. Metode yang digunakan adalah menggunakan analisis residual yaitu melihat kesalahan atau perbedaan antara nilai hasil prakiraan dengan nilai yang sebenarnya terjadi. Kesalahan prakiraan pada periode t dapat dirumuskan
t t
t Y Y
e = − ˆ
di mana: = t
= t
Y nilai sebenarnya pada periode t
=
t
Yˆ nilai prakiraan pada periode t
Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE.
n Y Y MSE t n t t 2 1 ) ˆ ( − =
∑
= MSE RMSE= Cross ValidationCross validation adalah metode yang
umum digunakan untuk mengevaluasi
kinerja classifier. Dalam pendekatan cross-validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua
subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai
training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two-fold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk
training dan satu kali untuk testing. Metode
k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk
testing, sedangkan sisanya digunakan untuk
training. Prosedur ini diulangi k kali
sedemikian sehingga setiap partisi
digunakan untuk testing tepat satu kali.
Total error ditentukan dengan
menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set
hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).
METODE PENELITIAN
Proses Dasar Sistem
Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database
(KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:
Gambar Tahapan dalam KDD
1 Praproses Data
Praproses data meliputi pembersihan data, integrasi data, transformasi dan seleksi data. Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. Proses pembersihan data pada penelitian ini merujuk kepada penelitian sebelumnya (Purnamasari 2006).
Transformasi dilakukan untuk
membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi.
Praproses dimulai dengan memisahkan data tanaman padi dari seluruh propinsi. Baru kemudian dilakukan proses diskretisasi menggunakan Partisi Intuitif. Metode ini menggunakan aturan 3-4-5 sebagai dasar untuk membagi data. Dari setiap atribut diambil nilai maksimum (MAX) dan minimum (MIN) sebagai batas interval.
Setelah itu dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit), setelahnya nilai 5 persentil dibulatkan kebawah sesuai satuan MSD menjadi LOW’ dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD.
aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian
nilai maksimum dan nilai minimum
diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama
mencakup nilai minimum maka
LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.
2 Data Mining
Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :
a Pembentukan Pohon
Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.
b Pemangkasan Pohon
Pemangkasan pohon dapat dilakukan
dengan metode prepruning atau
postpruning. Namun alternatif lain yang
dapat dilakukan adalah
mengkombinasikan prepruning dan
postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.
c Pembentukan Aturan Keputusan,
aturan yang dihasilkan dari pohon
keputusan dapat ditampilkan dalam
bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node
yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN
diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN
lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.
3 Evaluasi Data Keluaran
Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.
Lingkungan Pengembangan
Lingkungan pengembangan sistem
dalam penelitian ini meliputi: Perangkat lunak:
Windows XP Profesional sebagai sistem operasi.
WEKA 3-5-7 untuk membentuk pohon keputusan.
MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data
Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:
Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb.
Harddisk 40 GB
Monitor 15 inchi, mouse dan keyboard.
HASIL DAN PEMBAHASAN
Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah
dilakukan oleh peneliti sebelumnya
(Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.
yang merupakan file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10-fold cross validation sebagai model pengujian.
Metode Partisi Intuitif
Metode diskretisasi yang digunakan adalah Partisi Intuitif dengan aturan 3-4-5. Dari atribut produksi diambil nilai maksimum (MAX) yaitu 21.579.444 ton dan minimum (MIN) sebesar 961 ton sebagai batas interval awal. Kemudian dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Dari seluruh nilai produksi didapatkan nilai LOW =17.340,5 dan nilai
HIGH = 8.233.619. Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit). Karena rentang nilai LOW
dan HIGH terletak pada satuan juta maka
ditetapkan MSD sebesar 1.000.000
setelahnya nilai 5 persentil dibulatkan ke bawah sesuai satuan MSD menjadi LOW’ sebesar 0 dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’
sebesar 9.000.000. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan adalah 9, sesuai dengan aturan 3-4-5 maka akan didapatkan tiga interval, yaitu (0 ... 3.000.000], (3.000.000 ... 6.000.000], dan (6.000.000 ... 9.000.000]. Hasil interval ini akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk kedalam partisi level pertama. Karena interval pertama mencakup nilai minimum maka 0<961 (LOW’<MIN). Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih sempit. Nilai MSD dari MIN didapatkan yaitu ratusan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’ = 900. Hal ini untuk menetapkan ulang batas interval sebelah kiri sehingga didapatkan awal interval yang baru adalah (900 ... 9.000.000].
Jika nilai MAX tidak tercakup pada interval (MAX > HIGH’) maka perlu interval baru yang mencakup nilai MAX tersebut. Nilai dari interval terakhir tidak mencakup nilai MAX sehingga nilai MAX dibulatkan ke atas sesuai nilai MSD. MSD dari MAX berada pada satuan puluhan juta sehingga MAX dibulatkan ke atas menjadi MAX’ sebesar 30.000.000, dari nilai MIN’ dan MAX’ didapatkan rentang interval yang baru yaitu (900 ... 30.000.000). Dari rentang
interval yang baru ini didapatkan 4 partisi dimana partisi keempat berasal dari nilai HIGH’ sampai dengan nilai MAX’.
Langkah selanjutnya, karena nilai MAX sudah tercakup pada interval, maka langsung dibuat interval dari hirarki level berikutnya. Langkah yang sama diulang lagi pada level hirarki yang lebih rendah sehingga didapatkan interval yang lebih sempit. Interval pertama (900... 3.000.000] dipartisi menjadi 4 subinterval: (900 ... 750.675] , (750.675 ... 1.500.450], (1.500.450 ... 2.250.225], (2.250.225 ... 3.000.000]. Interval kedua (3.000.000 ... 6.000.000] dipartisi menjadi 3 subinterval: (3.000.000 ... 4.000.000], (4.000.000 ... 5.000.000], (5.000.000 ... 6.000.000], interval ketiga (6.000.000 ... 9.000.000] dipartisi menjadi 3 subinterval: (6.000.000 ... 7.000.000], (7.000.000 ... 8.000.000], (8.000.000 ... 9.000.000], dan interval keempat (9.000.000 ... 30.000.000) dipartisi menjadi empat subinterval: (9.000.000 ... 14.250.000], (14.250.000 ... 19.500.000], (19.500.000 ... 24.750.000], dan (24.750.000 ... 30.000.000]. Hasil perhitungan tersebut yang akan dijadikan dasar pengelompokkan atribut data menjadi beberapa kelas.
Hasil diskretisasi data pada atribut produksi dapat dilihat pada Tabel 1
Tabel 1 Nilai pada atribut produksi
Kelas Interval (dalam Ton)
P1 900-750.675
P2 750.675-1.500.450
P3 1.500.450-2.250.225
P4 2.250.225-3.000.000
P5 3.000.000-4.000.000
P6 4.000.000-5.000.000
P7 5.000.000-6.000.000
P8 6.000.000-7.000.000
P9 7.000.000-8.000.000
P10 8.000.000-9.000.000
P11 9.000.000-14.250.000
P12 14.250.000-19.500.000
P13 19.500.000- 24.750.000
Atribut luas_panen mengalami
perlakuan yang sama dengan atribut
produksi. Atribut ini didiskretkan
Tabel 2 Nilai pada atribut luas_panen
Kelas Interval (dalam Ha)
L1 500-100.400
L2 100.400-200.300
L3 200.300-300.200
L4 300.200-400.100
L5 400.100-500.000
L6 500.000-625.000
L7 625.000-750.000
L8 750.000-875.000
L9 875.000-1.000.000
L10 1.000.000-1.100.000
L11 1.100.000-1.200.000
L12 1.200.000-1.300.000
L13 1.300.000-1.400.000
L14 1.400.000-1.500.000
L15 1.500.000-1.600.000
L16 1.600.000-1.700.000
L17 1.700.000-1.800.000
L18 1.800.000-1.900.000
L19 1.900.000-2.000.000
L20 2.000.000-8.000.000
L21 8.000.000-14.000.000
L22 14.000.000-20.000.000
Data yang telah didiskretkan kemudian disimpan kedalam file padi_baru.csv. File csv ini diubah menjadi file padi_baru.arff, file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan
membentuk pohon keputusan. Pohon
keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation
sebagai model pengujian. Pohon keputusan yang dihasilkan menggunakan metode ini dapat dilihat pada Lampiran 1 sedangkan aturan yang dibentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 2.
Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Hasil evaluasi model ini ditabulasikan dalam sebuah tabel yang dikenal sebagai matriks
confusion. Matriks confusion untuk metode Partisi Intuitif ini dapat dilihat pada Lampiran 3
Informasi dalam confusion matrix
diperlukan untuk menentukan kinerja model
klasifikasi dengan menggunakan
performance metric seperti akurasi yang didefinisikan sebagai berikut:
prediksi banyaknya total benar yang prediksi Banyaknya Akurasi =
Dengan metode Partisi Intuitif untuk
diskretisasi atribut, akurasi dari pohon keputusan yang didapat adalah
8454 . 0 1016 13 28 9 6 8 36 10 65 127 557 = + + + + + + + + + = Akurasi
Secara ekuivalen, error rate yang dihasilkan bisa dihitung menggunakan cara yang sama.
prediksi banyaknya total salah yang prediksi banyaknya rate Error =
Sesuai dengan rumus di atas maka akan didapatkan hasil perhitungan error rate
metode ini yaitu sebesar 14,46 %.
Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode Partisi Intuitif
ini dihasilkan jumlah objek yang
diklasifikasikan benar adalah 859 dan jumlah yang diklasifikasikan salah sebesar 147 dari 1016 (jumlah seluruh objek). Sehingga akurasi kebenaran mencapai 84,54 %. Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.12.
Algoritme K-Means dengan 4 cluster
Algoritme K-Means digunakan untuk clustering atribut luas_panen dan produksi, dengan jumlah cluster 4. Hasil clustering
pada atribut produksi dapat dilihat pada Tabel 3 dan hasil clustering pada atribut luas_panen pada Tabel 4
Tabel 3 Interval atribut produksi untuk setiap cluster, dengan jumlah cluster adalah 4
Cluster Interval (dalam Ton)
1 903.191- 2.671.754
2 6.594.514 - 21.579.444
3 961- 884.273
4 2.689.834 - 6.111.937
Tabel 4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 4
Cluster Interval (dalam Ha)
1 519-286.870
2 287.708-902.286
3 5.029.518–15.275.533
4 1.183.574-2.188.479
Data yang telah didiskretkan dengan
menggunakan Algoritme K-Means
kemudian disimpan ke dalam file bernama
cluster (4) padi_asli2.csv. File csv ini diubah
menjadi file bernama cluster(4)
masukan untuk perangkat lunak WEKA. Dengan menggunakan WEKA data akan
diproses untuk membentuk pohon
keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan dapat dilihat pada Lampiran 4 sedangkan aturan yang terbentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 5.
Berdasarkan pohon keputusan yang dihasilkan, diperoleh jumlah record yang diklasifikasikan benar adalah 888 sedangkan jumlah record yang diklasifikasikan salah sebesar 127 dari 1016 jumlah seluruh
record. Sehingga akurasi kebenaran mencapai 87,40 % dengan jumlah aturan yang terbentuk adalah 49. Matriks confusion
untuk algoritme K-Means dengan 4 cluster
ini dapat dilihat pada Tabel 5.
Tabel 5 matriks confusion untuk algoritme K-Means dengan 4 cluster
Hasil prediksi
C1 C2 C3 C4
K el a s S eb e na rnya
C1 152 1 27 18
C2 0 78 0 0
C3 26 0 636 0
C4 20 35 0 22
Berdasarkan perhitungan yang
dilakukan oleh WEKA didapatkan nilai Root mean Square Error (RMSE) sebesar 0.2
Algoritme K-Means dengan 5 cluster
Prosedur yang dilakukan dalam tahapan ini sama dengan metode sebelumnya. Metode yang digunakan adalah algoritme K-Means clustering dengan jumlah cluster 5. Hasil diskretisasi pada atribut produksi dapat dilihat pada Tabel 6 dan atribut luas_panen pada Tabel 7
Tabel 6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster adalah 5
cluster Interval (dalam Ton)
1 1.177.221 - 2.802.492
2 461.413 - 1.169.865
3 961- 458.756
4 6.878.791 - 21.579.444
5 2.839.821 - 6.594.514
Tabel 7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 5
cluster Interval (dalam Ha)
1 519 - 210.425
2 495.958 - 902.286
3 214.180 - 494.145
4 5.029.518 - 15.275.533
5 1.183.574 - 2.188.479
Data yang telah didiskretisasi kemudian disimpan ke dalam file cluster(5) padi_asli2.csv. File csv ini diubah menjadi file cluster(5) padi_asli2.arff, file ini yang dijadikan masukan untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation
sebagai model pengujian. Pohon keputusan yang dihasilkan oleh algoritme K-Means dengan 5 cluster ini dapat dilihat pada
Lampiran 7 sedangkan aturan yang
terbentuk dapat dilihat pada Lampiran 8. Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode K-Means
clustering dengan 5 cluster ini dihasilkan jumlah yang diklasifikasikan benar adalah 781 dan jumlah yang diklasifikasikan salah sebesar 234 dari 1016 total seluruh objek. Persentase kebenaran dari metode K-Means
clustering dengan 5 cluster ini adalah
76,87% dengan jumlah aturan yang
terbentuk sejumlah 59. Matriks confusion
untuk algoritme K-Means dengan 5 cluster
ini bisa dilihat pada Tabel 8.
Tabel 8 Matriks confusion untuk algoritme K-Means dengan 5 cluster
prediksi kelas
C1 C2 C3 C4 C5
K el a s S e b ena rn
ya C1 85 54 0 0 15
C2 40 186 27 1 0
C3 5 38 413 0 0
C4 0 0 0 77 0
C5 18 0 0 36 20
Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.24.
Perbandingan Metode Partisi Intuitif dan Algoritme K-Means
terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering
dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means
clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5
cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik
Tabel 9 Perbandingan hasil pohon
keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar
859 888 781
Jumlah klasifikasi
salah
147 127 234
Root Means Square Error
0.12 0.20 0.24
Jumlah Aturan yang terbentuk
63 49 59
Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:
A Metode Partisi Intuitif
If luas_panen =L1 then produksi =P1
If luas_panen = L2 and lokasi =Bengkulu
then produksi =P1
If luas_panen =L2 and lokasi Jambi then
produksi =P1
If luas_panen =L2 and lokasi
Daerah_Istimewa_Yogyakarta then
produksi =P1
If luas_panen =L2 and lokasi
Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4
If lokasi = Bali then produksi = C3
If lokasi = Bangka_Belitung then
produksi = C3
If lokasi = Banten then produksi = C4
If lokasi = Jawa_Barat and luas_panen
=L3 then produksi = C2
If lokasi = Jawa Barat and luas_panen
= L2 then produksi = null
If lokasi = Jawa_Timur then produksi = C2
C Algoritme K-Means clustering dengan jumlah cluster 5
If lokasi = Bali then produksi = C2
If lokasi = Bangka_Belitung then
produksi = C3
If lokasi= Banten then produksi = C1
If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null
If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null
If lokasi = Jawa_Timur then produksi = C4
KESIMPULAN
Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering
dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means
clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah
Jumlah aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif sebesar 63, Algoritme K-Means
clustering dengan jumlah cluster 4 sebesar 49 dan K-Means clustering dengan jumlah
cluster 5 sebesar 59.
DAFTAR PUSTAKA
Han J dan Kamber M. 2006. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher
Kantardzic M. 2003. Data Mining : Concept, Models, Methods, and Algorithms. USA: Wiley Interscience Meese & Rogoff 1983. Empirical Exchange
Rate Models of The Seventies Journal of International Economics 14 (1983), North Holland Company
Purnamasari, Y. 2006. Penerapan Teknik Klasifikasi Dengan Algoritme Decision Tree Untuk Data Tanaman Pangan dan Hortikultura [Skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.
Quinlan, R. The ID3 Algorithm
http://www.cise.ufl.edu/~ddd/cap
6635/Fall-97/Short-papers/2.htm
[17 Juli 2008].
Tan PN, Kumar V, Steinbach M. 2005
Introduction To Data Mining. Addison Wesley Publisher
Lampiran 1 Pohon keputusan menggunakan metode Partisi Intuitif luas_panen = L1: P1
luas_panen = L2 | lokasi = Bali: P2
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: P1
| lokasi = Daerah_Istimewa_Yogyakarta: P1 | lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: P1 | lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: P1 | lokasi = Kalimantan_Timur: P1 | lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: P1 | lokasi = Nusa_Tenggara_Timur: P1 | lokasi = Papua: null
| lokasi = Riau: P1
| lokasi = Sulawesi_Selatan: null
| lokasi = Sulawesi_Tengah: P1 | lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: P1 | lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L3 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: P1 | lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: P1 | lokasi = Kalimantan_Selatan: P1 | lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: P1 | lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: P2 | lokasi = Nusa_Tenggara_Barat: P2 | lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
Lanjutan
| lokasi = Sulawesi_Tengah: P2 | lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: P1 | lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L4 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: P2 | lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: P2 | lokasi = Kalimantan_Selatan: P2 | lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: P2 | lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: P2 | lokasi = Nusa_Tenggara_Barat: P2 | lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: P2 | lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: P3 | lokasi = Sumatera_Selatan: P2 | lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L5 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: P2 | lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
Lanjutan
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: P2 | lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: P3 | lokasi = Sumatera_Selatan: P2 | lokasi = Sumatera_Utara: P2 | lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L6 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: P3 | lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: P3 | lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: P3 | lokasi = Sumatera_Utara: P3 | lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L7 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
Lanjutan
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: P4 | lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: P4 | lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L8 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: null
| lokasi = Jawa_Timur: null
| lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: P5 | lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: P5 | lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L9: P5 luas_panen = L10: null
Lanjutan
luas_panen = L12 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: P5 | lokasi = Jawa_Timur: P5 | lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: null
| lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L13 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: P6 | lokasi = Jawa_Timur: P6 | lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: null
Lanjutan
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L14 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: P9 | lokasi = Jawa_Timur: P9 | lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: null
| lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L15 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: null
| lokasi = Jawa_Tengah: P10 | lokasi = Jawa_Timur: P9 | lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
Lanjutan
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: null
| lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L16 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
| lokasi = Jawa_Barat: P7 | lokasi = Jawa_Tengah: P10 | lokasi = Jawa_Timur: P10 | lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: null
| lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L17 | lokasi = Bali: null
| lokasi = Bangka_Belitung: null
| lokasi = Banten: null
| lokasi = Bengkulu: null
| lokasi = Daerah_Istimewa_Yogyakarta: null
| lokasi = Daerah_Khusus_Ibukota_Jakarta: null
| lokasi = Gorontalo: null
| lokasi = Jambi: null
Lanjutan
| lokasi = Jawa_Timur: P10 | lokasi = Kalimantan_Barat: null
| lokasi = Kalimantan_Selatan: null
| lokasi = Kalimantan_Tengah: null
| lokasi = Kalimantan_Timur: null
| lokasi = Lampung: null
| lokasi = Maluku: null
| lokasi = Nanggroe_Aceh_Darussalam: null
| lokasi = Nusa_Tenggara_Barat: null
| lokasi = Nusa_Tenggara_Timur: null
| lokasi = Papua: null
| lokasi = Riau: null
| lokasi = Sulawesi_Selatan: null
| lokasi = Sulawesi_Tengah: null
| lokasi = Sulawesi_Tenggara: null
| lokasi = Sulawesi_Utara: null
| lokasi = Sumatera_Barat: null
| lokasi = Sumatera_Selatan: null
| lokasi = Sumatera_Utara: null
| lokasi = Timor_Timur: null
| lokasi = Maluku_Utara: null
luas_panen = L18: P7 luas_panen = L19: P11 luas_panen = L20: P11 luas_panen = L21: null
luas_panen = L22: P13
Lampiran 2 Aturan yang terbentuk menggunakan metode partisi intuitIf
1 If Luas_panen =L1 then produksi =P1
2 If luas_panen= L2 and lokasi Bali then produksi = P2 3 If luas_panen =L2 and lokasi Bengkulu then produksi = P1
4 If luas_panen = L2 and lokasi Daerah_Istimewa_Yogyakarta then produksi = P1 5 If luas_panen = L2 and lokasi Jambi then produksi =P1
6 If luas_panen = L2 and lokasi Kalimantan_Tengah then produksi =P1 7 If luas_panen =L2 and lokasi Kalimantan_Timur then produksi =P1 8 If luas_panen = L2 and lokasi Nusa_Tenggara_Barat then produksi = P1 9 If luas_panen = L2 and lokasi Nusa_Tenggara_Timur then produksi = P1 10 If luas_panen = L2 and lokasi Riau then produksi =P1
11 If luas_panen = L2 and lokasi Sulawesi_Tengah then produksi = P1 12 If luas_panen =L2 and lokasi Sulawesi_Utara then produksi =P1 13 If luas_panen =L3 and lokasi jambi then produksi = P1
14 If luas_panen =L3 and lokasi Kalimantan_Barat then produksi = P1 15 If luas_panen =L3 and lokasi Kalimantan_Selatan then produksi = P1 16 If luas_panen =L3 and lokasi Lampung then produksi = P1
Lanjutan
22 If luas_panen =L4 and lokasi Kalimantan_Barat then produksi = P2 23 If luas_panen =L4 and lokasi Kalimantan _Selatan then produksi =P2 24 If luas_panen =L4 and lokasi Lampung then produksi = P2
25 If luas_panen =L4 and lokasi Nanggroe_Aceh_Darussalam then produksi = P2 26 If luas_panen =L4 and lokasi Nusa_Tenggara_Barat then produksi