Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Means Clustering terhadap Pembuatan Pohon Keputusan

(1)

ABSTRAK

LIESCA LEVY SHANDY. Perbandingan Metode Diskretisasi Data Partisi Intuitif Dan Clustering Terhadap Pembuatan Pohon Keputusan. Dibimbing oleh IMAS S. SITANGGANG.

Data sektor pertanian yang dimiliki Departemen Pertanian selalu bertambah setiap tahun sehingga menghasilkan sekumpulan data berukuran besar. Data tesebut mengandung informasi yang masih harus ditambang. Dalam penelitian ini, dibandingkan hasil pembentukan pohon keputusan menggunakan algoritme ID3 dengan metode diskretisasi Partisi Intuitif dan algoritme K-Means Clustering dengan jumlah cluster 4 dan 5 cluster

Pohon keputusan dibentuk menggunakan algoritme ID3 yang sudah tersedia dalam perangkat lunak WEKA (Waikato Environment Knowledge Analysis). Berdasarkan keluaran dari WEKA, aturan yang dihasilkan oleh metode Partisi Intuitif berjumlah 63 dengan akurasi sebesar 84,54%. Aturan yang dihasilkan oleh algoritme K-Means clustering dengan 4 cluster berjumlah 49 dengan akurasi sebesar 87.40% dan aturan yang dihasilkan menggunakan algoritme K-Means

clustering dengan jumlah cluster 5 berjumlah 59 dengan akurasi sebesar 76.87%. Nilai Root Means Square Error (RMSE) yang dihasilkan oleh masing masing metode yaitu Partisi Intuitif sebesar 0.12, algoritme K-Means clustering dengan jumlah cluster 4 sebesar 0.2 dan algoritme K-Means clustering dengan jumlah cluster 5 sebesar 0.24. Nilai RMSE dari hasil percobaan menunjukkan bahwa hasil terbaik terdapat pada pohon keputusan yang dibentuk dengan metode diskretisasi data partisi intuitif.

(2)

PERBANDINGAN METODE DISKRETISASI DATA

PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP

PEMBUATAN POHON KEPUTUSAN

LIESCA LEVY SHANDY

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

PERBANDINGAN METODE DISKRETISASI DATA

PEMBUATAN POHON KEPUTUSAN

LIESCA LEVY SHANDY

DEPARTEMEN ILMU KOMPUTER

(4)

ABSTRAK

LIESCA LEVY SHANDY. Perbandingan Metode Diskretisasi Data Partisi Intuitif Dan Clustering Terhadap Pembuatan Pohon Keputusan. Dibimbing oleh IMAS S. SITANGGANG.

Data sektor pertanian yang dimiliki Departemen Pertanian selalu bertambah setiap tahun sehingga menghasilkan sekumpulan data berukuran besar. Data tesebut mengandung informasi yang masih harus ditambang. Dalam penelitian ini, dibandingkan hasil pembentukan pohon keputusan menggunakan algoritme ID3 dengan metode diskretisasi Partisi Intuitif dan algoritme K-Means Clustering dengan jumlah cluster 4 dan 5 cluster

Pohon keputusan dibentuk menggunakan algoritme ID3 yang sudah tersedia dalam perangkat lunak WEKA (Waikato Environment Knowledge Analysis). Berdasarkan keluaran dari WEKA, aturan yang dihasilkan oleh metode Partisi Intuitif berjumlah 63 dengan akurasi sebesar 84,54%. Aturan yang dihasilkan oleh algoritme K-Means clustering dengan 4 cluster berjumlah 49 dengan akurasi sebesar 87.40% dan aturan yang dihasilkan menggunakan algoritme K-Means

clustering dengan jumlah cluster 5 berjumlah 59 dengan akurasi sebesar 76.87%. Nilai Root Means Square Error (RMSE) yang dihasilkan oleh masing masing metode yaitu Partisi Intuitif sebesar 0.12, algoritme K-Means clustering dengan jumlah cluster 4 sebesar 0.2 dan algoritme K-Means clustering dengan jumlah cluster 5 sebesar 0.24. Nilai RMSE dari hasil percobaan menunjukkan bahwa hasil terbaik terdapat pada pohon keputusan yang dibentuk dengan metode diskretisasi data partisi intuitif.

(5)

PERBANDINGAN METODE DISKRETISASI DATA

PEMBUATAN POHON KEPUTUSAN

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

LIESCA LEVY SHANDY

DEPARTEMEN ILMU KOMPUTER

(6)

Judul Skripsi : PERBANDINGAN METODE DISKRETISASI DATA

PARTISI INTUITIF DAN K-MEANS CLUSTERING

TERHADAP PEMBUATAN POHON KEPUTUSAN

Nama

: Liesca Levy Shandy

NRP

: G64101069

Menyetujui:

Pembimbing

Imas S. Sitanggang, S.Si, M.Kom

NIP 132206235

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Drh. Hasim, DEA

NIP 131578806

(7)

PRAKATA

Puji syukur Penulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini.

Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing yang telah begitu sabar dalam memberi saran, masukan, dan ide-ide kepada Penulis saat menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si selaku penguji yang telah memberi saran dan masukan kepada Penulis. Penulis juga mengucapkan terima kasih kepada:

1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kedua kakakku dan keluarganya yang selalu memberikan perhatian dan dukungan.

2 Mas Totok, Dina, dan Mba’E sahabat terbaik yang terus memberikan motivasi kepada Penulis dalam mengerjakan tugas akhir.

3 Segenap keluarga besar staf ekstensi Agribisnis IPB yang telah memberikan bantuan, semangat dan doa pada Penulis untuk bertahan sampai tetes tinta terakhir

4 Wina dan kru Az Zahra, Kiki dan kru M-17, Dyah, Yani, Mus, Aisyah, Rio dan Pipin yang memberikan keceriaan dan senyuman saat kejenuhan melanda.

5 Mbak Matus, Shandra dan Bembi atas pinjaman komputernya sehingga skripsi ini terselesaikan.

6 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di IPB terutama pada G64101038 atas solusi terbaliknya.

7 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan.

Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.

Semoga penelitian ini dapat memberikan manfaat.

Bogor, Agustus 2008

(8)

RIWAYAT HIDUP

Penulis dilahirkan di Kediri pada tanggal 9 April 1982 dari ayah Suroso dan ibu Sri Hartatik. Penulis merupakan anak ketiga dari tiga bersaudara.

(9)

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA Data Mining ... 1

Praproses Data ... 2

Diskretisasi ... 3

Algoritme K-Means ... 3

Algoritme ID3 ... 4

Pohon Keputusan ... 4

Root Means Square Error (RMSE) ... 4

Cross Validation ... 5

METODE PENELITIAN Proses Dasar Sistem ... 5

Lingkungan Pengembangan ... 6

HASIL DAN PEMBAHASAN Metode Partisi Intuitif ... 7

Algoritme K-Means dengan 4 cluster ... 8

Algoritme K-Means dengan 5 cluster ... 9

Perbandingan Metode Partisi Intuitif dengan Algoritme K-Means ... 9

KESIMPULAN ...10

DAFTAR PUSTAKA ...11

(10)

DAFTAR TABEL

Halaman

1 Nilai pada atribut produksi ... 7

2 Nilai pada atribut luas_panen ... 8

3 Interval atribut produksi untuk setiap cluster dengan jumlah cluster 4 ... 8

4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster 4 ... 8

5 Matriks confusion untuk algoritme K-Means dengan 4 cluster ... 9

6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster 5... 9

7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster 5 ... 9

8 Matriks confusion untuk algoritme K-Means dengan 5 cluster ... 9

9 Perbandingan hasil pohon keputusan metode Partisi Intuitif dengan algoritme K-Means ... 10

DAFTAR LAMPIRAN

Halaman 1 Pohon keputusan menggunakan metode Partisi Intuitif ...13

2 Aturan yang terbentuk menggunakan metode Partisi Intuitif ...20

3 Matriks confusion pohon keputusan dengan metode Partisi Intuitif ...22

4 Pohon keputusan menggunakan algoritme K-Means clustering dengan 4 cluster ...22

5 Aturan yang terbentuk menggunakan algoritme K-Means clustering dengan 4 cluster ...23

6 Matriks confusion pohon keputusan dengan Algoritme K-Means clustering untuk 4 cluster ...25

7 Pohon keputusan menggunakan algoritme K-Means clustering dengan 5 cluster ...25

8 Aturan yang terbentuk menggunakan algoritme K-Means clustering dengan 5 cluster ...26

(11)

PENDAHULUAN

Latar Belakang

Basis data saat ini telah berkembang sangat cepat. Di dalam tumpukan data tersebut mungkin terdapat informasi tersembunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Penumpukan data tersebut dialami pula oleh beberapa organisasi termasuk Departemen Pertanian yang telah mengumpulkan data sektor pertanian selama bertahun-tahun. Data tersebut terdiri dari berbagai subsektor, yang salah satunya adalah data tanaman pangan dan hortikultura, dan telah tersimpan sejak tahun 1963. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information”. Oleh karena itu, diperlukan suatu cara agar kumpulan data tersebut tidak hanya dibiarkan menggunung namun dapat di’tambang’ untuk mencari informasi yang berguna bagi organisasi yang bersangkutan.

Data tanaman pangan dan hortikultura yang dimiliki Departemen Pertanian telah dianalisis pada penelitian sebelumnya dengan menerapkan teknik klasifikasi menggunakan metode pohon keputusan dengan algoritme C5.0 (Purnamasari 2006). Tahap preprocessing adalah salah satu langkah yang perlu dilakukan agar data dapat sesuai untuk data mining. Strategi atau pendekatan yang sering digunakan adalah agregasi, sampling, reduksi dimensional, feature subset selection, pembuatan fitur, diskretisasi dan binerisasi, serta transformasi variabel. Pendekatan-pendekatan ini dapat dikelompokkan ke dalam dua kategori, yaitu seleksi objek-objek data dan atribut-atribut untuk analisis atau pembuatan/perubahan atribut. Tujuan dari kedua kategori tersebut adalah untuk meningkatkan analisis data mining terhadap waktu, biaya dan kualitas (Tan et al. 2005).

Pendiskretan atribut merupakan salah satu aspek yang penting dalam data mining

salah satunya dalam metode klasifikasi. Ada beberapa metode untuk mendiskretkan data

yaitu binning, analisis histogram,

diskretisasi berbasis entropy, 2- merging,

analisis cluster, dan diskretisasi dengan Partisi Intuitif. (Han & Kamber 2006).

Dalam penelitian ini tahapan praproses data

akan menggunakan teknik diskretisasi Partisi Intuitif dan clustering menggunakan algoritme K-meansyang diaplikasikan pada Data Tanaman Padi, Tanaman Pangan dan Hortikultura, Departemen Pertanian.

Tujuan

Tujuan penelitian ini adalah :

• Menerapkan teknik Partisi Intuitif dan

clustering dengan algoritme K-Means dalam diskretisasi atribut.

• Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 yang diaplikasikan pada data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian.

• Membandingkan akurasi pohon yang

dihasilkan dengan Partisi Intuitif dan

clustering sebagai metode diskretisasi atribut.

Ruang Lingkup

Dalam penelitian ini pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA

(Waikato Environment for Knowledge

Analysis).

Data yang digunakan dalam penelitian ini adalah data komoditas pertanian khususnya data tanaman padi, tanaman pangan dan hortikultura, Departemen Pertanian dari tahun 1970 – 2003 (data berasal dari Badan Pusat Statistik)

TINJAUAN PUSTAKA

Data Mining

Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Data mining

merupakan keseluruhan proses

mengaplikasikan komputer dan bermacam-macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang

analisis data, data mining dapat

diklasifikasikan menjadi dua yaitu

descriptive data mining dan predictive data mining. Descriptive data mining

(12)

perilaku dari kumpulan data yang baru.(Tan et al 2005). Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen resiko, telekomunikasi, asuransi dan keuangan.

Praproses Data

Hal yang sering ditemui pada basis data adalah data tidak lengkap (terdapat data yang bernilai null atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik praproses data dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses pengolahan data selanjutnya (Han & Kamber 2006). Tahapan praproses data adalah (Han & Kamber 2006):

1 Pembersihan data (cleaning)

Pada proses ini data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan

dengan mengisi nilai yang kosong,

mengurangi atau menghilangkan noise dan memperbaiki ketidakkonsistenan dalam data.

Permasalahan data kotor dan cara

membersihkannya yaitu:

Nilai yang kosong (hilang)

Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan

tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’unknown’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.

Nilai mengandung noise

Data dengan nilai yang mengandung

noise dapat diganti dengan nilai hasil perhitungan dengan metode binning

(mengelompokkan nilai), metode regresi, atau dengan cara clustering.

Data tidak konsisten

Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal.

2 Integrasi data

Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan

beberapa masalah seperti masalah

identifikasi entitas misalnya pada entitas

yang sama terdapat nama yang berbeda. Redudansijuga menjadi salah satu masalah, terdapat lebih dari satu tuple untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.

3 Transformasi data (transformation) Tahap transformasi data dilakukan agar data tetap konsisten yaitu setelah dilakukan integrasi dengan sumber data yang lain, tampilan dan isi tetap sama. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda (Kantardzic 2003). Transformasi data mencakup hal berikut:

Smoothing. Dilakukan untuk

menghilangkan noise dari data.

Tekniknya meliputi binning, regresi, dan

clustering.

Agregasi. Peringkasan dan agregasi diterapkan pada data, misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.

Generalisasi. Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki.

Misalkan kategori jalan bisa

digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.

Normalisasi yaitu proses dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan.

Konstruksi atribut. Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.

4 Reduksi data

Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Strategi mereduksi data meliputi:

Agregasi kubus data. Operasi agregasi diterapkan pada data dalam konstruksi kubus data.

(13)

Kompresi data, mereduksi ukuran data dengan mekanisme encoding.

Numerosity reduction. Data diganti atau diestimasikan dengan alternatifnya. Diskretisasi dan generasi konsep hirarki.

Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk membangkitkan konsep hirarki secara otomatis.

Dijelaskan oleh Han & Kamber (2006) bahwa tahapan praproses data tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.

Diskretisasi

Teknik diskretisasi digunakan untuk mengurangi jumah nilai pada atribut yang diberikan, dengan membagi kisaran nilai atribut ke dalam sejumlah interval. Label interval tersebut kemudian dapat digunakan untuk menggantikan nilai data yang aktual. Metode diskretisasi diantaranya: binning,

analisis histogram, diskretisasi berbasis

entropy, 2-merging, analisis cluster, dan diskretisasi dengan Partisi Intuitif (Han & Kamber 2006).

- Binning

Metode ini menghaluskan nilai yang telah terurut dengan nilai di sekitarnya, nilai tersebut didistribusikan ke dalam sejumlah

bucket atau bins. Data yang telah terurut tadi dipartisi ke dalam bins dengan kedalaman yang sama, misal 3 maka setiap bins akan berisi 3 nilai.

- Analisis Histogram

Seperti binning, analisis histogram adalah metode diskretisasi yang tidak ’terawasi’ karena dia tidak menggunakan informasi kelas. Histogram mempartisi nilai dari atribut ke dalam bucket. Secara khas lebar masing masing bucket adalah seragam. Setiap bucket ditampilkan melalui histogram yang tingginya mewakili frekuensi dari nilai setiap bucket.

- Diskretisasi berbasis entropy

Entropy adalah salah satu metode diskretisasi yang sering digunakan. Diskretisasi berbasis entropy adalah teknik partisi top-down. Untuk mendiskretkan atribut numerik, metode ini memilih nilai dari atribut yang memiliki entropy minimum

sebagai split-point, dan secara rekursif mempartisi hasil interval yang dihasilkan.

- 2-merging

Dasar metode diskretisasi ini adalah

ChiMerge. Ide dasar untuk diskretisasi akurat adalah nilai yang mirip secara konsisten digabungkan ke dalam sebuah interval. Jika ada dua interval yang bersebelahan dan mempunyai distribusi nilai yang mirip, maka intervalnya bisa digabung. Selainnya interval yang lain tetap harus dipisahkan.

- Analisis cluster

Analisis cluster juga metode diskretisasi

yang cukup populer. Metode ini

mengelompokkan nilai nilai yang sama ke dalam sebuah group (cluster)

- Diskretisasi dengan Partisi Intuitif Metode ini digunakan karena banyak pengguna yang menginginkan setiap range

dipartisi menjadi interval yang cukup seragam, dan setiap interval mudah dibaca karena terlihat intuitif atau natural.

Aturan 3-4-5 dapat digunakan untuk membagi data numerik menjadi data yang cukup seragam. Secara umum, aturan partisi membagi kisaran data menjadi 3, 4 atau 5 interval yang lebarnya cukup sama, rekursif, dan setiap tingkatan berdasar pada kisaran nilai dengan angka yang paling signifikan. Penjelasan mengenai aturan ini adalah sebagai berikut :

Jika interval mencakup 3, 6, 7, 9 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 3 interval. Untuk nilai 3, 6, dan 9, interval dibagi menjadi 3 dengan lebar yang sama sedangkan untuk nilai 7, interval akan dikelompokkan dengan perbandingan lebar 2-3-2. Jika interval mencakup 2, 4, atau 8 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 4 interval dengan lebar yang sama. Jika interval mencakup 1,5 atau 10 nilai yang berbeda dari angka signifikan maka rentang nilai dipartisi menjadi 5 interval dengan lebar yang sama.

Algoritme K-Means

(14)

banyak digunakan adalah Means dan K-Medoid(Tan et al. 2005).

K-Means merupakan algoritme

clustering yang sederhana. K-Means membagi data menjadi beberapa cluster, setiap cluster memiliki nilai tengah yang disebut dengan centroid. Setiap nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Jumlah cluster pada algoritme ini tergantung kepada masukan dari penggunanya. Algoritme dasar dari K-Means adalah (Tan et al. 2005):

Select K points as the initial centroids

Repeat

From K cluster by assigning all points to the closest centroids

Recomputed the centroids of each cluster

Until the centroids don’t

change

Algoritme ID3

Algoritme ID3 diperkenalkan dan

dikembangkan pertama kali oleh Ross Quinlan. Algoritme ID3 membentuk pohon

keputusan dengan metode

divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree

dengan algoritme ID3 adalah (Quinlan, 2008):

1 Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data.

2 Sesudah node akar dibentuk, maka data pada node akar akan diukur dengan

information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.

3 Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.

4 Algoritme ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah pohon keputusan. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai

information gain.

5 Proses pembagian rekursif akan berhenti jika salah satu dari kondisi di bawah ini terpenuhi:

a Semua data dari anak cabang telah termasuk dalam kelas yang sama. b Semua atribut telah dipakai, tetapi

masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.

c Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node

daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.

Pohon Keputusan

Decision Tree adalah salah satu teknik

klasifikasi sederhana yang banyak

digunakan. Masalah klasifikasi diselesaikan dengan mengajukan serangkaian pertanyaan tentang atribut dari test record. Rangkaian

pertanyaan tersebut dan

jawaban-jawabannya diorganisasikan ke dalam bentuk pohon keputusan, yang merupakan struktur hirarki yang terdiri dari node-node

dan edge-edge berarah. Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari

root dan internal node lainnya, mengandung

kondisi-kondisi uji atribut untuk

memisahkan record yang memiliki

karakteristik yang berbeda. Setelah pohon keputusan dikonstruksi, test record dapat diklasifikasi. Bermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes. Hal ini akan membawa kita ke

internal node yang lain, dimana kondisi tes yang baru diaplikasikan, atau ke leaf node

(Tan et al. 2005).

Root Means Square Error (RMSE)

(Meese dan Rogoff 1983, diacu dalam

Wibowo dan Amir 2005) menyatakan

beberapa metode dapat digunakan untuk menunjukkan kesalahan dari suatu teknik prakiraan. Metode yang digunakan adalah menggunakan analisis residual yaitu melihat kesalahan atau perbedaan antara nilai hasil prakiraan dengan nilai yang sebenarnya terjadi. Kesalahan prakiraan pada periode t dapat dirumuskan

t t

t Y Y

e = − ˆ

di mana: = t

(15)

= t

Y nilai sebenarnya pada periode t

=

t

Yˆ nilai prakiraan pada periode t

Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE.

n Y Y MSE t n t t 2 1 ) ˆ ( − =

∑

= MSE RMSE= Cross Validation

Cross validation adalah metode yang

umum digunakan untuk mengevaluasi

kinerja classifier. Dalam pendekatan cross-validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua

subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai

training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two-fold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk

training dan satu kali untuk testing. Metode

k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk

testing, sedangkan sisanya digunakan untuk

training. Prosedur ini diulangi k kali

sedemikian sehingga setiap partisi

digunakan untuk testing tepat satu kali.

Total error ditentukan dengan

menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set

hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).

METODE PENELITIAN

Proses Dasar Sistem

Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database

(KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:

Gambar Tahapan dalam KDD

1 Praproses Data

Praproses data meliputi pembersihan data, integrasi data, transformasi dan seleksi data. Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. Proses pembersihan data pada penelitian ini merujuk kepada penelitian sebelumnya (Purnamasari 2006).

Transformasi dilakukan untuk

membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi.

Praproses dimulai dengan memisahkan data tanaman padi dari seluruh propinsi. Baru kemudian dilakukan proses diskretisasi menggunakan Partisi Intuitif. Metode ini menggunakan aturan 3-4-5 sebagai dasar untuk membagi data. Dari setiap atribut diambil nilai maksimum (MAX) dan minimum (MIN) sebagai batas interval.

Setelah itu dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit), setelahnya nilai 5 persentil dibulatkan kebawah sesuai satuan MSD menjadi LOW’ dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD.

(16)

aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian

nilai maksimum dan nilai minimum

diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama

mencakup nilai minimum maka

LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.

2 Data Mining

Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :

a Pembentukan Pohon

Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.

b Pemangkasan Pohon

Pemangkasan pohon dapat dilakukan

dengan metode prepruning atau

postpruning. Namun alternatif lain yang

dapat dilakukan adalah

mengkombinasikan prepruning dan

postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.

c Pembentukan Aturan Keputusan,

aturan yang dihasilkan dari pohon

keputusan dapat ditampilkan dalam

bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node

yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN

diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN

lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.

3 Evaluasi Data Keluaran

Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.

Lingkungan Pengembangan

Lingkungan pengembangan sistem

dalam penelitian ini meliputi: Perangkat lunak:

Windows XP Profesional sebagai sistem operasi.

WEKA 3-5-7 untuk membentuk pohon keputusan.

MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data

Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:

Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb.

Harddisk 40 GB

Monitor 15 inchi, mouse dan keyboard.

HASIL DAN PEMBAHASAN

Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah

dilakukan oleh peneliti sebelumnya

(Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.

(17)

yang merupakan file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10-fold cross validation sebagai model pengujian.

Metode Partisi Intuitif

Metode diskretisasi yang digunakan adalah Partisi Intuitif dengan aturan 3-4-5. Dari atribut produksi diambil nilai maksimum (MAX) yaitu 21.579.444 ton dan minimum (MIN) sebesar 961 ton sebagai batas interval awal. Kemudian dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Dari seluruh nilai produksi didapatkan nilai LOW =17.340,5 dan nilai

HIGH = 8.233.619. Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit). Karena rentang nilai LOW

dan HIGH terletak pada satuan juta maka

ditetapkan MSD sebesar 1.000.000

setelahnya nilai 5 persentil dibulatkan ke bawah sesuai satuan MSD menjadi LOW’ sebesar 0 dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’

sebesar 9.000.000. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan adalah 9, sesuai dengan aturan 3-4-5 maka akan didapatkan tiga interval, yaitu (0 ... 3.000.000], (3.000.000 ... 6.000.000], dan (6.000.000 ... 9.000.000]. Hasil interval ini akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk kedalam partisi level pertama. Karena interval pertama mencakup nilai minimum maka 0<961 (LOW’<MIN). Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih sempit. Nilai MSD dari MIN didapatkan yaitu ratusan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’ = 900. Hal ini untuk menetapkan ulang batas interval sebelah kiri sehingga didapatkan awal interval yang baru adalah (900 ... 9.000.000].

Jika nilai MAX tidak tercakup pada interval (MAX > HIGH’) maka perlu interval baru yang mencakup nilai MAX tersebut. Nilai dari interval terakhir tidak mencakup nilai MAX sehingga nilai MAX dibulatkan ke atas sesuai nilai MSD. MSD dari MAX berada pada satuan puluhan juta sehingga MAX dibulatkan ke atas menjadi MAX’ sebesar 30.000.000, dari nilai MIN’ dan MAX’ didapatkan rentang interval yang baru yaitu (900 ... 30.000.000). Dari rentang

interval yang baru ini didapatkan 4 partisi dimana partisi keempat berasal dari nilai HIGH’ sampai dengan nilai MAX’.

Langkah selanjutnya, karena nilai MAX sudah tercakup pada interval, maka langsung dibuat interval dari hirarki level berikutnya. Langkah yang sama diulang lagi pada level hirarki yang lebih rendah sehingga didapatkan interval yang lebih sempit. Interval pertama (900... 3.000.000] dipartisi menjadi 4 subinterval: (900 ... 750.675] , (750.675 ... 1.500.450], (1.500.450 ... 2.250.225], (2.250.225 ... 3.000.000]. Interval kedua (3.000.000 ... 6.000.000] dipartisi menjadi 3 subinterval: (3.000.000 ... 4.000.000], (4.000.000 ... 5.000.000], (5.000.000 ... 6.000.000], interval ketiga (6.000.000 ... 9.000.000] dipartisi menjadi 3 subinterval: (6.000.000 ... 7.000.000], (7.000.000 ... 8.000.000], (8.000.000 ... 9.000.000], dan interval keempat (9.000.000 ... 30.000.000) dipartisi menjadi empat subinterval: (9.000.000 ... 14.250.000], (14.250.000 ... 19.500.000], (19.500.000 ... 24.750.000], dan (24.750.000 ... 30.000.000]. Hasil perhitungan tersebut yang akan dijadikan dasar pengelompokkan atribut data menjadi beberapa kelas.

Hasil diskretisasi data pada atribut produksi dapat dilihat pada Tabel 1

Tabel 1 Nilai pada atribut produksi

Kelas Interval (dalam Ton)

P1 900-750.675

P2 750.675-1.500.450

P3 1.500.450-2.250.225

P4 2.250.225-3.000.000

P5 3.000.000-4.000.000

P6 4.000.000-5.000.000

P7 5.000.000-6.000.000

P8 6.000.000-7.000.000

P9 7.000.000-8.000.000

P10 8.000.000-9.000.000

P11 9.000.000-14.250.000

P12 14.250.000-19.500.000

P13 19.500.000- 24.750.000

Atribut luas_panen mengalami

perlakuan yang sama dengan atribut

produksi. Atribut ini didiskretkan

(18)

Tabel 2 Nilai pada atribut luas_panen

Kelas Interval (dalam Ha)

L1 500-100.400

L2 100.400-200.300

L3 200.300-300.200

L4 300.200-400.100

L5 400.100-500.000

L6 500.000-625.000

L7 625.000-750.000

L8 750.000-875.000

L9 875.000-1.000.000

L10 1.000.000-1.100.000

L11 1.100.000-1.200.000

L12 1.200.000-1.300.000

L13 1.300.000-1.400.000

L14 1.400.000-1.500.000

L15 1.500.000-1.600.000

L16 1.600.000-1.700.000

L17 1.700.000-1.800.000

L18 1.800.000-1.900.000

L19 1.900.000-2.000.000

L20 2.000.000-8.000.000

L21 8.000.000-14.000.000

L22 14.000.000-20.000.000

Data yang telah didiskretkan kemudian disimpan kedalam file padi_baru.csv. File csv ini diubah menjadi file padi_baru.arff, file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan

membentuk pohon keputusan. Pohon

keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation

sebagai model pengujian. Pohon keputusan yang dihasilkan menggunakan metode ini dapat dilihat pada Lampiran 1 sedangkan aturan yang dibentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 2.

Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Hasil evaluasi model ini ditabulasikan dalam sebuah tabel yang dikenal sebagai matriks

confusion. Matriks confusion untuk metode Partisi Intuitif ini dapat dilihat pada Lampiran 3

Informasi dalam confusion matrix

diperlukan untuk menentukan kinerja model

klasifikasi dengan menggunakan

performance metric seperti akurasi yang didefinisikan sebagai berikut:

prediksi banyaknya total benar yang prediksi Banyaknya Akurasi =

Dengan metode Partisi Intuitif untuk

diskretisasi atribut, akurasi dari pohon keputusan yang didapat adalah

8454 . 0 1016 13 28 9 6 8 36 10 65 127 557 = + + + + + + + + + = Akurasi

Secara ekuivalen, error rate yang dihasilkan bisa dihitung menggunakan cara yang sama.

prediksi banyaknya total salah yang prediksi banyaknya rate Error =

Sesuai dengan rumus di atas maka akan didapatkan hasil perhitungan error rate

metode ini yaitu sebesar 14,46 %.

Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode Partisi Intuitif

ini dihasilkan jumlah objek yang

diklasifikasikan benar adalah 859 dan jumlah yang diklasifikasikan salah sebesar 147 dari 1016 (jumlah seluruh objek). Sehingga akurasi kebenaran mencapai 84,54 %. Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.12.

Algoritme K-Means dengan 4 cluster

Algoritme K-Means digunakan untuk clustering atribut luas_panen dan produksi, dengan jumlah cluster 4. Hasil clustering

pada atribut produksi dapat dilihat pada Tabel 3 dan hasil clustering pada atribut luas_panen pada Tabel 4

Tabel 3 Interval atribut produksi untuk setiap cluster, dengan jumlah cluster adalah 4

Cluster Interval (dalam Ton)

1 903.191- 2.671.754

2 6.594.514 - 21.579.444

3 961- 884.273

4 2.689.834 - 6.111.937

Tabel 4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 4

Cluster Interval (dalam Ha)

1 519-286.870

2 287.708-902.286

3 5.029.518–15.275.533

4 1.183.574-2.188.479

Data yang telah didiskretkan dengan

menggunakan Algoritme K-Means

kemudian disimpan ke dalam file bernama

cluster (4) padi_asli2.csv. File csv ini diubah

menjadi file bernama cluster(4)

(19)

masukan untuk perangkat lunak WEKA. Dengan menggunakan WEKA data akan

diproses untuk membentuk pohon

keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan dapat dilihat pada Lampiran 4 sedangkan aturan yang terbentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 5.

Berdasarkan pohon keputusan yang dihasilkan, diperoleh jumlah record yang diklasifikasikan benar adalah 888 sedangkan jumlah record yang diklasifikasikan salah sebesar 127 dari 1016 jumlah seluruh

record. Sehingga akurasi kebenaran mencapai 87,40 % dengan jumlah aturan yang terbentuk adalah 49. Matriks confusion

untuk algoritme K-Means dengan 4 cluster

ini dapat dilihat pada Tabel 5.

Tabel 5 matriks confusion untuk algoritme K-Means dengan 4 cluster

Hasil prediksi

C1 C2 C3 C4

K el a s S eb e na rnya

C1 152 1 27 18

C2 0 78 0 0

C3 26 0 636 0

C4 20 35 0 22

Berdasarkan perhitungan yang

dilakukan oleh WEKA didapatkan nilai Root mean Square Error (RMSE) sebesar 0.2

Algoritme K-Means dengan 5 cluster

Prosedur yang dilakukan dalam tahapan ini sama dengan metode sebelumnya. Metode yang digunakan adalah algoritme K-Means clustering dengan jumlah cluster 5. Hasil diskretisasi pada atribut produksi dapat dilihat pada Tabel 6 dan atribut luas_panen pada Tabel 7

Tabel 6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster adalah 5

cluster Interval (dalam Ton)

1 1.177.221 - 2.802.492

2 461.413 - 1.169.865

3 961- 458.756

4 6.878.791 - 21.579.444

5 2.839.821 - 6.594.514

Tabel 7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 5

cluster Interval (dalam Ha)

1 519 - 210.425

2 495.958 - 902.286

3 214.180 - 494.145

4 5.029.518 - 15.275.533

5 1.183.574 - 2.188.479

Data yang telah didiskretisasi kemudian disimpan ke dalam file cluster(5) padi_asli2.csv. File csv ini diubah menjadi file cluster(5) padi_asli2.arff, file ini yang dijadikan masukan untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation

sebagai model pengujian. Pohon keputusan yang dihasilkan oleh algoritme K-Means dengan 5 cluster ini dapat dilihat pada

Lampiran 7 sedangkan aturan yang

terbentuk dapat dilihat pada Lampiran 8. Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode K-Means

clustering dengan 5 cluster ini dihasilkan jumlah yang diklasifikasikan benar adalah 781 dan jumlah yang diklasifikasikan salah sebesar 234 dari 1016 total seluruh objek. Persentase kebenaran dari metode K-Means

clustering dengan 5 cluster ini adalah

76,87% dengan jumlah aturan yang

terbentuk sejumlah 59. Matriks confusion

untuk algoritme K-Means dengan 5 cluster

ini bisa dilihat pada Tabel 8.

Tabel 8 Matriks confusion untuk algoritme K-Means dengan 5 cluster

prediksi kelas

C1 C2 C3 C4 C5

K el a s S e b ena rn

ya C1 85 54 0 0 15

C2 40 186 27 1 0

C3 5 38 413 0 0

C4 0 0 0 77 0

C5 18 0 0 36 20

Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.24.

Perbandingan Metode Partisi Intuitif dan Algoritme K-Means

(20)

terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering

dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means

clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5

cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik

Tabel 9 Perbandingan hasil pohon

keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar

859 888 781

Jumlah klasifikasi

salah

147 127 234

Root Means Square Error

0.12 0.20 0.24

Jumlah Aturan yang terbentuk

63 49 59

Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:

A Metode Partisi Intuitif

If luas_panen =L1 then produksi =P1

If luas_panen = L2 and lokasi =Bengkulu

then produksi =P1

If luas_panen =L2 and lokasi Jambi then

produksi =P1

If luas_panen =L2 and lokasi

Daerah_Istimewa_Yogyakarta then

produksi =P1

If luas_panen =L2 and lokasi

Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4

If lokasi = Bali then produksi = C3

If lokasi = Bangka_Belitung then

produksi = C3

If lokasi = Banten then produksi = C4

If lokasi = Jawa_Barat and luas_panen

=L3 then produksi = C2

If lokasi = Jawa Barat and luas_panen

= L2 then produksi = null

If lokasi = Jawa_Timur then produksi = C2

C Algoritme K-Means clustering dengan jumlah cluster 5

If lokasi = Bali then produksi = C2

If lokasi = Bangka_Belitung then

produksi = C3

If lokasi= Banten then produksi = C1

If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null

If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null

If lokasi = Jawa_Timur then produksi = C4

KESIMPULAN

Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering

dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means

clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah

(21)

Jumlah aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif sebesar 63, Algoritme K-Means

clustering dengan jumlah cluster 4 sebesar 49 dan K-Means clustering dengan jumlah

cluster 5 sebesar 59.

DAFTAR PUSTAKA

Han J dan Kamber M. 2006. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher

Kantardzic M. 2003. Data Mining : Concept, Models, Methods, and Algorithms. USA: Wiley Interscience Meese & Rogoff 1983. Empirical Exchange

Rate Models of The Seventies Journal of International Economics 14 (1983), North Holland Company

Purnamasari, Y. 2006. Penerapan Teknik Klasifikasi Dengan Algoritme Decision Tree Untuk Data Tanaman Pangan dan Hortikultura [Skripsi]. Bogor: Fakultas

Matematika dan Ilmu Pengetahuan

Alam, Institut Pertanian Bogor.

Quinlan, R. The ID3 Algorithm

http://www.cise.ufl.edu/~ddd/cap

6635/Fall-97/Short-papers/2.htm

[17 Juli 2008].

Tan PN, Kumar V, Steinbach M. 2005

Introduction To Data Mining. Addison Wesley Publisher

(22)

(23)

Lampiran 1 Pohon keputusan menggunakan metode Partisi Intuitif luas_panen = L1: P1

luas_panen = L2 | lokasi = Bali: P2

| lokasi = Bangka_Belitung: null

| lokasi = Banten: null

| lokasi = Bengkulu: P1

| lokasi = Daerah_Istimewa_Yogyakarta: P1 | lokasi = Daerah_Khusus_Ibukota_Jakarta: null

| lokasi = Gorontalo: null

| lokasi = Jambi: P1 | lokasi = Jawa_Barat: null

| lokasi = Jawa_Tengah: null

| lokasi = Jawa_Timur: null

| lokasi = Kalimantan_Barat: null

| lokasi = Kalimantan_Selatan: null

| lokasi = Kalimantan_Tengah: P1 | lokasi = Kalimantan_Timur: P1 | lokasi = Lampung: null

| lokasi = Maluku: null

| lokasi = Nanggroe_Aceh_Darussalam: null

| lokasi = Nusa_Tenggara_Barat: P1 | lokasi = Nusa_Tenggara_Timur: P1 | lokasi = Papua: null

| lokasi = Riau: P1

| lokasi = Sulawesi_Selatan: null

| lokasi = Sulawesi_Tengah: P1 | lokasi = Sulawesi_Tenggara: null

| lokasi = Sulawesi_Utara: P1 | lokasi = Sumatera_Barat: null

| lokasi = Sumatera_Selatan: null

| lokasi = Sumatera_Utara: null

| lokasi = Timor_Timur: null

| lokasi = Maluku_Utara: null

luas_panen = L3 | lokasi = Bali: null

| lokasi = Bengkulu: null

| lokasi = Daerah_Istimewa_Yogyakarta: null

| lokasi = Daerah_Khusus_Ibukota_Jakarta: null

| lokasi = Jambi: P1 | lokasi = Jawa_Barat: null

| lokasi = Kalimantan_Barat: P1 | lokasi = Kalimantan_Selatan: P1 | lokasi = Kalimantan_Tengah: null

| lokasi = Kalimantan_Timur: null

| lokasi = Lampung: P1 | lokasi = Maluku: null

| lokasi = Nanggroe_Aceh_Darussalam: P2 | lokasi = Nusa_Tenggara_Barat: P2 | lokasi = Nusa_Tenggara_Timur: null

| lokasi = Papua: null

| lokasi = Riau: null

(24)

Lanjutan

| lokasi = Sulawesi_Tengah: P2 | lokasi = Sulawesi_Tenggara: null

| lokasi = Sulawesi_Utara: null

| lokasi = Sumatera_Barat: P1 | lokasi = Sumatera_Selatan: null

| lokasi = Banten: P2 | lokasi = Bengkulu: null

| lokasi = Jambi: null

| lokasi = Jawa_Barat: null

| lokasi = Kalimantan_Barat: P2 | lokasi = Kalimantan_Selatan: P2 | lokasi = Kalimantan_Tengah: null

| lokasi = Nanggroe_Aceh_Darussalam: P2 | lokasi = Nusa_Tenggara_Barat: P2 | lokasi = Nusa_Tenggara_Timur: null

| lokasi = Sulawesi_Selatan: P2 | lokasi = Sulawesi_Tengah: null

| lokasi = Sulawesi_Tenggara: null

| lokasi = Sumatera_Barat: P3 | lokasi = Sumatera_Selatan: P2 | lokasi = Sumatera_Utara: null

| lokasi = Kalimantan_Selatan: P2 | lokasi = Kalimantan_Tengah: null

(25)

Lanjutan

| lokasi = Nusa_Tenggara_Barat: null

| lokasi = Nusa_Tenggara_Timur: null

| lokasi = Sumatera_Barat: P3 | lokasi = Sumatera_Selatan: P2 | lokasi = Sumatera_Utara: P2 | lokasi = Timor_Timur: null

| lokasi = Kalimantan_Tengah: null

| lokasi = Sumatera_Barat: null

| lokasi = Sumatera_Selatan: P3 | lokasi = Sumatera_Utara: P3 | lokasi = Timor_Timur: null

(26)

Lanjutan

| lokasi = Lampung: null

| lokasi = Sumatera_Utara: P4 | lokasi = Timor_Timur: null

| lokasi = Sumatera_Utara: P5 | lokasi = Timor_Timur: null

luas_panen = L9: P5 luas_panen = L10: null

(27)

Lanjutan

| lokasi = Jawa_Tengah: P5 | lokasi = Jawa_Timur: P5 | lokasi = Kalimantan_Barat: null

| lokasi = Sulawesi_Tengah: null

(28)

Lanjutan

(29)

Lanjutan

| lokasi = Jawa_Barat: P7 | lokasi = Jawa_Tengah: P10 | lokasi = Jawa_Timur: P10 | lokasi = Kalimantan_Barat: null

(30)

Lanjutan

| lokasi = Jawa_Timur: P10 | lokasi = Kalimantan_Barat: null

luas_panen = L18: P7 luas_panen = L19: P11 luas_panen = L20: P11 luas_panen = L21: null

luas_panen = L22: P13

Lampiran 2 Aturan yang terbentuk menggunakan metode partisi intuitIf

1 If Luas_panen =L1 then produksi =P1

2 If luas_panen= L2 and lokasi Bali then produksi = P2 3 If luas_panen =L2 and lokasi Bengkulu then produksi = P1

4 If luas_panen = L2 and lokasi Daerah_Istimewa_Yogyakarta then produksi = P1 5 If luas_panen = L2 and lokasi Jambi then produksi =P1

6 If luas_panen = L2 and lokasi Kalimantan_Tengah then produksi =P1 7 If luas_panen =L2 and lokasi Kalimantan_Timur then produksi =P1 8 If luas_panen = L2 and lokasi Nusa_Tenggara_Barat then produksi = P1 9 If luas_panen = L2 and lokasi Nusa_Tenggara_Timur then produksi = P1 10 If luas_panen = L2 and lokasi Riau then produksi =P1

11 If luas_panen = L2 and lokasi Sulawesi_Tengah then produksi = P1 12 If luas_panen =L2 and lokasi Sulawesi_Utara then produksi =P1 13 If luas_panen =L3 and lokasi jambi then produksi = P1

14 If luas_panen =L3 and lokasi Kalimantan_Barat then produksi = P1 15 If luas_panen =L3 and lokasi Kalimantan_Selatan then produksi = P1 16 If luas_panen =L3 and lokasi Lampung then produksi = P1

(31)

Lanjutan

22 If luas_panen =L4 and lokasi Kalimantan_Barat then produksi = P2 23 If luas_panen =L4 and lokasi Kalimantan _Selatan then produksi =P2 24 If luas_panen =L4 and lokasi Lampung then produksi = P2

25 If luas_panen =L4 and lokasi Nanggroe_Aceh_Darussalam then produksi = P2 26 If luas_panen =L4 and lokasi Nusa_Tenggara_Barat then produksi