Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah
dilakukan oleh peneliti sebelumnya
(Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.
Data yang telah didiskretkan kemudian disimpan kedalam file berekstensi csv. File csv ini diubah menjadi file berekstensi arff
aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian
nilai maksimum dan nilai minimum
diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama
mencakup nilai minimum maka
LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.
2 Data Mining
Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :
a Pembentukan Pohon
Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.
b Pemangkasan Pohon
Pemangkasan pohon dapat dilakukan
dengan metode prepruning atau
postpruning. Namun alternatif lain yang
dapat dilakukan adalah
mengkombinasikan prepruning dan
postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.
c Pembentukan Aturan Keputusan,
aturan yang dihasilkan dari pohon
keputusan dapat ditampilkan dalam
bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node
yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN
diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN
lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.
3 Evaluasi Data Keluaran
Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.
Lingkungan Pengembangan
Lingkungan pengembangan sistem
dalam penelitian ini meliputi: Perangkat lunak:
Windows XP Profesional sebagai sistem operasi.
WEKA 3-5-7 untuk membentuk pohon keputusan.
MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data
Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:
Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb.
Harddisk 40 GB
Monitor 15 inchi, mouse dan keyboard.
HASIL DAN PEMBAHASAN
Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah
dilakukan oleh peneliti sebelumnya
(Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.
Data yang telah didiskretkan kemudian disimpan kedalam file berekstensi csv. File csv ini diubah menjadi file berekstensi arff
yang merupakan file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10-fold cross validation sebagai model pengujian.
Metode Partisi Intuitif
Metode diskretisasi yang digunakan adalah Partisi Intuitif dengan aturan 3-4-5. Dari atribut produksi diambil nilai maksimum (MAX) yaitu 21.579.444 ton dan minimum (MIN) sebesar 961 ton sebagai batas interval awal. Kemudian dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Dari seluruh nilai produksi didapatkan nilai LOW =17.340,5 dan nilai
HIGH = 8.233.619. Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit). Karena rentang nilai LOW
dan HIGH terletak pada satuan juta maka
ditetapkan MSD sebesar 1.000.000
setelahnya nilai 5 persentil dibulatkan ke bawah sesuai satuan MSD menjadi LOW’ sebesar 0 dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’
sebesar 9.000.000. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan adalah 9, sesuai dengan aturan 3-4-5 maka akan didapatkan tiga interval, yaitu (0 ... 3.000.000], (3.000.000 ... 6.000.000], dan (6.000.000 ... 9.000.000]. Hasil interval ini akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk kedalam partisi level pertama. Karena interval pertama mencakup nilai minimum maka 0<961 (LOW’<MIN). Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih sempit. Nilai MSD dari MIN didapatkan yaitu ratusan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’ = 900. Hal ini untuk menetapkan ulang batas interval sebelah kiri sehingga didapatkan awal interval yang baru adalah (900 ... 9.000.000].
Jika nilai MAX tidak tercakup pada interval (MAX > HIGH’) maka perlu interval baru yang mencakup nilai MAX tersebut. Nilai dari interval terakhir tidak mencakup nilai MAX sehingga nilai MAX dibulatkan ke atas sesuai nilai MSD. MSD dari MAX berada pada satuan puluhan juta sehingga MAX dibulatkan ke atas menjadi MAX’ sebesar 30.000.000, dari nilai MIN’ dan MAX’ didapatkan rentang interval yang baru yaitu (900 ... 30.000.000). Dari rentang
interval yang baru ini didapatkan 4 partisi dimana partisi keempat berasal dari nilai HIGH’ sampai dengan nilai MAX’.
Langkah selanjutnya, karena nilai MAX sudah tercakup pada interval, maka langsung dibuat interval dari hirarki level berikutnya. Langkah yang sama diulang lagi pada level hirarki yang lebih rendah sehingga didapatkan interval yang lebih sempit. Interval pertama (900... 3.000.000] dipartisi menjadi 4 subinterval: (900 ... 750.675] , (750.675 ... 1.500.450], (1.500.450 ... 2.250.225], (2.250.225 ... 3.000.000]. Interval kedua (3.000.000 ... 6.000.000] dipartisi menjadi 3 subinterval: (3.000.000 ... 4.000.000], (4.000.000 ... 5.000.000], (5.000.000 ... 6.000.000], interval ketiga (6.000.000 ... 9.000.000] dipartisi menjadi 3 subinterval: (6.000.000 ... 7.000.000], (7.000.000 ... 8.000.000], (8.000.000 ... 9.000.000], dan interval keempat (9.000.000 ... 30.000.000) dipartisi menjadi empat subinterval: (9.000.000 ... 14.250.000], (14.250.000 ... 19.500.000], (19.500.000 ... 24.750.000], dan (24.750.000 ... 30.000.000]. Hasil perhitungan tersebut yang akan dijadikan dasar pengelompokkan atribut data menjadi beberapa kelas.
Hasil diskretisasi data pada atribut produksi dapat dilihat pada Tabel 1
Tabel 1 Nilai pada atribut produksi
Kelas Interval (dalam Ton)
P1 900-750.675 P2 750.675-1.500.450 P3 1.500.450-2.250.225 P4 2.250.225-3.000.000 P5 3.000.000-4.000.000 P6 4.000.000-5.000.000 P7 5.000.000-6.000.000 P8 6.000.000-7.000.000 P9 7.000.000-8.000.000 P10 8.000.000-9.000.000 P11 9.000.000-14.250.000 P12 14.250.000-19.500.000 P13 19.500.000- 24.750.000
Atribut luas_panen mengalami
perlakuan yang sama dengan atribut
produksi. Atribut ini didiskretkan
menggunakan aturan 3-4-5. Dari aturan tersebut untuk atribut luas_panen didapatkan 16 interval. Hasil yang didapatkan bisa dilihat pada Tabel 2.
Tabel 2 Nilai pada atribut luas_panen
Kelas Interval (dalam Ha)
L1 500-100.400 L2 100.400-200.300 L3 200.300-300.200 L4 300.200-400.100 L5 400.100-500.000 L6 500.000-625.000 L7 625.000-750.000 L8 750.000-875.000 L9 875.000-1.000.000 L10 1.000.000-1.100.000 L11 1.100.000-1.200.000 L12 1.200.000-1.300.000 L13 1.300.000-1.400.000 L14 1.400.000-1.500.000 L15 1.500.000-1.600.000 L16 1.600.000-1.700.000 L17 1.700.000-1.800.000 L18 1.800.000-1.900.000 L19 1.900.000-2.000.000 L20 2.000.000-8.000.000 L21 8.000.000-14.000.000 L22 14.000.000-20.000.000
Data yang telah didiskretkan kemudian disimpan kedalam file padi_baru.csv. File csv ini diubah menjadi file padi_baru.arff, file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan
membentuk pohon keputusan. Pohon
keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation
sebagai model pengujian. Pohon keputusan yang dihasilkan menggunakan metode ini dapat dilihat pada Lampiran 1 sedangkan aturan yang dibentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 2.
Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Hasil evaluasi model ini ditabulasikan dalam sebuah tabel yang dikenal sebagai matriks
confusion. Matriks confusion untuk metode Partisi Intuitif ini dapat dilihat pada Lampiran 3
Informasi dalam confusion matrix
diperlukan untuk menentukan kinerja model
klasifikasi dengan menggunakan
performance metric seperti akurasi yang didefinisikan sebagai berikut:
prediksi banyaknya total benar yang prediksi Banyaknya Akurasi =
Dengan metode Partisi Intuitif untuk
diskretisasi atribut, akurasi dari pohon keputusan yang didapat adalah
8454 . 0 1016 13 28 9 6 8 36 10 65 127 557 = + + + + + + + + + = Akurasi
Secara ekuivalen, error rate yang dihasilkan bisa dihitung menggunakan cara yang sama.
prediksi banyaknya total salah yang prediksi banyaknya rate Error =
Sesuai dengan rumus di atas maka akan didapatkan hasil perhitungan error rate
metode ini yaitu sebesar 14,46 %.
Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode Partisi Intuitif
ini dihasilkan jumlah objek yang
diklasifikasikan benar adalah 859 dan jumlah yang diklasifikasikan salah sebesar 147 dari 1016 (jumlah seluruh objek). Sehingga akurasi kebenaran mencapai 84,54 %. Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.12.
Algoritme K-Means dengan 4 cluster
Algoritme K-Means digunakan untuk clustering atribut luas_panen dan produksi, dengan jumlah cluster 4. Hasil clustering
pada atribut produksi dapat dilihat pada Tabel 3 dan hasil clustering pada atribut luas_panen pada Tabel 4
Tabel 3 Interval atribut produksi untuk setiap cluster, dengan jumlah cluster adalah 4
Cluster Interval (dalam Ton)
1 903.191- 2.671.754
2 6.594.514 - 21.579.444
3 961- 884.273
4 2.689.834 - 6.111.937
Tabel 4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 4
Cluster Interval (dalam Ha)
1 519-286.870
2 287.708-902.286
3 5.029.518–15.275.533
4 1.183.574-2.188.479
Data yang telah didiskretkan dengan
menggunakan Algoritme K-Means
kemudian disimpan ke dalam file bernama
cluster (4) padi_asli2.csv. File csv ini diubah
menjadi file bernama cluster(4)
masukan untuk perangkat lunak WEKA. Dengan menggunakan WEKA data akan
diproses untuk membentuk pohon
keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan dapat dilihat pada Lampiran 4 sedangkan aturan yang terbentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 5.
Berdasarkan pohon keputusan yang dihasilkan, diperoleh jumlah record yang diklasifikasikan benar adalah 888 sedangkan jumlah record yang diklasifikasikan salah sebesar 127 dari 1016 jumlah seluruh
record. Sehingga akurasi kebenaran mencapai 87,40 % dengan jumlah aturan yang terbentuk adalah 49. Matriks confusion
untuk algoritme K-Means dengan 4 cluster
ini dapat dilihat pada Tabel 5.
Tabel 5 matriks confusion untuk algoritme K-Means dengan 4 cluster
Hasil prediksi C1 C2 C3 C4 K el a s S eb e na rnya C1 152 1 27 18 C2 0 78 0 0 C3 26 0 636 0 C4 20 35 0 22
Berdasarkan perhitungan yang
dilakukan oleh WEKA didapatkan nilai Root mean Square Error (RMSE) sebesar 0.2
Algoritme K-Means dengan 5 cluster
Prosedur yang dilakukan dalam tahapan ini sama dengan metode sebelumnya. Metode yang digunakan adalah algoritme K- Means clustering dengan jumlah cluster 5. Hasil diskretisasi pada atribut produksi dapat dilihat pada Tabel 6 dan atribut luas_panen pada Tabel 7
Tabel 6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster adalah 5
cluster Interval (dalam Ton)
1 1.177.221 - 2.802.492
2 461.413 - 1.169.865
3 961- 458.756
4 6.878.791 - 21.579.444
5 2.839.821 - 6.594.514
Tabel 7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 5
cluster Interval (dalam Ha)
1 519 - 210.425
2 495.958 - 902.286
3 214.180 - 494.145
4 5.029.518 - 15.275.533
5 1.183.574 - 2.188.479
Data yang telah didiskretisasi kemudian disimpan ke dalam file cluster(5) padi_asli2.csv. File csv ini diubah menjadi file cluster(5) padi_asli2.arff, file ini yang dijadikan masukan untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation
sebagai model pengujian. Pohon keputusan yang dihasilkan oleh algoritme K-Means dengan 5 cluster ini dapat dilihat pada
Lampiran 7 sedangkan aturan yang
terbentuk dapat dilihat pada Lampiran 8. Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode K-Means
clustering dengan 5 cluster ini dihasilkan jumlah yang diklasifikasikan benar adalah 781 dan jumlah yang diklasifikasikan salah sebesar 234 dari 1016 total seluruh objek. Persentase kebenaran dari metode K-Means
clustering dengan 5 cluster ini adalah
76,87% dengan jumlah aturan yang
terbentuk sejumlah 59. Matriks confusion
untuk algoritme K-Means dengan 5 cluster
ini bisa dilihat pada Tabel 8.
Tabel 8 Matriks confusion untuk algoritme K-Means dengan 5 cluster
prediksi kelas C1 C2 C3 C4 C5 K el a s S e b ena rn ya C1 85 54 0 0 15 C2 40 186 27 1 0 C3 5 38 413 0 0 C4 0 0 0 77 0 C5 18 0 0 36 20
Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.24.
Perbandingan Metode Partisi Intuitif dan Algoritme K-Means
Secara keseluruhan, hasil perbandingan masing masing metode diskretisasi atribut
terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering
dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means
clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5
cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik
Tabel 9 Perbandingan hasil pohon
keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 859 888 781 Jumlah klasifikasi salah 147 127 234 Root Means Square Error 0.12 0.20 0.24 Jumlah Aturan yang terbentuk 63 49 59
Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:
A Metode Partisi Intuitif
If luas_panen =L1 then produksi =P1
If luas_panen = L2 and lokasi =Bengkulu
then produksi =P1
If luas_panen =L2 and lokasi Jambi then
produksi =P1
If luas_panen =L2 and lokasi
Daerah_Istimewa_Yogyakarta then
produksi =P1
If luas_panen =L2 and lokasi
Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4
If lokasi = Bali then produksi = C3
If lokasi = Bangka_Belitung then
produksi = C3
If lokasi = Banten then produksi = C4
If lokasi = Jawa_Barat and luas_panen
=L3 then produksi = C2
If lokasi = Jawa Barat and luas_panen
= L2 then produksi = null
If lokasi = Jawa_Timur then produksi = C2
C Algoritme K-Means clustering dengan jumlah cluster 5
If lokasi = Bali then produksi = C2
If lokasi = Bangka_Belitung then
produksi = C3
If lokasi= Banten then produksi = C1
If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null
If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null
If lokasi = Jawa_Timur then produksi = C4
KESIMPULAN
Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering
dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means
clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah
cluster 5. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga berdasarkan nilai RMSE dapat disimpulkan bahwa Partisi Intuitif sebagai metode diskretisasi menghasilkan pohon keputusan yang paling baik.
terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering
dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means
clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5
cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik
Tabel 9 Perbandingan hasil pohon
keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 859 888 781 Jumlah klasifikasi salah 147 127 234 Root Means Square Error 0.12 0.20 0.24 Jumlah Aturan yang terbentuk 63 49 59
Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:
A Metode Partisi Intuitif
If luas_panen =L1 then produksi =P1
If luas_panen = L2 and lokasi =Bengkulu
then produksi =P1
If luas_panen =L2 and lokasi Jambi then
produksi =P1
If luas_panen =L2 and lokasi
Daerah_Istimewa_Yogyakarta then
produksi =P1
If luas_panen =L2 and lokasi
Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4
If lokasi = Bali then produksi = C3
If lokasi = Bangka_Belitung then
produksi = C3
If lokasi = Banten then produksi = C4
If lokasi = Jawa_Barat and luas_panen
=L3 then produksi = C2
If lokasi = Jawa Barat and luas_panen
= L2 then produksi = null
If lokasi = Jawa_Timur then produksi = C2
C Algoritme K-Means clustering dengan jumlah cluster 5
If lokasi = Bali then produksi = C2
If lokasi = Bangka_Belitung then
produksi = C3
If lokasi= Banten then produksi = C1
If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null
If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null
If lokasi = Jawa_Timur then produksi = C4
KESIMPULAN
Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering
dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means
clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah
cluster 5. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga berdasarkan nilai RMSE dapat disimpulkan bahwa Partisi Intuitif sebagai metode diskretisasi menghasilkan pohon keputusan yang paling baik.
Jumlah aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif sebesar 63, Algoritme K-Means
clustering dengan jumlah cluster 4 sebesar 49 dan K-Means clustering dengan jumlah
cluster 5 sebesar 59.
DAFTAR PUSTAKA
Han J dan Kamber M. 2006. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher
Kantardzic M. 2003. Data Mining : Concept, Models, Methods, and Algorithms. USA: Wiley Interscience Meese & Rogoff 1983. Empirical Exchange
Rate Models of The Seventies Journal of International Economics 14 (1983), North Holland Company
Purnamasari, Y. 2006. Penerapan Teknik Klasifikasi Dengan Algoritme Decision Tree Untuk Data Tanaman Pangan dan Hortikultura [Skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.
Quinlan, R. The ID3 Algorithm
http://www.cise.ufl.edu/~ddd/cap
6635/Fall-97/Short-papers/2.htm
[17 Juli 2008].
Tan PN, Kumar V, Steinbach M. 2005
Introduction To Data Mining. Addison Wesley Publisher
Wibowo T dan Amir H. 2005 . Faktor- Faktor Yang Mempengaruhi Nilai Tukar Rupiah. Kajian Ekonomi dan Keuangan 9 (2005)