• Tidak ada hasil yang ditemukan

Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah

dilakukan oleh peneliti sebelumnya

(Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.

Data yang telah didiskretkan kemudian disimpan kedalam file berekstensi csv. File csv ini diubah menjadi file berekstensi arff

aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian

nilai maksimum dan nilai minimum

diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama

mencakup nilai minimum maka

LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.

2 Data Mining

Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :

a Pembentukan Pohon

Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.

b Pemangkasan Pohon

Pemangkasan pohon dapat dilakukan

dengan metode prepruning atau

postpruning. Namun alternatif lain yang

dapat dilakukan adalah

mengkombinasikan prepruning dan

postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.

c Pembentukan Aturan Keputusan,

aturan yang dihasilkan dari pohon

keputusan dapat ditampilkan dalam

bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node

yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN

diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN

lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.

3 Evaluasi Data Keluaran

Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.

Lingkungan Pengembangan

Lingkungan pengembangan sistem

dalam penelitian ini meliputi: Perangkat lunak:

Windows XP Profesional sebagai sistem operasi.

WEKA 3-5-7 untuk membentuk pohon keputusan.

MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data

Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:

Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb.

Harddisk 40 GB

Monitor 15 inchi, mouse dan keyboard.

HASIL DAN PEMBAHASAN

Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah

dilakukan oleh peneliti sebelumnya

(Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.

Data yang telah didiskretkan kemudian disimpan kedalam file berekstensi csv. File csv ini diubah menjadi file berekstensi arff

yang merupakan file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10-fold cross validation sebagai model pengujian.

Metode Partisi Intuitif

Metode diskretisasi yang digunakan adalah Partisi Intuitif dengan aturan 3-4-5. Dari atribut produksi diambil nilai maksimum (MAX) yaitu 21.579.444 ton dan minimum (MIN) sebesar 961 ton sebagai batas interval awal. Kemudian dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Dari seluruh nilai produksi didapatkan nilai LOW =17.340,5 dan nilai

HIGH = 8.233.619. Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit). Karena rentang nilai LOW

dan HIGH terletak pada satuan juta maka

ditetapkan MSD sebesar 1.000.000

setelahnya nilai 5 persentil dibulatkan ke bawah sesuai satuan MSD menjadi LOW’ sebesar 0 dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’

sebesar 9.000.000. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan adalah 9, sesuai dengan aturan 3-4-5 maka akan didapatkan tiga interval, yaitu (0 ... 3.000.000], (3.000.000 ... 6.000.000], dan (6.000.000 ... 9.000.000]. Hasil interval ini akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk kedalam partisi level pertama. Karena interval pertama mencakup nilai minimum maka 0<961 (LOW’<MIN). Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih sempit. Nilai MSD dari MIN didapatkan yaitu ratusan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’ = 900. Hal ini untuk menetapkan ulang batas interval sebelah kiri sehingga didapatkan awal interval yang baru adalah (900 ... 9.000.000].

Jika nilai MAX tidak tercakup pada interval (MAX > HIGH’) maka perlu interval baru yang mencakup nilai MAX tersebut. Nilai dari interval terakhir tidak mencakup nilai MAX sehingga nilai MAX dibulatkan ke atas sesuai nilai MSD. MSD dari MAX berada pada satuan puluhan juta sehingga MAX dibulatkan ke atas menjadi MAX’ sebesar 30.000.000, dari nilai MIN’ dan MAX’ didapatkan rentang interval yang baru yaitu (900 ... 30.000.000). Dari rentang

interval yang baru ini didapatkan 4 partisi dimana partisi keempat berasal dari nilai HIGH’ sampai dengan nilai MAX’.

Langkah selanjutnya, karena nilai MAX sudah tercakup pada interval, maka langsung dibuat interval dari hirarki level berikutnya. Langkah yang sama diulang lagi pada level hirarki yang lebih rendah sehingga didapatkan interval yang lebih sempit. Interval pertama (900... 3.000.000] dipartisi menjadi 4 subinterval: (900 ... 750.675] , (750.675 ... 1.500.450], (1.500.450 ... 2.250.225], (2.250.225 ... 3.000.000]. Interval kedua (3.000.000 ... 6.000.000] dipartisi menjadi 3 subinterval: (3.000.000 ... 4.000.000], (4.000.000 ... 5.000.000], (5.000.000 ... 6.000.000], interval ketiga (6.000.000 ... 9.000.000] dipartisi menjadi 3 subinterval: (6.000.000 ... 7.000.000], (7.000.000 ... 8.000.000], (8.000.000 ... 9.000.000], dan interval keempat (9.000.000 ... 30.000.000) dipartisi menjadi empat subinterval: (9.000.000 ... 14.250.000], (14.250.000 ... 19.500.000], (19.500.000 ... 24.750.000], dan (24.750.000 ... 30.000.000]. Hasil perhitungan tersebut yang akan dijadikan dasar pengelompokkan atribut data menjadi beberapa kelas.

Hasil diskretisasi data pada atribut produksi dapat dilihat pada Tabel 1

Tabel 1 Nilai pada atribut produksi

Kelas Interval (dalam Ton)

P1 900-750.675 P2 750.675-1.500.450 P3 1.500.450-2.250.225 P4 2.250.225-3.000.000 P5 3.000.000-4.000.000 P6 4.000.000-5.000.000 P7 5.000.000-6.000.000 P8 6.000.000-7.000.000 P9 7.000.000-8.000.000 P10 8.000.000-9.000.000 P11 9.000.000-14.250.000 P12 14.250.000-19.500.000 P13 19.500.000- 24.750.000

Atribut luas_panen mengalami

perlakuan yang sama dengan atribut

produksi. Atribut ini didiskretkan

menggunakan aturan 3-4-5. Dari aturan tersebut untuk atribut luas_panen didapatkan 16 interval. Hasil yang didapatkan bisa dilihat pada Tabel 2.

Tabel 2 Nilai pada atribut luas_panen

Kelas Interval (dalam Ha)

L1 500-100.400 L2 100.400-200.300 L3 200.300-300.200 L4 300.200-400.100 L5 400.100-500.000 L6 500.000-625.000 L7 625.000-750.000 L8 750.000-875.000 L9 875.000-1.000.000 L10 1.000.000-1.100.000 L11 1.100.000-1.200.000 L12 1.200.000-1.300.000 L13 1.300.000-1.400.000 L14 1.400.000-1.500.000 L15 1.500.000-1.600.000 L16 1.600.000-1.700.000 L17 1.700.000-1.800.000 L18 1.800.000-1.900.000 L19 1.900.000-2.000.000 L20 2.000.000-8.000.000 L21 8.000.000-14.000.000 L22 14.000.000-20.000.000

Data yang telah didiskretkan kemudian disimpan kedalam file padi_baru.csv. File csv ini diubah menjadi file padi_baru.arff, file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan

membentuk pohon keputusan. Pohon

keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation

sebagai model pengujian. Pohon keputusan yang dihasilkan menggunakan metode ini dapat dilihat pada Lampiran 1 sedangkan aturan yang dibentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 2.

Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Hasil evaluasi model ini ditabulasikan dalam sebuah tabel yang dikenal sebagai matriks

confusion. Matriks confusion untuk metode Partisi Intuitif ini dapat dilihat pada Lampiran 3

Informasi dalam confusion matrix

diperlukan untuk menentukan kinerja model

klasifikasi dengan menggunakan

performance metric seperti akurasi yang didefinisikan sebagai berikut:

prediksi banyaknya total benar yang prediksi Banyaknya Akurasi =

Dengan metode Partisi Intuitif untuk

diskretisasi atribut, akurasi dari pohon keputusan yang didapat adalah

8454 . 0 1016 13 28 9 6 8 36 10 65 127 557 = + + + + + + + + + = Akurasi

Secara ekuivalen, error rate yang dihasilkan bisa dihitung menggunakan cara yang sama.

prediksi banyaknya total salah yang prediksi banyaknya rate Error =

Sesuai dengan rumus di atas maka akan didapatkan hasil perhitungan error rate

metode ini yaitu sebesar 14,46 %.

Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode Partisi Intuitif

ini dihasilkan jumlah objek yang

diklasifikasikan benar adalah 859 dan jumlah yang diklasifikasikan salah sebesar 147 dari 1016 (jumlah seluruh objek). Sehingga akurasi kebenaran mencapai 84,54 %. Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.12.

Algoritme K-Means dengan 4 cluster

Algoritme K-Means digunakan untuk clustering atribut luas_panen dan produksi, dengan jumlah cluster 4. Hasil clustering

pada atribut produksi dapat dilihat pada Tabel 3 dan hasil clustering pada atribut luas_panen pada Tabel 4

Tabel 3 Interval atribut produksi untuk setiap cluster, dengan jumlah cluster adalah 4

Cluster Interval (dalam Ton)

1 903.191- 2.671.754

2 6.594.514 - 21.579.444

3 961- 884.273

4 2.689.834 - 6.111.937

Tabel 4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 4

Cluster Interval (dalam Ha)

1 519-286.870

2 287.708-902.286

3 5.029.518–15.275.533

4 1.183.574-2.188.479

Data yang telah didiskretkan dengan

menggunakan Algoritme K-Means

kemudian disimpan ke dalam file bernama

cluster (4) padi_asli2.csv. File csv ini diubah

menjadi file bernama cluster(4)

masukan untuk perangkat lunak WEKA. Dengan menggunakan WEKA data akan

diproses untuk membentuk pohon

keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan dapat dilihat pada Lampiran 4 sedangkan aturan yang terbentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 5.

Berdasarkan pohon keputusan yang dihasilkan, diperoleh jumlah record yang diklasifikasikan benar adalah 888 sedangkan jumlah record yang diklasifikasikan salah sebesar 127 dari 1016 jumlah seluruh

record. Sehingga akurasi kebenaran mencapai 87,40 % dengan jumlah aturan yang terbentuk adalah 49. Matriks confusion

untuk algoritme K-Means dengan 4 cluster

ini dapat dilihat pada Tabel 5.

Tabel 5 matriks confusion untuk algoritme K-Means dengan 4 cluster

Hasil prediksi C1 C2 C3 C4 K el a s S eb e na rnya C1 152 1 27 18 C2 0 78 0 0 C3 26 0 636 0 C4 20 35 0 22

Berdasarkan perhitungan yang

dilakukan oleh WEKA didapatkan nilai Root mean Square Error (RMSE) sebesar 0.2

Algoritme K-Means dengan 5 cluster

Prosedur yang dilakukan dalam tahapan ini sama dengan metode sebelumnya. Metode yang digunakan adalah algoritme K- Means clustering dengan jumlah cluster 5. Hasil diskretisasi pada atribut produksi dapat dilihat pada Tabel 6 dan atribut luas_panen pada Tabel 7

Tabel 6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster adalah 5

cluster Interval (dalam Ton)

1 1.177.221 - 2.802.492

2 461.413 - 1.169.865

3 961- 458.756

4 6.878.791 - 21.579.444

5 2.839.821 - 6.594.514

Tabel 7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 5

cluster Interval (dalam Ha)

1 519 - 210.425

2 495.958 - 902.286

3 214.180 - 494.145

4 5.029.518 - 15.275.533

5 1.183.574 - 2.188.479

Data yang telah didiskretisasi kemudian disimpan ke dalam file cluster(5) padi_asli2.csv. File csv ini diubah menjadi file cluster(5) padi_asli2.arff, file ini yang dijadikan masukan untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation

sebagai model pengujian. Pohon keputusan yang dihasilkan oleh algoritme K-Means dengan 5 cluster ini dapat dilihat pada

Lampiran 7 sedangkan aturan yang

terbentuk dapat dilihat pada Lampiran 8. Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode K-Means

clustering dengan 5 cluster ini dihasilkan jumlah yang diklasifikasikan benar adalah 781 dan jumlah yang diklasifikasikan salah sebesar 234 dari 1016 total seluruh objek. Persentase kebenaran dari metode K-Means

clustering dengan 5 cluster ini adalah

76,87% dengan jumlah aturan yang

terbentuk sejumlah 59. Matriks confusion

untuk algoritme K-Means dengan 5 cluster

ini bisa dilihat pada Tabel 8.

Tabel 8 Matriks confusion untuk algoritme K-Means dengan 5 cluster

prediksi kelas C1 C2 C3 C4 C5 K el a s S e b ena rn ya C1 85 54 0 0 15 C2 40 186 27 1 0 C3 5 38 413 0 0 C4 0 0 0 77 0 C5 18 0 0 36 20

Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.24.

Perbandingan Metode Partisi Intuitif dan Algoritme K-Means

Secara keseluruhan, hasil perbandingan masing masing metode diskretisasi atribut

terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering

dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means

clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5

cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik

Tabel 9 Perbandingan hasil pohon

keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 859 888 781 Jumlah klasifikasi salah 147 127 234 Root Means Square Error 0.12 0.20 0.24 Jumlah Aturan yang terbentuk 63 49 59

Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:

A Metode Partisi Intuitif

If luas_panen =L1 then produksi =P1

If luas_panen = L2 and lokasi =Bengkulu

then produksi =P1

If luas_panen =L2 and lokasi Jambi then

produksi =P1

If luas_panen =L2 and lokasi

Daerah_Istimewa_Yogyakarta then

produksi =P1

If luas_panen =L2 and lokasi

Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4

If lokasi = Bali then produksi = C3

If lokasi = Bangka_Belitung then

produksi = C3

If lokasi = Banten then produksi = C4

If lokasi = Jawa_Barat and luas_panen

=L3 then produksi = C2

If lokasi = Jawa Barat and luas_panen

= L2 then produksi = null

If lokasi = Jawa_Timur then produksi = C2

C Algoritme K-Means clustering dengan jumlah cluster 5

If lokasi = Bali then produksi = C2

If lokasi = Bangka_Belitung then

produksi = C3

If lokasi= Banten then produksi = C1

If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null

If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null

If lokasi = Jawa_Timur then produksi = C4

KESIMPULAN

Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering

dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means

clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah

cluster 5. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga berdasarkan nilai RMSE dapat disimpulkan bahwa Partisi Intuitif sebagai metode diskretisasi menghasilkan pohon keputusan yang paling baik.

terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering

dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means

clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5

cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik

Tabel 9 Perbandingan hasil pohon

keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 859 888 781 Jumlah klasifikasi salah 147 127 234 Root Means Square Error 0.12 0.20 0.24 Jumlah Aturan yang terbentuk 63 49 59

Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:

A Metode Partisi Intuitif

If luas_panen =L1 then produksi =P1

If luas_panen = L2 and lokasi =Bengkulu

then produksi =P1

If luas_panen =L2 and lokasi Jambi then

produksi =P1

If luas_panen =L2 and lokasi

Daerah_Istimewa_Yogyakarta then

produksi =P1

If luas_panen =L2 and lokasi

Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4

If lokasi = Bali then produksi = C3

If lokasi = Bangka_Belitung then

produksi = C3

If lokasi = Banten then produksi = C4

If lokasi = Jawa_Barat and luas_panen

=L3 then produksi = C2

If lokasi = Jawa Barat and luas_panen

= L2 then produksi = null

If lokasi = Jawa_Timur then produksi = C2

C Algoritme K-Means clustering dengan jumlah cluster 5

If lokasi = Bali then produksi = C2

If lokasi = Bangka_Belitung then

produksi = C3

If lokasi= Banten then produksi = C1

If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null

If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null

If lokasi = Jawa_Timur then produksi = C4

KESIMPULAN

Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering

dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means

clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah

cluster 5. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga berdasarkan nilai RMSE dapat disimpulkan bahwa Partisi Intuitif sebagai metode diskretisasi menghasilkan pohon keputusan yang paling baik.

Jumlah aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif sebesar 63, Algoritme K-Means

clustering dengan jumlah cluster 4 sebesar 49 dan K-Means clustering dengan jumlah

cluster 5 sebesar 59.

DAFTAR PUSTAKA

Han J dan Kamber M. 2006. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher

Kantardzic M. 2003. Data Mining : Concept, Models, Methods, and Algorithms. USA: Wiley Interscience Meese & Rogoff 1983. Empirical Exchange

Rate Models of The Seventies Journal of International Economics 14 (1983), North Holland Company

Purnamasari, Y. 2006. Penerapan Teknik Klasifikasi Dengan Algoritme Decision Tree Untuk Data Tanaman Pangan dan Hortikultura [Skripsi]. Bogor: Fakultas

Matematika dan Ilmu Pengetahuan

Alam, Institut Pertanian Bogor.

Quinlan, R. The ID3 Algorithm

http://www.cise.ufl.edu/~ddd/cap

6635/Fall-97/Short-papers/2.htm

[17 Juli 2008].

Tan PN, Kumar V, Steinbach M. 2005

Introduction To Data Mining. Addison Wesley Publisher

Wibowo T dan Amir H. 2005 . Faktor- Faktor Yang Mempengaruhi Nilai Tukar Rupiah. Kajian Ekonomi dan Keuangan 9 (2005)

Dokumen terkait