Lingkungan Pengembangan HASIL DAN PEMBAHASAN

(1)

aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama mencakup nilai minimum maka LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.

2 Data Mining

Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :

a Pembentukan Pohon

Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.

b Pemangkasan Pohon

Pemangkasan pohon dapat dilakukan dengan metode prepruning atau postpruning. Namun alternatif lain yang

dapat dilakukan adalah

mengkombinasikan prepruning dan postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit. c Pembentukan Aturan Keputusan, aturan yang dihasilkan dari pohon

keputusan dapat ditampilkan dalam bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.

3 Evaluasi Data Keluaran

Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.

Lingkungan Pengembangan

Lingkungan pengembangan sistem dalam penelitian ini meliputi:

Perangkat lunak:

Windows XP Profesional sebagai sistem operasi.

WEKA 3-5-7 untuk membentuk pohon keputusan.

MS. Excel sebagai pengolah data.

Matlab 7 sebagai pengolah data

Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:

Prosesor Intel Pentium IV 3.00 GHz.

Memori 1.49 Gb.

Harddisk 40 GB

Monitor 15 inchi, mouse dan keyboard.

HASIL DAN PEMBAHASAN

Sebelum proses data mining dilakukan, dilakukan tahapan praproses pada data tanaman pangan dan hortikultura. Tahap pembersihan data dan integrasi data telah dilakukan oleh peneliti sebelumnya (Purnamasari 2006). Sebelum tahap praproses selanjutnya, dari data yang ada diambil data tanaman padi dari seluruh propinsi. Data tanaman padi didiskretisasi menggunakan 2 metode yaitu metode Partisi Intuitif sesuai dengan aturan 3-4-5 serta metode K-means clustering dengan jumlah cluster adalah 4 dan 5.

Data yang telah didiskretkan kemudian disimpan kedalam file berekstensi csv. File csv ini diubah menjadi file berekstensi arff

(2)

yang merupakan file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10-fold cross validation sebagai model pengujian. Metode Partisi Intuitif

Metode diskretisasi yang digunakan adalah Partisi Intuitif dengan aturan 3-4-5. Dari atribut produksi diambil nilai maksimum (MAX) yaitu 21.579.444 ton dan minimum (MIN) sebesar 961 ton sebagai batas interval awal. Kemudian dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Dari seluruh nilai produksi didapatkan nilai LOW =17.340,5 dan nilai HIGH = 8.233.619. Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit). Karena rentang nilai LOW dan HIGH terletak pada satuan juta maka ditetapkan MSD sebesar 1.000.000 setelahnya nilai 5 persentil dibulatkan ke bawah sesuai satuan MSD menjadi LOW’ sebesar 0 dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’ sebesar 9.000.000. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD. Angka yang didapatkan adalah 9, sesuai dengan aturan 3-4-5 maka akan didapatkan tiga interval, yaitu (0 ... 3.000.000], (3.000.000 ... 6.000.000], dan (6.000.000 ... 9.000.000]. Hasil interval ini akan menjadi hirarki paling atas. Kemudian nilai maksimum dan nilai minimum diperiksa apakah nilainya masuk kedalam partisi level pertama. Karena interval pertama mencakup nilai minimum maka 0<961 (LOW’<MIN). Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih sempit. Nilai MSD dari MIN didapatkan yaitu ratusan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’ = 900. Hal ini untuk menetapkan ulang batas interval sebelah kiri sehingga didapatkan awal interval yang baru adalah (900 ... 9.000.000].

Jika nilai MAX tidak tercakup pada interval (MAX > HIGH’) maka perlu interval baru yang mencakup nilai MAX tersebut. Nilai dari interval terakhir tidak mencakup nilai MAX sehingga nilai MAX dibulatkan ke atas sesuai nilai MSD. MSD dari MAX berada pada satuan puluhan juta sehingga MAX dibulatkan ke atas menjadi MAX’ sebesar 30.000.000, dari nilai MIN’ dan MAX’ didapatkan rentang interval yang baru yaitu (900 ... 30.000.000). Dari rentang

interval yang baru ini didapatkan 4 partisi dimana partisi keempat berasal dari nilai HIGH’ sampai dengan nilai MAX’.

Langkah selanjutnya, karena nilai MAX sudah tercakup pada interval, maka langsung dibuat interval dari hirarki level berikutnya. Langkah yang sama diulang lagi pada level hirarki yang lebih rendah sehingga didapatkan interval yang lebih sempit. Interval pertama (900... 3.000.000] dipartisi menjadi 4 subinterval: (900 ... 750.675] , (750.675 ... 1.500.450], (1.500.450 ... 2.250.225], (2.250.225 ... 3.000.000]. Interval kedua (3.000.000 ... 6.000.000] dipartisi menjadi 3 subinterval: (3.000.000 ... 4.000.000], (4.000.000 ... 5.000.000], (5.000.000 ... 6.000.000], interval ketiga (6.000.000 ... 9.000.000] dipartisi menjadi 3 subinterval: (6.000.000 ... 7.000.000], (7.000.000 ... 8.000.000], (8.000.000 ... 9.000.000], dan interval keempat (9.000.000 ... 30.000.000) dipartisi menjadi empat subinterval: (9.000.000 ... 14.250.000], (14.250.000 ... 19.500.000], (19.500.000 ... 24.750.000], dan (24.750.000 ... 30.000.000]. Hasil perhitungan tersebut yang akan dijadikan dasar pengelompokkan atribut data menjadi beberapa kelas.

Hasil diskretisasi data pada atribut produksi dapat dilihat pada Tabel 1

Tabel 1 Nilai pada atribut produksi Kelas Interval (dalam Ton)

P1 900-750.675 P2 750.675-1.500.450 P3 1.500.450-2.250.225 P4 2.250.225-3.000.000 P5 3.000.000-4.000.000 P6 4.000.000-5.000.000 P7 5.000.000-6.000.000 P8 6.000.000-7.000.000 P9 7.000.000-8.000.000 P10 8.000.000-9.000.000 P11 9.000.000-14.250.000 P12 14.250.000-19.500.000 P13 19.500.000- 24.750.000 Atribut luas_panen mengalami perlakuan yang sama dengan atribut produksi. Atribut ini didiskretkan menggunakan aturan 3-4-5. Dari aturan tersebut untuk atribut luas_panen didapatkan 16 interval. Hasil yang didapatkan bisa dilihat pada Tabel 2.

(3)

Tabel 2 Nilai pada atribut luas_panen Kelas Interval (dalam Ha)

L1 500-100.400 L2 100.400-200.300 L3 200.300-300.200 L4 300.200-400.100 L5 400.100-500.000 L6 500.000-625.000 L7 625.000-750.000 L8 750.000-875.000 L9 875.000-1.000.000 L10 1.000.000-1.100.000 L11 1.100.000-1.200.000 L12 1.200.000-1.300.000 L13 1.300.000-1.400.000 L14 1.400.000-1.500.000 L15 1.500.000-1.600.000 L16 1.600.000-1.700.000 L17 1.700.000-1.800.000 L18 1.800.000-1.900.000 L19 1.900.000-2.000.000 L20 2.000.000-8.000.000 L21 8.000.000-14.000.000 L22 14.000.000-20.000.000 Data yang telah didiskretkan kemudian disimpan kedalam file padi_baru.csv. File csv ini diubah menjadi file padi_baru.arff, file khusus untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan menggunakan metode ini dapat dilihat pada Lampiran 1 sedangkan aturan yang dibentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 2.

Evaluasi dari kinerja model klasifikasi didasarkan pada banyaknya (count) test record yang diprediksi secara benar dan secara tidak benar oleh model. Hasil evaluasi model ini ditabulasikan dalam sebuah tabel yang dikenal sebagai matriks confusion. Matriks confusion untuk metode Partisi Intuitif ini dapat dilihat pada Lampiran 3

Informasi dalam confusion matrix diperlukan untuk menentukan kinerja model klasifikasi dengan menggunakan performance metric seperti akurasi yang didefinisikan sebagai berikut:

prediksi banyaknya total benar yang prediksi Banyaknya Akurasi =

Dengan metode Partisi Intuitif untuk

diskretisasi atribut, akurasi dari pohon keputusan yang didapat adalah

8454 . 0 1016 13 28 9 6 8 36 10 65 127 557 = + + + + + + + + + = Akurasi

Secara ekuivalen, error rate yang dihasilkan bisa dihitung menggunakan cara yang sama.

prediksi banyaknya total salah yang prediksi banyaknya rate Error =

Sesuai dengan rumus di atas maka akan didapatkan hasil perhitungan error rate metode ini yaitu sebesar 14,46 %.

Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode Partisi Intuitif ini dihasilkan jumlah objek yang diklasifikasikan benar adalah 859 dan jumlah yang diklasifikasikan salah sebesar 147 dari 1016 (jumlah seluruh objek). Sehingga akurasi kebenaran mencapai 84,54 %. Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.12.

Algoritme K-Means dengan 4 cluster Algoritme K-Means digunakan untuk clustering atribut luas_panen dan produksi, dengan jumlah cluster 4. Hasil clustering pada atribut produksi dapat dilihat pada Tabel 3 dan hasil clustering pada atribut luas_panen pada Tabel 4

Tabel 3 Interval atribut produksi untuk setiap cluster, dengan jumlah cluster adalah 4

Cluster Interval (dalam Ton) 1 903.191- 2.671.754 2 6.594.514 - 21.579.444 3 961- 884.273

4 2.689.834 - 6.111.937 Tabel 4 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 4

Cluster Interval (dalam Ha) 1 519-286.870

2 287.708-902.286 3 5.029.518–15.275.533 4 1.183.574-2.188.479

Data yang telah didiskretkan dengan menggunakan Algoritme K-Means kemudian disimpan ke dalam file bernama cluster (4) padi_asli2.csv. File csv ini diubah menjadi file bernama cluster(4) padi_asli2.arff, file ini yang dijadikan

(4)

masukan untuk perangkat lunak WEKA. Dengan menggunakan WEKA data akan diproses untuk membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan dapat dilihat pada Lampiran 4 sedangkan aturan yang terbentuk dari pohon keputusan tersebut dapat dilihat pada Lampiran 5.

Berdasarkan pohon keputusan yang dihasilkan, diperoleh jumlah record yang diklasifikasikan benar adalah 888 sedangkan jumlah record yang diklasifikasikan salah sebesar 127 dari 1016 jumlah seluruh record. Sehingga akurasi kebenaran mencapai 87,40 % dengan jumlah aturan yang terbentuk adalah 49. Matriks confusion untuk algoritme K-Means dengan 4 cluster ini dapat dilihat pada Tabel 5.

Tabel 5 matriks confusion untuk algoritme K-Means dengan 4 cluster

Hasil prediksi C1 C2 C3 C4 K el a s S eb e na rnya C1 152 1 27 18 C2 0 78 0 0 C3 26 0 636 0 C4 20 35 0 22

Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root mean Square Error (RMSE) sebesar 0.2

Algoritme K-Means dengan 5 cluster Prosedur yang dilakukan dalam tahapan ini sama dengan metode sebelumnya. Metode yang digunakan adalah algoritme K-Means clustering dengan jumlah cluster 5. Hasil diskretisasi pada atribut produksi dapat dilihat pada Tabel 6 dan atribut luas_panen pada Tabel 7

Tabel 6 Interval atribut produksi untuk setiap cluster dengan jumlah cluster adalah 5

cluster Interval (dalam Ton) 1 1.177.221 - 2.802.492 2 461.413 - 1.169.865 3 961- 458.756

4 6.878.791 - 21.579.444 5 2.839.821 - 6.594.514

Tabel 7 Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster adalah 5

cluster Interval (dalam Ha) 1 519 - 210.425

2 495.958 - 902.286 3 214.180 - 494.145 4 5.029.518 - 15.275.533 5 1.183.574 - 2.188.479 Data yang telah didiskretisasi kemudian disimpan ke dalam file cluster(5) padi_asli2.csv. File csv ini diubah menjadi file cluster(5) padi_asli2.arff, file ini yang dijadikan masukan untuk perangkat lunak WEKA. WEKA akan memproses masukan dan membentuk pohon keputusan. Pohon keputusan dihasilkan berdasarkan algoritme ID3 dengan metode 10 fold cross validation sebagai model pengujian. Pohon keputusan yang dihasilkan oleh algoritme K-Means dengan 5 cluster ini dapat dilihat pada Lampiran 7 sedangkan aturan yang terbentuk dapat dilihat pada Lampiran 8.

Dari hasil keluaran klasifikasi bisa dilihat bahwa untuk metode K-Means clustering dengan 5 cluster ini dihasilkan jumlah yang diklasifikasikan benar adalah 781 dan jumlah yang diklasifikasikan salah sebesar 234 dari 1016 total seluruh objek. Persentase kebenaran dari metode K-Means clustering dengan 5 cluster ini adalah 76,87% dengan jumlah aturan yang terbentuk sejumlah 59. Matriks confusion untuk algoritme K-Means dengan 5 cluster ini bisa dilihat pada Tabel 8.

Tabel 8 Matriks confusion untuk algoritme K-Means dengan 5 cluster

prediksi kelas C1 C2 C3 C4 C5 K el a s S e b ena rn ya C1 85 54 0 0 15 C2 40 186 27 1 0 C3 5 38 413 0 0 C4 0 0 0 77 0 C5 18 0 0 36 20

Berdasarkan perhitungan yang dilakukan oleh WEKA didapatkan nilai Root Mean Square Error (RMSE) sebesar 0.24.

Perbandingan Metode Partisi Intuitif dan Algoritme K-Means

Secara keseluruhan, hasil perbandingan masing masing metode diskretisasi atribut

(5)

terhadap pohon keputusan yang dihasilkan dapat dilihat pada Tabel 9. Metode Partisi Intuitif menghasilkan jumlah aturan yang diklasifikasikan benar sebanyak 859 objek, sedangkan algoritme clustering dengan jumlah cluster 4 sebanyak 888 objek dan algoritme clustering dengan jumlah cluster 5 sebanyak 781 objek, dari total 1016 objek. Metode Partisi Intuitif menghasilkan 63 aturan, algoritme K-Means cluster dengan jumlah cluster 4 menghasilkan 49 aturan sedangkan algoritme K-Means clustering dengan jumlah cluster 5 menghasilkan aturan sebesar 59. Nilai RMSE secara keseluruhan yang dihasilkan oleh masing masing metode adalah 0.12 untuk metode Partisi Intuitif, 0.2 untuk algoritme K-Means clustering dengan 4 cluster dan 0.24 untuk algoritme K-Means clustering dengan 5 cluster. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga pohon keputusan yang dihasilkan dengan nilai RMSE terkecil merupakan pohon keputusan terbaik

Tabel 9 Perbandingan hasil pohon

keputusan dengan metode Partisi Intuitif dan Algoritme K-Means Partisi Intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 859 888 781 Jumlah klasifikasi salah 147 127 234 Root Means Square Error 0.12 0.20 0.24 Jumlah Aturan yang terbentuk 63 49 59

Beberapa aturan yang dihasilkan oleh pohon keputusan dengan metode Partisi Intuitif dan algoritme K-Means dapat dilihat sebagai berikut:

A Metode Partisi Intuitif

If luas_panen =L1 then produksi =P1 If luas_panen = L2 and lokasi =Bengkulu then produksi =P1

If luas_panen =L2 and lokasi Jambi then produksi =P1

If luas_panen =L2 and lokasi Daerah_Istimewa_Yogyakarta then produksi =P1

If luas_panen =L2 and lokasi Kalimantan_Tengah then produksi =P1 B Algoritme K-Means clustering dengan jumlah cluster 4

If lokasi = Bali then produksi = C3 If lokasi = Bangka_Belitung then produksi = C3

If lokasi = Banten then produksi = C4 If lokasi = Jawa_Barat and luas_panen =L3 then produksi = C2

If lokasi = Jawa Barat and luas_panen = L2 then produksi = null

If lokasi = Jawa_Timur then produksi = C2

C Algoritme K-Means clustering dengan jumlah cluster 5

If lokasi = Bali then produksi = C2 If lokasi = Bangka_Belitung then produksi = C3

If lokasi= Banten then produksi = C1 If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null

If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null

If lokasi = Jawa_Timur then produksi = C4

KESIMPULAN

Berdasarkan hasil penelitian dapat dinyatakan bahwa diskretisasi atribut dengan menggunakan algoritme K-Means clustering dengan 4 cluster memberikan akurasi yang paling tinggi sebesar 87,40 %, diikuti metode Partisi Intuitif yang mempunyai akurasi pohon keputusan sebesar 84,54% dan terakhir oleh algoritme K-Means clustering dengan 5 cluster sebesar 76,87% . Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode Partisi Intuitif sebesar 0.12 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah cluster 5. Semakin kecil nilai RMSE yang diperoleh berarti perkiraan kesalahan yang dihasilkan juga semakin kecil sehingga berdasarkan nilai RMSE dapat disimpulkan bahwa Partisi Intuitif sebagai metode diskretisasi menghasilkan pohon keputusan yang paling baik.