Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database
(KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:
Gambar Tahapan dalam KDD 1 Praproses Data
Praproses data meliputi pembersihan data, integrasi data, transformasi dan seleksi data. Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. Proses pembersihan data pada penelitian ini merujuk kepada penelitian sebelumnya (Purnamasari 2006).
Transformasi dilakukan untuk
membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi.
Praproses dimulai dengan memisahkan data tanaman padi dari seluruh propinsi. Baru kemudian dilakukan proses diskretisasi menggunakan Partisi Intuitif. Metode ini menggunakan aturan 3-4-5 sebagai dasar untuk membagi data. Dari setiap atribut diambil nilai maksimum (MAX) dan minimum (MIN) sebagai batas interval.
Setelah itu dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit), setelahnya nilai 5 persentil dibulatkan kebawah sesuai satuan MSD menjadi LOW’ dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD.
= t
Y nilai sebenarnya pada periode t
=
t
Yˆ nilai prakiraan pada periode t
Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE.
n Y Y MSE t n t t 2 1 ) ˆ ( − =
∑
= MSE RMSE= Cross ValidationCross validation adalah metode yang
umum digunakan untuk mengevaluasi
kinerja classifier. Dalam pendekatan cross- validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua
subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai
training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two- fold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk
training dan satu kali untuk testing. Metode
k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk
testing, sedangkan sisanya digunakan untuk
training. Prosedur ini diulangi k kali
sedemikian sehingga setiap partisi
digunakan untuk testing tepat satu kali.
Total error ditentukan dengan
menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set
hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).
METODE PENELITIAN
Proses Dasar SistemProses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database
(KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:
Gambar Tahapan dalam KDD 1 Praproses Data
Praproses data meliputi pembersihan data, integrasi data, transformasi dan seleksi data. Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. Proses pembersihan data pada penelitian ini merujuk kepada penelitian sebelumnya (Purnamasari 2006).
Transformasi dilakukan untuk
membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi.
Praproses dimulai dengan memisahkan data tanaman padi dari seluruh propinsi. Baru kemudian dilakukan proses diskretisasi menggunakan Partisi Intuitif. Metode ini menggunakan aturan 3-4-5 sebagai dasar untuk membagi data. Dari setiap atribut diambil nilai maksimum (MAX) dan minimum (MIN) sebagai batas interval.
Setelah itu dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit), setelahnya nilai 5 persentil dibulatkan kebawah sesuai satuan MSD menjadi LOW’ dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD.
aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian
nilai maksimum dan nilai minimum
diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama
mencakup nilai minimum maka
LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.
2 Data Mining
Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :
a Pembentukan Pohon
Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.
b Pemangkasan Pohon
Pemangkasan pohon dapat dilakukan
dengan metode prepruning atau
postpruning. Namun alternatif lain yang
dapat dilakukan adalah
mengkombinasikan prepruning dan
postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.
c Pembentukan Aturan Keputusan,
aturan yang dihasilkan dari pohon
keputusan dapat ditampilkan dalam
bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node
yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN
diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN
lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.
3 Evaluasi Data Keluaran
Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.
Lingkungan Pengembangan
Lingkungan pengembangan sistem
dalam penelitian ini meliputi: Perangkat lunak:
Windows XP Profesional sebagai sistem operasi.
WEKA 3-5-7 untuk membentuk pohon keputusan.
MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data
Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:
Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb.
Harddisk 40 GB
Monitor 15 inchi, mouse dan keyboard.