METODE PENELITIAN Proses Dasar Sistem - Perbandingan Metode Diskretisasi Data Partisi Intuitif

Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database

(KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:

Gambar Tahapan dalam KDD 1 Praproses Data

Praproses data meliputi pembersihan data, integrasi data, transformasi dan seleksi data. Pembersihan data dilakukan untuk menghilangkan data yang tidak konsisten dan mengandung noise. Proses pembersihan data pada penelitian ini merujuk kepada penelitian sebelumnya (Purnamasari 2006).

Transformasi dilakukan untuk

membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi.

Praproses dimulai dengan memisahkan data tanaman padi dari seluruh propinsi. Baru kemudian dilakukan proses diskretisasi menggunakan Partisi Intuitif. Metode ini menggunakan aturan 3-4-5 sebagai dasar untuk membagi data. Dari setiap atribut diambil nilai maksimum (MAX) dan minimum (MIN) sebagai batas interval.

Setelah itu dicari nilai 5 persentil (LOW) dan nilai 95 persentil (HIGH). Nilai persentil ini sebagai acuan menentukan MSD (Most Significant Digit), setelahnya nilai 5 persentil dibulatkan kebawah sesuai satuan MSD menjadi LOW’ dan 95 persentil dibulatkan ke atas sesuai dengan satuan MSD menjadi HIGH’. Nilai yang didapat akan digunakan untuk mencari jumlah interval dengan aturan (HIGH’-LOW’)/MSD.

= t

Y nilai sebenarnya pada periode t

Yˆ nilai prakiraan pada periode t

Salah satu metode yang sering digunakan adalah Root Mean Square Error (RMSE). Metode prakiraan yang mempunyai RMSE terkecil adalah metode yang terbaik. RMSE didefinisikan sebagai akar dari MSE.

n Y Y MSE t n t t 2 1 ) ˆ ( − =

∑

= MSE RMSE= Cross Validation

Cross validation adalah metode yang

umum digunakan untuk mengevaluasi

kinerja classifier. Dalam pendekatan cross- validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Metode ini mempartisi data ke dalam dua

subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai

training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two- fold cross-validation. Total error diperoleh dengan menjumlahkan error-error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk

training dan satu kali untuk testing. Metode

k-fold cross-validation men-generalisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk

testing, sedangkan sisanya digunakan untuk

training. Prosedur ini diulangi k kali

sedemikian sehingga setiap partisi

digunakan untuk testing tepat satu kali.

Total error ditentukan dengan

menjumlahkan error untuk semua k proses tersebut. Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set

hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam penggunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al. 2005).

METODE PENELITIAN

Proses Dasar Sistem

Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database

(KDD) (Tan et al. 2005). Proses ini dapat dilihat pada gambar berikut:

Gambar Tahapan dalam KDD 1 Praproses Data

Transformasi dilakukan untuk

membentuk data menjadi bentuk yang tepat untuk di-tambang. Pada proses ini dilakukan diskretisasi atribut data pada data tanaman padi.

aturan 3-4-5 untuk menentukan interval akan dibagi menjadi berapa kelompok. Hasilnya akan menjadi hirarki paling atas. Kemudian

nilai maksimum dan nilai minimum

diperiksa apakah nilainya masuk ke dalam partisi level pertama. Jika interval pertama

mencakup nilai minimum maka

LOW’<MIN. Batas kiri dari interval ini disesuaikan supaya interval menjadi lebih kecil. Nilai MSD dari MIN didapatkan dan nilai MIN dibulatkan pada posisi MSD sehingga didapatkan nilai MIN’. Hal ini untuk menetapkan ulang batas interval. Pada nilai MAX jika tidak tercakup pada interval maka MAX > HIGH’ maka perlu interval baru untuk menutupnya. Nilai MAX dibulatkan ke atas pada satuan MSD dan akan didapatkan interval yang baru. Langkah langkah ini diulangi lagi pada level hirarki yang lebih rendah.

2 Data Mining

Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk menganalisis data yang telah dibersihkan. Teknik yang digunakan adalah decision tree yang dibagi menjadi 3 tahap, yaitu :

a Pembentukan Pohon

Pada tahap ini akan dibentuk suatu pohon yang terdiri dari akar yang merupakan node paling awal, daun sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut dilakukan dengan menggunakan perhitungan yang sama dengan tahap reduksi data, yaitu menggunakan information gain. Namun yang membedakan dengan perhitungan dalam reduksi data adalah data yang akan diproses menjadi pohon keputusan telah dilakukan diskretisasi terlebih dahulu.

b Pemangkasan Pohon

Pemangkasan pohon dapat dilakukan

dengan metode prepruning atau

postpruning. Namun alternatif lain yang

dapat dilakukan adalah

mengkombinasikan prepruning dan

postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini, pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.

c Pembentukan Aturan Keputusan,

aturan yang dihasilkan dari pohon

keputusan dapat ditampilkan dalam

bentuk aturan IF-THEN. Aturan dibentuk dari tiap path pada pohon. Setiap node

yang bukan leaf node berperan sebagai bagian IF sedangkan bagian THEN

diambil dari leaf node yang merupakan konsekuen dari aturan. Aturan IF-THEN

lebih mudah dipahami oleh pengguna apalagi jika pohonnya dalam ukuran besar.

3 Evaluasi Data Keluaran

Pada tahap ini dilakukan evaluasi terhadap kinerja classifier sehingga bisa diambil kesimpulan atau informasi dari data. Metode evaluasi yang digunakan adalah metode cross validation.

Lingkungan Pengembangan

Lingkungan pengembangan sistem

dalam penelitian ini meliputi: Perangkat lunak:

Windows XP Profesional sebagai sistem operasi.

WEKA 3-5-7 untuk membentuk pohon keputusan.

MS. Excel sebagai pengolah data. Matlab 7 sebagai pengolah data

Perangkat keras yang digunakan adalah komputer personal dengan spesifikasi sebagai berikut:

Prosesor Intel Pentium IV 3.00 GHz. Memori 1.49 Gb.

Harddisk 40 GB

Monitor 15 inchi, mouse dan keyboard.

Dalam dokumen Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Means Clustering terhadap Pembuatan Pohon Keputusan (Halaman 59-61)