• Tidak ada hasil yang ditemukan

Transformasi Data

Data PODES 2003 memiliki format data .sd2 sehingga harus dikonversi sesuai dengan format jenis DBMS yang digunakan yaitu .mdb, berhubung proses transformasi data telah dilakukan pada penelitian sebelumnya (Mustika 2006) data PODES 2003 sudah diolah, sehingga pada penelitian ini tinggal menggunakan data yang sudah diolah tersebut.

Pembersihan Data

Tahap pembersihan data tidak dilakukan juga karena tahap pembersihan sudah dilakukan pada penelitian sebelumya (Mustika 2006).

Seleksi Data

Data PODES 2003 memiliki 750 atribut dan baik berupa atribut numerik maupun yang bukan numerik dan memiliki 65536 record yang berasal dari seluruh Indonesia. Pada penelitian sebelumnya (Mustika 2006) diambil

5 atribut yang berupa data numerik dan dipilih 24962 record yang berasal dari desa yang ada di pulau Jawa. Adapun 5 atribut tersebut yaitu : a Jumlah keluarga prasejahtera sejahtera 1 b Jumlah pengangguran

c Jumlah keluarga pengguna listrik PLN d Jumlah bangunan permanen

e jumlah murid SD yang drop-out

Dari hasil seleksi data tersebut diambil sebanyak 10500 record dengan 7500 record untuk data training dan 3000 data untuk data tes. Untuk tujuan penelitian, data training dibagi menjadi 5 bagian yaitu 500, 1000, 1500, 2000, dan 2500 record data training, sedangkan untuk data tes dibagi menjadi 5 bagian yaitu 200, 400, 600, 800, dan 1000 record data tes.

Data mining

Proses data mining menggunakan algoritma yang diajukan oleh Wai-Hou Au dan Keith C.C. Chan pada tahun 2001. Secara garis besar ada tiga tahap yang dilakukan yaitu membentuk himpunan fuzzy, membangkitkan aturan yang menarik, dan menentukan nilai dan kelas suatu data yang belum diketahui.

Pembentukkan Himpunan Fuzzy

Tahap pembentukkan himpunan fuzzy ini melakukan transformasi data ke dalam himpunan fuzzy. Untuk penelitian ini digunakan 10500 record data dari hasil transformasi yang dilakukan oleh Arsha Mustika pada hasil penelitiannya tahun 2006. Berdasarkan penelitiannya, masing-masing atribut terbagi menjadi 2 kelas sehingga jumlah atribut menjadi 10 buah. Penjelasan mengenai atribut tersebut dapat dilihat pada Tabel 1 dan Tabel 2. Tabel 1 Atribut PODES 2003 yang telah

ditransformasi ke himpunan fuzzy

Atribut Keterangan Kelas

C11 Jumlah keluarga prasejahtera sejahtera I Banyak C12 Jumlah keluarga prasejahtera sejahtera I Sedikit C21 Jumlah pengangguran Banyak C22 Jumlah pengangguran Sedikit C31 Jumlah keluarga pengguna listrik PLN Banyak C32 Jumlah keluarga pengguna listrik PLN Sedikit C41 Jumlah bangunan permanen Sedikit C42 Jumlah bangunan permanen Banyak

Atribut Keterangan Kelas C51 Jumlah murid SD yang

DO

Banyak C52 Jumlah murid SD yang

DO

Sedikit

Tabel 2 Nilai minimum dan maksimum untuk masing-masing atribut Atribut Nilai Minimum Nilai Maksimum C11 466 998 C12 2 465 C21 245 812 C22 1 244 C31 630 1515 C32 1 62 C41 1 539 C42 540 1470 C51 52 197 C52 1 51

Pembentukan Basis Data

Proses pembentukan basis data diperlukan untuk membantu penghitungan dan penyimpanan data pada proses data mining. Basis data yang dibuat bernama data.mdb dan berisi 27 tabel. Perincian menggenai tabel yang ada di dalam basis data dapat dilihat pada Lampiran 1.

Pembentukan Aturan

Pembentukan aturan dimulai terlebih dahulu dengan membentuk aturan orde ke satu (R1). Dari hasil percobaan didapat jumlah aturan orde ke satu yang terbentuk dari beberapa data tes yang ada sebagai berikut ( Tabel 3) :

Tabel 3 Banyaknya aturan orde ke satu (R1) untuk masing-masing data training Jumlah data training Banyaknya R1 500 20 1000 24 1500 40 2000 36 2500 32 Setelah aturan orde ke satu didapat, kemudian dibentuk aturan untuk orde yang lebih tinggi. Karena data awalnya yang diambil sebanyak 5 atribut maka maksimum aturan- aturan yang dapat dibentuk sampai orde ke empat. Banyaknya aturan yang didapat untuk masing-masing orde dapat dilihat pada Tabel 4.

Dari Tabel 4 dapat dilihat bahwa secara umum dengan pembangkitan aturan yang lebih

tinggi (antecedent makin banyak) maka jumlah aturan yang terbentuk semakin sedikit.

Tabel 4 Banyaknya aturan orde ke dua, tiga, dan empat untuk masing-masing data training

Jumlah data training

Banyak aturan yang terbentuk R2 R3 R4 500 50 41 9 1000 52 48 15 1500 90 89 25 2000 94 98 32 2500 98 102 39

Secara keseluruhan hubungan antara jumlah data training yang ada dengan jumlah aturan yang tebentuk dapat dilihat pada Tabel 5. Tabel 5 Jumlah aturan yang terbentuk untuk

masing-masing data training Jumlah data training Jumlah aturan 500 120 1000 139 1500 244 2000 260 2500 271 Secara umum dari seluruh percobaan yang dibuat jika jumlah data trainingnya semakin banyak maka jumlah aturannya juga semakin banyak dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data. Hal ini dapat dilihat pada Gambar 4. 120 139 244 260 271 0 50 100 150 200 250 300 500 1000 1500 2000 2500

jumlah data training

jm lah at u ran t er b en tu k

Gambar 4 Jumlah aturan yang terbentuk pada jumlah data training yang ada Beberapa contoh aturan yang terbentuk dari 500 data training dapat dilihat pada Tabel 6.

Tabel 6 Contoh aturan yang terbentuk dari 500 data training

No Orde Aturan

1 R1 Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah pengangguran banyak.

2 R1 jika jumlah keluarga prasejahtera sejahtera I sedikit maka jumlah pengangguran sedikit. 3 R2 Jika jumlah keluarga

prasejahtera sejahtera I banyak dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak 4 R3 Jika jumlah keluarga

prasejahtera sejahtera I banyak, jumlah pengangguran banyak, dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak 5 R4 Jika jumlah keluarga

prasejahtera sejahtera I banyak, jumlah pengangguran banyak, jumlah bangunan permanen banyak, dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak

Sedangkan sebagian contoh lainnya dapat dilihat pada Lampiran 2.

Prediksi Nilai

Nilai yang akan ditentukan diambil dari data tes yang terdapat pada basis data yaitu data tes yang masing-masing berjumlah 200, 400, 600, 800, dan 1000 data. Tabel 7 merupakan contoh hasil prediksi nilai dan kelas data dari suatu atribut serta membandingkannya dengan data sebenarnya untuk 500 data training dan 200 data uji dengan kelas target dari atribut “ Jumlah pengguna listrik “.

Tabel 7 Contoh perbandingan data prediksi dengan data sebenarnya

Data Prediksi Data Sebenarnya Nilai Kelas Nilai Kelas

435 Sedikit 437 Sedikit 931 Banyak 840 Banyak 430 Sedikit 347 Sedikit 596 Sedikit 920 Banyak 435 Sedikit 432 sedikit Evaluasi Pola a Waktu eksekusi

Gambar 5 menjelaskan hubungan antara waktu yang dibutuhkan untuk membangkitkan aturan dengan jumlah data training yang ada.

Dari Gambar 5 dapat disimpulkan bahwa semakin banyak jumlah data training maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier. 11.859 16.5 21.917 25.891 30.75 0 5 10 15 20 25 30 35 0 500 1000 1500 2000 2500 3000

Jumlah data training

Wakt u ( d e ti k )

Gambar 5 Grafik hubungan jumlah data training dengan waktu pembangkitan

b Performa akurasi

Performa akurasi diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran performa akurasi secara keseluruhan dapat dilihat pada Lampiran 3.

Sa. Untuk hasil pengukuran performa akurasi secara keseluruhan dapat dilihat pada Lampiran 3.

Secara umum dapat disimpulkan bahwa semakin banyak data training yang digunakan tidak mempengaruhi nilai akurasinya (Gambar 6), sedangkan yang mempengaruhi nilai akurasi adalah nilai bobot dari masing-masing aturan yang terbentuk. 0% 20% 40% 60% 80% 100% 500 1000 1500 2000 2500 500 64% 50% 80% 76% 13% 1000 59% 40% 80% 79% 13% 1500 58% 33% 69% 65% 13% 2000 56% 14% 62% 64% 13% 2500 58% 30% 75% 71% 13% c1 c2 c3 c4 c5

Gambar 6 Grafik hubungan jumlah data training dengan akurasi rata-rata tiap atribut target

Pada Gambar 6 juga terlihat bahwa nilai akurasi yang tinggi jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan akurasi terendah jika atributnya C5 (Jumlah murid SD yang DO). Untuk nilai akurasi tertinggi (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Nilai akurasi terendah (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada.

c Nilai root mean squared error (rmse) Nilai rmse diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran nilai rmse secara keseluruhan dapat dilihat pada Lampiran 4.

0 0.1 0.2 0.3 0.4 0.5 0.6 500 1000 1500 2000 2500 500 0.24778 0.28696 0.17862 0.20114 0.29306 1000 0.2542 0.3379 0.17904 0.19498 0.39054 1500 0.2578 0.3528 0.2086 0.23254 0.39754 2000 0.26846 0.43432 0.2271 0.24128 0.4657 2500 0.25952 0.36704 0.19358 0.22154 0.50804 c1 c2 c3 c4 c5

Gambar 7 Grafik hubungan jumlah data training dengan nilai rmse tiap atribut target

Pada Gambar 7 juga terlihat nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data.

Dari percobaan penghitungan nilai akurasi didapatkan model yang terbaik untuk memprediksi nilai dan kelas suatu data adalah jika data training yang digunakan sebanyak 1000 data dengan kelas targetnya dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dengan nilai akurasi masing-masing atribut tersebut sebesar 80% dan 79%.

KESIMPULAN DAN SARAN

Kesimpulan

Dari berbagai percobaan yang dilakukan terhadap data PODES 2003 didapat kesimpulan sebagai berikut:

1 Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data.

2 Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit.

23 Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier.

34 Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan.

45 Evaluasi akurasi semakin baik jika nilai persentasenya semakin besar. Persentase terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada.

56 Evaluasi rmse semakin baik jika nilainya semakin mendekati nol. Nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data.

67 Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data.

Saran

Gambar 6 Grafik hubungan jumlah data training dengan akurasi rata-rata tiap atribut target

Pada Gambar 6 juga terlihat bahwa nilai akurasi yang tinggi jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan akurasi terendah jika atributnya C5 (Jumlah murid SD yang DO). Untuk nilai akurasi tertinggi (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Nilai akurasi terendah (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada.

c Nilai root mean squared error (rmse) Nilai rmse diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran nilai rmse secara keseluruhan dapat dilihat pada Lampiran 4.

0 0.1 0.2 0.3 0.4 0.5 0.6 500 1000 1500 2000 2500 500 0.24778 0.28696 0.17862 0.20114 0.29306 1000 0.2542 0.3379 0.17904 0.19498 0.39054 1500 0.2578 0.3528 0.2086 0.23254 0.39754 2000 0.26846 0.43432 0.2271 0.24128 0.4657 2500 0.25952 0.36704 0.19358 0.22154 0.50804 c1 c2 c3 c4 c5

Gambar 7 Grafik hubungan jumlah data training dengan nilai rmse tiap atribut target

Pada Gambar 7 juga terlihat nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data.

Dari percobaan penghitungan nilai akurasi didapatkan model yang terbaik untuk memprediksi nilai dan kelas suatu data adalah jika data training yang digunakan sebanyak 1000 data dengan kelas targetnya dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dengan nilai akurasi masing-masing atribut tersebut sebesar 80% dan 79%.

KESIMPULAN DAN SARAN

Kesimpulan

Dari berbagai percobaan yang dilakukan terhadap data PODES 2003 didapat kesimpulan sebagai berikut:

1 Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data.

2 Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit.

23 Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier.

34 Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan.

45 Evaluasi akurasi semakin baik jika nilai persentasenya semakin besar. Persentase terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada.

56 Evaluasi rmse semakin baik jika nilainya semakin mendekati nol. Nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data.

67 Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data.

Saran

1 Pada tahap penyeleksian data hanya mempertimbangkan atribut yang numerik saja, pada penelitian selanjutnya dapat dipakai teknik data mining yang khusus untuk menyeleksi atribut yang relevan untuk dilakukan proses data mining.

2 Aturan yang terbentuk sebenarnya bisa diringkas lagi sehingga didapatkan aturan yang lebih sedikit, diharapkan proses meringkas aturan dapat diakukan pada penelitian selanjutnya.

DAFTAR PUSTAKA

Au, W. H., Chan, K. C. C. 2001. Classification with Degree of Membership: A Fuzzy Approach. Hasil ICDM’01.

Cheney W, Kincaid D. 1994. Numerical Mathematics and Computing. Brooks/Cole Publishing Company, California.

Fayyad, U. M., G. P. Shapiro, P. Smyth dan R Uthurusamy. 1996. Advances Knowledge Discovery and Data mining. American Association for Artificial Intelligence, California.

Han, J. M. Kamber. 2001. Data mining Concepts and mining. Morgan Kaufmann Publiser, USA.

Hoffer, J. A., M. B. Prescott dan F. R. McFadden. 2002. Modern Database Management Sixth Edition. Pearson Education, New Jersey.

Jang, J. S. R., C. T. Sun, E. Mizutani. 1997. Neuro-Fuzzy and Soft Computing. Prentice-Hall Inc., USA.

Kusumadewi, S. 2002. Analisis dan Desain Sistem Fuzzy Menggunakan Tool Box Matlab. Graha Ilmu, Yogyakarta.

Mustika, A. 2006. Pengembangan Aplikasi Data mining Menggunakan Fuzzy Association Rules [skripsi]

Shapiro, G. P. 2006. Machine Learning, Data mining, and Knowledge Discovery. http://www.kdnuggets.com/dmcourse/data_ mining_course

Dokumen terkait