Surabaya, 19 Januari 2011
Tony Hartono
Mahasiswa Magister Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya e-mail : [email protected]
}
Permasalahan data hilang atau tidak lengkap
(missing data) biasa ditemui di berbagai
bidang
}
Missing data merupakan hal yang tidak
diinginkan oleh peneliti, karena dengan
adanya missing data tersebut maka data hasil
observasi tidak dapat dianalisis dengan baik.
Mekanisme misssing
data
(Little dan Rubin , 1987)
Missing Completely
at Random (MCAR) Missing at Random(MAR)
Missingness Is Non-Ignorable
Sejumlah penelitian untuk mengatasi missing data :
} Dempster, Laird dan Rubin (1976) menerapkan suatu pendekatan umum untuk perhitungan secara iterasi dari estimasi Maximum Likelihood ketika observasi diketahui berupa data tak lengkap. } Roth (1994) menggunakan Missing Data Techniques (MDTs) pada
kasus data tak lengkap.
} Gary, Honaker, Joseph dan Scheve (2000) mencoba menangani perbedaan subtansial antara cara pandang ilmuwan politik dan komunitas statistik, tentang analisis data yang mengandung
missing values.
} Grzymala dan Busse (2003) menunjukkan suatu teknik yang dapat digunakan pada incomplete data dengan menggunakan blok/kumpulan pasangan nilai suatu atribut
Metode dalam menangani misssing data
mengabaikan dan membuang missing data (Gary, Honaker, Joseph &
Scheve, 2000)
estimasi parameter (Dempster, Laird & Rubin,
1977)
Imputasi (Myrteveit, Stensrud &
Olsson, 2001)
}
Beberapa contoh metode imputasi yang
sering dipakai imputasi rata-rata (Mean
imputation), imputasi regresi, Cold & Hot
Deck imputation, Multiple Imputation (Little &
Rubin, 1987) dan sebagainya.
}
(Sarle, 1998) Metode Hot Deck kurang sesuai
jika dipakai untuk memprediksi karena nilai
prediksi akan tergantung pada faktor-faktor
yang tak nyata seperti pada urutan dalam
dataset atau pada angka pseudo-random.
}
Sedangkan metode Multiple Imputation,
Maximum Likelihood dan Bayesian sangat
sesuai untuk memprediksi namun pada
beberapa kasus, algoritma tersebut menjadi
lebih lama dalam proses perhitungannya
disaat suatu prediksi harus dihitung dengan
cepat secara real time
}
Proses kluster sering kali digunakan dalam Hot
Deck Imputation. Secara umum ada dua langkah
dalam dalam metode Hot Deck Imputation yaitu
pertama data dibagi kedalam beberapa kluster
berdasar metrik persamaan tertentu dan
masing-masing contoh yang mengandung missing data
terhubung dalam salah satu kluster, kedua
menghitung mean dari atribut dalam sebuah
kluster dan kasus yang lengkap dalam kluster
digunakan untuk mengisi missing values
(Jang, Sun & Mizutani, 1997) Algoritma kluster
dapat digunakan untuk mengetahui struktur dalam
data, dapat digunakan lebih lanjut dalam berbagai
aplikasi, dapat diterapkan ke dalam data yang
kuantitatif (numerik), kualitatif (kategorikal) atau
kombinasi dari keduanya.
(Zadeh, 1997) Salah satu algoritma kluster yang
dikenal adalah metode Fuzzy K-means, modelnya
merupakan derajat keanggotaan dimana objek
tersebut lebih dekat ke sebuah kluster. Hal tersebut
merupakan ide dasar dari soft computing, yang
lebih menerima kekurangakuratan (imprecision),
ketidakpastian (uncertainty) dan kebenaran parsial
(partial truth)
}
Salah satu kriteria yang digunakan dalam
kluster adalah ukuran kemiripan yang
dilakukan dengan menggunakan fungsi jarak.
Pada umumnya banyak penelitian yang
menggunakan fungsi jarak Euclidean, akan
tetapi seringkali fungsi ini tidak tepat saat
terjadi perbedaan skala/satuan pada data
(Sharma, 1996).
}
missing data juga dijumpai pada Survei
Tahunan Perusahaan Industri Besar Dan
Sedang yang merupakan salah satu survei
rutin yang dilakukan BPS
}
Permasalahan yang sering dijumpai pada
pelaksanaan survei tersebut adalah
perusahaan yang nonrespon baik itu
perusahaan lama ataupun perusahaan baru.
}
Data Survei Perusahaan Industri Besar Dan
Sedang Provinsi Jawa Timur Tahun 2008
tercatat ada 4.154 perusahaan yang terdiri
dari 3.427 perusahaan sedang dan 727
perusahaan besar atau sekitar 82,50%
perusahaan sedang dan 17,50% perusahaan
besar. Dan dari data 4.154 perusahaan besar
maupun sedang sebanyak 15% dari observasi
tersebut terdapat missing values.
} Belum adanya toolbox MATLAB Fuzzy K-Means yang khusus digunakan untuk menangani missing data
} Bagaimana melakukan imputasi missing data dengan
menggunakan algoritma Fuzzy K-Means pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008
} Bagaimana perbandingan hasil imputasi antara metode
Fuzzy K-Means imputation dengan metode imputasi lain
yaitu metode K-Nearest Neighbors Imputation.
} Bagaimana perbandingan hasil imputasi menggunakan dua
fungsi jarak pada metode Fuzzy K-means Imputation yaitu fungsi jarak Euclidean dan Manhattan
} Membuat toolbox MATLAB Fuzzy K-Means yang dapat
menangani permasalahan missing data dan bersifat user
friendly.
} Melakukan imputasi missing data dengan menggunakan
metode Fuzzy K-Means pada data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008.
} Membandingkan hasil imputasi antara metode Fuzzy
K-Means Clustering dengan metode K-Nearest Neighbors Imputation pada Data Perusahaan Industri Besar Provinsi
Jawa Timur Tahun 2008
} Membandingkan hasil imputasi menggunakan dua fungsi
jarak pada algoritma Fuzzy K-means imputation yaitu fungsi jarak Euclidean dan Manhattan
}
Penerapan algoritma Fuzzy K-means untuk
imputasi nilai yang hilang dengan dua fungsi
jarak yaitu Euclidean dan Manhattan
}
Missing data yang diperoleh adalah dengan
cara menghilangkan dengan acak beberapa
nilai/field pada Data Perusahaan Industri
Besar Provinsi Jawa Timur Tahun 2008
}
Laencina, Gomez, Vidal dan Verleysen, (2009)
melakukan kajian dari kinerja algoritma KNN
untuk melakukan imputasi missing values.
Metode ini memilih K observasi yang terdekat
dari serangkaian observasi dengan nilai yang
telah diketahui dalam atribut untuk dilakukan
imputasi sehingga akan meminimalisasi ukuran
jarak. Ketika nilai tetangga K terdekat ditemukan,
nilai pengganti yang disubstitusikan untuk
missing values harus diestimasikan. Nilai
pengganti dihitung bergantung pada tipe data,
metode ini dapat digunakan untuk data kualitatif
Hathaway dan Bezdek (2001) mencoba mengelompokkan/clustering pada sekumpulan objek O o=
{
1, ,Lon}
yang dipresentasikan dengan dataset objek numerik X={
x1, ,Lxn}
⊂Rs kedalam c kluster, 1 c n< < . Data numerik tersebut menggambarkan objek-objek dengan nilai spesifik untuk s variabel.Selanjutnya merupakan algoritma dari FKM adalah sebagai berikut: FKM-1. Tentukan m, c dan ε , dimana m>1, 1 c n< < dan ε>0. Pilih v(0)⊂Rs,
sebuah Anorm untuk J , dan sebuah termination norm m untuk
FKM. Kemudian saat langkah ke-r, r=0,1,2,K
1 k n≤ ≤ maka :
(
1/(1 ))
( 1) 1/(1 ) 1 m ik r ik c m ik j D U D − + − = = ∑
(2.7) dimana 2 ( )r ik k i A D =x v− (2.8)FKM-3. Hitung ( 1)r arg min
{
(
( 1)r ,)
}
m vv + = J U + v dengan menggunakan 1 i c≤ ≤ dan
1 j s≤ ≤ maka :
(
)
(
)
( 1) 1 ( 1) ( 1) 1 n r m kj ik k r ij n m r ik k x U v U + = + + = = ∑
∑
FKM-4. Bandingkan v(R+1)terhadap v( )R menggunakan v(R+1)−v( )R <ε. Jika benar maka berhenti. Jika tidak, tetapkan r r= +1 dan kembali ke FKM-2.
Fungsi Jarak
Jarak antara centroid vi dan objek xk dalam Fuzzy K-Means dinotasikan
dengan D v x( ,i k). Pemilihan jarak merupakan salah satu alternatif penerapan
Fuzzy K-means, contohnya jarak Generelized Lp norm yang digunakan untuk
mengukur jarak antara sebuah centroid dan objek data dalam kluster, seperti dalam persamaan berikut :
1/ 1 ( , ) ( |S |)p i k kj ij j D v x x v = =
∑
− (2.10) L LRoot Mean Squared Error (RMSE)
Root Mean Squared Error (RMSE) seringkali digunakan untuk
membandingkan nilai prediksi dengan nilai aktual/sesungguhnya dari suatu uji. Metrik analisis error RMSE didefinisikan sebagai berikut :
2 1| | n i i i F f RMSE = n − =
∑
(2.12) dimana n adalah jumlah total dari nilai uji, F adalah nilai data estimasi, dan i f i}
Survei Tahunan Industri Besar dan Sedang
Provinsi Jawa Timur Tahun 2008
}
informasi yang terdapat didalamnya meliputi
jumlah tenaga kerja (orang), pemakaian listrik
dari PLN (KWH), nilai pemakaian listrik (ribu
rupiah), pemakaian listrik sendiri (KWH),
listrik yang dijual (KWH). nilai bahan bakar
yang digunakan (ribu rupiah), total nilai
bahan baku (ribu rupiah) dan total nilai
produksi yang dihasilkan (ribu rupiah).
}
x
1= Jumlah tenaga kerja (orang);
}x
2= Nilai bahan bakar (ribu rupiah);
}x
3= Total nilai bahan baku (ribu rupiah) dan
}x
4= Total nilai produksi (ribu rupiah).
Start Data yang mengandung
Missing values Tentukan m, c dan ε Hitung objek lengkap & pilih sebagai
centroid pertama ( ) { } (r1)argmin ( 1)r , m v v+= K U+v
Hitung fungsi keanggotaan ( ) { } ( 1)argmin ,( ) fc n r r m U M U+ K U v ∈ = Bandingkan centroid (r+1) dengan centroid (r) (r1) ( )r v+−v <ε tidak
}
Perancangan Graphical User Interfaces (GUI)
Tabel 4.2 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak
Persentase
missing
Kluster = 2 Kluster = 3 Kluster = 4 Kluster = 5 Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 19.465,66 19.426,48 19.606,11 19.523,12 19.670,02 19.521,65 19.747,26 19.633,98 20% 19.112,96 19.154,71 19.215,70 19.017,53 19.093,26 18.907,50 19.307,92 19.156,66 30% 19.201,80 19.245,06 19.510,94 19.608,55 19.640,89 19.708,03 19.860,88 19.918,01 40% 18.552,92 18.551,65 18.936,57 19.060,72 19.306,38 19.537,92 19.388,57 19.531,14 50% 20.141,22 20.121,23 20.674,93 20.502,14 20.958,13 20.811,14 20.993,51 20.947,00 Rata-rata 19.294,91 19.299,83 19.588,85 19.542,41 19.733,74 19.697,25 19.859,62 19.837,36 Sumber : data simulasi (hasil pengolahan)
Tabel 4.3 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak.
Persentase
missing
K = 1 K = 2 K = 3 K = 4
Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 28.748,49 28.748,49 29.811,26 29.820,69 28.417,70 28.425,99 NaN NaN 20% 29.233,34 29.233,34 30.436,49 30.437,28 29.387,52 29.390,59 NaN NaN 30% 31.293,62 31.293,62 37.100,89 37.095,56 34.448,40 34.461,47 NaN NaN 40% 31.056,22 31.056,22 34.035,00 34.060,53 34.201,37 34.219,98 NaN NaN 50% 28.778,27 28.778,27 35.978,65 36.003,08 36.811,41 36.824,34 NaN NaN Rata-rata 29.821,99 29.821,99 33.472,46 33.483,43 32.653,28 32.664,47 NaN NaN Sumber : data simulasi (hasil pengolahan)
Tabel 4.8 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Besar dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak.
Persentase missing
Kluster = 2 Kluster = 3 Kluster = 4
Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 49.931.071,57 51.243.368,36 44.377.627,07 48.366.963,02 41.823.163,46 49.000.239,16 20% 45.828.962,04 51.796.767,88 60.058.244,18 57.831.000,97 44.646.293,29 95.743.880,98 30% 93.013.997,17 93.502.955,32 82.132.593,42 80.411.155,39 85.984.872,24 93.704.528,82 40% 74.558.483,99 75.783.302,20 94.804.820,64 96.866.933,42 120.270.534,66 120.410.863,75 50% 63.199.701,17 63.795.545,77 68.466.609,62 65.392.118,90 69.782.847,53 78.093.497,24 Rata-rata 65.306.443,19 67.224.387,91 69.967.978,99 69.773.634,34 72.501.542,24 87.390.601,99
Sumber : Data Perusahaan Industri Besar (hasil pengolahan)
Tabel 4.8 lanjutan
Persentase missing
Kluster = 5 Kluster = 6
Euclidean Manhattan Euclidean Manhattan
10% 40.448.553,89 45.817.857,25 43.059.642,86 46.271.565,12 20% 41.771.446,07 60.449.501,13 38.171.123,80 105.133.279,27 30% 87.203.390,91 98.962.220,20 96.365.329,61 95.350.321,96 40% 93.382.633,72 139.080.279,38 85.611.483,56 106.643.687,91 50% 89.127.402,09 107.191.545,29 93.424.730,01 108.262.392,71 Rata-rata 70.386.685,33 90.300.280,65 71.326.461,97 92.332.249,39
Tabel 4.9 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak.
Persentase missing
K = 1 K = 2 K = 3 K = 4
Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 33.820.877,66 29.169.413,48 44.553.899,03 35.132.197,81 44.883.391,32 41.348.606,91 NaN NaN 20% 50.414.057,69 50.402.712,36 42.778.766,78 42.698.353,41 45.737.757,25 46.073.421,21 NaN NaN 30% 89.972.884,30 89.972.884,30 87.841.768,38 87.776.402,51 90.528.924,51 90.298.468,16 NaN NaN 40% 86.407.518,66 86.407.518,66 68.946.445,32 67.024.169,10 69.422.933,24 67.435.408,44 NaN NaN 50% 44.137.411,60 44.102.667,65 44.020.421,76 42.055.044,00 42.416.004,96 42.609.115,36 NaN NaN Rata-rata 60.950.549,98 60.011.039,29 57.628.260,25 54.937.233,37 58.597.802,25 57.553.004,02 NaN NaN
Tabel 4.10 Nilai U Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak. Persentase
missing
Kluster = 2 Kluster = 3 Kluster = 4 Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 0,37090 0,37457 0,45508 0,35495 0,37222 0,41481 20% 0,19464 0,56103 0,48068 0,26599 0,28562 0,45524 30% 0,37329 0,20456 0,48493 0,48155 0,36669 0,28587 40% 0,54359 0,73445 0,37826 0,40049 0,38176 0,43974 50% 0,37670 0,55847 0,38370 0,58939 0,30978 0,28682 Rata-rata 0,37183 0,48661 0,43653 0,41847 0,34321 0,37650
Tabel 4.10 lanjutan Persentase
missing
Kluster = 5 Kluster = 6 Euclidean Manhattan Euclidean Manhattan 10% 0,24249 0,29903 0,20184 0,28516 20% 0,33481 0,29103 0,29276 0,30635 30% 0,29123 0,24613 0,30520 0,25135 40% 0,35269 0,34463 0,24006 0,28741 50% 0,23826 0,30985 0,26785 0,29874 Rata-rata 0,29189 0,29814 0,26154 0,28580
Tabel 4.11 Nilai Centroid Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak.
Persentase missing
Kluster = 2 Kluster = 3 Kluster = 4 Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 315.962.989,11 361.980.302,54 741.738.089,20 615.432.394,77 1.199.194.686,15 1.013.567.171,30 20% 198.796.652,67 570.313.816,51 866.803.185,79 740.559.781,63 977.874.563,14 1.297.481.799,43 30% 311.530.852,20 251.033.889,88 725.467.796,33 1.047.559.131,48 809.785.584,87 1.031.257.172,62 40% 434.139.659,38 652.580.051,86 795.874.834,27 1.275.544.344,23 1.567.220.905,25 1.438.858.878,92 50% 374.392.066,91 584.636.410,40 985.735.080,52 1.436.105.228,87 1.469.041.980,66 1.227.645.616,54 Rata-rata 326.964.444,05 484.108.894,24 823.123.797,22 1.023.040.176,20 1.204.623.544,02 1.201.762.127,76
Sumber : Data Perusahaan Industri Besar (hasil pengolahan)
Tabel 4.11 Lanjutan Persentase
missing
Kluster = 5 Kluster = 6 Euclidean Manhattan Euclidean Manhattan 10 1.164.299.546,36 1.313.182.555,01 747.623.932,08 1.126.983.043,71 20 1.084.470.380,86 1.308.798.868,00 1.478.361.053,32 1.590.169.582,78 30 1.206.688.239,91 1.555.276.834,73 1.756.650.108,30 1.559.151.766,93 40 1.390.866.526,18 1.550.809.656,72 1.413.945.699,50 1.482.492.562,39 50 1.404.179.135,63 1.699.220.254,05 1.666.696.320,25 1.448.915.399,96 Rata-rata 1.250.100.765,79 1.485.457.633,70 1.412.655.422,69 1.441.542.471,15
}
Metode FKMI selain untuk kluster dapat juga
diterapkan untuk menangani masalah missing
data.
}
Pada hasil pengolahan dengan menggunakan
data simulasi yang memiliki distribusi normal
ternyata metode FKMI menghasilkan nilai
rata-rata RMSE yang lebih kecil jika dibandingkan
dengan metode KNNI.
}
Secara keseluruhan nilai imputasi baik
menggunakan metode FKMI ataupun metode
KNNI menghasilkan nilai minimum maupun
maksimum yang sama dengan data simulasi asli.
} Sedangkan pada data Perusahaan Industri Besar hasil pengolahan menunjukan nilai rata-rata RMSE dengan menggunakan metode FKMI memiliki nilai yang lebih besar dibandingkan dengan metode KNNI, namun metode FKMI masih dapat lebih dikembangkan lebih lanjut mengingat parameter FKMI yang lebih variatif jika dibandingkan dengan metode KNNI.
} Fungsi jarak Euclidean secara rata-rata menghasilkan nilai error yang lebih kecil jika dibandingkan dengan fungsi jarak Manhattan baik itu nilai RMSE, Centroid Error maupun U Error. } Nilai minimum dan maksimum dari Data Perusahaan Industri
Besar hasil imputasi memiliki nilai yang sama baik menggunakan metode FKMI maupun metode KNNI.
}
Lebih mendalami pola ataupun mekanisme yang
menyebabkan missing data.
}
Mencoba pada data lain yang memiliki pola,
mekanisme, jumlah variabel maupun observasi yang
berbeda.
}
Menggunakan fungsi jarak selain Euclidean dan
Manhattan.
}
Membandingkan dengan metode imputasi yang lain.
}
Memperbaiki tampilan toolbox FKMI.
}