2/2/2011. Sejumlah penelitian untuk mengatasi missing data :

(1)

Surabaya, 19 Januari 2011

Tony Hartono

Mahasiswa Magister Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya e-mail : [email protected]

}

Permasalahan data hilang atau tidak lengkap

(missing data) biasa ditemui di berbagai

bidang

}

Missing data merupakan hal yang tidak

diinginkan oleh peneliti, karena dengan

adanya missing data tersebut maka data hasil

observasi tidak dapat dianalisis dengan baik.

Mekanisme misssing

data

(Little dan Rubin , 1987)

Missing Completely

at Random (MCAR) Missing at Random(MAR)

Missingness Is Non-Ignorable

Sejumlah penelitian untuk mengatasi missing data :

} Dempster, Laird dan Rubin (1976) menerapkan suatu pendekatan umum untuk perhitungan secara iterasi dari estimasi Maximum Likelihood ketika observasi diketahui berupa data tak lengkap. } Roth (1994) menggunakan Missing Data Techniques (MDTs) pada

kasus data tak lengkap.

} Gary, Honaker, Joseph dan Scheve (2000) mencoba menangani perbedaan subtansial antara cara pandang ilmuwan politik dan komunitas statistik, tentang analisis data yang mengandung

missing values.

} Grzymala dan Busse (2003) menunjukkan suatu teknik yang dapat digunakan pada incomplete data dengan menggunakan blok/kumpulan pasangan nilai suatu atribut

(2)

Metode dalam menangani misssing data

mengabaikan dan membuang missing data (Gary, Honaker, Joseph &

Scheve, 2000)

estimasi parameter (Dempster, Laird & Rubin,

1977)

Imputasi (Myrteveit, Stensrud &

Olsson, 2001)

}

Beberapa contoh metode imputasi yang

sering dipakai imputasi rata-rata (Mean

imputation), imputasi regresi, Cold & Hot

Deck imputation, Multiple Imputation (Little &

Rubin, 1987) dan sebagainya.

}

(Sarle, 1998) Metode Hot Deck kurang sesuai

jika dipakai untuk memprediksi karena nilai

prediksi akan tergantung pada faktor-faktor

yang tak nyata seperti pada urutan dalam

dataset atau pada angka pseudo-random.

}

Sedangkan metode Multiple Imputation,

Maximum Likelihood dan Bayesian sangat

sesuai untuk memprediksi namun pada

beberapa kasus, algoritma tersebut menjadi

lebih lama dalam proses perhitungannya

disaat suatu prediksi harus dihitung dengan

cepat secara real time

}

Proses kluster sering kali digunakan dalam Hot

Deck Imputation. Secara umum ada dua langkah

dalam dalam metode Hot Deck Imputation yaitu

pertama data dibagi kedalam beberapa kluster

berdasar metrik persamaan tertentu dan

masing-masing contoh yang mengandung missing data

terhubung dalam salah satu kluster, kedua

menghitung mean dari atribut dalam sebuah

kluster dan kasus yang lengkap dalam kluster

digunakan untuk mengisi missing values

(3)

(Jang, Sun & Mizutani, 1997) Algoritma kluster

dapat digunakan untuk mengetahui struktur dalam

data, dapat digunakan lebih lanjut dalam berbagai

aplikasi, dapat diterapkan ke dalam data yang

kuantitatif (numerik), kualitatif (kategorikal) atau

kombinasi dari keduanya.

(Zadeh, 1997) Salah satu algoritma kluster yang

dikenal adalah metode Fuzzy K-means, modelnya

merupakan derajat keanggotaan dimana objek

tersebut lebih dekat ke sebuah kluster. Hal tersebut

merupakan ide dasar dari soft computing, yang

lebih menerima kekurangakuratan (imprecision),

ketidakpastian (uncertainty) dan kebenaran parsial

(partial truth)

}

Salah satu kriteria yang digunakan dalam

kluster adalah ukuran kemiripan yang

dilakukan dengan menggunakan fungsi jarak.

Pada umumnya banyak penelitian yang

menggunakan fungsi jarak Euclidean, akan

tetapi seringkali fungsi ini tidak tepat saat

terjadi perbedaan skala/satuan pada data

(Sharma, 1996).

}

missing data juga dijumpai pada Survei

Tahunan Perusahaan Industri Besar Dan

Sedang yang merupakan salah satu survei

rutin yang dilakukan BPS

}

Permasalahan yang sering dijumpai pada

pelaksanaan survei tersebut adalah

perusahaan yang nonrespon baik itu

perusahaan lama ataupun perusahaan baru.

}

Data Survei Perusahaan Industri Besar Dan

Sedang Provinsi Jawa Timur Tahun 2008

tercatat ada 4.154 perusahaan yang terdiri

dari 3.427 perusahaan sedang dan 727

perusahaan besar atau sekitar 82,50%

perusahaan sedang dan 17,50% perusahaan

besar. Dan dari data 4.154 perusahaan besar

maupun sedang sebanyak 15% dari observasi

tersebut terdapat missing values.

(4)

} Belum adanya toolbox MATLAB Fuzzy K-Means yang khusus digunakan untuk menangani missing data

} Bagaimana melakukan imputasi missing data dengan

menggunakan algoritma Fuzzy K-Means pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008

} Bagaimana perbandingan hasil imputasi antara metode

Fuzzy K-Means imputation dengan metode imputasi lain

yaitu metode K-Nearest Neighbors Imputation.

} Bagaimana perbandingan hasil imputasi menggunakan dua

fungsi jarak pada metode Fuzzy K-means Imputation yaitu fungsi jarak Euclidean dan Manhattan

} Membuat toolbox MATLAB Fuzzy K-Means yang dapat

menangani permasalahan missing data dan bersifat user

friendly.

} Melakukan imputasi missing data dengan menggunakan

metode Fuzzy K-Means pada data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008.

} Membandingkan hasil imputasi antara metode Fuzzy

K-Means Clustering dengan metode K-Nearest Neighbors Imputation pada Data Perusahaan Industri Besar Provinsi

Jawa Timur Tahun 2008

} Membandingkan hasil imputasi menggunakan dua fungsi

jarak pada algoritma Fuzzy K-means imputation yaitu fungsi jarak Euclidean dan Manhattan

}

Penerapan algoritma Fuzzy K-means untuk

imputasi nilai yang hilang dengan dua fungsi

jarak yaitu Euclidean dan Manhattan

}

Missing data yang diperoleh adalah dengan

cara menghilangkan dengan acak beberapa

nilai/field pada Data Perusahaan Industri

Besar Provinsi Jawa Timur Tahun 2008

}

Laencina, Gomez, Vidal dan Verleysen, (2009)

melakukan kajian dari kinerja algoritma KNN

untuk melakukan imputasi missing values.

Metode ini memilih K observasi yang terdekat

dari serangkaian observasi dengan nilai yang

telah diketahui dalam atribut untuk dilakukan

imputasi sehingga akan meminimalisasi ukuran

jarak. Ketika nilai tetangga K terdekat ditemukan,

nilai pengganti yang disubstitusikan untuk

missing values harus diestimasikan. Nilai

pengganti dihitung bergantung pada tipe data,

metode ini dapat digunakan untuk data kualitatif

(5)

Hathaway dan Bezdek (2001) mencoba mengelompokkan/clustering pada sekumpulan objek _{O o}=

{

₁_{, ,}L_o_n

}

yang dipresentasikan dengan dataset objek numerik X=

{

x₁, ,Lx_n

}

⊂Rs kedalam c kluster, 1 c n< < . Data numerik tersebut menggambarkan objek-objek dengan nilai spesifik untuk s variabel.

Selanjutnya merupakan algoritma dari FKM adalah sebagai berikut: FKM-1. Tentukan m, c dan ε , dimana m>1, 1 c n< < dan ε>0. Pilih v(0)⊂Rs,

sebuah Anorm untuk J , dan sebuah termination norm m untuk

FKM. Kemudian saat langkah ke-r, r=0,1,2,K

1 k n≤ ≤ maka :

(

1/(1 )

)

( 1) 1/(1 ) 1 m ik r ik c m ik j D U D − + − = =     

∑

 (2.7) dimana 2 ( )r ik k i A D =x v− (2.8)

FKM-3. Hitung ( 1)r _{arg min}

{

(

( 1)r _,

)

}

m v

v + ₌ J U + v _{dengan menggunakan}_{1 i c}_{≤ ≤} _dan

1 j s≤ ≤ maka :

(

)

(

)

( 1) 1 ( 1) ( 1) 1 n _r m kj ik k r ij n _m r ik k x U v U + = + + =       =      

∑

FKM-4. Bandingkan _v(R+1)

terhadap _v( )R_menggunakan_v(R+1)₋_v( )R _<_ε_{. Jika} benar maka berhenti. Jika tidak, tetapkan r r= +1 dan kembali ke FKM-2.

Fungsi Jarak

Jarak antara centroid vi dan objek xk dalam Fuzzy K-Means dinotasikan

dengan D v x( ,i k). Pemilihan jarak merupakan salah satu alternatif penerapan

Fuzzy K-means, contohnya jarak Generelized Lp norm yang digunakan untuk

mengukur jarak antara sebuah centroid dan objek data dalam kluster, seperti dalam persamaan berikut :

1/ 1 ( , ) ( |S |)p i k kj ij j D v x x v = =

_∑

− (2.10) L L

Root Mean Squared Error (RMSE)

Root Mean Squared Error (RMSE) seringkali digunakan untuk

membandingkan nilai prediksi dengan nilai aktual/sesungguhnya dari suatu uji. Metrik analisis error RMSE didefinisikan sebagai berikut :

2 1| | n i i i F f RMSE = _n − =

∑

(2.12) dimana n adalah jumlah total dari nilai uji, F adalah nilai data estimasi, dan _i f i

(6)

}

Survei Tahunan Industri Besar dan Sedang

Provinsi Jawa Timur Tahun 2008

}

informasi yang terdapat didalamnya meliputi

jumlah tenaga kerja (orang), pemakaian listrik

dari PLN (KWH), nilai pemakaian listrik (ribu

rupiah), pemakaian listrik sendiri (KWH),

listrik yang dijual (KWH). nilai bahan bakar

yang digunakan (ribu rupiah), total nilai

bahan baku (ribu rupiah) dan total nilai

produksi yang dihasilkan (ribu rupiah).

}

x

₁

= Jumlah tenaga kerja (orang);

}

x

₂

= Nilai bahan bakar (ribu rupiah);

}

x

₃

= Total nilai bahan baku (ribu rupiah) dan

}

x

₄

= Total nilai produksi (ribu rupiah).

Start Data yang mengandung

Missing values Tentukan m, c dan ε Hitung objek lengkap & pilih sebagai

centroid pertama ( ) { } (r1)argmin ( 1)r , m v v+= K U+v

Hitung fungsi keanggotaan ( ) { } ( 1)argmin ,( ) fc n r r m U M U+ K U v ∈ = Bandingkan centroid (r+1) dengan centroid (r) (r1) ( )r v+−v <ε tidak

(7)

}

Perancangan Graphical User Interfaces (GUI)

Tabel 4.2 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak

Persentase

missing

Kluster = 2 Kluster = 3 Kluster = 4 Kluster = 5 Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 19.465,66 19.426,48 19.606,11 19.523,12 19.670,02 19.521,65 19.747,26 19.633,98 20% 19.112,96 19.154,71 19.215,70 19.017,53 19.093,26 18.907,50 19.307,92 19.156,66 30% 19.201,80 19.245,06 19.510,94 19.608,55 19.640,89 19.708,03 19.860,88 19.918,01 40% 18.552,92 18.551,65 18.936,57 19.060,72 19.306,38 19.537,92 19.388,57 19.531,14 50% 20.141,22 20.121,23 20.674,93 20.502,14 20.958,13 20.811,14 20.993,51 20.947,00 Rata-rata 19.294,91 19.299,83 19.588,85 19.542,41 19.733,74 19.697,25 19.859,62 19.837,36 Sumber : data simulasi (hasil pengolahan)

Tabel 4.3 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak.

Persentase

missing

K = 1 K = 2 K = 3 K = 4

Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 28.748,49 28.748,49 29.811,26 29.820,69 28.417,70 28.425,99 NaN NaN 20% 29.233,34 29.233,34 30.436,49 30.437,28 29.387,52 29.390,59 NaN NaN 30% 31.293,62 31.293,62 37.100,89 37.095,56 34.448,40 34.461,47 NaN NaN 40% 31.056,22 31.056,22 34.035,00 34.060,53 34.201,37 34.219,98 NaN NaN 50% 28.778,27 28.778,27 35.978,65 36.003,08 36.811,41 36.824,34 NaN NaN Rata-rata 29.821,99 29.821,99 33.472,46 33.483,43 32.653,28 32.664,47 NaN NaN Sumber : data simulasi (hasil pengolahan)

(8)

Tabel 4.8 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Besar dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak.

Persentase missing

Kluster = 2 Kluster = 3 Kluster = 4

Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 49.931.071,57 51.243.368,36 44.377.627,07 48.366.963,02 41.823.163,46 49.000.239,16 20% 45.828.962,04 51.796.767,88 60.058.244,18 57.831.000,97 44.646.293,29 95.743.880,98 30% 93.013.997,17 93.502.955,32 82.132.593,42 80.411.155,39 85.984.872,24 93.704.528,82 40% 74.558.483,99 75.783.302,20 94.804.820,64 96.866.933,42 120.270.534,66 120.410.863,75 50% 63.199.701,17 63.795.545,77 68.466.609,62 65.392.118,90 69.782.847,53 78.093.497,24 Rata-rata 65.306.443,19 67.224.387,91 69.967.978,99 69.773.634,34 72.501.542,24 87.390.601,99

Sumber : Data Perusahaan Industri Besar (hasil pengolahan)

Tabel 4.8 lanjutan

Kluster = 5 Kluster = 6

Euclidean Manhattan Euclidean Manhattan

10% 40.448.553,89 45.817.857,25 43.059.642,86 46.271.565,12 20% 41.771.446,07 60.449.501,13 38.171.123,80 105.133.279,27 30% 87.203.390,91 98.962.220,20 96.365.329,61 95.350.321,96 40% 93.382.633,72 139.080.279,38 85.611.483,56 106.643.687,91 50% 89.127.402,09 107.191.545,29 93.424.730,01 108.262.392,71 Rata-rata 70.386.685,33 90.300.280,65 71.326.461,97 92.332.249,39

Tabel 4.9 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak.

K = 1 K = 2 K = 3 K = 4

Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 33.820.877,66 29.169.413,48 44.553.899,03 35.132.197,81 44.883.391,32 41.348.606,91 NaN NaN 20% 50.414.057,69 50.402.712,36 42.778.766,78 42.698.353,41 45.737.757,25 46.073.421,21 NaN NaN 30% 89.972.884,30 89.972.884,30 87.841.768,38 87.776.402,51 90.528.924,51 90.298.468,16 NaN NaN 40% 86.407.518,66 86.407.518,66 68.946.445,32 67.024.169,10 69.422.933,24 67.435.408,44 NaN NaN 50% 44.137.411,60 44.102.667,65 44.020.421,76 42.055.044,00 42.416.004,96 42.609.115,36 NaN NaN Rata-rata 60.950.549,98 60.011.039,29 57.628.260,25 54.937.233,37 58.597.802,25 57.553.004,02 NaN NaN

Tabel 4.10 Nilai U Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak. Persentase

missing

Kluster = 2 Kluster = 3 Kluster = 4 Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 0,37090 0,37457 0,45508 0,35495 0,37222 0,41481 20% 0,19464 0,56103 0,48068 0,26599 0,28562 0,45524 30% 0,37329 0,20456 0,48493 0,48155 0,36669 0,28587 40% 0,54359 0,73445 0,37826 0,40049 0,38176 0,43974 50% 0,37670 0,55847 0,38370 0,58939 0,30978 0,28682 Rata-rata 0,37183 0,48661 0,43653 0,41847 0,34321 0,37650

(9)

Tabel 4.10 lanjutan Persentase

missing

Kluster = 5 Kluster = 6 Euclidean Manhattan Euclidean Manhattan 10% 0,24249 0,29903 0,20184 0,28516 20% 0,33481 0,29103 0,29276 0,30635 30% 0,29123 0,24613 0,30520 0,25135 40% 0,35269 0,34463 0,24006 0,28741 50% 0,23826 0,30985 0,26785 0,29874 Rata-rata 0,29189 0,29814 0,26154 0,28580

Tabel 4.11 Nilai Centroid Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak.

Kluster = 2 Kluster = 3 Kluster = 4 Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 315.962.989,11 361.980.302,54 741.738.089,20 615.432.394,77 1.199.194.686,15 1.013.567.171,30 20% 198.796.652,67 570.313.816,51 866.803.185,79 740.559.781,63 977.874.563,14 1.297.481.799,43 30% 311.530.852,20 251.033.889,88 725.467.796,33 1.047.559.131,48 809.785.584,87 1.031.257.172,62 40% 434.139.659,38 652.580.051,86 795.874.834,27 1.275.544.344,23 1.567.220.905,25 1.438.858.878,92 50% 374.392.066,91 584.636.410,40 985.735.080,52 1.436.105.228,87 1.469.041.980,66 1.227.645.616,54 Rata-rata 326.964.444,05 484.108.894,24 823.123.797,22 1.023.040.176,20 1.204.623.544,02 1.201.762.127,76

Sumber : Data Perusahaan Industri Besar (hasil pengolahan)

Tabel 4.11 Lanjutan Persentase

missing

Kluster = 5 Kluster = 6 Euclidean Manhattan Euclidean Manhattan 10 1.164.299.546,36 1.313.182.555,01 747.623.932,08 1.126.983.043,71 20 1.084.470.380,86 1.308.798.868,00 1.478.361.053,32 1.590.169.582,78 30 1.206.688.239,91 1.555.276.834,73 1.756.650.108,30 1.559.151.766,93 40 1.390.866.526,18 1.550.809.656,72 1.413.945.699,50 1.482.492.562,39 50 1.404.179.135,63 1.699.220.254,05 1.666.696.320,25 1.448.915.399,96 Rata-rata 1.250.100.765,79 1.485.457.633,70 1.412.655.422,69 1.441.542.471,15

}

Metode FKMI selain untuk kluster dapat juga

diterapkan untuk menangani masalah missing

data.

}

Pada hasil pengolahan dengan menggunakan

data simulasi yang memiliki distribusi normal

ternyata metode FKMI menghasilkan nilai

rata-rata RMSE yang lebih kecil jika dibandingkan

dengan metode KNNI.

}

Secara keseluruhan nilai imputasi baik

menggunakan metode FKMI ataupun metode

KNNI menghasilkan nilai minimum maupun

maksimum yang sama dengan data simulasi asli.

(10)

} Sedangkan pada data Perusahaan Industri Besar hasil pengolahan menunjukan nilai rata-rata RMSE dengan menggunakan metode FKMI memiliki nilai yang lebih besar dibandingkan dengan metode KNNI, namun metode FKMI masih dapat lebih dikembangkan lebih lanjut mengingat parameter FKMI yang lebih variatif jika dibandingkan dengan metode KNNI.

} Fungsi jarak Euclidean secara rata-rata menghasilkan nilai error yang lebih kecil jika dibandingkan dengan fungsi jarak Manhattan baik itu nilai RMSE, Centroid Error maupun U Error. } Nilai minimum dan maksimum dari Data Perusahaan Industri

Besar hasil imputasi memiliki nilai yang sama baik menggunakan metode FKMI maupun metode KNNI.