BAB 4
HASIL DAN PEMBAHASAN
4.1 PenaksirRobustMCD
Metode MCD mencari himpunan bagian dari himpunan Xsejumlah h
elemen di mana
n p 1 2
h n di mana determinan matrik kovariansi minimum. Misalkan himpunan bagian itu adalah Xh. Terdapat nChkombinasi himpunan bagian yang harus dicari untuk mendapatkan penaksir MCD. Sebagai ilustrasi Tabel 4.1 berikut menyajikan jumlah himpunan bagian yang harus ditemukan (kolom ketiga) berdasarkan jumlah pengamatann(kolom pertama) dan jumlah variabelptertentu (kolom kedua).Tabel 4.1 Jumlah Himpunan Minimal untuk Menghitung Penaksir MCD
Jumlah Pengamatan (n) Jumlah Variabel
(p) Jumlah Kombinasi nCh 20 2 167960 7 38760 50 2 1,2155x1014 10 4,7129x1013 100 2 9,8913x1028 20 1,3746x1028
Sumber: Hasil Perhitungan
Tampak pada Tabel 4.1 jumlah himpunan bagian yang harus ditemukan untuk sejumlahndanptertentu sangat besar meskipun untuk jumlahn= 20 danp = 2. Untuk meningkatkan kecepatan pencarian penaksir MCD, dapat digunakan Teorema C-Steps dari algoritma FAST-MCD. Untuk memperjelas teorema C-Steps, berikut disajikan sebuah contoh.
Contoh 4.1 Diberikan himpunan data 1 4 4 3 2 3 4 3 1 3 .
4 4 4 4 4 3 5 5 2 3 T X
Temukan MCD dari himpunan dataX!
Pertama, himpunan awal X1hditentukan dengan jumlah elemen him-punan bagian h
n p 1 2
10 2 1 2
6.Misalkan pengamatan urutan ke-1, 4, 5, 8, 9, dan 10 merupakan elemenX1h.Elemen-elemen himpunan X1hadalah1 1 3 2 3 1 3 4 4 4 5 2 3 T h X .
Berdasarkan definisi
t C1, 1 , diperoleh
1 1 2,17 0, 97 0, 47 , , 3, 67 0, 47 1, 06 t C , det
C1 0,81, dan 11 1, 31 0,57 0, 57 1,19 C .Jarak mahalanobis untuk setiap pengamatan terhadap rata-ratat1dan kovariansi
C1dinyatakan dengan d1
1,54;1,96;1,96; 0,85; 0, 48;1, 44;1, 93;1, 32;1, 69;1.44 .
Enam pengamatan yang menghasilkan jarak terkecil adalah pengamatan ke-5, 4, 8, 6, 10, dan 1. Keenam pengamatan ini menjadi elemen himpunan X2hyaitu2 1 3 2 3 3 3 4 4 4 3 5 3 T h X . Selanjutnya dihitung:
2 2
2,50 0, 70 0,10 , , ; 3,83 0,10 0,57 t C det
C2 0,39; 21 1, 46 0, 26 , 0, 26 1,81 Cdan d2
1, 79;1,86;1,86; 0, 68; 0, 61;1,19; 2, 58;1, 77;3, 29;1,19 .
Tampak bahwadet(C2) < det(C1) tetapi belum konvergen. Oleh karena itu, enam pengamatan yang menghasilkan jarak terkecil yaitu pengamatan ke-5, 4, 6, 10, 8, dan 1 dicari kembali. Keenam pengamatan ini menjadi elemen himpunan X3h.Sehingga
diperoleh 3 1 3 2 3 3 3 4 4 4 3 5 3 T h X .
Sampai dengan tahap ini telah diperoleh himpunan bagian yang konvergen.
C-Steps telah mempersingkat pencarian 10C6 210himpunan bagian menjadi cukup
Akan tetapi, dengan hanya satu himpunan bagian permulaan tidak cukup. Sebab, ada kemungkinan ditemukan himpunan bagian lain dengan determinan kovariansi yang lebih kecil. Untuk itu, digunakan beberapa himpunan bagian awal untuk memulai iterasi pencarian determinan kovariansi terkecil. Setelah ditemukan konvergensi determinan terkecil dari masing-masing himpunan bagian awal tersebut, dipilih himpunan bagian yang menghasilkan determinan kovariansi terkecil. Untuk lebih jelasnya, pada Contoh 4.1 digunakan himpunan awal lainnya dengan menggunakan pengamatan ke-2, 3, 4, 7, 8, dan 10. Selain itu juga digunakan himpunan awal dengan menggunakan pengamatan ke-2, 3, 4, 6, 7, dan 10. Perbandingan konvergensi determinan kovariansi ketiga himpunan awal disajikan pada Tabel 4.2.
Tabel 4.2 Perbandingan Konvergensi Determinan Kovariansi
No Urutan Pengamatan Awal Determinan Kovariansi Determinan Kovariansi Terkecil Urutan Pengamatan Akhir 1 1, 4, 5, 8, 9, 10 0,81 0,39 1, 4, 5, 8, 6, 10 2 2, 3, 4, 7, 8, 10 0,16 0,16 2, 3, 4, 6, 7, 8 3 2, 3, 4, 6, 7, 10 0,08 0,08 2, 3, 4, 6, 7, 10 Sumber: Hasil Perhitungan
Tabel 4.2 menampilkan proses pencarian himpunan bagian yang menghasilkan determinan kovariansi terkecil. Kolom kedua menyatakan himpunan bagian yang pertama kali digunakan. Determinan kovariansi dari himpunan awal ini pada kolom ketiga. Setelah determinan kovariansi terkecil mencapai konvergen, enam pengamatan yang menghasilkan determinan kovariansi terkecil disajikan pada kolom terakhir. Tampak pada Tabel 4.2, himpunan bagian yang menghasilkan determinan kovariansii terkecil adalah untuk pengamatan ke- 2, 3, 4, 6, 7, dan 10 dengan determinan kovariansi sebesar 0.08. Rata-rata dan kovariansi dari keenam pengamatan tersebut merupakan penaksir MCD yaitu:
,
3,50 , 0,30 0,30 . 3,83 0,30 0,57 MCD MCD t SBerdasarkan taksiran rata-rata dan kovariansi dengan metode MCD dapat dihitung jarakrobust(robust distance) :
6,89;1,12;1,12;1,58; 4, 23;1,12;1,58;3,35; 4, 74;1,12 .
id
Visualisasi dari jarak robust dapat diamati pada Gambar 4.1. Garis batas menunjukkan 2
0.975,p
= 2.716 sebagai batas pendefinisian outlier. Titik-titik yang berada di atas garis menunjukkan outlier. Tampak jelas bahwa titik 1, 5, 8 dan 9 berada di atas garis yang berarti titik-titik ini berada relatif jauh dari sebagian besar kelompok pengamatan.
Gambar 4.1 Plot Sebaran Data Berdasarkan JarakRobust.
Berikut ini disampaikan breakdown point untuk Contoh 4.1 di atas.
Breakdown pointuntukh = 6, n= 10, p = 2 adalah
n p 1 2
5. Tabel 4.3 di bawah menyajikan taksiran MCD untuk rata-rata dan kovariansi
tMCD,SMCD
pada beberapa persentase outlier. Indeks pada X menunjukkan jumlah pengamatan ekstrim yang menggantikan data X0. Sebagai contoh elemen himpunan X1diperoleh dari himpunan X0dengan menggantikan satu pengamatan sembarang,
Taksiran
tMCD,SMCD
yang dihasilkan melalui penggantian beberapa nilai pengamatan dengan nilai yang berbeda dapat dilihat pada Tabel 4.3 kolom ketiga. Sampai dengan baris kelima,
tMCD,SMCD
tidak menunjukkan perbedaan yangberarti. Perubahan
tMCD,SMCD
mulai berbeda signifikan pada baris keenam. Penggantian lima pengamatan dengan nilai ekstrim pada himpunan X0menghasilkan taksiran
tMCD,SMCD
yang berbeda signifikan.Tabel 4.3 Taksiran Rata-rata dan Kovariansi MCD untuk Beberapa Persentase
Outlier. No Data
tMCD,SMCD
1 0 1 4 4 3 2 3 4 3 1 3 4 4 4 4 4 3 5 5 2 3 X 3,50 , 0,30 0,30 3,83 0,30 0,57 2 1 1 4 4 3 2 3 4 3 10 3 4 4 4 4 4 3 5 5 20 3 X 3,50 , 0,30 0,30 3,83 0,30 0,57 3 2 1 4 4 3 2 3 40 3 10 3 4 4 4 4 4 3 50 5 20 3 X 3,14 , 0, 48 0, 02 3,86 0, 30 0, 48 4 3 1 4 4 3 2 30 40 3 10 3 4 4 4 4 4 30 50 5 20 3 X 2,86 , 1,14 0, 00 4, 00 0, 00 0, 33 5 4 1 4 40 3 2 30 40 3 10 3 4 4 40 4 4 30 50 5 20 3 X 2, 67 , 1, 07 0, 00 4, 00 0, 00 0, 40 6 5 10 4 40 3 2 30 40 3 10 3 40 4 40 4 4 30 50 5 20 3 X 4,17 , 8,57 18, 67 6, 67 18, 67 43, 07 Sumber: Hasil Perhitungan
4.2 PenaksirRobustMWCD
Pada bagian ini dibahas penaksir robust MWCD. Untuk lebih jelasnya berikut disampaikan contoh penaksiran rata-rata dan kovariansi dengan MWCD menggunakan data yang sama seperti Contoh 4.1. Himpunan awal dibutuhkan sebagai langkah awal pencarian taksiran rata-rata dan kovariansi MWCD hingga dicapai taraf konvergen. Untuk itu, digunakan pengamatan 1, 4, 5, 8, 9, dan 10;
pengamatan 2, 3, 4, 7, 8, dan 10.; dan pengamatan 2, 3, 4, 6, 7, dan 10. Langkah rinci perhitungan hanya akan diberlakukan pada pengamatan 1, 4, 5, 8, 9, dan 10.
a. 1 1 3 2 3 1 3 4 4 4 5 2 3 T h
X diperoleh dari matrik data X dengan
mengambil h
n p 1 2
10 2 1 2
6 pengamatan sebagaimana jumlah minimal pengamatan dalam MCD dengan n = 10 dan p = 2. Selanjutnya dihitung:
1, 1 2,16 , 4,83 2, 33 . 3, 67 2,33 5,33 t Cb. Dihitung ˆ1
det 1
1 1
20, 33
1 2 4,83 2,33 1, 07 0, 52 . 2,33 5,33 0, 52 1,18 p Σ C Cc. Dihitung rata-rata dan kovariansi dari data pada huruf a,
1 1 2,16 1, 07 0,52 ˆ ˆ, , . 3, 67 0,52 1,18 μ Σd. Dihitung jarak setiap pengamatan terhadap rata-rata dengan persamaan
2 1 1 ˆ1 ˆ1 ˆ1 T i i d i x μ Σ x μ
2 1 2,13;3,46;3,46;0,65;0,21;1,87;3,35;1,58;2,57;1,87 d i e. Diurutkan jarak dari kecil ke besar.
1 6, 9, 10, 2, 1, 4, 8, 3, 7, 5
R
f. Dihitung pembobotan untuk masing-masing pengamatan dengan persamaan
1 1 Norminv 1- , 2 1 i R a i n
1 0,60;0,23; 0,11;1,34;1,69;0,91;0,35;1,10;0,47;0,75 . a i g. Pembobotan diulang dengan mengambil a i1
0,50 karena h yangditetapkan optimal.
1 0,60;0; 0;1,34;1,69;0,91;0;1,10;0;0,75 .
a i
h. Hitung fungsi objektif 1
1 1
1 12
1 1 1 ˆ ˆ ˆ, ˆ, n n i i i D a R d
μ Σ μ Σ = 7,35.i. Selanjutnya rata-rata baru dihitung dengan persamaan
1 1 2 1 1 2, 54 3,91 n n i i i n n i i a R a R
x t dan
1 2 2 1 2 1 1 ˆ ˆ 2, 79 0, 25 . 0, 25 2, 70 n T n i i i i n n i i a R R R a R
x μ x μ C j. Dihitung
1
1 2 2 2 2 2, 79 0, 25 1, 02 0, 09 ˆ det 7, 48 . 0, 25 2, 70 0, 09 0, 99 p Σ C Ck. Rata-rata dan kovariansi dihitung pada tahap kedua ini:
2 2 2,54 1, 02 0, 09 ˆ ˆ, , . 3,91 0, 09 0,99 μ Σd. Jarak setiap pengamatan terhadap rata-rata dihitung dengan persamaan
2 1 2 ˆ2 ˆ2 ˆ2 T i i d i x μ Σ x μ
2 2 2,34;2,12;2,12;0,22;0,29;0,98;3,59;1,50;6,64;0,98 d i e. Jarak yang dihasilkan diurutkan dari kecil ke besar.
2 8, 6, 7, 1, 2, 3, 9, 5, 10, 4
R
f. Pembobotan dihitung untuk masing-masing pengamatan dengan persamaan
2 2 Norminv 1-2 1 i R a i n
2 0,35;0,60;0,47;1,69;1,34;1,10;0,23;0,75;0,11;0,91 a i g. Pembobotan diulang dengan mengambil a i1
0,50,
2 0,00;1,28;0,00;0,37;0,39;1,07;0,00;1,12;0,00;0,89
a i
h. Hitung fungsi objektif 2
2 2
2 22
2 2 1 ˆ ˆ ˆ, ˆ, 5,12. n n i i i D a R d
μ Σ μ ΣTampak bahwa D2
μ Σˆ2,ˆ2 D1 μ Σˆ1,ˆ1 . Karena nilai fungsi objektif belum konvergen maka proses dilajutkan. Pada langkah selanjutnya diperoleh
3 3 2,88 0,86 0, 07 ˆ ˆ, , 3,80 0, 07 1,16 μ Σ dan D3
μ Σˆ3,ˆ3 4,15.Keseluruhan langkah pencarian penaksir rata-rata dan kovariansi dengan MWCD disarikan pada Tabel 4.4 berikut ini.
Tabel 4.4 Fungsi Objektif Penaksir MWCD dari Enam Iterasi
Tahap Penaksir
μ Σˆi,ˆi FungsiObjektif 1 2,16 , 1, 07 0, 52 3, 67 0,52 1,18 7,35 2 2,54 , 1, 02 0, 09 3,91 0, 09 0, 99 5,12 3 2,88 , 0,86 0, 07 3,80 0, 07 1,16 4,15 4 2,95 , 0, 75 0, 04 3, 73 0, 04 1, 35 4,03 5 2,98 , 0, 67 0, 02 3, 76 0, 02 1, 48 4,01 6 2,98 , 0, 67 0, 02 3, 76 0, 02 1, 48 4,01
Sumber: Hasil Perhitungan.
Dengan demikian penaksir rata-rata dan kovariansi yang diperoleh dengan menyertakan pengamatan ke-1, 4, 5, 8, 9, dan 10 sebagai himpunan awalnya adalah
ˆ
2.98 0.67 0.02 ˆ , , 3.76 0.02 1.48 opt opt μ Σ .Sampai dengan langkah ini belum menjamin taksiran yang dihasilkan memberikan nilai fungsi objektif minimum. Perlu dilakukan pencarian taksiran lainnya dengan menggunkan pengamatan awal yang berbeda.
Sebagaimana telah dikemukakan sebelumnya, pengamatan awal lainnya yang dicoba adalah pengamatan ke-2, 3, 4, 7, 8, dan 10 dan pengamatan ke-2, 3, 4, 6, 7, dan 10. Dengan mengikuti proses pencarian taksira MWCD sebelumnya diperoleh hasil konvergensi untuk masing-masing himpunan pengamatan awal sebagaimana tertera pada Tabel 4.5 di bawah ini.
Tampak pada Tabel 4.5 taksiran rata-rata dan kovariansi dengan MWCD diperoleh dengan mengambil himpunan awal yang memuat pengamatan 2, 3, 4, 6, 7, dan 10. Pada tahap awal, rata-rata dan kovariansi yang dihasilkan adalah
1 1 3,50 1, 06 1, 06 ˆ ˆ, , 3,83 1, 06 2, 00 μ Σ ,dengan fungsi jarak
2 1 13,44;0,35;0,35;0,71;5,07;0,35;0,71;3,18;6,36;0,35 , d i dan fungsi pembobot
1 0,00;1,10;0,91;0,75;0,00;1,69;0,60;0,00;0,00;1,34 a i serta nilai fungsi objektif 2,74. Pada tahap konvergen, taksiran rata-rata dan kovariansi yang dihasilkan adalah
ˆ
3, 40 1, 20 1, 24 ˆ , , 3, 62 1, 24 2,12 MWCD MWCD μ Σ , denganfungsi jarak dopt2
i 14,73;0,35;0,35;0,91:5,70;0,19;1,00;4,05;5,73;0,19
, fungsi pembobot
0,00;1,10;0,91;0,75;0,00;1,69;0,60;0,00;0,00;1,34
opta i dan nilai fungsi
objektifnya 2,56. Pengamatan 1, 5, 8, dan 9 diberi bobot nol. Keempat pengamatan ini memberikan jarak terhadap rata-rata yang besar sehingga memberikan bobot yang lebih kecil daripada 0.50.
Tabel 4.5. Perbandingan Nilai Fungsi Objektif Penaksir MWCD. No Urutan Pengamatan Awal Nilai Objektif Awal Konvergensi Nilai Fungsi Objektif Urutan Pengamatan Akhir 1 1, 4, 5, 8, 9, dan 10 7,35 4,01 2, 4, 5, 6, 8, dan 10 2 2, 3, 4, 7, 8, dan 10 3,65 3,58 2, 3, 4, 6, 7, dan 8 3 2, 3, 4, 6, 7, dan 10 2,74 2,56 2, 3, 4, 6, 7, dan 10 Sumber: Hasil Perhitungan.
Baik taksiran MCD maupun MWCD menghasilkan pengamatan 2, 3, 4, 6, 7, dan 10 sebagai pengamatan yang memberikan determinan kovariansi terkecil dan nilai fungsi objektif MWCD terkecil. Hal ini disebabkan karena MWCD sesungguhnya perluasan dari MCD yang membrikan bobot yang didasarkan pada urutan jarak terhadap rata-rata. Dalam thesis ini fungsi pembobot jarak MWCD yang digunakan adalah berupa fungsi menurun (non-increasing). Fungsi pembobot menurun memberikan bobot yang lebih besar pada jarak yang lebih dekat dengan rata-ratanya dan memebrikan bobot terkecil pada jarak yang paling jauh dari rata-rata data. Dengan fungsi ini taksiran MWCD menjadi serupa dengan taksiran MCD.
4.3 Analisis Diskriminan Kuadratik
4.3.1 Simulasi Data
Perbandingan kinerja penaksir robust MCD dan MWCD dalam analisis dsikriminan kuadratik melalui simulasi data dimaksudkan untuk mencari penaksir mana yang menghasilkan rata-rata proporsi salah pengelompokkan terkecil. Untuk maksud tersebut dibangkitkan berbagai variasi simulasi data sebagaimana telah dijelaskan pada BAB 3 Metodologi Sub Bab 3.1.1. Hasil keseluruhan simulasi data dapat diamati pada Lampiran 1.A sampai dengan Lampiran.L. Kedua belas gambar pada Lampiran 1.A-L menunjukkan perbandingan kinerja tiga penaksir yaitu klasik (garis merah dengan simbol segitiga), MCD (garis terputus biru
Sumbu absis menunjukkan persentase outlier dan sumbu ordinat menunjukkan rata-rata proporsi salah pengelompokkan dari fungsi diskriminan kuadratik. Semakin rendah posisi garis semakin kecil rata-rata proporsi salah pengelompokkan yang berarti semakin baik kinerja suatu penaksir dalam analisis diskriminan kuadratik. Untuk lebih jelasnya, berikut dibahas perbandingan kinerja ketiga penaksir dalam diskriminan kuadratik pada data terkontaminasishift outlier.
(a) (b)
(a) (b)
Gambar 4.2 Perbandingan Kinerja Penaksir Klasik, MCD, dan MWCD dalam Analisis Diskriminan Kuadratik pada Data Terkontaminasi Shift Outlier vQp 5 (a) dan vQp 10 (b) dan n1 = n2 = 100 (atas)
dann1=n2= 1000 (bawah) .
Gambar 4.2 di atas menggambarkan kondisi data terkontaminasi shift
outlier pada sampel kecil dan sampel besar serta jumlah pengamatan pada kedua
kelompok sama. Tampak bahwa terdapat kesamaan pola perubahan kenerja fungsi diskriminan yang dihasilkan. Kinerja penaksir klasik dan MWCD dalam
bertambah pula rata-rata proporsi salah pengelompokan. Berbeda dengan penaksir MCD, penambahan persentase outlier sampai dengan 25 persen tidak mempengaruhi rata-rata proporsi salah pengelompokkan. Rata-rata proporsi salah pengelompokkan dari penaksir MCD di bawah 10 persen sama seperti kondisi data tanpaoutlierbahkan lebih kecil.
(a) (b)
(a) (b)
Gambar 4.3 Perbandingan Kinerja Penaksir Klasik, MCD, dan MWCD dalam Analisis Diskriminan Kuadratik pada Data Terkontaminasi Shift
Outlier vQp 5 (a) dan vQp 10 (b) dan n1 = 150, n2 = 50
(atas) dann1= 1500,n2= 500 (bawah) .
Sementara itu, dibandingkan ketika jumlah pengamatan pada kedua kelompok sama, Gambar 4.3 menunjukkan kinerja ketiga penaksir dalam diskriminan kuadratik menunjukkan pola yang berbeda. Gambar 4.3
pada kedua kelompok berbeda. Dalam penelitian ini diamati perbandingan jumlah pengamatan kelompok satu dan dua sebesar 3:1. Pada kondisi ini tampak fungsi diskriminan kuadratik dengan penaksir MWCD sangat tidak robust. Di sisi lain, fungsi diskriminan kuadratik dengan penaksir MCD sangatrobustpada persentase
outlier kurang dari 25 persen. Bahkan pada persentase 50 persen sekalipun, rata-rata proporsi salah pengelompokkan dari fungsi diskriminan kuadratik yang dihasilkan masih di bawah 15 persen.
Pada kasus data terkontaminasi shift outlier ini, tidak satupun simulasi data yang menunjukkan kinerja penaksir MWCD lebih baik daripada metode klasik. Rata-rata proporsi salah pengelompokkan dari fungsi diskriminan kuadratik dengan penaksir MWCD cenderung lebih besar daripada penaksir klasik. Berbeda dengan penaksir MWCD, penaksir MCD senantiasa menghasilkan fungsi diskriminan kuadratik yang meminimumkan rata-rata proporsi salah pengelompokkan khususnya pada data terkontaminasi shift outlierkurang dari 25 persen.
Lampiran 1.E sampai dengan Lampiran 1.H menggambarkan data terkontaminasi scale outlier dengan faktor pengali K = 9 (atas) dan K = 100 (bawah). Pada faktor pengali K = 9, kinerja penaksir robust MCD dalam fungsi diskriminan kuadratik terbaik dibanding kinerja dua penaksir lainnya. Rata-rata proporsi salah pengelompokkan dari fungsi diskriminan kuadratik yang dihasilkan dengan menggunkan penaksir robust MCD selalu lebih rendah. Sementara itu, kinerja penaksir robust MWCD lebih baik daripada penaksir klasik pada data terkontaminasi scale outlier dengan jumlah sampel pada kedua kelompok sama dengan 1000. Pada data dengan jumlah sampel kecil kinerja penaksir MWCD sama dengan penaksir klasik bahkan lebih buruk. Rata-rata proporsi salah pengelompokkan yang dihasilkan fungsi diskriminan kuadratik dengan penaksir MWCD hampir sama dengan penaksir klasik. Begitu juga pada data dengan sampel besar tetapi jumlah kedua kelompok tidak sama (perhatikan Lampiran 1.H bawah).
Pada data dengan kontaminasiscale outlierdengan faktor pengaliK= 100 kinerja ketiga penaksir berbeda nyata. Tampak kinerja penaksir klasik dalam
sampai sepuluh persen. Rata-rata proporsi salah pengelompokkan fungsi diskriminan kuadratik klasik 20 - 44 persen.
Sementara itu, rata-rata proporsi salah pengelompokkan dari penaksir
robust MCD dalam fungsi diskriminan kuadratik sangat rendah pada persentase
outlier kurang dari 25 persen. Kinerja penaksir MCD lebih baik dari penaksir
klasik pada persentasescale outlier kurang dari 39 persen dengan jumlah sampel pada kelompok sama. Jika jumlah sampel pada kedua kelompok berbeda, kinerja penaksir MCD lebih baik daripada penaksir klasik dan MWCD pada persentase
scale outlierberapapun.
Berbeda dengan kasus data terkontaminasi shift outlier, kinerja penaksir MWCD pada kasus data terkontaminasiscale outlier lebih baik daripada metode klasik khususnya pada faktor pengali K = 9 dan jumlah sampel n1 = n2= 1000.
Pada faktor pengali K = 100 terdapat perpotongan daris antara penaksir MWCD dan penaksir klasik. Pada persentase scale outlier kurang dari 40 persen, perbedaan rata-rata proporsi salah pengelompokkan antara penaksir MWCD dan penaksir klasik cukup besar baik pada sampel besar maupun sampel kecil. Kinerja penaksir MWCD lebih baik daripada MCD pada persentasescale outlierantara 29 dan 39 persen (Lampiran 1.H atas).
Kontaminasi radial outlier (Lampiran 1.I-L), mengandung sifat shift outlierdanscale outlier.Pada saatshift outlier± 5 danscale outlier K= 9, kinerja penaksir MCD mengikuti kasus data terkontaminasi scale outlier K = 9. Begitu juga dengan kasus data terkontaminasishift outlier± 10 danscale outlier K= 100, perbandingan kinerja ketiga penaksir mengikuti pola data terkontaminasi scale
outlier K= 100. Perbedaannya terletak pada perpotongan garis penaksir MCD dan
MWCD terjadi pada n1 = n2= 1000. Kinerja penaksir MCD lebih baik daripada
MWCD pada persentase radial outlier kurang dari 30 persen (Lampiran 1. K). Sebaliknya di atas persentase outlier lebih dari 30 persen, kinerja penaksir MWCD lebih baik daripada MCD. Meskipun demikian, rata-rata proporsi salah pengelompokkan masih tetap tinggi yaitu di atas 20 persen. Rata-rata proporsi salah pengelompokkan rendah hanya ditemui pada kinerja penaksir MCD dengan persentaseoutlierkurang dari 25 persen.
2,23 6,51 9,39 5,17 4,13 8,34 5,74 4,54 9,94 8,94 22,72 21,02 11,54 7,17 1,07 5,29 7,66 5,62 7,98 1,77 9,53 8,62 8,00 5,92 3,16 5,07 29,46 11,28 13,00 1,32 5,74 3,08 1,78 2,88 1,48 3,45 2,30 7,53 - 5,00 10,00 15,00 20,00 25,00 30,00 35,00 01.Pacitan 02. Ponorogo 03.Trenggalek 04. Tulungagung 05. Blitar 06.Kediri 07. Malang 08.Lumajang 09. Jember 10. Banyuwangi 11. Bondowoso 12. Situbondo 13.Probolinggo 14. Pasuruan 15. Sidoarjo 16.Mojokerto 17. Jombang 18. Nganjuk 19. Madiun 20.Magetan 21. Ngawi 22. Bojonegoro 23. Tuban 24. Lamongan 25.Gresik 26. Bangkalan 27. Sampang 28.Pamekasan 29. Sumenep 71. KotaKediri 72. KotaBlitar 73. KotaMalang 74.KotaProbolinggo 75.KotaPasuruan 76. KotaMojokerto 77. KotaMadiun 78.KotaSurabaya JawaTimur K a b u p a te n /K o ta Persen
4.3.2 Penglompokkan Rumah Tangga Miskin di Propinsi Jawa Timur
Tahun 2002 dengan Analisis Diskriminan Kuadratik.
Pada bagian ini dibahas penerapan analisis diskriminan kuadratik baik metode klasik maupun metode robust. Pertama dikemukankan penentuan rumah tangga miskin. Selanjutnya, pemilihan variabel-variabel determinan yang dapat membedakan secara nyata antara rumah tangga miskin dan rumah tangga tidak miskin di Propinsi Jawa Timur pada tahun 2002. Langkah berikutnya adalah
me-Gambar 4.4 Persentse Rumah Tangga Miskin di Propinsi Jawa Timur Tahun 2002 Berdasarkan 8 Variabel Kemiskinan.
0,00 100.000,00 200.000,00 300.000,00 400.000,00 500.000,00 600.000,00 0 1 . P a c it a n 0 2 . P o n o ro g o 0 3 . T re n g g a le k 0 4 . T u lu n g a g u n g 0 5 . B li ta r 0 6 . K e d ir i 0 7 . M a la n g 0 8 . L u m a ja n g 0 9 . J e m b e r 1 0 . B a n y u w a n g i 1 1 . B o n d o w o s o 1 2 . S it u b o n d o 1 3 . P ro b o lin g g o 1 4 . P a s u ru a n 1 5 . S id o a rj o 1 6 . M o jo k e rt o 1 7 . J o m b a n g 1 8 . N g a n ju k 1 9 . M a d iu n 2 0 . M a g e ta n 2 1 . N g a w i 2 2 . B o jo n e g o ro 2 3 . T u b a n 2 4 . L a m o n g a n 2 5 . G re s ik 2 6 . B a n g k a la n 2 7 . S a m p a n g 2 8 . P a m e k a s a n 2 9 . S u m e n e p 7 1 . K o ta K e d ir i 7 2 . K o ta B li ta r 7 3 . K o ta M a la n g 7 4 . K o ta P ro b o li n g g o 7 5 . K o ta P a s u ru a n 7 6 . K o ta M o jo k e rt o 7 7 . K o ta M a d iu n 7 8 . K o ta S u ra b a y a Kabupaten/Kota R u p ia h
Ruta Miskin Ruta Tidak Miskin
0,00 100.000,00 200.000,00 300.000,00 400.000,00 500.000,00 600.000,00 700.000,00 0 1 . P a c it a n 0 2 . P o n o ro g o 0 3 . T re n g g a le k 0 4 . T u lu n g a g u n g 0 5 . B li ta r 0 6 . K e d ir i 0 7 . M a la n g 0 8 . L u m a ja n g 0 9 . J e m b e r 1 0 . B a n y u w a n g i 1 1 . B o n d o w o s o 1 2 . S it u b o n d o 1 3 . P ro b o li n g g o 1 4 . P a s u ru a n 1 5 . S id o a rj o 1 6 . M o jo k e rt o 1 7 . J o m b a n g 1 8 . N g a n ju k 1 9 . M a d iu n 2 0 . M a g e ta n 2 1 . N g a w i 2 2 . B o jo n e g o ro 2 3 . T u b a n 2 4 . L a m o n g a n 2 5 . G re s ik 2 6 . B a n g k a la n 2 7 . S a m p a n g 2 8 . P a m e k a s a n 2 9 . S u m e n e p 7 1 . K o ta K e d ir i 7 2 . K o ta B li ta r 7 3 . K o ta M a la n g 7 4 . K o ta P ro b o li n g g o 7 5 . K o ta P a s u ru a n 7 6 . K o ta M o jo k e rt o 7 7 . K o ta M a d iu n 7 8 . K o ta S u ra b a y a Kabupaten/Kota R u p ia h
Ruta Miskin Ruta Tidak Miskin
nerapkan analisis diskriminan kuadratik robust untuk mengelompokkan rumah tangga di Propinsi Jawa Timur menurut status kemiskinan. Kinerja kebaikan model diskriminan yang terbentuk diukur dari perbandingan prediksi pengelompokkan dengan kelompok sebenarnya. Fungsi diskriminan terbaik adalah fungsi diskriminan yang menghasilkan total proporsi salah pengelompokkan minimum.
0,00 10,00 20,00 30,00 40,00 50,00 60,00 0 1 . P a c it a n 0 2 . P o n o ro g o 0 3 . T re n g g a le k 0 4 . T u lu n g a g u n g 0 5 . B li ta r 0 6 . K e d ir i 0 7 . M a la n g 0 8 . L u m a ja n g 0 9 . J e m b e r 1 0 . B a n y u w a n g i 1 1 . B o n d o w o s o 1 2 . S it u b o n d o 1 3 . P ro b o li n g g o 1 4 . P a s u ru a n 1 5 . S id o a rj o 1 6 . M o jo k e rt o 1 7 . J o m b a n g 1 8 . N g a n ju k 1 9 . M a d iu n 2 0 . M a g e ta n 2 1 . N g a w i 2 2 . B o jo n e g o ro 2 3 . T u b a n 2 4 . L a m o n g a n 2 5 . G re s ik 2 6 . B a n g k a la n 2 7 . S a m p a n g 2 8 . P a m e k a s a n 2 9 . S u m e n e p 7 1 . K o ta K e d ir i 7 2 . K o ta B li ta r 7 3 . K o ta M a la n g 7 4 . K o ta P ro b o li n g g o 7 5 . K o ta P a s u ru a n 7 6 . K o ta M o jo k e rt o 7 7 . K o ta M a d iu n 7 8 . K o ta S u ra b a y a Kabupaten/Kota L u a s L a n ta i P e r K a p it a (m e te r p e r s e g i)
Ruta Miskin Ruta Tidak Miskin
Gambar 4.5 di atas menggambarkan perbandingan rata-rata pengeluaran makan dan non makanan per bulan dari rumah tangga miskin dan rumah tangga tidak miskin di Propinsi Jawa Timur tahun 2002. Keterbandingan rata-rata pengeluaran makanan dan non makanan dari rumah tangga miskin dan rumah tangga miskin ditunjukkan oleh garis putus-putus dengan simbol lingkaran dan garis tebal dengan simbol kotak. Tampak bahwa rata-rata pengeluaran per bulan rumah tangga tidak miskin lebih besar daripada rumah tangga miskin baik untuk konsumsi makanan maupun non makanan. Dengan demikian rata-rata pengeluaran rumah tangga per bulan dapat dijadikan sebagai variabel pembeda antara rumah tangga miskin dan tidak miskin.
Gambar 4.6 Perbandingan Luas Lantai per Kapita Rumah Tangga Miskin dan Rumah Tangga Tidak Miskin di Propinsi Jawa Timur Tahun 2002. Karakteristik lainnya yang biasa ditemui pada rumah tangga miskin adalah sebagian besar mereka menempati rumah dengan kepadatan cukup tinggi. Fenomena ini dapat diukur dengan menghitung luas lantai per kapita. Semakin kecil luas lantai per kapita semakin padat tingkat hunian rumah. Perbandingan
ditampilkan pada Gambar 4.6 di atas. Sumbu absis menyatakan kabupaten/kota dan sumbu ordinat menyatakan luas lantai per kapita dalam satuan meter persegi.
Tampak pada Gambar 4.6 rumah tangga miskin di Propinsi Jawa Timur menempati tempat tinggal dengan luas lantai perkapita yang lebih kecil dibandingkan dengan rumah tangga tidak miskin khususnya di kota-kota di Jawa Timur. Perbedaan luas lantai per kapita antara rumah tangga miskin dan tidak miskin tidak tampak nyata di tingkat kabupaten.
Sebelum dilakukan analisis diskriminan kuadratik, perlu dilakukan pendeteksian outlier pada data SUSENAS Jawa Timur tahun 2002. Langkah ini penting untuk mengetahui struktur data. Pendeteksianoutlier melalui pendekatan perbandingan jarak robust setiap pengamatan dengan jumlah variabel sebagaimana pendeteksianoutlier pada (2.13). Level signifikansi yang digunakan sebesar 2,5 persen. Dengan demikian, outlier yang terdeteksi dapat diyakini dengan tingkat kepercayaan 97.5 persen.
Berdasarkan pendeteksian outlier diketahui bahwa 343 dari 2.138 (16,04 persen) rumah tangga miskin dan 5.309 dari 26.886 (19,75 persen) rumah tangga tidak miskin terdeteksi sebagai outlier. Dilihat dari jenis outlier, data ketiga variabel penelitian terkontaminasi radial outlier. Rata-rata dan kovariansi antara
data outlier dan bukan outlier baik pada rumah tangga miskin dan tidak miskin
berbeda nyata (lihat Lampiran 2.A-B).
Dengan ditemukannya sejumlah outlier dalam pengelompokkan rumah tangga miskin, ulasan selanjutnya difokuskan pada penerapan analisis diskriminan kuadratik pada pengelompokkan rumah tangga miskin di Propinsi Jawa Timur tahun 2002. Total proporsi salah pengelompokkan fungsi diskriminan kuadratik dengan menggunakan penaksir klasik, MWCD dan MCD akan dibandingkan. Pengelompokkan rumah tangga dikatakan salah apabila terdapat perbedaan alokasi kelompok antara sebelum dan sesudah pengelompokkan dengan fungsi diskriminan yang dibentuk.
Fungsi diskriminan kuadratik adalah suatu fungsi yang dapat memisahkan beda dua kelompok atau lebih. Fungsi diskriminan kuadratik klasik adalah fungsi diskriminan kuadratik yang taksiran rata-rata dan kovariansi data diperoleh
dengan metode MLE. Istilah klasik mengacu pada penggunaan metode MLE yang telah digunakan sejak fungsi diskriminan diperkenalkan.
Taksiran rata-rata dan kovariansi dengan metode klasik untuk kelompok rumah tangga miskin dan tidak miskin dinyatakan oleh indeks 1 untuk rumah tangga miskin dan indeks 2 untuk rumah tangga tidak miskin. Kolom pertama, kedua, dan ketiga dari vektor μˆMLE masing-masing menyatakan rata-rata luas lantai per kapita, rata-rata pengeluaran makanan perbulan, dan rata-rata pengeluaran non makanan per bulan. Tampak bahwa rata-rata luas lantai per kapita, rata-rata pengeluaran konsumsi makanan dan non makanan rumah tangga miskin lebih kecil daripada rumah tangga tidak miskin.
1 2 ˆ 21,70 240.350,00 88.130,00 ˆ 23,19 388.860,00 260.820,00 MLE MLE μ μ ,
Di sisi lain, variansi pengeluaran makanan dan non makanan di antara rumah tangga miskin dan tidak miskin sangat besar. Variansi pengeluaran rumah tangga miskin yang besar sejalan dengan ditemukannya beberapa pengamatan
outlier. Matrik kovariansi selengkapnya sebagai berikut:
2 6 5 6 10 9 1 5 9 9 4,54 10 -1,15 10 -2,42 10 ˆ -1,15 10 1,98 10 4,58 10 -2,42 10 4,58 10 5,84 10 MLE x x x x x x x x x Σ dan 2 5 5 5 10 10 2 5 10 11 4,58 10 -6,48 10 5,76 10 ˆ -6,48 10 4.60 10 4,42 10 5,76 10 4,42 10 3.43 10 MLE x x x x x x x x x Σ .
Dengan terbentuknya rata-rata dan kovariansi, selanjutnya dibentuk fungsi diskriminan kuadratik. Fungsi diskriminan kuadratik dapat dinyatakan dalam bentuk persamaan:
T TMLE MLE MLE MLE
Q x x A x b xc dengan
-4 -8 -9 1 1 -8 -11 -11 2 1 -9 -11 -10 -1,65 10 -5,62 10 1,82 10 1 ˆ ˆ -5,62 10 -2,26 10 2,29 10 2 1,82 10 2,29 10 -1,03 10MLE MLE MLE
x x x x x x x x x A Σ Σ
2 1 1 6 1 1 2 2 6 2.60 10 ˆ ˆ ˆ ˆ 6.00 10 6.99 10
MLE MLE MLE MLE MLE
x x x b Σ μ Σ μ
2 1
2 1 1 2 -1 2 2 1 1 1 1 ˆ ˆ 1 1 ˆ ˆ ˆ ˆ ˆ ˆ log log -5,48 10 . ˆ ˆ 2 2 MLE MLE MLE T TMLE MLE MLE MLE MLE
MLE p c x p Σ μ Σ μ μ Σ μ Σ
Aplikasi penaksir MCD pada fungsi diskriminan kuadratik sangat sesuai dengan struktur data dalam penelitian ini. Sebagaimana telah dikemukakan sebelumnya, data SUSENAS Propinsi Jawa Timur tahun 2002 terkontaminasi
radial outlier. Dengan menerapkan penaksir MCD pada fungsi diskriminan
kuadratik diharapkan prediksi kelompok tidak dipengaruhi oleh pengamatan
outlier.
Taksiran rata-rata dan kovariansi data dengan MCD sebagai berikut:
5 4 1 5 5 2 ˆ 1,80 10 2,31 10 7,66 10 ˆ 1,93 10 3,57 10 1,75 10 MCD MCD x x x x x x μ μ , 2 5 5 5 10 9 1 5 9 9 1,42 10 -7,02 10 -1,70 10 ˆ -7,02 10 1,38 10 2,53 10 -1,70 10 2,53 10 1,41 10 MCD x x x x x x x x x Σ , 2 5 5 5 10 9 2 5 9 10 1,15 10 -4,88 10 -1,32 10 ˆ -4,88 10 2,36 10 8,99 10 -1,32 10 8,99 10 1,06 10 MCD x x x x x x x x x Σ .
Fungsi diskriminan kuadratik robust yang terbentuk dinyatakan dalam bentuk persamaan:
T T MCD MCD MCD MCD Q x x A x b xc dengan:
5 8 7 1 1 8 11 11 2 1 7 11 10 -2,30 10 -9,32 10 -2,46 10 1 ˆ ˆ -9,32 10 -2,91 10 6,12 10 2 -2,46 10 6,12 10 -4,70 10 MCD MCD MCD x x x x x x x x x A Σ Σ2 1 1 6 1 1 2 2 5 4,84 10 ˆ ˆ ˆ ˆ 3,97 10 4,59 10 MCD MCD MCD MCD MCD x x x b Σ μ Σ μ
2 1 1 2 2 2 2 1 1 1 1 1 ˆ ˆ 1 1 ˆ ˆ ˆ ˆ ˆ ˆ log log 2, 69. ˆ ˆ 2 2 MCD T T MCD MCD MCD MCD MCD MCD MCD MCD p c p Σ μ Σ μ μ Σ μ ΣSebagai pembanding, fungsi diskriminan kuadratik dengan menggunakan penaksir MWCD diterapkan pada pengelompokkan rumah tangga miskin di Propinsi Jawa Timur. Taksiran rata-rata dan kovariansi data dengan MWCD diperoleh 5 4 1 5 5 2 ˆ 1,46 10 2,02 10 6,67 10 ˆ 1,56 10 2,66 10 3,09 10 MWCD MWCD x x x x x x μ μ , 5 5 5 9 9 1 5 9 9 4, 46 10 -2,97 10 -7, 68 10 ˆ -2,97 10 5, 08 10 1, 20 10 -7, 68 10 1, 20 10 1, 41 10 MWCD x x x x x x x x x Σ , 5 4 5 9 9 2 4 9 9 3,08 10 -1,51 10 -3,59 10 ˆ -1,51 10 8,07 10 2,12 10 -3,59 10 2,12 10 1,87 10 MWCD x x x x x x x x x Σ .
Berdasarkan rata-rata dan kovariansi MWCD di atas, fungsi diskriminan kuadratik yang terbentuk adalah:
T T MWCD MWCD MWCD MWCD Q x x A x b xc dengan
2 7 7 1 1 7 11 11 2 1 7 11 10 1,91 10 2,40 10 7,13 10 1 ˆ ˆ 2,40 10 -1,84 10 -6,38 10 2 7,13 10 -6,38 10 4,11 10 MWCD MWCD MWCD x x x x x x x x x A Σ Σ 1 1 1 5 1 1 2 2 4 -8,05 10 ˆ ˆ ˆ ˆ 4,52 10 -2,22 10 MWCD MWCD MWCD MWCD MWCD x x x b Σ μ Σ μ MWCD c
2 1 1 2 2 2 2 1 1 1 1 1 ˆ ˆ 1 1 ˆ ˆ ˆ ˆ ˆ ˆ log log 32, 4. ˆ ˆ 2 2 MWCD T T MWCD MWCD MWCD MWCD MCD MCD MWCD p p Σ μ Σ μ μ Σ μ ΣTahap selanjutnya, rumah tangga dikelompokkan ulang menurut masing-masing fungsi diskriminan. Perbandingan hasil pengelompokkan rumah tangga disajikan selengkapnya pada Tabel 4.6. Berdasarkan Tabel 4.6 di bawah dapat diketahui kinerja fungsi diskriminan kuadratik klasik, MWCD dan MCD. Dengan menggunakan fungsi diskriminan kuadratik, sebanyak 706 dari 2.138 rumah tangga miskin diprediksi sebagai rumah tangga tidak miskin dan 6.738 dari 26.886 rumah tangga tidak miskin digolongkan sebagai rumah tangga miskin. Proporsi salah pengelompokkan dari fungsi kuadratik dengan pendekatan metode klasik sebesar:
706 6.738 29.024 100%
x 25, 64persen.Tabel 4.6 Perbandingan Pengelompokkan Rumah Tangga Berdasarkan Fungsi Diskriminan Kuadratik Klasik dan MCD.
Klasik MWCD MCD Status Rumah Tangga Miskin Tidak Miskin Miskin Tidak Miskin Miskin Tidak Miskin Total Miskin 1.432 706 1.208 930 4 2.134 2.138 Tidak Miskin 6.738 20.148 4.692 22.194 4 26.882 26.886 Total 8.170 20.854 5.900 23.124 8 29.016 29.024 Sumber: Hasil Perhitungan
Dengan langkah serupa, total proporsi salah pengelompokkan dari fungsi diskriminan kuadratik dengan MWCD dan MCD dapat dihitung. Hasil perbandingan total salah pengelompokkan rumah tangga disajikan selengkapnya pada Tabel 4.7. Berdasarkan Tabel 4.7 di bawah, kinerja penaksir MCD dalam analisis diskriminan kuadratik menghasilkan proporsi salah pengelompokkan paling kecil (7,37 persen). Meskipun demikian, proporsi salah pengelompokkan secara parsial sangat besar hampir 100 persen. Jarak masing-masing pengamatan dari kelompok rumah tangga miskin lebih dekat ke pusat data kelompok rumah
2.134 rumah tangga miskin dialokasikan sebagai kelompok tidak miskin dan hanya empat rumah tangga tidak miskin yang dialokasikan sebagai kelompok miskin.
Tabel 4.7 Perbandingan Proporsi Salah Pengelompokkan Fungsi Diskriminan Kuadratik Menurut Metode Penaksir MLE, MCD, dan MWCD.
Proporsi Salah Pengelompokkan Rumah Tangga (%) Metode
Penaksir Miskin Tidak Miskin Total
MLE 33,02 25,06 25,64
MCD 99,81 1,50 7,37
MWCD 43,50 17,45 19,37
Sumber: Hasil Perhintungan.
Di sisi lain, meskipun total proporsi salah pengelompokkan rumah tangga dari fungsi diskriminan kuadratik klasik paling besar tetapi proporsi salah pengelompokkan rumah tangga miskin relatif lebih kecil daripada metode penaksir robust. Sementara itu, kinerja penaksir MWCD dalam diskriminan kuadratik berada di antara penaksir klasik dan MCD. Hal ini sesuai dengan hasil simulasi data terkontaminasi radial outlier pada sampel besar dengan jumlah pengamatan pada kedua kelompok berbeda (lihat Lampiran 1.L). Total proporsi salah pengelompokkan rumah tangga dengan menggunakan penaksir MWCD 19,37 persen lebih kecil daripada penaksir MLE tetapi lebih besar daripada penaksir MCD.
Dengan demikian, penerapan penaksir robust MCD dalam analisis dikriminan kuadratik menghasilkan total proporsi salah pengelompokkan terkecil baik melalui simulasi data maupun dalam pengelompokkan rumah tangga miskin dan tidak miskin di Propinsi Jawa Timur tahun 2002. Meskipun demikian, proporsi salah pengelompokkan secara parsial pada kelompok rumah tangga miskin masih sangat tinggi.