BAB III KAJIAN SIMULASI
3.1 Kajian simulasi tentang efektifitas pengujian 1 outlier
Kajian terhadap literatur menghasilkan kesimpulan bahwa pendeteksian
outlier dengan menggunakan jarak Mahalanobis sangat efektif jika hanya ada 1
buah outlier. Pada sub-bab ini akan dikemukakan kajian simulasi untuk memperlihatkan sejauh mana kesimpulan ini cocok dengan eksperimen. Langkah – langkahnya sebagai berikut.
1 Bangkitkan data acak sebanyak n dari distribusi normal p-variat
dengan n = 100 dan p = 5. Kemudian pada setiap elemen dari vektor data ke 3 yaitu x
(0, p)
N I
3, kita tambahkan 5. Dengan demikian, data ke 3 adalah outlier. Hasil simulasi ini disimpan data dengan label “A15”.
2 Selanjutnya terhadap setiap elemen pada vektor data ke 95 pada himpunan data A15, kita tambahkan pula 5. Hasilnya kita simpan dalam himpunan data berlabel “A25”. Jadi, A25 mengandung 2 outlier yaitu data ke 3 dan ke 95. 3 Sekarang kita buat himpunan data berlabel A35 yang diperoleh dari A25
dengan menambahkan 5 pada setiap elemen vektor data ke 40. Jadi, A35 mengandung 3 outlier yaitu pada data ke 3, ke 40 dan ke 95.
4 Lakukan langkah 1 sampai 3 di atas untuk n yang tetap tapi p = 10 dan p = 20. Kita tuliskan Axy menyatakan himpunan data yang mengandung x buah outlier dengan p = y. Contohnya, A15 menyatakan himpunan data dengan 1 buah outlier dan p = 5. A25 (2 outlier p = 5), A35 (3 outlier p = 5), A110 (1
outlier p = 10), A210 (2 outlier p = 10), A310 (3 outlier p = 10), A120 (1 outlier p = 20), A220 (2 outlier p = 20) dan A320 (3 outlier p = 20).
Terhadap 9 himpunan data hasil simulasi di atas, kemudian terapkan algoritma pendeteksian outlier yang telah dikemukakan pada Bab 1. Berikut adalah 9 buah plot kuadrat jarak Mahalanobis.
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 Gambar A15
0 10 20 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 40 45 50 Gambar A25 0 10 20 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 40 Gambar A35
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 Gambar A110 0 10 20 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 40 45 50 Gambar A210
0 10 20 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 Gambar A310 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 Gambar A120
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 Gambar A220 0 10 20 30 40 50 60 70 80 90 100 5 10 15 20 25 30 35 40 45 50 Gambar A320
Keterangan : Data A15, A25, A35, A110, A210 dan A310 tercantum pada lampiran A.
Pada himpunan-himpunan data dengan p = 5, plot kuadrat jarak Mahalanobis menunjukkan bahwa kehadiran 1 dan 2 outlier masih terlihat jelas. Plot kuadrat jarak Mahalanobis untuk dua data outlier tersebut cukup jauh dari kebanyakan data yang lain. Namun, untuk data dengan 3 outlier, sulit mengidentifikasi outlier karena di sini terjadi “masking effect” yaitu ditunjukkan dengan plot kuadrat jarak mahalanobis data ke 40 (outlier) yang dekat dengan plot kuadrat jarak mahalanobis data ke 37 (bukan outlier).
Untuk himpunan-himpunan data dengan p = 10, plot kuadrat jarak Mahalanobis hanya bisa mengidentifikasi 1 outlier. Kedua outlier pada A210 sulit diamati karena adanya masking effect yaitu oleh data ke 11 di mana plot kuadrat jarak Mahalanobis data ke 3 dan 95 (outlier) sudah cukup dekat dengan plot kuadrat jarak Mahalanobis data ke 11 (bukan outlier). Pada himpunan data A310 dengan 3
outlier, jarak Mahalanobis tidak mampu mengidentifikasi satu pun outlier.
Gejala seperti di atas lebih tampak jelas pada himpunan data dengan p = 20. Dalam hal ini, jarak Mahalanobis hanya dapat mengidentifikasi 1 outlier saja. Untuk 2 dan 3 outlier, jarak Mahalanobis tidak mampu membedakan data outlier dan data bukan outlier. Masking effect tidak dapat dihindari.
Dari eksperimen simulasi di atas dapat disimpulkan bahwa pendeteksian outlier dengan menggunakan jarak Mahalanobis hanya efektif diterapkan pada himpunan data yang mengandung 1 outlier, untuk n dan p berapapun.
3.2 Kajian simulasi tentang distribusi pendekatan kuadrat jarak Mahalanobis Untuk menyelidiki distribusi pendekatan kuadrat jarak Mahalanobis, pada sub-bab ini dilakukan eksperimen simulasi dengan membangkitkan data acak tanpa
outlier. Simulasi akan dilakukan dengan pertama-tama menebak bahwa kuadrat
jarak Mahalanobis berdistribusi chi-square dengan parameter p. Berikut langkah-langkah simulasinya.
1. Bangkitkan data acak dari distribusi normal p-variat
sebanyak n = 50 dengan p = 5. Hal ini dilakukan sebanyak 10 kali sehingga diperoleh 10 buah himpunan data.
(0, p)
N I
2. Langkah 1 dilakukan untuk n dan p yang berbeda-beda yaitu (n, p) = (100, 10), (200, 20), (500, 50) dan (1000, 100). Untuk setiap pasangan (n, p) dilakukan replikasi sebanyak 10 kali.
3. Kemudian terapkan algoritma perhitungan jarak Mahalanobis pada 50 himpunan data di atas. Hasilnya diurutkan dari nilai terkecil hingga nilai terbesar.
4. Selanjutnya, hitung kuantil-kuantil distribusi chi-square dengan derajat kebebasan p. Dengan menggunakan MS Excel, perintahnya adalah sebagai berikut: = CHIINV(1-(k – 0.5)/n, p) , untuk k = 1, 2, .., n.
5. Buat diagram pencar dengan sumbu x menyatakan kuantil distribusi chi-square dan sumbu y adalah nilai kuadrat jarak Mahalanobis yang sudah diurut. Lalu buat garis regresi linier yang
melewati titik (0,0) (set intercept = 0) dan tampilkan persamaan regresi beserta nilai R-square.
Keterangan: data normal dengan n = 50, p = 5 dan n = 100, p = 10 sebanyak 5 buah terlampir pada lampiran B.
(0, p)
N I
Dari simulasi di atas didapat 10 buah persamaan (gradien persamaan) dan nilai R-square untuk masing-masing nilai n dan p. Berikut nilai-nilainya.
1. Untuk n = 50 , p = 5
Replikasi Gradien R-Square
1 0.996 0.9697 2 0.9681 0.9829 3 0.9554 0.9637 4 0.9438 0.9736 5 0.9392 0.9407 6 0.9578 0.9661 7 0.9301 0.9428 8 0.9301 0.9428 9 0.9691 0.9669 10 0.9191 0.9187 2. Untuk n = 100, p = 10
Replikasi Gradien R-Square
1 0.9672 0.9611 2 0.9998 0.9768 3 0.9995 0.9823 4 0.9624 0.9473 5 0.9906 0.9926 6 0.9773 0.9803 7 0.9677 0.9435 8 0.979 0.9752 9 0.9826 0.985 10 0.9769 0.9855
3. Untuk n = 200, p = 20
Replikasi Gradien R-Square
1 0.9903 0.9916 2 0.9829 0.9648 3 0.9887 0.9886 4 0.988 0.9902 5 0.9932 0.9948 6 0.9925 0.9948 7 0.9879 0.9863 8 0.9922 0.9895 9 0.9908 0.9903 10 0.9907 0.9934 4. Untuk n = 500, p = 50
Replikasi Gradien R-Square
1 0.9957 0.9929 2 0.9972 0.9962 3 0.9984 0.9964 4 0.9948 0.9896 5 0.996 0.9943 6 0.9959 0.9927 7 0.9967 0.9955 8 0.9968 0.994 9 0.9975 0.9963 10 0.9952 0.9889 5. Untuk n = 1000, p = 100
Replikasi Gradien R-Square
1 0.9981 0.9963 2 0.9981 0.9955 3 0.9476 0.9933 4 0.9977 0.994 5 0.9983 0.9965 6 0.9987 0.9982 7 0.9983 0.9978 8 0.9979 0.9949 9 0.9983 0.9962 10 0.9982 0.9957
Nilai gradien persamaan dan R-Square yang mendekati 1, untuk masing-masing percobaan dengan nilai n dan p yang berbeda-beda, menunjukkan bahwa distribusi chi-square dengan derajat kebebasan p sudah cukup baik dalam mendekati distribusi kuadrat jarak Mahalanobis. Mengingat kemudahan perhitungan dengan distribusi chi-square dengan derajat kebebasan p, maka untuk selanjutnya distribusi tersebut digunakan sebagai distribusi pendekatan bagi kuadrat jarak Mahalanobis.
3.3 Kajian simulasi tentang cut-off distribusi pendekatan
Distribusi eksak kuadrat jarak Mahalanobis adalah konstanta dikalikan distribusi beta, 2 ( , ) S i d x x ~ 2 ( 1) ( 1) ( , ) 2 2 n p n p Beta n − − −
Sedangkan distribusi pendekatanya adalah distribusi chi-square. 2
( , )
S i
d x x ~ χ2p
Baik distribusi eksak maupun distribusi pendekatan, kedua-duanya dapat digunakan untuk menentukan nilai cut-off. Karena distribusi eksak mengandung dua parameter n dan p sedangkan distribusi pendekatan hanya melibatkan satu parameter p, agar distribusi pendekatan efektif, maka perlu diteliti nilai-nilai n. Penggunaan distribusi pendekatan sangat menarik karena perhtungannya lebih mudah dan cepat daripada distribusi eksak. Maka dari itu, dengan menggunakan simulasi, akan dicari nilai n minimum yang menghasilkan pendekatan yang
memuaskan. Simulasi dilakukan pada distribusi normal p-variat dengan suatu nilai n dan p di mana data ke n dibuat sebagai outlier.
(0, p)
N I
Berikut nilai cut-off kuadrat jarak Mahalanobis hasil pendekatan dengan yang eksak untuk berbagai nilai n dan p dengan α = 2.5 %.
1. Untuk p=5 n Pendekatan Eksak 10 12.832502 7.462483 15 12.832502 9.324076 20 12.832502 10.23062 25 12.832502 10.76528 30 12.832502 11.1178 35 12.832502 11.36762 40 12.832502 11.55394 45 12.832502 11.6982 50 12.832502 11.81321 60 12.832502 11.98509 70 12.832502 12.10735 80 12.832502 12.19879 90 12.832502 12.26976 100 12.832502 12.3264 200 12.832502 12.58034 300 12.832502 12.66458 400 12.832502 12.70664 500 12.832502 12.73185 1000 12.832502 12.78218
Untuk p = 5 ternyata cut-off kuadrat jarak Mahalanobisk hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak mahalanobis klasik yang eksak jika n > 15. Simulasi dengan p = 5 dan n > 15 ini masing masing dilakukan 10 kali dan dari 10 kali simulasi ini akhirnya didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak.
Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 5 dengan n = 15 dan n = 16.
Gambar p5n15 Gambar p5n16
Pada Gambar p5n15 dan Gambar p5n16 terdapat garis biru dan garis hijau. Garis biru adalah off dari distribusi hasil pendekatan sedangkan yang hijau adalah
cut-off distribusi eksak. Pada gambar p5n15, cut-cut-off distribusi eksak mendeteksi bahwa
data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak, artinya untuk n = 15 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p5n16, off distribusi pendekatan dan
cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini
berarti untuk n = 16 (n > 15), cut-off distribusi pendekatan sama efektifnya dengan
cut-off distribusi eksak.
0 5 10 15 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14
2. Untuk p=10 n Pendekatan Eksak 15 20.483177 12.50125 20 20.483177 14.71007 25 20.483177 15.94586 30 20.483177 16.74213 35 20.483177 17.29942 40 20.483177 17.71166 45 20.483177 18.02913 50 20.483177 18.28127 60 20.483177 18.65639 70 20.483177 18.92223 80 20.483177 19.12049 90 20.483177 19.274 100 20.483177 19.39644 200 20.483177 19.94314 300 20.483177 20.12386 400 20.483177 20.21401 500 20.483177 20.26795 1000 20.483177 20.37569
Untuk p = 10 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 24. Simulasi dengan p = 10 dan n > 24 ini masing masing dilakukan 10 kali dan dari 10 kali. Hasil simulasi memberikan cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 10 dengan n = 24 dan n = 25.
0 5 10 15 20 25 2 4 6 8 10 12 14 16 18 20 22 0 5 10 15 20 25 2 4 6 8 10 12 14 16 18 20 22 Gambar p10n24 Gambar p10n25
Pada Gambar p10n24, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 24,
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak.
Namun pada Gambar p10n25, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outliernya. Ini berarti, untuk n = 25 (n > 24), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak. 3. Untuk p=15 n Pendekatan Eksak 20 27.488393 17.51058 25 27.488393 19.87616 30 27.488393 21.29454 35 27.488393 22.25656 40 27.488393 22.95601 45 27.488393 23.4888 50 27.488393 23.90865
60 27.488393 24.52879 70 27.488393 24.96517 80 27.488393 25.28917 90 27.488393 25.53933 100 27.488393 25.73831 200 27.488393 26.62205 300 27.488393 26.91271 400 27.488393 27.05727 500 27.488393 27.14383 1000 27.488393 27.31645
Untuk p = 15 cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 30. Simulasi dengan p = 10 dan n > 30, masing masing dilakukan 10 kali dan dari 10 kali simulasi tersebut didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 10 dengan n = 30 dan n = 31.
0 5 10 15 20 25 30 5 10 15 20 25 30 0 5 10 15 20 25 30 35 5 10 15 20 25 30 Gambar p15n30 Gambar p15n31
Pada Gambar p15n30, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya, untuk n = 30
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak.
Namun pada Gambar p15n31, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Jadi, untuk n = 31 (n > 30), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak. 4. Untuk p=20 n pendekatan eksak 25 34.169607 22.51397 30 34.169607 24.96914 35 34.169607 26.50429 40 34.169607 27.58141 45 34.169607 28.3858 50 34.169607 29.01178 60 34.169607 29.92569 70 34.169607 30.56244 80 34.169607 31.03222 90 34.169607 31.39331 100 34.169607 31.67966 200 34.169607 32.94283 300 34.169607 33.35555 400 34.169607 33.56045 500 34.169607 33.68287 1000 34.169607 33.9269
Untuk p = 20 cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 38. Simulasi dengan p = 20 dan n > 38 masing masing dilakukan 10 kali. Hasilnya memberikan cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 20 dengan n = 38 dan n = 39.
0 5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35 40 10 15 20 25 30 35 40 Gambar p20n38 gambar p20n39
Pada Gambar p20n38, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 38
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak.
Namun pada Gambar p20n39, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini berarti untuk n = 39 (n > 38), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak. 5. Untuk p=25 n Pendekatan Eksak 30 40.646469 27.51546 35 40.646469 30.02865 40 40.646469 31.64506 45 40.646469 32.8069 50 40.646469 33.69198 60 40.646469 34.9614 70 40.646469 35.83321 80 40.646469 36.4709 90 40.646469 36.95838 100 40.646469 37.34336 200 40.646469 39.02795
300 40.646469 39.57409 400 40.646469 39.84462 500 40.646469 40.00611 1000 40.646469 40.32736
Untuk p = 25 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 44. Simulasi dengan p = 25 dan n > 44 masing masing dilakukan 10 kali dan dari 10 kali didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 25 dengan n = 44 dan n = 45. Gambar p25n44 Gambar p25n45 0 5 10 15 20 25 30 35 40 45 10 15 20 25 30 35 40 45 0 5 10 15 20 25 30 35 40 45 10 15 20 25 30 35 40 45
Pada Gambar p25n44, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan off distribusi pendekatan tidak. Jadi, untuk n = 44
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-cut-off distribusi eksak.
eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini berarti untuk n = 45 (n > 44), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak. 6. Untuk p=30 n Pendekatan Eksak 35 46.979242 32.51618 40 46.979242 35.07 45 46.979242 36.74627 50 46.979242 37.9731 60 46.979242 39.68285 70 46.979242 40.83253 80 46.979242 41.66399 90 46.979242 42.2949 100 46.979242 42.79077 200 46.979242 44.93953 300 46.979242 45.63014 400 46.979242 45.97127 500 46.979242 46.17464 1000 46.979242 46.57869
Untuk p = 30 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 50. Simulasi dengan p = 30 dan n > 50 masing masing dilakukan 10 kali dan dari 10 kali diperoleh cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 30 dengan n = 50 dan n=51.
0 10 20 30 40 50 60 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 35 40 45 50 20 25 30 35 40 45 50 Gambar p30n50 Gambar p30n51
Pada Gambar p30n50, cut-off distribusi eksak mendeteksi data terakhir sebagai outlier sedangkan cut-off distribusi pendekatan tidak. Jadi, untuk n = 50 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p30n50, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Artinya untuk n = 51 (n > 50), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
7. Untuk p=35 n Pendekatan Eksak 40 53.203349 37.51655 45 53.203349 40.10041 50 53.203349 41.82259 60 53.203349 44.102 70 53.203349 45.58586
80 53.203349 46.64222 90 53.203349 47.43644 100 53.203349 48.0568 200 53.203349 50.7144 300 53.203349 51.56008 400 53.203349 51.97665 500 53.203349 52.22468 1000 53.203349 52.71664
Untuk p = 35 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 56. Simulasi dengan p = 35 dan n > 56 masing masing dilakukan 10 kali dan dari 10 kali diperoleh cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 35 dengan n = 56 dan n = 57.
0 10 20 30 40 50 60 20 25 30 35 40 45 50 55 0 10 20 30 40 50 60 20 25 30 35 40 45 50 55 Gambar p35n56 Gambar p35n57
Pada Gambar p35n56, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 56
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak.
Namun pada Gambar p35n56, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Jadi, untuk n = 57 (n > 56), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak. 8. Untuk p=40 n Pendekatan Eksak 45 59.341707 42.51674 50 59.341707 45.12371 60 59.341707 48.20232 70 59.341707 50.09997 80 59.341707 51.42083 90 59.341707 52.40189 100 59.341707 53.16234 200 59.341707 56.37626 300 59.341707 57.38777 400 59.341707 57.88439 500 59.341707 58.17961 1000 59.341707 58.76429
Untuk p = 40 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 63. Simulasi dengan p = 40 dan n > 63 masing masing dilakukan 10 kali dan dari 10 kali didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 40 dengan n = 63 dan n = 64.
0 10 20 30 40 50 60 70 20 25 30 35 40 45 50 55 60 65 0 10 20 30 40 50 60 70 25 30 35 40 45 50 55 60 Gambar p40n63 Gambar p40n64
Pada Gambar p40n63, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan off distribusi pendekatan tidak. Jadi, untuk n = 63
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-cut-off distribusi eksak.
Namun pada Gambar p40n64, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Artinya untuk n = 64 (n > 63), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak. 9. Untuk p=45 N pendekatan eksak 50 65.410159 47.51683 60 65.410159 51.9302 70 65.410159 54.36539 80 65.410159 56.004 90 65.410159 57.20106 100 65.410159 58.11997 200 65.410159 61.94171 300 65.410159 63.1295 400 65.410159 63.7108 500 65.410159 64.05582 1000 65.410159 64.73795
Untuk p = 45 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 69. Simulasi dengan p = 45 dan n > 69 masing masing dilakukan 10 kali. Hasilnya adalah cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 45 dengan n = 69 dan n = 70. 0 10 20 30 40 50 60 70 30 35 40 45 50 55 60 65 70 0 10 20 30 40 50 60 70 30 35 40 45 50 55 60 65 70 Gambar p45n69 Gambar p45n70
Pada Gambar p45n69, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Jadi, untuk n = 69 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p45n70, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini artinya untuk n = 70 (n > 69), cut-off distribusi pendekatan sama efektifnya dengan
10. Untuk p=50 n Pendekatan Eksak 60 71.420195 55.15707 70 71.420195 58.35329 80 71.420195 60.38593 90 71.420195 61.83665 100 71.420195 62.93613 200 71.420195 67.42247 300 71.420195 68.7974 400 71.420195 69.46775 500 71.420195 69.86507 1000 71.420195 70.64914
Untuk p = 50 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 75. Simulasi dengan p = 50 dan n > 75 masing masing dilakukan 10 kali. Hasilnya didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis metode klasik dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 50 dengan n = 75 dan n = 76.
Gambar p50n75 gambar p50n76 0 10 20 30 40 50 60 70 80 35 40 45 50 55 60 65 70 75 0 10 20 30 40 50 60 70 80 30 35 40 45 50 55 60 65 70 75
Pada Gambar p50n75, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 75 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p50n76, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini artinya untuk n = 76 (n > 75), cut-off distribusi pendekatan sama efektifnya dengan
cut-off distribusi eksak.
Dari nilai n minimum yang diperoleh agar cut-off distribusi hasil pendekatan dapat dipakai dan keefektifannya sama dengan cut-off distribusi eksak untuk nilai p yang berbeda-beda didapat model nilai n minimum untuk masing-masing nilai p. Berikut data nilai p dan nilai minimum nya.
p n minimum 5 16 10 25 15 31 20 39 25 45 30 51 35 57 40 64 45 70 50 76
Dari nilai n minimum di atas akan dilakukan regresi linear dengan p sebagai prediktor (variabel bebas atau biasa disebut x) dan n minimum sebagai respon (variabel terikat atau biasa disebut y) sehingga diperoleh,
n minimum y = 1.3091x + 11.4 R2 = 0.9978 0 10 20 30 40 50 60 70 80 90 0 20 40 60
Dari hasil regresi linier diperoleh model n minimum terhadap p yaitu :
Minimum n = 1.3091 * p + 11.4 dengan R-square = 0.9978, artinya kecocokan model regresi terhadap data sangat bagus karena R-square nya sudah mendekati 1. Jadi, untuk data dengan p variabel sebaiknya menggunakan cut-off kuadrat jarak Mahalanobis hasil pendekatan jika nilai n data n minimum yang didapat dari model regresi (n minimum sebagai fungsi dari p). tapi nilai n minimum dikhawatirkan hanya berlaku untuk beberapa buah data saja contohnya seperti data yang kuadrat jarak mahalanobis klasiknya diplot diatas. Untuk mengatasi masalah ini maka untuk menentukan n minimum agar efektifitas cut-off pendekatan dapat dianggap sama efektifnya dengan cut-off eksak maka harus dicari nilai n minimum untuk suatu nilai p sehingga selisih cut-off pendekatan dengan cut-off eksak tidak terlalu besar atau cukup kecil, dalam hal ini ambil selisihnya 1.
Untuk p = 5, cut-off pendekatan dengan cut-off eksak mempunyai selisih sekitar 1 untuk n = 50. untuk p = 10 cut-off pendekatan dengan cut-off eksak mempunyai selisih sekitar 1 untuk n = 100. kemudian untuk p = 20 maka n = 300, untuk p = 30 maka n = 400, untuk p = 40 maka n = 500 dan untuk p = 50 maka n = 1000. berikut tabel nilai n minimum sehingga cut-off pendekatan dan cut-off eksak dapat dianggap cukup dekat/hampir berimpit sehingga untuk data N(0,Ip) seperti apapun, cut-off pendekatan sama efektifnya dengan cut-off eksak :
p n_minimum2 5 50 10 100 20 300 30 400 40 500 50 500
Dari nilai n_minimum2 untuk p=5, 10,20,30,40 dan 50 akan dilakukan regresi linier untuk mendapatkan taksiran model n_minimum2 untuk sebarang nilai p. Berikut plot n_minimum2 terhadap p beserta model regresinya:
plot n_minimum2 terhadap p
y = 10.822x + 28.767 R2 = 0.9273 0 100 200 300 400 500 600 0 10 20 30 40 50 60 p n_ m ini mu m2
Dari hasil regresi diperoleh model n_minimum2 = 10.822*p + 28.767 dengan R2 = 0.9273 (kecocokan model regresi dengan titik-titik yang diregresikan). Jadi, jika n lebih dari n_minimum2 untuk suatu p maka cut-off pendekatan akan sama efektifnya dengan cut-off eksak.
Keterangan : data simulasi untuk p = 5 dengan n = 15 dan n = 16 serta data untuk p = 10 dengan n = 24 dan n = 25 terlampir di Lampiran C.