• Tidak ada hasil yang ditemukan

Deteksi Outlier pada Model Multivariat

N/A
N/A
zeliaadel

Academic year: 2024

Membagikan "Deteksi Outlier pada Model Multivariat "

Copied!
12
0
0

Teks penuh

(1)

Deteksi Outlier pada Model Multivariat

Dosen Pengampu: Sitti Sahriman, S.Si., M.Si.

(2)

Anggota Kelompok 2

Rahmi Nurul A. F

H051201006

Nur Aulia Ahmad Mukhlish M.

H051201011 H051201017

Nahlah Karimah

H051201026

Nur Afika

H051201029

Aisyah Putri A.

H051201035

Mustabsyirah Azalia Filadelfia P. Nur Aviatul Z.

H051201049

H051201044 H051201052

(3)

Outlier

• Adalah titik sampel yang memiliki karakteristik unik dan dapat diidentifikai secara jelas karena berbeda dengan mayoritas titik sampel lainnya

Outlier dapat diidentifikasi secara mudah melalui grafik (dalam satu atau dua dimensi), tetapi dalam analisis multivariat dengan tiga dimensi atau lebih sulit diidentifikasi

Outlier paling baik dideteksi secara visual bila memungkinkan. Bila jumlah pengamatan 𝑛 besar, plot titik tidak layak.

Ketika jumlah karakteristik𝑝besar, banyaknya scatter plot/ plot pencar𝑝(1 − 𝑝)/2dapat mencegah melihat semuanya

• Pada dimensi yang lebih tinggi, mungkin ada outlier yang tidak dapat dideteksi dari plot univariat atau bahkan plot pencar bivariat. Di sini nilai besar 𝒙𝒋− ഥ𝒙 𝑺−𝟏(𝒙𝒋− ഥ𝒙) akan menunjukkan pengamatan yang tidak biasa, meskipun tidak dapat dilihat secara visual.

(4)

Langkah mendeteksi Outlier

1. Buatlah plot titik untuk setiap variabel.

2. Buatlah scatter plot/diagram pencar untuk setiap pasangan variabel.

3. Hitung nilai standarisasi 𝑧

𝑗𝑘

=

(𝑥𝑗𝑘− ҧ𝑥𝑘)

𝑆𝑘𝑘

untuk 𝑗 = 1,2, … , 𝑛 dan setiap kolom 𝑘 = 1,2, … , 𝑝.

Periksa nilai standarisasi untuk nilai besar atau kecil.

4. Hitung jarak kuadrat umum / generalized 𝒙

𝒋

− ഥ 𝒙

𝑺

−𝟏

𝒙

𝒋

− ഥ 𝒙 . Periksa jarak ini untuk nilai

besar yang tidak biasa. Dalam plot chi-square, ini akan menjadi titik terjauh dari titik asal.

(5)

Pengelompokan Outlier

Berdasarkan penyebabnya, yaitu:

1. Observasi Umum (regular observations) merupakan data atau pengamatan yang terletak pada kelompok kebanyakan data lainnya;

2. Titik Leverage Baik (good leverage points) merupakan outlier disebabkan hanya oleh variabel independen (X- outliers);

3. Outlier Vertikal(vertical outliers)merupakan outlier yang disebabkan karena variabel dependen(Y-outliers);

4. Titik Leverage Jelek (bad leverage points) merupakan outlier disebabkan karena variabel dependen dan variabel independen(X-Y-outliers).

Pengelompokkan outlier ini merupakan kelebihan dari penggunaan estimator robust, karena dapat mendeteksi adanya outlier yang disebabkan oleh besarnya nilai standarisasi galat (residual outliers) dan outlier model regresi (regression outliers), sehingga dapat diketahui bagaimana pengaruh suatu titik pengamatan terhadap estimasi yang dihasilkan.

(6)

Kasus Deteksi Outlier Dalam Data Kayu/Kekakuan pada Kayu

Tabel 4.4 mencantumkan data yang ada pada table 4.3 dengan pengamatan terstandar. Data tersebut terdiri atas 4 besaran kekakuan 𝑥

1

, 𝑥

2

, 𝑥

3

, 𝑑𝑎𝑛 𝑥

4

, dengan masing-masing 𝑛 = 30 papan.

Mengingat bahwa pengukuran pertama dengan memberikan shock wave (gelombang kejut) terhadap papan, pengukuran ke-2 dilakukan saat menggetarkan papan, dan 2 lainnya dilakukan

dalam keadaan statis (diam)

Contoh Kasus

(7)

Contoh Kasus

x1 x2 x3 x4 Observasi Ke- z1 z2 z3 z4 d^2

1889 1651 1561 1778 1 -0.1 -0.3 0.2 0.2 0.6

2403 2048 2087 2197 2 1.5 0.9 1.9 1.5 5.48

2119 1700 1815 2222 3 0.7 -0.2 1.0 1.5 7.62

1645 1627 1110 1533 4 -0.8 -0.4 -1.3 -0.6 5.21

1976 1916 1614 1883 5 0.2 0.5 0.3 0.5 1.40

1712 1712 1439 1546 6 -0.6 -0.1 -0.2 -0.6 2.22

1943 1685 1271 1671 7 0.1 -0.2 -0.8 -0.2 4.99

2104 1820 1717 1874 8 0.6 0.2 0.7 0.5 1.49

2983 2794 2412 2581 9 3.3 3.3 3.0 2.7 12.26

1745 1600 1384 1508 10 -0.5 -0.5 -0.4 -0.7 0.77

1710 1591 1518 1667 11 -0.6 -0.5 0.03 -0.2 1.93

2046 1907 1627 1898 12 0.4 0.5 0.4 0.5 0.46

1840 1841 1595 1741 13 -0.2 0.3 0.3 0.05 2.70

1867 1685 1493 1678 14 -0.1 -0.2 -0.1 -0.1 0.13

1859 1649 1389 1714 15 -0.1 -0.3 -0.4 -0.03 1.08

1954 2149 1180 1281 16 0.1 1.3 -1.1 -1.4 16.85

1325 1170 1002 1176 17 -1.8 -1.8 -1.7 -1.7 3.50

1419 1371 1252 1308 18 -1.5 -1.2 -0.8 -1.3 3.99

1828 1634 1602 1755 19 -0.2 -0.4 0.3 0.1 1.36

1725 1594 1313 1646 20 -0.6 -0.5 -0.6 -0.2 1.46

2276 2189 1547 2111 21 1.1 1.4 0.1 1.2 9.90

1899 1614 1422 1477 22 -0.02 -0.4 -0.3 -0.8 5.06

1633 1513 1290 1516 23 -0.8 -0.7 -0.7 -0.6 0.80

2061 1867 1646 2037 24 0.5 0.4 0.5 1.0 2.54

1856 1493 1356 1533 25 -0.2 -0.8 -0.5 -0.6 4.58

1727 1412 1238 1469 26 -0.6 -1.1 -0.9 -0.8 3.40

2168 1896 1701 1834 27 0.8 0.5 0.6 0.3 2.38

1655 1675 1414 1597 28 -0.8 -0.2 -0.3 -0.4 3.00

2326 2301 2065 2234 29 1.3 1.7 1.8 1.6 6.28

1490 1382 1214 1284 30 -1.3 -1.2 -1.0 -1.4 2.58

(8)

Contoh Kasus

Pada tabel ini, nilai 𝑧

1

, 𝑧

2

, 𝑧

3

, 𝑑𝑎𝑛 𝑧

4

menggunakan rumus:

𝑧

𝑗𝑘

= 𝑥

𝑗𝑘

− ҧ 𝑥

𝑆

𝑘𝑘

; 𝑘 = 1,2,3,4; 𝑗 = 1,2, … , 30;

Dengan kuadrat dari jarak:

𝑑

𝑗2

= 𝒙

𝒋

− ഥ 𝒙

𝑺

−𝟏

𝒙

𝒋

− ഥ 𝒙

Berdasarkan jaraknya, dapat deteksi bahwa outlier pada data terdapat pada Data Observasi

ke-9 dan ke-16.

(9)

Contoh Kasus

Jika dibuatkkan scatter plot dari hasil perhitungan, maka hasilnya akan seperti berikut:

(10)

Contoh Kasus

Pada scatter plot, dapat kita deteksi bahwa data observasi ke-9 dan ke-16 ditandai dengan titik hitam pekat. Titik ke-9 dan Ke- 16 jauh dari kumpulan titik-titik data lain sehingga disebut sebagai outlier pada data.

Pada kolom terakhir, yaitu kolom kuadrat dari jarak 𝑑𝑗2 observasi ke-16 jika dibandingkan dengan 𝜒2 0,05 = 14.86, maka:

𝜒ℎ𝑖𝑡𝑢𝑛𝑔2 = 16,85 > 𝜒2 0,05 = 14.86

Yang berarti bahwa data observasi ke-16 adalah outlier multivariat. Selain itu, dapat diketahui semua hasil perhitungan terlihat baik dalam sebaran univariat. Namun secara multivariat, terdapat outlier yang terdeteksi.

Pada observasi ke-9 dan ke-16 dengan jarak kuadrat yang besar terlihat jelas berbeda dari pola lainnya sesuai dengan hubungan garis lurus yang diharapkan. Titik-titik padat pada scatter plot sesuai dengan hasil perhitungan pada observasi ke-9 dan ke-16. Meskipun titik untuk observasi ke-16 menonjol di semua plot bahwa berada jauh dari titik-titik lainnya, titik untuk observasi ke-9 tersembunyi di scatter plot antara 𝑥3 dan 𝑥4 dan hampir nyaris tidak terlihat sebagai outlier (sangat tersembunyi) pada scatter plot antara 𝑥1 dan 𝑥3. Namun observasi ke-9 jelas diidentifikasi sebagai outlier multivariat ketika dipertimbangkan pada keempat variable atau dipertimbangkan secara keseluruhan.

(11)

Kesimpulan

Para ilmuwan secara khusus melihat bahwa dalam menduga sifat-sifat kayu

observasi ke- 9 sangat jernih dan karenanya sangat kaku dan kuat. Pada observasi ke-16

juga agak tidak biasa karena kedua hasil pengukuran di atas rata-rata. Jika outlier

diidentifikasi, harus dilakukan penelitian lebih lanjut, seperti yang dilakukan dalam kasus

data kekakuan kayu. Tergantung pada sifat outlier dan tujuan penelitian, outlier dapat

dihapus atau "diberikan bobot" dengan tepat dalam analisis selanjutnya.

(12)

Terima

Kasih

Referensi

Dokumen terkait

Namun untuk sampel yang mengandung serat (0,54 dan 2,08 g) memiliki karakteristik yang berbeda dengan sampel tanpa serat, kedua sampel memperlihatkan karakteristik yang

Simulasi dilakukan untuk menggambarkan secara jelas mengenai kestabilan titik ekuilibrium endemik model SIS transmisi Human papillomavirus (HPV) dengan populasi berbeda

Individu dalam organisasi adalah unik karena setiap individu memiliki tingkat kebutuhan yang berbeda , karakteristik yang berbeda, cara pandang atau perspektif yang berbeda

Oleh karena itu pada penelitian ini dilakukan deteksi outlier pada model ARIMA musiman ganda yaitu pada data beban listrik jangka pendek di Jawa Timur menggunakan

 Manusia sebagai individu merupakan pribadi yang terpisah atau berbeda dari pribadi lain..  Manusia memiliki ciri dan karakteristik yang “unik”, satu sama

Hal ini dapat dikarenakan berbagai faktor yang mempengaruhi kadar kolesterol total yang dapat diketahui dari karakteristik sampel yaitu sampel mayoritas memiliki usia

Namun untuk sampel yang mengandung serat (0,54 dan 2,08 g) memiliki karakteristik yang berbeda dengan sampel tanpa serat, kedua sampel memperlihatkan karakteristik yang

Oleh karena itu pada penelitian ini dilakukan deteksi outlier pada model ARIMA musiman ganda yaitu pada data beban listrik jangka pendek di Jawa Timur menggunakan prosedur