• Tidak ada hasil yang ditemukan

Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama untuk Data Menjulur

N/A
N/A
Protected

Academic year: 2017

Membagikan "Identifikasi Pencilan dan Peta Pencilan pada Analisis Komponen Utama untuk Data Menjulur"

Copied!
32
0
0

Teks penuh

(1)

IDENTIFIKASI PENCILAN DAN PETA PENCILAN PADA ANALISIS

KOMPONEN UTAMA UNTUK DATA MENJULUR

ANNA FAUZIYAH

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

(2)

untuk Data Menjulur. Dibimbing oleh KUSMAN SADIK dan I MADE SUMERTAJAYA.

Analisis Komponen Utama (AKU) merupakan salah satu analisis peubah ganda yang pada dasarnya mentransformasikan secara linier peubah asal menjadi peubah baru yang dinamakan komponen utama. Akan tetapi, AKU yang didasarkan pada matriks ragam peragam ini sangat sensitif terhadap keberadaan pencilan. Sensitifitas terhadap pencilan pada AKU-Klasik dapat diatasi dengan AKU yang kekar (AKU-K) yang bekerja sangat baik pada data yang memiliki sebaran simetrik atau tidak menjulur. Apabila data peubah asal menjulur maka banyak titik data yang sebenarnya bukan pencilan dianggap sebagai pencilan atau sebaliknya. Kemudian dikembangkanlah pendekatan AKU-K yang cocok untuk data menjulur dengan mendefinisikan berbagai kriteria baru untuk menggambarkan pencilan yaitu AKU-KAO. Penelitian ini menggunakan empat metode yaitu AKU-Klasik, AKU-KMCD, AKU-K, dan AKU-KAO untuk mengetahui perbandingan efektifitas keempat metode tersebut dalam mengidentifikasi pencilan pada data menjulur. Keempat metode tersebut dicobakan pada dua set data yang dikontaminasi pencilan dengan proporsi 0%, 5%, 10%, dan 15%. Hasil yang diperoleh dari penelitian ini menunjukkan bahwa metode AKU-KAO mampu mengatasi pengaruh kehadiran pencilan pada data menjulur karena memiliki tingkat kesalahan identifikasi yang paling kecil. Hal tersebut diperkuat dengan adanya peta pencilan yang memberikan gambaran secara visual dalam pengidentifikasian pencilan.

(3)

ANNA FAUZIYAH

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

(4)

NIM : G14080036

Menyetujui,

Pembimbing I,

Dr. Ir. Kusman Sadik, M.Si

NIP : 196909121997021001

Pembimbing II,

Dr. Ir. I Made Sumertajaya, MS

NIP : 196807021994021001

Mengetahui : Ketua Departemen,

Dr. Ir. Hari Wijayanto, M.Si

NIP : 196504211990021001

(5)

Pencilan pada Analisis Komponen Utama untuk Data Menjulur” ini dapat terselesaikan.

Ucapan terima kasih tak lupa penulis ucapkan kepada berbagai pihak yang telah membantu sehingga karya ilmiah ini selesai dengan baik, yaitu :

1. Bapak Dr. Ir. Kusman Sadik, M.Si dan Bapak Dr. Ir. I Made Sumertajaya, MS atas kesabarannya dalam membimbing, memberi saran, serta motivasi sehingga karya ilmiah ini dapat diselesaikan

2. Seluruh dosen pengajar di Departemen Statistika

3. Ayahanda Yayat Suryatna, Ibunda Eeng Emalia serta kakak-kakak Dewi Noviyanti dan Nisa Sofianti yang selalu memberikan kasih sayang, semangat, dan doa

4. Ibu Markonah, Ibu Tri, Ibu Aat, Bang Ibay, Bang Iyus dan staf tata usaha lainnya yang telah banyak membantu

5. Rekan-rekan di Departemen Statistika IPB angkatan 45 khususnya Keluarga Pandhewi (Dinia Wihansah, Mulya Sari, Hanik Aulia, dan Hana Maretha), Ramadhiyan Firdan, Iin Puspitasari, Ratih Noviani, dan Hadi Septian atas segala kebersamaan, canda tawa, kenangan indah, dan masukan-masukan yang telah mengisi kehidupan penulis selama di kampus

6. Teman bimbingan skripsi yaitu Aji Setyawan, Tri Hardi Putra, dan Arni Nurwida atas semangat dan kebersamaannya

7. Teman-teman kostan SQ yaitu Mega, Delvi, Fatchah, Nengsih, Hilma, Ulan, Puji, Putri, Yuang, Fitri, Irma, Feby, Lia, Reffa dan Devi atas dukungan, semangat dan doa kepada penulis

8. Semua pihak yang tidak mungkin disebutkan satu persatu yang telah membantu penulis selama ini.

Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam karya ilmiah ini.

Bogor, November 2012

(6)

Eeng Emalia. Penulis merupakan putri ketiga dari tiga bersaudara.

Penulis memulai pendidikannya di SD Negeri 1 Jambar dan lulus pada tahun 2002. Kemudian penulis melanjutkan pendidikan di SMP Negeri 2 Kuningan hingga tahun 2005. Setelah menyelesaikan studinya di SMA Negeri 1 Kuningan pada tahun 2008, penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI) pada tahun yang sama. Selama satu tahun pertama di IPB, penulis melalui Tahap Persiapan Bersama (TPB). Pada tahun 2009, penulis diterima sebagai mahasiswa Departemen Statistika dengan minor Ilmu Ekonomi dan Studi Pembangunan.

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... viii

DAFTAR GAMBAR ... viii

DAFTAR LAMPIRAN ... viii

PENDAHULUAN 1

Latar Belakang ... 1

Tujuan ... 1

TINJAUAN PUSTAKA 1

Data Menjulur ... 1

Pencilan ... 2

Analisis Komponen Utama ... 3

Analisis Komponen Utama Kekar ... 3

Analisis Komponen Utama Kekar untuk Data Menjulur ... 4

Peta Pencilan ... 4

METODOLOGI 5

Data ... 5

Metode ... 5

HASIL DAN PEMBAHASAN 6

Karakteristik Data ... 6

Identifikasi Pencilan pada n1=500 ... 6

Identifikasi Pencilan pada n2=100 ... 8

Peta Pencilan ... 9

Penerapan AKU-Klasik dan AKU-KAO ... 10

KESIMPULAN DAN SARAN 11

Kesimpulan ... 11

Saran... 11

DAFTAR PUSTAKA ... 11

LAMPIRAN ... 13

(8)

DAFTAR TABEL

Halaman

1. Nilai medcouple tiap peubah ... 6

2. Persentase kesalahan identifikasi pencilan pada data menjulur n1=500, p=10 dan k=2 ... 7

3. Persentase kesalahan identifikasi pencilan pada data menjulur n2=100, p=10 dan k=2 ... 8

4. Ringkasan hasil komponen utama pada berbagai metode ... 10

DAFTAR GAMBAR

Halaman 1. Peta pencilan ... 5

2. Persentase Kesalahan I pada n1=500 ... 7

3. Persentase Kesalahan II pada n1=500 ... 7

4. Persentase Kesalahan I pada n2=100 ... 8

5. Persentase Kesalahan II pada n2=100 ... 8

6. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 5% pada (a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... 9

7. Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 5% pada (a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... . 10

DAFTAR LAMPIRAN

Halaman 1. Skema algoritma penelitian ... 14

2. Rumus adjusted outlyingness (AO) ... 15

3. Histogram data hasil pembangkitan ... 15

4. Nilai korelasi antar peubah pada n1=500 dan p=10 ... 15

5. Nilai korelasi antar peubah pada n2=100 dan p=10 ... 16

6. Kesalahan identifikasi pencilan pada data menjulur n1=500, p=10, dan k=2 ... 17

7. Kesalahan identifikasi pencilan pada data menjulur n2=100, p=10, dan k=2 ... 18

8. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 0% (a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... 19

9. Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 10% (a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... 20

10.Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 15% (a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... 21

11.Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 0% (a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... 22

12.Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 10% (a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO ... 23

(9)

PENDAHULUAN

Latar Belakang

Konsep dasar dari Analisis Komponen Utama (AKU) adalah pereduksian dimensi sekumpulan peubah asal menjadi peubah baru yang berdimensi lebih kecil yang saling bebas dan tetap mempertahankan informasi yang terkandung di dalamnya. Peubah baru tersebut disebut komponen utama. Akan tetapi, AKU yang didasarkan pada matriks ragam peragam ini sangat sensitif terhadap keberadaan pencilan. Hubert et al. (2005) memperkenalkan pendekatan Analisis Komponen Utama Kekar (AKU-K) atau

Robust Principal Component Analysis

(ROBPCA) yang menghasilkan komponen utama yang tidak dipengaruhi oleh pencilan. AKU-K menggabungkan konsep Projection

Pursuit (PP) dengan Minimum Covariance

Determinant (MCD). PP digunakan untuk

inisiasi reduksi dimensi awal sedangkan MCD digunakan sebagai penduga matriks ragam peragam yang kekar. Pada tahap akhir AKU-K dilakukan pembobotan ulang dengan menggunakan penduga MCD. Jika pembobotan ulang tersebut tidak dilakukan maka metode tersebut dinamakan AKU-KMCD. AKU-KMCD menghasilkan subruang AKU yang sama dengan AKU-K tetapi tidak dengan nilai dari akar ciri dan vektor cirinya.

Sensitifitas terhadap pencilan pada AKU-Klasik dapat diatasi dengan AKU-K yang bekerja sangat baik pada data yang memiliki sebaran simetrik atau tidak menjulur. Apabila data peubah asal menjulur maka banyak titik data yang sebenarnya bukan pencilan dianggap sebagai pencilan atau sebaliknya. Hubert et al. (2009) mengembangkan pendekatan AKU-K yang cocok untuk data menjulur dengan mendefinisikan berbagai kriteria baru untuk menggambarkan pencilan. Pendekatan ini terdiri dari langkah-langkah yang sama dengan AKU-K sebelumnya akan tetapi pada pendekatan baru ini dilakukan beberapa modifikasi. Perbedaan mendasar dari pendekatan AKU-K baru ini dengan pendekatan AKU-K sebelumnya yaitu terletak pada penggantian perhitungan keterpencilan pada AKU-K yang menggunakan rumus Stahel-Donoho (AKU-K) dengan menggunakan rumus perhitungan keterpencilan baru yaitu adjusted outlyingness

(AKU-KAO).

Tujuan

Penelitian ini bertujuan untuk:

1. Membandingkan efektifitas metode Klasik, KMCD, K, dan AKU-KAO dalam mengidentifikasi pencilan pada data menjulur yang memiliki berbagai proporsi pencilan

2. Menerapkan peta pencilan pada data menjulur

3. Menerapkan AKU-Klasik dan AKU-KAO pada data menjulur.

TINJAUAN PUSTAKA

Data Menjulur

Bentuk dan ketidaksimetrian dari sebuah sebaran dapat diukur dari kemiringannya. Sebaran yang simetrik memiliki kemiringan nol, sebaran yang tidak simetrik yang ekornya menjulur ke kanan memiliki kemiringan positif, sedangkan sebaran yang ekornya menjulur ke kiri memiliki kemiringan negatif. Koefisien kemiringan klasik b1dari kumpulan

data peubah tunggal Xn={x1, x2, ... , xn} diambil

dari sebaran kontinu yang didefinisikan sebagai berikut:

dan 3 merupakan momen empiris ketiga dari

data. Akan tetapi, b1 sangat sensitif terhadap

pencilan dalam data sehingga harus menggunakan koefisien kemiringan yang kekar.

Brys et al. (2004) memperkenalkan ukuran kemiringan yang kekar terhadap pencilan yaitu

(10)

jika xi=xj=mn maka diberikan fungsi kernel

h. Misalkan m1 < ... < mk melambangkan

indeks dari pengamatan yang kembar dengan median mn dan � = untuk l = 1, ..., k

Salah satu contoh sebaran menjulur adalah sebaran normal inverse Gaussian (NIG). Sebaran tersebut merupakan kasus khusus dari sebaran generalized hyperbolyc (GH) yang didefinisikan sebagai Gaussian generalized inverse Gaussian mixing distribution yang sering digunakan pada bidang keuangan. Jika

X~N µ, σ2 maka 1/X bukan sebaran NIG.

Sebaran GH didefinisikan sebagai berikut:

gh x: ,α, ,δ,µ = a ,α, ,δ δ2+x- 2 x

-Misalkan peubah acak X menyebar

X~NIG α, , δ, yang memiliki fungsi

kepekatan peluang, nilai harapan, dan ragam sebagai berikut :

fxx =αδ panjang ekor dan kemenjuluran

�1 merupakan fungsi modifikasi Bassel dari persamaan:

Fungsi modifikasi Bassel hanya memperbolehkan pada kasus ketika =-1/2 dan λ=1. Pada =-1/2 diperoleh sebaran NIG sedangkan pada =1 diperoleh sebaran

hyperbolic (HYP).

Peubah acak NIG ganda menyebar

NIGp α, β, tδ,t ,∆ untuk t > 0, berikut adalah

fungsi kepekatan peluang, nilai harapan, dan ragamnya: � :parameter kemenjuluran

Π : parameter yang menentukan panjang ekor Σ : matriks ragam peragam

(Prause 1999)

Pencilan

Pencilan adalah pengamatan ekstrim dan merupakan titik data yang tidak khas dari seluruh pengamatan data (Montgomery & Peck 1992). Dengan cara yang sama, Johnson (2007) mendefinisikan pencilan sebagai suatu pengamatan pada rangkaian data yang terlihat tidak konsisten terhadap sisaan dari data tersebut. Menurut Draper dan Smith (1992), pencilan merupakan pengamatan yang nilai mutlak sisaannya jauh lebih besar daripada sisaan-sisaan lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari rata-rata sisaannya.

(11)

sebarannya tidak simetrik atau menjulur pendeteksian pencilan dilakukan dengan menggunakan adjusted outlyingness (AO) dari data peubah ganda. Pada prakteknya AO tidak dapat dihitung dengan memproyeksikan pengamatan pada semua vektor peubah tunggal a. Oleh karena itu, harus dibatasi dengan cara memilih satu set arah acak. Simulasi menunjukkan bahwa banyaknya arah yang efisien dan hemat dalam waktu komputasi adalah sebanyak m=250p arah. Arah acak dihasilkan sebagai arah yang tegak lurus terhadap subruang yang direntang oleh

p-pengamatan secara acak yang diambil dari kumpulan data.

Setelah AO dihitung untuk setiap pengamatan, maka tahap selanjutnya yaitu memutuskan apakah pengamatan tersebut adalah pencilan atau bukan. Sebaran AO pada umumnya tidak diketahui (tetapi biasanya miring ke kanan karena dibatasi oleh nol). Oleh karena itu, dihitunglah diagram kotak garisyang disesuaikan (adjusted boxplot) dari nilai AO dan mendeklarasikan pencilan jika AO melebihi batas atas diagram kotak garis

Analisis Komponen Utama

Jollife (2002) mendefinisikan bahwa ide sentral dari analisis komponen utama adalah untuk memperkecil dimensi dari peubah asal sehingga diperoleh peubah baru yang disebut komponen utama. Komponen tersebut tidak saling berkorelasi dan tetap mempertahankan sebagian besar informasi yang terkandung pada peubah asalnya. Menurut Johnson (2007), komponen utama merupakan kombinasi linear terboboti dari p peubah acak

X1, X2, ... , Xpyang mampu menerangkan data

secara maksimum. Vektor acak x=[x1, x2, ... , xp]menyebar menurut sebaran tertentu dengan

vektor nilai tengah µ dan matriks ragam peragam Σ.

Komponen utama ke-j dari p peubah dapat dinyatakan sebagai:

Yj=a1j x1+a2j x2+…+apj xp=a'x

dan keragaman komponen utama ke-j adalah :

Var Yj = j ; j= 1,2,…, p

1, 2, …, p adalah akar ciri dimana 1≥ 2≥ …≥ p ≥ 0. Total keragaman

komponen utama adalah

1+ 2+…+ p=tr(Σ). Vektor ciri � sebagai

pembobot dari transformasi linear peubah asal diperoleh dari persamaan:

� − � ��= 0 ; = 1, 2,…,�

Analisis Komponen Utama Kekar

Analisis Komponen Utama Klasik berbasis pada matriks ragam peragam yang sangat sensitif terhadap pencilan. Hubert et al. (2005) memperkenalkan analisis komponen utama yang kekar terhadap pencilan. AKU-K merupakan kombinasi dua ide yaitu antara

Projection Pursuit (PP) dan penduga ragam peragam yang kekar. Konsep PP digunakan dalam tahap inisiasi reduksi dimensi awal. Konsep penduga ragam peragam yang kekar menggunakan Minimum Covariance Determinant (MCD) kemudian diterapkan pada data dengan dimensi yang lebih rendah. Secara umum algoritma AKU-K terdiri dari tahap-tahap berikut:

1.Mereduksi ruang data, terutama ketika

pn, dimana p merupakan jumlah peubah penjelas dan n adalah jumlah observasi. Langkah ini dilakukan dengan Metode Dekomposisi Nilai Singular terhadap

mean-centered data matriks dengan rumus:

Xn,p1n

0 '

=Un,r0Dr0,r0Vr0,p''

dengan 0 merupakan vektor rataan klasik, r0=rank(Xn,p1n 0

2.Menemukan h keterpencilan terkecil (least outlyingness), tahap ini dilakukan dengan memilih ½ < α < 1 untuk mendapatkan nilai h=max{[αn],[(n+kmax+1)/2]}, dimana

kmax merupakan jumlah maksimum

(12)

tengah (� ) dan matriks ragam peragamnya ( )

3. Matriks ragam peragam didekomposisi sehingga diperoleh komponen utamanya. Sebanyak k komponen utama pertama dipilih dan semua data diproyeksikan pada subruang �0 berdimensi-k yang direntang oleh k vektor ciri pertama sehingga diperoleh Xn,k

4. Untuk setiap pengamatan, dihitung jarak ortogonalnya (OD): subruang yang direntang oleh k vektor ciri dominan dari , yang mana matriks ragam peragam semua pengamatan �

ODi (0)

cOD. Nilai cut off sebesar cOD = (

+ � �0.975)3 2 dimana dan � diduga dari MCD dan �0.975 adalah 97.5% kuantil dari sebaran gaussian. Selanjutnya, semua data diproyeksikan pada subruang V1

5. Menghitung kembali penduga nilai tengah dan matriks ragam peragam pada subruang berdimensi-k dengan menggunakan pembobot MCD pada data yang diproyeksikan. Pendugaan ini menggunakan algoritma FAST-MCD yang diadaptasi (Rousseeuw 1999). Komponen utama akhir adalah vektor ciri dari matriks ragam peragam tersebut.

AKU Kekar MCD (AKU-KMCD) merupakan analisis dimana tahap akhir pada algoritma AKU-K di atas tidak dilakukan. Akar ciri kekar yang dihasilkan saling berkorespondensi dengan vektor ciri kekar dari matriks ragam peragam dari h

pengamatan yang memiliki keterpencilan terkecil. Hal tersebut menghasilkan subruang AKU yang sama dengan AKU-K tetapi tidak dengan nilai dari akar ciri dan vektor cirinya.

Analisis Komponen Utama Kekar untuk Data Menjulur

AKU Klasik dan AKU-K keduanya digunakan pada data yang simetrik. Hal tersebut mengharuskan data peubah asal memiliki sebaran yang simetrik. Jika tidak terpenuhi maka dapat dilakukan transformasi terhadap peubah asal misalnya dengan menggunakan transformasi Box-Cox, tetapi peubah yang ditransformasi akan lebih sulit diinterpretasikan. Pada situasi seperti itu maka dilakukan analisis pada peubah asal dengan

menggunakan teknik AKU yang cocok untuk data yang tidak simetrik. Pada AKU-K dilakukan modifikasi dimana analisis tersebut dapat digunakan pada data menjulur dengan mendefinisikan berbagai kriteria baru untuk menggambarkan pencilan. Menurut Hubert et al. (2009), terdapat tiga modifikasi yang dilakukan pada AKU-K untuk data menjulur yaitu:

1. Mengganti perhitungan keterpencilan pada AKU-K sebelumnya dengan perhitungan keterpencilan baru yang disebut AO. Perhitungan tersebut berdasarkan pada

adjusted boxplot. AO memiliki penyebut yang berbeda untuk memberi tanda pada

3. Selain menerapkan pembobotan pada penduga MCD, dilakukan juga perhitungan AO pada AKU-K untuk data menjulur pada subruang �1 berdimensi-k kemudian menghitung nilai tengah dan matriks ragam peragam dari h pengamatan dengan AO terkecil.

Peta Pencilan

Selain menghitung komponen utama, AKU-K juga menggambarkan pencilan. Secara umum, pencilan merupakan pengamatan yang tidak mematuhi pola umum data. Pada Gambar 1 dapat dilihat bahwa dalam konteks AKU dapat dibedakan tiga jenis pencilan yaitu:

1. Amatan berpengaruh baik yaitu amatan yang terletak pada subruang komponen utama tetapi jauh dari pengamatan biasa (pengamatan 1 dan 2)

2. Pencilan ortogonal yaitu amatan yang memiliki jarak ortogonal yang besar ke subruang komponen utama sementara proyeksinya terletak pada subruang komponen utama (pengamatan 3 dan 4) 3. Amatan berpengaruh buruk yaitu amatan

yang memiliki jarak ortogonal yang besar dan proyeksi pada ruang komponen utama jauh dari pengamatan biasa (pengamatan 5 dan 6).

Jarak ortogonal adalah jarak antara pengamatan dan proyeksi dalam k-dimensi subruang V1. Peta pencilan memplotkan jarak

(13)

SDi=

ortogonal (vektor ciri)

x : dugaan nilai tengah kekar

: akar ciri dari MCD pada algoritma AKU-K.

Gambar 1 Peta pencilan

METODOLOGI

Data

Data yang digunakan dalam penelitian ini diperoleh dari data simulasi. Data simulasi yang digunakan merupakan data menjulur dari hasil pembangkitan bilangan acak normal inverse Gaussian (NIG) dengan kontaminasi berbagai proporsi pencilan.

Metode

Penelitian ini dilakukan dengan langkah-langkah sebagai berikut:

1. Membangkitkan data menjulur yaitu data yang menyebar NIGp α, , tδ,t ,∆ .

Dimana µ adalah parameter lokasi, δ adalah parameter skala, α adalah parameter bentuk yang menentukan panjang ekor, merupakan parameter kemenjuluran, ∆adalah matriks definit positif, dan t > 0 . Jumlah peubah yang dibangkitkan sebanyak 10 peubah dengan n1=500 dan n2=100. Kemudian diberikan beberapa

proporsi pencilan. Proporsi pencilan yang diberikan adalah 0% (tanpa pencilan), 5%, 10%, dan 15% sehingga terbentuk delapan set data

Langkah-langkah dalam penyiapan data adalah sebagai berikut:

1.1 Penyiapan data simulasi dengan membangkitkan data menjulur yaitu data yang menyebar NIG α, , δ, . Proses pembangkitan dilakukan dengan algoritma sebagai berikut: a. Membangkitkan data menjulur

X~NIG(α, , δ, ) sebanyak n1 =

500 dan n2 = 100

b. Mengulangi langkah a sebanyak p

atau 10 kali dengan parameter

d. Menentukan nilai korelasi awal pada peubah X1, X2, ..., X10

sehingga kesepuluh peubah tersebut saling berkorelasi e. Mengecek kemenjuluran dari dua

set data tersebut dengan melihat nilai medcouple dari masing-masing peubah

1.2 Penyiapan data pencilan dan set data.

Pembangkitan pencilan dilakukan dengan cara pengekstriman data pengamatan biasa pada h peubah dari

p peubah pada setiap pengamatan yang terpilih dimana h<p. Proses pembangkitan dilakukan dengan algoritma sebagai berikut:

a. Mempersiapkan dua set data menjulur X1, X2, ..., X10

berdimensi 500 × 10 dan 100 × 10 yang akan dikontaminasi oleh berbagai proporsi pencilan b. Melakukan identifikasi pencilan

pada dua set data tersebut dengan menggunakan adjusted outlyingness (AO). Jika AOi≥ cut

off yang ditentukan maka pengamatan tersebut dikatakan sebagai pencilan

c. Melakukan pengekstriman pada pengamatan yang memiliki nilai AOi terbesar sesuai dengan proporsi pencilan yang diinginkan yaitu 0%, 5%, 10%, dan 15% sehingga terdapat empat set data menjulur berukuran 500 × 10 dan empat set data menjulur berukuran 100 × 10.

(14)

metode tersebut. Hal yang dibandingkan adalah jumlah pencilan yang teridentifikasi pada setiap metode

3. Membandingkan peta pencilan yang dihasilkan oleh metode AKU-Klasik, AKU-KMCD, AKU-K, dan AKU-KAO 4. Melakukan penerapan AKU-Klasik dan

AKU-KAO pada data menjulur dengan proporsi pencilan 5% untuk n=500, p=10 5. Melakukan penerapan AKU-Klasik pada

data menjulur dengan proporsi pencilan 5% untuk n=500, p=10 tetapi pencilan yang teridentifikasi dihilangkan

6. Membandingkan hasil AKU-Klasik dan AKU-KAO pada langkah 4 dan 5. Hal yang dibandingkan adalah akar ciri dan proporsi kumulatif komponen utama pertama.

Skema algoritma penelitian dapat dilihat pada Lampiran 1. Pengolahan data dilakukan dengan menggunakan perangkat lunak

MATLAB 7.7.0(R2008b) dan Microsoft Excel

2007. Metode AKU-Klasik, AKU-KMCD,

AKU-K, dan AKU-KAO dilakukan menggunakan program MATLAB yang

terdapat pada situs

http://www.wis.kuleuven.ac.be/stat/robust.htm l dan http://win-www.uia.ac.be/u/statis.

HASIL DAN PEMBAHASAN

Karakteristik Data

Data yang dibangkitkan merupakan data menjulur dari sebaran NIG α, , δ, dengan parameter lokasi µ=0, parameter skala σ=1,

parameter panjang ekor =1 dan parameter kemenjuluran δ = 0.8. Data tersebut memiliki ukuran n1=500 dan n2=100 dengan p=10 untuk

setiap ukuran. Histogram dari data hasil pembangkitan dapat dilihat pada Lampiran 2. Histogram tersebut menggambarkan bahwa data menjulur ke kanan karena pada awal pembangkitan parameter kemenjuluran data telah ditetapkan dengan nilai positif.

Tabel 1 menunjukkan besarnya kemenjuluran data pada setiap peubah. Nilai

medcouple melebihi nilai 0 sehingga data dapat dikatakan menjulur. Nilai medcouple

berkisar antara -1 sampai 1. Jika nilainya 0 maka sebaran datanya tidak menjulur (simetrik). Besarnya korelasi antar peubah dapat dilihat pada Lampiran 3 dan 4. Lampiran 3 menunjukkan bahwa terdapat korelasi yang signifikan pada kesepuluh peubahnya (X1-X10). Sedangkan pada Lampiran 4 terdapat korelasi yang tidak signifikan antara peubah X2 dan X6 (0.146), antara peubah X3 dan X6

(0.165), antara peubah X4 dan X9 (0.235) serta peubah X6 dan X9 (0.133).

Tabel 1 Nilai medcouple tiap peubah

Peubah n1=500 n2=100

Simulasi dilakukan dengan menggunakan metode AKU-Klasik, AKU-KMCD, AKU-K, dan AKU-KAO. Karena semua simulasi dilakukan pada set data yang mengandung pencilan sebesar 0%, 5%, 10%, dan 15%, maka α yang digunakan untuk setiap metode adalah sebesar 85%.

Identifikasi Pencilan pada n1=500 Tabel 2 menunjukkan kesalahan identifikasi pencilan pada data menjulur dengan n1=500 data, p=10 dimensi dan rank k=2 (k adalah banyaknya komponen utama yang diambil) dikontaminasi dengan data yang diekstrimkan. Kesalahan I merupakan kesalahan dimana pencilan teridentifikasi sebagai data bukan pencilan. Sedangkan, Kesalahan II merupakan kesalahan dimana data bukan pencilan teridentifikasi sebagai pencilan. Metode yang baik adalah metode yang mengidentifikasi data secara tepat. Pada data tanpa pencilan (proporsi pencilan 0%) dan data dengan proporsi 10% tidak terdapat Kesalahan I untuk keempat metode (Gambar 2). Artinya, keempat metode tersebut mengidentifikasi pencilan secara tepat. Pada proporsi pencilan 5%, AKU-KAO memiliki persentase Kesalahan I sebesar 4%. Artinya, AKU-KAO mengidentifikasi pencilan sebagai data bukan pencilan sebanyak 1 pencilan dari 25 pencilan yang dikontaminasikan. Sedangkan, pada data dengan proporsi pencilan 15%, AKU-KAO memiliki persentase Kesalahan I yaitu sebesar 5.33%.

(15)

Tabel 2 Persentase kesalahan identifikasi pencilan pada data menjulur n1=500, p=10 dan k=2

Gambar 2 Persentase Kesalahan I pada n1=500

persentasi Kesalahan II yang beragam. Pada proporsi pencilan 0%, AKU-Klasik memiliki Kesalahan II sebesar 8.20%. Artinya, Klasik mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 41 pencilan dari 500 data bukan pencilan (data pengamatan biasa). Pada AKU-KMCD terdapat Kesalahan II sebesar 9.20%. Artinya, AKU-KMCD mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 46 pencilan dari 500 data bukan pencilan. Sedangkan pada AKU-K terdapat Kesalahan II yang relatif tinggi yaitu sebesar 15%. Artinya, AKU-K mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 75 pencilan dari 500 data bukan pencilan. Berbeda dengan AKU-KAO yang memiliki Kesalahan II yang cukup kecil dibandingkan dengan ketiga metode yang lainnya yaitu sebesar 0.6%. Artinya, AKU-KAO mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 3 pencilan dari 500 data bukan pencilan.

Pada data dengan proporsi pencilan 5%, tidak terdapat Kesalahan II untuk AKU-KAO. Sedangkan pada ketiga metode lainnya yaitu AKU-Klasik, AKU-KMCD, dan AKU-K memiliki Kesalahan II masing-masing sebesar 2.74%, 6.74%, dan 12,63%. Ketika proporsi

pencilan ditambahkan menjadi 10% dan 15%, AKU-Klasik tidak mencatat Kesalahan II. Artinya, AKU-Klasik mengidentifikasi data bukan pencilan secara tepat. Pada AKU-KMCD terdapat Kesalahan II sebesar 6% ketika proporsi pencilan meningkat menjadi 10%. Pada AKU-K terdapat Kesalahan II sebesar 11.11%. Sedangkan pada AKU-KAO terdapat sedikit Kesalahan II yaitu sebesar 0.44%. Pada proporsi pencilan 15% AKU-KMCD dan AKU-K memiliki Kesalahan II masing-masing sebesar 3.29% dan 8.47%. Secara keseluruhan AKU-K memiliki Kesalahan II yang paling tinggi yaitu diatas 8% diikuti oleh KMCD dan AKU-Klasik. Sedangkan AKU-KAO memiliki Kesalahan II yang relatif kecil yaitu dibawah 1% (Gambar 3).

AKU-K memiliki Kesalahan Total terbesar yaitu sebesar 47.21% diikuti AKU-KMCD dan AKU-Klasik yang memiliki Kesalahan Total masing-masing sebesar 25.23% dan 10.94%. Berbeda dengan ketiga metode lainnya, AKU-KAO memiliki Kesalahan Total paling kecil yaitu sebesar 10.37%. Kesalahan I dan Kesalahan II pada data n1=500 dapat dilihat

lebih rinci pada Lampiran 5.

Gambar 3 Persentase Kesalahan II pada

n1=500

Proporsi

Pencilan AKU-Klasik AKU-KMCD AKU-K AKU-KAO

Persentase

(16)

Tabel 3 Persentase kesalahan identifikasi pencilan pada data menjulur n2=100, p=10 dan k=2

Proporsi

Pencilan AKU-Klasik AKU-KMCD AKU-K AKU-KAO

Persentase

Persentase Kesalahan Total 26.65% 38.06% 57.58% 11.77%

Identifikasi Pencilan pada n2=100 Pada Tabel 3 menunjukkan set data menjulur dengan n2=100, p=10 dan k=2. Data

dengan proporsi pencilan sebanyak 0%, 5%, dan 10% tidak mencatat Kesalahan I ketika menggunakan metode Klasik, AKU-KMCD, AKU-K, dan AKU-KAO. Artinya, keempat metode tersebut mengidentifikasi pencilan secara tepat pada proporsi pencilan 0%, 5%, dan 10%. Akan tetapi, AKU-Klasik mencatat Kesalahan I sebesar 6.67% pada proporsi pencilan 15%. Artinya, AKU-Klasik mengidentifikasi pencilan sebagai data bukan pencilan sebanyak 1 pencilan dari 15 pencilan yang dikontaminasikan. Selain itu AKU-KAO juga memiliki Kesalahan I sebesar 6.67%.

Gambar 4 Persentase Kesalahan I pada n2=100

Pada Tabel 3 terlihat bahwa keempat metode yaitu AKU-Klasik, AKU-KMCD,AKU-K, dan AKU-KAO memiliki persentasi Kesalahan II yang beragam sama seperti pada data n1=500. Pada proporsi

pencilan 0%, AKU-Klasik memiliki Kesalahan II sebesar 8%. Artinya, AKU-Klasik mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 8 pencilan dari 100 data bukan pencilan. Pada AKU-KMCD terdapat Kesalahan II sebesar 14.00%. Artinya, AKU-KMCD mengidentifikasi data

bukan pencilan sebagai pencilan sebanyak 14 pencilan dari 100 data bukan pencilan. Sedangkan pada AKU-K terdapat Kesalahan II yang relatif tinggi yaitu sebesar 18%. Artinya, AKU-K mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 18 pencilan dari 100 data bukan pencilan. AKU-KAO memiliki Kesalahan II sebesar 3%, lebih kecil bila dibandingkan dengan ketiga metode lainnya. Artinya, AKU-KAO mengidentifikasi data bukan pencilan sebagai pencilan sebanyak 3 pencilan dari 100 data bukan pencilan.

(17)

KMCD terdapat kesalahan sebesar 10%. Sedangkan pada AKU-K terdapat Kesalahan II yaitu sebesar 15.56%. Pada proporsi pencilan 15%, AKU-KMCD dan AKU-K memiliki Kesalahan II masing-masing sebesar 3.53% dan 8.24%.

Secara keseluruhan AKU-K memiliki Kesalahan Total terbesar yaitu sebesar 57.58% diikuti AKU-KMCD dan AKU-Klasik yang memiliki Kesalahan Total masing-masing sebesar 38.06% dan 26.65%. Sedangkan, AKU-KAO memiliki Kesalahan Total paling kecil yaitu sebesar 11.77%. Hasil tersebut tidak berbeda jauh dengan hasil pada n1=500.

Persentase Kesalahan Total pada n1=500 dan n2=100 menunjukkan bahwa AKU-KAO

memiliki kesalahan yang paling kecil dalam mengidentifikasi pencilan. Kesalahan I dan Kesalahan II pada data n2=100 dapat dilihat

lebih rinci pada Lampiran 6.

Peta pencilan

Peta pencilan merupakan peta yang memplotkan jarak ortogonal dengan jarak skor. Peta ini membedakan pencilan menjadi tiga jenis yaitu amatan berpengaruh baik, pencilan ortogonal, dan amatan berpengaruh buruk. Gambar 6 menunjukkan peta pencilan pada saat proporsi pencilan 5% pada n1=500, p=10 dengan k=2 dimensi. Gambar 6(a) merupakan peta pencilan untuk AKU-Klasik. Peta tersebut menggambarkan 13 amatan

berpengaruh baik, pencilan ortogonal sebanyak 12 pencilan, dan 3 amatan berpengaruh buruk. Peta pencilan AKU-KMCD pada Gambar 6(b) memplotkan jarak ortogonal dengan urutan pengamatannya dan hanya menggambarkan pencilan secara keseluruhan. Peta tersebut menggambarkan sebanyak 57 pencilan. Gambar 6(c) merupakan peta pencilan AKU-K. Peta ini menggambarkan 33 amatan berpengaruh baik, pencilan ortogonal sebanyak 36 pencilan, dan 16 amatan berpengaruh buruk. Peta pencilan AKU-KAO pada Gambar 6(d) menggambarkan 4 amatan berpengaruh baik, pencilan ortogonal sebanyak 12 pencilan, dan 16 amatan berpengaruh buruk. Peta pencilan dengan proporsi pencilan 0%, 10%, dan 15% terlampir pada Lampiran 7, 8, dan 9. Gambar 7 merupakan peta pencilan pada saat proporsi pencilan 5% pada n2=100, p=10

dengan k=2 dimensi. Peta pencilan AKU-Klasik pada Gambar 7(a) menggambarkan 4 amatan berpengaruh baik, pencilan ortogonal sebanyak 3 pencilan, dan 2 amatan berpengaruh buruk. Gambar 7(b) merupakan peta pencilan AKU-KMCD. Peta tersebut menggambarkan sebanyak 15 pencilan. Gambar 7(c) merupakan peta pencilan AKU-K yang menggambarkan 5 amatan berpengaruh baik, pencilan ortogonal sebanyak 9 pencilan, dan 6 amatan berpengaruh buruk. Peta pencilan AKU-KAO pada Gambar 7(d) Gambar 6 Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 5%

(18)

menggambarkan 3 amatan berpengaruh baik, pencilan ortogonal sebanyak 2 pencilan, dan 2 amatan berpengaruh buruk. Peta pencilan dengan proporsi pencilan 0%, 10%, dan 15% terlampir pada Lampiran 10, 11, dan 12. Secara keseluruhan peta pencilan AKU-Klasik, AKU- KMCD, dan AKU-K pada

n1=500 dan n2=100 hampir sama karena pada

peta pencilan ketiga metode tersebut terlalu banyak menggambarkan pengamatan biasa sebagai pencilan dan sebaliknya. Sedangkan pada peta pencilan AKU-KAO, pencilan yang

digambarkan cukup sesuai dengan proporsi pencilan yang dikontaminasikan.

Penerapan AKU-Klasik dan AKU-KAO

AKU-Klasik dan AKU-K merupakan analisis yang digunakan untuk data simetrik. Oleh karena itu data peubah asal harus memiliki sebaran yang simetrik. Jika datanya tidak simetrik maka akan banyak titik data yang sebenarnya bukan pencilan dianggap sebagai pencilan dan sebaliknya. Pada penelitian ini dilakukan penerapan AKU-

Komponen

Akar Ciri Proporsi Kumulatif

AKU-Klasik

AKU-Klasik tanpa pencilan

AKU-KAO

AKU-Klasik

AKU-Klasik tanpa pencilan

AKU-KAO

1 27.688 12.668 27.100 0.488 0.460 0.627

2 5.712 2.369 3.272 0.588 0.546 0.703

3 4.732 2.312 2.348 0.671 0.630 0.757

4 4.115 2.075 2.261 0.744 0.706 0.810

5 3.875 1.753 1.773 0.812 0.769 0.851

6 3.147 1.699 1.693 0.868 0.831 0.890

7 2.410 1.575 1.570 0.910 0.888 0.926

8 2.180 1.437 1.465 0.948 0.940 0.960

9 1.672 1.348 1.402 0.978 0.989 0.993

10 1.259 0.290 0.320 1.000 1.000 1.000

Gambar 7 Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 5% pada

(a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(19)

p=10 yang dikontaminasi pencilan sebesar 5%. Klasik pada data menjulur dengan n=500, Kemudian analisis tersebut juga diterapkan pada data ketika pencilan yang teridentifikasi dihilangkan. Pencilan yang dihilangkan adalah pencilan yang teridentifikasi yaitu sebanyak 38 pencilan (lihat Lampiran 4). Selain itu dilakukan juga penerapan analisis komponen utama kekar untuk data menjulur (AKU-KAO) pada n=500, p=10 yang dikontaminasi pencilan sebesar 5%.

Tabel 4 menunjukkan ringkasan hasil analisis komponen utama pada AKU- Klasik, AKU-Klasik tanpa pencilan, dan AKU-KAO. Hal yang dibandingkan yaitu akar ciri dan proporsi kumulatif komponen utama pertama. AKU-Klasik menghasilkan akar ciri pertama sebesar 27.688 dan mampu menerangkan keragaman data sebesar 0.488 atau 48.8%. Ketika pencilan yang teridentifikasi dihilangkan, AKU-Klasik menghasilkan akar ciri pertama yang nilainya lebih kecil yaitu sebesar 12.668 dan mampu menerangkan keragaman data sebesar 0.460 atau 46%. Proporsi kumulatif data yang diterangkan AKU-Klasik menurun ketika pencilan yang teridentifikasi dihilangkan. Hal tersebut terjadi karena data dengan pencilan memiliki keragaman lebih tinggi daripada data tanpa pencilan. Sedangkan AKU-KAO menghasilkan akar ciri pertama sebesar 27.100 dan proporsi kumulatif data yang diterangkannya yaitu sebesar 0,627 atau 62.7%. Nilai akar ciri pertama komponen utama pada AKU-KAO mampu menerangkan keragaman data yang lebih besar bila dibandingkan dengan nilai akar ciri pertama komponen utama pada AKU-Klasik dan AKU-Klasik tanpa pencilan.

Menurut Johnson (2007) salah satu kriteria penentuan banyaknya jumlah komponen utama yang digunakan adalah dengan mengambil sejumlah komponen utama yang mampu menjelaskan 80% total keragaman dari data. Peubah yang digunakan pada penelitian ini sebanyak 10 buah. Pada AKU-Klasik diperlukan sebanyak 5 komponen utama. Pada AKU-Klasik tanpa pencilan diperlukan sebanyak 6 komponen utama. Sedangkan pada AKU-KAO hanya diperlukan sebanyak 4 komponen utama.

KESIMPULAN DAN SARAN

Kesimpulan

Analisis komponen utama kekar untuk data menjulur (AKU-KAO) menunjukkan hasil yang lebih baik dalam mengidentifikasi

pencilan pada data menjulur daripada Klasik, K, dan KMCD. AKU-KAO mengidentifikasi pencilan secara tepat dan konsisten dibandingkan dengan ketiga metode lainnya yang menganggap titik data pencilan sebagai pencilan (Kesalahan I) dan titik data bukan pencilan sebagai pencilan (Kesalahan II). AKU-Klasik, AKU-KMCD, dan AKU-K didesain untuk data simetrik sehingga kurang tepat jika digunakan pada data menjulur. AKU-KAO mampu mengatasi pengaruh kehadiran pencilan pada data menjulur dengan n1=500 maupun data dengan n2=100 karena memiliki Kesalahan Total

paling kecil. Hal tersebut diperkuat dengan adanya peta pencilan yang memberikan gambaran secara visual dalam pendeteksian pencilan.

Saran

Penetapan α yang digunakan untuk setiap metode perlu ditetapkan secara tepat agar terdapat keseimbangan antara kekekaran dan efisiensi dalam komputasi karena semakin kecil α semakin kekar AKU-K tetapi semakin tidak akurat.

DAFTAR PUSTAKA

Brys G, Hubert M, Struyf A. 2004. A Robust Measure of Skewness. Journal of Computational and Graphical Statistics. 13: 996-1017.

Draper NR, Smith H. 1992. Analisis Regresi

Terapan Edisi Kedua. Sumantri B.

penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.

Hubert M, Rousseeuw PJ, Vanden-Branden K. 2005. ROBPCA: A New Approach to Robust Principal Component Analysis. Technometrics. 47: 64-79.

Hubert M, Rousseeuw PJ, Verdonck T. 2009. Robust PCA for Skewed Data and Its Outlier Map. Computational Statistics & Data Analysis. 53: 2264-2274.

Hubert M, Van der Veeken S. 2008. Outlier Detection for Skewed Data. Journal of Chemometrics. 22: 235-246.

Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis. Ed ke-6. New Jersey : Prentice Hall. Inc. Jolliffe IT. 2002. Principal Component

Analysis. Ed ke-2. New York: Springer-Verlag. Inc.

Montgomery DC, Peck EA. 1992.

(20)

Analysis. Ed ke-2. New York: John Wiley & Sons. Inc.

Prause K. 1999. The generalized hiperbolic model: estimation, financial derivatives, and risk measures [disertasi]. Freiburg: Albert-Ludwigs Universitat

(21)
(22)

Lampiran 1 Skema algoritma penelitian

Bangkitkan data menjulur

X~NIG(0,0.8,1,0) sebanyak

n1 = 500 dan n2 = 100

Ulangi sebanyak 10 kali dengan parameter yang sama sehingga diperoleh 10 peubah

X berukuran 500 dan 100 yaitu X1, X2, ..., X10

Peubah X1, X2, ..., X10

membentuk matriks berdimensi 500 × 10 dan 100 × 10

Tentukan nilai korelasi awal pada peubah X1, X2, ..., X10 sehingga kesepuluh

peubah tersebut saling berkorelasi

Cek kemenjuluran dari dua set data dengan melihat nilai medcouple dari masing-masing peubah

Melakukan pengekstriman pada pengamatan yang memiliki nilai AOi terbesar sesuai dengan proporsi pencilan yang diinginkan yaitu 0%, 5%, 10%, dan 15%

YA TIDAK

Hitung nilai adjusted outlyingness (AO). Jika AOi ≥

cut off yang ditentukan maka pengamatan tersebut dikatakan sebagai pencilan

Terdapat empat set data menjulur berukuran 500 × 10 dan empat set data menjulur berukuran 100 × 10 yang sudah dikontaminasi

Lakukan identifikasi pencilan dengan menggunakan metode AKU-Klasik, AKU-KMCD, AKU-K, dan AKU-KAO

Bandingkan hasilnya

Metode Klasik, KMCD, K, dan AKU-KAO menghasilkan peta pencilan

Bandingkan hasilnya

Persiapkan data menjulur dengan proporsi pencilan 5% untuk n=500, p=10

Persiapkan data menjulur dengan proporsi pencilan 5% untuk n=500,

p=10 tapi pencilan yang teridentifikasi dihilangkan

Lakukan metode AKU-Klasik

dan AKU-KAO Lakukan metode AKU-Klasik

Bangkitkan data menjulur

X~NIG(0,0.8,1,0) sebanyak

n1 = 500 dan n2 = 100

TIDAK Bangkitkan data menjulur

X~NIG(0,0.8,1,0) sebanyak

n1 = 500 dan n2 = 100

(23)

-5 0 5 10 15 20 Lampiran 2 Rumus adjusted outlyingness (AO)

AOi=maxvB

�1 : pengamatan terkecil yang lebih besar dari Q1-1.5e -4MCIQR

�2 : pengamatan terbesar yang lebih kecil dari Q3+1.5e 3MC

IQR

�1 : kuartil pertama �3 : kuartil ketiga

IQR : jangkauan antar kuartil MC : medcouple

Lampiran 3 Histogram data hasil pembangkitan

Frekuensi Frekuensi

(24)

Lampiran 5 Nilai korelasi antar peubah pada n2=100 dan p=10

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

X1 r 1.000

nilai-p 0.000

X2 r 0.582 1.000

nilai-p 0.000 0.000

X3 r 0.659 0.445 1.000

nilai-p 0.000 0.000 0.000

X4 r 0.604 0.304 0.374 1.000

nilai-p 0.000 0.002 0.000 0.000

X5 r 0.564 0.406 0.332 0.347 1.000

nilai-p 0.000 0.000 0.001 0.000 0.000

X6 r 0.441 0.146 0.165 0.352 0.280 1.000

nilai-p 0.000 0.148* 0.102* 0.000 0.005 0.000

X7 r 0.713 0.425 0.405 0.442 0.378 0.429 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000

X8 r 0.627 0.363 0.455 0.419 0.336 0.316 0.419 1.000

nilai-p 0.000 0.000 0.000 0.000 0.001 0.001 0.000 0.000

X9 r 0.539 0.576 0.390 0.235 0.364 0.133 0.377 0.411 1.000

nilai-p 0.000 0.000 0.000 0.019* 0.000 0.187* 0.000 0.000 0.000

X10 r 0.695 0.430 0.511 0.465 0.424 0.376 0.540 0.442 0.378 1.000

nilai-p 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Keterangan. *Korelasi tidak signifikan pada taraf nyata 0.05

(25)

Lampiran 6 Kesalahan identifikasi pencilan pada data menjulur n1=500, p=10, dan k=2

Proporsi

pencilan Metode Data

Hasil Deteksi

Total Kesalahan I

Kesalahan II Pencilan

Bukan Pencilan

0%

AKU-Klasik Pencilan 0 0

Bukan Pencilan 41 459 500 0.00% 8.20%

AKU-KMCD Pencilan 0 0 0

Bukan Pencilan 46 454 500 0.00% 9.20%

AKU-K Pencilan 0 0 0

Bukan Pencilan 75 425 500 0.00% 15.00%

AKU-KAO Pencilan 0 0 0

Bukan Pencilan 3 497 500 0.00% 0.60%

5%

AKU-Klasik Pencilan 25 0 25

Bukan Pencilan 13 462 475 0.00% 2.74%

AKU-KMCD Pencilan 25 0 25

Bukan Pencilan 32 443 475 0.00% 6.74%

AKU-K Pencilan 25 0 25

Bukan Pencilan 60 415 475 0.00% 12.63%

AKU-KAO Pencilan 24 1 25 4.00% 0.00%

Bukan Pencilan 0 475 475

10%

AKU-Klasik Pencilan 50 0 50 0.00% 0.00%

Bukan Pencilan 0 450 450

AKU-KMCD Pencilan 50 0 50

Bukan Pencilan 27 423 450 0.00% 6.00%

AKU-K Pencilan 50 0 50

Bukan Pencilan 50 400 450 0.00% 11.11%

AKU-KAO Pencilan 50 0 50

Bukan Pencilan 2 448 450 0.00% 0.44%

15%

AKU-Klasik Pencilan Bukan Pencilan 75 0 425 0 425 75 0.00% 0.00%

AKU-KMCD Pencilan 75 0 75

Bukan Pencilan 14 411 425 0.00% 3.29%

AKU-K Pencilan 75 0 75

Bukan Pencilan 36 389 425 0.00% 8.47%

AKU-KAO Pencilan 71 4 75 5.33% 0.00%

(26)

Lampiran 7 Kesalahan identifikasi pencilan pada data menjulur n2=100, p=10, dan k=2

Proporsi

pencilan Metode Data

Hasil Deteksi

Total Kesalahan I

Kesalahan II Pencilan

Bukan Pencilan

0%

AKU-Klasik Pencilan 0 0 0

Bukan Pencilan 8 92 100 0.00% 8.00%

AKU-KMCD Pencilan 0 0 0

Bukan Pencilan 14 86 100 0.00% 14.00%

AKU-K Pencilan 0 0 0

Bukan Pencilan 18 82 100 0.00% 18.00%

AKU-KAO Pencilan 0 0 0

Bukan Pencilan 3 97 100 0.00% 3.00%

5%

AKU-Klasik Pencilan 5 0 5

Bukan Pencilan 4 91 95 0.00% 4.21%

AKU-KMCD Pencilan 5 0 5

Bukan Pencilan 10 85 95 0.00% 10.53%

AKU-K Pencilan 5 0 5

Bukan Pencilan 15 80 95 0.00% 15.79%

AKU-KAO Pencilan 5 0 5

Bukan Pencilan 2 93 95 0.00% 2.11%

10%

AKU-Klasik Pencilan 10 0 10

Bukan Pencilan 7 83 90 0.00% 7.78%

AKU-KMCD Pencilan 10 0 10

Bukan Pencilan 9 81 90 0.00% 10.00%

AKU-K Pencilan 10 0 10

Bukan Pencilan 14 76 90 0.00% 15.56%

AKU-KAO Pencilan 10 0 10

Bukan Pencilan 0 90 90 0.00% 0.00%

15%

AKU-Klasik Pencilan 14 1 15 6.67% 0.00%

Bukan Pencilan 0 85 85

AKU-KMCD Pencilan 15 0 15

Bukan Pencilan 3 82 85 0.00% 3.53%

AKU-K Pencilan 15 0 15

Bukan Pencilan 7 78 85 0.00% 8.24%

AKU-KAO Pencilan 14 1 15 6.67% 0.00%

(27)

0 50 100 150 200 250 300 350 400 450 500

Score distance (2 LV)

O

Score distance (2 LV)

O

Score distance (2 LV)

O

Lampiran 8 Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 0%

(a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(28)

0 1 2 3 4 5 6 7 8 9

Score distance (2 LV)

O

Score distance (2 LV)

O

Score distance (2 LV)

O

(a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(29)

0 1 2 3 4 5 6 7 8

Score distance (2 LV)

O

Score distance (2 LV)

O

Score distance (2 LV)

O

Lampiran 10 Peta pencilan data menjulur n1=500, p=10 dan k=2 dengan proporsi pencilan 15%

(a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(30)

0 1 2 3 4 5

Score distance (2 LV)

O

Score distance (2 LV)

O

Score distance (2 LV)

O

(a) AKU- Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(31)

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

Score distance (2 LV)

O

Score distance (2 LV)

O

Score distance (2 LV)

O

(a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

(32)

0 1 2 3 4 5 6

Score distance (2 LV)

O

Score distance (2 LV)

O

Score distance (2 LV)

O

Lampiran 13 Peta pencilan data menjulur n2=100, p=10 dan k=2 dengan proporsi pencilan 15%

(a) AKU-Klasik, (b) AKU-KMCD, (c) AKU-K, (d) AKU-KAO

(a) (b)

Gambar

Gambar 1 Peta pencilan
Tabel 1 Nilai medcouple tiap peubah
Gambar 3 Persentase Kesalahan II pada n1=500
Gambar 5 Persentase Kesalahan II pada
+3

Referensi

Dokumen terkait

Metode RPCR merupakan kombinasi antara metode AKU (Analisis Komponen Utama) kekar yang diterapkan pada peubah bebas dengan menggunakan ROBPCA (Robust Principal

.Perbaikan nilai kenormalan pada hasil-hasil AKU dengan transformasi Box-Cox yang direpresentasikan dalam dimensi rendah (dua atau tiga komponen utama) cenderung

Bagaimana penerapan analisis komponen utama robust dengan pendeteksian pencilan menggunakan metode minimum volume ellipsoid pada data Bayi Baru Lahir di Puskesmas

Analisis Regresi Robust pada Data Mengandung Pencilan dengan Menggunakan Metode Least Median Square ; Hufron Haditama; 051810101096; 2011; 33 Halaman; Jurusan Matematika

Analisis Regresi Robust pada Data Mengandung Pencilan dengan Menggunakan Metode Least Median Square ; Hufron Haditama; 051810101096; 2011; 33 Halaman; Jurusan Matematika

Apabila dalam model regresi linear berganda terdapat multikolinearitas antar vaiabel bebas, dan pencilan pada variabel bebas dan tak bebas maka metode yang

Pola grafik pada gugus X*Y* menunjukkan bahwa metode klasik tampak tidak kekar, ini ditunjukkan dari nilai MSE yang diberikan paling maksimum untuk setiap proporsi

Tulisan ini diharapkan dapat memberikan masukan tentang kriteria terbaik yang dapat digunakan untuk mernilih peubab bebas jika dalam data terdapat pengamatan pencilan..