Comparison Robust Biweight Midcovariance and Minimum Covariance Determinant Methods in Canonical Correlation Analysis

(1)

i

DETERMINANT

DALAM ANALISIS KORELASI KANONIK

FREZA RIANA

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(2)

ii

Dengan ini saya menyatakaan bahwa tesis “Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis

Korelasi Kanonik” adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan mau pun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Agustus 2012 Freza Riana NRP G152100051

(3)

iii

FREZA RIANA. Comparison Robust Biweight Midcovariance and Minimum Covariance Determinant Methods in Canonical Correlation Analysis. Supervised by ERFIANI and AJI HAMIM WIGENA.

Canonical Correlation Analysis (CCA) is a multivariate linear used to identify and quantify associations between two sets of random variables. Its standard computation is based on sample covariance matrices, which are however very sensitive to outlying observations. The robust methods are needed. There are two robust methods, i.e robust Biweight Midcovariance (BICOV) and Minimum Covariance Determinant (MCD) methods. The objective of this research is to compare the performance of both methods based on mean square error. The data simulations are generated from various conditions. The variation data consists of the proportion of outliers, and the kind of outliers: shift, scale, and radial outlier. The performance of robust BICOV method in CCA is the best compared to MCD and Classic.

(4)

iv

FREZA RIANA. Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik. Dibimbing oleh ERFIANI dan AJI HAMIM WIGENA.

Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK berdasarkan pada matriks peragam dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara kedua gugus peubah tersebut menjadi maksimum. Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan.

Ada beberapa jenis pengamatan pencilan, pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Jenis kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Jenis ketiga, radial outlier yaitu pengamatan pencilan yang mucul dari sebaran dengan rata-rata dan peragam berbeda. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias.

Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan menggunakan metode kekar. Beberapa metode kekar yang dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Matriks peragam yang dihasilkan dari metode-metode tersebut menjadi alternatif sebagai pengganti matriks peragam klasik.

Tujuan dari penelitian ini adalah: 1) Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi pencilan; 2) Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus (SUPAS) tahun 1995.

Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian ini terbitan Badan Pusat Statistik (BPS) tahun 1996. Data sekunder tersebut sebagai penerapan contoh kasus untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi dan kesejahteraan rakyat.

Data simulasi yang dibangkitkan yaitu: 1) Data populasi yang dibangkitkan dengan sebaran normal ganda , untuk gugus X dan gugus Y dengan 5000; 2) Data contoh tanpa pencilan (Gugus XY) yang berukuran nc=50 dan 100, dibangkitkan secara acak sebanyak M = 500 kali, mengikuti

(5)

v

struktur ekonomi terdiri dari empat peubah, yaitu Persentase PDRB dari sektor pertanian, persentase pekerja di sektor pertanian, persentase pekerja dengan jenis pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis, persentase pekerja dengan status pekerja utama sebagai pekerja keluarga. Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan, persentase rumah tangga dengan penerangan listrik/petromak, persentase rumah tangga yang memiliki TV/Video/Laserdisc, persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu, persentase penduduk tertinggi lulus SMA atau perguruan tinggi, persentase angka kelahiran total (TFR) tahun (1990-1995).

Berdasarkan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai mean square error (MSE) dengan pola grafik yang konsisten mulai dari data dengan proporsi pencilan 2% sampai dengan 12 %, baik untuk gugus X*Y maupun gugus X*Y*. Sebaliknya metode MCD dan klasik menghasilkan pola grafik yang tidak konsisten, dengan nilai MSE yang berubah-ubah untuk proporsi pencilan yang berbeda.

Pada kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE paling maksimum dan pola grafik yang berubah-ubah. Metode MCD merupakan metode yang lebih baik dibandingkan klasik, dengan menghasilkan nilai MSE lebih rendah dibandingkan klasik. Akan tetapi, nilai MSE yang paling rendah dan pola grafik yang konsisten untuk setiap proporsi pencilan yang berbeda ditunjukkan oleh metode BICOV.

Pada kasus data dengan kondisi radial outlier, tidak satupun keseluruhan hasil simulasi data menunjukkan metode klasik lebih baik daripada metodeMCD. Namun dibandingkan MCD, metode BICOV memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12% untuk gugus X*Y dan gugus X*Y*. Hasil dari kedua gugus data yaitu gugus struktur ekonomi dan kesejahteraan rakyat terdapat delapan pengamatan yang teridentifikasi sebagai pencilan. Kedua gugus struktur tersebut mempunyai keeratan hubungan sebesar 0.96, artinya gugus struktur ekonomi berkorelasi dengan gugus kesejahteraan rakyat dengan korelasi 0.96.

(6)

vi

© Hak Cipta milik IPB, tahun 2012

Hak Cipta dilindungi Undang-undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah dan pengutipan tersebut tidak merugikan kepentingan yang wajar bagi IPB.

(7)

vii

DETERMINANT

DALAM

ANALISIS KORELASI KANONIK

FREZA RIANA

Tesis

Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Program Studi Statistika Terapan

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(8)

viii

(9)

ix

Kanonik

Nama : Freza Riana

NRP : G152100051

Disetujui

Komisi Pembimbing

Dr. Ir. Erfiani, M.Si Ketua

Dr. Ir. Aji Hamim Wigena, M.Sc Anggota

Diketahui,

Ketua Program Studi Statistika Terapan

Dr. Ir. Anik Djuraidah, MS

Dekan Sekolah Pascasarjana

Dr. Ir. Dahrul Syah, M.Sc.Agr

(10)

x

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya, sehingga karya ilmiah yang berjudul “Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam

Analisis Korelasi Kanonik” ini dapat diselesaikan. Terima kasih penulis sampaikan kepada

1. Ibu Dr. Ir. Erfiani, M.Si selaku pembimbing I dan Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku pembimbing II, yang telah banyak memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini. 2. Ibu Dr. Ir. Anik Djuraidah, M.S selaku ketua Program Studi

Pascasarjana Statistika Terapan, yang telah memberikan motivasi untuk selalu gigih dan sabar selama masa perkuliahan.

3. Bapak Dr. Anang Kurnia selaku penguji luar komisi pada ujian tesis, yang telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini.

4. Kedua orangtua, Papa (Umar Surya Sudira) dan Ibu (Nurimah) serta kedua adik penulis (Dwi Febrina dan Rajab Febriantoro) yang telah memberikan dukungan, doa dan kasih sayang setiap saat.

5. Mb Mariana, Yani Quarta, dan Sahabat HIMASTER IPB 2010 (Statistika Terapan dan Statistika) atas kebersamaannya.

Penulis menyadari masih banyak kekurangan dalam penulisan karya ilmiah ini. Untuk itu kritik dan saran yang membangun sangat diperlukan oleh penulis untuk penulisan karya ilmiah selanjutnya. Semoga karya ilmiah ini dapat bermanfaat.

Bogor, Agustus 2012

(11)

xi

(12)

xii

Minimum Covariance Determinant ... 6

(13)

xiii

Halaman

1 Statistik deskriptif gugus data struktur ekonomi………... 25

2 Statistik deskriptif gugus data kesejahteraan rakyat…………... 25

(14)

xiv

pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………...

6 Grafik nilai MSE dengan kondisi shift outlier , nc=100

pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………

9 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=50

pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………

pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………..

pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*……….

(15)

xv

Halaman

1 Gugus data peubah struktur ekonomi……... 31

2 Gugus data peubah kesejahteraan rakyat .…….……... 32

3 Nilai MSE dengan jumlah pengamatn nc=50... 33

4 Nilai MSE dengan jumlah pengamatn nc=100….….…... 34

(16)

PENDAHULUAN Latar Belakang

Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda

untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK

berdasarkan pada matriks peragam (Dehon et al. 2000) dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara

kedua gugus peubah tersebut menjadi maksimum (Johnson dan Wichern 2002).

Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan

(Romanazzi 1992). AKK dapat diaplikasikan dalam berbagai bidang seperti

pemasaran, transportasi, kedokteran, meteorologi, perbankan, pertanian,

pendidikan, dan perekonomian.

Hawkins dan McLachlan (1997) menyatakan bahwa ada dua jenis

pengamatan pencilan. Pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi

peragamnya sama. Kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Hubert dan Van Driessen

(2004) menggabungkan keduanya yaitu pengamatan pencilan yang mucul dari

sebaran dengan rata-rata dan peragam berbeda, yang dikenal sebagai radial outlier. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias

(Yohai 2006).

Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan

menggunakan metode kekar (Rancher 2002). Beberapa metode kekar yang

dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Dehon et al. (2000) membangkitkan data simulasi dengan proporsi pencilan 10% pada kondisi scale outlier,untuk membandingkan metode Minimum Covariance Determinant (MCD), Projection Pursuit, Alternating Regression, dan Sign Test. Hasil simulasinya menunjukkan bahwa MCD memberikan nilai Mean Square Error (MSE) paling minimum. Cannon dan Hsieh (2008) menggunakan metode Biweight Midcovariance (BICOV) yang dikembangkan oleh Wilcox pada tahun 1997, untuk mengatasi pencilan pada

(17)

Pada penelitian ini akan dibandingkan kinerja metode BICOV dan MCD

melalui data simulasi, dan selanjutnya metode kekar terbaik yang diperoleh

diterapkan pada data bidang perekonomian untuk mengetahui korelasi antara

gugus struktur ekonomi dan kesejahteraan rakyat.

Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1. Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam

AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi

pencilan.

2. Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data

struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey

Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus

(18)

TINJAUAN PUSTAKA Analisis Korelasi Kanonik

Analisis korelasi kanonik (AKK) yang diperkenalkan oleh Hotelling pada

tahun 1936, bertujuan untuk mengidentifikasi dan menghitung hubungan linier

antara dua gugus peubah. Perhitungan AKK berfokus pada korelasi antara

kombinasi linier dari dua gugus peubah. Ide utama dari AKK adalah mencari

pasangan dari kombinasi linier yang memiliki korelasi terbesar. Pasangan

kombinasi linier ini disebut peubah kanonik dan korelasinya disebut korelasi

kanonik (Johnson dan Wichern 2002).

Misalkan gugus peubah pertama dan gugus kedua

, dengan . Karakteristik dari vektor peubah acak X dan

Y sebagai berikut:

Vektor rataan:

dengan adalah rata-rata peubah Xdan adalah rata-rata peubah Y. Matriks peragam dapat disusun sebagai berikut:

(1)

Matriks peragam pada persamaan (1), selanjutnya disebut sebagai matriks

peragam klasik, dengan:

adalah matriks peragam peubahXberukuran ( )

adalah matriks peragam peubah Yberukuran ( )

adalah matriks peragam peubah X dan peubah Y berukuran ( ) adalah matriks peragam peubah Y dan peubah X berukuran ( )

(19)

=

Vektor koefisien didapatkan dengan mencari akar ciri

dari matriks yang berpadanan dengan

vektor ciri Sedangkan untuk vektor koefisien didapatkan dengan

mencari akar ciri dari matriks yang

berpadanan dengan vektor ciri , sehingga vektor koefisien dan

adalah sebagai berikut:

dengan:

adalah vektor pembobot kanonik U ke-i adalah vektor pembobot kanonik V ke-i

adalah vektor ciri U ke-i adalah vektor ciri V ke-i

adalah min , i=

Selanjutya korelasi kanonik didapatkan dari:

Nilai koefisien korelasi kanonik berada pada kisaran dan kuadrat

korelasi kanonik merupakan proporsi keragaman peubah kanonik U yang dapat dijelaskan oleh peubah kanonik V (Johnson dan Wichern 2002).

Metode Kekar

Perhitungan AKK berdasarkan matriks peragam klasik sangat sensitif

terhadap pencilan (Romanazzi 1992), sehingga diperlukan metode kekar untuk

mengatasi pencilan (Rancher 2002). Beberapa metode kekar telah dikembangkan

(20)

matriks peragam yang dihasilkan dari kedua metode tersebut menjadi alternatif

sebagai pengganti matriks peragam klasik.

Biweight Midcovariance

Korelasi Pearson merupakan hubungan antara dua peubah yang bisa

dipengaruhi oleh keberadaan suatu pengamatan pencilan (Wilcox 2004). Biweight midcorrelation merupakan alternatif sebagai pengganti dari korelasi Pearson. Biweightberasal dari pembobot Tukey’s bisquare yaitu:

Misalkan adalah jumlah pengamatan, adalah median dari x, dan adalah median dari y, sehingga pembobot untuk dan adalah:

dengan adalah median dari dan adalah median dari

.

Peragam Biweight Midcovariance dari x dan y:

dengan:

jika , selainnya

Peragam Biweight Midvariance dari x:

Peragam Biweight Midvariance dari y:

Matriks peragam BICOV sebagai berikut:

(21)

Sehingga didapatkan Biweight Midcorrelation adalah:

Nilai korelasi pada Biweight Midcorrelation sama dengan nilai korelasi Pearson yaitu berada pada kisaran -1 ≤ ≤ +1.

Matriks peragam BICOV juga dapat digunakan dalam AKK yaitu dengan

menggantikan matriks peragam klasik, sehingga didapatkan nilai korelasi kanonik

sebagai berikut:

Minimum Covariance Determinant

Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw pada tahun 1985. Metode MCD bertujuan mencari submatriks H yang berisi

unsur-unsur matriks sejumlah h elemen yang matriks peragamnya memiliki determinan terkecil (Rousseeuw 1999). Pada prinsipnya metode MCD adalah

mencari submatriks H berukuran yang dipilih secara acak sejumlah h elemen dari matriks X berukuran , dengan h merupakan bilangan bulat terkecil dari . Kemungkinan banyaknya submatriks H yang dapat

dipilih secara acak dari matriks X yaitu sebanyak kombinasi h dari n yang berbeda, . Submatriks H digunakan untuk memperoleh dugaan vektor rataan

dan matriks peragam. Jika n kecil, maka penduga MCD relatif mudah dan cepat untuk diperoleh, tetapi jika n besar, maka perlu waktu lama dan banyak sekali kombinasi submatriks yang harus diperoleh untuk mendapatkan penduga MCD.

Keterbatasan tersebut dapat diatasi dengan pendekatan FAST-MCD dengan

algoritma C-Step yang dikembangkan oleh Rousseeuw dan Vandriessen (1999).

Misalkan , dengan merupakan submatriks berukuran

dari matriks berukuran . Hitung vektor rataan dan matriks peragam:

(5)

(22)

, dengan i=1,2,..n.

Urutkan jarak untuk setiap pengamatan, dengan

Selanjutnya, sejumlah h pengamatan yang menghasilkan jarak terkecil menjadi unsur matriks sedemikian sehingga

. Kemudian, hitung dan berdasarkan matriks

, dengan det( det( .

Penjelasan di atas mensyaratkan det( , karena jika

det( maka nilai objektif minimum untuk mendapatkan determinan

terkecil telah ditemukan. Selain itu, jika det( , penggunaan formulasi

di atas akan menghasilkan yang det( det( . Dalam

FAST-MCD akan digunakan algoritma C-Step, ada pun algoritma dari C-Step sebagai berikut:

1. Tetapkan H(old), hitung mcd(old) dan mcd(old).

2. Hitung jarak relatif mcd(old)(i) untuk i=1, 2, …, n

3. Urutkan jarak relatif hasil permutasi dari dengan d(old)

d(old) d(old) .

4. Tentukan H(new)

5. Hitung mcd(new)dan mcd new)

.

6. Pengulangan algoritma C-Step akan menghasilkan sejumlah proses iterasi.

Proses iterasi akan berhenti, jika det( atau

det( det( .

7. Jika kondisi di atas belum terpenuhi, maka proses iterasi akan terus

(23)

Diagram alir FAST-MCD dapat dilihat pada Gambar 1:

Ya

Tidak

Gambar 1 Diagram Alir FAST-MCD

merupakan matriks peragam dengan determinan terminan terkecil. Matriks

peragam MCD tersebut dapat dituliskan sebagai berikut:

(5) Matriks pergam MCD dapat digunakan sebagai pengganti matriks peragam klasik

dalam AKK. Sehingga didapatkan nilai korelasi kanonik dari:

Pencilan

Pencilan merupakan suatu pengamatan yang menyimpang cukup jauh dari

pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan

tersebut berasal dari sebaran data yang berbeda (Hawkins 1997). Berdasarkan

pengaruh pengamatan pencilan terhadap data, pencilan dapat dibedakan menjadi

tiga jenis. Pencilan pertama yaitu shift outlier, merupakan pengamatan pencilan yang berasal dari sebaran yang berbeda dengan sebaran dasarnya (tanpa pencilan)

tetapi peragamnya sama. Shift outlier mampu menggeser vektor rataan sehingga pusat data menjadi berubah. Pada data menyebar normal, pergeseran vektor rataan

Misalkan didefinisikan

relatif yang terkecil d(1)

(24)

bisa melalui penambahan setiap vektor rataan dengan satuan. Data dengan

kondisi shift outlier dapat dinyatakan dengan persamaan:

(7)

menyatakan proporsi pencilan dalam data dan menyatakan vektor rataan

yang berfungsi sebagai shift outlier.

Jenis kedua, scale outlier, yaitu pengamatan pencilan yang berasal dari peragam yang berbeda tetapi sebarannya sama. Scale outlier mampu merubah bentuk ellipsoid. Data dengan kondisi scale outlier dapat dinyatakan dengan persamaan:

(8)

menyatakan matriks peragam yang berfungsi sebagai scale outlier.

Jenis ketiga merupakan gabungan dua jenis pencilan yaitu shift outlier dan scale outlier, yang disebut dengan radial outlier (Hubert dan Van Driessen 2004). Radial outlier mampu menggeser pusat ellipsoid dan merubah bentuk ellipsoid. Data dengan kondisi radial outlier dinyatakan dengan persamaan:

(9)

Pendeteksian Pencilan

Identifikasi pencilan pada peubah ganda umumnya didasarkan pada jarak

Mahalanobis (Suryana 2008). Johnson dan Wichern (1998) menyatakan bahwa

pengamatan ke-i diidefinisikan sebagai pencilan jika jaraknya lebih besar dari nilai khi-kuadrat pada sejumlah peubah. Perhitungan tersebut sebagai berikut:

dan merupakan vektor rataan dan matriks peragam.

Rousseeuw dan Von Zomeren (1990) menjelaskan bahwa penggunaan

jarak Mahalanobis untuk pendeteksian pencilan pada peubah ganda menjadi tidak

maksimal jika terdapat lebih dari satu pengamatan pencilan, karena adanya

pengaruh masking dan swamping. Masking terjadi pada saat pengamatan pencilan tidak terdeteksi karena adanya pengamatan pencilan yang berdekatan, sedangkan

(25)

Salah satu metode kekar yang dikembangkan untuk mengatasi pencilan

dengan jumlah lebih dari satu pengamatan pada kasus peubah ganda yaitu jarak

Mahalanobis kekar MCD (Hubert et al. 2007).

Suatu pengamatan ke-i didefinisikan sebagai pencilan jika:

(10)

dengan dan mcd merupakan vektor rataan dan matriks peragam dari

(26)

DATA DAN METODE Data

Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan

data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur

kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian

ini merupakan terbitan Badan Pusat Statistik (BPS) tahun 1996 dalam tesis

Harmini (1997) yang berjudul “Hubungan Struktur Ekonomi dengan

Kesejahteraan Rakyat”. Data sekunder tersebut sebagai penerapan contoh kasus

untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi

dan kesejahteraan rakyat.

Data Simulasi

Data Simulasi terdiri dari dua gugus peubah, didefinisikan gugus pertama

sebagai gugus X yang berukuran dan gugus kedua yaitu gugus Y yang

berukuran , dengan , dan . Kedua gugus dibangkitkan

dari sebaran normal ganda.

Kinerja metode BICOV dan MCD dalam AKK diukur melalui berbagai

keragaman data simulasi. Keragaman data simulasi berdasarkan pada perbedaan:

1. Jumlah pengamatan untuk tiap peubah (nc=50,100)

2. Proporsi pencilan 2%, 4%, 6%, 8%, 10%, 12%)

3. Jenis pencilan (shift outlier, scale outlier, radial outlier)

4. Gugus peubah dengan data pencilan (gugus X*Y dan gugus X*Y*).

a) Gugus X*Y didefinisikan untuk setiap peubah pada gugus X

diberikan sejumlah proporsi pencilan dengan jumlah yang sama,

sedangkan gugus Y tidak diberikan pencilan.

b) Gugus X*Y* didefinisikan untuk setiap peubah pada gugus X

dan peubah pada gugus Y diberikan sejumlah proporsi pencilan

dengan jumlah yang sama.

Data Sekunder

Gugus peubah yang diamati dalam penelitian ini yaitu gugus peubah

struktur ekonomi dan gugus peubah kesejahteraan rakyat. Gugus peubah struktur

(27)

(X1), persentase pekerja di sektor pertanian (X2) , persentase pekerja dengan jenis

pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2(tenaga

kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis) (X3),

persentase pekerja dengan status pekerja utama sebagai pekerja keluarga (X4).

Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu

persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan (Y1),

persentase rumah tangga dengan penerangan listrik/petromak (Y2), persentase

rumah tangga yang memiliki TV/Video/Laserdisc (Y3), persentase rumah tangga

dengan jenis bahan bakar untuk memasak minyak tanah/kayu (Y4), persentase

penduduk tertinggi lulus SMA atau perguruan tinggi (Y5), persentase angka

kelahiran total (TFR) tahun (1990-1995) (Y6).

Metode

Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan

penelitian dilakukan melalui tahapan sebagai berikut:

1. Perbandingan metode BICOV dan MCD

a) Membangkitkan data populasi

Membangkitkan data populasi untuk gugus X berukuran

dan gugus Y berukuran , dengan , dan

. Data populasi gugus tersebut dibangkitkan dengan

sebaran normal ganda , dengan dan

matriks peragamnya

b) Membangkitkan data contoh tanpa pencilan

Membangkitkan data contohmengikuti sebaran seperti data

populasi, dengan jumlah pengamatan nc=50 dan 100. Data contoh

dibangkitkan sebanyak M = 500 kali. c) Membangkitkan data dengan pencilan

Simulasi untuk data pencilan didapatkan dengan mengubah

(28)

kondisi pencilan. Kondisi berbagai jenis pencilan dibangkitkan

pada gugus X*Y dan gugus X*Y*, sebagai berikut:

i. Pada kondisi ini pengamatan dalam bentuk shift outlier dengan rata-rata dan matriks peragam mengikuti persamaan (7).

Masing-masing parameter diberikan nilai:

1)

dengan

2)

dengan

ii. Pada kondisi ini pengamatan dalam bentuk scale outlier dengan rata-rata dan matriks peragam mengikuti persamaan (8).

Masing-masing parameter diberikan nilai:

1)

.

2)

.

iii. Pada kondisi ini pengamatan dalam bentuk radial outlier dengan rata-rata dan matriks peragam mengikuti persamaan (9).

(29)

1)

dengan

.

2)

, dengan

.

d) Menentukan matriks peragam

i. Menghitung matriks peragam dengan metode klasik untuk

gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.

ii. Menghitung matriks peragam dengan metode BICOV untuk

iii. Menghitung matriks peragam dengan metode MCD untuk

e) Menentukan nilai korelasi kanonik

i. Menghitung nilai korelasi kanonik klasik untuk gugus

populasi, gugus XY, gugus X*Y dan gugus X*Y*.

ii. Menghitung nilai korelasi kanonik dengan matriks peragam

BICOV untuk gugus populasi, gugus XY, gugus X*Y dan

gugus X*Y*.

iii. Menghitung nilai korelasi kanonik dengan matriks peragam

MCD untuk gugus populasi, gugus XY, gugus X*Y dan

gugus X*Y*.

f) Menghitung nilai MSE untuk metode klasik, BICOV, dan MCD.

MSE =

(30)

dengan:

m: ,

adalan nilai korelasi contoh bangkitan ke-m adalah nilai korelasi populasi

didapatkan dari tanh-1 (Dehon et al. 2000) g) Mengevaluasi kinerja metode klasik, BICOV dan MCD

Membandingkan nilai MSE dari ketiga metode tersebut.

Metode tersebut dikatakan terbaik atau paling kekar apabila

memberikan nilai MSE paling minimum (Dehon et al. 2000).

2. Penerapan metode BICOV dan MCD.

Tahapan-tahapan yang dilakukan dalam analisis ini :

1) Mengidentifikasi adanya pencilan pada gugus data struktur

ekonomi dan gugus data kesejahteraan rakyat dengan jarak

mahalanobis kekar.

2) Menghitung matriks peragam dengan metode kekar yang terbaik

dari hasil simulasi bangkitan.

3) Mengukur hubungan antara gugus data struktur ekonomi dan gugus

(31)

Bangkitkan M=500 kali

Gambar 2 Diagram Alir Tahapan I Penelitian

Gambar 3 Diagram Alir Tahapan II Penelitian

Data

Mengidentifikasi pencilan

Menghitung matriks peragam Klasik

Menduga matriks peragam dengan metode kekar

Menghitung korelasi kanonik untuk tiap metode

Mulai

Selesai

Membangkitkan data populasi

(

Membangkitkan data contoh

( berukuran N

Membangkitkan data dengan pencilan Gugus X*Y dan Gugus X*Y*

Menduga matriks peragam dengan metode klasik, BICOV DAN MCD

Menghitung nilai korelasi kanonik

Mengevaluasi kinerja AKK dengan membandingkan nilai MSE

Mulai

(32)

HASIL DAN PEMBAHASAN

Simulasi

Perbandingan kinerja metode BICOV dan MCD dalam AKK melalui data

simulasi dimaksudkan untuk mencari metode kekar yang memberikan nilai MSE

paling minimum. Kinerja kedua metode diukur melalui berdasarkan berbagai,

kondisi pencilan, proporsi pencilan, jumlah pengamatan dan gugus peubah dengan

data pencilan. Hasil keseluruhan simulasi dapat diamati pada Lampiran 3 dan

Lampiran 4. Penjelasan nilai MSE pada lampiran tersebut digambarkan pada

Gambar 4 sampai dengan Gambar 15. Keseluruhan gambar menunjukkan

perbandingan kinerja ketiga metode yaitu Klasik (garis dengan simbol lingkaran),

BICOV (garis dengan simbol persegi) dan MCD (garis dengan simbol segitiga).

Sumbu absis menunjukkan proporsi pencilan dan sumbu ordinat menunjukkan

nilai MSE dari korelasi kanonik pertama. Semakin rendah posisi garis semakin

kecil nilai MSE yang berarti semakin baik kinerja suatu metode. Sebaliknya,

semakin tinggi posisi garis semakin besar nilai MSE yang berarti semakin buruk

kinerja suatu metode.

Kinerja Metode

Pada bagian ini ditunjukkan kinerja dari ketiga metode, yaitu metode

klasik, BICOV, dan MCD dengan kondisi pencilan shift outlier, scale outlier, dan radial outlier untuk sejumlah proporsi pencilan dengan jumlah pengamatan contoh yang berbeda.

Kondisi Shift Outlier

Gambar 4 menunjukkan bahwa metode BICOV memberikan nilai MSE

paling minimum dengan pola grafik yang konsisten. Keseluruhan nilai MSE

memberikan nilai yang sama sebesar 0.02 untuk setiap proporsi pencilan yang

berbeda pada gugus X*Y dan gugus X*Y*, sedangkan metode klasik dan MCD

tampak tidak kekar. Pola grafik metode klasik menunjukkan bahwa pertambahan

proporsi pencilan diikuti bertambahnya nilai MSE. Sebaliknya secara umum nilai

MSE dari metode MCD menurun dengan penambahan proporsi pencilan.

Gambar 5 menunjukkan bahwa metode klasik memberikan nilai MSE

(33)

gugus X*Y*. Berbeda dengan metode klasik, metode MCD menunjukkan pola

grafik yang konsisten mulai dari proporsi pencilan 2% sampai dengan 10%, akan

tetapi pola grafik berubah pada proporsi pencilan 12%. Dibandingkan kedua

metode tersebut, metode BICOV memberikan nilai MSE paling minimum,

sebesar 0.02 dengan pola grafik yang konsisten untuk setiap proporsi pencilan.

(a) (b)

Gambar 4 Grafik nilai MSE dengan kondisi shift outlier , nc=50

pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*

(a) (b)

Gambar 6 dan Gambar 7 menggambarkan gugus data dengan kondisi shift

outlier dan serta jumlah pengamatan yang sama Nc=100.

Gambar 6 untuk semua proporsi pencilan menunjukkan bahwa metode BICOV

memberikan nilai MSE paling minimum dengan pola grafik yang konsisten. Pada

gugus X*Y dengan proporsi pencilan 2% hingga 10% memberikan nilai MSE

yang sama sebesar 0.01 dan 0.02 untuk proporsi pencilan 12%. Sedangkan pada

gugus X*Y* memberikan nilai MSE yang sama sebesar 0.01 untuk tiap hasil

simulasi dengan proporsi pencilan yang berbeda. Metode klasik dan MCD

memberikan nilai MSE yang lebih besar dibandingkan metode BICOV, dengan

(34)

Berdasarkan grafik pada Gambar 7, terlihat bahwa pola grafik dari metode

klasik berubah-ubah dan memberikan nilai MSE paling maksimum. Pada metode

MCD, pola grafik menunjukkan kekonsistenan untuk gugus X*Y dengan nilai

MSE sebesar 0.02. Namun pada gugus X*Y* pola grafik yang ditunjukkan hanya

konsisten sampai proporsi pencilan 10% saja sebesar 0.02, kemudian berubah

menjadi 0.3 pada proporsi pencilan 12%. Pola grafik yang konsisten dan

memberikan nilai MSE paling minimum adalah metode BICOV. Keseluruhan

nilai MSE yang diberikan metode BICOV sebesar 0.01 pada setiap hasil simulasi

untuk setiap proporsi pencilan.

(a) (b)

Keseluruhan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai MSE dengan pola grafik yang

konsisten mulai dari gugus data tanpa pencilan sampai dengan proporsi pencilan

12 %, baik untuk gugus X*Y maupun gugus X*Y*.

Kondisi Scale Outlier

Berdasarkan grafik pada Gambar 8 terlihat bahwa pola grafik metode

(35)

Sedangkan pada metode MCD, nilai MSE yang diberikan lebih rendah, sebesar

0.08 untuk gugus data tanpa pencilan dan sampai dengan proporsi pencilan 4%

untuk gugus X*Y. Kemudian pada proporsi pencilan 6% sampai dengan 12%

memberikan nilai MSE sebesar 0.07. Pola grafik yang berubah-ubah juga terlihat

pada gugus X*Y* dengan nilai MSE 0.08, 0.07, 0.08 untuk proporsi pencilan 0%,

2%, 4%, kemudian 0.03 untuk proporsi 6%, selanjutnya pada proporsi pencilan

8% sampai dengan 12% menghasilkan nilai MSE yang sama sebesar 0.07.

Dibandingkan metode MCD, metode BICOV memberikan nilai MSE lebih

minimum, terlihat dengan pola grafik yang paling rendah untuk gugus X*Y dan

gugus X*Y* dengan proporsi pencilan mulai dari 2% sampai dengan proporsi

pencilan terbesar. Nilai MSE untuk gugus X*Y yaitu 0.02 pada proporsi pencilan

2% sampai dengan 4% dan 0.03 mulai dari 6% sampai dengan proporsi pencilan

terbesar. Pada gugus X*Y* dengan proporsi pencilan 2% sampai dengan 10%,

nilai MSE yang diberikan sama sebesar 0.02, hanya pada proporsi pencilan 12%,

nilai MSE sebesar 0.03.

(a) (b)

Gambar 8 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=50

(a) (b)

Gambar 9 menunjukkan bahwa metode BICOV merupakan metode yang

(36)

pencilan yang berbeda pada gugus X*Y dan gugus X*Y*, terlihat dengan pola

grafik yang ditunjukkan. Sedangkan kinerja metode klasik dan metode MCD

terlihat tidak kekar, yang ditunjukkan dengan pola grafik yang berubah-ubah.

Kondisi yang sama untuk gugus X*Y dan gugus X*Y*, yaitu scale outlier dengan faktor pengali K= 100 dan K=144 serta jumlah pengamatan Nc=100 yang tertera pada Gambar 10 dan Gambar 11. Berdasarkan grafik pada Gambar 10,

pada gugus X*Y menunjukkan bahwa metode klasik menghasilkan nilai MSE

paling maksimum, dengan pola grafik yang semakin menaik untuk setiap

pertambahan proporsi pencilan mulai dari 2% sampai dengan 12%. Dibandingkan

dengan metode klasik, metode MCD menunjukkan pola grafik yang konsisten,

dengan memberikan nilai MSE sebesar 0.03 mulai dari proporsi pencilan 2%

sampai dengan 12%. Namun dibandingkan dengan metode MCD, metode BICOV

memberikan nilai MSE paling minimum, terlihat dari pola grafik mulai dari gugus

pengamatan dengan proporsi pencilan 2% sampai dengan 8% sebesar 0.02 dan

0.01 untuk proporsi pencilan 10% sampai dengan 12% .

Gugus X*Y* pada Gambar 10 menunjukkan bahwa metode klasik tampak

tidak kekar terhadap pengamatan pencilan, terlihat dengan pola grafik yang

berubah-ubah dan nilai MSE paling maksimum. Berbeda dengan metode klasik,

metode MCD menunjukkan pola grafik yang kosisten, dengan memberikan nilai

MSE sebesar 0.03 untuk setiap proporsi pencilan. Namun dibandingkan kedua

metode tersebut, metode BICOV lebih kekar, terlihat dengan pola grafik yang

konsisten dengan nilai MSE paling minimum sebesar 0.01 untuk setiap proporsi

pencilan.

Pola grafik pada Gambar 11 terlihat serupa dengan pola grafik pada

Gambar 10. Grafik pada gugus X*Y menunjukkan bahwa nilai MSE yang

diberikan oleh metode klasik paling maksimum, terlihat dari pola grafiknya yang

selalu bertambah untuk setiap pertambahan proporsi pencilan. Sebaliknya, metode

BICOV tampak lebih kekar, terlihat dari nilai MSE yang paling rendah dengan

pola grafik yang konsisten untuk setiap proporsi pencilan.

Pola grafik pada gugus X*Y* menunjukkan bahwa metode klasik tampak

tidak kekar, ini ditunjukkan dari nilai MSE yang diberikan paling maksimum

untuk setiap proporsi pencilan di antara metode lainnya. Sedangkan metode MCD,

(37)

setiap proporsi pencilan. Akan tetapi, dibandingkan dengan metode MCD, metode

BICOV tampak lebih kekar, terlihat dengan pola grafik yang konsisten dan nilai

MSE yang minimum untuk berbagai proporsi pencilan sebesar 0.01.

(a) (b)

Pada jumlah pengamatan Nc=50 dan Nc=100 dengan kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE yang paling maksimum dan pola grafik yang berubah-ubah. Sedangkan metode

MCD merupakan kinerja metode kekar yang lebih baik dibanding metode klasik.

Namun dibandingkan MCD, metode BICOV merupakan metode paling kekar,

dengan memberikan nilai MSE paling minimum dan pola grafik yang konsisten

untuk setiap proporsi pencilan .

Kondisi Radial Outlier

(38)

Pada Gambar 12 menunjukkan bahwa metode BICOV memberikan nilai

MSE paling minimum di antara metode lainnya. Nilai MSE metode BICOV untuk

gugus X*Y mulai dari proporsi pencilan 2% hingga 12 % adalah 0.02, 0.03, 0.03,

0.03, 0.04, dan 0.04. Sedangkan pada metode MCD memberikan nilai MSE

berturut-turut mulai dari proporsi pencilan 2% sampai dengan proporsi pencilan

terbesar adalah 0.08, 0.07, 0.06, 0.06, 0.06 dan 0.06. Dibandingkan dua metode

BICOV dan MCD, metode klasik tampak tidak kekar dengan nilai MSE paling

maksimum. Begitu juga pada gugus X*Y*, metode klasik memberikan nilai MSE

paling maksimum, terlihat dari pola grafik yang lebih tinggi di antara metode

lainnya. Metode MCD memberikan nilai MSE lebih kecil daripada metode klasik,

akan tetapi metode BICOV memberikan nilai MSE paling kecil mulai dari

proporsi pencilan terkecil sampai dengan proporsi pencilan 12%.

(a) (b)

Gambar 12 Grafik nilai MSE dengan kondisi radial outlier K1=100, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*

(a) (b)

Gambar 13 Grafik nilai MSE dengan kondisi radial outlier K2=144,

nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*

Pola garfik pada Gambar 13 untuk keseluruhan hasil simulasi pada gugus

X*Y dan gugus X*Y* dengan proporsi pencilan 2% sampai dengan 12%

menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum di

(39)

Gambar 14 dan 15 merupakan grafik untuk gugus data dengan kondisi

radial outlier , dan , serta jumlah

pengamatan yang sama Nc=100. Pola grafik pada Gambar 14 menunjukkan

bahwa metode BICOV tampak lebih kekar dibandingkan metode klasik dan

MCD, dengan nilai MSE paling minimum sebesar 0.01 untuk setiap proporsi

pencilan. Begitu juga pada Gambar 15, metode BICOV menghasilkan nilai MSE

paling minimum mulai dari proporsi pencilan 2% sampai dengan 12%, dengan

pola grafik yang konsisten.

(a) (b)

Gambar 14 Grafik nilai MSE dengan kondisi radial outlier dan K1=100, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*

(a) (b)

Gambar 15 Grafik nilai MSE dengan kondisi radial outlier dan K2=144, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*

Pada kasus gugus data dengan kondisi radial outlier, tidak satupun hasil simulasi data menunjukkan metode MCD lebih baik daripada metode BICOV.

Sedangkan metode klasik merupakan metode paling buruk di antara metode

lainnya. Keseluruhan hasil simulasi menunjukkan bahwa metode BICOV

memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12%

(40)

Penerapan Metode BICOV

Pada bagian ini dibahas penerapan AKK untuk mengidentifikasi dan

mengukur keeratan hubungan antara gugus data struktur ekonomi dengan gugus

kesejahteraan rakyat menggunakan metode BICOV.

Pertama dikemukakan statistik deskriptif dari peubah-peubah pada gugus

data struktur ekonomi dan kesejahteraan rakyat. Selanjutnya, dilakukan

pendeteksian pencilan pada kesuluruhan data pengamatan. Kemudian mengukur

keeratan hubungan kedua gugus peubah dengan menggantikan matriks peragam

klasik dengan matriks peragam BICOV.

Deskripsi data struktur ekonomi dan data kesejahteraan rakyat disajikan

pada Tabel 1 dan Tabel 2. Tabel 1 menunjukkan simpangan baku yang cukup

besar terdapat pada peubah (persentase pekerja di sektor pertanian). Hal ini

berarti bahwa pekerja di sektor pertanian cukup beragam di setiap provinsi.

Sedangkan pada gugus peubah kesejahteraan rakyat yang tertera pada Tabel 2,

peubah yang menunjukkan simpangan cukup besar terdapat pada peubah

(persentase rumah tangga dengan perencanaan listrik/petromak) dan

(persentase rumah tangga memiliki TV/Video/Laserdisc).

Tabel 1 Statistik deskriptif gugus data struktur ekonomi

Peubah Rata-rata Simpangan baku Minimum Maksimum

X1 27.22 10.22 0.22 43.25

X2 52.84 15.94 0.83 74.6

X3 10.55 3.98 6.01 27.07

X4 22.16 7.63 1.69 39.20

Tabel 2 Statistik deskriptif gugus data kesejahteraan rakyat

Peubah Rata-rata Simpangan baku Minimum Maksimum

Y1 11.43 6.91 4.56 35.76

Tahap berikutnya, pengidentifikasian pencilan dengan jarak Mahalanobis

(41)

pencilan, terlihat dari nilai jarak mahalanobis kekar (di2RD) yang dihasilkan lebih

Sumatera Barat 437.56* Timor-Timor 8.13 Riau 9.18 Kalimantan Barat 6.83 Jambi 11.69 Kalimantan Tengah 9.67 Sumatera Selatan 3.42 Kalimantan Selatan 8.21 Bengkulu 96.80* Kalimantan Timur 8.13 Lampung 6.92 Sulawesi Utara 491.22* DKI Jakarta 740.53* Sulawesi Tengah 10.83 Jawa Barat 11.50 Sulawesi Selatan 289.35* Jawa Tengah 6.95 Sulawesi Tenggara 13.52 DI Yogyakarta 13.30 Maluku 155.50* Jawa Timur 11.09 Irianjaya 11.10

Bali 139.36*

Keterangan: *) di2RD >

Hasil korelasi kanonik pertama dari gugus peubah struktur ekonomi dan

kesejahteraan rakyat sebesar 0.96. Nilai korelasi tersebut menjelaskan bahwa ada

hubungan antara kedua gugus peubah tersebut sebesar 0.96. Nilai tersebut hampir

sama dengan nilai korelasi kanonik pertama yang dihasilkan dengan

(42)

SIMPULAN DAN SARAN Simpulan

Biweight Midcovariance merupakan metode kekar terbaik yang memberikan nilai mean square error paling minimum dibandingkan metode klasik dan metode kekar Minimum Covariance Determinant dalam Analisis korelasi kanonik dengan berbagai kondisi pencilan (shift outlier, scale outlier, radial outlier) dan proporsi pencilan mulai dari 2% sampai dengan 12%.

Nilai korelasi kanonik pertama dari korelasi antar gugus peubah struktur

ekonomi dan kesejahteraan rakyat dengan menggunakan metode biweight midcovariance sebagai pengganti matriks peragam klasik, diperoleh sebesar 0.96, artinya hubungan antara kedua gugus peubah tersebut sebesar 0.96.

Saran

Penelitian selanjutnya perlu ditambahkan lagi keragaman dari simulasi

(43)

(44)

DAFTAR PUSTAKA

Cannon AJ, Hsieh WW. 2008. Robust Nonlinear Canonical Correlation Analysis : Application to Seasonal Climate Forecasting. http://www.nonlin-processes-geophys.net/15/221/2008/npg-15-221-2008.pdf. [20 Desember 2011].

Dehon C, Filzmoser P, Croux C. 2000. Robust Methods for Canonical CorrelationAnalysis.http://www.statistik.tuwien.ac.at/public/filz/papers/na mur00.pdf. [20 Desember 2011].

Dillon WR, Goldstein M. 1984. Multivariate Analysis Methods and Application. John Wiley & Sons. New York.

Harmini. 1997. Hubungan Struktur Ekonomi dengan Kesejahteraan Rakyat: Suatu Pendekatan dengan Analisis Korelasi Kanonik [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Hawkins DM, McLachlan GJ. 1997. High Breakdown Linear Discriminant Anaysis. Journal of the American Statistical Association, 437:136 –143.

Hubert M, Van Driessen K. 2004. Fast and Robust Discriminant Analysis, Computational Statistics and Data Analysis. 45: 301-320. ftp://adrem.ua.ac.be/pub/preprints/02/Fasrob02.pdf. [ 7 Maret 2012].

Johnson RA, Winchern DW. 2002. Applied Multivariate Statistical Analysis. Fourth Edition. New Jersey : Prentice-Hall International inc.

Marazzi A. 1993. Algorithms, Routines and S functions for Robust Statistics. California: Wadworth, Inc.

Rancher AC. 2002. Methods of Multivariate Analysis. Second Edition. John Wiley & Sons. New York.

Romanazzi M. 1992. Influence in Canonical Correlation Analysis. Psychometrika. 57:237-259. http://www.springerlink.com/content/l24p13843114jr65/. [1 April 2012].

Rousseeuw PJ, Van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator. Technometrics. 3:212-223. ftp://ftp.win.ua.ac.be/pub/preprints/99/Fasalg99.pdf. [20 Februari 2012]

Todorov V, Pires AM. 2007. Comparative Performance of Several Robust Linier Discriminant Analysis Methods. Statistical Journal.50:63-68. http://www.ine.pt/revstat/pdf/rs070104.pdf. [3 Maret 2012]

(45)

Yohai VJ. 2006. A Fast Algorithm for S-regression Estimates. Journal of

Computational and Graphical Statistics. 15:414-427.

(46)

Lampiran 1 Data gugus peubah struktur ekonomi

X3: Persentase dengan jenis pekerjaan utama 1 (tenaga professional, teknisi dan

yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan), atau 3 (tenaga usaha dan yang sejenis)

(47)

Lampiran 2 Data gugus peubah kesejahteraan rakyat

Y1: Persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan Y2: Persentase rumah tangga dengan penerangan listrik/petromak

Y3: Persentase rumah yang memiliki TV/Video/Laserdisc

Y4: Persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak

tanah/kayu

(48)

(49)

(50)

iii

FREZA RIANA. Comparison Robust Biweight Midcovariance and Minimum Covariance Determinant Methods in Canonical Correlation Analysis. Supervised by ERFIANI and AJI HAMIM WIGENA.

Canonical Correlation Analysis (CCA) is a multivariate linear used to identify and quantify associations between two sets of random variables. Its standard computation is based on sample covariance matrices, which are however very sensitive to outlying observations. The robust methods are needed. There are two robust methods, i.e robust Biweight Midcovariance (BICOV) and Minimum Covariance Determinant (MCD) methods. The objective of this research is to compare the performance of both methods based on mean square error. The data simulations are generated from various conditions. The variation data consists of the proportion of outliers, and the kind of outliers: shift, scale, and radial outlier. The performance of robust BICOV method in CCA is the best compared to MCD and Classic.

(51)

iv

FREZA RIANA. Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik. Dibimbing oleh ERFIANI dan AJI HAMIM WIGENA.

Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK berdasarkan pada matriks peragam dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara kedua gugus peubah tersebut menjadi maksimum. Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan.

Ada beberapa jenis pengamatan pencilan, pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Jenis kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Jenis ketiga, radial outlier yaitu pengamatan pencilan yang mucul dari sebaran dengan rata-rata dan peragam berbeda. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias.

Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan menggunakan metode kekar. Beberapa metode kekar yang dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Matriks peragam yang dihasilkan dari metode-metode tersebut menjadi alternatif sebagai pengganti matriks peragam klasik.

Tujuan dari penelitian ini adalah: 1) Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi pencilan; 2) Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus (SUPAS) tahun 1995.

Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian ini terbitan Badan Pusat Statistik (BPS) tahun 1996. Data sekunder tersebut sebagai penerapan contoh kasus untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi dan kesejahteraan rakyat.

Data simulasi yang dibangkitkan yaitu: 1) Data populasi yang dibangkitkan dengan sebaran normal ganda , untuk gugus X dan gugus Y dengan 5000; 2) Data contoh tanpa pencilan (Gugus XY) yang berukuran nc=50 dan 100, dibangkitkan secara acak sebanyak M = 500 kali, mengikuti

(52)

v

struktur ekonomi terdiri dari empat peubah, yaitu Persentase PDRB dari sektor pertanian, persentase pekerja di sektor pertanian, persentase pekerja dengan jenis pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis, persentase pekerja dengan status pekerja utama sebagai pekerja keluarga. Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan, persentase rumah tangga dengan penerangan listrik/petromak, persentase rumah tangga yang memiliki TV/Video/Laserdisc, persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu, persentase penduduk tertinggi lulus SMA atau perguruan tinggi, persentase angka kelahiran total (TFR) tahun (1990-1995).

Berdasarkan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai mean square error (MSE) dengan pola grafik yang konsisten mulai dari data dengan proporsi pencilan 2% sampai dengan 12 %, baik untuk gugus X*Y maupun gugus X*Y*. Sebaliknya metode MCD dan klasik menghasilkan pola grafik yang tidak konsisten, dengan nilai MSE yang berubah-ubah untuk proporsi pencilan yang berbeda.

Pada kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE paling maksimum dan pola grafik yang berubah-ubah. Metode MCD merupakan metode yang lebih baik dibandingkan klasik, dengan menghasilkan nilai MSE lebih rendah dibandingkan klasik. Akan tetapi, nilai MSE yang paling rendah dan pola grafik yang konsisten untuk setiap proporsi pencilan yang berbeda ditunjukkan oleh metode BICOV.

Pada kasus data dengan kondisi radial outlier, tidak satupun keseluruhan hasil simulasi data menunjukkan metode klasik lebih baik daripada metodeMCD. Namun dibandingkan MCD, metode BICOV memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12% untuk gugus X*Y dan gugus X*Y*. Hasil dari kedua gugus data yaitu gugus struktur ekonomi dan kesejahteraan rakyat terdapat delapan pengamatan yang teridentifikasi sebagai pencilan. Kedua gugus struktur tersebut mempunyai keeratan hubungan sebesar 0.96, artinya gugus struktur ekonomi berkorelasi dengan gugus kesejahteraan rakyat dengan korelasi 0.96.

(53)

PENDAHULUAN Latar Belakang

Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda

untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK

berdasarkan pada matriks peragam (Dehon et al. 2000) dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara

kedua gugus peubah tersebut menjadi maksimum (Johnson dan Wichern 2002).

Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan

(Romanazzi 1992). AKK dapat diaplikasikan dalam berbagai bidang seperti

pemasaran, transportasi, kedokteran, meteorologi, perbankan, pertanian,

pendidikan, dan perekonomian.

Hawkins dan McLachlan (1997) menyatakan bahwa ada dua jenis

pengamatan pencilan. Pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi

peragamnya sama. Kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Hubert dan Van Driessen

(2004) menggabungkan keduanya yaitu pengamatan pencilan yang mucul dari

sebaran dengan rata-rata dan peragam berbeda, yang dikenal sebagai radial outlier. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias

(Yohai 2006).

Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan

menggunakan metode kekar (Rancher 2002). Beberapa metode kekar yang

dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Dehon et al. (2000) membangkitkan data simulasi dengan proporsi pencilan 10% pada kondisi scale outlier,untuk membandingkan metode Minimum Covariance Determinant (MCD), Projection Pursuit, Alternating Regression, dan Sign Test. Hasil simulasinya menunjukkan bahwa MCD memberikan nilai Mean Square Error (MSE) paling minimum. Cannon dan Hsieh (2008) menggunakan metode Biweight Midcovariance (BICOV) yang dikembangkan oleh Wilcox pada tahun 1997, untuk mengatasi pencilan pada

(54)

Pada penelitian ini akan dibandingkan kinerja metode BICOV dan MCD

melalui data simulasi, dan selanjutnya metode kekar terbaik yang diperoleh

diterapkan pada data bidang perekonomian untuk mengetahui korelasi antara

gugus struktur ekonomi dan kesejahteraan rakyat.

Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1. Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam

AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi

pencilan.

2. Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data

struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey

Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus

(55)

TINJAUAN PUSTAKA Analisis Korelasi Kanonik

Analisis korelasi kanonik (AKK) yang diperkenalkan oleh Hotelling pada

tahun 1936, bertujuan untuk mengidentifikasi dan menghitung hubungan linier

antara dua gugus peubah. Perhitungan AKK berfokus pada korelasi antara

kombinasi linier dari dua gugus peubah. Ide utama dari AKK adalah mencari

pasangan dari kombinasi linier yang memiliki korelasi terbesar. Pasangan

kombinasi linier ini disebut peubah kanonik dan korelasinya disebut korelasi

kanonik (Johnson dan Wichern 2002).

Misalkan gugus peubah pertama dan gugus kedua

, dengan . Karakteristik dari vektor peubah acak X dan

Y sebagai berikut:

Vektor rataan:

dengan adalah rata-rata peubah Xdan adalah rata-rata peubah Y. Matriks peragam dapat disusun sebagai berikut:

(1)

Matriks peragam pada persamaan (1), selanjutnya disebut sebagai matriks

peragam klasik, dengan:

adalah matriks peragam peubahXberukuran ( )

adalah matriks peragam peubah Yberukuran ( )

adalah matriks peragam peubah X dan peubah Y berukuran ( ) adalah matriks peragam peubah Y dan peubah X berukuran ( )

(56)

=

Vektor koefisien didapatkan dengan mencari akar ciri

dari matriks yang berpadanan dengan

vektor ciri Sedangkan untuk vektor koefisien didapatkan dengan

mencari akar ciri dari matriks yang

berpadanan dengan vektor ciri , sehingga vektor koefisien dan

adalah sebagai berikut:

dengan:

adalah vektor pembobot kanonik U ke-i adalah vektor pembobot kanonik V ke-i

adalah vektor ciri U ke-i adalah vektor ciri V ke-i

adalah min , i=

Selanjutya korelasi kanonik didapatkan dari:

Nilai koefisien korelasi kanonik berada pada kisaran dan kuadrat

korelasi kanonik merupakan proporsi keragaman peubah kanonik U yang dapat dijelaskan oleh peubah kanonik V (Johnson dan Wichern 2002).

Metode Kekar

Perhitungan AKK berdasarkan matriks peragam klasik sangat sensitif

terhadap pencilan (Romanazzi 1992), sehingga diperlukan metode kekar untuk

mengatasi pencilan (Rancher 2002). Beberapa metode kekar telah dikembangkan

(57)

matriks peragam yang dihasilkan dari kedua metode tersebut menjadi alternatif

sebagai pengganti matriks peragam klasik.

Biweight Midcovariance

Korelasi Pearson merupakan hubungan antara dua peubah yang bisa

dipengaruhi oleh keberadaan suatu pengamatan pencilan (Wilcox 2004). Biweight midcorrelation merupakan alternatif sebagai pengganti dari korelasi Pearson. Biweightberasal dari pembobot Tukey’s bisquare yaitu:

Misalkan adalah jumlah pengamatan, adalah median dari x, dan adalah median dari y, sehingga pembobot untuk dan adalah:

dengan adalah median dari dan adalah median dari

.

Peragam Biweight Midcovariance dari x dan y:

dengan:

jika , selainnya

Peragam Biweight Midvariance dari x:

Peragam Biweight Midvariance dari y:

Matriks peragam BICOV sebagai berikut:

(58)

Sehingga didapatkan Biweight Midcorrelation adalah:

Nilai korelasi pada Biweight Midcorrelation sama dengan nilai korelasi Pearson yaitu berada pada kisaran -1 ≤ ≤ +1.

Matriks peragam BICOV juga dapat digunakan dalam AKK yaitu dengan

menggantikan matriks peragam klasik, sehingga didapatkan nilai korelasi kanonik

sebagai berikut:

Minimum Covariance Determinant

Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw pada tahun 1985. Metode MCD bertujuan mencari submatriks H yang berisi

unsur-unsur matriks sejumlah h elemen yang matriks peragamnya memiliki determinan terkecil (Rousseeuw 1999). Pada prinsipnya metode MCD adalah

mencari submatriks H berukuran yang dipilih secara acak sejumlah h elemen dari matriks X berukuran , dengan h merupakan bilangan bulat terkecil dari . Kemungkinan banyaknya submatriks H yang dapat

dipilih secara acak dari matriks X yaitu sebanyak kombinasi h dari n yang berbeda, . Submatriks H digunakan untuk memperoleh dugaan vektor rataan

dan matriks peragam. Jika n kecil, maka penduga MCD relatif mudah dan cepat untuk diperoleh, tetapi jika n besar, maka perlu waktu lama dan banyak sekali kombinasi submatriks yang harus diperoleh untuk mendapatkan penduga MCD.

Keterbatasan tersebut dapat diatasi dengan pendekatan FAST-MCD dengan

algoritma C-Step yang dikembangkan oleh Rousseeuw dan Vandriessen (1999).

Misalkan , dengan merupakan submatriks berukuran

dari matriks berukuran . Hitung vektor rataan dan matriks peragam:

(5)

(59)

, dengan i=1,2,..n.

Urutkan jarak untuk setiap pengamatan, dengan

Selanjutnya, sejumlah h pengamatan yang menghasilkan jarak terkecil menjadi unsur matriks sedemikian sehingga

. Kemudian, hitung dan berdasarkan matriks

, dengan det( det( .

Penjelasan di atas mensyaratkan det( , karena jika