i
DETERMINANT
DALAM ANALISIS KORELASI KANONIK
FREZA RIANA
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
ii
Dengan ini saya menyatakaan bahwa tesis “Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis
Korelasi Kanonik” adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan mau pun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, Agustus 2012 Freza Riana NRP G152100051
iii
FREZA RIANA. Comparison Robust Biweight Midcovariance and Minimum Covariance Determinant Methods in Canonical Correlation Analysis. Supervised by ERFIANI and AJI HAMIM WIGENA.
Canonical Correlation Analysis (CCA) is a multivariate linear used to identify and quantify associations between two sets of random variables. Its standard computation is based on sample covariance matrices, which are however very sensitive to outlying observations. The robust methods are needed. There are two robust methods, i.e robust Biweight Midcovariance (BICOV) and Minimum Covariance Determinant (MCD) methods. The objective of this research is to compare the performance of both methods based on mean square error. The data simulations are generated from various conditions. The variation data consists of the proportion of outliers, and the kind of outliers: shift, scale, and radial outlier. The performance of robust BICOV method in CCA is the best compared to MCD and Classic.
iv
FREZA RIANA. Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik. Dibimbing oleh ERFIANI dan AJI HAMIM WIGENA.
Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK berdasarkan pada matriks peragam dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara kedua gugus peubah tersebut menjadi maksimum. Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan.
Ada beberapa jenis pengamatan pencilan, pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Jenis kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Jenis ketiga, radial outlier yaitu pengamatan pencilan yang mucul dari sebaran dengan rata-rata dan peragam berbeda. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias.
Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan menggunakan metode kekar. Beberapa metode kekar yang dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Matriks peragam yang dihasilkan dari metode-metode tersebut menjadi alternatif sebagai pengganti matriks peragam klasik.
Tujuan dari penelitian ini adalah: 1) Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi pencilan; 2) Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus (SUPAS) tahun 1995.
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian ini terbitan Badan Pusat Statistik (BPS) tahun 1996. Data sekunder tersebut sebagai penerapan contoh kasus untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi dan kesejahteraan rakyat.
Data simulasi yang dibangkitkan yaitu: 1) Data populasi yang dibangkitkan dengan sebaran normal ganda , untuk gugus X dan gugus Y dengan 5000; 2) Data contoh tanpa pencilan (Gugus XY) yang berukuran nc=50 dan 100, dibangkitkan secara acak sebanyak M = 500 kali, mengikuti
v
struktur ekonomi terdiri dari empat peubah, yaitu Persentase PDRB dari sektor pertanian, persentase pekerja di sektor pertanian, persentase pekerja dengan jenis pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis, persentase pekerja dengan status pekerja utama sebagai pekerja keluarga. Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan, persentase rumah tangga dengan penerangan listrik/petromak, persentase rumah tangga yang memiliki TV/Video/Laserdisc, persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu, persentase penduduk tertinggi lulus SMA atau perguruan tinggi, persentase angka kelahiran total (TFR) tahun (1990-1995).
Berdasarkan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai mean square error (MSE) dengan pola grafik yang konsisten mulai dari data dengan proporsi pencilan 2% sampai dengan 12 %, baik untuk gugus X*Y maupun gugus X*Y*. Sebaliknya metode MCD dan klasik menghasilkan pola grafik yang tidak konsisten, dengan nilai MSE yang berubah-ubah untuk proporsi pencilan yang berbeda.
Pada kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE paling maksimum dan pola grafik yang berubah-ubah. Metode MCD merupakan metode yang lebih baik dibandingkan klasik, dengan menghasilkan nilai MSE lebih rendah dibandingkan klasik. Akan tetapi, nilai MSE yang paling rendah dan pola grafik yang konsisten untuk setiap proporsi pencilan yang berbeda ditunjukkan oleh metode BICOV.
Pada kasus data dengan kondisi radial outlier, tidak satupun keseluruhan hasil simulasi data menunjukkan metode klasik lebih baik daripada metodeMCD. Namun dibandingkan MCD, metode BICOV memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12% untuk gugus X*Y dan gugus X*Y*. Hasil dari kedua gugus data yaitu gugus struktur ekonomi dan kesejahteraan rakyat terdapat delapan pengamatan yang teridentifikasi sebagai pencilan. Kedua gugus struktur tersebut mempunyai keeratan hubungan sebesar 0.96, artinya gugus struktur ekonomi berkorelasi dengan gugus kesejahteraan rakyat dengan korelasi 0.96.
vi
© Hak Cipta milik IPB, tahun 2012
Hak Cipta dilindungi Undang-undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah dan pengutipan tersebut tidak merugikan kepentingan yang wajar bagi IPB.
vii
DETERMINANT
DALAM
ANALISIS KORELASI KANONIK
FREZA RIANA
Tesis
Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada
Program Studi Statistika Terapan
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
viii
ix
Kanonik
Nama : Freza Riana
NRP : G152100051
Disetujui
Komisi Pembimbing
Dr. Ir. Erfiani, M.Si Ketua
Dr. Ir. Aji Hamim Wigena, M.Sc Anggota
Diketahui,
Ketua Program Studi Statistika Terapan
Dr. Ir. Anik Djuraidah, MS
Dekan Sekolah Pascasarjana
Dr. Ir. Dahrul Syah, M.Sc.Agr
x
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya, sehingga karya ilmiah yang berjudul “Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam
Analisis Korelasi Kanonik” ini dapat diselesaikan. Terima kasih penulis sampaikan kepada
1. Ibu Dr. Ir. Erfiani, M.Si selaku pembimbing I dan Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku pembimbing II, yang telah banyak memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini. 2. Ibu Dr. Ir. Anik Djuraidah, M.S selaku ketua Program Studi
Pascasarjana Statistika Terapan, yang telah memberikan motivasi untuk selalu gigih dan sabar selama masa perkuliahan.
3. Bapak Dr. Anang Kurnia selaku penguji luar komisi pada ujian tesis, yang telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini.
4. Kedua orangtua, Papa (Umar Surya Sudira) dan Ibu (Nurimah) serta kedua adik penulis (Dwi Febrina dan Rajab Febriantoro) yang telah memberikan dukungan, doa dan kasih sayang setiap saat.
5. Mb Mariana, Yani Quarta, dan Sahabat HIMASTER IPB 2010 (Statistika Terapan dan Statistika) atas kebersamaannya.
Penulis menyadari masih banyak kekurangan dalam penulisan karya ilmiah ini. Untuk itu kritik dan saran yang membangun sangat diperlukan oleh penulis untuk penulisan karya ilmiah selanjutnya. Semoga karya ilmiah ini dapat bermanfaat.
Bogor, Agustus 2012
xi
xii
Minimum Covariance Determinant ... 6
xiii
Halaman
1 Statistik deskriptif gugus data struktur ekonomi………... 25
2 Statistik deskriptif gugus data kesejahteraan rakyat…………... 25
xiv
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………...
6 Grafik nilai MSE dengan kondisi shift outlier , nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………
9 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=50
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………
10 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*………..
11 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*……….
xv
Halaman
1 Gugus data peubah struktur ekonomi……... 31
2 Gugus data peubah kesejahteraan rakyat .…….……... 32
3 Nilai MSE dengan jumlah pengamatn nc=50... 33
4 Nilai MSE dengan jumlah pengamatn nc=100….….…... 34
PENDAHULUAN Latar Belakang
Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda
untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK
berdasarkan pada matriks peragam (Dehon et al. 2000) dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara
kedua gugus peubah tersebut menjadi maksimum (Johnson dan Wichern 2002).
Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan
(Romanazzi 1992). AKK dapat diaplikasikan dalam berbagai bidang seperti
pemasaran, transportasi, kedokteran, meteorologi, perbankan, pertanian,
pendidikan, dan perekonomian.
Hawkins dan McLachlan (1997) menyatakan bahwa ada dua jenis
pengamatan pencilan. Pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi
peragamnya sama. Kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Hubert dan Van Driessen
(2004) menggabungkan keduanya yaitu pengamatan pencilan yang mucul dari
sebaran dengan rata-rata dan peragam berbeda, yang dikenal sebagai radial outlier. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias
(Yohai 2006).
Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan
menggunakan metode kekar (Rancher 2002). Beberapa metode kekar yang
dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Dehon et al. (2000) membangkitkan data simulasi dengan proporsi pencilan 10% pada kondisi scale outlier,untuk membandingkan metode Minimum Covariance Determinant (MCD), Projection Pursuit, Alternating Regression, dan Sign Test. Hasil simulasinya menunjukkan bahwa MCD memberikan nilai Mean Square Error (MSE) paling minimum. Cannon dan Hsieh (2008) menggunakan metode Biweight Midcovariance (BICOV) yang dikembangkan oleh Wilcox pada tahun 1997, untuk mengatasi pencilan pada
Pada penelitian ini akan dibandingkan kinerja metode BICOV dan MCD
melalui data simulasi, dan selanjutnya metode kekar terbaik yang diperoleh
diterapkan pada data bidang perekonomian untuk mengetahui korelasi antara
gugus struktur ekonomi dan kesejahteraan rakyat.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam
AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi
pencilan.
2. Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data
struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey
Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus
TINJAUAN PUSTAKA Analisis Korelasi Kanonik
Analisis korelasi kanonik (AKK) yang diperkenalkan oleh Hotelling pada
tahun 1936, bertujuan untuk mengidentifikasi dan menghitung hubungan linier
antara dua gugus peubah. Perhitungan AKK berfokus pada korelasi antara
kombinasi linier dari dua gugus peubah. Ide utama dari AKK adalah mencari
pasangan dari kombinasi linier yang memiliki korelasi terbesar. Pasangan
kombinasi linier ini disebut peubah kanonik dan korelasinya disebut korelasi
kanonik (Johnson dan Wichern 2002).
Misalkan gugus peubah pertama dan gugus kedua
, dengan . Karakteristik dari vektor peubah acak X dan
Y sebagai berikut:
Vektor rataan:
dengan adalah rata-rata peubah Xdan adalah rata-rata peubah Y. Matriks peragam dapat disusun sebagai berikut:
(1)
Matriks peragam pada persamaan (1), selanjutnya disebut sebagai matriks
peragam klasik, dengan:
adalah matriks peragam peubahXberukuran ( )
adalah matriks peragam peubah Yberukuran ( )
adalah matriks peragam peubah X dan peubah Y berukuran ( ) adalah matriks peragam peubah Y dan peubah X berukuran ( )
=
=
=
Vektor koefisien didapatkan dengan mencari akar ciri
dari matriks yang berpadanan dengan
vektor ciri Sedangkan untuk vektor koefisien didapatkan dengan
mencari akar ciri dari matriks yang
berpadanan dengan vektor ciri , sehingga vektor koefisien dan
adalah sebagai berikut:
dengan:
adalah vektor pembobot kanonik U ke-i adalah vektor pembobot kanonik V ke-i
adalah vektor ciri U ke-i adalah vektor ciri V ke-i
adalah min , i=
Selanjutya korelasi kanonik didapatkan dari:
Nilai koefisien korelasi kanonik berada pada kisaran dan kuadrat
korelasi kanonik merupakan proporsi keragaman peubah kanonik U yang dapat dijelaskan oleh peubah kanonik V (Johnson dan Wichern 2002).
Metode Kekar
Perhitungan AKK berdasarkan matriks peragam klasik sangat sensitif
terhadap pencilan (Romanazzi 1992), sehingga diperlukan metode kekar untuk
mengatasi pencilan (Rancher 2002). Beberapa metode kekar telah dikembangkan
matriks peragam yang dihasilkan dari kedua metode tersebut menjadi alternatif
sebagai pengganti matriks peragam klasik.
Biweight Midcovariance
Korelasi Pearson merupakan hubungan antara dua peubah yang bisa
dipengaruhi oleh keberadaan suatu pengamatan pencilan (Wilcox 2004). Biweight midcorrelation merupakan alternatif sebagai pengganti dari korelasi Pearson. Biweightberasal dari pembobot Tukey’s bisquare yaitu:
Misalkan adalah jumlah pengamatan, adalah median dari x, dan adalah median dari y, sehingga pembobot untuk dan adalah:
dengan adalah median dari dan adalah median dari
.
Peragam Biweight Midcovariance dari x dan y:
dengan:
jika , selainnya
jika , selainnya
Peragam Biweight Midvariance dari x:
Peragam Biweight Midvariance dari y:
Matriks peragam BICOV sebagai berikut:
Sehingga didapatkan Biweight Midcorrelation adalah:
Nilai korelasi pada Biweight Midcorrelation sama dengan nilai korelasi Pearson yaitu berada pada kisaran -1 ≤ ≤ +1.
Matriks peragam BICOV juga dapat digunakan dalam AKK yaitu dengan
menggantikan matriks peragam klasik, sehingga didapatkan nilai korelasi kanonik
sebagai berikut:
Minimum Covariance Determinant
Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw pada tahun 1985. Metode MCD bertujuan mencari submatriks H yang berisi
unsur-unsur matriks sejumlah h elemen yang matriks peragamnya memiliki determinan terkecil (Rousseeuw 1999). Pada prinsipnya metode MCD adalah
mencari submatriks H berukuran yang dipilih secara acak sejumlah h elemen dari matriks X berukuran , dengan h merupakan bilangan bulat terkecil dari . Kemungkinan banyaknya submatriks H yang dapat
dipilih secara acak dari matriks X yaitu sebanyak kombinasi h dari n yang berbeda, . Submatriks H digunakan untuk memperoleh dugaan vektor rataan
dan matriks peragam. Jika n kecil, maka penduga MCD relatif mudah dan cepat untuk diperoleh, tetapi jika n besar, maka perlu waktu lama dan banyak sekali kombinasi submatriks yang harus diperoleh untuk mendapatkan penduga MCD.
Keterbatasan tersebut dapat diatasi dengan pendekatan FAST-MCD dengan
algoritma C-Step yang dikembangkan oleh Rousseeuw dan Vandriessen (1999).
Misalkan , dengan merupakan submatriks berukuran
dari matriks berukuran . Hitung vektor rataan dan matriks peragam:
(5)
, dengan i=1,2,..n.
Urutkan jarak untuk setiap pengamatan, dengan
Selanjutnya, sejumlah h pengamatan yang menghasilkan jarak terkecil menjadi unsur matriks sedemikian sehingga
. Kemudian, hitung dan berdasarkan matriks
, dengan det( det( .
Penjelasan di atas mensyaratkan det( , karena jika
det( maka nilai objektif minimum untuk mendapatkan determinan
terkecil telah ditemukan. Selain itu, jika det( , penggunaan formulasi
di atas akan menghasilkan yang det( det( . Dalam
FAST-MCD akan digunakan algoritma C-Step, ada pun algoritma dari C-Step sebagai berikut:
1. Tetapkan H(old), hitung mcd(old) dan mcd(old).
2. Hitung jarak relatif mcd(old)(i) untuk i=1, 2, …, n
3. Urutkan jarak relatif hasil permutasi dari dengan d(old)
d(old) d(old) .
4. Tentukan H(new)
5. Hitung mcd(new)dan mcd new)
.
6. Pengulangan algoritma C-Step akan menghasilkan sejumlah proses iterasi.
Proses iterasi akan berhenti, jika det( atau
det( det( .
7. Jika kondisi di atas belum terpenuhi, maka proses iterasi akan terus
Diagram alir FAST-MCD dapat dilihat pada Gambar 1:
Ya
Tidak
Gambar 1 Diagram Alir FAST-MCD
merupakan matriks peragam dengan determinan terminan terkecil. Matriks
peragam MCD tersebut dapat dituliskan sebagai berikut:
(5) Matriks pergam MCD dapat digunakan sebagai pengganti matriks peragam klasik
dalam AKK. Sehingga didapatkan nilai korelasi kanonik dari:
Pencilan
Pencilan merupakan suatu pengamatan yang menyimpang cukup jauh dari
pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan
tersebut berasal dari sebaran data yang berbeda (Hawkins 1997). Berdasarkan
pengaruh pengamatan pencilan terhadap data, pencilan dapat dibedakan menjadi
tiga jenis. Pencilan pertama yaitu shift outlier, merupakan pengamatan pencilan yang berasal dari sebaran yang berbeda dengan sebaran dasarnya (tanpa pencilan)
tetapi peragamnya sama. Shift outlier mampu menggeser vektor rataan sehingga pusat data menjadi berubah. Pada data menyebar normal, pergeseran vektor rataan
Misalkan didefinisikan
relatif yang terkecil d(1)
bisa melalui penambahan setiap vektor rataan dengan satuan. Data dengan
kondisi shift outlier dapat dinyatakan dengan persamaan:
(7)
menyatakan proporsi pencilan dalam data dan menyatakan vektor rataan
yang berfungsi sebagai shift outlier.
Jenis kedua, scale outlier, yaitu pengamatan pencilan yang berasal dari peragam yang berbeda tetapi sebarannya sama. Scale outlier mampu merubah bentuk ellipsoid. Data dengan kondisi scale outlier dapat dinyatakan dengan persamaan:
(8)
menyatakan matriks peragam yang berfungsi sebagai scale outlier.
Jenis ketiga merupakan gabungan dua jenis pencilan yaitu shift outlier dan scale outlier, yang disebut dengan radial outlier (Hubert dan Van Driessen 2004). Radial outlier mampu menggeser pusat ellipsoid dan merubah bentuk ellipsoid. Data dengan kondisi radial outlier dinyatakan dengan persamaan:
(9)
Pendeteksian Pencilan
Identifikasi pencilan pada peubah ganda umumnya didasarkan pada jarak
Mahalanobis (Suryana 2008). Johnson dan Wichern (1998) menyatakan bahwa
pengamatan ke-i diidefinisikan sebagai pencilan jika jaraknya lebih besar dari nilai khi-kuadrat pada sejumlah peubah. Perhitungan tersebut sebagai berikut:
dan merupakan vektor rataan dan matriks peragam.
Rousseeuw dan Von Zomeren (1990) menjelaskan bahwa penggunaan
jarak Mahalanobis untuk pendeteksian pencilan pada peubah ganda menjadi tidak
maksimal jika terdapat lebih dari satu pengamatan pencilan, karena adanya
pengaruh masking dan swamping. Masking terjadi pada saat pengamatan pencilan tidak terdeteksi karena adanya pengamatan pencilan yang berdekatan, sedangkan
Salah satu metode kekar yang dikembangkan untuk mengatasi pencilan
dengan jumlah lebih dari satu pengamatan pada kasus peubah ganda yaitu jarak
Mahalanobis kekar MCD (Hubert et al. 2007).
Suatu pengamatan ke-i didefinisikan sebagai pencilan jika:
(10)
dengan dan mcd merupakan vektor rataan dan matriks peragam dari
DATA DAN METODE Data
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan
data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur
kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian
ini merupakan terbitan Badan Pusat Statistik (BPS) tahun 1996 dalam tesis
Harmini (1997) yang berjudul “Hubungan Struktur Ekonomi dengan
Kesejahteraan Rakyat”. Data sekunder tersebut sebagai penerapan contoh kasus
untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi
dan kesejahteraan rakyat.
Data Simulasi
Data Simulasi terdiri dari dua gugus peubah, didefinisikan gugus pertama
sebagai gugus X yang berukuran dan gugus kedua yaitu gugus Y yang
berukuran , dengan , dan . Kedua gugus dibangkitkan
dari sebaran normal ganda.
Kinerja metode BICOV dan MCD dalam AKK diukur melalui berbagai
keragaman data simulasi. Keragaman data simulasi berdasarkan pada perbedaan:
1. Jumlah pengamatan untuk tiap peubah (nc=50,100)
2. Proporsi pencilan 2%, 4%, 6%, 8%, 10%, 12%)
3. Jenis pencilan (shift outlier, scale outlier, radial outlier)
4. Gugus peubah dengan data pencilan (gugus X*Y dan gugus X*Y*).
a) Gugus X*Y didefinisikan untuk setiap peubah pada gugus X
diberikan sejumlah proporsi pencilan dengan jumlah yang sama,
sedangkan gugus Y tidak diberikan pencilan.
b) Gugus X*Y* didefinisikan untuk setiap peubah pada gugus X
dan peubah pada gugus Y diberikan sejumlah proporsi pencilan
dengan jumlah yang sama.
Data Sekunder
Gugus peubah yang diamati dalam penelitian ini yaitu gugus peubah
struktur ekonomi dan gugus peubah kesejahteraan rakyat. Gugus peubah struktur
(X1), persentase pekerja di sektor pertanian (X2) , persentase pekerja dengan jenis
pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2(tenaga
kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis) (X3),
persentase pekerja dengan status pekerja utama sebagai pekerja keluarga (X4).
Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu
persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan (Y1),
persentase rumah tangga dengan penerangan listrik/petromak (Y2), persentase
rumah tangga yang memiliki TV/Video/Laserdisc (Y3), persentase rumah tangga
dengan jenis bahan bakar untuk memasak minyak tanah/kayu (Y4), persentase
penduduk tertinggi lulus SMA atau perguruan tinggi (Y5), persentase angka
kelahiran total (TFR) tahun (1990-1995) (Y6).
Metode
Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan
penelitian dilakukan melalui tahapan sebagai berikut:
1. Perbandingan metode BICOV dan MCD
a) Membangkitkan data populasi
Membangkitkan data populasi untuk gugus X berukuran
dan gugus Y berukuran , dengan , dan
. Data populasi gugus tersebut dibangkitkan dengan
sebaran normal ganda , dengan dan
matriks peragamnya
b) Membangkitkan data contoh tanpa pencilan
Membangkitkan data contohmengikuti sebaran seperti data
populasi, dengan jumlah pengamatan nc=50 dan 100. Data contoh
dibangkitkan sebanyak M = 500 kali. c) Membangkitkan data dengan pencilan
Simulasi untuk data pencilan didapatkan dengan mengubah
kondisi pencilan. Kondisi berbagai jenis pencilan dibangkitkan
pada gugus X*Y dan gugus X*Y*, sebagai berikut:
i. Pada kondisi ini pengamatan dalam bentuk shift outlier dengan rata-rata dan matriks peragam mengikuti persamaan (7).
Masing-masing parameter diberikan nilai:
1)
dengan
2)
dengan
ii. Pada kondisi ini pengamatan dalam bentuk scale outlier dengan rata-rata dan matriks peragam mengikuti persamaan (8).
Masing-masing parameter diberikan nilai:
1)
.
2)
.
iii. Pada kondisi ini pengamatan dalam bentuk radial outlier dengan rata-rata dan matriks peragam mengikuti persamaan (9).
1)
dengan
.
2)
, dengan
.
d) Menentukan matriks peragam
i. Menghitung matriks peragam dengan metode klasik untuk
gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
ii. Menghitung matriks peragam dengan metode BICOV untuk
gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
iii. Menghitung matriks peragam dengan metode MCD untuk
gugus populasi, gugus XY, gugus X*Y dan gugus X*Y*.
e) Menentukan nilai korelasi kanonik
i. Menghitung nilai korelasi kanonik klasik untuk gugus
populasi, gugus XY, gugus X*Y dan gugus X*Y*.
ii. Menghitung nilai korelasi kanonik dengan matriks peragam
BICOV untuk gugus populasi, gugus XY, gugus X*Y dan
gugus X*Y*.
iii. Menghitung nilai korelasi kanonik dengan matriks peragam
MCD untuk gugus populasi, gugus XY, gugus X*Y dan
gugus X*Y*.
f) Menghitung nilai MSE untuk metode klasik, BICOV, dan MCD.
MSE =
dengan:
m: ,
adalan nilai korelasi contoh bangkitan ke-m adalah nilai korelasi populasi
didapatkan dari tanh-1 (Dehon et al. 2000) g) Mengevaluasi kinerja metode klasik, BICOV dan MCD
Membandingkan nilai MSE dari ketiga metode tersebut.
Metode tersebut dikatakan terbaik atau paling kekar apabila
memberikan nilai MSE paling minimum (Dehon et al. 2000).
2. Penerapan metode BICOV dan MCD.
Tahapan-tahapan yang dilakukan dalam analisis ini :
1) Mengidentifikasi adanya pencilan pada gugus data struktur
ekonomi dan gugus data kesejahteraan rakyat dengan jarak
mahalanobis kekar.
2) Menghitung matriks peragam dengan metode kekar yang terbaik
dari hasil simulasi bangkitan.
3) Mengukur hubungan antara gugus data struktur ekonomi dan gugus
Bangkitkan M=500 kali
Gambar 2 Diagram Alir Tahapan I Penelitian
Gambar 3 Diagram Alir Tahapan II Penelitian
Data
Mengidentifikasi pencilan
Menghitung matriks peragam Klasik
Menduga matriks peragam dengan metode kekar
Menghitung korelasi kanonik untuk tiap metode
Mulai
Selesai
Membangkitkan data populasi
(
Membangkitkan data contoh
( berukuran N
Membangkitkan data dengan pencilan Gugus X*Y dan Gugus X*Y*
Menduga matriks peragam dengan metode klasik, BICOV DAN MCD
Menghitung nilai korelasi kanonik
Mengevaluasi kinerja AKK dengan membandingkan nilai MSE
Mulai
HASIL DAN PEMBAHASAN
Simulasi
Perbandingan kinerja metode BICOV dan MCD dalam AKK melalui data
simulasi dimaksudkan untuk mencari metode kekar yang memberikan nilai MSE
paling minimum. Kinerja kedua metode diukur melalui berdasarkan berbagai,
kondisi pencilan, proporsi pencilan, jumlah pengamatan dan gugus peubah dengan
data pencilan. Hasil keseluruhan simulasi dapat diamati pada Lampiran 3 dan
Lampiran 4. Penjelasan nilai MSE pada lampiran tersebut digambarkan pada
Gambar 4 sampai dengan Gambar 15. Keseluruhan gambar menunjukkan
perbandingan kinerja ketiga metode yaitu Klasik (garis dengan simbol lingkaran),
BICOV (garis dengan simbol persegi) dan MCD (garis dengan simbol segitiga).
Sumbu absis menunjukkan proporsi pencilan dan sumbu ordinat menunjukkan
nilai MSE dari korelasi kanonik pertama. Semakin rendah posisi garis semakin
kecil nilai MSE yang berarti semakin baik kinerja suatu metode. Sebaliknya,
semakin tinggi posisi garis semakin besar nilai MSE yang berarti semakin buruk
kinerja suatu metode.
Kinerja Metode
Pada bagian ini ditunjukkan kinerja dari ketiga metode, yaitu metode
klasik, BICOV, dan MCD dengan kondisi pencilan shift outlier, scale outlier, dan radial outlier untuk sejumlah proporsi pencilan dengan jumlah pengamatan contoh yang berbeda.
Kondisi Shift Outlier
Gambar 4 menunjukkan bahwa metode BICOV memberikan nilai MSE
paling minimum dengan pola grafik yang konsisten. Keseluruhan nilai MSE
memberikan nilai yang sama sebesar 0.02 untuk setiap proporsi pencilan yang
berbeda pada gugus X*Y dan gugus X*Y*, sedangkan metode klasik dan MCD
tampak tidak kekar. Pola grafik metode klasik menunjukkan bahwa pertambahan
proporsi pencilan diikuti bertambahnya nilai MSE. Sebaliknya secara umum nilai
MSE dari metode MCD menurun dengan penambahan proporsi pencilan.
Gambar 5 menunjukkan bahwa metode klasik memberikan nilai MSE
gugus X*Y*. Berbeda dengan metode klasik, metode MCD menunjukkan pola
grafik yang konsisten mulai dari proporsi pencilan 2% sampai dengan 10%, akan
tetapi pola grafik berubah pada proporsi pencilan 12%. Dibandingkan kedua
metode tersebut, metode BICOV memberikan nilai MSE paling minimum,
sebesar 0.02 dengan pola grafik yang konsisten untuk setiap proporsi pencilan.
(a) (b)
Gambar 4 Grafik nilai MSE dengan kondisi shift outlier , nc=50
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
(a) (b)
Gambar 5 Grafik nilai MSE dengan kondisi shift outlier , nc=50
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Gambar 6 dan Gambar 7 menggambarkan gugus data dengan kondisi shift
outlier dan serta jumlah pengamatan yang sama Nc=100.
Gambar 6 untuk semua proporsi pencilan menunjukkan bahwa metode BICOV
memberikan nilai MSE paling minimum dengan pola grafik yang konsisten. Pada
gugus X*Y dengan proporsi pencilan 2% hingga 10% memberikan nilai MSE
yang sama sebesar 0.01 dan 0.02 untuk proporsi pencilan 12%. Sedangkan pada
gugus X*Y* memberikan nilai MSE yang sama sebesar 0.01 untuk tiap hasil
simulasi dengan proporsi pencilan yang berbeda. Metode klasik dan MCD
memberikan nilai MSE yang lebih besar dibandingkan metode BICOV, dengan
Berdasarkan grafik pada Gambar 7, terlihat bahwa pola grafik dari metode
klasik berubah-ubah dan memberikan nilai MSE paling maksimum. Pada metode
MCD, pola grafik menunjukkan kekonsistenan untuk gugus X*Y dengan nilai
MSE sebesar 0.02. Namun pada gugus X*Y* pola grafik yang ditunjukkan hanya
konsisten sampai proporsi pencilan 10% saja sebesar 0.02, kemudian berubah
menjadi 0.3 pada proporsi pencilan 12%. Pola grafik yang konsisten dan
memberikan nilai MSE paling minimum adalah metode BICOV. Keseluruhan
nilai MSE yang diberikan metode BICOV sebesar 0.01 pada setiap hasil simulasi
untuk setiap proporsi pencilan.
(a) (b)
Gambar 6 Grafik nilai MSE dengan kondisi shift outlier , nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
(a) (b)
Gambar 7 Grafik nilai MSE dengan kondisi shift outlier , nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Keseluruhan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai MSE dengan pola grafik yang
konsisten mulai dari gugus data tanpa pencilan sampai dengan proporsi pencilan
12 %, baik untuk gugus X*Y maupun gugus X*Y*.
Kondisi Scale Outlier
Berdasarkan grafik pada Gambar 8 terlihat bahwa pola grafik metode
Sedangkan pada metode MCD, nilai MSE yang diberikan lebih rendah, sebesar
0.08 untuk gugus data tanpa pencilan dan sampai dengan proporsi pencilan 4%
untuk gugus X*Y. Kemudian pada proporsi pencilan 6% sampai dengan 12%
memberikan nilai MSE sebesar 0.07. Pola grafik yang berubah-ubah juga terlihat
pada gugus X*Y* dengan nilai MSE 0.08, 0.07, 0.08 untuk proporsi pencilan 0%,
2%, 4%, kemudian 0.03 untuk proporsi 6%, selanjutnya pada proporsi pencilan
8% sampai dengan 12% menghasilkan nilai MSE yang sama sebesar 0.07.
Dibandingkan metode MCD, metode BICOV memberikan nilai MSE lebih
minimum, terlihat dengan pola grafik yang paling rendah untuk gugus X*Y dan
gugus X*Y* dengan proporsi pencilan mulai dari 2% sampai dengan proporsi
pencilan terbesar. Nilai MSE untuk gugus X*Y yaitu 0.02 pada proporsi pencilan
2% sampai dengan 4% dan 0.03 mulai dari 6% sampai dengan proporsi pencilan
terbesar. Pada gugus X*Y* dengan proporsi pencilan 2% sampai dengan 10%,
nilai MSE yang diberikan sama sebesar 0.02, hanya pada proporsi pencilan 12%,
nilai MSE sebesar 0.03.
(a) (b)
Gambar 8 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=50
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
(a) (b)
Gambar 9 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=50
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Gambar 9 menunjukkan bahwa metode BICOV merupakan metode yang
pencilan yang berbeda pada gugus X*Y dan gugus X*Y*, terlihat dengan pola
grafik yang ditunjukkan. Sedangkan kinerja metode klasik dan metode MCD
terlihat tidak kekar, yang ditunjukkan dengan pola grafik yang berubah-ubah.
Kondisi yang sama untuk gugus X*Y dan gugus X*Y*, yaitu scale outlier dengan faktor pengali K= 100 dan K=144 serta jumlah pengamatan Nc=100 yang tertera pada Gambar 10 dan Gambar 11. Berdasarkan grafik pada Gambar 10,
pada gugus X*Y menunjukkan bahwa metode klasik menghasilkan nilai MSE
paling maksimum, dengan pola grafik yang semakin menaik untuk setiap
pertambahan proporsi pencilan mulai dari 2% sampai dengan 12%. Dibandingkan
dengan metode klasik, metode MCD menunjukkan pola grafik yang konsisten,
dengan memberikan nilai MSE sebesar 0.03 mulai dari proporsi pencilan 2%
sampai dengan 12%. Namun dibandingkan dengan metode MCD, metode BICOV
memberikan nilai MSE paling minimum, terlihat dari pola grafik mulai dari gugus
pengamatan dengan proporsi pencilan 2% sampai dengan 8% sebesar 0.02 dan
0.01 untuk proporsi pencilan 10% sampai dengan 12% .
Gugus X*Y* pada Gambar 10 menunjukkan bahwa metode klasik tampak
tidak kekar terhadap pengamatan pencilan, terlihat dengan pola grafik yang
berubah-ubah dan nilai MSE paling maksimum. Berbeda dengan metode klasik,
metode MCD menunjukkan pola grafik yang kosisten, dengan memberikan nilai
MSE sebesar 0.03 untuk setiap proporsi pencilan. Namun dibandingkan kedua
metode tersebut, metode BICOV lebih kekar, terlihat dengan pola grafik yang
konsisten dengan nilai MSE paling minimum sebesar 0.01 untuk setiap proporsi
pencilan.
Pola grafik pada Gambar 11 terlihat serupa dengan pola grafik pada
Gambar 10. Grafik pada gugus X*Y menunjukkan bahwa nilai MSE yang
diberikan oleh metode klasik paling maksimum, terlihat dari pola grafiknya yang
selalu bertambah untuk setiap pertambahan proporsi pencilan. Sebaliknya, metode
BICOV tampak lebih kekar, terlihat dari nilai MSE yang paling rendah dengan
pola grafik yang konsisten untuk setiap proporsi pencilan.
Pola grafik pada gugus X*Y* menunjukkan bahwa metode klasik tampak
tidak kekar, ini ditunjukkan dari nilai MSE yang diberikan paling maksimum
untuk setiap proporsi pencilan di antara metode lainnya. Sedangkan metode MCD,
setiap proporsi pencilan. Akan tetapi, dibandingkan dengan metode MCD, metode
BICOV tampak lebih kekar, terlihat dengan pola grafik yang konsisten dan nilai
MSE yang minimum untuk berbagai proporsi pencilan sebesar 0.01.
(a) (b)
Gambar 10 Grafik nilai MSE dengan kondisi scale outlier K1=100, nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
(a) (b)
Gambar 11 Grafik nilai MSE dengan kondisi scale outlier K2=144, nc=100
pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Pada jumlah pengamatan Nc=50 dan Nc=100 dengan kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE yang paling maksimum dan pola grafik yang berubah-ubah. Sedangkan metode
MCD merupakan kinerja metode kekar yang lebih baik dibanding metode klasik.
Namun dibandingkan MCD, metode BICOV merupakan metode paling kekar,
dengan memberikan nilai MSE paling minimum dan pola grafik yang konsisten
untuk setiap proporsi pencilan .
Kondisi Radial Outlier
Pada Gambar 12 menunjukkan bahwa metode BICOV memberikan nilai
MSE paling minimum di antara metode lainnya. Nilai MSE metode BICOV untuk
gugus X*Y mulai dari proporsi pencilan 2% hingga 12 % adalah 0.02, 0.03, 0.03,
0.03, 0.04, dan 0.04. Sedangkan pada metode MCD memberikan nilai MSE
berturut-turut mulai dari proporsi pencilan 2% sampai dengan proporsi pencilan
terbesar adalah 0.08, 0.07, 0.06, 0.06, 0.06 dan 0.06. Dibandingkan dua metode
BICOV dan MCD, metode klasik tampak tidak kekar dengan nilai MSE paling
maksimum. Begitu juga pada gugus X*Y*, metode klasik memberikan nilai MSE
paling maksimum, terlihat dari pola grafik yang lebih tinggi di antara metode
lainnya. Metode MCD memberikan nilai MSE lebih kecil daripada metode klasik,
akan tetapi metode BICOV memberikan nilai MSE paling kecil mulai dari
proporsi pencilan terkecil sampai dengan proporsi pencilan 12%.
(a) (b)
Gambar 12 Grafik nilai MSE dengan kondisi radial outlier K1=100, nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
(a) (b)
Gambar 13 Grafik nilai MSE dengan kondisi radial outlier K2=144,
nc=50 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Pola garfik pada Gambar 13 untuk keseluruhan hasil simulasi pada gugus
X*Y dan gugus X*Y* dengan proporsi pencilan 2% sampai dengan 12%
menunjukkan bahwa metode BICOV memberikan nilai MSE paling minimum di
Gambar 14 dan 15 merupakan grafik untuk gugus data dengan kondisi
radial outlier , dan , serta jumlah
pengamatan yang sama Nc=100. Pola grafik pada Gambar 14 menunjukkan
bahwa metode BICOV tampak lebih kekar dibandingkan metode klasik dan
MCD, dengan nilai MSE paling minimum sebesar 0.01 untuk setiap proporsi
pencilan. Begitu juga pada Gambar 15, metode BICOV menghasilkan nilai MSE
paling minimum mulai dari proporsi pencilan 2% sampai dengan 12%, dengan
pola grafik yang konsisten.
(a) (b)
Gambar 14 Grafik nilai MSE dengan kondisi radial outlier dan K1=100, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
(a) (b)
Gambar 15 Grafik nilai MSE dengan kondisi radial outlier dan K2=144, nc=100 pengamatan: (a) Gugus X*Y, (b) Gugus X*Y*
Pada kasus gugus data dengan kondisi radial outlier, tidak satupun hasil simulasi data menunjukkan metode MCD lebih baik daripada metode BICOV.
Sedangkan metode klasik merupakan metode paling buruk di antara metode
lainnya. Keseluruhan hasil simulasi menunjukkan bahwa metode BICOV
memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12%
Penerapan Metode BICOV
Pada bagian ini dibahas penerapan AKK untuk mengidentifikasi dan
mengukur keeratan hubungan antara gugus data struktur ekonomi dengan gugus
kesejahteraan rakyat menggunakan metode BICOV.
Pertama dikemukakan statistik deskriptif dari peubah-peubah pada gugus
data struktur ekonomi dan kesejahteraan rakyat. Selanjutnya, dilakukan
pendeteksian pencilan pada kesuluruhan data pengamatan. Kemudian mengukur
keeratan hubungan kedua gugus peubah dengan menggantikan matriks peragam
klasik dengan matriks peragam BICOV.
Deskripsi data struktur ekonomi dan data kesejahteraan rakyat disajikan
pada Tabel 1 dan Tabel 2. Tabel 1 menunjukkan simpangan baku yang cukup
besar terdapat pada peubah (persentase pekerja di sektor pertanian). Hal ini
berarti bahwa pekerja di sektor pertanian cukup beragam di setiap provinsi.
Sedangkan pada gugus peubah kesejahteraan rakyat yang tertera pada Tabel 2,
peubah yang menunjukkan simpangan cukup besar terdapat pada peubah
(persentase rumah tangga dengan perencanaan listrik/petromak) dan
(persentase rumah tangga memiliki TV/Video/Laserdisc).
Tabel 1 Statistik deskriptif gugus data struktur ekonomi
Peubah Rata-rata Simpangan baku Minimum Maksimum
X1 27.22 10.22 0.22 43.25
X2 52.84 15.94 0.83 74.6
X3 10.55 3.98 6.01 27.07
X4 22.16 7.63 1.69 39.20
Tabel 2 Statistik deskriptif gugus data kesejahteraan rakyat
Peubah Rata-rata Simpangan baku Minimum Maksimum
Y1 11.43 6.91 4.56 35.76
Tahap berikutnya, pengidentifikasian pencilan dengan jarak Mahalanobis
pencilan, terlihat dari nilai jarak mahalanobis kekar (di2RD) yang dihasilkan lebih
Sumatera Barat 437.56* Timor-Timor 8.13 Riau 9.18 Kalimantan Barat 6.83 Jambi 11.69 Kalimantan Tengah 9.67 Sumatera Selatan 3.42 Kalimantan Selatan 8.21 Bengkulu 96.80* Kalimantan Timur 8.13 Lampung 6.92 Sulawesi Utara 491.22* DKI Jakarta 740.53* Sulawesi Tengah 10.83 Jawa Barat 11.50 Sulawesi Selatan 289.35* Jawa Tengah 6.95 Sulawesi Tenggara 13.52 DI Yogyakarta 13.30 Maluku 155.50* Jawa Timur 11.09 Irianjaya 11.10
Bali 139.36*
Keterangan: *) di2RD >
Hasil korelasi kanonik pertama dari gugus peubah struktur ekonomi dan
kesejahteraan rakyat sebesar 0.96. Nilai korelasi tersebut menjelaskan bahwa ada
hubungan antara kedua gugus peubah tersebut sebesar 0.96. Nilai tersebut hampir
sama dengan nilai korelasi kanonik pertama yang dihasilkan dengan
SIMPULAN DAN SARAN Simpulan
Biweight Midcovariance merupakan metode kekar terbaik yang memberikan nilai mean square error paling minimum dibandingkan metode klasik dan metode kekar Minimum Covariance Determinant dalam Analisis korelasi kanonik dengan berbagai kondisi pencilan (shift outlier, scale outlier, radial outlier) dan proporsi pencilan mulai dari 2% sampai dengan 12%.
Nilai korelasi kanonik pertama dari korelasi antar gugus peubah struktur
ekonomi dan kesejahteraan rakyat dengan menggunakan metode biweight midcovariance sebagai pengganti matriks peragam klasik, diperoleh sebesar 0.96, artinya hubungan antara kedua gugus peubah tersebut sebesar 0.96.
Saran
Penelitian selanjutnya perlu ditambahkan lagi keragaman dari simulasi
DAFTAR PUSTAKA
Cannon AJ, Hsieh WW. 2008. Robust Nonlinear Canonical Correlation Analysis : Application to Seasonal Climate Forecasting. http://www.nonlin-processes-geophys.net/15/221/2008/npg-15-221-2008.pdf. [20 Desember 2011].
Dehon C, Filzmoser P, Croux C. 2000. Robust Methods for Canonical CorrelationAnalysis.http://www.statistik.tuwien.ac.at/public/filz/papers/na mur00.pdf. [20 Desember 2011].
Dillon WR, Goldstein M. 1984. Multivariate Analysis Methods and Application. John Wiley & Sons. New York.
Harmini. 1997. Hubungan Struktur Ekonomi dengan Kesejahteraan Rakyat: Suatu Pendekatan dengan Analisis Korelasi Kanonik [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Hawkins DM, McLachlan GJ. 1997. High Breakdown Linear Discriminant Anaysis. Journal of the American Statistical Association, 437:136 –143.
Hubert M, Van Driessen K. 2004. Fast and Robust Discriminant Analysis, Computational Statistics and Data Analysis. 45: 301-320. ftp://adrem.ua.ac.be/pub/preprints/02/Fasrob02.pdf. [ 7 Maret 2012].
Johnson RA, Winchern DW. 2002. Applied Multivariate Statistical Analysis. Fourth Edition. New Jersey : Prentice-Hall International inc.
Marazzi A. 1993. Algorithms, Routines and S functions for Robust Statistics. California: Wadworth, Inc.
Rancher AC. 2002. Methods of Multivariate Analysis. Second Edition. John Wiley & Sons. New York.
Romanazzi M. 1992. Influence in Canonical Correlation Analysis. Psychometrika. 57:237-259. http://www.springerlink.com/content/l24p13843114jr65/. [1 April 2012].
Rousseeuw PJ, Van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator. Technometrics. 3:212-223. ftp://ftp.win.ua.ac.be/pub/preprints/99/Fasalg99.pdf. [20 Februari 2012]
Todorov V, Pires AM. 2007. Comparative Performance of Several Robust Linier Discriminant Analysis Methods. Statistical Journal.50:63-68. http://www.ine.pt/revstat/pdf/rs070104.pdf. [3 Maret 2012]
Yohai VJ. 2006. A Fast Algorithm for S-regression Estimates. Journal of
Computational and Graphical Statistics. 15:414-427.
Lampiran 1 Data gugus peubah struktur ekonomi
X3: Persentase dengan jenis pekerjaan utama 1 (tenaga professional, teknisi dan
yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan), atau 3 (tenaga usaha dan yang sejenis)
Lampiran 2 Data gugus peubah kesejahteraan rakyat
Y1: Persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan Y2: Persentase rumah tangga dengan penerangan listrik/petromak
Y3: Persentase rumah yang memiliki TV/Video/Laserdisc
Y4: Persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak
tanah/kayu
iii
FREZA RIANA. Comparison Robust Biweight Midcovariance and Minimum Covariance Determinant Methods in Canonical Correlation Analysis. Supervised by ERFIANI and AJI HAMIM WIGENA.
Canonical Correlation Analysis (CCA) is a multivariate linear used to identify and quantify associations between two sets of random variables. Its standard computation is based on sample covariance matrices, which are however very sensitive to outlying observations. The robust methods are needed. There are two robust methods, i.e robust Biweight Midcovariance (BICOV) and Minimum Covariance Determinant (MCD) methods. The objective of this research is to compare the performance of both methods based on mean square error. The data simulations are generated from various conditions. The variation data consists of the proportion of outliers, and the kind of outliers: shift, scale, and radial outlier. The performance of robust BICOV method in CCA is the best compared to MCD and Classic.
iv
FREZA RIANA. Perbandingan Metode Kekar Biweight Midcovariance dan Minimum Covariance Determinant dalam Analisis Korelasi Kanonik. Dibimbing oleh ERFIANI dan AJI HAMIM WIGENA.
Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK berdasarkan pada matriks peragam dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara kedua gugus peubah tersebut menjadi maksimum. Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan.
Ada beberapa jenis pengamatan pencilan, pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi peragamnya sama. Jenis kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Jenis ketiga, radial outlier yaitu pengamatan pencilan yang mucul dari sebaran dengan rata-rata dan peragam berbeda. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias.
Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan menggunakan metode kekar. Beberapa metode kekar yang dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Matriks peragam yang dihasilkan dari metode-metode tersebut menjadi alternatif sebagai pengganti matriks peragam klasik.
Tujuan dari penelitian ini adalah: 1) Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi pencilan; 2) Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus (SUPAS) tahun 1995.
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan yang berguna untuk mengukur kinerja metode BICOV dan MCD dalam AKK. Data sekunder dalam penelitian ini terbitan Badan Pusat Statistik (BPS) tahun 1996. Data sekunder tersebut sebagai penerapan contoh kasus untuk mengidentifikasi dan mengukur keeratan hubungan antara struktur ekonomi dan kesejahteraan rakyat.
Data simulasi yang dibangkitkan yaitu: 1) Data populasi yang dibangkitkan dengan sebaran normal ganda , untuk gugus X dan gugus Y dengan 5000; 2) Data contoh tanpa pencilan (Gugus XY) yang berukuran nc=50 dan 100, dibangkitkan secara acak sebanyak M = 500 kali, mengikuti
v
struktur ekonomi terdiri dari empat peubah, yaitu Persentase PDRB dari sektor pertanian, persentase pekerja di sektor pertanian, persentase pekerja dengan jenis pekerjaan utama 1 (tenaga profesional, teknisi dan yang sejenis), atau 2 (tenaga kepemimpinan dan ketatalaksanaan, atau 3 (tenaga usaha dan yang sejenis, persentase pekerja dengan status pekerja utama sebagai pekerja keluarga. Gugus peubah kesejahteraan rakyat terdiri dari enam peubah, yaitu persentase penduduk dengan pengeluaran di atas UMR per kapita per bulan, persentase rumah tangga dengan penerangan listrik/petromak, persentase rumah tangga yang memiliki TV/Video/Laserdisc, persentase rumah tangga dengan jenis bahan bakar untuk memasak minyak tanah/kayu, persentase penduduk tertinggi lulus SMA atau perguruan tinggi, persentase angka kelahiran total (TFR) tahun (1990-1995).
Berdasarkan hasil simulasi pada kondisi shift outlier menunjukkan bahwa metode BICOV mampu meminimumkan nilai mean square error (MSE) dengan pola grafik yang konsisten mulai dari data dengan proporsi pencilan 2% sampai dengan 12 %, baik untuk gugus X*Y maupun gugus X*Y*. Sebaliknya metode MCD dan klasik menghasilkan pola grafik yang tidak konsisten, dengan nilai MSE yang berubah-ubah untuk proporsi pencilan yang berbeda.
Pada kondisi pencilan scale outlier menunjukkan bahwa metode klasik yang paling buruk dengan nilai MSE paling maksimum dan pola grafik yang berubah-ubah. Metode MCD merupakan metode yang lebih baik dibandingkan klasik, dengan menghasilkan nilai MSE lebih rendah dibandingkan klasik. Akan tetapi, nilai MSE yang paling rendah dan pola grafik yang konsisten untuk setiap proporsi pencilan yang berbeda ditunjukkan oleh metode BICOV.
Pada kasus data dengan kondisi radial outlier, tidak satupun keseluruhan hasil simulasi data menunjukkan metode klasik lebih baik daripada metodeMCD. Namun dibandingkan MCD, metode BICOV memberikan nilai MSE paling minimum untuk setiap proporsi pencilan 12% untuk gugus X*Y dan gugus X*Y*. Hasil dari kedua gugus data yaitu gugus struktur ekonomi dan kesejahteraan rakyat terdapat delapan pengamatan yang teridentifikasi sebagai pencilan. Kedua gugus struktur tersebut mempunyai keeratan hubungan sebesar 0.96, artinya gugus struktur ekonomi berkorelasi dengan gugus kesejahteraan rakyat dengan korelasi 0.96.
PENDAHULUAN Latar Belakang
Analisis korelasi kanonik (AKK) merupakan suatu metode peubah ganda
untuk mengidentifikasi dan mengukur hubungan antara dua gugus peubah. AKK
berdasarkan pada matriks peragam (Dehon et al. 2000) dan membentuk suatu kombinasi linier dari setiap gugus peubah sedemikian sehingga korelasi di antara
kedua gugus peubah tersebut menjadi maksimum (Johnson dan Wichern 2002).
Namun matriks peragam pada AKK sangat sensitif terhadap pengamatan pencilan
(Romanazzi 1992). AKK dapat diaplikasikan dalam berbagai bidang seperti
pemasaran, transportasi, kedokteran, meteorologi, perbankan, pertanian,
pendidikan, dan perekonomian.
Hawkins dan McLachlan (1997) menyatakan bahwa ada dua jenis
pengamatan pencilan. Pertama, shift outlier yaitu pengamatan pencilan dari sebaran rata-ratanya berbeda dengan sebaran dasarnya (tanpa pencilan) tetapi
peragamnya sama. Kedua, scale outlier yaitu pengamatan pencilan yang peragamnya berbeda tetapi kedua sebarannya sama. Hubert dan Van Driessen
(2004) menggabungkan keduanya yaitu pengamatan pencilan yang mucul dari
sebaran dengan rata-rata dan peragam berbeda, yang dikenal sebagai radial outlier. Pencilan tersebut dapat mengakibatkan sebaran data menjadi tidak normal, sehingga matriks peragamnya tidak efisien dan sifat penduganya menjadi berbias
(Yohai 2006).
Salah satu pendekatan untuk mengatasi pengamatan pencilan yaitu dengan
menggunakan metode kekar (Rancher 2002). Beberapa metode kekar yang
dikembangkan dalam AKK, diantaranya Minimum Covariance Determinant, Projection Pursuit, Alternating Regression, Sign Test, dan Biweight Midcovariance. Dehon et al. (2000) membangkitkan data simulasi dengan proporsi pencilan 10% pada kondisi scale outlier,untuk membandingkan metode Minimum Covariance Determinant (MCD), Projection Pursuit, Alternating Regression, dan Sign Test. Hasil simulasinya menunjukkan bahwa MCD memberikan nilai Mean Square Error (MSE) paling minimum. Cannon dan Hsieh (2008) menggunakan metode Biweight Midcovariance (BICOV) yang dikembangkan oleh Wilcox pada tahun 1997, untuk mengatasi pencilan pada
Pada penelitian ini akan dibandingkan kinerja metode BICOV dan MCD
melalui data simulasi, dan selanjutnya metode kekar terbaik yang diperoleh
diterapkan pada data bidang perekonomian untuk mengetahui korelasi antara
gugus struktur ekonomi dan kesejahteraan rakyat.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Menentukan metode kekar yang terbaik antara BICOV dan MCD dalam
AKK melalui data simulasi dengan berbagai kondisi pencilan dan proporsi
pencilan.
2. Menerapkan AKK dengan metode kekar yang terbaik untuk kasus data
struktur ekonomi dan kesejahteraan rakyat yang didapat dari data Survey
Ekonomi Nasional (SUSENAS) dan Survey Penduduk Antar Sensus
TINJAUAN PUSTAKA Analisis Korelasi Kanonik
Analisis korelasi kanonik (AKK) yang diperkenalkan oleh Hotelling pada
tahun 1936, bertujuan untuk mengidentifikasi dan menghitung hubungan linier
antara dua gugus peubah. Perhitungan AKK berfokus pada korelasi antara
kombinasi linier dari dua gugus peubah. Ide utama dari AKK adalah mencari
pasangan dari kombinasi linier yang memiliki korelasi terbesar. Pasangan
kombinasi linier ini disebut peubah kanonik dan korelasinya disebut korelasi
kanonik (Johnson dan Wichern 2002).
Misalkan gugus peubah pertama dan gugus kedua
, dengan . Karakteristik dari vektor peubah acak X dan
Y sebagai berikut:
Vektor rataan:
dengan adalah rata-rata peubah Xdan adalah rata-rata peubah Y. Matriks peragam dapat disusun sebagai berikut:
(1)
Matriks peragam pada persamaan (1), selanjutnya disebut sebagai matriks
peragam klasik, dengan:
adalah matriks peragam peubahXberukuran ( )
adalah matriks peragam peubah Yberukuran ( )
adalah matriks peragam peubah X dan peubah Y berukuran ( ) adalah matriks peragam peubah Y dan peubah X berukuran ( )
=
=
=
Vektor koefisien didapatkan dengan mencari akar ciri
dari matriks yang berpadanan dengan
vektor ciri Sedangkan untuk vektor koefisien didapatkan dengan
mencari akar ciri dari matriks yang
berpadanan dengan vektor ciri , sehingga vektor koefisien dan
adalah sebagai berikut:
dengan:
adalah vektor pembobot kanonik U ke-i adalah vektor pembobot kanonik V ke-i
adalah vektor ciri U ke-i adalah vektor ciri V ke-i
adalah min , i=
Selanjutya korelasi kanonik didapatkan dari:
Nilai koefisien korelasi kanonik berada pada kisaran dan kuadrat
korelasi kanonik merupakan proporsi keragaman peubah kanonik U yang dapat dijelaskan oleh peubah kanonik V (Johnson dan Wichern 2002).
Metode Kekar
Perhitungan AKK berdasarkan matriks peragam klasik sangat sensitif
terhadap pencilan (Romanazzi 1992), sehingga diperlukan metode kekar untuk
mengatasi pencilan (Rancher 2002). Beberapa metode kekar telah dikembangkan
matriks peragam yang dihasilkan dari kedua metode tersebut menjadi alternatif
sebagai pengganti matriks peragam klasik.
Biweight Midcovariance
Korelasi Pearson merupakan hubungan antara dua peubah yang bisa
dipengaruhi oleh keberadaan suatu pengamatan pencilan (Wilcox 2004). Biweight midcorrelation merupakan alternatif sebagai pengganti dari korelasi Pearson. Biweightberasal dari pembobot Tukey’s bisquare yaitu:
Misalkan adalah jumlah pengamatan, adalah median dari x, dan adalah median dari y, sehingga pembobot untuk dan adalah:
dengan adalah median dari dan adalah median dari
.
Peragam Biweight Midcovariance dari x dan y:
dengan:
jika , selainnya
jika , selainnya
Peragam Biweight Midvariance dari x:
Peragam Biweight Midvariance dari y:
Matriks peragam BICOV sebagai berikut:
Sehingga didapatkan Biweight Midcorrelation adalah:
Nilai korelasi pada Biweight Midcorrelation sama dengan nilai korelasi Pearson yaitu berada pada kisaran -1 ≤ ≤ +1.
Matriks peragam BICOV juga dapat digunakan dalam AKK yaitu dengan
menggantikan matriks peragam klasik, sehingga didapatkan nilai korelasi kanonik
sebagai berikut:
Minimum Covariance Determinant
Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw pada tahun 1985. Metode MCD bertujuan mencari submatriks H yang berisi
unsur-unsur matriks sejumlah h elemen yang matriks peragamnya memiliki determinan terkecil (Rousseeuw 1999). Pada prinsipnya metode MCD adalah
mencari submatriks H berukuran yang dipilih secara acak sejumlah h elemen dari matriks X berukuran , dengan h merupakan bilangan bulat terkecil dari . Kemungkinan banyaknya submatriks H yang dapat
dipilih secara acak dari matriks X yaitu sebanyak kombinasi h dari n yang berbeda, . Submatriks H digunakan untuk memperoleh dugaan vektor rataan
dan matriks peragam. Jika n kecil, maka penduga MCD relatif mudah dan cepat untuk diperoleh, tetapi jika n besar, maka perlu waktu lama dan banyak sekali kombinasi submatriks yang harus diperoleh untuk mendapatkan penduga MCD.
Keterbatasan tersebut dapat diatasi dengan pendekatan FAST-MCD dengan
algoritma C-Step yang dikembangkan oleh Rousseeuw dan Vandriessen (1999).
Misalkan , dengan merupakan submatriks berukuran
dari matriks berukuran . Hitung vektor rataan dan matriks peragam:
(5)
, dengan i=1,2,..n.
Urutkan jarak untuk setiap pengamatan, dengan
Selanjutnya, sejumlah h pengamatan yang menghasilkan jarak terkecil menjadi unsur matriks sedemikian sehingga
. Kemudian, hitung dan berdasarkan matriks
, dengan det( det( .
Penjelasan di atas mensyaratkan det( , karena jika
det( maka nilai objektif minimum untuk mendapatkan determinan
terkecil telah ditemukan. Selain itu, jika det( , penggunaan formulasi
di atas akan menghasilkan yang det( det( . Dalam
FAST-MCD akan digunakan algoritma C-Step, ada pun algoritma dari C-Step sebagai berikut:
1. Tetapkan H(old), hitung mcd(old) dan mcd(old).
2. Hitung jarak relatif mcd(old)(i) untuk i=1, 2, …, n
3. Urutkan jarak relatif hasil permutasi dari dengan d(old)
d(old) d(old) .
4. Tentukan H(new)
5. Hitung mcd(new)dan mcd new)
.
6. Pengulangan algoritma C-Step akan menghasilkan sejumlah proses iterasi.
Proses iterasi akan berhenti, jika det( atau
det( det( .
7. Jika kondisi di atas belum terpenuhi, maka proses iterasi akan terus