PENGKLASIFIKASIAN OBJEK DENGAN ANALISIS DISKRIMINAN LINIER KLASIK DAN ANALISIS
DISKRIMINAN LINIER ROBUST
TESIS
Oleh
JUSTIN EDUARDO SIMARMATA 167021014/MT
PROGRAM STUDI MAGISTER MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2018
UNIVERSITAS SUMATERA UTARA
PENGKLASIFIKASIAN OBJEK DENGAN ANALISIS DISKRIMINAN LINIER KLASIK DAN ANALISIS
DISKRIMINAN LINIER ROBUST
T E S I S
Diajukan Sebagai Salah Satu Syarat
untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh
JUSTIN EDUARDO SIMARMATA 167021014/MT
PROGRAM STUDI MAGISTER MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2018
UNIVERSITAS SUMATERA UTARA
UNIVERSITAS SUMATERA UTARA
Telah diuji pada
Tanggal : 16 April 2018
PANITIA PENGUJI TESIS Ketua : Dr. Sutarman, M.Sc
Anggota : 1. Dr. Mardiningsih, M.Si 2. Dr. Sawaluddin, M.IT 3. Dr. Syahril Efendi, M.IT
UNIVERSITAS SUMATERA UTARA
PERNYATAAN ORISINALITAS
PENGKLASIFIKASIAN OBJEK DENGAN ANALISIS DISKRIMINAN LINIER KLASIK DAN ANALISIS
DISKRIMINAN LINIER ROBUST
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing dituliskan sum- bernya
Medan, Penulis,
Justin Eduardo Simarmata
UNIVERSITAS SUMATERA UTARA
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, Saya yang bertanda tangan di bawah ini:
Nama : Justin Eduardo Simarmata
NIM : 167021001
Program Studi : Matematika Jenis Karya Ilmiah: Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul:
Pengklasifikasian Objek dengan Analisis Diskriminan Linier Klasik dan Analisis Diskriminan Linier Robust. PENGKLASIFIKASIAN OBJEK DENGAN ANALISIS DISKRIMINAN LINIER KLASIK DAN ANALISIS DISKRIMINAN LINIER ROBUST Beserta perangkat yang ada. Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Suma- tera Utara berhak menyimpan, mengalih media, memformat mengelo- la dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama mencantumkan nama saya seba- gai pemegang dan atau sebagai penulis dan sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, Penulis,
Justin Eduardo Simarmata
UNIVERSITAS SUMATERA UTARA
PENGKLASIFIKASIAN OBJEK DENGAN ANALISIS DISKRIMINAN LINIER KLASIK DAN ANALISIS
DISKRIMINAN LINIER ROBUST
ABSTRAK
Analisis diskriminan merupakan salah satu dari analisis multi- variat dengan metode dependensi. Analisis diskriminan merupakan analisis multivariat yang bertujuan untuk mengklasifikasi amatan ber- dasarkan beberapa variabel independen yang bersifat non kategorik dan variabel dependen yang bersifat kategorik. Analisis diskriminan memerlukan asumsi sebaran normal multivariat dan kehomogenan ma- triks varians-kovarians. Analisis diskriminan linier klasik dan analisis diskriminan linier robust dapat diaplikasikan untuk mengklasifikasikan objek. Klasifikasi didasarkan pada 10 indikator tingkat kemiskinan Kabupaten/kota di provinsi Sumatera Utara, 10 indikator tersebut sebagai variabel independen dan tingkat klasifikasi kemiskinan rendah dan kemiskinan tinggi sebagai variabel dependen. Model diskriminan linier robust mengklasifikasikan objek lebih tepat dari model diskrimi- nan linier klasik. Hal ini dapat dilihat dari total proporsi kesalahan pengklasifikasian sebesar 6%, lebih kecil dari total proporsi kesalahan pengklasifikasian model diskriminan linier klasik yaitu sebesar 21,2%.
Hal ini terjadi karena jumlah pencilan yang besar pada data tingkat kemiskinan kabupaten/kota di Sumtera Utara.
Kata kunci : Analisis multivariat, Analisis diskriminan linier klasik, Robust.
i
UNIVERSITAS SUMATERA UTARA
OBJECT CLASSIFICATION WITH CLASSICAL LINEAR DISCRIMINANT ANALYSIS AND ROBUST LINEAR
DISCRIMINANT ANALYSIS
ABSTRACT
Discriminant analysis is one of multivariate analysis with de- pendency method. Discriminant analysis is a multivariate analysis that aims to classify observations based on several independent vari- ables that are non-categorical and categorical dependent variables.
Discriminant analysis requires the assumption of the normal multi- variate distribution and the homogeneity of the variance-covariance matrix. Classical linear discriminant analysis and linear robust dis- criminant analysis can be applied to classify objects. The classifica- tion is based on 10 indicators of district/city poverty level in North Sumatra province, 10 indicators are as independent variable and low poverty classification and high poverty classification as dependent variable. The linear robust discriminant model classifies the object more precisely than the classic linear discriminant model. This can be seen from the total proportion of classification mistakes of 6%, less than the total proportion of classical linear discriminant classi- fier error classification of 21.2%. This is due to the large number of outlays in the district/city poverty data in North Sumatra.
Keyword : Multivariate analysis, The classical linear discriminant analysis, Robust .
ii
UNIVERSITAS SUMATERA UTARA
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa dan Maha Penyayang, dengan limpahan karunia-Nya penulis dapat menye- lesaikan penyusunan tesis dengan judul PENGKLASIFIKASIAN OB- JEK DENGAN ANALISIS DISKRIMINAN LINIER DAN ANALI- SIS DISKRIMINAN ROBUST. Tesis ini merupakan salah satu syarat untuk menyelesaikan studi pada Program Studi Magister Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Univer- sitas Sumatera Utara.
Pada kesempatan ini, penulis ingin menyampaikan terima kasih kepa- da:
Ayahanda (Almarhum) Jidun Simarmata dan Ibunda Nursatia Lubis, sosok orang tua yang mencurahkan seluruh kasih sayang dan dukun- gan kepada penulis. Orang tua penulis kagumi dan cintai, yang telah memberi tauladan, membimbing, mengajarkan kesabaran, kerenda- han hati dan selalu bersyukur dalam menghadapi kehidupan ini, serta senantiasa memanjatkan doa yang tulus dan ikhlas bagi keberhasilan anak-anaknya.
Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., selaku Rektor Uni- versitas Sumatera Utara yang telah memberikan kesempatan penulis untuk menempuh pendidikan di Universitas Sumatera Utara.
Bapak Dr. Kerista Sebayang, M.S., selaku Dekan Fakultas Mate- matika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
Bapak Prof. Dr. Herman Mawengkang, selaku Ketua Program Stu- di Magister Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
Bapak Prof. Dr. Saib Suwilo, M.Sc., selaku Sekretaris Program Stu-
iii
UNIVERSITAS SUMATERA UTARA
di Magister Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
iv
UNIVERSITAS SUMATERA UTARA
Bapak Dr. Sutarman, M.Sc., selaku Pembimbing Pertama tesis ini yang telah banyak memberikan bimbingan dan arahan serta motivasi kepada penulis sehingga tesis ini dapat diselesaikan dengan baik.
Ibu Dr. Mardiningsih, M.Si., selaku Pembimbing Kedua tesis ini yang telah banyak memberikan bimbingan dan arahan serta motivasi kepada penulis sehingga tesis ini dapat diselesaikan dengan baik.
Bapak Dr. Sawaluddin, M.IT., selaku Penguji tesis ini yang telah ba- nyak memberikan bimbingan dan arahan serta motivasi kepada penulis sehingga tesis ini dapat diselesaikan dengan baik.
Bapak Dr. Syahriel Efendi, M.IT., selaku Penguji tesis ini yang telah banyak memberikan bimbingan dan arahan serta motivasi kepada penulis sehingga tesis ini dapat diselesaikan dengan baik.
Seluruh Staf Pengajar pada Program Studi Magister Matematika Fakul- tas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara yang telah banyak memberikan ilmu pengetahuan se- lama masa perkuliahan.
Ibu Misiani, S.Si., selaku Staf Administrasi Program Studi Magis- ter Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara yang telah banyak memberikan pelayanan yang baik kepada penulis selama mengikuti perkuliahan.
Adikku yang ganteng, Hendri Jonathan Simarmata, S.Pd., abangku yang ganteng juga, Martogi Parlindungan Simarmata, Antonius Simar- mata, S.E., Erwin Pahala Simarmata, S.Kom., serta kakak-kakakku, Ferawati Imelda Simarmata, Julita V Simarmata, Lasmaria Simar- mata, S.E., dan Lusiana Simarmata yang memberikan semangat dan bantuan moril kepada penulis.
Seluruh rekan-rekan Mahasiswa Program Studi Magister Mate- matika Fakultas MIPA Universitas Sumatera Utara tahun 2016, atas
v
UNIVERSITAS SUMATERA UTARA
kerjasama dan hubungan yang baik selama perkuliahan, semoga per- sahabatan yang kita jalin abadi dan dorongan kepada penulis dalam penulisan tesis ini.
Semua pihak yang telah banyak membantu, baik langsung maupun tidak langsung yang tidak dapat penulis sebutkan namanya satu per satu, hanya Tuhan Yang Maha Esa yang mampu memberikan balasan terbaik. Mudah-mudahan tesis ini dapat memberi sumbangan yang berharga bagi perkembangan dunia ilmu dan bermanfaat bagi banyak orang. Semoga Tuhan Yang Maha Esa senantiasa memberi rahmat- NYA kepada kita semua. Amin.
Penulis menyadari bahwa tesis ini masih jauh dari sempurna, un- tuk itu penulis mengharapkan kritik saran untuk penyempurnaan tesis ini. Semoga tesis ini dapat bermanfaat bagi pembaca dan pihak-pihak yang memerlukannya. Terima kasih.
Medan, 16 April 2018 Penulis,
Justin Eduardo Simarmata
vi
UNIVERSITAS SUMATERA UTARA
RIWAYAT HIDUP
Justin Eduardo Simarmata dilahirkan di Sawah Lamo pada tanggal 5 Juli 1991 dari pasangan Bapak Almarhum Jidun Simarmata dan Ibu Nursatia Lubis. Penulis menamatkan pendidikan Sekolah Dasar di SD Negeri 155704 Ujung Batu, Kecamatan Barus, Kabupaten Tapanuli Tengah, Sumatera Utara, pada tahun 2003, setelah itu melanjutkan pendidikan ke SMP Swasta Santo Thomas 3 Medan dan lulus pada tahun 2006 kemudian melanjutkan pendidikan ke SMA Swasta San- to Thomas 3 Medan dan lulus pada tahun 2009. Kemudian di tahun 2011 penulis memasuki perguruan tinggi negeri, Universitas Sumatera Utara (USU) Fakultas Matematika dan Ilmu Pengetahuan Alam Pro- gram Studi Matematika dan lulus Strata Satu (S-1) tahun 2015. Pada tahun 2015 sampai sekarang penulis bekerja di Yayasan Pendidikan Nasional Marisi Medan dan Lembaga Bimbingan Belajar Sony Sug- ema College (SSC) Medan. Pada tahun 2016, penulis melanjutkan pendidikan pada Program Studi Magister Matematika Universitas Su- matera Utara.
vi
UNIVERSITAS SUMATERA UTARA
DAFTAR ISI
Halaman
ABSTRAK i
ABSTRACT ii
KATA PENGANTAR iii
RIWAYAT HIDUP vi
DAFTAR ISI vii
DAFTAR TABEL x
DAFTAR GAMBAR xi
BAB 1 PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Perumusan Masalah 5
1.3 Tujuan Penelitian 6
1.4 Manfaat Penelitian 6
BAB 2 TINJAUAN PUSTAKA 7
2.1 Analisis Multivariat 7
2.2 Teknik-teknik Analisis Multivariat 7 2.2.1 Analisis multivariat dengan menggunakan
metode dependensi 8
2.3 Analisis Multivariat dengan Menggunakan Metode
Interdependensi 8
2.4 Software-software yang Tersedia untuk Analisis Mul-
tivariat 8
2.5 Analisis Diskriminan 10
2.6 Metode Penaksir Minimum Covariance Determinant
(MCD) 10
2.7 Pengujian Perbedaan Vektor Rataan 11 vii
UNIVERSITAS SUMATERA UTARA
2.8 Pengujian Asumsi Analisis Diskriminan 11 2.8.1 Distribusi normal multivariat 12
2.8.2 Pendeteksian pencilan 12
2.9 Metode Robust 13
2.10 Apparent Error Rate (APER) 13
2.11 Kemiskinan 14
2.12 Indikator Kemiskinan 15
BAB 3 METODOLOGI PENELITIAN 17
3.1 Pengujian Asumsi Analisis Diskriminan 18
3.1.1 Uji normal multivariat 18
3.1.2 Uji kesamaan matriks varians lovarians 18 3.1.3 Uji vektor nilai rataan (uji kesamaan rata-
rata kelompok) 19
3.2 Fungsi Analisis Diskriminan 21
3.3 Ketepatan Pengelompokkan Fungsi Diskriminan 26
3.4 Langkah-langkah Analisis 27
BAB 4 HASIL DAN PEMBAHASAN 29
4.1 Data Tingkat Kemiskinan Kabupaten/Kota di Suma-
tera Utara 29
4.1.1 Pendidikan yang ditamatkan tingkat SD 30 4.1.2 Pendidikan yang ditamatkan tingkat SLTP 30 4.1.3 Pendidikan yang ditamatkan tingkat SLTA 30 4.1.4 Angka tidak bekerja atau pengangguran 30 4.1.5 Angka bekerja di sektor informal 32 4.1.6 Angka bekerja di sektor formal 32 4.1.7 Angka pengguna alat kontrasepsi 32 4.1.8 Persentase balita yang telah diimunisasi 32
viii
UNIVERSITAS SUMATERA UTARA
4.1.9 Rumah tangga pengguna air layak 32 4.1.10 Rumah tangga pengguna jamban sendiri/bersama 33 4.2 Pengujian Asumsi Analisis Diskriminan 34
4.2.1 Uji Normal Multivariat 34
4.2.2 Data uji kesamaan matriks varian kovarian 36
4.2.3 Data pencilan (outlier) 37
4.2.4 Pemilihan ariabel bebas 39
4.2.5 Analisis diskriminan linier klasik 39 4.3 Analisis Diskriminan Linier Robust 41 4.4 Perbandingan Hasil Analisis Diskriminan Linier Klasik
dan Analisis Diskriminan Linier Robust 45
BAB 5 KESIMPULAN DAN SARAN 46
5.1 Kesimpulan 46
5.2 Saran 46
DAFTAR PUSTAKA 48
ix
UNIVERSITAS SUMATERA UTARA
DAFTAR TABEL
Nomor Judul Halaman
3.1 Matriks data pengamatan 21
3.2 Matriks data pengamatan dari grup I 24
3.3 Matriks data pengamatan dari grup II 24 3.4 Hasil Klasifikasi model diskriminan linier robust untuk 33
data 27
4.1 Persentase tingkat kemiskinan Kabupaten/kota di Sumate-
ra Utara 29
4.2 Data persentase penduduk Kabupaten/kota di Sumatera Utara dengan 10 peubah indikator kemiskinan 33
4.3 Uji F dalam analisis regresi 39
4.4 Matriks kovariansi dari grup I (S1) 40 4.5 Matriks kovariansi dari grup II (S2) 40 4.6 Matriks kovariansi gabungan grup I dan grup II (S) 40 4.7 Matriks invers kovariansi gabungan grup I dan grup II (S) 41 4.8 Hasil Klasifikasi model diskriminan linier robust untuk 33
data 41
4.9 Matriks robust estimate of covariance dari grup I (S1) 43 4.10 Matriks robust estimate of covariance dari grup II (S2) 43 4.11 Matriks robust estimate of covariance gabungan grup I dan
grup II (S2) 43
4.12 Matriks invers robust estimate of covariance (S) 44 4.13 Hasil Klasifikasi model diskriminan linier robust untuk 33
data 44
x
UNIVERSITAS SUMATERA UTARA
DAFTAR GAMBAR
Nomor Judul Halaman
4.1 Pengelompokan awal dengan cluster hierarchical cluster
analysis 34
4.2 Nilai koefisien korelasi dengan menggunakan software
SPSS 35
4.3 Scatter plot indikator Kemiskinan kabupaten/kota Provin-
si Sumatera Utara 36
4.4 Uji F dalam analisis regresi 37
xi
UNIVERSITAS SUMATERA UTARA
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Analisis multivariat adalah analisis statistika yang dikenakan pada da- ta yang terdiri dari banyak variabel dan antar variabel saling berko- relasi. Data multivariat tidak hanya terdiri atas satu variabel saja melainkan dapat terdiri atas lebih dari satu variabel. Analisis mul- tivariat merupakan salah satu teknik statistik yang digunakan untuk memahami struktur data dalam dimensi tinggi. Variabel-variabel itu saling terkait satu sama lain. Disinilah letak perbedaan antara multi- variabel dan multivariat. Multivariat pasti melibatkan multivariabel tetapi tidak sebaliknya. Multivariabel yang saling berkorelasilah yang dikatakan multivariat.
Analisis diskriminan merupakan salah satu dari analisis multiva- riat dengan metode dependensi. Ada dua metode dalam analisis mul- tivariat, yaitu metode dependensi dan metode interdependensi. Yang dimaksud dengan metode dependensi yaitu variabel-variabelnya tidak saling bergantung satu dengan yang lain. sedangkan metode interden- pendensi adalah antar variabelnya ada saling ketergantungan. Analisis diskriminan merupakan teknik menganalisis data, dimana variabel de- penden merupakan data kategorik atau kualitatif (ordinal atau rasio), sedangkan variabel independen berupa data kuantitatif (interval atau rasio).
Analisis diskriminan merupakan analisis multivariat yang bertu- juan untuk mengklasifikasi amatan berdasarkan beberapa variabel in- dependen yang bersifat non kategorik dan variabel dependen yang bersifat kategorik. Analisis diskriminan memerlukan asumsi sebaran normal multivariat dan kehomogenan matriks varians-kovarians. Da- lam aplikasi analisis diskriminan perlu dipertimbangkan adanya pen-
1
UNIVERSITAS SUMATERA UTARA
2
cilan pada data. Analisis diskriminan klasik tidak mampu mengatasi adanya pencilan karena penduga vektor rata-rata dan matriks varians- kovarians tidak robust terhadap adanya pencilan. Oleh karena itu, dilakukan pendugaan vektor rata-rata dan matriks varians-kovarians dengan metode minimum covariance determinant (MCD) yang ro- bust terhadap outlier.
Statistika memegang peranan penting dalam menyelesaikan ma- salah yang terjadi pada berbagai macam bidang. Seperti bidang ekono- mi, kependudukan, dan kesehatan. Adanya permasalahan-permasalahan yang terjadi pada bidang-bidang tersebut, maka statistikawan berusa- ha memberikan solusi berupa suatu hasil analisis yang berkualitas yang pada akhirnya dapat digunakan untuk pengambilan keputusan.
Menurut Johnson dan Wichern (1982), tujuan dari analisis diskri- minan adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. Dengan kata lain, ana- lisis diskriminan digunakan untuk mengklasifikasikan individu ke da- lam salah satu dari dua kelompok atau lebih.
Pada prinsipnya, analisis Diskriminan hampir sama dengan anali- sis Regresi karena termasuk dalam dependence method yang memiliki variabel terpengaruh (dependent variable) yang berada dalam baris (Y ) dan variabel mempengaruhi (independent variable) yang berada dalam kolom (X). Keberadaan dependence method berguna untuk mengklasifikasikan objek beberapa kelompok. Kombinasi linier dari variabel-variabel yang ada akan membentuk suatu fungsi diskriminan (Tatham et al.,1998).
Analisis regresi memiliki beberapa kegunaan (Draper dan Smith, 1992), diantaranya untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, untuk tujuan kontrol, dan sebagai prediksi.
Regresi mampu mendeskripsikan fenomena data melalui terbentuknya
UNIVERSITAS SUMATERA UTARA
3
suatu model hubungan yang bersifat numerik. Regresi juga dapat digunakan untuk melakukan pengendalian (kontrol) terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh. Selain itu, model regresi juga dapat diman- faatkan untuk melakukan prediksi variabel terikat. Analisis regresi li- nier berganda digunakan untuk mengukur pengaruh antara lebih dari satu variabel prediktor (variabel bebas) terhadap variabel terikat.
Data outlier (Makkulau et al., 2010) adalah data pengamatan yang berada jauh (ekstrim) dari pengamatan-pengamatan lainnya.
Outlier mungkin ada karena adanya data terkontaminasi, yaitu adanya kesalahan pada saat melakukan pengambilan sampel pada populasi.
Outlier yang disebabkan oleh data terkontaminasi dapat dihapuskan dari data penelitian atau jika memungkinkan dapat dilakukan sam- pling ulang. Jika setelah dilakukan beberapa sampling ulang namun data outlier tetap muncul maka data tersebut tidak dapat dihapuskan dari data penelitian, karena analisis data yang dihasilkan akan tidak mencerminkan populasi yang diteliti.
Pendeteksian outlier merupakan tahapan yang perlu dilakukan terutama jika estimasi modelnya dengan Ordinary Least Square (OLS), yang dikenal cukup peka terhadap outlier. Pendeteksian outlier dapat dilakukan dengan beberapa metode diantaranya dengan boxplot dan metode Cooks Distance. Metode Boxplot merupakan metode yang mempergunakan nilai kuartil dan jangkauan untuk mendeteksi outli- er, sehingga pada metode ini dapat mengetahui adanya outlier untuk masing-masing variabel. Sedangkan menggunakan metode Cooks Dis- tance dapat mengetahui adanya outlier secara simultan pada variabel bebas. Untuk mengatasinya diperlukan metode lain supaya analisis data dengan adanya data outlier tetap tahan (robust) terhadap asum- si yang diterapkan pada analisis datanya. Metode tersebut dikenal dengan metode robust.
UNIVERSITAS SUMATERA UTARA
4
Regresi robust diperkenalkan oleh Andrews (1972), yaitu metode regresi yang digunakan ketika distribusi dari residual tidak normal atau adanya beberapa outlier yang berpengaruh pada model. Metode regresi yang digunakan ketika distribusi dari error tidak normal dan atau adanya beberapa outlier yang berpengaruh pada model sehingga dihasilkan model yang robust atau resistance terhadap outlier (Ryan, 1997). Metode ini merupakan alat penting untuk menganalisa data yang dipengaruhi oleh outlier. Suatu estimasi yang resistant adalah relatif tidak terpengaruh oleh perubahan besar pada bagian kecil data atau perubahan kecil pada bagian besar data. Pada penelitian Friday (2013) mengenai perbandingan Fisher Linear Discriminant Analysis and Robust Fisher Linear Discriminant Anslysis diperoleh kesimpu- lan bahwa dengan kinerja FLDA klasik disebabkan kurangnya ketang- guhan estimator klasik dalam mengklasifikasikan objek.
Menurut Seung Jean Kim (2005) analisis robust memiliki kete- garan terhadap pengaruh pencilan merupakan satu-satunya yang pal- ing layak digunakan dalam kaitannya dengan infersia model. Jika ter- dapat pencilan (outlier) dalam data, maka bentuk sebaran data tidak lagi simetrik tetapi cenderung menjulur ke arah pencilan sehingga melanggar asumsi normalitas.
Melihat banyaknya metode dalam pengelompokan objek yang ada mendorong peneliti untuk membandingkan metode yang satu dengan yang lainnya untuk mengetahui metode yang paling akurat dalam mengklasifikasikan suatu objek. Metode yang akan dibentuk dalam penelitian ini adalah analisis diskriminan linear klasik dan analisis diskriminan linier robust. Kedua metode ini dipilih karena metode- metode tersebut merupakan metode pengklasifikasian objek yang pal- ing banyak digunakan baik secara teoretis maupun praktis. Metode tersebut juga merupakan jenis metode yang paling banyak dikem- bangkan oleh banyak peneliti karena memiliki tingkat keakuratan serta ketepatan dalam mengklasifikasikan suatu objek yang lebih tinggi bila
UNIVERSITAS SUMATERA UTARA
5
dibandingkan jenis metode lain.
1.2 Perumusan Masalah
Banyaknya analisis yang digunakan dalam pengklasifikasian objek yang ada mendorong peneliti untuk membandingkan analisis yang satu de- ngan yang lainnya untuk mengetahui analisis yang paling akurat dalam mengklasifikasikan suatu objek. Analisis yang akan dibentuk dalam penelitian ini adalah analisis diskriminan linier klasik dan analisis dis- kriminan robust. Kedua analisis ini dipilih karena analisis tersebut merupakan analisis prediksi yang paling banyak digunakan baik se- cara teoretis maupun praktis. Analisis tersebut juga merupakan jenis model yang paling banyak dikembangkan oleh banyak peneliti karena memiliki tingkat keakuratan yang lebih tinggi bila dibandingkan je- nis analisis lain. Maka rumusan masalah dalam penelitian ini adalah penerapan analisis diskriminan linier klasik dan analisis diskriminan robust dalam mengklasifikasikan suatu objek.
UNIVERSITAS SUMATERA UTARA
6
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk mengklasifikasikan data tingkat kemiski- nan masyarakat kabupaten/kota di Sumatera Utara berdasarkan ana- lisis diskriminan linier klasik dan analisis diskriminan robust, memper- oleh proses pengklasifikasian objek ke dalam suatu kelompok dengan metode analisis diskriminan linier klasik dan robust serta membandin- gakan hasil pengklasifikasian metode analisis diskriminan linier klasik dengan analisis diskriminan robust untuk memperoleh hasil yang ter- baik berdasarkan salah klasifikasi yang minimum.
1.4 Manfaat Penelitian
Hasil-hasil dari penelitian ini penting untuk memberikan informasi empirik analisis diskriminan linear klasik dan robust pada pengklasi- fikasian objek. Memberi bahan kajian bagi peneliti selanjutnya me- ngenai permasalahan yang relevan dengan penelitian ini. Memberikan kontribusi kepada khazanah literatur dan praktik mengenai pengklasi- fikasian objek.
UNIVERSITAS SUMATERA UTARA
BAB 2
TINJAUAN PUSTAKA
2.1 Analisis Multivariat
Analisis multivariat (multivariate analysis) adalah analisis yang meli- batkan banyak variabel atau variabel ganda. Selain istilah-istilah terse- but yang sering digunakan dalam statistika, ada beberapa istilah lain yang sering digunakan seperti; elemen/unit analisis adalah sesuatu yang menjadi objek penelitian; karakteristik/atribut adalah sifat yang dimiliki elemen; variabel adalah sesuatu yang nilainya berubah-ubah menurut waktu atau beda menurut elemen atau tempat; Populasi ada- lah kumpulan yang lengkap dari seluruh elemen yang sejenis akan tetapi dapat dibedakan karena karakteristiknya; Sampel adalah seba- gian dari populasi; Sensus adalah cara pengumpulan data bila seluruh elemen populasi diteliti satu persatu, hasilnya merupakan data sebe- narnya yang disebut parameter; Sampling adalah cara pengumpulan data bila hanya elemen sampel yang diteliti, hasilnya merupakan perki- raan atau estimator; Sampling error adalah kesalahan yang terjadi pada data perkiraan, disebabkan karena penelitian dilakukan berda- sarkan sampel. Kegunaannya untuk mengukur tingkat ketelitian data perkiraan.
2.2 Teknik-teknik Analisis Multivariat
Analisis multivariat dikelompokkan menjadi dua, yaitu: 1) kelompok dependensi, dimana variabel dikelompokkan menjadi variabel bebas yang mempengaruhi dan variabel tak bebas yang dipengaruhi; dan 2) kelompok interdependensi, dimana variabel tidak dibedakan menja- di variabel bebas dan variabel tak bebas, akan tetapi setiap variabel mempunyai tingkat yang sama.
7
UNIVERSITAS SUMATERA UTARA
8
2.2.1 Analisis multivariat dengan menggunakan metode dependensi
Analisis multivariat dengan menggunakan metode dependensi bertu- juan untuk mengetahui pengaruh atau meramalkan nilai tak bebas berdasarkan lebih dari satu variabel bebas yang mempengaruhi. Jika hanya ada satu variabel tak bebas, dapat dilakukan dengan menggu- nakan anova (analysis of variance), ancova (analysis of covariance), regresi logistik, regresi berganda, analisis diskriminan, dan korelasi kanonikal.
2.3 Analisis Multivariat dengan Menggunakan Metode Interdepen- densi
Analisis multivariat dengan menggunakan metode interdependensi.
untuk mencari faktor penyebab timbulnya masalah atau membantu memberi informasi yang diinginkan. Dalam hal ini, peneliti ingin mengetahui sesuatu yang belum tahu yang merupakan masalah. Tu- juannya untuk memberikan arti kepada kelompok variabel menjadi kelompok yang lebih sedikit jumlahnya dan masing-masing kelompok membentuk variabel baru yang lebih sedikit, tetapi tidak menguran- gi informasi yang terkandung dalam variabel asli. Jika ada lebih dari satu variabel tak bebas, dapat dilakukan dengan menggunakan analisis faktor, analisis klaster, analisis korespondensi, dan penskalaan multi- dimensi.
2.4 Software-software yang Tersedia untuk Analisis Multivariat Melakukan pengolahan data analisis multivariat secara manual bukan- lah pekerjaan mudah, karena memerlukan teknik-teknik perhitungan matematis yang rumit yang melibatkan banyak variabel dengan uku- ran data masing-masing variabel yang besar. Oleh karena itu, akan sangat bijaksana dan sangat membantu kita dalam pengolahan data jika digunakan software-software program statistik yang ada seperti,
UNIVERSITAS SUMATERA UTARA
9
SPSS, SAS, AMOS, LISRELL, Splus, Eview atau MINITAB.
UNIVERSITAS SUMATERA UTARA
10
2.5 Analisis Diskriminan
Analisis diskriminan adalah teknik statistika untuk mengelompokkan individu ke dalam kelompok-kelompok yang saling bebas dan tegas berdasarkan segugus peubah bebas. Analisis diskriminan bertujuan untuk memahami perbedaan kelompok dan meramalkan peluang bah- wa suatu objek penelitian akan masuk anggota kelompok tertentu.
Analisis diskriminan cocok dipergunakan jika variabel tak bebasnya berupa kelompok. Sedangkan yang diramalkan adalah keberadaan sua- tu objek tertentu termasuk pada kelompok yang mana. Tujuan ana- lisis diskriminan adalah membuat suatu fungsi diskriminan atau kom- binasi linier dari prediktor atau variabel bebas yang bisa mendiskrim- inasi atau membedakan kategori variabel tak bebas atau kelompok, artinya mampu membedakan suatu objek masuk kelompok kategori yang mana. Menguji apakah ada perbedaan signifikan antara kelom- pok/kategorik, dikaitkan dengan variabel bebas atau prediktor. Menen- tukan prediktor atau variabel bebas yang mana yang memberikan sumbangan terbesar terhadap terjadinya perbedaan antar-kelompok.
Mengelompokkan objek ke dalam suatu kategori didasarkan pada nilai variabel bebas.
Metode fungsi diskriminan pada awalnya dikembangkan oleh Fis- her. Fisher menyatakan bahwa apabila ada dua atau lebih popu- lasi telah diukur dalam beberapa karakter X1, X2, . . . , XP, maka dap- at dibangun fungsi linier tertentu dari pengukuran itu dimana fungsi tersebut merupakan fungsi pembeda bagi populasi yang dipelajari.
Fungsi linier yang dibangun itu disebut sebagai fungsi diskriminan (discriminant function).
2.6 Metode Penaksir Minimum Covariance Determinant (MCD) Metode penaksir MCD merupakan metode untuk mendapatkan pe- naksir yang robust yang didapatkan dari rata-rata dan kovariansi dari
UNIVERSITAS SUMATERA UTARA
11
sebagian pengamatan yang memiliki determinan matriks kovariansi yang minimum. Menurut Rousseeuw dan van Driessen (1999), pe- naksir MCD adalah pasangan (˜x, S), dimana ˜x adalah vektor rata-rata dan S adalah matriks kovariansi yang meminimumkan nilai determi- nan S pada subsampel yang berisikan tepat sebanyak h anggota dari n pengamatan, dimana nilai standar dari h = [n + p + 1/2]. Pada popu- lasi dengan jumlah pengamatan yang kecil, penaksir MCD dapat de- ngan cepat dihitung dan ditemukan, tetapi jika jumlah pengamatan besar, maka akan banyak sekali kombinasi subsampel dari X yang harus ditemukan dan penghitungan pun akan cukup memakan waktu.
Untuk mengatasi keterbatasan ini, maka Rousseeuw dan van Driessen (1999) menemukan suatu algoritma baru untuk metode MCD yang dinamakan dengan metode fast-MCD.
2.7 Pengujian Perbedaan Vektor Rataan
Menurut Rencher (2002) untuk menguji perbedaan vektor rataan da- pat dilakukan dengan menggunakan statistik uji T2-Hotelling dengan hipotesis H0 : µ1 = µ2 lawan H1 : µ1 6= µ2. Adapun statistik uji bagi T2 adalah
T2 = n1n2
n1+ n2
(¯x1− ¯x2)tSgab−1 (¯x1− ¯x2) ˜Xp2 (2.1)
tolak H0 : µ1− µ2 jika T2≥ Xp.∝2 .
2.8 Pengujian Asumsi Analisis Diskriminan
Menurut Hair et al., (1992) asumsi utama yang melandasi analisis diskriminan adalah sejumlah variabel independen menyebar dengan sebaran normal multivariat dan matriks varians-kovarians untuk setiap kelompok klasifikasi adalah sama.
Johnson dan Wichern (2002) menyatakan bahwa pemeriksaan distribusi normal multivariat dapat dilakukan dengan membuat q-q plot dari jarak Mahalanobis (d2i) dengan chi square quantile (qi). Jika
UNIVERSITAS SUMATERA UTARA
12
q − q plot cenderung membentuk garis lurus dan lebih dari 50% ni- lai (d2i) ≤ Xp.∝2 maka sejumlah p variabel tersebut mengikuti sebaran normal multivariat.
Untuk pengujian kehomogenan matriks varians-kovarians. Rencher (2002) menjelaskan mengenai multivariate tests of equality of covari- ance matrices yang dinamakan uji Boxs M . Untuk k populasi mul- tivariat. Hipotesis untuk pengujian kehomogenan matriks varians- kovarians adalah H0 : P
1 = P
2 = . . . = P
k lawan H1 :P
1 6= P
2 6= . . . 6=
P
k dengan statistik uji sebagai berikut
u = −2(1 − c1)In M (2.2)
tolak H0 jika u > X2
(∝.[12(k−1)p(p+1)]). 2.8.1 Distribusi normal multivariat
Distribusi normal multivariat merupakan generalisasi dari distribusi normal univariat. Jika X1, X2. . . XP ∼ Ni, Ni2 dimana i = 1, 2, . . . , p dan X1, X2, . . . XP saling bebas. Maka vektor random X = [X1, X2, . . . , XP]T berdimensi p mempunyai distribusi bersama dimana fungsi kepadatan peluang bersamanya didefenisikan sebagai berikut:
f (x) = f (x1) , f (x2) , . . . , f (xp) f (x) = 1
(2π)p2 exp
"
−1 2
Xp
i=1
xi− µ1
σ1
2#
(2.3)
dengan −∞ < xi < ∞. i = 1, 2, . . . , p 2.8.2 Pendeteksian pencilan
Pencilan merupakan pengamatan yang berada jauh (ekstrim) dari pengamatan-pengamatan lainnya. Sebuah pengamatan xidideteksi se- bagai pencilan jika jarak mahalanobisnya sebagai beikut (Rousseeuw dan van Driessen. 1999):
d2M D = (xi− ˜x)TS−1(xi− ˜x) > x2p,(∝) (2.4)
UNIVERSITAS SUMATERA UTARA
13
2.9 Metode Robust
Menurut Lachenbruch (1975) jika matriks varians-kovarians antar kelom- pok adalah sama, maka fungsi skor diskriminan yang terbentuk adalah fungsi skor diskriminan linier. Sedangkan, jika berbeda, maka fungsi skor diskriminan kuadratik yang paling optimal. Johnson dan Wich- ern (2002) membentuk fungsi skor diskriminan linier pada persamaan (1) dan kuadratik pada persamaan (2) dengan metode Minimum Ex- pected Cost of Misclassification (ECM) dari x yang mengikuti sebaran
normal multivariat sebagai berikut:
dlk(x) = µtkX−1 x −1
2µtkX−1
µk+ In (pk) . k = 1, 2, . . . , g (2.5)
dQk (x) = −1 2In
X
k
− 1
2(x − µk)X−1
k (x − µk) + In (pk) . k = 1, 2, . . . , g (2.6) Untuk mengatasi adanya pencilan maka digunakan penduga Minimum Covariance Determinant (MCD) bagi µ dan P
yang diduga oleh ¯x dan S yaitu
¯ x =
Pn i=1wixi
Pn i=1wi
dan S = Pn
i=1wi(xi− ¯x) ((xi− ¯x))t Pn
i=1wi− 1 (2.7)
Sehingga persamaan skor diskriminan bagi RLDA pada persamaan (2.5) menjadi:
dlk(x) = ¯xtkS−1x − 1
2x¯tkS−1x¯k + In (pk) .k = 1, 2, . . . , g (2.8) Serta persamaan skor diskriminan bagi RQDA pada persamaan (2.6) menjadi:
dQk (x) = −1
2In |Sk| − 1
2(x − ¯xk) + In (pk) .k = 1, 2, . . . , g (2.9) Suatu observasi x akan termasuk dalam kelompok k jika skor diskri- minan:
dx(x) = maximum dari d1(x).d2(x) . . . dg(x) (2.10)
dimana: dlk= Jarak dari l ke k
2.10 Apparent Error Rate (APER)
UNIVERSITAS SUMATERA UTARA
14
Nilai APER dapat dihitung dengan:
APER = n1M + n2M n1+ n2
(2.11)
dimana:
n1M = Jumlah observasi dari kelompok 1 yang salah diklasifikasikan sebagai kelompok 2
n2M = Jumlah observasi dari kelompok 2 yang salah diklasifikasikan sebagai kelompok 1
2.11 Kemiskinan
Masalah kemiskinan merupakan salah satu persoalan mendasar yang menjadi pusat perhatian pemerintah di negara manapun. Salah satu aspek penting untuk mendukung strategi penanggulangan kemiskinan adalah tersedianya data kemiskinan yang akurat dan tepat sasaran.
Pengukuran kemiskinan yang dapat dipercaya dapat menjadi instru- men tangguh bagi pengambil kebijakan dalam memfokuskan perha- tian pada kondisi hidup orang miskin. Data kemiskinan yang baik dapat digunakan untuk mengevaluasi kebijakan pemerintah terhadap kemiskinan, membandingkan kemiskinan antar waktu dan daerah, ser- ta menentukan target penduduk miskin dengan tujuan untuk memper- baiki kondisi tersebut.
Definisi miskin menurut Howard Wringins dan Alder Karisson menyebutkan bahwa kemiskinan merupakan masalah yang kompleks (multi dimention) yang dapat ditinjau dari beberapa aspek, selain dari aspek rendahnya pendapatan dan konsumsi pangan, kemiskinan dapat ditinjau dari aspek pandangan perumahan, kesehatan, kebutuhan air bersih juga aspek non material.
Indikator yang digunakan dalam menetukan status kemiskinan rumah tangga terdiri dari 10 variabel yaitu: pendidikan yang dita-
UNIVERSITAS SUMATERA UTARA
15
matkan, angka melek huruf, bekerja di sektor informal, bekerja dis- ektor formal, bekerja di sektor pertanian, bekerja di sektor bukan pertanian, tidak bekerja/pengangguran, persentase pengeluaran per kapita untuk makanan, pengguna alat kontrasepsi, persentase balita yang telah diimunisasi, rumah tangga pengguna air layak, dan rumah tangga pengguna jamban sendiri/bersama (BPS, 2016).
2.12 Indikator Kemiskinan
Badan Pusat Statistik (BPS) menggunakan konsep kemampuan memenuhi dasar dalam mengukur kemiskinan. Dengan pendekatan ini, kemiski- nan dipandang sebagai ketidakmampuan dari sisi ekonomi untuk memenuhi kebutuhan dasar makanan dan bukan makanan yang diukur dari sisi pengeluaran. Pendekatan dalam menghitung kemiskinan tingkat ka- bupaten/kota adalah sebagai berikut:
a). Menentukan Garis Kemiskinan Sementara (GKS) untuk tingkat kabupaten/kota dengan cara:
GKStij = GKSt−1ij x(1 + Ejxlij (2.12) dimana:
GKStij = Garis kemiskinan sementara kabupaten/kota ke-i di provinsi ke-j di tahun t
GKSt−1ij = Garis kemiskinan kabupaten/kota ke-i di provinsi ke-j di tahun t − 1
Ej = Elastisitas provinsi ke-j
lij = Inflasi kabupaten/kota ke-i di provinsi ke-j
b). Menentukan P0 sementara kabupaten/kota ke-i di provinsi ke- j yaitu dengan cara mengalikan pertumbuhan P0 provinsi ke-j periode t ke t − 1 dengan P0 kabupaten ke-i pada tahun t-1.
c). Menetapkan garis kemiskinan dengan cara menarik titik potong antara GKS dan P0 sementara.
UNIVERSITAS SUMATERA UTARA
16
d). Menghitung indikator kemiskinan dengan menggunakan formu- lasi FGT.
e). Melakukan prorate jumlah penduduk miskin kabupaten/kota agar sama dengan angka provinsi yang telah dirilis sebelumnya.
Yang menjadi indikator kemiskinan tingkat kabupaten/kota diantaran- mya pendidikan yang ditamatkan, angka melek huruf, angka partisipasi sekolah, bekerja disektor informal, disektor formal, disektor pertani- an, disektor bukan pertanian, tidak bekerja atau pengangguran, pe- ngeluaran per kapita untuk makanan, pengguna alat kontrasepsi, imu- nisasi atau vaksinisasi, balita yang diimunisasi, rumah tangga penggu- na air layak, dan rumah tangga pengguna jamban sendiri/bersama.
UNIVERSITAS SUMATERA UTARA
BAB 3
METODOLOGI PENELITIAN
Data yang digunakan merupakan data sekunder, karena diper- oleh dari publikasi resmi, dokumentasi, tulisan-tulisan ilmiah yang ada maupun buku-buku, jurnal, atau literatur lainnya. Data sekunder tersebut diperoleh dari data SUSENAS 2016. Data sekunder yang digunakan adalah data persentase penduduk per-kabupaten/kota ber- dasarkan indikator kemiskinan masyarakat di Sumatera Utara yang digunakan sebagai peubah X untuk mengukur tingkat kemiskinan Y . Data diperoleh pada level kabupaten/kota yang ada di Sumatera Utara yang terdiri dari 33 kabupaten/kota.
Oleh karena tidak adanya teori atau penelitian sebelumnya yang mendasari pengklasifikasian tingkat kemiskinan per-kabupaten/kota, maka peneliti mengelompokkan tingkat kemiskinan Y menjadi 2 kelom- pok berdasarkan sebaran empirik data. Kelompok 1 adalah kabupa- ten/kota dengan tingkat kemiskinan rendah. Kelompok 2 adalah ka- bupaten/kota dengan tingkat kemiskinan tinggi.
Peubah yang digunakan dalam penelitian ini adalah (Badan Pusat Statistik, 2016):
X1 : Pendidikan yang ditamatkan tingkat SD(%) X2 : Pendidikan yang ditamatkan tingkat SLTP(%) X3 : Pendidikan yang ditamatkan tingkat SLTA(%) X4 : Angka tidak bekerja(%)
X5 : Bekerja di sektor informal (%) X6 : Bekerja disektor formal (%) X7 : Pengguna alat kontrasepsi (%)
X8 : Persentase balita yang telah diimunisasi (%) X9 : Rumah tangga pengguna air layak (%)
17
UNIVERSITAS SUMATERA UTARA
18
X10 : Rumah tangga pengguna jamban sendiri/bersama (%)
3.1 Pengujian Asumsi Analisis Diskriminan 3.1.1 Uji normal multivariat
Menurut Johnson dan Wichern (2007), untuk menguji kenormalan peubah ganda (Multivariate Normality) adalah dengan mencari nilai jarak kuadrat untuk setiap pengamatan yaitu:
d2i = (xi− ¯x)TS−1(xi− ¯x) (3.1) dimana:
d2i adalah nilai jarak kuadrat untuk setiap pengamatan ke i xi adalah pengamatan yang ke i, dengan i = 1, 2,. . . ,n
¯
x adalah rata-rata variabel bebas X
S−1adalah kebalikan (inverse) matriks varians-kovarians gabungan S
Kemudian d2i diurutkan dari yang paling kecil ke yang paling be- sar, selanjutnya dibuat plot d2i dimana: i = urutan = 1, 2, . . .n. Bila hasil plot dapat didekati dengan garis lurus, maka dapat disimpulkan bahwa peubah ganda menyebar normal.
3.1.2 Uji kesamaan matriks varians lovarians
Untuk menguji kesamaan matriks varians kovarians kelompok I (S1) dan kelompok II (S2) digunakan hipotesa:
H0 : S1 = S2, matriks varians kovarians kelompok adalah relatif sama.
H1 : S1 6= S2, matriks varians kovarians kelompok adalah berbeda secara nyata.
Terima H0, yang berarti matriks varians kovarians sama jika:
UNIVERSITAS SUMATERA UTARA
19
Xhitung2 ≤ X(α,[2 1
2(k−1)p(p+1)]) (3.2)
dengan:
Xhitung2 = −2(I − Ci)[1 2
Xk i=1
Viln|Si| − 1 2ln|S|
Xk i=1
Vi] (3.3)
k = Banyaknya kelompok (grup)
P = Jumlah peubah pembeda (Y ) dalam fungsi diskriminan = 1 S = Matriks varians kovarians dalam kelompok gabungan
Si = Matriks varian kovarians kelompok ke-i i = 1, 2, 3, . . . , k
ni = Jumlah responden pada kelompok ke-i
dengan:
Vi = ni− 1 (3.4)
S = Pk
i=1ViSi
Pk i=1Vi
(3.5)
C1 = [ Xk
i=1
1 v1
− 1
Pk i=1Vi
][ 2p2 + 3p − 1
6(p + 1)(k − 1)] (3.6) 3.1.3 Uji vektor nilai rataan (uji kesamaan rata-rata kelompok) Menguji apakah semua variabel independen (variabel bebas) berbe- da secara nyata berdasarkan variabel dependen. Variabel bebas diuji dengan dua cara:
1. Dengan Uji F
Statistik uji yang digunakan untuk menguji kesamaan rata-rata antar kelompok adalah statistik F dengan hipotesa:
H0 : µ1 = µ2 = . . . = µk Berarti rata-rata antar kelompok sama (tidak ada perbedaan)
H1 : µ1 6= µ2 6= . . . 6= µk, Berarti ada perbedaan rata-rata antar kelompok
α= Taraf signifikansi
UNIVERSITAS SUMATERA UTARA
20
Daerah kritis : tolak H0. jika Fhit > Ftabel Ftabel = F((db1;db2))
db1 = k − 1
db2 = (n − k) = (nj− 1) + (n2 − 1)
Apabila Fhit > Ftabel, maka tolak H0, ini berarti bahwa terdapat perbedaan vektor nilai rataan antar kelompok. Bila dari hasil pengujian ada perbedaan vektor nilai rataan, maka fungsi diskri- minan layak disusun untuk mengelompokkan suatu objek. Kepu- tusan atas dasar Signifikansi uji F pada output SPSS dilihat angka Sig.
(a) Jika Sig. > 0.05 maka H0 diterima, berarti tidak ada perbe- daan yang signifikan antar grup (rata-rata antar kelompok sama).
(b) Jika Sig. ≤ 0.05 maka H1 diterima, berarti ada perbedaan yang signifikan antar grup.
2. Dengan angka Wilks Lambda
Angka Wilks Lambda berkisar 0 sampai 1, yaitu:
(a) Jika angka Wilks Lambda mendekati 0, maka data tiap kelom- pok cenderung berbeda.
(b) Jika angka Wilks Lambda mendekati 1, maka data tiap kelom- pok cenderung sama (tidak berbeda).
Wilks Lambda = W +BW
dimana:
W = Jumlah Kuadrat Galat (JK dalam kelompok) B = Jumlah Kuadrat Antar Kelompok
UNIVERSITAS SUMATERA UTARA
21
Analisis varians (Uji F) dan angka Wilks Lambda adalah untuk men- guji rata-rata setiap variabel.
3.2 Fungsi Analisis Diskriminan
Fungsi diskriminan adalah kombinasi linear dari variabel-variabel yang dimiliki oleh kelompok-kelompok yang akan diklasifikasikan. Fungsi diskriminan menentukan ke dalam kelompok mana suatu objek (melalui karakteristiknya berupa data pengamatan) seharusnya dimasukkan atau dikategorikan, maka setidak-tidaknya ada dua kelompok. Oleh karena itu dapat ditinjau bagaimana fungsi diskriminan ini diperoleh apabila berhadapan dengan dua grup. Sebelumnya akan dijelaskan terlebih dahulu pengertian matriks varians kovarians.
Pada data pengamatan ke-i yang berukuran n (i = 1, 2, . . ., n) yang terdiri atas j buah variat (variabel) yaitu X1, X2, . . . , Xj. Data pengamatan tersebut dapat disajikan dalam bentuk matriks berikut.
Tabel 3.1 Matriks data pengamatan Variabel X1 X2 ... Xj
Data Pengamatan X11 X12 ... X1j
X21 X22 ... X2j
. . . .
. . . .
. . . .
Xn1 Xn2 ... Xnj
Untuk variabel Xj yang dihitung adalah variansnya, diberi lambang Sjj dengan rumus:
Sjj = nΣnn=1Xnj2 − (Σnn=1Xnj)2
n(n − 1) (3.7)
Semuanya ada j buah varians, yaitu S11, S22, ..., Sjj yang masing-masing merupakan varians untuk variabel X1, X2, ..., Xj. Untuk variabel Xi dan Xj dimana i 6= j terdapat kovarians, diberi lambang Sij yang dapat di- hitung dengan rumus berikut.
UNIVERSITAS SUMATERA UTARA
22
Sij = nΣnn=1XniXnj− (Σnn=1Xni)(Σnn=1Xnj)
n(n − 1) (3.8)
Semuanya ada (j2 − j) buah kovarians. Perlu dijelaskan bahwa untuk i = j maka Sij = Sji diberi lambang menjadi Sjj.
Varians dan kovarian disusun dalam sebuah matriks disebut dengan nama matriks varians-kovarians dengan lambang S, bentuknya sebagai berikut.
S1 =
S11 S12 . . . S1j
S21 S22 . . . S2j
. . . Sj1 Sj2 . . . Sjj
Misalkan ada dua grup yang banyak variabelnya masing-masing j buah yaitu X11, X12, . . . , X1j dalam grup I dan X21, X22, . . . , X2j dalam grup II. Perhatikan bahwa Xij menyatakan variabel ke j dalam grup ke i, dengan i = grup I dan grup II. Variabel dalam setiap grup dapat pula dituliskan dalam bentuk vektor kolom sebagai berikut.
X1 =
X11
X12
.. . X1j
X2 =
X21
X22
.. . X2j
UNIVERSITAS SUMATERA UTARA
23
X1j menyatakan variabel X ke j dalam grup ke 1 X2j menyatakan variabel X ke j dalam grup ke 2
Dari setiap grup berukuran n1 dari grup ke-1 dan berukuran n2
dari grup ke-2. Data pengamatan akan berbentuk matriks yang ben- tuknya seperti berikut.
UNIVERSITAS SUMATERA UTARA
24 Tabel 3.2 Matriks data pengamatan dari grup I
Variabel X11 X12 ... X1j
Data Pengamatan X11 X12 ... X1j
X21 X22 ... X2j
. . . .
. . . .
. . . .
Xn1 Xn2 ... Xnj
Rata-rata X¯11 X¯12 ... X¯1j
Tabel 3.3 Matriks data pengamatan dari grup II Variabel X21 X22 ... X2j
Data Pengamatan X211 X221 ... X2j1
X212 X222 ... X2j2
. . . .
. . . .
. . . .
X21n2 X22n2 ... X2jn2
Rata-rata X¯11 X¯12 ... X¯2j
Hasil pengamatan ini akan menghasilkan rata-rata untuk tiap va- riabel yang dibentuk dalam bentuk vektor dapat ditulis:
X¯1 =
X¯11
X¯12
. .. X¯1j
X¯2 =
X¯21
X¯22
. .. X¯2j
dimana:
X1jn1 Menyatakan variabel X ke j dalam grup ke 1 yang berukuran n1
X2jn2 Menyatakan variabel X ke j dalam grup ke 2 yang berukuran n2
X¯1j menyatakan rata-rata variabel ke j dalam grup 1 X¯2jmenyatakan rata-rata variabel ke j dalam grup 2
UNIVERSITAS SUMATERA UTARA
25
Dari masing-masing rata-rata dari grup I dan rata-rata dari grup II, selanjutnya akan dihitung varians dan kovariansnya. Varians ko- varians tersebut disusun dalam matriks S1 dan S2, masing-masing dari grup ke-1 dan dari grup ke-2, yaitu:
S1 =
S11 S12 S1j
S21 S22 S2j
.. . Sj1 Sj2 Sjj
S2 =
S11 S12 S1j
S21 S22 S2j
.. . Sj1 Sj2 Sjj
dimana :
S1 = matriks varians kovarians dari grup ke 1 S2 = matriks varians kovarians dari grup ke 2
Meskipun dalam S1 dan S2 digunakan Sij yang sama namun jelas besarnya berlainan antara Sij dalam S1 dan Sij dalam S2, kedua datanya juga berlainan, yaitu S1 diambil dari grup I dan S1 diambil dari grup II.
Kedua buah matriks varians-kovarians ini bisa dihitung matriks varians-kovarians gabungan, diberi lambang S dengan rumus:
S = (n1− 1)S1+ (n2− 1)S2
n1+ n2− 2
Matriks varians-kovarians gabungan ini mempunyai invers, yaitu S−1. Dengan adanya vektor rata-rata X¯1 dan X¯2 dan juga matriks varians-kovarians gabungan S bersama dengan persyaratan bahwa da- ta variabel independen seharusnya berdistribusi normal multivariat (bervariabel banyak) disingkat multinormal, dan matriks varians-kovarians kedua grup relatif sama, maka rumus fungsi diskriminan untuk ini ada- lah:
Y = ( ¯X1− ¯X2)S−1X (3.9)
UNIVERSITAS SUMATERA UTARA
26
X adalah vektor pengamatan yaitu
X =
X1
X2
. .. Xj
Fungsi diskriminan ini dapat digunakan untuk membuat aturan klasi- fikasi yang kita cari berdasarkan salah satu dari kedua aturan di bawah ini:
Aturan I :
Jika Y > 1/2 ( ¯X1 - ¯X2)S−1( ¯X1 + ¯X2) klasifikasi objek dengan data pengamatan X dimasukkan ke dalam grup I. Jika Y = 1/2 (X1 - X2)S−1( ¯X1 + ¯X2) klasifikasi objek dengan data pengamatan X dima- sukkan ke dalam grup II.
Aturan II :
Dengan menggunakan statistik W (Wald-Anderson) yaitu:
W = XS−1( ¯X1− ¯X2) − 1/2( ¯X1− ¯X2)S−1( ¯X1+ ¯X2) (3.10) Untuk memperoleh klasifikasi ini. jika W > 0 maka objek dengan pengamatan X dimasukkan kedalam grup I sedangkan dalam hal lain- nya objek itu dimasukkan ke dalam grup II.
3.3 Ketepatan Pengelompokkan Fungsi Diskriminan
Tingkat akurasi pengelompokkan sangat menentukan baik atau tidaknya suatu pengelompokan. Persentase ketepatan pengelompokan dapat dihitung dari matriks klasifikasi yang menunjukkan nilai sebe- narnya (actual members) dan nilai prediksi (prediction members) dari setiap kelompok.
Hasil pengelompokkan menurut fungsi diskriminan tidak selalu sama dengan pengelompokkan awal. Besarnya kesalahan pengelom-
UNIVERSITAS SUMATERA UTARA
27
pokan. dengan menganggap pengelompokan awal adalah benar, meru- pakan indikator tingkat akurasi dari fungsi diskriminan yang dihasilkan.
Tabel berikut menunjukkan evaluasi tingkat akurasi terhadap fungsi diskriminan dengan memperhatikan persentase ketepatan pengelom- pokan.
Tabel 3.4 Hasil Klasifikasi model diskriminan linier robust untuk 33 data Pengelompokan Menurut
Pengelompokan Fungsi Diskriminan Jumlah Awal Kelompok I Kelompok II
Kelompok I n11 n12 n1
Kelompok II n21 n22 n2
Jumlah n.1 n.2 n
3.4 Langkah-langkah Analisis
Adapun langkah-langkah dalam analisis diskriminan linier klasik dan analisis diskriminan robust sebagai berikut:
1. Menyiapkan data yang akan digunakan dalam penelitian 2. Melakukan pengujian asumsi analisis diskriminan
3. Mendeteksi adanya pencilan
4. Memilih variabel bebas yang digunakan dalam penelitian
5. Melakukan standarisasi variabel jika satuan variabel berbeda- beda
6. Melakukan perhitungan analisis diskriminan linier dan analisis robust dengan langkah sebagai berikut:
(a) Penaksiran parameter untuk analisis diskriminan linier dan analisis robust
UNIVERSITAS SUMATERA UTARA
28
(b) Menentukan fungsi diskriminan linier dan fungsi analisis ro- bust
(c) Menghitung skor diskriminan linier dan skor diskriminan ro- bust untuk masing-masing pengamatan dan mengklasifikasikan- nya kedalam kelompok pertama atau kelompok kedua
(d) Menghitung jumlah pengamatan yang salah dalam pengk- lasifikasian analisis diskriminan linier dan diskriminan robust (e) Menghitung persentase kesalahan dalam pengklasifikasian ana-
lisis diskriminan linier dan analisis robust dengan metode APER
(f ) Menilai tingkat keakuratan pengklasifikasian diskriminan li- nier dan pengklasifikasian robust dengan menghitung nilai Presss Q
7. Membandingkan persentase kesalahan pengklasifikasian hasil ana- lisis diskriminan linier dengan hasil analisis robust
UNIVERSITAS SUMATERA UTARA
BAB 4
HASIL DAN PEMBAHASAN
4.1 Data Tingkat Kemiskinan Kabupaten/Kota di Sumatera Utara Menurut hasil klasifikasi awal dengan cluster hierarchical cluster analysis, diketahui bahwa 17 kabupaten/kota di Sumatera Utara merupakan ka- bupaten/kota dengan status tingkat kemiskinan masyarakat rendah, sedangkan sisanya 16 kabupaten/kota merupakan kabupaten/kota de- ngan status tingkat kemiskinan masyarakat tinggi (BPS, 2017).
Tabel 4.1 Persentase tingkat kemiskinan Kabupaten/kota di Sumatera Utara No. Kabupaten/Kota Tingkat Kemiskinan
1. Nias 17.64
2. Mandailing Natal 10.98
3. Tapanuli Selatan 11.15
4. Tapanuli Tengah 14.58
5. Tapanuli Utara 11.25
6. Toba Samosir 10.08
7. Labuhan Batu 8.95
8. Asahan 11.86
9. Simalungun 10.81
10. Dairi 8.9
11. Karo 9.81
12. Deli Serdang 4.86
13. Langkat 11.36
14. Nias Selatan 18.6
15. Humbang Hasundutan 9.78
16. Pakpak Bharat 10.72
17. Samosir 14.4
18. Serdang Bedagai 9.53
19. Batu Bara 12.24
20. Padang Lawas Utara 10.87
21. Padang Lawas 8.69
22. Labuhan Batu Selatan 11.49 23. Labuhan Batu Utara 10.97
24. Nias Utara 30.92
25. Nias Barat 28.36
26. Kota Sibolga 13.3
27. Kota Tanjung Balai 14.49 28. Kota Pematang Siantar 9.99 29. Kota Tebing Tinggi 11.7
30. Kota Medan 9.3
31. Kota Binjai 6.67
32. Kota Padangsidimpuan 8.32 33. Kota Gunungsitoli 23.43
29
UNIVERSITAS SUMATERA UTARA