ANALISIS REGRESI LINEAR GEROMBOL DENGAN ALGORITMA
PERTUKARAN (
EXCHANGE ALGORITHM
)
MEGAWATI SUHARSONO PUTRI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul “Analisis Regresi Linear Gerombol dengan Algoritma Pertukaran (Exchange Algorithm)” adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Maret 2015
Megawati Suharsono Putri
RINGKASAN
MEGAWATI SUHARSONO PUTRI. Analisis Regresi Linear Gerombol dengan Algoritma Pertukaran (Exchange Algorithm). Dibimbing oleh BAGUS SARTONO dan BUDI SUSETYO.
Analisis regresi linear pada suatu gugus data memiliki kemungkinan mempunyai lebih dari satu model regresi. Model-model regresi linear tersebut tidak dapat diduga dengan menggunakan satu model regresi, sehingga analisis regresi linear standar tidak dapat digunakan. Kondisi tersebut diduga disebabkan oleh adanya subpopulasi yang belum diketahui. Oleh karena itu, dibutuhkan metodologi lain untuk mendeteksi gerombol tersembunyi tersebut untuk menduga subpopulasi. Regresi linear gerombol merupakan salah satu jenis analisis regresi yang penting dalam pendugaan model untuk data yang memiliki subpopulasi yang belum diketahui. Regresi linear gerombol adalah teknik penggerombolan berdasarkan karakteristik parameter regresi untuk menemukan dan merekonstruksi struktur tersembunyi dari suatu contoh yang diambil secara acak dari populasi yang memiliki subpopulasi yang belum diketahui.
Metode pendugaan parameter regresi yang digunakan pada penelitian ini adalah metode kuadrat terkecil. Pengoptimuman amatan yang masuk ke dalam gerombol digunakan algoritma pertukaran. Algoritma pertukaran menggerombolkan berdasarkan kemiripan karakteristik parameter regresi dengan kriteria optimumnya adalah minimum jumlah dari jumlah kuadrat galat (JJKG). Pada penelitian ini akan digunakan dua pendekatan yang berbeda pada proses inisialisasi. Inisialisasi pertama menggunakan inisialisasi acak dan inisialisasi yang kedua menggunakan inisialisasi regresi kekar yaitu least median of squares
(LMS).
Data pada penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Data simulasi terdiri dari 2 gugus data dengan 2 gerombol, 3 gugus data dengan 3 gerombol dan 1 gugus data tanpa gerombol. Data pada kasus terapan yang digunakan yaitu data ekonomi, kesehatan dan pendidikan pada anggaran pendapatan belanja daerah (APBD) terhadap data indeks pembangunan manusia (IPM) seluruh kota/kabupaten di Jawa Timur tahun 2013.
Hasil simulasi menunjukkan bahwa inisialisasi acak lebih baik dalam pendugaan banyaknya subpopulasi dibandingkan inisialisasi LMS namun proses komputasi inisialisasi acak lebih lama dibandingkan dengan inisialisasi LMS karena inisialisasi acak menduga banyaknya subpopulasi dengan over-fitting.
Inisialisasi dengan LMS juga tidak dapat mendeteksi jika tidak terdapat gerombol pada gugus data. Hasil pada kasus terapan menunjukkan bahwa gugus data memiliki 2 gerombol berdasarkan identifikasi data produk domestik regional bruto (PDRB) dan data pendidikan. Gerombol pertama merupakan gerombol kota dan gerombol kedua merupakan gerombol kabupaten.
SUMMARY
MEGAWATI SUHARSONO PUTRI. Clusterwise Linear Regression Analysis with Exchange Algorithm. Supervised by BAGUS SARTONO and BUDI SUSETYO.
It is possible to have more than one regression model in a dataset. There is no one model that fit for all, so that the standard linear regression cannot be used. That condition is estimated caused by the existence of the unknown subpopulation. Therefore, is required another methodology for detecting the underlying cluster to estimate subpopulation. Clusterwise linear regression is one of the important regression analysis for estimating data that has unknown subpopulation. Clusterwise linear regression is a clustering technique based on parameters regression characteristic, to find and reconstruct the hidden structure of sample that taken from the population that has an unknown subpopulation by randomly.
Regression parameter estimation method that used in this study is ordinary least square. Optimisation of observation that enter into clusters is used exchange algorithm. Exchange algorithm is clustering based on similar regression parameter characteristic with the optimum criteria is the minimum of sum of sum square error. In this study, will consider two different approaches in initialization process. The first initialization using random initialization and the second using robust regression initialization that is least median of squares (LMS).
In this study, data is consisted two sources ie simulation data and case applied data. Simulation data consists of 2 datasets with 2 clusters, 3 datasets with 3 clusters and 1 dataset without cluster. Case applied data that used is economic, health and education data on regional government budget to human development index for city/district in East Java in 2013.
The simulation results show that random initialization is better than LMS initialization for estimating the number of subpopulation but random initialization is longer than LMS initialization because random initialization estimates the number of subpopulation by over-fitting. LMS inisialization can not detect if there are no cluster in dataset. The result in case applied indicates that dataset has 2 clusters based on gross regional domestic product data and education data identification. The first cluster is city cluster and the second cluster is district cluster.
© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak merugikan kepentingan IPB
Tesis
sebagai salah satu syarat untuk memperoleh gelar Magister Sains
pada
Program Studi Statistika
ANALISIS REGRESI LINEAR GEROMBOL DENGAN
ALGORITMA PERTUKARAN (
EXCHANGE ALGORITHM
)
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2015
PRAKATA
Puji syukur penulis panjatkan kehadirat Allah SWT atas limpahan rahmat dan ridho-Nya, kesempatan, dan kesehatan yang dikaruniakan-Nya sehingga tesis yang berjudul “Analisis Regresi Linear Gerombol dengan Algoritma Pertukaran (Exchange Algorithm)” ini dapat terselesaikan.
Terima kasih penulis ucapkan kepada Bapak Dr Bagus Sartono, SSi MSi dan Bapak Dr Ir Budi Susetyo, MS selaku pembimbing, atas kesediaan dan kesabaran untuk membimbing dan membagi ilmunya kepada penulis dalam penyusunan tesis ini. Ucapan terima kasih juga penulis sampaikan sebesar-besarnya kepada seluruh Dosen Departemen Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan, pelayanan, dan kerjasamanya selama ini.
Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga penulis ucapkan kepada Ayahanda dan Ibunda tercinta H Drs. Suharsono, MM dan Hj Dra. Masroya Budi Sri Mulyati Nasution, MM yang telah membesarkan dan mendidik penulis dengan penuh kasih sayang demi keberhasilan penulis selama menjalani proses pendidikan, juga adik-adikku tersayang Dewi Sri Suharsono Putri dan Damar Lazuardi Suharsono Putra serta keluarga besarku atas doa dan semangatnya.
Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan kebersamaannya selama menghadapi masa-masa terindah maupun tersulit dalam menuntut ilmu, serta semua pihak yang telah banyak membantu dan tak sempat penulis sebutkan satu per satu.
Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.
Bogor, Maret 2015
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
1 PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 2
2 TINJAUAN PUSTAKA 2
Regresi Linear Gerombol 2
Regresi Linear Gerombol dengan Algoritma Pertukaran 4
Least Median of Squares (LMS) 5
3 METODE PENELITIAN 5
Data 5
Metode Analisis 6
4 HASIL DAN PEMBAHASAN 8
Hasil Simulasi 8
Hasil Kasus Terapan 10
5 SIMPULAN DAN SARAN 14
Simpulan 14
Saran 14
DAFTAR PUSTAKA 14
LAMPIRAN 16
DAFTAR TABEL
1 Banyak gerombol (k), JJKG dan R-Square (%) pada tiap simulasi
dengan inisialisasi acak dan LMS 10
2 JKG, Adjusted R-Square (%) dan n inisialisasi acak dan LMS 12
DAFTAR GAMBAR
1 Diagram pencar antara peubah bebas (X) terhadap peubah tak bebas
(Y) untuk setiap simulasi 8
2 Scree Plot antara jumlah gerombol dengan nilai minimum JJKG pada
setiap simulasi 9
3 Diagram pencar antara presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD terhadap IPM (Y) 11
4 Scree plot antara jumlah gerombol dengan nilai minimum JJKG pada
kasus terapan 12
5 Plot antara lapangan usaha dengan rata-rata PDRB tiap gerombol (juta
Rupiah) 13
6 Plot antara jenjang pendidikan dengan proporsi jumlah penduduk tiap
gerombol 13
DAFTAR LAMPIRAN
1 Diagram pencar dengan garis regresi antara peubah bebas (X) terhadap
peubah tak bebas (Y) untuk setiap simulasi 16
2 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi acak 16 3 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%)
dan n pada tiap simulasi dengan inisialisasi LMS 19 4 Diagram pencar dengan garis regresi linear gerombol antara peubah
bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan
inisialisasi acak 19
5 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan
inisialisasi LMS 20
6 Data presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3)
pada data APBD dan IPM (Y) 20
7 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted
R-Square (%) dan n pada kasus terapan dengan inisialisasi acak 21
8 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted
R-Square (%) dan n pada kasus terapan dengan inisialisasi LMS 22
9 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi
acak dengan 2 gerombol 22
10 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi
11 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi
LMS 23
12 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan
inisialisasi acak 3 gerombol 24
13 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan
inisialisasi acak 2 gerombol 24
14 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol 25 15 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi
1 PENDAHULUAN
Latar Belakang
Analisis regresi merupakan teknik statistika yang digunakan untuk menelaah hubungan fungsional dari satu atau beberapa peubah bebas terhadap satu peubah tak bebas dan terutama untuk menelusuri pola hubungan yang modelnya belum diketahui dengan sempurna (Aunuddin 1989). Kumpulan titik-titik yang dapat dihubungkan oleh suatu garis atau kurva tertentu disebut dengan garis regresi. Kumpulan titik-titik terkadang terdapat lebih dari satu, sehingga apabila kumpulan-kumpulan titik-titik tersebut dibentuk menjadi satu garis regresi maka akan terjadi kesalahan pendugaan. Kumpulan-kumpulan titik-titik yang membentuk lebih dari satu garis regresi diduga disebabkan oleh adanya subpopulasi yang belum diketahui. DeSarbo dan Cron (1988) menyatakan bahwa jika regresi linear standar digunakan untuk menduga data yang memiliki subpopulasi yang belum diketahui, maka akan menyebabkan kesalahan pendugaan model sehingga memiliki koefisien determinasi yang kecil.
Sebagai ilustrasi, bagian pemasaran ingin melihat hubungan antara harga terhadap pembelian suatu barang. Diagram pencar antara harga dan pembelian suatu barang membentuk dua kumpulan titik-titik atau gerombol. Gerombol pertama memiliki koefisien regresi (kemiringan) yang negatif besar, sedangkan gerombol kedua memiliki koefisien regresi (kemiringan) yang negatif kecil. Intersep gerombol pertama juga lebih besar bila dibandingkan gerombol kedua. Setelah diidentifikasi, gerombol pertama merupakan kelompok ekonomi lemah dan gerombol kedua merupakan kelompok ekonomi kuat. Informasi yang didapatkan jika hanya menggunakan analisis regresi linear standar terbatas pada koefisien regresi (kemiringan) yang negatif dan pendugaan menjadi tidak tepat sasaran.
Pendugaan satu set koefisien-koefisien regresi pada populasi yang terdiri dari beberapa subpopulasi yang tidak diketahui akan menjadi suatu permasalahan dan berpotensi menyesatkan. Perlu adanya penggerombolan berdasarkan karakteristik parameter regresi sehingga dapat menduga subpopulasi yang belum diketahui (DeSarbo et al. 1989). Menurut DeSarbo dan Cron (1988), regresi linear gerombol merupakan salah satu jenis regresi yang penting dalam pendugaan model untuk data yang memiliki subpopulasi yang belum diketahui. Regresi linear gerombol atau biasa dikenal dengan Clusterwise linear regression (CLR) adalah teknik penggerombolan berdasarkan karakteristik parameter regresi untuk menemukan dan merekonstruksi struktur tersembunyi dari suatu contoh yang diambil secara acak dari populasi yang memiliki subpopulasi yang belum diketahui (Qian dan Wu 2011).
2
algoritma pertukaran dan memanfaatkan analisis regresi kekar (robust) pada tahap inisialisasi untuk menduga banyaknya subpopulasi.
Metode pendugaan parameter regresi yang digunakan pada penelitian ini adalah metode kuadrat terkecil. Pengoptimuman amatan yang masuk ke dalam gerombol digunakan algoritma pertukaran. Algoritma pertukaran menggerombolkan berdasarkan kemiripan karakteristik parameter regresi dengan kriteria optimumnya adalah minimum dari jumlah dari jumlah kuadrat galat (JJKG). Inisialisasi pada algoritma ini menggunakan inisialisasi acak dan menggunakan salah satu metode regresi kekar (robust) yaitu least median of squares (LMS).
Data pada penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Data simulasi terdiri dari 2 gugus data dengan 2 gerombol, 3 gugus data dengan 3 gerombol dan 1 gugus data tanpa gerombol. Data pada kasus terapan yang digunakan yaitu data ekonomi, kesehatan dan pendidikan pada anggaran pendapatan belanja daerah (APBD) terhadap data indeks pembangunan manusia (IPM) seluruh kota/kabupaten di Jawa Timur tahun 2013.
Tujuan Penelitian
Tujuan dari penelitian ini, antara lain :
1. Menentukan gerombol yang optimum berdasarkan karakteristik parameter regresi melalui analisis regresi linear gerombol dengan algoritma pertukaran. 2. Membandingkan kecepatan iterasi dan jumlah dari jumlah kuadrat galat
(JJKG) antara inisialisasi acak dan menggunakan metode regresi kekar yaitu
least median of squares.
2 TINJAUAN PUSTAKA
Regresi Linear Gerombol
Regresi linear gerombol atau biasa dikenal dengan clusterwise linear
regression (CLR) adalah teknik penggerombolan berdasarkan karakteristik
parameter regresi untuk menemukan dan merekonstruksi struktur tersembunyi dari suatu contoh yang diambil secara acak dari populasi yang memiliki subpopulasi yang belum diketahui (Qian & Wu 2011). Regresi linear gerombol pertama kali diperkenalkan oleh Spath pada tahun 1979 dengan menggunakan algoritma pertukaran. Spath (1979) menentukan jumlah gerombol dengan menggunakan over-fitting dari jumlah gerombol terkecil sampai jumlah gerombol yang memiliki galat minimum yaitu dengan penurunan galat yang sudah tidak signifikan antar dugaan jumlah gerombol. Jumlah gerombol yang tepat dapat mengoptimumkan pengamatan-pengamatan yang masuk ke dalam gerombol dengan tepat sehingga meminimumkan galat.
Model umum regresi linear gerombol:
1 1
k p i j ij lj l ji l
3
dengan:
j= 1, 2, …, n l= 1, 2, …, p
i= 1, 2, …, k
j
y = pengamatan ke-j untuk peubah tak bebas y
jl
x = pengamatan ke-j untuk peubah bebas ke-l
i l
b = koefisien regresi ke-l pada gerombol ke-i
ji
a = 1, pengamatan pada gerombol ke-0, lainnya
j i
j
e = galat pengamatan ke-j, ej ~ N
0,i2
Tujuan analisis regresi linear gerombol adalah menduga aji dan bli dengan meminimumkan:
2
1 1 1
n
k p i j ij lj lj i l
y a x b
Misalkan terdapat pengamatan n
1, 2,...,n
dengan asosiasi masing-masing titik
x y1, 1
,..., x yn, n
, dengan ∈ ℝ� adalah vektor peubah bebas berdimensi p dan � ∈ ℝ adalah peubah tak bebas pada pengamatan ke-j
j1, 2,...,n
. n pengamatan diasumsikan contoh acak dari populasi yang memiliki sub-populasi sebanyak k0 dengan karakteristik masing-masing sub-populasi digambarkan dengan parameter analisis regresi yang belum diketahui. Sebanyak n pengamatan dari populasi tersebut dipartisi menjadi
0 1 ,..., 0
n n n
k k
dan masing-masing subpopulasi
,...,
in n
i ii in
direpresentasikan dengan
� =�� ��+���, ���~� ,�����
dengan � = �1,…,� �
′
, �� = � ,…, � ��
′
adalah matriks berukuran
i
n p dalam subpopulasi � , ��� adalah vektor galat acak berukuran � , � adalah matriks identitas berukuran
nini
dan ni i , untuk i1,...,k0 .0
1 ... k
n n n dengan k0K, dengan K adalah bilangan integer positif.
Analisis yang dilakukan pada analisis regresi linear gerombol adalah menduga jumlah subpopulasi
k0 lalu mengklasifikasikan masing-masing pengamatan dan menduga parameter-parameter regresi pada masing-masing gerombol. Langkah pertama untuk menduga k0 adalah mempartisi n pengamatan
1 ,...,
n n n
k k
C C , k Kdengan K adalah bilangan integer positif.
1
1,..., , 0, ,
n
n c n
i i i i i
i
n
4
Untuk dapat menduga parameter-parameter regresi pada tiap-tiap gerombol dibutuhkan penambahan kondisi Ci p. Masing-masing partisi k diduga dengan
metodekuadrat terkecil sehingga didapatkan nilai dugaan � , = 1,…, .
��
nk
= C � � − � C � � � � =1 2 , dan k untuk menduga k0dengan kriteria optimum:�� � = 1min min n n
k K k n D k
Tetapkan k berdasarkan data sehingga k
,...,C1 Ck
. Untuk mendapatkan penggerombolan optimal pada regresi gerombol adalah dengan meminimumkan jumlah dari jumlah kuadrat galat (JJKG) antar gerombol. Ukuran kebaikan model yang digunakan yaitu� k =
i
C − �
i C ′ � � =1 2
dengan � , = 1,…, adalah penduga-penduga yang diperoleh berdasarkan metode kuadrat terkecil untuk
,...,C1 Ck
.Regresi Linear Gerombol dengan Algoritma Pertukaran
Metode pendugaan parameter regresi yang digunakan pada penelitian ini adalah metode kuadrat terkecil. Pengoptimuman amatan yang masuk ke dalam gerombol digunakan algoritma pertukaran. Algoritma pertukaran menggerombolkan berdasarkan kemiripan karakteristik parameter regresi dengan kriteria optimumnya adalah minimum dari jumlah dari jumlah kuadrat galat (JJKG). berdasarkan metode kuadrat terkecil. Hal ini dapat diartikan relokasi amatan pada k gerombol sudah mencapai optimum karena memiliki galat minimum. Ketepatan perelokasian amatan bergantung pada inisialisasi. Inisialisasi yang digunakan Spath (1979) yaitu dengan pj = 1 + mod(j-1,k).
Inisialisasi yang digunakan pada penelitian ini yaitu dengan menggunakan inisialisasi acak dimana setiap amatan memiliki kemungkinan yang sama untuk menjadi anggota gerombol ke-i pada k gerombol. Penentuan jumlah gerombol pada penelitian ini menggunakan over-fiiting. Minimum JJKG pada jumlah gerombol (k) terkecil yaitu satu gerombol akan dibandingkan dengan minimum JJKG jumlah gerombol-gerombol setelahnya. Jika penurunan fungsi objektif JJKG sudah tidak signifikan dengan jumlah gerombol setelahnya, maka jumlah gerombol tersebut merupakan jumlah gerombol terbaik.
5 Proses yang bertahap pada over-fitting mengakibatkan lamanya proses komputasi. Qian dan Wu (2010) memanfaatkan konsistesi pada analisis regresi kekar (robust) untuk menentukan jumlah gerombol dan inisialisasi. Penentuan jumlah gerombol dan inisialisasi yang simultan pada sekali proses akan mempercepat proses komputasi. Oleh karena itu, pada penelitian ini akan digunakan inisialiasi acak dan inisialisasi regresi kekar untuk membandingkan ketepatan penggerombolan. Analisis regresi kekar yang digunakan pada penelitian ini yaitu least median of squares (LMS).
Least Median of Squares (LMS)
Least median of squares adalah salah satu metode regresi kekar (robust). Kelebihan dari metode regresi kekar adalah kurang peka dibandingkan metode kuadrat terkecil terhadap penyimpangan yang sering terjadi dari asumsi regresi linear (Draper 1981). Analisis regresi kekar digunakan untuk mengatasi penyimpangan-penyimpangan sebagai pengganti metode kuadrat terkecil. Menurut Rousseeuw (1984), dengan menggunakan median dari kuadrat galat akan dihasilkan penduga yang lebih kekar terhadap pencilan.
Misalkan diberikan sebuah gugus data contoh berukuran � dan akan diduga � berdimensi � yang berisi parameter dari gugus data tersebut. Langkah-langkah yang diperlukan pada LMS menurut Yingying (2009) yaitu:
1. Tentukan ukuran subset u, jumlah subset v dan tentukan juga batas kesalahan yang diinginkan �.
2. Secara acak, ambil v buah subset berukuran u dari contoh berukuran n. Duga parameter � ℎ untuk setiap subset. Hitung median dari kuadrat galat ��ℎ2 pada setiap subset dengan g = 1,2,…,u dan h = 1,2,…,v.
3. Definisikan:
2 2 min T gh h gm med e
4. Hitung:
�0 = 1.4826 1 +
5
� − � mT2 5. Hitung bobot � , dengan � = 1 � �0
� ≤ � dan � = �0
� untuk lainnya.
6. Berikan bobot � kepada setiap pengamatan.
7. Lakukan pendugaan parameter dengan metode kuadrat kecil terboboti dengan � sebagai bobot untuk mendapatkan � akhir.
3 METODE PENELITIAN
Data
Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Data simulasi terdiri dari:
6
2. Gugus data terdiri dari 2 gerombol dengan kemiringan berlawanan. Masing-masing gerombol berukuran 30 amatan.
3. Gugus data terdiri dari 3 gerombol yang saling berpotongan. Masing-masing gerombol berukuran 30 amatan.
4. Gugus data terdiri dari 3 gerombol dengan dua gerombol berdekatan. Masing-masing gerombol berukuran 30 amatan.
5. Gugus data terdiri dari 3 gerombol dengan kemiringan dan intersep berbeda. Masing-masing gerombol berukuran 30 amatan.
6. Data tanpa gerombol dengan ukuran amatan 402.
Data kasus terapan yang digunakan dalam penelitian ini adalah data Indeks Pembangunan Manusia (IPM) seluruh kota/kabupaten di Jawa Timur tahun 2013 yang dikeluarkan oleh Badan Pusat Statistika dari situs web www.bps.go.id dan data Anggaran Pendapatan dan Belanja Daerah (APBD) seluruh kota/kabupaten di Jawa Timur tahun 2013 yang dikeluarkan oleh Direktorat Jenderal Perimbangan Keuangan, Kementerian Keuangan dari situs web www.djpk.kemenkeu.go.id Banyaknya kabupaten/kota Provinsi Jawa Timur sebesar 38. Data IPM digunakan sebagai peubah tak bebas (Y). Data APBD berupa 9 komponen yaitu pelayanan umum, ketertiban dan ketentraman, ekonomi, lingkungan hidup, perumahan dan fasilitas umum, kesehatan, pariwisata dan budaya, pendidikan, dan perlindungan sosial.
Data APBD yang digunakan sebagai peubah bebas berupa 3 komponen yaitu ekonomi (X1), kesehatan (X2) dan pendidikan (X3). Komponen-komponen yang digunakan merupakan proporsi/presentase dari jumlah total keseluruhan komponen APBD untuk tiap kota/kabupaten di Jawa Timur. Identifikasi penggerombolan menggunakan data produk domestik regional bruto (PDRB) dan data pendidikan kabupaten/kota Provinsi Jawa Timur yang dikeluarkan oleh Badan Pusat Statistika dari situs web www.bps.go.id.
Metode Analisis
Eksplorasi Data
Membuat diagram pencar masing-masing peubah bebas terhadap peubah tak bebas. Jika pada diagram pencar mengindikasikan adanya gerombol, maka dapat digunakan analisis regresi linear gerombol.
Pemodelan
Analisis regresi linear gerombol menduga jumlah subpopulasi lalu menggerombolkan masing-masing pengamatan dan menduga parameter-parameter regresi pada masing-masing gerombol. Pendugaan jumlah subpopulasi dilakukan pada tahap inisialisasi. Penggerombolan masing-masing pengamatan dan pendugaan parameter regresi dilakukan dengan menggunakan algoritma pertukaran. Berikut adalah tahapan pada inisialisasi dan algoritma pertukaran: 1. Inisialisasi
7 a. Inisialisasi acak
Membagi amatan-amatan ke dalam k gerombol secara acak. Jika ukuran masing-masing gerombol kurang dari parameter, maka dilakukan pengacakan ulang.
b. Inisialisasi dengan metode regresi kekar.
Semua pengamatan diberikan inisial partisi
1, 2,...,n
. Suatu gerombol dinotasikan dengan C dan komplemen dari gerombol dinotasikan dengan Cc . Tahap-tahap inisialisasi regresi kekar pada algoritma pertukaran yaitu:(i) Menduga � untuk keseluruhan dataset dengan menggunakan metode regresi kekar (robust) yaitu metode least median of squares.
(ii) Meletakkan semua pengamatan yang mempunyai jarak regresi kurang dari nilai tertentu, misalkan ke dalam C1. Jika C1 dan
1 c
C keduanya lebih besar atau sama dengan nilai integer yang sudah ditentukan dari awal yaitu p, maka =1 dan lanjutkan pada tahap selanjutnya. Jika tidak, maka = 0 dan dilanjutkan ke tahap (v). (iii)Berdasarkan dataset
1 c i iC
, dugalah � dengan menggunakan analisis least median of squares yang digunakan pada tahap (i). (iv) Meletakkan semua pengamatan pada1 c i iC
yang mempunyai jarak regresi kurang dari ke dalam C1 berdasarkan analisis least median of squares. Jika C1 dan 11 c i i C
keduanya p, maka tetapkan 1 dan ulangi ke tahap (iii). Jika tidak, maka lanjutkan ke tahap (v).(v) Inisialkan masing-masing partisi dengan
1
1 ,..., , ici
C C
C dengan>1 atau keseluruhan dataset itu sendiri jika = 0. 2. Algoritma Pertukaran
Tahap-tahap pada algoritma pertukaran yaitu:
(i) Memberikan label masing-masing pengamatan pada contoh dari 1 sampai n. Lalu berikan inisial partisi k
,...,C1 Ck
berdasarkan
1, 2,...,n
. Dugalah parameter regresi dengan metode kuadrat terkecil (MKT) untuk masing-masing k gerombol dan hitunglah jumlah dari jumlah kuadrat galat JJKG0untuk partisi ini. Inisialisasi i = 0. (ii) Menetapkan i i 1 dan i = 1 jika i > n. Misalkan iCj, lalu pindahkan
i ke dalam Ch , h1,...,k dan h j . Untuk masing-masing k – 1
relokasi, dugalah kembali model-model regresi dengan MKT untuk gerombol-gerombol yang telah diubah dan hitunglah keseluruhan JJKG.
JJKG terkecil dinotasikan dengan JJKGh. Jika JJKGh JJKG0, maka
tetapkan Cj Cj
i ,
h h iC C dan tetapkan
8
0
JJKGhJJKG , maka i tetap dalam Cj . Jika ukuran j kurang dari parameternya, maka proses pemindahan i pada Cj berhenti.
(iii) Mengulangi tahap (ii) pada algoritma pertukaran sampai fungsi objektif JJKG tidak dapat diturunkan lagi, yang mana artinya sudah tidak dibutuhkan relokasi pengamatan dan penggerombolan sudah optimum yaitu memiliki JJKG paling minimum untuk ukuran gerombol k.
3. Pendugaan parameter pada setiap kemungkinan gerombol akan dilakukan sebanyak 100 kali perulangan. Dari perulangan tersebut, maka dihitung nilai minimum dari minimum JJKG pada setiap kemungkinan gerombol.
4. Mendeskripsikan masing-masing gerombol. Kebaikan Model
Ukuran kebaikan model digunakan untuk memilih model yang terbaik diantara model yang terbentuk. Ukuran kebaikan model yang digunakan pada penelitian ini yaitu dengan jumlah dari jumlah kuadrat galat (JJKG). Semakin kecil nilai JJKG, maka semakin kecil perbedaan antara nilai dugaan dengan nilai aktual, yang berarti model yang dibentuk semakin akurat dalam menghasilkan nilai dugaan.
4 HASIL DAN PEMBAHASAN
Hasil Simulasi
Diagram pencar untuk setiap simulasi antara masing-masing peubah bebas terhadap peubah tak bebas tertera pada Gambar 1.
Gambar 1 Diagram pencar antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi
Simulasi 1 Simulasi 2 Simulasi 3
9 Pada data simulasi akan digunakan analisis regresi linear gerombol untuk menduga model regresi setiap gerombol. Jumlah gerombol digunakan untuk menduga banyaknya subpopulasi yang belum diketahui. Inisialisasi acak menentukan jumlah gerombol dengan menggunakan over-fitting dari gerombol terkecil sampai gerombol dengan penurunan galat yang sudah tidak signifikan antar dugaan banyaknya gerombol.
Gambar 2 Scree Plot antara jumlah gerombol dengan nilai minimum JJKG pada setiap simulasi
Pada Gambar 2, JJKG untuk simulasi 1 dan 2 cut off pada 2 gerombol dan setelah 2 gerombol tidak menurun signifikan sehingga dapat disimpulkan jumlah gerombol untuk simulasi 1 dan 2 yaitu 2 gerombol. Pada simulasi 3, 4 dan 5, JJKG cut off pada 3 gerombol dan setelah 3 gerombol tidak menurun signifikan sehingga dapat disimpulkan jumlah gerombol pada simulasi 3, 4 dan 5 yaitu 3 gerombol. Pada simulasi 6, JJKG tidak memiliki titik cut off sehingga dapat disimpulkan simulasi 6 tidak memiliki gerombol. Hal tersebut sesuai dengan pembentukan awal jumlah gerombol.
Pada inisialisasi LMS dengan 1.645 , jumlah gerombol yang didapatkan berbeda pada simulasi 4 dan 6. Pada simulasi 4, inisialisasi LMS menghasilkan 2 gerombol dan pada simulasi 6 inisialisasi LMS menghasilkan 3 gerombol. Hal tersebut berbeda dengan pembentukan awal jumlah gerombol.
Algoritma pertukaran pada simulasi 1 dan 2 dengan inisialisasi acak membutuhkan waktu rata-rata 0.94 detik dari 100 kali perulangan dengan k=2. Jika menggunakan inisialisasi LMS, rata-rata waktu yang dibutuhkan yaitu 0.62 detik. Rata-rata waktu yang dibutuhkan algoritma pertukaran pada simulasi 3 dan 5 dengan k=3 pada inisialisasi acak yaitu 5.54 detik, sedangkan pada inisialisasi LMS yaitu 2.47 detik. Perbedaan waktu iterasi tersebut dikarenakan penggerombolan pada inisialisasi LMS sudah hampir mendekati penggerombolan akhir sehingga proses iterasi lebih cepat. Processor yang digunakan yaitu Intel(R) Core(TM) i5-3337U CPU @ 1.80GHz dengan RAM 4.00 GB dan System Type
64-bit.
Simulasi 1
Jumlah Gerombol
Simulasi 2 Simulasi 3
Simulasi 4 Simulasi 5 Simulasi 6
JJ KG JJ KG JJ KG JJ KG JJ KG JJ KG
Jumlah Gerombol Jumlah Gerombol
10
Tabel 1 Banyak gerombol (k), JJKG dan R-Square (%) pada tiap simulasi dengan inisialisasi acak dan LMS
Inisialisasi Acak Inisialisasi LMS
Simulasi k JJKG R-Square
(%) Simulasi K JJKG
R-Square
(%)
1 1 21864.51 42.70 1 1 21864.51 42.70
2 1131.00 95.82 2 1131.00 95.82
2 1 19167.33 6.70 2 1 19167.33 6.70
2 1170.30 93.99 2 1170.30 93.99
3 1 66998.51 5.29 3 1 66998.51 5.29
3 2450.01 91.74 3 2450.01 91.74
4 1 195906.60 39.17 4 1 195906.60 39.17
3 6988.30 82.37 2 27933.69 40.14
5 1 43345.73 33.41 5 1 43345.73 33.41
3 1965.47 89.95 3 1965.47 89.95
6 1 7610.07 0.00
3 870.57 1.75
Pada inisialisasi acak, ketika data sudah digerombolkan terlihat JJKG menurun secara signifikan dan R-Square meningkat secara signifikan. Banyaknya gerombol pada inisialisasi acak sesuai dengan banyaknya gerombol pada data simulasi yang dibentuk. Kesalahan klasifikasi diduga disebabkan pengamatan yang berdekatan antar gerombol namun hal tersebut tidak berpengaruh secara signifikan pada nilai JJKG.
Inisialisasi dengan LMS menduga banyaknya gerombol sekaligus memisahkan parameter-parameter regresi pada tiap gerombol secara simultan sehingga penentuan banyaknya gerombol tidak secara bertahap. Dengan menggunakan 1.645 , inisialisasi LMS menghasilkan hasil yang sama dengan inisialisasi acak kecuali pada simulasi 4 dan 6. Pada simulasi 4, inisialisasi dengan LMS menghasilkan 2 gerombol. Pada simulasi 6 yang tidak memiliki gerombol, inisialisasi dengan LMS menghasilkan 3 gerombol. Maka dapat disimpulkan bahwa inisialisasi acak lebih baik dalam penentuan banyaknya gerombol namun lebih lama dalam proses komputasi karena penentuan gerombol harus menggunakan over-fitting.
Hasil Kasus Terapan
11 maka upaya peningkatan IPM selain menjadi tanggung jawab pemerintah pusat juga menjadi tanggung jawab pemerintah daerah di seluruh Indonesia. Menurut Wibowo (2008), salah satu modal dasar utama bagi daerah untuk meningkatkan kualitas pembangunan manusia adalah dana pembangunan yang tertuang dalam anggaran pendapatan belanja daerah (APBD).
Menurut Mankiw (2003), alat ukur pertumbuhan ekonomi suatu daerah yang utama adalah produk domestik regional bruto (PDRB). Dengan menggunakan data PDRB, maka dapat dilihat pemerataan pembangunan suatu daerah. Oleh karena itu, data PDRB digunakan untuk membandingkan pemerataan pada setiap lapangan usaha untuk setiap kabupaten/kota Provinsi Jawa Timur. Data pendidikan penduduk Jawa Timur juga digunakan untuk melihat pemerataan pendidikan kabupaten/kota Provinsi Jawa Timur.
Deskripsi data antara masing-masing peubah bebas terhadap peubah tak bebas perlu dilakukan sebagai informasi awal untuk mengetahui indikasi adanya gerombol. Diagram pencar dapat membantu menentukan adanya penggerombolan (DeSarbo et al. 1989).
Gambar 3 Diagram pencar antara presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD terhadap IPM (Y)
Pada Gambar 3, diagram pencar antara ekonomi dengan IPM tidak membentuk garis linear dan mengindikasikan adanya gerombol. Pada diagram pencar antara kesehatan dengan IPM juga tidak membentuk garis linear. Diagram pencar mengindikasikan adanya gerombol yaitu pada bagian atas cenderung memiliki kemiringan positif sedangkan bagian bawah cenderung memiliki kemiringan negatif. Pada diagram pencar antara pendidikan dan IPM terlihat data tidak membentuk pola linear dan cenderung memusat pada beberapa titik sehingga mengindikasikan adanya gerombol. Jika menggunakan analisis regresi linear, adjusted R-Square hanya sebesar 27.63%.
12
Jumlah Gerombol
Gambar 4Scree plot antara jumlah gerombol dengan nilai minimum JJKG pada kasus terapan
Pada Gambar 4 terlihat JJKG cut off pada dua gerombol dan tiga gerombol dan setelah tiga gerombol cenderung menurun secara tidak signifikan. Oleh karena itu, banyaknya gerombol yang ditetapkan adalah 3 gerombol. Model regresi linear pada masing-masing gerombol adalah:
1 1 2 3
2 1 2 3
3 1 2 3
159.66 460.39 381.74 43.28 67.14 128.79 35.64 10.82 54.23 125.42 18.05 59.28
Y X X X e
Y X X X e
Y X X X e
Gerombol yang diperoleh dengan inisialisasi LMS dengan menggunakan 1.645
yaitu 2 gerombol. Model analisis regresi linear pada masing-masing
gerombol adalah:
1 1 2 3
2 1 2 3
73.96 150.16 34.74 33.54 50.31 105.13 2.11 58.04
Y X X X e
Y X X X e
Tabel 2 JKG, Adjusted R-Square (%) dan n inisialisasi acak dan LMS
Inisialisasi JKG Adj R-Square(%) n JKG Adj R-Square(%) n
24.01 73.61 20 3.31 98.47 11
Acak 68.09 61.65 18 12.75 80.04 18
1.44 95.49 9
92.10 38 17.50 38
83.58 58.86 19
45.23 76.46 19
128.81 38
LMS
2 Gerombol 3 Gerombol
Pada Tabel 2, inisialisasi acak menghasilkan tiga gerombol dengan JJKG 17.50 sedangkan inisialisasi LMS menghasilkan dua gerombol dengan JJKG 128.81. Pada 2 gerombol, terlihat nilai JJKG inisialisasi acak lebih kecil dibandingkan inisialisasi LMS sehingga model inisialisasi acak lebih baik. Oleh karena itu, inisialisasi acak digunakan untuk identifikasi gerombol.
Identifikasi gerombol yang akan digunakan yaitu rata-rata produk domestik regional bruto (PDRB) untuk membandingkan pemerataan lapangan usaha pada setiap gerombol di Provinsi Jawa Timur. Data pendidikan penduduk Jawa Timur
JJ
13 juga digunakan untuk melihat pemerataan pendidikan tiap gerombol di Provinsi Jawa Timur.
Gambar 5 Plot antara lapangan usaha dengan rata-rata PDRB tiap gerombol (juta Rupiah). Gerombol 1, Gerombol 2, Gerombol 3.
Gambar 6 Plot antara jenjang pendidikan dengan proporsi jumlah penduduk tiap gerombol. Gerombol 1, Gerombol 2, Gerombol 3.
Pada grafik PDRB untuk 3 gerombol, setiap lapangan usaha memiliki 2 gerombol yang bermiripan. Hal tersebut tertera pada Gambar 5. Pada grafik proporsi jumlah penduduk pada setiap jenjang pendidikan untuk 3 gerombol, gerombol kedua dan ketiga mempunyai pola yang hampir sama. Hal tersebut tertera pada Gambar 6. Berdasarkan kondisi kemiripan tersebut, 2 gerombol cukup untuk menduga banyaknya subpopulasi. Maka, persamaan regresi 2 gerombol dengan inisialisasi acak yaitu:
1 1 2 3
2 1 2 3
76.40 118.14 5.35 21.28 86.01 95.21 162.09 14.47
Y X X X e
Y X X X e
Gerombol pertama merupakan gerombol kota karena 90% kota pada provinsi Jawa Timur berada pada gerombol pertama sedangkan gerombol kedua hanya memiliki satu kota yaitu Kota Batu. Pada data PDRB, gerombol kabupaten lebih unggul dibidang pertanian dan pertambangan sedangkan gerombol kota unggul dibidang lainnya. Pada data pendidikan, rata-rata presentase pendidikan rendah pada gerombol kota lebih rendah dibandingkan gerombol kabupaten dan rata-rata presentase pendidikan tinggi pada gerombol kota lebih tinggi dibandingkan gerombol kabupaten.
Lapangan Usaha Lapangan Usaha
P DRB (ju ta R u p iah )
Jenjang Pendidikan Jenjang Pendidikan
14
5 SIMPULAN DAN SARAN
Simpulan
Berdasarkan hasil analisis regresi linear gerombol dengan algoritma pertukaran (exchange algorithm) dengan inisialisasi acak dan regresi kekar yaitu LMS dapat disimpulkan bahwa :
1. Analisis regresi linear gerombol dapat menduga model untuk data yang memiliki subpopulasi yang belum diketahui dengan cara menggerombolkan berdasarkan kemiripan karakteristik parameter regresi.
2. Inisialisasi acak lebih baik dalam pendugaan banyaknya subpopulasi dibandingkan inisialisasi LMS namun proses komputasi inisialisasi acak lebih lama dibandingkan dengan inisialisasi LMS karena inisialisasi acak menduga banyaknya subpopulasi dengan over-fitting.
3. Inisialisasi dengan LMS tidak dapat digunakan jika banyaknya subpopulasi ditentukan secara apriori dan inisialisasi dengan LMS juga tidak dapat mendeteksi jika tidak terdapat gerombol pada gugus data.
Saran
Pada penelitian ini, inisialisasi acak lebih baik dalam pendugaan banyaknya subpopulasi dibandingkan inisialisasi LMS namun proses komputasi inisialisasi acak lebih lama dibandingkan dengan inisialisasi LMS. Oleh karena itu, disarankan untuk mengkaji analisis regresi linear gerombol dengan algoritma pertukaran untuk mendapatkan pendugaan banyaknya subpopulasi yang baik namun proses komputasinya lebih cepat.
Analisis regresi linear gerombol merupakan analisis regresi yang sangat penting untuk menduga banyaknya subpopulasi. Penelitian lanjutan terkait analisis regresi linear gerombol dapat menggunakan metode pendugaan lainnya.
DAFTAR PUSTAKA
Aunuddin. 1989. Analisis Data. Bogor (ID): Depdikbud Ditjen Pendidikan Tinggi Pusat Antar Universitas Ilmu Hayat IPB.
DeSarbo WS, Cron WL. 1988. A Maximum Likelihood Methodology for Clusterwise Linear Regression, Journal of Classification. 5:249-282.
DeSarbo WS, Oliver RL, Rangaswamy A. 1989. A simulated annealing methodology for clusterwise linear regression. Psychometrika. 54(4):707-736
Draper NR, Smith H. 1981. Applied Regression Analysis, 2nd. New York (US): John Wiley and Sons, Inc.
Mankiw NG. 2003. Teori Makro Ekonomi. Jakarta (ID): Erlangga
Qian G, Wu Y. 2011. Estimation and selection in regression clustering. European JPAM. 4(4):455-466
15 Spath H. 1979. Algorithm 39 clusterwise linear regression. Computing.
22(4):367-373.
Spath H. 1982. A fast algorithm for clusterwise linear regression. Computing.
29(2):175-181.
Wibowo E. 2008. Strategi Perancangan Kebijakan Umum APBD untuk
Meningkatkan Kualitas Pembangunan Manusia di Kabupaten Bogor [tesis]
Bogor : Sekolah Pascasarjana, Institut Pertanian Bogor.
Chen Y, Xu W, Trappe W, Zhang Y. 2009 . Securing Emerging Wireless Systems,
16
Lampiran 1 Diagram pencar dengan garis regresi antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi
Lampiran 2 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi acak
Simulasi 1
k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 21864.51 21864.51 22.21 0.33 42.70 60
2 781.89 1131.00 6.09 2.06 94.22 30
781.89 -57.45 2.06 94.22 30
3 619.43 761.24 9.31 1.91 91.97 26
72.60 -63.82 2.25 97.03 25
104.81 5.64 0.66 97.03 9
4 567.99 498.49 -61.74 2.19 96.70 24
72.01 1.99 2.41 98.75 14
92.09 39.73 0.02 0.70 10
44.42 10.74 1.69 98.30 12
5 344.24 258.37 -57.99 1.98 98.82 14
41.27 0.19 2.69 99.24 11
45.84 18.20 1.68 95.50 7
24.84 11.29 1.63 98.30 12
10.78 -56.86 2.13 97.41 16
Simulasi 1 Simulasi 2 Simulasi 3
17
Simulasi 2
k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 19167.33 19167.33 38.70 -0.03 6.70 60
2 586.38 1170.30 70.18 -2.03 94.23 31
583.92 7.24 1.97 93.72 29
3 438.55 766.53 71.50 -2.07 95.93 26
313.85 7.13 1.90 95.47 27
14.13 21.71 1.64 99.00 7
4 344.16 535.96 6.15 2.06 96.38 22
93.68 74.64 -2.05 98.04 12
67.63 67.46 -2.02 97.85 16
30.49 32.07 0.56 66.06 10
5 37.18 330.67 60.69 0.20 48.65 7
180.77 71.88 -2.10 97.14 19
14.24 5.54 1.12 96.54 6
30.88 24.79 1.28 96.77 10
67.6 11.40 1.57 95.75 18
Simulasi 3
k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 66998.51 66998.51 -80.72 0.60 5.29 90
2 2898.07 12674.28 -105.85 1.97 83.87 41
9776.21 -150.55 1.69 53.31 49
3 773.34 2450.01 -11.82 -1.93 91.00 31
897.57 -108.56 2.05 91.69 31
779.10 -164.61 2.04 92.42 28
4 715.75 1788.42 -12.77 -1.92 90.69 27
113.85 -97.58 1.92 97.58 15
151.06 -106.50 1.90 96.99 18
807.75 -161.32 2.00 91.84 30
5 686.64 1407.31 -13.38 -1.90 91.34 30
56.03 -24.67 -0.07 11.45 9
313.76 -120.00 2.30 97.21 21
226.24 -165.11 -120.00 95.87 18
124.64 -32.82 -165.11 90.96 12
Simulasi 4
k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 195906.6 195906.6 41.34 -2.23 39.17 90
2 25275.95 27933.69 -126.77 1.16 23.82 60
18
3 2657.74 6988.3 7.29 2.21 81.29 30
3135.05 -148.29 2.08 78.29 32
1195.51 -192.16 2.12 89.13 28
4 986.04 5161.72 192.13 2.12 87.14 25
2113.46 6.22 2.24 84.23 28
129.02 86.17 -2.28 99.44 8
1933.19 -142.25 1.88 80.12 29
5 1970.45 3814.73 9.05 2.18 82.98 24
231.82 41.61 -1.41 97.73 11
804.56 -129.05 1.65 78.97 20
524.6 177.51 1.74 85.02 18
283.3 123.23 0.99 90.96 17
Simulasi 5
k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 43345.73 43345.73 54.63 -0.69 33.41 90
2 4800.60 11018.74 75.44 -0.55 26.39 31
6218.14 32.28 -0.49 58.29 59
3 664.44 1965.47 20.14 2.10 93.81 30
716.10 -16.10 0.23 22.15 31
584.93 -45.87 1.90 92.59 29
4 531.06 1223.77 19.63 2.12 94.82 28
255.91 -2.55 -0.03 1.05 22
193.17 -46.43 1.92 97.42 24
243.63 64.65 -0.80 94.92 26
5 193.28 945.04 -46.22 1.91 96.92 24
528.37 19.61 2.12 95.31 28
37.00 -33.49 0.47 86.41 14
117.31 77.49 -1.23 98.30 11
69.08 10.34 0.22 72.19 13
Simulasi 6
k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 7610.07 7610.07 1.041 e-15 1.565 e-16 0.00 402
2 718.80 1559.03 3.96 -0.04 0.41 197
840.23 -3.80 -0.03 0.22 205
3 404.43 871.24 4.51 0.03 0.25 165
276.28 -4.88 0.09 2.56 141
190.53 -0.06 0.09 5.04 96
4 146.36 484.57 -5.41 -0.02 0.25 107
19
117.62 2.49 -0.05 2.08 106
116.91 -2.05 -0.04 1.43 98
5 139.88 372.14 -5.46 0.06 0.97 103
56.83 6.09 -0.10 4.50 69
44.41 -1.42 0.48 80.58 60
71.92 3.32 -0.01 0.12 100
59.11 -1.27 -0.27 55.02 70
Lampiran 3 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi LMS
Simulasi k JKG JJKG Koefisien Regresi R-Square
(%) n
β0 β1
1 2 781.89
1131.00 6.09 2.06 94.22 30
781.89 -57.45 2.06 94.22 30
2 2 586.38
1170.30 70.18 -2.03 94.23 31
583.92 7.24 1.97 93.72 29
3 3 773.34
2450.01
-11.82 -1.93 91.00 31
897.57 -108.56 2.05 91.69 31
779.10 -164.61 2.04 92.42 28
4 2 25275.95
27933.69 -126.77 1.16 23.82 60
2657.84 7.29 2.21 80.29 30
5 3 716.10
1965.47
-16.10 0.23 22.15 31
664.44 20.14 2.10 93.81 30
584.93 -45.87 1.90 92.59 29
6 3 425.49
870.57
-4.46 0.02 0.07 168
214.96 5.11 0.12 4.43 128
230.12 0.93 0.06 2.22 106
Lampiran 4 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan inisialisasi acak
20
Lampiran 5 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan inisialisasi LMS
Lampiran 6 Data presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD dan IPM (Y)
Daerah Ekonomi Kesehatan Pendidikan IPM
Kabupaten Bangkalan 0.07 0.13 0.38 66.19
Kabupaten Banyuwangi 0.06 0.10 0.43 71.02
Kabupaten Blitar 0.06 0.09 0.53 74.92
Kabupaten Bojonegoro 0.06 0.11 0.39 68.32
Kabupaten Bondowoso 0.07 0.11 0.44 65.39
Kabupaten Gresik 0.04 0.15 0.31 76.36
Kabupaten Jember 0.05 0.13 0.49 66.60
Simulasi 1 Simulasi 2 Simulasi 3
21
Kabupaten Jombang 0.05 0.15 0.41 74.47
Kabupaten Kediri 0.04 0.14 0.46 73.29
Kabupaten Lamongan 0.06 0.11 0.47 71.81
Kabupaten Lumajang 0.06 0.11 0.46 69.50
Kabupaten Madiun 0.06 0.11 0.47 71.46
Kabupaten Magetan 0.07 0.10 0.51 74.34
Kabupaten Malang 0.06 0.08 0.33 72.34
Kabupaten Mojokerto 0.05 0.11 0.37 75.26
Kabupaten Nganjuk 0.05 0.13 0.52 72.49
Kabupaten Ngawi 0.08 0.10 0.49 70.86
Kabupaten Pacitan 0.06 0.11 0.50 73.36
Kabupaten Pamekasan 0.07 0.11 0.51 67.17
Kabupaten Pasuruan 0.08 0.11 0.45 69.77
Kabupaten Ponorogo 0.05 0.12 0.50 72.61
Kabupaten Probolinggo 0.07 0.11 0.43 65.19
Kabupaten Sampang 0.09 0.10 0.43 62.39
Kabupaten Sidoarjo 0.07 0.17 0.33 78.15
Kabupaten Situbondo 0.09 0.11 0.43 65.73
Kabupaten Sumenep 0.09 0.11 0.45 66.89
Kabupaten Trenggalek 0.08 0.13 0.45 74.44
Kabupaten Tuban 0.07 0.10 0.44 70.04
Kabupaten Tulungagung 0.07 0.12 0.44 74.79
Kota Blitar 0.07 0.15 0.38 78.70
Kota Kediri 0.06 0.21 0.35 77.80
Kota Madiun 0.08 0.12 0.40 78.17
Kota Malang 0.07 0.08 0.39 78.78
Kota Mojokerto 0.06 0.18 0.28 78.66
Kota Pasuruan 0.09 0.14 0.30 74.75
Kota Probolinggo 0.08 0.14 0.32 75.94
Kota Surabaya 0.05 0.12 0.27 78.97
Kota Batu 0.08 0.04 0.27 76.09
Lampiran 7 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted R-Square (%) dan n pada kasus terapan dengan inisialisasi acak
k JKG JJKG Koefisien Regresi Adjusted
R-Square (%) n
β0 β1 β2 β3
1 504.42 504.42 86.63 -98.72 22.22 -25.30 27.63 38
2 24.01 92.10 76.40 118.14 5.35 -21.28 73.61 20
68.09 86.01 -95.21 -162.09 14.47 61.65 18
3 3.31 17.50 159.66 -460.39 -381.74 -43.28 98.47 11
12.75 67.14 128.79 35.64 -10.82 80.04 18
22
4 0.05 4.07 111.44 8.32 -160.86 -50.92 99.89 6
1.31 -2.93 -250.24 430.72 101.37 97.68 8
1.50 61.77 188.33 40.68 -8.80 97.11 14
1.21 119.92 -470.09 -115.09 -19.25 98.61 10
5 0.06 1.32 104.60 202.09 -19.80 -99.04 99.71 5
0.12 126.83 -478.83 -145.25 -24.68 99.87 9
0.18 62.94 -262.62 144.10 26.72 99.74 7
0.26 95.19 -205.87 -114.57 -6.67 98.87 6
0.70 49.68 233.04 81.79 0.23 92.21 11
Lampiran 8 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted R-Square dan n pada kasus terapan dengan inisialisasi LMS
k JKG JJKG Koefisien Regresi Adjusted
R-Square (%) n
β0 β1 β2 β3
2 83.58 128.81 73.96 150.16 34.74 -33.54 58.86 19
45.23 50.31 -105.13 -2.11 58.04 76.46 19
Lampiran 9 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi acak dengan 2 gerombol
Gerombol 1 Gerombol 2 Kabupaten Gresik Kabupaten Banyuwangi Kabupaten Jombang Kabupaten Bojonegoro Kabupaten Kediri Kabupaten Jember Kabupaten Magetan Kabupaten Madiun Kabupaten Mojokerto Kabupaten Pamekasan Kabupaten Nganjuk Kabupaten Pasuruan Kabupaten Pacitan Kabupaten Probolinggo Kabupaten Ponorogo Kabupaten Sumenep Kabupaten Sidoarjo Kabupaten Tuban Kabupaten Trenggalek Kabupaten Bangkalan Kabupaten Tulungagung Kabupaten Bondowoso Kabupaten Lamongan Kabupaten Lumajang
Kota Blitar Kabupaten Malang
Kota Kediri Kabupaten Situbondo Kota Madiun Kabupaten Blitar
Kota Malang Kabupaten Ngawi
Kota Mojokerto Kabupaten Sampang Kota Pasuruan Kota Batu
23 Lampiran 10 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada
inisialisasi acak dengan 3 gerombol
Gerombol 1 Gerombol 2 Gerombol 3
Kabupaten Blitar Kabupaten Gresik Kabupaten Banyuwangi Kabupaten Bondowoso Kabupaten Magetan Kabupaten Ngawi Kabupaten Lamongan Kabupaten Malang Kabupaten Kediri Kabupaten Pamekasan Kabupaten Jombang Kabupaten Pasuruan Kabupaten Jember Kabupaten Mojokerto Kabupaten Situbondo Kabupaten Lumajang Kabupaten Pacitan Kabupaten Sumenep Kabupaten Madiun Kabupaten Tulungagung Kabupaten Bangkalan Kabupaten Probolinggo Kabupaten Ponorogo Kabupaten Tuban Kabupaten Sampang Kabupaten Trenggalek Kabupaten Bojonegoro Kota Malang Kabupaten Nganjuk
Kota Surabaya Kabupaten Sidoarjo Kota Mojokerto Kota Probolinggo Kota Batu
Kota Pasuruan Kota Kediri Kota Madiun
Kota Blitar
Lampiran 11 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi LMS
Gerombol 1 Gerombol 2 Kabupaten Banyuwangi Kabupaten Bojonegoro Kabupaten Gresik Kabupaten Lamongan Kabupaten Jember Kabupaten Madiun Kabupaten Jombang Kabupaten Pasuruan Kabupaten Malang Kabupaten Probolinggo Kabupaten Pamekasan Kabupaten Sumenep Kabupaten Mojokerto Kabupaten Tuban Kabupaten Sidoarjo Kabupaten Bangkalan Kabupaten Trenggalek Kabupaten Bondowoso Kabupaten Tulungagung Kabupaten Lumajang
Kota Batu Kabupaten Situbondo
24
Kota Mojokerto Kabupaten Ponorogo Kota Pasuruan Kabupaten Magetan Kota Probolinggo Kabupaten Ngawi Kota Surabaya Kabupaten Sampang
Lampiran 12 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol
Jenjang Pendidikan Gerombol 1 Gerombol 2 Gerombol 3
Tidak Sekolah 0.37 0.23 0.33
Tidak Tamat SD 0.12 0.12 0.13
SD/sederajat 0.20 0.22 0.22
SLTP/sederajat 0.17 0.19 0.18
SLTA/sederajat 0.09 0.16 0.10
SM Kejuruan 0.03 0.04 0.03
Diploma 1/II 0.00 0.01 0.01
Diploma III 0.00 0.01 0.00
Strata 1 0.01 0.03 0.01
Strata 2 / Strata 3 0.00 0.00 0.00
Lampiran 13 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 2 gerombol
Jenjang Pendidikan Gerombol 1 Gerombol 2
Tidak Sekolah 0.20 0.33
Tidak Tamat SD 0.12 0.13
SD/sederajat 0.21 0.22
SLTP/sederajat 0.19 0.17
SLTA/sederajat 0.18 0.09
SM Kejuruan 0.04 0.03
Diploma 1/II 0.01 0.00
Diploma III 0.01 0.00
Strata 1 0.03 0.01
25 Lampiran 14 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol
Lapangan Usaha Gerombol 1 Gerombol 2 Gerombol 3
Pertanian 3,723,820.27 2,094,291.60 4,041,594.53
Pertambangan 189,741.04 237,701.08 1,561,700.27
Industri 5,972,248.61 6,251,414.85 1,878,680.62
Listrik 771,143.00 167,236.56 167,700.85
Konstruksi 1,640,364.65 258,270.22 354,644.89
Perdagangan 11,644,864.59 4,216,166.47 2,862,353.06
Komunikasi 2,272,691.00 823,891.38 464,043.08
Keuangan 1,747,030.29 623,411.23 535,826.97
Jasa 2,822,752.62 1,291,826.91 1,257,594.01
Lampiran 15 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 2 gerombol
Lapangan Usaha Gerombol 1 Gerombol 2
Pertanian 1,940,352.90 4,234,809.14
Pertambangan 198,974.93 913,420.82
Industri 8,276,267.71 1,644,609.64
Listrik 534,619.46 128,319.42
Konstruksi 979,910.23 349,248.59
Perdagangan 8,701,068.76 3,095,794.97
Komunikasi 1,772,609.72 475,213.29
Keuangan 1,271,089.17 546,633.04
26
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 4 Oktober 1989, sebagai anak pertama dari pasangan Suharsono dan Masroya Budi Sri Mulyati Nasution. Pendidikan sekolah menengah ditempuh di SMA Negeri 35 Jakarta Program IPA, lulus pada tahun 2006. Pada tahun yang sama penulis diterima di program studi Statistika Universitas Gadjah Mada, Yogyakarta dan menyelesaikannya pada tahun 2011.
Kesempatan untuk melanjutkan program master (S2) pada program studi Statistika, Sekolah Pascasarjana IPB, diperoleh pada tahun 2012. Pada tahun 2014 penulis pernah mempresentasikan hasil penelitian dengan makalah yang berjudul
“Clusterwise Linear Regression by Least Square Clustering Method” pada 13th
Islamic Countries Conference on Statistical Sciences (ICCS) di Bogor, Indonesia pada tanggal 18-21 Desember 2014 dan telah dipublikasikan pada Proceedings