PEREDUKSIAN PEUBAH PADA METODE TWO STEP CLUSTER
(Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat)
RANI KARLINA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
RINGKASAN
RANI KARLINA. Pereduksian Peubah Pada Metode Two Step Cluster (Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat). Dibimbing oleh UTAMI DYAH SYAFITRI dan AAM ALAMUDI.
Penggerombolan adalah proses mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan ukuran yang besar dan dapat digunakan untuk peubah kontinu dan kategorik karena fungsi jarak yang digunakan adalah jarak Log Likelihood atau Euclidian. Data yang digunakan dalam penelitian ini adalah data Podes Sensus Ekonomi tahun 2005 untuk wilayah Jawa Barat.
Hasil penggerombolan sebelum pereduksian peubah menghasilkan empat gerombol sedangkan untuk hasil penggerombolan setelah pereduksian peubah menghasilkan tiga gerombol. Dari hasil perbandingan penggerombolan tersebut, dapat ditunjukkan bahwa hasil penggerombolan sebelum dan sesudah pereduksian peubah memberikan hasil yang relatif sama karena tingginya persentase kekonsistenannya. Namun untuk hasil yang lebih baik disarankan untuk memperhatikan hubungan antar peubahnya sehingga diharapkan peubah yang digunakan dalam Two Step Cluster adalah peubah yang saling bebas.
PEREDUKSIAN PEUBAH PADA METODE TWO STEP CLUSTER
(Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat)
OLEH :
RANI KARLINA
G14103031
Skripsi
Sebagai Salah Satu Syarat untuk Memperoleh
Gelar Sarjana Sains
Pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul : Pereduksian Peubah Pada Metode Two Step Cluster (Studi Kasus
Penggerombolan Desa/Kelurahan di Jawa Barat)
Nama : Rani Karlina
NRP : G14103031
Menyetujui,
Pembimbing I
Pembimbing II
Utami Dyah Syafitri, M.Si
Ir. Aam Alamudi, M.Si
NIP 132311922
NIP 131950980
Mengetahui,
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Drh. Hasim, DEA
NIP 131578806
PRAKATA
Puji dan syukur penulis panjatkan kehadirat Allah SWT atas segala limpahan rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Shalawat serta salam semoga selalu tercurahkan kepada Rasulullah Muhammad SAW, kepada keluarganya, para sahabat serta umatnya hingga akhir zaman.
Banyak ilmu, pelajaran dan masukan yang bermanfaat dirasakan oleh penulis selama menyelesaikan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima kasih, kepada :
1. Ibu Utami Dyah Syafitri, M.Si dan Bapak Ir. Aam Alamudi, M.Si selaku pembimbing I dan pembimbing II yang telah meluangkan waktu dan memberikan arahan, saran serta masukan yang sangat bermanfaat bagi penulis.
2. Seluruh dosen Departemen Statistika IPB atas segala ilmu yang bermanfaat.
3. Karya ini kupersembahkan kepada kedua orang tuaku, Papahku tersayang dan Mamahku tercinta (terima kasih untuk doanya, kasih sayang dan motivasi), serta my luvly sister Alline (thanks buat semua kelakuannya).
4. Keluarga-keluargaku yang lain, yang ada di Jakarta dan di Bogor. Makasih buat doanya. 5. Sahabat-sahabatku tersayang, Adist, Rahayu, Meylinda, Yuni dan Vina. Thanks buat
semuanya, thanks for the great 4 years in Statistika. We will still be, friends forever. 6. Ahmad Rasyid Fadlilah Putera Ariyat. Thanks buat semua support, kesabaran dan
sayangnya. I don’t know I have to say what to you. Thanks for everything honey. LuvU.. ^_^
7. Aang (teman seperjuangan waktu PL), Edo (tempat curhat yang baik), Riko, Dwi, Bayu, Daus, Adit, Wondo, Ema (teman satu PS), Essi, Muti, dan semua teman seperjuangan di STK 40. I’m gonna miss you all.
8. Teman-teman main, Achie (my best friend), Yasmin, Tiwi, Pipit, Nyie, Juju dan Reni. 9. Ibu Dedeh, Bang Sudin, Ibu Sulis, Ibu Markonah, Pak Iyan, Mang Herman, Mang Dur,
Bu Aat. Thanks buat semua bantuannya, maaf kalo sering ngerepotin. 10. Adik-adik kelas 41, 42 dan 43 buat keceriannnya.
11. Ka Irfan, statistics tutor. Thanks y Ka..
12. Semua pihak yang tidak dapat disebutkan satu per satu yang telah membantu penulis dalam menyelesaikan karya ilmiah ini.
Bogor, November 2007
RIWAYAT HIDUP
Penulis dilahirkan di kota Bogor pada tanggal 6 Desember 1985 sebagai anak pertama dari dua bersaudara, anak pasangan Enan M. Adiwilaga dan Avyantini Soewarma.
Pada tahun 1997 penulis lulus dari SD Negeri Polisi 4 Bogor, dan melanjutkan ke sekolah menengah pertama di SLTP Negeri 4 Bogor dan lulus tahun 2000. Penulis menyelesaikan studi di SMU Negeri 2 Bogor pada tahun 2003 dan pada tahun yang sama penulis diterima di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI).
Selama mengikuti perkuliahan, penulis aktif dalam kegiatan Himpunan Profesi Gamma Sigma Beta (Himpro GSB) sebagai staf bagian Kewirausahaan pada tahun 2004/2005 dan ketua departemen bagian Kewirausahaan pada tahun 2005/2006. Penulis pernah menjadi surveyor Verifikasi dan Validasi Data Administrasi Kependudukan Departemen Dalam Negeri pada tahun 2006. Penulis mengikuti kegiatan praktik lapang di PT. Astra International Jakarta pada bulan Februari – April 2007.
DAFTAR ISI
Halaman
DAFTAR TABEL ... vii
DAFTAR GAMBAR ... vii
DAFTAR LAMPIRAN ... viii
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
TINJAUAN PUSTAKA Analisis Gerombol ... 1
Two Step Cluster ... 2
Pembentukan Gerombol Awal ... 2
Pembentukan Gerombol Optimal ... 3
Ukuran Jarak ... 4
BAHAN DAN METODE Bahan ... 5
Metode ... 5
HASIL DAN PEMBAHASAN Deskripsi Data ... 5
Penggerombolan Desa/Kelurahan Tanpa Pereduksian Peubah Menggunakan Two Step Cluster ... 5
Pereduksian Peubah ... 6
Penggerombolan Desa/Kelurahan dengan Pereduksian Peubah Menggunakan Two Step Cluster ... 7
Perbandingan Gerombol ... 7
SIMPULAN ... 8
DAFTAR PUSTAKA ... 8
DAFTAR TABEL
Halaman
Tabel 1. Perbandingan Metode Hirarki, Non Hirarki, dan Two Step Cluster ... 2
Tabel 2. Distribusi Hasil Penggerombolan Sebelum Pereduksian Peubah ... 6
Tabel 3. Distribusi Hasil Penggerombolan Setelah Pereduksian Peubah ... 7
Tabel 4. Tabulasi Silang Hasil Penggerombolan Sebelum dan Sesudah Pereduksian Peubah ... 7
DAFTAR GAMBAR
Halaman Gambar 1. CF Tree ... 2Gambar 2. Proses Pembelahan dari Satu Dahan Menjadi Dua Dahan ... 3
Gambar 3. Tahapan Penelitian yang Dilakukan ... 5
DAFTAR LAMPIRAN
Halaman 1. Peubah-peubah yang Digunakan dalam Analisis Gerombol ... 9 2. Tabel BIC (Schwarz’s Bayesian Criterion) Sebelum Mengalami Pereduksian
Peubah ... 10 3. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Sebelum
Mengalami Pereduksian Peubah ... 11 4. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol
Sebelum Mengalami Pereduksian Peubah ... 12 5. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol
Sebelum Mengalami Pereduksian Peubah ... 13 6. Karakteristik Masing-masing Gerombol Sebelum Mengalami Pereduksian
Peubah ... 14 7. Nilai Korelasi Peubah-peubah Kontinu ... 15 8. Hasil Uji Asosiasi Antar Peubah Kategorik ... 16 9. Tabel BIC (Schwarz’s Bayesian Criterion) Setelah Mengalami Pereduksian
Peubah ... 18 10. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Setelah
Mengalami Pereduksian Peubah ... 18 11. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol
Setelah Mengalami Pereduksian Peubah ... 19 12. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol
Setelah Mengalami Pereduksian Peubah ... 20 13. Karakteristik Masing-masing Gerombol Setelah Mengalami Pereduksian
1
PENDAHULUAN
Latar BelakangP e n g g e r o m b o l a n a d a l a h p r o s e s mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Hasil dari penggerombolan akan menunjukkan bahwa objek-objek yang berada dalam satu gerombol akan lebih homogen dibandingkan antar gerombol. Metode penggerombolan yang sering digunakan adalah metode penggerombolan berhirarki dan metode penggerombolan non hirarki. Peubah yang dapat digerombolkan oleh kedua metode tersebut berupa peubah kontinu.
Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Untuk mengatasi kedua permasalahan tersebut, Chiu et al (2001) telah mengembangkan algoritma Two Step Cluster dengan menggunakan software SPSS yang memungkinkan untuk mengolah data yang memiliki tipe peubah yang berbeda, yaitu kontinu dan kategorik.
Two Step Cluster merupakan analisis
penggerombolan yang dirancang untuk menangani data dengan ukuran yang sangat besar. Fungsi jarak yang digunakan adalah jarak Euclidian atau jarak Log Likelihood. Karena menggunakan ukuran jarak tersebut, maka dimungkinkan digunakan berbagai tipe data baik kontinu maupun kategorik. Hasil akhir dari metode ini adalah pembentukan gerombol optimal berdasarkan kriteria tertentu.
Windy (2005) telah melakukan penggerombolan desa/kelurahan di Jawa Barat menggunakan metode Two Step Cluster dengan data Podes 2003, tetapi tidak memperhatikan hubungan antar peubahnya. Dalam penelitian ini akan dilakukan penggerombolan desa/kelurahan di Jawa Barat berdasarkan karakteristik yang terdapat dalam Podes 2005 dengan memperhatikan hubungan antar peubahnya.
Tujuan Tujuan penelitian ini adalah :
1. Menggerombolkan desa/kelurahan di wilayah Jawa Barat menggunakan metode
Two Step Cluster dan menjelaskan
karakteristik masing-masing gerombol (sebelum dan sesudah pereduksian peubah).
2. Membandingkan hasil penggerombolan antara sebelum dan sesudah pereduksian peubah.
TINJAUAN PUSTAKA
Analisis GerombolAnalisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan karakteristik-karakteristiknya. Analisis gerombol mengklasifikasikan objek sehingga setiap objek yang terdapat di dalam satu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan. Hasil dari pengelompokkan harus memperlihatkan keragaman yang kecil di dalam satu gerombol dan keragaman yang besar antar gerombol (Hair et al, 1998). Ada dua metode yang sudah umum dilakukan dalam analisis gerombol, yaitu metode hirarki dan metode non hirarki.
Metode Hirarki
Metode penggerombolan berhirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini ditujukan untuk ukuran data yang kecil (n < 500). Metode penggerombolan berhirarki ini dibedakan menjadi dua yaitu metode penggabungan (agglomerative) dan metode pemisahan (divisive) (Hair et al, 1998).
Metode agglomerative dimulai dengan n buah gerombol yang masing-masing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat digabung dan ditentukan kembali kedekatan antar gerombol yang baru. Proses ini berlanjut sampai didapatkan satu gerombol yang anggotanya adalah seluruh objek.
Metode divisive dimulai dengan satu gerombol yang anggotanya adalah seluruh objek, kemudian objek-objek yang paling jauh dipisah dan membentuk gerombol lain. Proses ini berlanjut sampai semua objek masing-masing membentuk satu gerombol.
Dalam metode berhirarki terdapat beberapa ukuran jarak antar gerombol, antara lain jarak minimum atau pautan tunggal (single linkage), jarak maksimum atau pautan lengkap (complete linkage), jarak antar centroid atau pautan centroid (centroid
linkage), median antara gerombol atau pautan
median (median linkage), rata-rata dari semua jarak atau pautan rataan (average linkage), serta metode Ward. Jenis peubah yang dapat
2
digerombolkan dengan metode ini adalahpeubah kontinu (rasio dan interval) dan fungsi jarak yang sering digunakan dalam metode berhirarki ini adalah jarak Euclidian atau jarak Mahalanobis.
Metode Non Hirarki
Metode penggerombolan non hirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Metode ini cocok digunakan pada data yang berukuran besar (2000). Contoh dari metode non hirarki adalah K-means. Langkah pertama dalam metode k-means yaitu menentukan besarnya k, yaitu banyaknya gerombol. Pemilihan k dapat ditentukan secara subyektif berdasarkan latar belakang bidang masing-masing. Fungsi jarak yang sering digunakan adalah jarak Euclidian. Jenis peubah yang dapat digerombolkan dengan metode ini adalah peubah kontinu (Hair et al, 1998).
Two Step Cluster
Two Step Cluster adalah analisis
penggerombolan yang dirancang untuk menangani data dengan ukuran yang sangat besar. Analisis ini juga dapat mengatasi masalah pengukuran dengan tipe data yang berbeda yaitu kontinu dan kategorik. Fungsi jarak yang digunakan dalam Two Step Cluster adalah jarak Euclidian atau jarak Log Likelihood (Bacher et al, 2004).
Prosedur penggerombolan objek dalam
Two Step Cluster ini dilakukan melalui dua
tahapan yaitu tahap pembentukan gerombol awal dan tahap pembentukan gerombol optimal (Chiu et al, 2001). Perbandingan antara metode hirarki, non hirarki dan Two
Step Cluster selengkapnya dapat dilihat pada
Tabel 1.
Pembentukan Gerombol Awal Pada tahapan ini dilakukan pembentukan
Cluster Features (CF) Tree. CF Tree terdiri
dari tingkatan cabang (depth) dan masing-masing cabang berisikan angka yang dimasukkan. Jika dimisalkan sebuah pohon, maka cabang tersebut terdiri dari batang, dahan, dan daun. Tingkatan daun atau daun entri merepresentasikan hasil akhir anak gerombol. Maksimum depth dan maksimum
node yang digunakan mengikuti default dari
SPSS yaitu sebanyak 3 dan 8. Sehingga maksimum daun entri (anak gerombol) yang terbentuk adalah 512 anak gerombol.
Tabel 1. Perbandingan Metode Hirarki, Non Hirarki, dan Two Step Cluster
Aspek yang diban-dingkan
Metode
Hirarki Non Hirarki Metode Two Step Cluster
Ukuran
data Untuk data kecil Untuk data besar sangat besar Untuk data Jenis
peubah Kontinu Kontinu Kontinu dan kategorik
Banyak
gerombol diketahui Belum diketahui Sudah Belum diketahui
Ukuran jarak Euclidian atau Mahala-nobis
Euclidian Log Likelihood Euclidian atau
Asumsi
sebaran Tidak ada asumsi Tidak ada asumsi
• Peubah kontinu menyebar normal • Peubah kategorik menyebar multinomial • Antar peubahnya saling bebas Metode Pengga-bungan (agglome-rative) dan pemisahan (divisive) K-means • Pemben-tukan CF Tree • Agglome-rative • Menentu-kan gerombol optimal
Prosedur CF Tree diawali dengan memilih satu amatan secara acak sebagai amatan awal yang akan diukur jaraknya satu persatu terhadap amatan lainnya dengan menggunakan ukuran jarak yang telah ditentukan. Jika besarnya jarak tersebut lebih kecil dari batas penerimaan (treshold
distance), maka amatan akan masuk dalam
daun entri yang sama dengan yang awal. Sebaliknya, jika jarak tersebut lebih besar dari batas penerimaan, maka amatan akan masuk dalam daun entri yang baru. Batas penerimaan (treshold distance) merupakan suatu nilai yang dimulai dari nol dan akan berubah mengikuti ukuran jarak terkecil di antara anak gerombol yang terbentuk.
Gambar 1. CF Tree
daun dahan batang
3
Jika tidak ada lagi tempat dalam cabangdaun untuk menciptakan daun entri baru (node telah melewati batas maksimum), maka cabang daun akan terbagi menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan membelah menjadi dua dahan. Entrian pada cabang daun yang asli akan dibagi ke dalam dua grup (dahan) dengan menggunakan pasangan daun terjauh sebagai penempatan dan membagi-bagikan sisa entrian berdasarkan kriteria kedekatan.
Gambar 2. Proses Pembelahan dari Satu Dahan Menjadi Dua Dahan Begitu juga pada cabang dahan, apabila tidak tersedia tempat untuk menciptakan daun entri baru, maka batang akan terbagi dua dengan menggunakan pasangan dahan terjauh sebagai penempatan dan membagi-bagikan sisa entrian berdasarkan kriteria kedekatan.
Proses ini akan berlanjut sampai semua amatan selesai dimasukkan. Jika CF Tree berkembang melebihi batas ukuran maksimum, maka CF Tree akan dibangun ulang dengan meningkatkan kriteria batas penerimaan.
Pembentukan Gerombol Optimal Pada tahapan ini, hasil dari tahap pertama yaitu CF Tree digerombolkan menggunakan analisis gerombol hirarki dengan metode
agglomerative. Suatu gerombol dikatakan
optimal apabila memiliki jarak antar gerombol paling jauh dan jarak antar objek dalam gerombol tersebut paling dekat.
Langkah pertama yang dilakukan dalam menentukan gerombol optimal adalah menghitung BIC (Schwarz’s Bayesian
Criterion) atau AIC (Akaike’s Information Criterion) untuk tiap gerombol. Hasil
perhitungan tersebut digunakan untuk menduga jumlah gerombol. Langkah kedua adalah mencari peningkatan jarak terbesar antara dua gerombol terdekat pada masing-masing tahapan penggerombolan.
Rumus BIC dan AIC untuk gerombol J adalah sebagai berikut :
BIC (J) = -2
∑
= + ξ J 1 j j j m log(N) (1) AIC (J) = -2∑
= + ξ J 1 j j j 2m (2) dengan:(
)
⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k jk jk k j N E 1 1 2 2 ˆ ˆ ˆ log 2 1 σ σ ξ ∑ = − = Lk l j jkl j jkl jk N N N N E 1 log ˆ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ + − = ∑ = B K k K A j J K L m 1 ) 1 ( 2N = jumlah total observasi
Nj = jumlah observasi di dalam gerombol j Njkl = jumlah data di gerombol j untuk
peubah kategorik ke-k dengan kategori ke-l
2
ˆk
σ = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi 2
ˆjk
σ = ragam dugaan untuk peubah kontinu ke-k dalam gerombol j
KA = jumlah total peubah kontinu KB = jumlah total peubah kategorik
LK = jumlah kategori untuk peubah kategorik ke-k
Solusi gerombol yang terbaik memiliki BIC terkecil, tetapi ada beberapa kasus dalam penggerombolan dimana BIC akan terus menurun nilainya bila jumlah gerombol semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes (rasio perubahan BIC) dan ratio of Distance Measure Changes (rasio perubahan jarak) mengidentifikasi solusi gerombol terbaik.
Menurut Chiu et al (2001) BICk atau AICk menghasilkan penduga awal yang baik bagi jumlah gerombol maksimum. Jumlah gerombol maksimum adalah banyaknya gerombol yang memiliki rasio BICk/BICl yang pertama kali lebih kecil dari c1. Nilai c1 =0.04, berdasarkan studi simulasi (Bacher et al, 2004).
Jumlah gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut :
R(k) = dk-1 / dk (3) dk = lk-1 - lk (4) dimana:
R(k) = rasio perubahan jarak lv = (mvlog n - BICv)/2 atau lv = (2mv - AICv)/2
v = k, k-1
dk-1 = jarak jika k gerombol digabungkan dengan k-1 gerombol
4
Jumlah gerombol optimal diperolehberdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikut:
R(k1)/R(k2) (5) dimana :
R(k1) = rasio perubahan jarak terbesar pertama
R(k2) = rasio perubahan jarak terbesar kedua
Jika rasio perubahan lebih besar dari nilai batas c2, jumlah gerombol optimal ditetapkan sama dengan k1, selainnya jumlah gerombol optimal sama dengan maksimum {k1,k2}. Nilai
c2 = 1.15, berdasarkan studi simulasi (Bacher
et al, 2004).
Ukuran Jarak
Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah jarak antar objek dan jarak antar gerombol. Fungsi jarak yang sering digunakan antara lain adalah :
Jarak Euclidian
Jarak Euclidian adalah jarak yang paling umum dan paling sering digunakan dalam analisis gerombol. Jarak Euclidian antara dua titik dapat terdefinisikan dengan jelas. Jarak ini digunakan apabila semua peubah yang digunakan adalah peubah kontinu (Johnson & Wichern, 2002).
Jarak Euclidian antara gerombol ke-i dan ke-j dari p peubah didefinisikan :
(
)
2 1 1 2 ) , ( =⎢⎣⎡∑
− ⎥⎦⎤ = p i i j X X j i d (6) dengan : ) , ( jid = jarak antara objek i ke objek j i
X = nilai tengah pada gerombol ke-i j
X = nilai tengah pada gerombol ke-j p = banyaknya peubah yang diamati
Jarak Manhattan
Ukuran ini merupakan bentuk umum dari jarak Euclidian (Johnson & Wichern, 2002). Fungsi jaraknya didefinisikan :
(
)
k p i k i j X X j i d 1 1 ) , ( =⎢⎣⎡∑
− ⎥⎦⎤ =(7) dengan : ) , ( ji
d = jarak antara objek i ke objek j i
X = nilai tengah pada gerombol ke-i
j
X = nilai tengah pada gerombol ke-j
p = banyaknya peubah yang diamati Jarak Mahalanobis
Jarak Mahalanobis sangat berguna dalam menghilangkan atau mengurangi perbedaan skala pada masing-masing komponen. Pada permasalahan tertentu, pada saat menentukan jarak, perlu juga dipertimbangkan ragam dan peragam (Johnson & Wichern, 2002). Jarak Mahalanobis didefinisikan :
(
) (
)
2 1 1 ' ) , ( =⎢⎣⎡ − − − ⎥⎦⎤ j i j i X S X X X j i d (8) dengan : ) , ( jid = jarak antara objek i ke objek j
i
X = nilai tengah pada gerombol ke-i
j
X = nilai tengah pada gerombol ke-j
1 −
S = matriks ragam peragam gabungan
antara Xi dan Xj
Jarak Log Likelihood
Jarak Log Likelihood dapat diterapkan untuk peubah kontinu maupun kategorik. Asumsi yang ada pada jarak ini adalah peubah kontinu menyebar normal, peubah kategorik menyebar multinomial dan antar peubahnya saling bebas. Metode Two Step Cluster cukup tegar terhadap pelanggaran asumsi tersebut sehingga metode ini masih dapat digunakan ketika terjadi pelanggaran asumsi.
Jarak antara gerombol j dan s didefinisikan: s j s j s j d( , )=ξ +ξ −ξ , (9) dengan :
(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k jk jk k j N E 1 1 2 2 ˆ ˆ ˆ log 2 1 σ σ ξ(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k sk sk k s N E 1 1 2 2 ˆ ˆ ˆ log 2 1 σ σ ξ(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k jsk jsk k s j N E 1 1 2 2 , 2logˆ ˆ ˆ 1 σ σ ξ∑
= − = Lk l j jkl j jkl jk N N N N E 1 log ˆN = jumlah total observasi
Nj = jumlah observasi di dalam gerombol j Njkl = jumlah data di gerombol j untuk
peubah kategorik ke-k dengan kategori ke-l
2
ˆk
σ = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi
2 ˆjk
σ = ragam dugaan untuk peubah kontinu ke-k dalam gerombol j
5
KB = jumlah total peubah kategorikLK = jumlah kategori untuk peubah kategorik ke-k
d(j,s) = jarak antara gerombol j dan s <j,s> = indeks kombinasi gerombol j dan s
BAHAN DAN METODE
BahanBahan yang digunakan dalam penelitian ini adalah data Podes Sensus Ekonomi tahun 2005 untuk wilayah Jawa Barat. Data populasi tersebut digunakan karena dianggap jumlah amatannya cukup besar dan terdiri dari peubah-peubah yang bertipe kontinu dan kategorik. Kategori peubah yang akan digunakan yaitu:
1. Keterangan umum desa/kelurahan 2. Kependudukan dan ketenagakerjaan 3. Perumahan dan lingkungan hidup 4. Sosial budaya
5. Rekreasi, hiburan dan olahraga 6. Angkutan, komunikasi dan informasi 7. Penggunaan lahan
8. Ekonomi
Masing-masing kategori peubah dijabarkan ke dalam peubah-peubah yang lebih terperinci (Lampiran 1).
Metode
Secara garis besar, tahapan penelitian yang dilakukan dapat dijelaskan dengan Gambar 3.
Gambar 3. Tahapan Penelitian yang Dilakukan
Yang pertama kali dilakukan yaitu melakukan penggerombolan dengan memasukkan semua peubah kemudian menjelaskan masing-masing karakteristik gerombolnya. Selanjutnya dilakukan pemeriksaan asumsi korelasi dan memilih peubah-peubah mana saja yang saling bebas untuk kemudian dilakukan penggerombolan dengan peubah yang sudah direduksi. Kemudian dijelaskan masing-masing karakteristik gerombolnya. Langkah terakhir yaitu membandingkan hasil penggerombolan antara sebelum dan sesudah pereduksian peubah. Perangkat lunak yang digunakan adalah adalah SPSS 13 for Windows dan
Microsoft Excel.
HASIL DAN PEMBAHASAN
Deskripsi DataDesa/kelurahan yang berada di Jawa Barat secara keseluruhan terdiri dari 5808 desa. Pada Gambar 4 terlihat bahwa jumlah desa yang berstatus perkotaan sebanyak 1834 atau 32% sedangkan desa/kelurahan yang berstatus pedesaan sebanyak 3974 atau 68% dari keseluruhan. Status Desa Perkotaan 32% Pedesaan 68%
Gambar 4. Persentase Status Desa/Kelurahan Penggerombolan Desa/Kelurahan
Tanpa Pereduksian Peubah Menggunakan Two Step Cluster Dalam penentuan jumlah gerombol, digunakan nilai BIC yang ditentukan secara subjektif karena perhitungan AIC maupun BIC memberikan hasil yang relatif sama. Gerombol yang dihasilkan pada tahap pertama sebanyak 10 gerombol. Hal ini terlihat dari rasio BICk/BICl yang pertama kali lebih kecil dari nilai 0.04. Pada gerombol 10, nilai dari rasio tersebut sebesar 0.036. Sedangkan untuk penentuan jumlah gerombol optimal didasarkan pada rasio perubahan gerombol. Pada Lampiran 2, dua nilai R(k) terbesar
Pemeriksaan asumsi korelasi
Pemilihan peubah yang saling bebas
Two step cluster
dengan peubah yang sudah
direduksi
Karakteristik gerombol
Two step cluster
dengan semua peubah Karakteristik gerombol Perbandingan gerombol
6
terdapat pada solusi dua gerombol (R(k) =2.375) dan solusi empat gerombol (R(k) = 2.320). Rasio antara kedua nilai tersebut adalah 1.023 dan lebih kecil dari batas nilai konstanta c2 = 1.15. Oleh karena itu, dalam kasus ini empat gerombol merupakan solusi optimal.
Seluruh anggota populasi amatan terdistribusi ke dalam empat gerombol yang terbentuk sehingga dapat dikatakan tidak ada pencilan pada data ini. Distribusi anggota dari masing-masing gerombol yang terbentuk dapat dilihat pada Tabel 2.
Tabel 2. Distribusi Hasil Penggerombolan Sebelum Pereduksian Peubah
Gerombol N Total (%) 1 2 3 4 1692 283 670 3163 29.1 4.9 11.5 54.5 Total 5808 100
Karakteristik masing-masing gerombol dapat dijelaskan melalui Lampiran 3, 4 dan 5. Lampiran 3 menampilkan rataan dan simpangan baku dari masing-masing peubah untuk masing-masing gerombol. Sedangkan Lampiran 4 dan 5 menampilkan selang kepentingan dari peubah-peubah untuk masing-masing gerombol. Lampiran 4 menampilkan uji chi-square untuk peubah yang bertipe kategorik dan Lampiran 5 adalah uji t-students untuk peubah yang bertipe kontinu. Karakteristik masing-masing gerombol dapat dijelaskan sebagai berikut : 1. Gerombol satu dapat dikategorikan ke
dalam gerombol pedesaan. Hal ini terlihat dari tingginya persentase keluarga pertanian yang ada. Hal ini diperkuat juga dengan cukup tingginya jumlah lahan pertanian yang ada. Begitu juga dengan fasilitas-fasilitas yang ada dilihat dari segi angkutan, komunikasi, dan informasi seperti jumlah keluarga yang berlangganan telepon kabel, jumlah wartel/warpostel dan jumlah warnet yang memiliki nilai kecil.
2. Gerombol dua dapat dikategorikan ke dalam gerombol daerah industri. Walaupun pada gerombol ini memiliki jumlah lahan pertanian yang paling tinggi, tapi diimbangi juga dengan jumlah industri yang ada.
3. Gerombol tiga dapat dikategorikan ke dalam gerombol perkotaan. Hal ini terlihat dari jumlah lahan yang ada dimana memiliki nilai yang terkecil.
Kebalikan dari lahan-lahan yang ada, jumlah fasilitas-fasilitas seperti wartel/warpostel, warnet dan supermarket memiliki nilai yang terbesar pada gerombol ini. Sumber penghasilan utama dari gerombol ini pun berasal dari perdagangan besar/eceran dan jasa. 4. Gerombol empat memiliki karakteristik
yang hampir sama dengan gerombol satu. Sumber penghasilan utamanya berasal dari pertanian. Untuk fasilitas-fasilitas yang ada tidak berbeda terlalu jauh dengan gerombol satu.
Masing-masing karakteristik dari masing-masing gerombol dapat dilihat lebih jelas pada Lampiran 6.
Pereduksian Peubah
Pemeriksaan hubungan atau asosiasi antar peubah digunakan untuk melihat peubah-peubah mana saja yang akan direduksi. Untuk peubah-peubah yang bertipe kontinu, digunakan nilai korelasi untuk menentukan hubungan antar peubahnya sedangkan untuk peubah-peubah yang bertipe kategorik digunakan uji asosiasi.
Untuk memilih peubah-peubah mana saja yang harus direduksi, dilakukan korelasi antar peubah kontinu. Setelah didapatkan hasil korelasi dari masing-masing peubahnya, dilihat peubah-peubah mana saja yang memiliki nilai korelasi yang tinggi dengan peubah lainnya kemudian dipilih salah satu dari dua peubah yang saling berkorelasi tersebut untuk direduksi. Dari 24 peubah kontinu, setelah diperiksa terdapat 13 pasang peubah yang memiliki nilai korelasi yang tinggi dengan peubah-peubah lainnya sehingga peubah-peubah tersebut direduksi.
Begitu pula dengan peubah yang bertipe kategorik, dilakukan uji asosiasi antar peubahnya. Dari 16 peubah yang ada, setelah dilakukan uji asosiasi, terdapat 11 pasang peubah yang berasosiasi sehingga peubah-peubah tersebut perlu direduksi. Oleh karena itu, pada penggerombolan desa/kelurahan dengan pereduksian peubah, hanya digunakan 16 peubah yang terdiri dari 11 peubah kontinu dan 5 peubah kategorik dari 40 peubah total. Hasil selengkapnya dapat dilihat pada Lampiran 7 dan Lampiran 8.
7
Penggerombolan Desa/Kelurahan dengan Pereduksian Peubah Menggunakan Two Step Cluster Dalam penentuan jumlah gerombol, digunakan nilai BIC yang ditentukan secara subjektif karena perhitungan AIC maupun BIC memberikan hasil yang relatif sama. Berbeda dengan hasil penggerombolan tanpa pereduksian peubah, gerombol yang dihasilkan pada tahap pertama ini sebanyak 12 gerombol. Hal ini terlihat dari rasio BICk/BICl yang pertama kali lebih kecil dari nilai 0.04. Pada gerombol 12, nilai dari rasio tersebut sebesar 0.038. Sedangkan untuk penentuan jumlah gerombol optimal didasarkan pada rasio perubahan gerombol. Pada Lampiran 9, dua nilai R(k) terbesar terdapat pada solusi tiga gerombol (R(k) = 2.528) dan solusi tujuh gerombol (R(k) = 1.659). Rasio antara kedua nilai tersebut adalah 1.523 dan lebih besar dari batas nilai konstanta c2 = 1.15. Oleh karena itu, dalam kasus ini tiga gerombol merupakan solusi optimal. Distribusi anggota dari masing-masing gerombol yang terbentuk dapat dilihat pada Tabel 3.
Tabel 3. Distribusi Hasil Penggerombolan Setelah Pereduksian Peubah
Gerombol N Total (%) 1 2 3 4007 319 1482 69 5.5 25.5 Total 5808 100
Karakteristik masing-masing gerombol dapat dijelaskan melalui Lampiran 10, 11 dan 12. Lampiran 10 menampilkan rataan dan simpangan baku dari masing-masing peubah untuk masing-masing gerombol. Sedangkan Lampiran 11 dan 12 menampilkan selang kepentingan dari peubah-peubah untuk masing-masing gerombol. Lampiran 11 menampilkan uji chi-square untuk peubah yang bertipe kategorik dan Lampiran 12 adalah uji t-students untuk peubah yang bertipe kontinu.
Hasil penggerombolan setelah adanya pereduksian peubah ini bukan hasil mentah dari output mentah yang ada, tetapi telah disesuaikan dengan karakteristik hasil penggerombolan sebelum adanya pereduksian peubah. Karakteristik masing-masing gerombol dapat dijelaskan sebagai berikut : 1. Gerombol satu dapat dikategorikan ke
dalam gerombol pedesaan. Hal ini terlihat dari cukup tingginya jumlah lahan pertanian yang ada dan diperkuat juga
oleh sumber penghasilan utama dari gerombol ini yang berasal dari pertanian. Kebalikan dari jumlah lahan yang ada, untuk jumlah terminal dan jumlah industri memiliki nilai yang terkecil diantara gerombol lainnya.
2. Gerombol dua dapat dikategorikan ke dalam gerombol daerah industri. Walaupun jumlah lahan pertanian yang ada memiliki nilai yang paling tinggi dan sebagian besar penghasilan utamanya berasal dari pertanian, hal ini diimbangi juga dengan jumlah industri yang ada. 3. Gerombol tiga dikategorikan ke dalam
gerombol perkotaan. Hal ini terlihat dari sedikitnya jumlah lahan pertanian yang ada. Tetapi kebalikannya, untuk fasilitas-fasilitas dan industri, gerombol ini memiliki jumlah yang paling besar jika dibandingkan dengan gerombol lainnya. Sumber penghasilan utama dari gerombol ini pun berasal dari perdagangan besar/eceran dan jasa.
Masing-masing karakteristik dari masing-masing gerombol dapat dilihat lebih jelas pada Lampiran 13.
Perbandingan Gerombol
Berdasarkan hasil penggerombolan sebelum dan setelah pereduksian peubah, dilakukan tabulasi silang untuk melihat seberapa konsisten anggota dari hasil penggorombolan sebelum pereduksian dengan setelah dilakukan pereduksian dan distribusi penyebaran gerombol keempat pada hasil penggerombolan sebelum pereduksian peubah.
T a b e l 4 . T a b u l a s i S i l a n g H a s i l Penggerombolan Sebelum dan Sesudah Pereduksian Peubah
Sebelum 1 2 3 4 Total 1 N % kolom 93.5% 1582 4.6% 13 3.3% 22 75.6% 2390 69.0% 4007 2 N % kolom 45 2.7% 244 86.2% 2 0.3% 28 0.9% 319 5.5% Sesudah 3 N % kolom 3.8% 65 9.2% 26 96.4% 646 23.6% 745 25.5% 1482 Total N % kolom 100% 1692 100% 283 100% 670 100% 3163 100% 5808
Sebanyak 93.5% tetap berada pada gerombol satu, sebanyak 86.2% tetap berada pada gerombol dua, dan sebanyak 96.4% tetap berada pada gerombol tiga. Dilihat dari hasil tabulasi silang, ada beberapa desa yang berpindah ke gerombol lainnya. Dari hasil matriks 3x3, terlihat bahwa ada underestimate sebanyak 37 (1.39%) desa/kelurahan dan
8
overestimate sebanyak 136 (5.14%)
desa/kelurahan.
Pendistribusian anggota gerombol empat hasil penggerombolan dengan semua peubah, terlihat bahwa sebagian besar (75.6%) terdistribusi ke dalam anggota gerombol satu. Hal ini dibuktikan dengan miripnya karakteristik pada gerombol empat dengan gerombol satu. Sedangkan sebanyak 0.9% terdistribusi ke dalam gerombol dua dan sebanyak 23.6% terdistribusi ke dalam gerombol tiga.
Hasil ini menunjukkan bahwa hasil penggerombolan sebelum dan sesudah pereduksian peubah memberikan hasil yang relatif sama karena tingginya persentase kekonsistenannya. Sehingga untuk efisiensi disarankan untuk menggunakan hasil penggerombolan sesudah pereduksian peubah.
SIMPULAN
Berdasarkan hasil penggerombolan dengan metode Two Step Cluster sebelum pereduksian peubah, didapatkan gerombol optimal sebanyak empat gerombol. Sedangkan dari hasil penggerombolan sesudah pereduksian peubah, didapatkan gerombol optimal sebanyak tiga gerombol. Karakteristik gerombol satu sampai dengan tiga baik untuk hasil penggerombolan sebelum dan sesudah pereduksian peubah memiliki karakteristik yang sama. Gerombol satu merupakan gerombol yang dapat dikategorikan ke dalam gerombol pedesaan, gerombol kedua dikategorikan ke dalam daerah industri, gerombol ketiga dikategorikan ke dalam gerombol perkotaan, dan gerombol keempat pada hasil penggerombolan sebelum pereduksian memiliki karakteristik yang mirip dengan gerombol satu. Dilihat dari kedua hasil tersebut, dapat ditunjukkan bahwa pemeriksaan hubungan atau asosiasi antar peubah perlu diperhatikan agar dihasilkan gerombol yang lebih baik.
DAFTAR PUSTAKA
Bacher J, Wenzig K, Vogler M. 2004. SPSSTwo Step Cluster – A First Evaluation.
http://www.statisticalinnovations.com/pro ducts/Two Step.pdf. [4 Juni 2007]. Chiu T, Fang D, Chen J, Wang Y, and Jeris C.
(2001). A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment. Proceedings
of the 7th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining 2001.
Hair JFJr, Anderson RE, Tatham RL, Black WC. 1998. Multivariate Data Analysis. Ed ke-5. New Jersey : Prentice Hall.
Johnson RA and Wichern DW. 2002. Applied
Multivariate Statistical Analysis. Ed ke-5.
9
L A M P I R A N
10
Lampiran 1. Peubah-peubah yang Digunakan dalam Analisis GerombolKategori Peubah Peubah Keterangan (satuan) Tipe Peubah
Keterangan Umum
Desa/Kelurahan X1 Letak geografis desa/kelurahan Kategorik
X2 Jumlah penduduk laki-laki (orang) Kontinu
X3 Jumlah penduduk perempuan (orang) Kontinu
X4 Jumlah keluarga (keluarga) Kontinu
X5 Persentase keluarga pertanian (persen) Kontinu Kependudukan dan
Ketenagakerjaan
X6 Sumber penghasilan utama Kategorik
X7 Keluarga yang menggunakan listrik Kategorik
X8 Penerangan jalan utama desa/kelurahan Kategorik Perumahan dan
Lingkungan Hidup
X9 Bahan bakar yang digunakan Kategorik
Sosial Budaya X10 Desa/kelurahan dihuni oleh lebih dari 1 suku etnis Kategorik
X11 Tempat hiburan alam bahari Kategorik
X12 Tempat hiburan alam non bahari Kategorik
X13 Tempat hiburan budaya Kategorik
Rekreasi, Hiburan, dan Olahraga
X14 Gedung bioskop Kategorik
X15 Jenis permukaan jalan yang terluas Kategorik
X16 Jumlah terminal (unit) Kontinu
X17 Jumlah keluarga yang berlangganan telepon kabel (keluarga) Kontinu
X18 Jumlah wartel/warpostel (unit) Kontinu
X19 Jumlah warnet (unit) Kontinu
X20 Kantor pos Kategorik
Angkutan, Komunikasi, dan
Informasi
X21 Sinyal telepon genggam Kategorik
X22 Luas desa/kelurahan (km2) Kontinu
X23 Luas lahan sawah (km2) Kontinu
X24 Luas lahan sawah berpengairan yang diusahakan (km2) Kontinu X25 Luas lahan sawah tidak berpengairan yang diusahakan (km2) Kontinu X26 Luas lahan sementara tidak diusahakan (km2) Kontinu
X27 Luas lahan bukan sawah (km2) Kontinu
X28 Luas lahan pertanian (km2) Kontinu
X29 Luas ladang yang diusahakan (km2) Kontinu
X30 Luas ladang yang tidak diusahakan (km2) Kontinu Penggunaan Lahan
X31 Luas lahan untuk non pertanian (km2) Kontinu
X32 Kawasan industri Kategorik
X33 Sentra industri Kategorik
X34 Lingkungan/perkampungan industri kecil Kategorik
X35 Jumlah industri besar (unit) Kontinu
X36 Jumlah industri sedang (unit) Kontinu
X37 Jumlah supermarket (unit) Kontinu
X38 Jumlah bank umum (unit) Kontinu
Ekonomi
X39 Jumlah biro/agen perjalanan (unit) Kontinu
11
Lampiran 2. Tabel BIC (Schwarz’s Bayesian Criterion) Sebelum Mengalami Pereduksian PeubahNumber of Clusters
Schwarz's Bayesian
Criterion (BIC) BIC Change
Ratio of BIC Changes Ratio of Distance Measures 1 160214.399 2 124624.116 -35590.283 1.000 2.375 3 110008.390 -14615.726 .411 1.547 4 100789.925 -9218.466 .259 2.320 5 97180.680 -3609.244 .101 1.245 6 94408.837 -2771.844 .078 1.091 7 91921.289 -2487.548 .070 1.268 8 90094.960 -1826.329 .051 1.063 9 88415.819 -1679.141 .047 1.209 10 87137.618 -1278.201 .036 1.060 11 85967.679 -1169.938 .033 1.214 12 85117.467 -850.212 .024 1.045 13 84331.245 -786.222 .022 1.160 14 83741.963 -589.282 .017 1.096 15 83260.117 -481.846 .014 1.050
12
Lampiran 3. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol SebelumMengalami Pereduksian Peubah
Gerombol
Peubah* Statistik 1 2 3 4 Overall
X2 rataan simp.baku 2065.50 901.949 3017.06 1351.31 8063.40 5630.16 2874.45 1397.31 3244.32 2863.93 X3 rataan simp.baku 2046.90 863.19 2975.55 1377.07 8071.43 5861.68 2827.18 1350.90 3212.07 2909.40 X4 rataan simp.baku 1152.73 485.99 1667.60 768.96 3922.85 2626.64 1506.17 701.42 1689.86 1355.73 X5 rataan simp.baku 14.983 74.03 69.38 20.07 11.54 18.37 56.55 23.66 57.08 27.55 X16 rataan simp.baku 0.02 0.14 0.25 0.57 0.22 0.43 0.05 0.22 0.07 0.27 X17 rataan simp.baku 10.27 31.65 47.14 194.59 1471.19 1751.48 99.69 210.12 229.29 763.07 X18 rataan simp.baku 1.17 1.87 2.40 4.04 14.30 11.40 3.14 3.44 3.82 6.19 X19 rataan simp.baku 0.01 0.12 0.07 0.67 1.02 1.82 0.03 0.18 0.14 0.73 X22 rataan simp.baku 681.82 485.74 12990.30 2886.50 262.87 206.47 385.35 321.79 2935.87 579.46 X23 rataan simp.baku 166.04 116.41 543.69 473.54 45.55 80.79 176.15 149.68 176.05 190.71 X24 rataan simp.baku 102.53 97.64 268.61 406.78 32.76 68.16 147.69 148.08 127.17 160.30 X25 rataan simp.baku 62.06 76.04 245.06 332.79 11.74 35.14 27.36 56.39 106.14 46.28 X26 rataan simp.baku 1.32 6.70 29.94 72.21 1.00 5.58 1.00 5.54 18.03 2.50 X27 rataan simp.baku 515.50 463.03 2342.57 13009.90 217.15 180.89 208.92 282.16 403.15 2922.43 X28 rataan simp.baku 281.91 343.11 619.04 947.86 18.76 57.29 142.39 70.61 152.91 332.46 X29 rataan simp.baku 126.86 191.76 443.81 882.64 17.85 62.53 37.45 83.08 247.53 81.04 X30 rataan simp.baku 28.95 9.59 117.69 241.78 15.41 3.70 15.89 3.39 10.80 61.97 X31 rataan simp.baku 96.56 202.32 1161.57 13023.90 176.55 148.70 97.05 205.63 157.95 2885.64 X35 rataan simp.baku 0.05 0.76 0.17 0.92 10.05 3.41 0.18 0.93 0.52 3.66 X36 rataan simp.baku 0.08 0.44 0.19 0.99 4.15 9.54 0.41 1.38 0.73 3.63 X37 rataan simp.baku 0.02 0.20 0.04 0.31 2.12 2.82 0.11 0.42 0.31 1.21 X38 rataan simp.baku 0.01 0.11 0.06 0.27 1.39 2.11 0.07 0.31 0.20 0.87 X39 rataan simp.baku 0.02 0.19 0.01 0.08 0.53 1.04 0.03 0.21 0.09 0.43 X40 rataan simp.baku 842.29 570.19 457.85 388.97 9731.30 9156.80 2086.76 1532.52 2526.71 4262.64 * Kode peubah dapat dilihat pada Lampiran 1
13
X21 X11 X1 X15 X8 X9 X6 X7 X10 X32 X12 X13 X33 X14 X20 X34 Va ria b le 250 200 150 100 50 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment AppliedTwoStep Cluster Number = 2
X9 X21 X8 X15 X14 X6 X20 X11 X32 X7 X1 X10 X34 X13 X12 X33 Var iab le 1,500 1,000 500 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 4
Lampiran 4. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
X9 X21 X6 X8 X15 X20 X10 X34 X32 X33 X14 X13 X12 X7 X1 X11 Var iab le 4,000 3,000 2,000 1,000 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X6 X9 X20 X21 X14 X8 X32 X15 X10 X33 X34 X13 X1 X12 X7 X11 Va ria b le 2,500 2,000 1,500 1,000 500 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
14
X40 X39 X17 X37 X23 X5 X25 X36 X38 X28 X30 X29 X26 X35 X18 X24 X16 X22 X3 X2 X27 X19 X31 X4 Va riab le 20 0 -20 -40 -60 -80 -100 Student's t Test Statistic Critical Value Bonferroni Adjustment AppliedTwoStep Cluster Number = 2
X27 X17 X19 X22 X28 X29 X37 X30 X38 X35 X25 X31 X40 X3 X26 X2 X4 X39 X36 X18 X24 X16 X5 X23 Vari able 10 0 -10 -20 -30 -40 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 4
Lampiran 5. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
X2 X3 X17 X18 X36 X37 X38 X40 X5 X4 X19 X35 X28 X16 X39 X31 X24 X27 X29 X22 X25 X26 X23 X30 Va ri a b le 100 0 -100 -200 -300 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X5 X28 X23 X22 X24 X27 X29 X25 X18 X2 X4 X3 X40 X17 X37 X38 X19 X30 X39 X36 X16 X35 X26 X31 Var iab le 20 0 -20 -40 -60 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 6. Karakteristik Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
No. Cluster 1 Cluster 2 Cluster 3 Cluster 4
1
Terdiri dari 1692 desa/kelurahan (29.1%) 1. Persentase keluarga pertanian 2. Bahan bakar yang digunakan kayu
bakar
3. Ada lemah sinyal telepon genggam
Terdiri dari 283 desa/kelurahan (4.9%) 1. Jumlah terminal
2. Luas desa/kelurahan 3. Luas lahan sawah
4. Luas lahan sawah berpengairan yang diusahakan
5. Luas lahan sawah tidak berpengairan yang diusahakan
6. Luas lahan sementara tidak diusahakan
7. Luas lahan bukan sawah 8. Luas lahan pertanian 9. Luas ladang yang diusahakan 10. Luas ladang yang tidak diusahakan 11. Luas lahan untuk non pertanian
Terdiri dari 670 desa/kelurahan (11.5%) 1. Jumlah penduduk laki-laki 2. Jumlah penduduk perempuan 3. Jumlah keluarga
4. Jumlah keluarga yang berlangganan telepon kabel
5. Jumlah wartel/warpostel 6. Jumlah warnet 7. Jumlah industri besar 8. Jumlah industri sedang 9. Jumlah supermarket 10. Jumlah bank umum 11. Jumlah biro/agen perjalanan 12. Kepadatan penduduk 13. Sumber penghasilan utama dari
perdagangan besar/eceran dan jasa
Terdiri dari 3163 desa/kelurahan (54.5%) 1. Sumber penghasilan utama dari
pertanian
2. Bahan bakar yang digunakan minyak tanah
3. Ada kuat sinyal telepon genggam
2
1. Luas lahan sawah tidak berpengairan yang diusahakan 2. Luas lahan sementara tidak
diusahakan
3. Luas lahan bukan sawah 4. Luas lahan pertanian 5. Luas ladang yang diusahakan 6. Sumber penghasilan utama dari
pertanian
1. Persentase keluarga pertanian 2. Bahan bakar yang digunakan kayu
bakar
3. Jumlah bank umum 4. Jumlah industri besar
1. Jumlah terminal
2. Bahan bakar yang digunakan minyak tanah
3. Ada kuat sinyal telepon genggam
1. Jumlah keluarga yang berlangganan telepon kabel
2. Luas lahan sawah berpengairan yang diusahakan
3. Jumlah industri sedang 4. Jumlah supermarket 5. Kepadatan penduduk
3
1. Jumlah penduduk laki-laki 2. Jumlah penduduk perempuan 3. Jumlah keluarga
4. Jumlah keluarga yang berlangganan telepon kabel
5. Jumlah wartel/warpostel 6. Jumlah warnet
7. Luas lahan untuk non pertanian 8. Jumlah industri besar 9. Jumlah industri sedang 10. Jumlah supermarket 11. Jumlah bank umum
1. Jumlah biro/agen perjalanan 2. Kepadatan penduduk 3. Sumber penghasilan utama dari
pertanian
4. Ada kuat sinyal telepon genggam
1. Persentase keluarga pertanian 2. Luas desa/kelurahan 3. Luas lahan sawah
4. Luas lahan sawah berpengairan yang diusahakan
5. Luas lahan sawah tidak berpengairan yang diusahakan
6. Luas lahan sawah sementara tidak diusahakan
7. Luas lahan pertanian 8. Luas ladang yang diusahakan
1. Luas lahan bukan sawah 2. Luas ladang yang tidak diusahakan
Catatan: No merupakan keterangan peubah dalam mencirikan gerombol
Lampiran 7. Nilai Korelasi Peubah-peubah Kontinu X2 X3 X4 X5 X16 X17 X18 X19 X22 X23 X24 X25 X2 1 .988 .948 -.513 .127 .806 .610 .405 .026 -.104 -.080 -.069 X3 .988 1 .954 -.509 .128 .820 .606 .417 .034 -.106 -.081 -.069 X4 .948 .954 1 -.489 .129 .781 .592 .404 .045 -.068 -.049 -.050 X5 -.513 -.509 -.489 1 -.130 -.463 -.502 -.316 .026 .305 .238 .185 X16 .127 .128 .129 -.130 1 .092 .151 .095 -.006 -.029 -.033 -.003 X17 .806 .820 .781 -.463 .092 1 .559 .451 .007 -.187 -.157 -.096 X18 .610 .606 .592 -.502 .151 .559 1 .436 -.017 -.169 -.126 -.110 X19 .405 .417 .404 -.316 .095 .451 .436 1 .019 -.115 -.090 -.066 X22 .026 .034 .045 .026 -.006 .007 -.017 .019 1 .103 .064 .083 X23 -.104 -.106 -.068 .305 -.029 -.187 -.169 -.115 .103 1 .817 .530 X24 -.080 -.081 -.049 .238 -.033 -.157 -.126 -.090 .064 .817 1 -.048 X25 -.069 -.069 -.050 .185 -.003 -.096 -.110 -.066 .083 .530 -.048 1 X26 .010 .007 .021 .024 .002 -.008 -.020 -.023 .031 .198 .029 .142 X27 .033 .041 .050 .007 -.004 .020 -.006 .027 .998 .038 .011 .049 X28 -.092 -.093 -.076 .230 -.015 -.116 -.133 -.064 .136 .124 .004 .209 X29 -.043 -.044 -.031 .142 -.009 -.075 -.083 -.043 .117 .145 .047 .183 X30 -.018 -.018 -.013 .061 0.17 -.033 -.041 -.012 .058 .065 -.007 .106 X31 .048 .057 .062 -.033 -.002 .040 .017 .038 .984 .010 .007 .008 X35 .179 .173 .187 -.201 .034 .140 .176 .097 -.003 -.078 -.073 -.031 X36 .220 .219 .213 -.242 .14 .170 .173 .129 -.014 -.086 -.076 -.039 X37 .580 .588 .561 -.378 .129 .599 .465 .414 .020 -.152 -.121 -.087 X38 .305 .310 .300 -.340 .192 .333 .381 .378 .020 -.131 -.107 -.071 X39 .221 .227 .219 -.201 .066 .256 .259 .228 -.020 -.115 -.099 -.054 X40 .516 .516 .470 -.547 .095 .503 .472 .366 -.065 -.284 -.226 -.162 X26 X27 X28 X29 X30 X31 X35 X36 X37 X38 X39 X40 X2 .010 .033 -.092 -.043 -.018 .048 .179 .220 .580 .305 .221 .516 X3 .007 .041 -.093 -.044 -.018 .057 .173 .219 .588 .310 .227 .516 X4 .021 .050 -.076 -.031 -.013 .062 .187 .213 .561 .300 .219 .470 X5 .024 .007 .230 .142 .061 -.033 -.201 -.242 -.378 -.340 -.201 -.547 X16 .002 -.004 -.015 -.009 .017 -.002 .034 .014 .129 .192 .066 .095 X17 -.008 .020 -.116 -.075 -.033 .040 .140 .170 .599 .333 .256 .503 X18 -.020 -.006 -.133 -.083 -.041 .017 .176 .173 .465 .381 .259 .472 X19 -.023 .027 -.064 -.043 -.012 .038 .097 .129 .414 .378 .228 .366 X22 .031 .998 .136 .117 .058 .984 -.003 -.014 .020 .020 -.020 -.065 X23 .198 .038 .124 .145 .065 .010 -.078 -.086 -.152 -.131 -.115 -.284 X24 .029 .011 .004 .047 -.007 .007 -.073 -.076 -.121 -.107 -.099 -.226 X25 .142 .049 .209 .183 .106 .008 -.031 -.039 -.087 -.071 -.054 -.162 X26 1 .018 .043 .038 .125 .007 .002 .000 -.013 -.018 -.017 -.045 X27 .018 1 .129 .108 .054 .988 .002 -.009 .030 .029 -.013 -.047 X28 .043 .129 1 .150 .185 -.002 -.038 -.066 -.094 -.090 -.065 -.202 X29 .038 .108 .150 1 .126 .003 -.029 -.040 -.065 -.061 -.050 -.135 X30 .125 .054 .185 .126 1 .001 .000 -.011 -.028 -.029 -.021 -.071 X31 .007 .988 -.002 .003 .001 1 .009 .002 .047 .045 -.001 -.011 X35 .002 .002 -.038 -.029 .000 .009 1 .439 .146 .115 .111 .071 X36 .000 -.009 -.066 -.040 -.011 .002 .439 1 .141 .102 .084 .171 X37 -.013 .030 -.094 -.065 -.028 .047 .146 .141 1 .421 .267 .385 X38 -.018 .029 -.090 -.061 -.029 .045 .115 .102 .421 1 .315 .358 X39 -.017 -.013 -.065 -.050 -.021 -.001 .111 .084 .267 .315 1 .202 X40 -.045 -.047 -.202 -.135 -.071 -.011 .071 .171 .385 .358 .202 1
Lampiran 8. Hasil Uji Asosiasi Antar Peubah Kategorik Peubah
χ
2 Nilai-p X1 vs X6 X1 vs X7 X1 vs X8 X1 vs X9 X1 vs X10 X1 vs X11 X1 vs X12 X1 vs X13 X1 vs X14 X1 vs X15 X1 vs X20 X1 vs X21 X1 vs X32 X1 vs X33 X1 vs X34 49.371 2.785 0.000 1.764 1.421 1496.901 4.579 3.969 0.311 20.110 0.016 20.951 0.391 4.182 6.381 0.000* 0.095 0.998 0.623 0.233 0.000* 0.032* 0.046* 0.577 0.000* 0.899 0.000* 0.532 0.041* 0.012* X6 vs X7 X6 vs X8 X6 vs X9 X6 vs X10 X6 vs X11 X6 vs X12 X6 vs X13 X6 vs X14 X6 vs X15 X6 vs X20 X6 vs X21 X6 vs X32 X6 vs X33 X6 vs X34 2.617 5.166 56.039 0.124 7.603 19.651 4.222 9.845 91.270 10.567 394.853 17.016 12.742 8.575 0.759 0.271 0.000* 0.940 0.180 0.001* 0.121 0.007* 0.000* 0.005* 0.000* 0.000* 0.002* 0.014* X7 vs X8 X7 vs X9 X7 vs X10 X7 vs X11 X7 vs X12 X7 vs X13 X7 vs X14 X7 vs X15 X7 vs X20 X7 vs X21 X7 vs X32 X7 vs X33 X7 vs X34 27.243 13.400 13.298 0.178 0.638 0.164 0.143 16.185 1.878 44.059 0.499 0.616 0.018 0.000* 0.004* 0.000* 0.673 0.424 0.686 0.176 0.003* 0.171 0.000* 0.480 0.432 0.893 X8 vs X9 X8 vs X10 X8 vs X11 X8 vs X12 X8 vs X13 X8 vs X14 X8 vs X15 X8 vs X20 X8 vs X21 X8 vs X32 X8 vs X33 X8 vs X34 622.945 92.410 7.733 0.051 9.242 10.884 280.570 93.605 448.851 17.671 10.866 2.876 0.000* 0.000* 0.005* 0.822 0.002* 0.001* 0.000* 0.000* 0.000* 0.000* 0.001* 0.090 Peubahχ
2 Nilai-p X9 vs X10 X9 vs X11 X9 vs X12 X9 vs X13 X9 vs X14 X9 vs X15 X9 vs X20 X9 vs X21 X9 vs X32 X9 vs X33 X9 vs X34 85.223 12.700 3.364 17.095 46.948 406.386 192.000 1054.497 46.354 46.955 70.534 0.000* 0.005* 0.339 0.001* 0.000* 0.000* 0.000* 0.000* 0.000* 0.000* 0.000* X10 vs X11 X10 vs X12 X10 vs X13 X10 vs X14 X10 vs X15 X10 vs X20 X10 vs X21 X10 vs X32 X10 vs X33 X10 vs X34 5.401 6.134 0.301 8.975 52.410 46.878 90.371 11.518 16.902 4.427 0.020* 0.013* 0.583 0.003* 0.000* 0.000* 0.000* 0.001* 0.000* 0.035* X11 vs X12 X11 vs X13 X11 vs X14 X11 vs X15 X11 vs X20 X11 vs X21 X11 vs X32 X11 vs X33 X11 vs X34 12.986 6.209 0.366 3.731 0.676 26.180 0.047 0.184 3.109 0.000* 0.013* 0.545 0.444 0.411 0.000* 0.828 0.668 0.078 X12 vs X13 X12 vs X14 X12 vs X15 X12 vs X20 X12 vs X21 X12 vs X32 X12 vs X33 X12 vs X34 22.132 6.158 13.899 0.999 0.432 3.250 4.347 0.155 0.000* 0.013* 0.008* 0.318 0.806 0.071 0.037* 0.694 X13 vs X14 X13 vs X15 X13 vs X20 X13 vs X21 X13 vs X32 X13 vs X33 X13 vs X34 8.516 2.157 9.797 1.314 3.129 5.018 15.950 0.004* 0.707 0.002* 0.519 0.077 0.025* 0.000* X14 vs X15 X14 vs X20 X14 vs X21 X14 vs X32 X14 vs X33 X14 vs X34 10.682 57.140 13.722 4.167 2.689 1.265 0.030* 0.000* 0.001* 0.041* 0.101 0.261Lampiran 8. (Lanjutan) Peubah
χ
2 Nilai-p X15 vs X20 X15 vs X21 X15 vs X32 X15 vs X33 X15 vs X34 77.430 400.355 5.166 18.147 28.826 0.000* 0.001* 0.271 0.001* 0.000* X20 vs X21 X20 vs X32 X20 vs X33 X20 vs X34 80.241 18.036 0.778 5.581 0.000* 0.000* 0.378 0.018* X21 vs X32 X21 vs X33 X21 vs X34 38.072 24.545 18.722 0.000* 0.000* 0.000* X32 vs X33 X32 vs X34 378.646 184.800 0.000 * 0.000* X33 vs X34 196.867 0.000* * Nyata pada α = 5%Lampiran 9. Tabel BIC (Schwarz’s Bayesian Criterion) Setelah Mengalami Pereduksian Peubah
Number of Clusters
Schwarz's Bayesian
Criterion (BIC) BIC Change
Ratio of BIC Changes Ratio of Distance Measures 1 57704.814 2 44980.395 -12724.420 1.000 1.413 3 36050.693 -8929.702 .702 2.528 4 32680.663 -3370.030 .265 1.133 5 29736.441 -2944.223 .231 1.436 6 27767.605 -1968.836 .155 1.097 7 25997.390 -1770.214 .139 1.659 8 25036.876 -960.514 .075 1.092 9 24180.162 -856.714 .067 1.037 10 23363.130 -817.033 .064 1.150 11 22687.542 -675.588 .053 1.259 12 22206.067 -481.475 .038 1.134 13 21813.150 -392.917 .031 1.173 14 21517.596 -295.554 .023 1.127 15 21285.523 -232.073 .018 1.006
Lampiran 10. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
Gerombol
Peubah* Statistik 1 2 3 Overall
X16 rataan simp.baku 0.00 0.45 0.10 0.32 0.25 0.47 0.07 0.27 X23 rataan simp.baku 182.30 135.64 553.94 452.25 77.79 91.63 176.05 190.71 X24 rataan simp.baku 141.39 135.48 272.66 400.81 57.39 81.45 127.17 160.30 X25 rataan simp.baku 39.81 62.34 252.31 318.82 19.42 43.16 106.14 46.28 X26 rataan simp.baku 1.00 5.38 28.87 68.79 0.91 4.72 18.03 2.50 X28 rataan simp.baku 155.50 250.66 628.12 939.04 116.13 43.62 152.91 332.46 X29 rataan simp.baku 72.24 133.53 435.04 849.81 28.63 83.65 81.04 247.53 X30 rataan simp.baku 19.56 5.30 110.22 230.66 18.60 4.29 10.80 61.97 X35 rataan simp.baku 0.07 0.42 0.14 0.86 1.81 7.05 0.52 3.66 X36 rataan simp.baku 0.18 0.72 0.16 0.92 2.36 6.81 0.73 3.63 X39 rataan simp.baku 0.02 0.14 0.00 0.06 0.29 0.78 0.09 0.43 * Kode peubah dapat dilihat pada Lampiran 1
X1 X11 X6 X7 X12 Va ri a b le 150 100 50 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
X6 X12 X11 X1 X7 Va ri a b le 1,200 1,000 800 600 400 200 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X6 X1 X11 X12 X7 Vari able 4,000 3,000 2,000 1,000 0 Chi-Square Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 11. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
X39 X23 X25 X36 X28 X35 X30 X29 X26 X24 X16 Variab le 20 10 0 -10 -20 -30 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
X16 X35 X36 X39 X30 X26 X24 X25 X29 X23 X28 Variab le 20 0 -20 -40 -60 -80 -100 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X23 X28 X24 X29 X25 X16 X30 X26 X39 X36 X35 Var iab le 20 10 0 -10 -20 -30 -40 -50 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 12. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
Lampiran 13. Karakteristik Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
No. Cluster 1 Cluster 2 Cluster 3
1
Terdiri dari 4007 desa/kelurahan (69%) 1. Sumber penghasilan utama dari pertanian
Terdiri dari 319 desa/keluruhan (5.5%) 1. Luas lahan sawah
2. Luas lahan sawah berpengairan yang diusahakan 3. Luas lahan sawah tidak berpengairan yang
diusahakan
4. Luas lahan sementara tidak diusahakan 5. Luas lahan pertanian
6. Luas ladang yang diusahakan 7. Luas ladang yang tidak diusahakan
Terdiri dari 1482 desa/kelurahan (25.5%) 1. Jumlah terminal
2. Jumlah industri besar 3. Jumlah industri sedang 4. Jumlah biro/agen perjalanan 5. Sumber penghasilan utama dari jasa
2
1. Luas lahan sawah berpengairan yang diusahakan
2. Luas lahan sawah tidak berpengairan yang tidak diusahakan
3. Luas lahan sementara tidak diusahakan 4. Luas ladang yang diusahakan 5. Luas ladang yang tidak diusahakan 6. Jumlah industri sedang
7. Jumlah biro/agen perjalanan
1. Jumlah industri besar
2. Sumber penghasilan utama dari pertanian
3
1. Jumlah terminal
2. Jumlah industri besar 1. Jumlah industri sedang 2. Jumlah biro/agen perjalanan 1. Luas lahan sawah 2. Luas lahan sawah berpengairan yang
diusahakan
3. Luas lahan sawah tidak berpengairan yang diusahakan
4. Luas lahan sementara tidak diusahakan 5. Luas lahan pertanian
6. Luas ladang yang diusahakan 7. Luas ladang yang tidak diusahakan
Catatan: No merupakan keterangan peubah dalam mencirikan gerombol