RINGKASAN
RANI KARLINA. Pereduksian Peubah Pada Metode Two Step Cluster (Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat). Dibimbing oleh UTAMI DYAH SYAFITRI
dan AAM ALAMUDI.
Penggerombolan adalah proses mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan ukuran yang besar dan dapat digunakan untuk peubah kontinu dan kategorik karena fungsi jarak yang digunakan adalah jarak Log Likelihood atau Euclidian. Data yang digunakan dalam penelitian ini adalah data Podes Sensus Ekonomi tahun 2005 untuk wilayah Jawa Barat.
PEREDUKSIAN PEUBAH PADA METODE
TWO STEP CLUSTER
(Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat)
RANI KARLINA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
RINGKASAN
RANI KARLINA. Pereduksian Peubah Pada Metode Two Step Cluster (Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat). Dibimbing oleh UTAMI DYAH SYAFITRI
dan AAM ALAMUDI.
Penggerombolan adalah proses mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan ukuran yang besar dan dapat digunakan untuk peubah kontinu dan kategorik karena fungsi jarak yang digunakan adalah jarak Log Likelihood atau Euclidian. Data yang digunakan dalam penelitian ini adalah data Podes Sensus Ekonomi tahun 2005 untuk wilayah Jawa Barat.
PEREDUKSIAN PEUBAH PADA METODE
TWO STEP CLUSTER
(Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat)
OLEH :
RANI KARLINA
G14103031
Skripsi
Sebagai Salah Satu Syarat untuk Memperoleh
Gelar Sarjana Sains
Pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul : Pereduksian Peubah Pada Metode
Two Step Cluster
(Studi Kasus
Penggerombolan Desa/Kelurahan di Jawa Barat)
Nama : Rani Karlina
NRP : G14103031
Menyetujui,
Pembimbing I
Pembimbing II
Utami Dyah Syafitri, M.Si
Ir. Aam Alamudi, M.Si
NIP 132311922
NIP 131950980
Mengetahui,
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Drh. Hasim, DEA
NIP 131578806
PRAKATA
Puji dan syukur penulis panjatkan kehadirat Allah SWT atas segala limpahan rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Shalawat serta salam semoga selalu tercurahkan kepada Rasulullah Muhammad SAW, kepada keluarganya, para sahabat serta umatnya hingga akhir zaman.
Banyak ilmu, pelajaran dan masukan yang bermanfaat dirasakan oleh penulis selama menyelesaikan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima kasih, kepada :
1. Ibu Utami Dyah Syafitri, M.Si dan Bapak Ir. Aam Alamudi, M.Si selaku pembimbing I dan pembimbing II yang telah meluangkan waktu dan memberikan arahan, saran serta masukan yang sangat bermanfaat bagi penulis.
2. Seluruh dosen Departemen Statistika IPB atas segala ilmu yang bermanfaat.
3. Karya ini kupersembahkan kepada kedua orang tuaku, Papahku tersayang dan Mamahku tercinta (terima kasih untuk doanya, kasih sayang dan motivasi), serta my luvly sister Alline (thanks buat semua kelakuannya).
4. Keluarga-keluargaku yang lain, yang ada di Jakarta dan di Bogor. Makasih buat doanya. 5. Sahabat-sahabatku tersayang, Adist, Rahayu, Meylinda, Yuni dan Vina. Thanks buat
semuanya, thanks for the great 4 years in Statistika. We will still be, friends forever. 6. Ahmad Rasyid Fadlilah Putera Ariyat. Thanks buat semua support, kesabaran dan
sayangnya. I don’t know I have to say what to you. Thanks for everything honey. LuvU.. ^_^
7. Aang (teman seperjuangan waktu PL), Edo (tempat curhat yang baik), Riko, Dwi, Bayu, Daus, Adit, Wondo, Ema (teman satu PS), Essi, Muti, dan semua teman seperjuangan di STK 40. I’m gonna miss you all.
8. Teman-teman main, Achie (my best friend), Yasmin, Tiwi, Pipit, Nyie, Juju dan Reni. 9. Ibu Dedeh, Bang Sudin, Ibu Sulis, Ibu Markonah, Pak Iyan, Mang Herman, Mang Dur,
Bu Aat. Thanks buat semua bantuannya, maaf kalo sering ngerepotin. 10. Adik-adik kelas 41, 42 dan 43 buat keceriannnya.
11. Ka Irfan, statistics tutor. Thanks y Ka..
12. Semua pihak yang tidak dapat disebutkan satu per satu yang telah membantu penulis dalam menyelesaikan karya ilmiah ini.
Bogor, November 2007
RIWAYAT HIDUP
Penulis dilahirkan di kota Bogor pada tanggal 6 Desember 1985 sebagai anak pertama dari dua bersaudara, anak pasangan Enan M. Adiwilaga dan Avyantini Soewarma.
Pada tahun 1997 penulis lulus dari SD Negeri Polisi 4 Bogor, dan melanjutkan ke sekolah menengah pertama di SLTP Negeri 4 Bogor dan lulus tahun 2000. Penulis menyelesaikan studi di SMU Negeri 2 Bogor pada tahun 2003 dan pada tahun yang sama penulis diterima di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI).
DAFTAR ISI
Halaman
DAFTAR TABEL ... vii
DAFTAR GAMBAR ... vii
DAFTAR LAMPIRAN ... viii
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
TINJAUAN PUSTAKA Analisis Gerombol ... 1
Two Step Cluster ... 2
Pembentukan Gerombol Awal ... 2
Pembentukan Gerombol Optimal ... 3
Ukuran Jarak ... 4
BAHAN DAN METODE Bahan ... 5
Metode ... 5
HASIL DAN PEMBAHASAN Deskripsi Data ... 5
Penggerombolan Desa/Kelurahan Tanpa Pereduksian Peubah Menggunakan Two Step Cluster ... 5
Pereduksian Peubah ... 6
Penggerombolan Desa/Kelurahan dengan Pereduksian Peubah Menggunakan Two Step Cluster ... 7
Perbandingan Gerombol ... 7
SIMPULAN ... 8
DAFTAR PUSTAKA ... 8
DAFTAR TABEL
Halaman
Tabel 1. Perbandingan Metode Hirarki, Non Hirarki, dan Two Step Cluster ... 2
Tabel 2. Distribusi Hasil Penggerombolan Sebelum Pereduksian Peubah ... 6
Tabel 3. Distribusi Hasil Penggerombolan Setelah Pereduksian Peubah ... 7
Tabel 4. Tabulasi Silang Hasil Penggerombolan Sebelum dan Sesudah Pereduksian Peubah ... 7
DAFTAR GAMBAR
Halaman Gambar 1. CF Tree ... 2Gambar 2. Proses Pembelahan dari Satu Dahan Menjadi Dua Dahan ... 3
Gambar 3. Tahapan Penelitian yang Dilakukan ... 5
DAFTAR LAMPIRAN
Halaman
1. Peubah-peubah yang Digunakan dalam Analisis Gerombol ... 9
2. Tabel BIC (Schwarz’s Bayesian Criterion) Sebelum Mengalami Pereduksian
Peubah ... 10
3. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Sebelum
Mengalami Pereduksian Peubah ... 11
4. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol
Sebelum Mengalami Pereduksian Peubah ... 12
5. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol
Sebelum Mengalami Pereduksian Peubah ... 13
6. Karakteristik Masing-masing Gerombol Sebelum Mengalami Pereduksian
Peubah ... 14
7. Nilai Korelasi Peubah-peubah Kontinu ... 15
8. Hasil Uji Asosiasi Antar Peubah Kategorik ... 16
9. Tabel BIC (Schwarz’s Bayesian Criterion) Setelah Mengalami Pereduksian
Peubah ... 18
10. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Setelah
Mengalami Pereduksian Peubah ... 18
11. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol
Setelah Mengalami Pereduksian Peubah ... 19
12. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol
Setelah Mengalami Pereduksian Peubah ... 20
13. Karakteristik Masing-masing Gerombol Setelah Mengalami Pereduksian
PENDAHULUAN
Latar BelakangP e n g g e r o m b o l a n a d a l a h p r o s e s mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Hasil dari penggerombolan akan menunjukkan bahwa objek-objek yang berada dalam satu gerombol akan lebih homogen dibandingkan antar gerombol. Metode penggerombolan yang sering digunakan adalah metode penggerombolan berhirarki dan metode penggerombolan non hirarki. Peubah yang dapat digerombolkan oleh kedua metode tersebut berupa peubah kontinu.
Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Untuk mengatasi kedua permasalahan tersebut, Chiu et al (2001) telah mengembangkan algoritma Two Step Cluster dengan menggunakan software SPSS yang memungkinkan untuk mengolah data yang memiliki tipe peubah yang berbeda, yaitu kontinu dan kategorik.
Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan ukuran yang sangat besar. Fungsi jarak yang digunakan adalah jarak Euclidian atau jarak Log Likelihood. Karena menggunakan ukuran jarak tersebut, maka dimungkinkan digunakan berbagai tipe data baik kontinu maupun kategorik. Hasil akhir dari metode ini adalah pembentukan gerombol optimal berdasarkan kriteria tertentu.
Windy (2005) telah melakukan penggerombolan desa/kelurahan di Jawa Barat menggunakan metode Two Step Cluster dengan data Podes 2003, tetapi tidak memperhatikan hubungan antar peubahnya. Dalam penelitian ini akan dilakukan penggerombolan desa/kelurahan di Jawa Barat berdasarkan karakteristik yang terdapat dalam Podes 2005 dengan memperhatikan hubungan antar peubahnya.
Tujuan
Tujuan penelitian ini adalah :
1. Menggerombolkan desa/kelurahan di
wilayah Jawa Barat menggunakan metode Two Step Cluster dan menjelaskan karakteristik masing-masing gerombol (sebelum dan sesudah pereduksian peubah).
2. Membandingkan hasil penggerombolan antara sebelum dan sesudah pereduksian peubah.
TINJAUAN PUSTAKA
Analisis GerombolAnalisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan karakteristik-karakteristiknya. Analisis gerombol mengklasifikasikan objek sehingga setiap objek yang terdapat di dalam satu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan. Hasil dari pengelompokkan harus memperlihatkan keragaman yang kecil di dalam satu gerombol dan keragaman yang besar antar gerombol (Hair et al, 1998). Ada dua metode yang sudah umum dilakukan dalam analisis gerombol, yaitu metode hirarki dan metode non hirarki.
Metode Hirarki
Metode penggerombolan berhirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini ditujukan untuk ukuran data yang kecil (n < 500). Metode penggerombolan berhirarki ini dibedakan menjadi dua yaitu metode penggabungan (agglomerative) dan metode pemisahan (divisive) (Hair et al, 1998).
Metode agglomerative dimulai dengan n buah gerombol yang masing-masing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat digabung dan ditentukan kembali kedekatan antar gerombol yang baru. Proses ini berlanjut sampai didapatkan satu gerombol yang anggotanya adalah seluruh objek.
Metode divisive dimulai dengan satu gerombol yang anggotanya adalah seluruh objek, kemudian objek-objek yang paling jauh dipisah dan membentuk gerombol lain. Proses ini berlanjut sampai semua objek masing-masing membentuk satu gerombol.
digerombolkan dengan metode ini adalah peubah kontinu (rasio dan interval) dan fungsi jarak yang sering digunakan dalam metode berhirarki ini adalah jarak Euclidian atau jarak Mahalanobis.
Metode Non Hirarki
Metode penggerombolan non hirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Metode ini cocok digunakan pada data yang berukuran besar (2000). Contoh dari metode non hirarki adalah K-means. Langkah pertama dalam metode k-means yaitu menentukan besarnya k, yaitu banyaknya gerombol. Pemilihan k dapat ditentukan secara subyektif berdasarkan latar belakang bidang masing-masing. Fungsi jarak yang sering digunakan adalah jarak Euclidian. Jenis peubah yang dapat digerombolkan dengan metode ini adalah peubah kontinu (Hair et al, 1998).
Two Step Cluster
Two Step Cluster adalah analisis
penggerombolan yang dirancang untuk menangani data dengan ukuran yang sangat besar. Analisis ini juga dapat mengatasi masalah pengukuran dengan tipe data yang berbeda yaitu kontinu dan kategorik. Fungsi jarak yang digunakan dalam Two Step Cluster adalah jarak Euclidian atau jarak Log Likelihood (Bacher et al, 2004).
Prosedur penggerombolan objek dalam Two Step Cluster ini dilakukan melalui dua tahapan yaitu tahap pembentukan gerombol awal dan tahap pembentukan gerombol optimal (Chiu et al, 2001). Perbandingan antara metode hirarki, non hirarki dan Two Step Cluster selengkapnya dapat dilihat pada Tabel 1.
Pembentukan Gerombol Awal
Pada tahapan ini dilakukan pembentukan Cluster Features (CF) Tree. CF Tree terdiri dari tingkatan cabang (depth) dan masing-masing cabang berisikan angka yang dimasukkan. Jika dimisalkan sebuah pohon, maka cabang tersebut terdiri dari batang, dahan, dan daun. Tingkatan daun atau daun entri merepresentasikan hasil akhir anak gerombol. Maksimum depth dan maksimum node yang digunakan mengikuti default dari SPSS yaitu sebanyak 3 dan 8. Sehingga maksimum daun entri (anak gerombol) yang terbentuk adalah 512 anak gerombol.
Tabel 1. Perbandingan Metode Hirarki, Non Hirarki, dan Two Step Cluster
Aspek yang diban-dingkan
Metode Hirarki
Metode Non Hirarki
Two Step Cluster
Ukuran data
Untuk data kecil
Untuk data besar
Untuk data sangat besar
Jenis
peubah Kontinu Kontinu
Kontinu dan kategorik
Banyak gerombol
Belum diketahui
Sudah
diketahui Belum diketahui
Ukuran jarak
Euclidian atau
Mahala-nobis
Euclidian Euclidian atau Log Likelihood
Asumsi sebaran
Tidak ada asumsi
Tidak ada asumsi
• Peubah kontinu menyebar normal • Peubah
kategorik menyebar multinomial • Antar
peubahnya saling bebas
Metode
Pengga-bungan ( agglome-rative) dan pemisahan (divisive)
K-means
• Pemben-tukan CF
Tree
• Agglome-rative
• Menentu-kan gerombol optimal
Prosedur CF Tree diawali dengan memilih satu amatan secara acak sebagai amatan awal yang akan diukur jaraknya satu persatu terhadap amatan lainnya dengan menggunakan ukuran jarak yang telah ditentukan. Jika besarnya jarak tersebut lebih kecil dari batas penerimaan (treshold distance), maka amatan akan masuk dalam daun entri yang sama dengan yang awal. Sebaliknya, jika jarak tersebut lebih besar dari batas penerimaan, maka amatan akan masuk dalam daun entri yang baru. Batas penerimaan (treshold distance) merupakan suatu nilai yang dimulai dari nol dan akan berubah mengikuti ukuran jarak terkecil di antara anak gerombol yang terbentuk.
Gambar 1. CF Tree
daun
dahan
Jika tidak ada lagi tempat dalam cabang daun untuk menciptakan daun entri baru (node telah melewati batas maksimum), maka cabang daun akan terbagi menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan membelah menjadi dua dahan. Entrian pada cabang daun yang asli akan dibagi ke dalam dua grup (dahan) dengan menggunakan pasangan daun terjauh sebagai penempatan dan membagi-bagikan sisa entrian berdasarkan kriteria kedekatan.
Gambar 2. Proses Pembelahan dari Satu Dahan Menjadi Dua Dahan
Begitu juga pada cabang dahan, apabila tidak tersedia tempat untuk menciptakan daun entri baru, maka batang akan terbagi dua dengan menggunakan pasangan dahan terjauh sebagai penempatan dan membagi-bagikan sisa entrian berdasarkan kriteria kedekatan.
Proses ini akan berlanjut sampai semua amatan selesai dimasukkan. Jika CF Tree berkembang melebihi batas ukuran maksimum, maka CF Tree akan dibangun ulang dengan meningkatkan kriteria batas penerimaan.
Pembentukan Gerombol Optimal
Pada tahapan ini, hasil dari tahap pertama yaitu CF Tree digerombolkan menggunakan analisis gerombol hirarki dengan metode agglomerative. Suatu gerombol dikatakan optimal apabila memiliki jarak antar gerombol paling jauh dan jarak antar objek dalam gerombol tersebut paling dekat.
Langkah pertama yang dilakukan dalam menentukan gerombol optimal adalah
menghitung BIC (Schwarz’s Bayesian
Criterion) atau AIC (Akaike’s Information Criterion) untuk tiap gerombol. Hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol. Langkah kedua adalah mencari peningkatan jarak terbesar antara dua gerombol terdekat pada masing-masing tahapan penggerombolan.
Rumus BIC dan AIC untuk gerombol J adalah sebagai berikut :
BIC (J) = -2
∑
= + ξ J 1 j j
j m log(N) (1)
AIC (J) = -2
∑
= + ξ J 1 j j
j 2m (2)
dengan:
(
)
⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k jk jk kj N E
1 1
2
2 ˆ ˆ
ˆ log 2 1 σ σ ξ ∑ = − = Lk
l j jkl j jkl jk N N N N E 1 log ˆ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ + − = ∑ = B K k K A
j J K L
m 1 ) 1 ( 2
N = jumlah total observasi
Nj = jumlah observasi di dalam gerombol j
Njkl = jumlah data di gerombol j untuk
peubah kategorik ke-k dengan kategori ke-l
2
ˆk
σ = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi 2
ˆjk
σ = ragam dugaan untuk peubah kontinu ke-k dalam gerombol j
KA = jumlah total peubah kontinu KB = jumlah total peubah kategorik
LK = jumlah kategori untuk peubah
kategorik ke-k
Solusi gerombol yang terbaik memiliki BIC terkecil, tetapi ada beberapa kasus dalam penggerombolan dimana BIC akan terus menurun nilainya bila jumlah gerombol semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes (rasio perubahan BIC) dan ratio of Distance Measure Changes (rasio perubahan jarak) mengidentifikasi solusi gerombol terbaik.
Menurut Chiu et al (2001) BICk atau AICk
menghasilkan penduga awal yang baik bagi jumlah gerombol maksimum. Jumlah gerombol maksimum adalah banyaknya gerombol yang memiliki rasio BICk/BICl yang
pertama kali lebih kecil dari c1. Nilai c1 =0.04,
berdasarkan studi simulasi (Bacher et al, 2004).
Jumlah gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut :
R(k) = dk-1 / dk (3)
dk = lk-1 - lk (4)
dimana:
R(k) = rasio perubahan jarak lv = (mvlog n - BICv)/2 atau
lv = (2mv - AICv)/2
v = k, k-1
dk-1 = jarak jika k gerombol digabungkan
Jumlah gerombol optimal diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikut:
R(k1)/R(k2) (5)
dimana :
R(k1) = rasio perubahan jarak terbesar
pertama
R(k2) = rasio perubahan jarak terbesar
kedua
Jika rasio perubahan lebih besar dari nilai batas c2, jumlah gerombol optimal ditetapkan
sama dengan k1, selainnya jumlah gerombol
optimal sama dengan maksimum {k1,k2}. Nilai
c2 = 1.15, berdasarkan studi simulasi (Bacher
et al, 2004).
Ukuran Jarak
Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah jarak antar objek dan jarak antar gerombol. Fungsi jarak yang sering digunakan antara lain adalah :
Jarak Euclidian
Jarak Euclidian adalah jarak yang paling umum dan paling sering digunakan dalam analisis gerombol. Jarak Euclidian antara dua titik dapat terdefinisikan dengan jelas. Jarak ini digunakan apabila semua peubah yang digunakan adalah peubah kontinu (Johnson & Wichern, 2002).
Jarak Euclidian antara gerombol ke-i dan ke-j dari p peubah didefinisikan :
(
)
21 1 2 ) , ( =⎢⎣⎡
∑
− ⎥⎦⎤ = p i i j X X j id (6)
dengan : ) , (i j
d = jarak antara objek i ke objek j
i
X = nilai tengah pada gerombol ke-i
j
X = nilai tengah pada gerombol ke-j p = banyaknya peubah yang diamati
Jarak Manhattan
Ukuran ini merupakan bentuk umum dari jarak Euclidian (Johnson & Wichern, 2002). Fungsi jaraknya didefinisikan :
(
)
kp i k i j X X j i d 1 1 ) , ( =⎢⎣⎡
∑
− ⎥⎦⎤=
(7) dengan :
) , (i j
d = jarak antara objek i ke objek j
i
X = nilai tengah pada gerombol ke-i
j
X = nilai tengah pada gerombol ke-j p = banyaknya peubah yang diamati
Jarak Mahalanobis
Jarak Mahalanobis sangat berguna dalam menghilangkan atau mengurangi perbedaan skala pada masing-masing komponen. Pada permasalahan tertentu, pada saat menentukan jarak, perlu juga dipertimbangkan ragam dan peragam (Johnson & Wichern, 2002). Jarak Mahalanobis didefinisikan :
(
) (
)
21 1
' )
,
(i j =⎡⎢⎣Xi−X j S− Xi −X j ⎥⎦⎤
d (8)
dengan : ) , (i j
d = jarak antara objek i ke objek j
i
X = nilai tengah pada gerombol ke-i
j
X = nilai tengah pada gerombol ke-j 1
−
S = matriks ragam peragam gabungan antara Xi dan Xj
Jarak Log Likelihood
Jarak Log Likelihood dapat diterapkan untuk peubah kontinu maupun kategorik. Asumsi yang ada pada jarak ini adalah peubah kontinu menyebar normal, peubah kategorik menyebar multinomial dan antar peubahnya saling bebas. Metode Two Step Cluster cukup tegar terhadap pelanggaran asumsi tersebut sehingga metode ini masih dapat digunakan ketika terjadi pelanggaran asumsi.
Jarak antara gerombol j dan s didefinisikan: s j s j s j
d( , )=ξ +ξ −ξ , (9) dengan :
(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k jk jk kj N E
1 1
2
2 ˆ ˆ
ˆ log 2
1 σ σ
ξ
(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k sk sk ks N E
1 1
2
2 ˆ ˆ
ˆ log 2
1 σ σ
ξ
(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + − = ∑ ∑ = = A B K k K k jsk jsk k sj N E
1 1
2 2
, 2logˆ ˆ ˆ
1 σ σ
ξ
∑
=
−
= Lk
l j jkl j jkl jk N N N N E 1 log ˆ
N = jumlah total observasi
Nj = jumlah observasi di dalam gerombol j
Njkl = jumlah data di gerombol j untuk
peubah kategorik ke-k dengan
kategori ke-l
2
ˆk
σ = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi 2
ˆjk
σ = ragam dugaan untuk peubah kontinu ke-k dalam gerombol j
KB = jumlah total peubah kategorik
LK = jumlah kategori untuk peubah
kategorik ke-k
d(j,s) = jarak antara gerombol j dan s <j,s> = indeks kombinasi gerombol j dan s
BAHAN DAN METODE
BahanBahan yang digunakan dalam penelitian ini adalah data Podes Sensus Ekonomi tahun 2005 untuk wilayah Jawa Barat. Data populasi tersebut digunakan karena dianggap jumlah amatannya cukup besar dan terdiri dari peubah-peubah yang bertipe kontinu dan kategorik. Kategori peubah yang akan digunakan yaitu:
1. Keterangan umum desa/kelurahan 2. Kependudukan dan ketenagakerjaan 3. Perumahan dan lingkungan hidup 4. Sosial budaya
5. Rekreasi, hiburan dan olahraga 6. Angkutan, komunikasi dan informasi 7. Penggunaan lahan
8. Ekonomi
M a s i n g - ma s i n g k a t e g o r i p e u b ah dijabarkan ke dalam peubah-peubah yang lebih terperinci (Lampiran 1).
Metode
Secara garis besar, tahapan penelitian yang dilakukan dapat dijelaskan dengan Gambar 3.
Gambar 3. Tahapan Penelitian yang Dilakukan
Y a n g p e r t a ma k a l i d i l a k u k a n y a i t u melakukan penggerombolan dengan memasukkan semua peubah kemudian menjelaskan masing-masing karakteristik gerombolnya. Selanjutnya dilakukan pemeriksaan asumsi korelasi dan memilih peubah-peubah mana saja yang saling bebas untuk kemudian dilakukan penggerombolan dengan peubah yang sudah direduksi. Kemudian dijelaskan masing-masing karakteristik gerombolnya. Langkah terakhir yaitu membandingkan hasil penggerombolan antara sebelum dan sesudah pereduksian peubah. Perangkat lunak yang digunakan adalah adalah SPSS 13 for Windows dan Microsoft Excel.
HASIL DAN PEMBAHASAN
Deskripsi DataDesa/kelurahan yang berada di Jawa Barat secara keseluruhan terdiri dari 5808 desa. Pada Gambar 4 terlihat bahwa jumlah desa yang berstatus perkotaan sebanyak 1834 atau 32% sedangkan desa/kelurahan yang berstatus pedesaan sebanyak 3974 atau 68% dari keseluruhan.
Status Desa
Perkotaan 32%
Pedesaan 68%
Gambar 4. Persentase Status Desa/Kelurahan
Penggerombolan Desa/Kelurahan Tanpa Pereduksian Peubah Menggunakan Two Step Cluster
Dalam penentuan jumlah gerombol, digunakan nilai BIC yang ditentukan secara subjektif karena perhitungan AIC maupun BIC memberikan hasil yang relatif sama. Gerombol yang dihasilkan pada tahap pertama sebanyak 10 gerombol. Hal ini terlihat dari rasio BICk/BICl yang pertama kali lebih kecil
dari nilai 0.04. Pada gerombol 10, nilai dari rasio tersebut sebesar 0.036. Sedangkan untuk penentuan jumlah gerombol optimal didasarkan pada rasio perubahan gerombol. Pada Lampiran 2, dua nilai R(k) terbesar Pemeriksaan
asumsi korelasi
Pemilihan peubah yang saling bebas
Two step cluster dengan peubah yang sudah
direduksi
Karakteristik gerombol Two step cluster
dengan semua peubah
Karakteristik gerombol
terdapat pada solusi dua gerombol (R(k) = 2.375) dan solusi empat gerombol (R(k) = 2.320). Rasio antara kedua nilai tersebut adalah 1.023 dan lebih kecil dari batas nilai konstanta c2 = 1.15. Oleh karena itu, dalam
kasus ini empat gerombol merupakan solusi optimal.
Seluruh anggota populasi amatan terdistribusi ke dalam empat gerombol yang terbentuk sehingga dapat dikatakan tidak ada pencilan pada data ini. Distribusi anggota dari masing-masing gerombol yang terbentuk dapat dilihat pada Tabel 2.
Tabel 2. Distribusi Hasil Penggerombolan Sebelum Pereduksian Peubah
Gerombol N Total (%)
1 2 3 4
1692 283 670 3163
29.1 4.9 11.5 54.5
Total 5808 100
Karakteristik masing-masing gerombol dapat dijelaskan melalui Lampiran 3, 4 dan 5. Lampiran 3 menampilkan rataan dan simpangan baku dari masing-masing peubah untuk masing-masing gerombol. Sedangkan Lampiran 4 dan 5 menampilkan selang kepentingan dari peubah-peubah untuk masing-masing gerombol. Lampiran 4 menampilkan uji chi-square untuk peubah yang bertipe kategorik dan Lampiran 5 adalah uji t-students untuk peubah yang bertipe kontinu. Karakteristik masing-masing gerombol dapat dijelaskan sebagai berikut : 1. Gerombol satu dapat dikategorikan ke
dalam gerombol pedesaan. Hal ini terlihat dari tingginya persentase keluarga pertanian yang ada. Hal ini diperkuat juga dengan cukup tingginya jumlah lahan pertanian yang ada. Begitu juga dengan fasilitas-fasilitas yang ada dilihat dari segi angkutan, komunikasi, dan informasi seperti jumlah keluarga yang berlangganan telepon kabel, jumlah wartel/warpostel dan jumlah warnet yang memiliki nilai kecil.
2. Gerombol dua dapat dikategorikan ke dalam gerombol daerah industri. Walaupun pada gerombol ini memiliki jumlah lahan pertanian yang paling tinggi, tapi diimbangi juga dengan jumlah industri yang ada.
3. Gerombol tiga dapat dikategorikan ke dalam gerombol perkotaan. Hal ini terlihat dari jumlah lahan yang ada dimana memiliki nilai yang terkecil.
Kebalikan dari lahan-lahan yang ada, j u ml a h f a s i l i t a s - f a s i l i t a s s e p e r t i w a r t e l / w a r p o s t e l , w a r n e t d a n supermarket memiliki nilai yang terbesar pada gerombol ini. Sumber penghasilan utama dari gerombol ini pun berasal dari perdagangan besar/eceran dan jasa. 4. Gerombol empat memiliki karakteristik
yang hampir sama dengan gerombol satu. Sumber penghasilan utamanya berasal dari pertanian. Untuk fasilitas-fasilitas yang ada tidak berbeda terlalu jauh dengan gerombol satu.
Masing-masing karakteristik dari masing-masing gerombol dapat dilihat lebih jelas pada Lampiran 6.
Pereduksian Peubah
Pemeriksaan hubungan atau asosiasi antar peubah digunakan untuk melihat peubah-peubah mana saja yang akan direduksi. Untuk peubah-peubah yang bertipe kontinu, digunakan nilai korelasi untuk menentukan hubungan antar peubahnya sedangkan untuk peubah-peubah yang bertipe kategorik digunakan uji asosiasi.
Untuk memilih peubah-peubah mana saja yang harus direduksi, dilakukan korelasi antar peubah kontinu. Setelah didapatkan hasil korelasi dari masing-masing peubahnya, dilihat peubah-peubah mana saja yang memiliki nilai korelasi yang tinggi dengan peubah lainnya kemudian dipilih salah satu dari dua peubah yang saling berkorelasi tersebut untuk direduksi. Dari 24 peubah kontinu, setelah diperiksa terdapat 13 pasang peubah yang memiliki nilai korelasi yang tinggi dengan peubah-peubah lainnya sehingga peubah-peubah tersebut direduksi.
Penggerombolan Desa/Kelurahan dengan Pereduksian Peubah Menggunakan Two Step Cluster
Dalam penentuan jumlah gerombol, digunakan nilai BIC yang ditentukan secara subjektif karena perhitungan AIC maupun BIC memberikan hasil yang relatif sama. Berbeda dengan hasil penggerombolan tanpa pereduksian peubah, gerombol yang dihasilkan pada tahap pertama ini sebanyak 12 gerombol. Hal ini terlihat dari rasio BICk/BICl
yang pertama kali lebih kecil dari nilai 0.04. Pada gerombol 12, nilai dari rasio tersebut sebesar 0.038. Sedangkan untuk penentuan jumlah gerombol optimal didasarkan pada rasio perubahan gerombol. Pada Lampiran 9, dua nilai R(k) terbesar terdapat pada solusi tiga gerombol (R(k) = 2.528) dan solusi tujuh gerombol (R(k) = 1.659). Rasio antara kedua nilai tersebut adalah 1.523 dan lebih besar dari batas nilai konstanta c2 = 1.15. Oleh karena
itu, dalam kasus ini tiga gerombol merupakan solusi optimal. Distribusi anggota dari masing-masing gerombol yang terbentuk dapat dilihat pada Tabel 3.
Tabel 3. Distribusi Hasil Penggerombolan Setelah Pereduksian Peubah
Gerombol N Total (%)
1 2 3 4007 319 1482 69 5.5 25.5
Total 5808 100
Karakteristik masing-masing gerombol dapat dijelaskan melalui Lampiran 10, 11 dan 12. Lampiran 10 menampilkan rataan dan simpangan baku dari masing-masing peubah untuk masing-masing gerombol. Sedangkan Lampiran 11 dan 12 menampilkan selang kepentingan dari peubah-peubah untuk masing-masing gerombol. Lampiran 11 menampilkan uji chi-square untuk peubah yang bertipe kategorik dan Lampiran 12 adalah uji t-students untuk peubah yang bertipe kontinu.
Hasil penggerombolan setelah adanya pereduksian peubah ini bukan hasil mentah dari output mentah yang ada, tetapi telah disesuaikan dengan karakteristik hasil penggerombolan sebelum adanya pereduksian p e u b a h . K a r a k t e r i s t i k ma s i n g - ma s i n g gerombol dapat dijelaskan sebagai berikut : 1. Gerombol satu dapat dikategorikan ke
dalam gerombol pedesaan. Hal ini terlihat dari cukup tingginya jumlah lahan pertanian yang ada dan diperkuat juga
oleh sumber penghasilan utama dari gerombol ini yang berasal dari pertanian. Kebalikan dari jumlah lahan yang ada, untuk jumlah terminal dan jumlah industri memiliki nilai yang terkecil diantara gerombol lainnya.
2. Gerombol dua dapat dikategorikan ke dalam gerombol daerah industri. Walaupun jumlah lahan pertanian yang ada memiliki nilai yang paling tinggi dan sebagian besar penghasilan utamanya berasal dari pertanian, hal ini diimbangi juga dengan jumlah industri yang ada. 3. Gerombol tiga dikategorikan ke dalam
gerombol perkotaan. Hal ini terlihat dari sedikitnya jumlah lahan pertanian yang ada. Tetapi kebalikannya, untuk fasilitas-fasilitas dan industri, gerombol ini memiliki jumlah yang paling besar jika dibandingkan dengan gerombol lainnya. Sumber penghasilan utama dari gerombol ini pun berasal dari perdagangan besar/eceran dan jasa.
Masing-masing karakteristik dari masing-masing gerombol dapat dilihat lebih jelas pada Lampiran 13.
Perbandingan Gerombol
Berdasarkan hasil penggerombolan sebelum dan setelah pereduksian peubah, dilakukan tabulasi silang untuk melihat seberapa konsisten anggota dari hasil penggorombolan sebelum pereduksian dengan setelah dilakukan pereduksian dan distribusi penyebaran gerombol keempat pada hasil penggerombolan sebelum pereduksian peubah.
T a b e l 4 . T a b u l a s i S i l a n g H a s i l Penggerombolan Sebelum dan Sesudah Pereduksian Peubah
Sebelum
1 2 3 4 Total
1 N % kolom 1582 93.5% 13 4.6% 22 3.3% 2390 75.6% 4007 69.0% 2 N
% kolom 45 2.7% 244 86.2% 2 0.3% 28 0.9% 319 5.5% Sesudah
3 N % kolom 65 3.8% 26 9.2% 646 96.4% 745 23.6% 1482 25.5%
Total N
% kolom 1692 100% 283 100% 670 100% 3163 100% 5808 100%
overestimate sebanyak 136 (5.14%) desa/kelurahan.
Pendistribusian anggota gerombol empat hasil penggerombolan dengan semua peubah, terlihat bahwa sebagian besar (75.6%) terdistribusi ke dalam anggota gerombol satu. Hal ini dibuktikan dengan miripnya karakteristik pada gerombol empat dengan gerombol satu. Sedangkan sebanyak 0.9% terdistribusi ke dalam gerombol dua dan sebanyak 23.6% terdistribusi ke dalam gerombol tiga.
Hasil ini menunjukkan bahwa hasil penggerombolan sebelum dan sesudah pereduksian peubah memberikan hasil yang relatif sama karena tingginya persentase kekonsistenannya. Sehingga untuk efisiensi disarankan untuk menggunakan hasil penggerombolan sesudah pereduksian peubah.
SIMPULAN
Berdasarkan hasil penggerombolan dengan me t o d e T w o S t e p C l u s t e r s e b e l u m pereduksian peubah, didapatkan gerombol optimal sebanyak empat gerombol. Sedangkan dari hasil penggerombolan sesudah pereduksian peubah, didapatkan gerombol optimal sebanyak tiga gerombol. Karakteristik gerombol satu sampai dengan tiga baik untuk hasil penggerombolan sebelum dan sesudah pereduksian peubah memiliki karakteristik yang sama. Gerombol satu merupakan gerombol yang dapat dikategorikan ke dalam gerombol pedesaan, gerombol kedua dikategorikan ke dalam daerah industri, gerombol ketiga dikategorikan ke dalam gerombol perkotaan, dan gerombol keempat pada hasil penggerombolan sebelum pereduksian memiliki karakteristik yang mirip dengan gerombol satu. Dilihat dari kedua hasil t e r s e b u t , d a p a t d i t u n j u k k a n b a h w a pemeriksaan hubungan atau asosiasi antar peubah perlu diperhatikan agar dihasilkan gerombol yang lebih baik.
DAFTAR PUSTAKA
Bacher J, Wenzig K, Vogler M. 2004. SPSS Two Step Cluster – A First Evaluation. http://www.statisticalinnovations.com/pro ducts/Two Step.pdf. [4 Juni 2007].
Chiu T, Fang D, Chen J, Wang Y, and Jeris C. (2001). A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment. Proceedings of the 7th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining 2001.
Hair JFJr, Anderson RE, Tatham RL, Black WC. 1998. Multivariate Data Analysis. Ed ke-5. New Jersey : Prentice Hall.
Lampiran 1. Peubah-peubah yang Digunakan dalam Analisis Gerombol
Kategori Peubah Peubah Keterangan (satuan) Tipe Peubah
Keterangan Umum
Desa/Kelurahan X1 Letak geografis desa/kelurahan Kategorik
X2 Jumlah penduduk laki-laki (orang) Kontinu
X3 Jumlah penduduk perempuan (orang) Kontinu
X4 Jumlah keluarga (keluarga) Kontinu
X5 Persentase keluarga pertanian (persen) Kontinu
Kependudukan dan Ketenagakerjaan
X6 Sumber penghasilan utama Kategorik
X7 Keluarga yang menggunakan listrik Kategorik
X8 Penerangan jalan utama desa/kelurahan Kategorik
Perumahan dan Lingkungan Hidup
X9 Bahan bakar yang digunakan Kategorik
Sosial Budaya X10 Desa/kelurahan dihuni oleh lebih dari 1
suku etnis Kategorik
X11 Tempat hiburan alam bahari Kategorik
X12 Tempat hiburan alam non bahari Kategorik
X13 Tempat hiburan budaya Kategorik
Rekreasi, Hiburan, dan Olahraga
X14 Gedung bioskop Kategorik
X15 Jenis permukaan jalan yang terluas Kategorik
X16 Jumlah terminal (unit) Kontinu
X17
Jumlah keluarga yang berlangganan
telepon kabel (keluarga) Kontinu
X18 Jumlah wartel/warpostel (unit) Kontinu
X19 Jumlah warnet (unit) Kontinu
X20 Kantor pos Kategorik
Angkutan, Komunikasi, dan
Informasi
X21 Sinyal telepon genggam Kategorik
X22 Luas desa/kelurahan (km2) Kontinu
X23 Luas lahan sawah (km2) Kontinu
X24
Luas lahan sawah berpengairan yang
diusahakan (km2) Kontinu
X25
Luas lahan sawah tidak berpengairan
yang diusahakan (km2) Kontinu
X26 Luas lahan sementara tidak diusahakan
(km2) Kontinu
X27 Luas lahan bukan sawah (km2) Kontinu
X28 Luas lahan pertanian (km2) Kontinu
X29 Luas ladang yang diusahakan (km2) Kontinu
X30 Luas ladang yang tidak diusahakan (km2) Kontinu
Penggunaan Lahan
X31 Luas lahan untuk non pertanian (km2) Kontinu
X32 Kawasan industri Kategorik
X33 Sentra industri Kategorik
X34 Lingkungan/perkampungan industri kecil Kategorik
X35 Jumlah industri besar (unit) Kontinu
X36 Jumlah industri sedang (unit) Kontinu
X37 Jumlah supermarket (unit) Kontinu
X38 Jumlah bank umum (unit) Kontinu
Ekonomi
X39 Jumlah biro/agen perjalanan (unit) Kontinu
Lampiran 2. Tabel BIC (Schwarz’s Bayesian Criterion) Sebelum Mengalami Pereduksian Peubah
Number of Clusters
Schwarz's Bayesian
Criterion (BIC) BIC Change
Ratio of BIC Changes
Ratio of Distance Measures
1 160214.399
2 124624.116 -35590.283 1.000 2.375
3 110008.390 -14615.726 .411 1.547
4 100789.925 -9218.466 .259 2.320
5 97180.680 -3609.244 .101 1.245
6 94408.837 -2771.844 .078 1.091
7 91921.289 -2487.548 .070 1.268
8 90094.960 -1826.329 .051 1.063
9 88415.819 -1679.141 .047 1.209
10 87137.618 -1278.201 .036 1.060
11 85967.679 -1169.938 .033 1.214
12 85117.467 -850.212 .024 1.045
13 84331.245 -786.222 .022 1.160
14 83741.963 -589.282 .017 1.096
Lampiran 3. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
Gerombol Peubah* Statistik
1 2 3 4 Overall
X2 rataan
simp.baku 2065.50 901.949 3017.06 1351.31 8063.40 5630.16 2874.45 1397.31 3244.32 2863.93 X3 rataan
simp.baku 2046.90 863.19 2975.55 1377.07 8071.43 5861.68 2827.18 1350.90 3212.07 2909.40 X4 rataan
simp.baku 1152.73 485.99 1667.60 768.96 3922.85 2626.64 1506.17 701.42 1689.86 1355.73 X5 rataan
simp.baku 74.03 14.983 69.38 20.07 11.54 18.37 56.55 23.66 57.08 27.55 X16 rataan
simp.baku 0.02 0.14 0.25 0.57 0.22 0.43 0.05 0.22 0.07 0.27 X17 rataan
simp.baku 10.27 31.65 47.14 194.59 1471.19 1751.48 99.69 210.12 229.29 763.07 X18 rataan
simp.baku 1.17 1.87 2.40 4.04 14.30 11.40 3.14 3.44 3.82 6.19 X19 rataan
simp.baku 0.01 0.12 0.07 0.67 1.02 1.82 0.03 0.18 0.14 0.73 X22 rataan
simp.baku 681.82 485.74 2886.50 12990.30 262.87 206.47 385.35 321.79 579.46 2935.87 X23 rataan
simp.baku 166.04 116.41 543.69 473.54 45.55 80.79 176.15 149.68 176.05 190.71 X24 rataan
simp.baku 102.53 97.64 268.61 406.78 32.76 68.16 147.69 148.08 127.17 160.30 X25 rataan
simp.baku 62.06 76.04 245.06 332.79 11.74 35.14 27.36 56.39 46.28 106.14 X26 rataan
simp.baku 1.32 6.70 29.94 72.21 1.00 5.58 1.00 5.54 2.50 18.03 X27 rataan
simp.baku 515.50 463.03 2342.57 13009.90 217.15 180.89 208.92 282.16 403.15 2922.43 X28 rataan
simp.baku 281.91 343.11 619.04 947.86 18.76 57.29 70.61 142.39 152.91 332.46 X29 rataan
simp.baku 126.86 191.76 443.81 882.64 17.85 62.53 37.45 83.08 81.04 247.53 X30 rataan
simp.baku 9.59 28.95 117.69 241.78 3.70 15.41 3.39 15.89 10.80 61.97 X31 rataan
simp.baku 96.56 202.32 1161.57 13023.90 176.55 148.70 97.05 205.63 157.95 2885.64 X35 rataan
simp.baku 0.05 0.76 0.17 0.92 3.41 10.05 0.18 0.93 0.52 3.66 X36 rataan
simp.baku 0.08 0.44 0.19 0.99 4.15 9.54 0.41 1.38 0.73 3.63 X37 rataan
simp.baku 0.02 0.20 0.04 0.31 2.12 2.82 0.11 0.42 0.31 1.21 X38 rataan
simp.baku 0.01 0.11 0.06 0.27 1.39 2.11 0.07 0.31 0.20 0.87 X39 rataan
simp.baku 0.02 0.19 0.01 0.08 0.53 1.04 0.03 0.21 0.09 0.43 X40 rataan
simp.baku 842.29 570.19 457.85 388.97 9731.30 9156.80 2086.76 1532.52 2526.71 4262.64
X21 X11 X1 X15 X8 X9 X6 X7 X10 X32 X12 X13 X33 X14 X20 X34
Va
ria
b
le
250 200 150 100 50 0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
X9 X21 X8 X15 X14 X6 X20 X11 X32 X7 X1 X10 X34 X13 X12 X33
Var
iab
le
1,500 1,000
500 0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 4
Lampiran 4. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
X9 X21 X6 X8 X15 X20 X10 X34 X32 X33 X14 X13 X12 X7 X1 X11
Var
iab
le
4,000 3,000 2,000 1,000 0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X6 X9 X20 X21 X14 X8 X32 X15 X10 X33 X34 X13 X1 X12 X7 X11
Va
ria
b
le
2,500 2,000 1,500 1,000 500 0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
X40 X39 X17 X37 X23 X5 X25 X36 X38 X28 X30 X29 X26 X35 X18 X24 X16 X22 X3 X2 X27 X19 X31 X4 Va riab le 20 0 -20 -40 -60 -80 -100 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
X27 X17 X19 X22 X28 X29 X37 X30 X38 X35 X25 X31 X40 X3 X26 X2 X4 X39 X36 X18 X24 X16 X5 X23 Vari able 10 0 -10 -20 -30 -40 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 4
Lampiran 5. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
X2 X3 X17 X18 X36 X37 X38 X40 X5 X4 X19 X35 X28 X16 X39 X31 X24 X27 X29 X22 X25 X26 X23 X30 Va ri a b le 100 0 -100 -200 -300 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X5 X28 X23 X22 X24 X27 X29 X25 X18 X2 X4 X3 X40 X17 X37 X38 X19 X30 X39 X36 X16 X35 X26 X31 Var iab le 20 0 -20 -40 -60 Student's t Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 6. Karakteristik Masing-masing Gerombol Sebelum Mengalami Pereduksian Peubah
No. Cluster 1 Cluster 2 Cluster 3 Cluster 4
1
Terdiri dari 1692 desa/kelurahan (29.1%) 1. Persentase keluarga pertanian 2. Bahan bakar yang digunakan kayu
bakar
3. Ada lemah sinyal telepon genggam
Terdiri dari 283 desa/kelurahan (4.9%) 1. Jumlah terminal
2. Luas desa/kelurahan 3. Luas lahan sawah
4. Luas lahan sawah berpengairan yang diusahakan
5. Luas lahan sawah tidak berpengairan yang diusahakan
6. Luas lahan sementara tidak diusahakan
7. Luas lahan bukan sawah 8. Luas lahan pertanian 9. Luas ladang yang diusahakan 10. Luas ladang yang tidak diusahakan 11. Luas lahan untuk non pertanian
Terdiri dari 670 desa/kelurahan (11.5%) 1. Jumlah penduduk laki-laki 2. Jumlah penduduk perempuan 3. Jumlah keluarga
4. Jumlah keluarga yang berlangganan telepon kabel
5. Jumlah wartel/warpostel 6. Jumlah warnet 7. Jumlah industri besar 8. Jumlah industri sedang 9. Jumlah supermarket 10. Jumlah bank umum 11. Jumlah biro/agen perjalanan 12. Kepadatan penduduk 13. Sumber penghasilan utama dari
perdagangan besar/eceran dan jasa
Terdiri dari 3163 desa/kelurahan (54.5%) 1. Sumber penghasilan utama dari
pertanian
2. Bahan bakar yang digunakan minyak tanah
3. Ada kuat sinyal telepon genggam
2
1. Luas lahan sawah tidak berpengairan yang diusahakan 2. Luas lahan sementara tidak
diusahakan
3. Luas lahan bukan sawah 4. Luas lahan pertanian 5. Luas ladang yang diusahakan 6. Sumber penghasilan utama dari
pertanian
1. Persentase keluarga pertanian 2. Bahan bakar yang digunakan kayu
bakar
3. Jumlah bank umum 4. Jumlah industri besar
1. Jumlah terminal
2. Bahan bakar yang digunakan minyak tanah
3. Ada kuat sinyal telepon genggam
1. Jumlah keluarga yang berlangganan telepon kabel
2. Luas lahan sawah berpengairan yang diusahakan
3. Jumlah industri sedang 4. Jumlah supermarket 5. Kepadatan penduduk
3
1. Jumlah penduduk laki-laki 2. Jumlah penduduk perempuan 3. Jumlah keluarga
4. Jumlah keluarga yang berlangganan telepon kabel
5. Jumlah wartel/warpostel 6. Jumlah warnet
7. Luas lahan untuk non pertanian 8. Jumlah industri besar 9. Jumlah industri sedang 10. Jumlah supermarket 11. Jumlah bank umum
1. Jumlah biro/agen perjalanan 2. Kepadatan penduduk 3. Sumber penghasilan utama dari
pertanian
4. Ada kuat sinyal telepon genggam
1. Persentase keluarga pertanian 2. Luas desa/kelurahan 3. Luas lahan sawah
4. Luas lahan sawah berpengairan yang diusahakan
5. Luas lahan sawah tidak berpengairan yang diusahakan
6. Luas lahan sawah sementara tidak diusahakan
7. Luas lahan pertanian 8. Luas ladang yang diusahakan
1. Luas lahan bukan sawah 2. Luas ladang yang tidak diusahakan
Catatan: No merupakan keterangan peubah dalam mencirikan gerombol
Lampiran 7. Nilai Korelasi Peubah-peubah Kontinu
X2 X3 X4 X5 X16 X17 X18 X19 X22 X23 X24 X25
X2 1 .988 .948 -.513 .127 .806 .610 .405 .026 -.104 -.080 -.069
X3 .988 1 .954 -.509 .128 .820 .606 .417 .034 -.106 -.081 -.069
X4 .948 .954 1 -.489 .129 .781 .592 .404 .045 -.068 -.049 -.050
X5 -.513 -.509 -.489 1 -.130 -.463 -.502 -.316 .026 .305 .238 .185
X16 .127 .128 .129 -.130 1 .092 .151 .095 -.006 -.029 -.033 -.003
X17 .806 .820 .781 -.463 .092 1 .559 .451 .007 -.187 -.157 -.096
X18 .610 .606 .592 -.502 .151 .559 1 .436 -.017 -.169 -.126 -.110
X19 .405 .417 .404 -.316 .095 .451 .436 1 .019 -.115 -.090 -.066
X22 .026 .034 .045 .026 -.006 .007 -.017 .019 1 .103 .064 .083
X23 -.104 -.106 -.068 .305 -.029 -.187 -.169 -.115 .103 1 .817 .530
X24 -.080 -.081 -.049 .238 -.033 -.157 -.126 -.090 .064 .817 1 -.048
X25 -.069 -.069 -.050 .185 -.003 -.096 -.110 -.066 .083 .530 -.048 1
X26 .010 .007 .021 .024 .002 -.008 -.020 -.023 .031 .198 .029 .142
X27 .033 .041 .050 .007 -.004 .020 -.006 .027 .998 .038 .011 .049
X28 -.092 -.093 -.076 .230 -.015 -.116 -.133 -.064 .136 .124 .004 .209
X29 -.043 -.044 -.031 .142 -.009 -.075 -.083 -.043 .117 .145 .047 .183
X30 -.018 -.018 -.013 .061 0.17 -.033 -.041 -.012 .058 .065 -.007 .106
X31 .048 .057 .062 -.033 -.002 .040 .017 .038 .984 .010 .007 .008
X35 .179 .173 .187 -.201 .034 .140 .176 .097 -.003 -.078 -.073 -.031
X36 .220 .219 .213 -.242 .14 .170 .173 .129 -.014 -.086 -.076 -.039
X37 .580 .588 .561 -.378 .129 .599 .465 .414 .020 -.152 -.121 -.087
X38 .305 .310 .300 -.340 .192 .333 .381 .378 .020 -.131 -.107 -.071
X39 .221 .227 .219 -.201 .066 .256 .259 .228 -.020 -.115 -.099 -.054
X40 .516 .516 .470 -.547 .095 .503 .472 .366 -.065 -.284 -.226 -.162
X26 X27 X28 X29 X30 X31 X35 X36 X37 X38 X39 X40
X2 .010 .033 -.092 -.043 -.018 .048 .179 .220 .580 .305 .221 .516
X3 .007 .041 -.093 -.044 -.018 .057 .173 .219 .588 .310 .227 .516
X4 .021 .050 -.076 -.031 -.013 .062 .187 .213 .561 .300 .219 .470
X5 .024 .007 .230 .142 .061 -.033 -.201 -.242 -.378 -.340 -.201 -.547
X16 .002 -.004 -.015 -.009 .017 -.002 .034 .014 .129 .192 .066 .095
X17 -.008 .020 -.116 -.075 -.033 .040 .140 .170 .599 .333 .256 .503
X18 -.020 -.006 -.133 -.083 -.041 .017 .176 .173 .465 .381 .259 .472
X19 -.023 .027 -.064 -.043 -.012 .038 .097 .129 .414 .378 .228 .366
X22 .031 .998 .136 .117 .058 .984 -.003 -.014 .020 .020 -.020 -.065
X23 .198 .038 .124 .145 .065 .010 -.078 -.086 -.152 -.131 -.115 -.284
X24 .029 .011 .004 .047 -.007 .007 -.073 -.076 -.121 -.107 -.099 -.226
X25 .142 .049 .209 .183 .106 .008 -.031 -.039 -.087 -.071 -.054 -.162
X26 1 .018 .043 .038 .125 .007 .002 .000 -.013 -.018 -.017 -.045
X27 .018 1 .129 .108 .054 .988 .002 -.009 .030 .029 -.013 -.047
X28 .043 .129 1 .150 .185 -.002 -.038 -.066 -.094 -.090 -.065 -.202
X29 .038 .108 .150 1 .126 .003 -.029 -.040 -.065 -.061 -.050 -.135
X30 .125 .054 .185 .126 1 .001 .000 -.011 -.028 -.029 -.021 -.071
X31 .007 .988 -.002 .003 .001 1 .009 .002 .047 .045 -.001 -.011
X35 .002 .002 -.038 -.029 .000 .009 1 .439 .146 .115 .111 .071
X36 .000 -.009 -.066 -.040 -.011 .002 .439 1 .141 .102 .084 .171
X37 -.013 .030 -.094 -.065 -.028 .047 .146 .141 1 .421 .267 .385
X38 -.018 .029 -.090 -.061 -.029 .045 .115 .102 .421 1 .315 .358
X39 -.017 -.013 -.065 -.050 -.021 -.001 .111 .084 .267 .315 1 .202
Lampiran 8. Hasil Uji Asosiasi Antar Peubah Kategorik
Peubah
χ
2 Nilai-pX1 vs X6
X1 vs X7
X1 vs X8
X1 vs X9
X1 vs X10
X1 vs X11
X1 vs X12
X1 vs X13
X1 vs X14
X1 vs X15
X1 vs X20
X1 vs X21
X1 vs X32
X1 vs X33
X1 vs X34
49.371 2.785 0.000 1.764 1.421 1496.901 4.579 3.969 0.311 20.110 0.016 20.951 0.391 4.182 6.381 0.000* 0.095 0.998 0.623 0.233 0.000* 0.032* 0.046* 0.577 0.000* 0.899 0.000* 0.532 0.041* 0.012* X6 vs X7
X6 vs X8
X6 vs X9
X6 vs X10
X6 vs X11
X6 vs X12
X6 vs X13
X6 vs X14
X6 vs X15
X6 vs X20
X6 vs X21
X6 vs X32
X6 vs X33
X6 vs X34
2.617 5.166 56.039 0.124 7.603 19.651 4.222 9.845 91.270 10.567 394.853 17.016 12.742 8.575 0.759 0.271 0.000* 0.940 0.180 0.001* 0.121 0.007* 0.000* 0.005* 0.000* 0.000* 0.002* 0.014* X7 vs X8
X7 vs X9
X7 vs X10
X7 vs X11
X7 vs X12
X7 vs X13
X7 vs X14
X7 vs X15
X7 vs X20
X7 vs X21
X7 vs X32
X7 vs X33
X7 vs X34
27.243 13.400 13.298 0.178 0.638 0.164 0.143 16.185 1.878 44.059 0.499 0.616 0.018 0.000* 0.004* 0.000* 0.673 0.424 0.686 0.176 0.003* 0.171 0.000* 0.480 0.432 0.893 X8 vs X9
X8 vs X10
X8 vs X11
X8 vs X12
X8 vs X13
X8 vs X14
X8 vs X15
X8 vs X20
X8 vs X21
X8 vs X32
X8 vs X33
X8 vs X34
622.945 92.410 7.733 0.051 9.242 10.884 280.570 93.605 448.851 17.671 10.866 2.876 0.000* 0.000* 0.005* 0.822 0.002* 0.001* 0.000* 0.000* 0.000* 0.000* 0.001* 0.090
Peubah
χ
2 Nilai-pX9 vs X10
X9 vs X11
X9 vs X12
X9 vs X13
X9 vs X14
X9 vs X15
X9 vs X20
X9 vs X21
X9 vs X32
X9 vs X33
X9 vs X34
85.223 12.700 3.364 17.095 46.948 406.386 192.000 1054.497 46.354 46.955 70.534 0.000* 0.005* 0.339 0.001* 0.000* 0.000* 0.000* 0.000* 0.000* 0.000* 0.000* X10 vs X11
X10 vs X12
X10 vs X13
X10 vs X14
X10 vs X15
X10 vs X20
X10 vs X21
X10 vs X32
X10 vs X33
X10 vs X34
5.401 6.134 0.301 8.975 52.410 46.878 90.371 11.518 16.902 4.427 0.020* 0.013* 0.583 0.003* 0.000* 0.000* 0.000* 0.001* 0.000* 0.035* X11 vs X12
X11 vs X13
X11 vs X14
X11 vs X15
X11 vs X20
X11 vs X21
X11 vs X32
X11 vs X33
X11 vs X34
12.986 6.209 0.366 3.731 0.676 26.180 0.047 0.184 3.109 0.000* 0.013* 0.545 0.444 0.411 0.000* 0.828 0.668 0.078 X12 vs X13
X12 vs X14
X12 vs X15
X12 vs X20
X12 vs X21
X12 vs X32
X12 vs X33
X12 vs X34
22.132 6.158 13.899 0.999 0.432 3.250 4.347 0.155 0.000* 0.013* 0.008* 0.318 0.806 0.071 0.037* 0.694 X13 vs X14
X13 vs X15
X13 vs X20
X13 vs X21
X13 vs X32
X13 vs X33
X13 vs X34
8.516 2.157 9.797 1.314 3.129 5.018 15.950 0.004* 0.707 0.002* 0.519 0.077 0.025* 0.000* X14 vs X15
X14 vs X20
X14 vs X21
X14 vs X32
X14 vs X33
X14 vs X34
Lampiran 8. (Lanjutan)
Peubah
χ
2 Nilai-pX15 vs X20
X15 vs X21
X15 vs X32
X15 vs X33
X15 vs X34
77.430 400.355 5.166 18.147 28.826
0.000* 0.001* 0.271 0.001* 0.000* X20 vs X21
X20 vs X32
X20 vs X33
X20 vs X34
80.241 18.036 0.778 5.581
0.000* 0.000* 0.378 0.018* X21 vs X32
X21 vs X33
X21 vs X34
38.072 24.545 18.722
0.000* 0.000* 0.000* X32 vs X33
X32 vs X34
378.646 184.800
0.000* 0.000* X33 vs X34 196.867 0.000*
Lampiran 9. Tabel BIC (Schwarz’s Bayesian Criterion) Setelah Mengalami Pereduksian Peubah
Number of Clusters
Schwarz's Bayesian
Criterion (BIC) BIC Change
Ratio of BIC Changes
Ratio of Distance Measures
1 57704.814
2 44980.395 -12724.420 1.000 1.413
3 36050.693 -8929.702 .702 2.528
4 32680.663 -3370.030 .265 1.133
5 29736.441 -2944.223 .231 1.436
6 27767.605 -1968.836 .155 1.097
7 25997.390 -1770.214 .139 1.659
8 25036.876 -960.514 .075 1.092
9 24180.162 -856.714 .067 1.037
10 23363.130 -817.033 .064 1.150
11 22687.542 -675.588 .053 1.259
12 22206.067 -481.475 .038 1.134
13 21813.150 -392.917 .031 1.173
14 21517.596 -295.554 .023 1.127
15 21285.523 -232.073 .018 1.006
Lampiran 10. Nilai Rataan dan Simpangan Baku Untuk Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
Gerombol Peubah* Statistik
1 2 3 Overall
X16 rataan
simp.baku
0.00 0.45
0.10 0.32
0.25 0.47
0.07 0.27 X23 rataan
simp.baku
182.30 135.64
553.94 452.25
77.79 91.63
176.05 190.71 X24 rataan
simp.baku
141.39 135.48
272.66 400.81
57.39 81.45
127.17 160.30 X25 rataan
simp.baku
39.81 62.34
252.31 318.82
19.42 43.16
46.28 106.14 X26 rataan
simp.baku
1.00 5.38
28.87 68.79
0.91 4.72
2.50 18.03 X28 rataan
simp.baku
155.50 250.66
628.12 939.04
43.62 116.13
152.91 332.46 X29 rataan
simp.baku
72.24 133.53
435.04 849.81
28.63 83.65
81.04 247.53 X30 rataan
simp.baku
5.30 19.56
110.22 230.66
4.29 18.60
10.80 61.97 X35 rataan
simp.baku
0.07 0.42
0.14 0.86
1.81 7.05
0.52 3.66 X36 rataan
simp.baku
0.18 0.72
0.16 0.92
2.36 6.81
0.73 3.63 X39 rataan
simp.baku
0.02 0.14
0.00 0.06
0.29 0.78
0.09 0.43
X1
X11
X6
X7
X12
Va
ri
a
b
le
150 100
50 0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
X6
X12
X11
X1
X7
Va
ri
a
b
le
1,200 1,000 800 600 400 200 0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X6
X1
X11
X12
X7
Vari
able
4,000 3,000
2,000 1,000
0
Chi-Square
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 11. Tingkat Kepentingan Peubah Kategorik Untuk Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
X39
X23
X25
X36
X28
X35
X30
X29
X26
X24
X16
Variab
le
20 10 0 -10 -20 -30
Student's t
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
X16
X35
X36
X39
X30
X26
X24
X25
X29
X23
X28
Variab
le
20 0 -20 -40 -60 -80 -100
Student's t
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
X23
X28
X24
X29
X25
X16
X30
X26
X39
X36
X35
Var
iab
le
20 10 0 -10 -20 -30 -40 -50
Student's t
Test Statistic Critical Value Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 12. Tingkat Kepentingan Peubah Kontinu Untuk Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
Lampiran 13. Karakteristik Masing-masing Gerombol Setelah Mengalami Pereduksian Peubah
No. Cluster 1 Cluster 2 Cluster 3
1
Terdiri dari 4007 desa/kelurahan (69%)
1. Sumber penghasilan utama dari pertanian
Terdiri dari 319 desa/keluruhan (5.5%)
1. Luas lahan sawah
2. Luas lahan sawah berpengairan yang diusahakan
3. Luas lahan sawah tidak berpengairan yang
diusahakan
4. Luas lahan sementara tidak diusahakan
5. Luas lahan pertanian
6. Luas ladang yang diusahakan
7. Luas ladang yang tidak diusahakan
Terdiri dari 1482 desa/kelurahan (25.5%)
1. Jumlah terminal
2. Jumlah industri besar
3. Jumlah industri sedang
4. Jumlah biro/agen perjalanan
5. Sumber penghasilan utama dari jasa
2
1. Luas lahan sawah berpengairan yang
diusahakan
2. Luas lahan sawah tidak berpengairan yang
tidak diusahakan
3. Luas lahan sementara tidak diusahakan
4. Luas ladang yang diusahakan
5. Luas ladang yang tidak diusahakan
6. Jumlah industri sedang
7. Jumlah biro/agen perjalanan
1. Jumlah industri besar
2. Sumber penghasilan utama dari pertanian
3
1. Jumlah terminal
2. Jumlah industri besar
1. Jumlah industri sedang
2. Jumlah biro/agen perjalanan
1. Luas lahan sawah
2. Luas lahan sawah berpengairan yang
diusahakan
3. Luas lahan sawah tidak berpengairan yang
diusahakan
4. Luas lahan sementara tidak diusahakan
5. Luas lahan pertanian
6. Luas ladang yang diusahakan
7. Luas ladang yang tidak diusahakan
Catatan: No merupakan keterangan peubah dalam mencirikan gerombol
PEREDUKSIAN PEUBAH PADA METODE
TWO STEP CLUSTER
(Studi Kasus Penggerombolan Desa/Kelurahan di Jawa Barat)
RANI KARLINA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
PENDAHULUAN
Latar BelakangP e n g g e r o m b o l a n a d a l a h p r o s e s mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Hasil dari penggerombolan akan menunjukkan bahwa objek-objek yang berada dalam satu gerombol akan lebih homogen dibandingkan antar gerombol. Metode penggerombolan yang sering digunakan adalah metode penggerombolan berhirarki dan metode penggerombolan non hirarki. Peubah yang dapat digerombolkan oleh kedua metode tersebut berupa peubah kontinu.
Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Untuk mengatasi kedua permasalahan tersebut, Chiu et al (2001) telah mengembangkan algoritma Two Step Cluster dengan menggunakan software SPSS yang memungkinkan untuk mengolah data yang memiliki tipe peubah yang berbeda, yaitu kontinu dan kategorik.
Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan ukuran yang sangat besar. Fungsi jarak yang digunakan adalah jarak Euclidian atau jarak Log Likelihood. Karena menggunakan ukuran jarak tersebut, maka dimungkinkan digunakan berbagai tipe data baik kontinu maupun kategorik. Hasil akhir dari metode ini adalah pembentukan gerombol optimal berdasarkan kriteria tertentu.
Windy (2005) telah melakukan penggerombolan desa/kelurahan di Jawa Barat menggunakan metode Two Step Cluster dengan data Podes 2003, tetapi tidak memperhatikan hubungan antar peubahnya. Dalam penelitian ini akan dilakukan penggerombolan desa/kelurahan di Jawa Barat berdasarkan karakteristik yang terdapat dalam Podes 2005 dengan memperhatikan hubungan antar peubahnya.
Tujuan
Tujuan penelitian ini adalah :
1. Menggerombolkan desa/kelurahan di
wilayah Jawa Barat menggunakan metode Two Step Cluster dan menjelaskan karakteristik masing-masing gerombol (sebelum dan sesudah pereduksian peubah).
2. Membandingkan hasil penggerombolan antara sebelum dan sesudah pereduksian peubah.
TINJAUAN PUSTAKA
Analisis GerombolAnalisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan karakteristik-karakteristiknya. Analisis gerombol mengklasifikasikan objek sehingga setiap objek yang terdapat di dalam satu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan. Hasil dari pengelompokkan harus memperlihatkan keragaman yang kecil di dalam satu gerombol dan keragaman yang besar antar gerombol (Hair et al, 1998). Ada dua metode yang sudah umum dilakukan dalam analisis gerombol, yaitu metode hirarki dan metode non hirarki.
Metode Hirarki
Metode penggerombolan berhirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini ditujukan untuk ukuran data yang kecil (n < 500). Metode penggerombolan berhirarki ini dibedakan menjadi dua yaitu metode penggabungan (agglomerative) dan metode pemisahan (divisive) (Hair et al, 1998).
Metode agglomerative dimulai dengan n buah gerombol yang masing-masing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat digabung dan ditentukan kembali kedekatan antar gerombol yang baru. Proses ini berlanjut sampai didapatkan satu gerombol yang anggotanya adalah seluruh objek.
Metode divisive dimulai dengan satu gerombol yang anggotanya adalah seluruh objek, kemudian objek-objek yang paling jauh dipisah dan membentuk gerombol lain. Proses ini berlanjut sampai semua objek masing-masing membentuk satu gerombol.
PENDAHULUAN
Latar BelakangP e n g g e r o m b o l a n a d a l a h p r o s e s mengelompokkan objek ke dalam kelompok-kelompok berdasarkan kemiripan atau ketakmiripan. Hasil dari penggerombolan akan menunjukkan bahwa objek-objek yang berada dalam satu gerombol akan lebih homogen dibandingkan antar gerombol. Metode penggerombolan yang sering digunakan adalah metode penggerombolan berhirarki dan metode penggerombolan non hirarki. Peubah yang dapat digerombolkan oleh kedua metode tersebut berupa peubah kontinu.
Permasalahan yang biasa timbul pada analisis gerombol ini yaitu berkaitan dengan jenis peubah yang digunakan dan ukuran data (n) yang sangat besar. Untuk mengatasi kedua permasalahan tersebut, Chiu et al (2001) telah mengembangkan algoritma Two Step Cluster dengan menggunakan software SPSS yang memungkinkan untuk mengolah data yang memiliki tipe peubah yang berbeda, yaitu kontinu dan kategorik.
Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan ukuran yang sangat besar. Fungsi jarak yang digunakan adalah jarak Euclidian atau jarak Log Likelihood. Karena menggunakan ukuran jarak tersebut, maka dimungkinkan digunakan berbagai tipe data baik kontinu maupun kategorik. Hasil akhir dari metode ini adalah pembentukan gerombol optimal berdasarkan kriteria tertentu.
Windy (2005) telah melakukan penggerombolan desa/kelurahan di Jawa Barat menggunakan metode Two Step Cluster dengan data Podes 2003, tetapi tidak memperhatikan hubungan antar peubahnya. Dalam penelitian ini akan dilakukan penggerombolan desa/kelurahan di Jawa Barat berdasarkan karakteristik yang terdapat dalam Podes 2005 dengan memperhatikan hubungan antar peubahnya.
Tujuan
Tujuan penelitian ini adalah :
1. Menggerombolkan desa/kelurahan di
wilayah Jawa Barat menggunakan metode Two Step Cluster dan menjelaskan karakteristik masing-masing gerombol (sebelum dan sesudah pereduksian peubah).
2. Membandingkan hasil penggerombolan antara sebelum dan sesudah pereduksian peubah.
TINJAUAN PUSTAKA
Analisis GerombolAnalisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan karakteristik-karakteristiknya. Analisis gerombol mengklasifikasikan objek sehingga setiap objek yang terdapat di dalam satu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan. Hasil dari pengelompokkan harus memperlihatkan keragaman yang kecil di dalam satu gerombol dan keragaman yang besar antar gerombol (Hair et al, 1998). Ada dua metode yang sudah umum dilakukan dalam analisis gerombol, yaitu metode hirarki dan metode non hirarki.
Metode Hirarki
Metode penggerombolan berhirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini ditujukan untuk ukuran data yang kecil (n < 500). Metode penggerombolan berhirarki ini dibedakan menjadi dua yaitu metode penggabungan (agglomerative) dan metode pemisahan (divisive) (Hair et al, 1998).
Metode agglomerative dimulai dengan n buah gerombol yang masing-masing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat digabung dan ditentukan k