KAJIAN METODE PENGGEROMBOLAN DUA TAHAP
UNTUK DATA YANG MENGANDUNG PENCILAN
ARNI NURWIDA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER
INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan adalah benar karya saya dengan arahan dari komisi pembimbing dan belum pernah diajukan dalam bentuk apa pun kepada perguruan tinggi atau lembaga mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Maret 2014 Arni Nurwida NIM G14080022
ABSTRAK
ARNI NURWIDA. Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan. Dibimbing oleh KUSMAN SADIK dan INDAHWATI.
Analisis gerombol seringkali ditemui dalam berbagai penelitian. Analisis gerombol klasik, seperti metode penggerombolan berhierarki dan k-rataan tidak dapat menangani peubah penggerombolan yang bertipe kategorik maupun campuran dari numerik dan kategorik. Selain itu, penentuan banyaknya gerombol optimal masih tergantung dari subjektivitas peneliti serta tidak dapat menangani data yang berukuran sangat besar, yaitu lebih besar dari 500. Salah satu pendekatan untuk menangani masalah ini adalah dengan menggunakan metode penggerombolan dua tahap. Keakuratan metode penggerombolan dua tahap
dalam menduga banyaknya gerombol yang dihasilkan serta dalam
pengklasifikasian keanggotaan gerombol khususnya pada data yang mengandung pencilan merupakan hal yang penting untuk dikaji. Pada data yang mengandung pencilan kecil (1%), metode ini memberikan hasil yang lebih akurat dibandingkan dengan data yang mengandung pencilan besar (5% atau 15%). Penggunaan besaran penanganan pencilan pada data yang mengandung pencilan harus lebih besar daripada besaran pencilannya itu sendiri. Metode penggerombolan dua tahap sangat akurat dalam menghasilkan banyaknya gerombol yang sesuai dengan banyaknya gerombol populasi sebenarnya pada data yang tidak mengandung pencilan, khususnya pada peubah yang sebagian besar bertipe numerik dan sisanya kategorik. Penggerombolan Desa/Kelurahan di Indonesia berdasarkan faktor kemajuan dan ketertinggalan desa dengan menggunakan metode penggerombolan dua tahap menghasilkan 7 gerombol optimal.
Kata kunci: analisis gerombol, data pencilan, metode penggerombolan dua tahap
ABSTRACT
ARNI NURWIDA. Assessment Method for Two-Step Clustering Data Containing Outliers. Supervised by KUSMAN SADIK and INDAHWATI.
Cluster analysis is often encountered in various studies. Analysis of classical clusters, such as hierarchical clustering method and k-means clustering cannot handle categorical variables or a mixture of numerical and categorical. In addition, the determination of the optimal number of clusters are still dependent on the subjectivity of the researcher and cannot handle very large datasets, which is larger than 500. One approach to addressing this problem is to use a two-step clustering method. The accuracy of the two-step clustering method of predicting the number of clusters generated as well as the classification of cluster membership, especially in the data containing outliers is important to be studied. Outliers in the data containing a small (1%), this method provides more accurate compared with the results of data containing a large outliers (5% or 15%). Scale use of outliers handling in the data containing outliers must be greater than the amount of outliers itself. Two-step clustering method is very accurate in producing a number of clusters associated with the actual number of population clusters that do not contain data outliers, especially in the most variable of type numeric and categorical rest. Clustering villages in Indonesia by a factor of progress and backwardness villages using a two-step clustering method generates optimal cluster 7.
KAJIAN METODE PENGGEROMBOLAN DUA TAHAP
UNTUK DATA YANG MENGANDUNG PENCILAN
ARNI NURWIDA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2014
Judul Skripsi: Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan
Nama : Arni Nurwida
NIM : G14080022
Disetujui oleh
Dr. Ir. Kusman Sadik, M.Si Dr. Ir. Indahwati, M.Si
Pembimbing I Pembimbing II
Diketahui oleh
Dr. Anang Kurnia, M.Si. Ketua Departemen
Judul Skripsi: Kajian Metode Penggerombolan Dna Tahap untuk Data yang a Mengandung Pencil an
Nam : Ami Nurwida
NlM : G 14080022
Disetujui oleh
Dr. Ir. Kusman Sadik, M.Si Dr. Jr. Indahwati, M.Si Pembimbing I Pembimbing II
Diketahui o]eh
,_":-::"" ,
.... .
2
Dr. Anang K 'a, M.Si.
pKetua Departemen
PRAKATA
Alhamdulillah, segala puji penulis panjatkan kehadirat Allah SWT atas rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Shalawat serta salam penulis haturkan kepada nabi besar Muhammad SAW serta kepada para keluarga, sahabat dan umatnya yang senantiasa istiqomah hingga akhir zaman. Karya ilmiah yang disusun sejak bulan Desember 2012 sampai dengan Maret 2013 ini berjudul Metode Penggerombolan Dua Tahap untuk Peubah Bertipe Campuran.
Penulis menyampaikan terima kasih kepada semua pihak yang telah membantu, antara lain kepada Bapak Dr. Ir. Kusman Sadik, M.Si dan Ibu Dr. Ir. Indahwati, M.Si selaku komisi pembimbing yang telah memberikan bimbingan, arahan, serta masukan selama proses penulisan karya ilmiah ini. Bapak, Ibu, Mbak Ayis, Rathi dan Mas Hasnan atas doa, semangat, bantuan, dan kasih sayang yang diberikan kepada penulis. Bapak Dr. Ir. Hari Wijayanto, M.Si. beserta seluruh staf pengajar Departemen Statistika Institut Pertanian Bogor yang telah memberikan berbagai bekal ilmu selama penulis melaksanakan studi di Departemen Statistika. Seluruh staf administrasi dan karyawan Departemen Statistika yang selalu siap membantu penulis dalam menyelesaikan berbagai keperluan terkait penyelesaian karya ilmiah ini. Aci, Ami, Dania, Ai, Nurul dan Didin atas segala masukan, diskusi dan motivasinya. Mba Dwi, Ika, Pujul, Sumi, Muti, Risa, Kak Ery, Kak Kindy, Kak Arjun, Kak Miftah, Mbak Endang, Abas, Titi, Iril, Adit, Yekti, Hepi, Tika, Nopi, Eka, Fathia, Ida, Yuyun, Arbi, Endah, Herlin, Ririn, Dina, Rida, Eka, Chanifah, Neng, Rey, Riza, Nyama, Fika, Gita, Yusti, Suci, Zaiful, Ita, Sonia, Nahdhi, Aini, Nurul, Dian, Banu, Fatul, Andi, Aziz, Hendi, Ridho, Agit, Winda, Anggun, Ririn, Euis, Salsa, Indah, Yasin, Okta, Hamdan, Faiz, Aldi, Wulan, Nada, Carissa, Sarah, Sunny, Sarah, Andri, Nova, Gita, Hesti, Indri, dan Nita atas segala motivasi dan dukungannya. Kakak-kakak STK 44 serta adik-adik STK 46 dan STK 47. Serta seluruh pihak yang telah memberikan dukungan, do’a dan motivasi dalam penyelesaian karya ilmiah ini.
Semoga segala kebaikannya dibalas oleh Allah SWT dan semoga karya ilmiah ini bermanfaat bagi semua orang yang membacanya.
Bogor, Maret 2014 Arni Nurwida
DAFTAR ISI
DAFTAR TABEL viii
DAFTAR GAMBAR viii
DAFTAR LAMPIRAN viii
PENDAHULUAN 1 Latar Belakang 1 Tujuan 2 TINJAUAN PUSTAKA 2 Desa/Kelurahan Tertinggal 2 Analisis Gerombol 2 Metode Berhirarki 2
Metode Tak Berhirarki 2
Metode Penggerombolan Dua Tahap 3
Tahap Pertama: Pembentukan Gerombol Awal 3
Penanganan Pencilan 4
Tahap Kedua: Pembentukan Gerombol Optimal 5
METODOLOGI 6
Data 6
Metode Penelitian 7
Metode Pembangkitan Data 7
Penerapan pada Data Riil 9
HASIL DAN PEMBAHASAN 9
Kajian pada Kasus Data Khusus 9
Penerapan pada Data Riil 11
Deskripsi Data 11
Pereduksian Data 11
Penggerombolan dengan Metode Penggerombolan Dua
Tahap 12
Karakteristik Gerombol Desa/Kelurahan 13
KESIMPULAN DAN SARAN 16
Kesimpulan 16
Saran 16
DAFTAR PUSTAKA 17
DAFTAR TABEL
1 Kriteria 2 model peubah campuran 6
2 Kombinasi data simulasi 7
3 Pembangkitan ukuran data gerombol dan proporsi pencilan 7
4 Kriteria nilai transformasi untuk peubah kategorik 8
5 Ilustrasi salah klasifikasi 9
6 Persentase salah banyaknya gerombol yang dihasilkan dengan banyaknya gerombol populasi sebenarnya
10 7 Persentase salah klasifikasi gerombol yang dihasilkan dengan
banyaknya gerombol populasi sebenarnya
10 8 Penggerombolan Dua Tahap dengan kriteria penggerombolan BIC 12
9 Distribusi hasil penggerombolan 12
10 Frekuensi dan persentase peubah kategorik pada setiap gerombol 13
11 Rentang nilai pada setiap peubah numerik 15
DAFTAR GAMBAR
1 Grafik tingkat kepentingan peubah kategorik 𝑋2 pada setiap gerombol 14 2 Grafik tingkat kepentingan peubah kategorik 𝑋5 pada setiap gerombol 14
DAFTAR LAMPIRAN
1 Daftar peubah penggerombolan sebelum dilakukan pereduksian 18
2 Diagram alir metode pembangkitan data 19
3 Diagram alir metode penggerombolan dua tahap pada data riil 21 4 Grafik tingkat kepentingan peubah numerik pada setiap gerombol 22 5 Tingkat rataan nilai peubah numerik pada setiap gerombol 23
PENDAHULUAN
Latar Belakang
Analisis gerombol adalah salah satu analisis peubah ganda yang bertujuan untuk menggerombolkan objek (individu atau amatan) menjadi beberapa gerombol berdasarkan pengukuran kemiripan atau ketakmiripan. Permasalahan utama dalam penerapan analisis gerombol adalah peubah penggerombolan bertipe kategorik maupun campuran dari numerik dan kategorik. Algoritma analisis gerombol klasik seperti metode penggerombolan berhierarki dikembangkan untuk peubah numerik berskala interval atau rasio saja, walaupun telah tersedia pilihan berbagai konsep jarak untuk peubah biner. Sementara itu, metode k-rataan (k-means) mensyaratkan peubah penggerombolan berskala rasio, interval, atau biner. Permasalahan lainnya adalah banyaknya objek yang ingin digerombolkan relatif sangat besar, yaitu lebih besar dari 500 dan penentuan banyaknya gerombol optimal membutuhkan uji statistik. Penggerombolan berhierarki dikembangkan untuk banyaknya objek yang relatif kecil, yaitu umumnya kurang dari 250 dan penggerombolan k-rataan dikembangkan untuk banyaknya objek yang relatif besar yaitu lebih besar dari 200 (Garson 2012). Di samping itu, pada penggerombolan berhierarki maupun k-rataan, penentuan banyaknya gerombol optimal sangat ditentukan oleh subjektivitas peneliti dan tidak terdapat uji statistik untuk mengetahui ketepatan banyaknya gerombol optimal sehingga hasil penggerombolan sangat bergantung pada pengetahuan, pengalaman, serta subjektivitas peneliti (Hair et al. 2010).
Metode Penggerombolan Dua Tahap (Two Step Clustering) dapat mengatasi peubah bertipe kategorik maupun campuran dari numerik dan kategorik (Chiu et al. 2001). Selain itu, dapat mengatasi data yang berukuran sangat besar, yaitu lebih besar dari 500 dan penentuan banyaknya gerombol optimal dilakukan melalui uji statistik (Bacher et al. 2004).
Selanjutnya keakuratan metode penggerombolan dua tahap dalam menduga banyaknya gerombol yang dihasilkan maupun dalam pengklasifikasian keanggotaan gerombol khususnya pada data yang mengandung pencilan merupakan hal yang penting untuk dikaji. Hal ini disebabkan karena banyak data yang ditemui di lapang merupakan data yang mengandung pencilan dan pencilan tersebut merupakan data atau amatan berpengaruh yang tidak mungkin dihilangkan sehingga perlu diikutkan dalam proses analisisnya.
Kudsiati (2006) telah melakukan penelitian, yaitu mengkaji keakuratan metode penggerombolan dua tahap dalam menentukan banyaknya gerombol namun hanya sebatas pada data yang tidak mengandung pencilan. Oleh sebab itu, penelitian ini ingin mengkaji metode penggerombolan dua tahap pada data yang mengandung pencilan, kemudian melakukan penggerombolan desa/kelurahan di Indonesia berdasarkan faktor kemajuan atau ketertinggalan desa yang terdapat dalam data Podes tahun 2011 dengan menggunakan metode penggerombolan dua tahap.
2
Tujuan
Tujuan penelitian ini adalah mengkaji metode penggerombolan dua tahap untuk data yang mengandung pencilan dalam hal (1) menduga banyaknya gerombol yang dihasilkan dibandingkan banyaknya gerombol populasi sebenarnya, dan (2) pengklasifikasian keanggotaan gerombol.
TINJAUAN PUSTAKA
Desa/Kelurahan Tertinggal
RUU PDT (Rancangan Undang-Undang Pembangunan Daerah Tertinggal) dalam Bab I Pasal 1 Nomor 2 menjelaskan bahwa desa tertinggal adalah desa yang berdasarkan kriteria ditetapkan sebagai desa tertinggal. Beberapa faktor diduga menjadi penyebab kemajuan atau ketertinggalan suatu desa, yaitu (1) faktor alam/lingkungan, (2) faktor kelembagaan, (3) faktor sarana, prasarana dan akses, serta (4) faktor sosial ekonomi penduduk.
Analisis Gerombol
Analisis gerombol adalah analisis statistik peubah ganda yang digunakan untuk mencari pola dari suatu gugus data dengan mengelompokkan n objek yang mempunyai p peubah ke dalam k gerombol. Tujuannya adalah untuk menemukan penggerombolan optimal dimana objek-objek yang berada dalam satu gerombol adalah mirip sedangkan yang berada dalam gerombol-gerombol yang berbeda adalah tidak mirip (Rencher 2002), dan penggerombolannya dilakukan berdasarkan basis kemiripan atau ketakmiripan (Johnsons dan Wichern 2007).
Menurut Hair et al. (2010) terdapat tiga metode dalam analisis gerombol, yaitu (1) metode berhierarki, (2) metode tak berhierarki dan (3) penggabungan kedua metode penggerombolan tersebut. Dengan rumitnya masalah yang dihadapi dalam menggerombolkan gugus data berukuran sangat besar, mendorong berkembangnya teknik-teknik penggerombolan baru yang prosesnya dilakukan secara bertahap, salah satunya adalah metode penggerombolan dua tahap.
Metode Berhierarki
Metode penggerombolan berhierarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Menurut Garson (2012), metode ini cocok untuk ukuran data yang relatif kecil, yaitu kurang dari 250.
Metode berhierarki dibedakan menjadi dua, yaitu metode penggabungan dan metode pemisahan (Hair et al. 2010). Jenis peubah yang dapat digerombolkan dengan metode berhierarki adalah peubah numerik (rasio dan interval) serta fungsi jarak yang umum digunakan adalah jarak Euclidean atau jarak Mahalanobis.
Metode Tak Berhierarki
Metode peggerombolan tak berhierarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Contoh dari metode tak
3
berhierarki adalah rataan. Garson (2012) mengemukakan bahwa metode k-rataan cocok digunakan pada data yang berukuran besar, yaitu lebih besar dari 200 serta menggunakan konsep jarak Euclidean sehingga peubah kriteria penggerombolannya haruslah semuanya berskala rasio atau interval.
Metode Penggerombolan Dua Tahap
Algoritma metode penggerombolan dua tahap dikembangkan oleh Chiu et al. (2001). Metode penggerombolan dua tahap relatif baru, dan seperti yang dikemukakan oleh Hair et al. (2010), metode ini dikembangkan untuk menangani peubah bertipe campuran dari numerik dan kategorik serta untuk data yang berukuran sangat besar, yaitu lebih besar dari 500.
Fungsi jarak yang digunakan adalah jarak Euclidean atau jarak log-likelihood (Bacher et al. 2004). Jarak Euclidean hanya dapat digunakan apabila semua peubah yang digunakan bertipe numerik. Dimisalkan ada dua gerombol, yaitu gerombol j dan s, dan dari p peubah maka jarak Euclidean antara kedua gerombol dapat didefinisikan sebagai berikut:
d(j,s) = { 𝑝𝑗 =1 𝑥 𝑗 − 𝑥 𝑠 2}1 2
Dimana d(j,s) menunjukkan jarak antara gerombol j dengan s, 𝑥 𝑗 adalah nilai tengah gerombol ke-j, 𝑥 𝑠 adalah nilai tengah gerombol ke-s, dan p adalah
banyaknya peubah penggerombolan.
Sedangkan jarak log-likelihood digunakan untuk peubah bertipe campuran dari numerik dan kategorik. Jarak antara gerombol j dan s didefinisikan sebagai berikut: d(j,s) = 𝜉𝑗 + 𝜉𝑠 − 𝜉(𝑗 ,𝑠) , dimana: 𝜉𝑗 = − 𝑁𝑗 log (𝜎𝑘2+𝜎𝑗𝑘2) 2 𝐾𝐴 𝑘=1 + 𝐾 𝐸𝑗𝑘 𝐵 𝑘=1 𝐸𝑗𝑘 = − 𝑁𝑁𝑗𝑘𝑙 𝑗 𝐿𝑘 𝑙=1 log 𝑁𝑗𝑘𝑙 𝑁𝑗
Selanjutnya, (j,s) adalah indeks gerombol yang dibentuk dari menggabungkan gerombol j dengan s, 𝑁𝑗 adalah jumlah objek di gerombol j, 𝐾𝐴 adalah jumlah peubah bertipe numerik, 𝐾𝐵 adalah jumlah peubah bertipe kategorik, 𝜎𝑘2 adalah ragam dari peubah numerik ke-k di dalam keseluruhan gugus
data, 𝜎𝑗𝑘2 adalah ragam dari peubah numerik ke-k di dalam gerombol j, 𝐿𝑘 adalah
jumlah kategori untuk peubah kategorik ke-k, dan 𝑁𝑗𝑘𝑙 adalah jumlah objek di dalam gerombol j untuk peubah kategorik ke-k dengan kategori ke-l.
Ukuran jarak log-likelihood didasarkan pada tiga asumsi, yaitu peubah penggerombolannya saling bebas, peubah kategorik diasumsikan berdistribusi multinomial, dan peubah numerik diasumsikan berdistribusi normal. Metode penggerombolan dua tahap cukup kekar (robust) terhadap asumsi kebebasan dan asumsi distribusi tersebut (Norusis 2010).
Tahap Pertama: Pembentukan Gerombol Awal
Tahap pertama dari penggerombolan dua tahap adalah pembentukan gerombol awal (pre-clustering) yang menggunakan pendekatan penggerombolan secara sekuensial (Li dan Sun 2011). Pendekatan ini diimplementasikan dengan membentuk Pohon Ciri Gerombol (Cluster Feature Tree/ CF Tree) (Zhang et al. 1996).
4
Pohon ciri gerombol terdiri dari beberapa tingkatan cabang (nodes) dan masing-masing cabang berisikan objek yang dientrikan (entries). Apabila dimisalkan sebuah pohon maka tingkatan cabang tersebut terdiri dari batang pohon, dahan dan daun. Pada pohon ciri gerombol, tingkatan daun yang terdapat pada cabang dinamakan daun entri (Leaf Entry) atau entrain pada cabang daun yang merepresentasikan hasil akhir anak gerombol atau sub gerombol (subcluster).
Algoritma pertama pada pohon ciri gerombol adalah memasukkan objek satu per satu secara acak (SPSS Technical Report 2001). Objek yang masuk dihitung jaraknya pada daun entri yang telah ada dengan menggunakan ukuran jarak yang telah ditentukan. Apabila jarak tersebut kurang dari kriteria ukuran penerimaan (threshold distance) maka objek tersebut masuk ke dalam daun entri yang telah ada, tetapi jika sebaliknya maka objek membentuk daun entri baru.
Jika suatu cabang daun tidak lagi memiliki ruang untuk menambah daun entri baru maka cabang daun tersebut akan dipecah menjadi dua. Apabila dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Berlaku pula untuk cabang dahan membelah menjadi dua grup (pohon). Proses ini berlanjut sampai semua objek selesai dimasukkan.
Jika pohon ciri gerombol berkembang melewati batas ukuran maksimum ruang maka pohon ciri gerombol yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. Pohon ciri gerombol yang melewati batas ukuran maksimum biasanya dikarenakan pada saat proses algoritma pohon ciri gerombol dijalankan, terbentuk daun entri yang beranggotakan pencilan. Pencilan pada metode penggerombolan dua tahap adalah data yang tidak dapat dimasukkan ke dalam gerombol manapun sehingga dimasukkan ke dalam satu gerombol yang baru. Pada saat pohon ciri gerombol akan dibangun ulang maka akan diperiksa daun entri yang berpotensi sebagai pencilan.
Pencilan diasumsikan menyebar mengikuti sebaran seragam. Ketika mendeteksi, suatu objek dinyatakan sebagai pencilan atau tidak, dilakukan perhitungan jarak log-likelihood dari objek yang bersangkutan ke daun entri terdekat yang bukan merupakan pencilan (closest non noise cluster). Objek yang diduga sebagai pencilan dimasukkan ke dalam daun entri terdekat yang bukan merupakan pencilan bilamana jarak log-likelihood lebih kecil dari titik kritis:
C = log (V), dimana
V = ∏𝑅𝑘 ∏𝐿𝑚
Selanjutnya, 𝑅𝑘 menunjukkan range dari peubah kontinu ke-k dan 𝐿𝑚 adalah
banyaknya kategori untuk peubah kategori ke-m.
Selain itu, Bacher (2000) dalam Kudsiati (2006) menjelaskan bahwa bila terjadi tumpang tindih antara dua gerombol yang saling berdekatan akan memungkinkan terjadinya penduga yang bias bagi profil gerombol. Kelompok data yang dapat mengakibatkan terjadinya bias dalam penetapan keanggotaan gerombol disebut sebagai pencilan atau gangguan (noise). Mengatasi hal ini, Bacher (2004) menyarankan agar pengguna SPSS menentukan nilai opsi penanganan pencilan, misalnya sebesar 5 (=5%).
Algoritma pohon ciri gerombol yang digunakan sesuai dengan standar program SPSS, yaitu banyaknya tingkat cabang maksimum (depth) adalah 3 dan
5
banyaknya objek per cabang maksimum adalah 8. Dengan demikian, banyaknya dahan daun maksimum sebanyak 83 = 512 anak gerombol (Bacher et al. 2004).
Tahap Kedua: Pembentukan Gerombol Optimal
Tahap kedua adalah pembentukan gerombol akhir yang ditandai dengan terbentuknya gerombol optimal. Daun entri dari pohon ciri gerombol hasil tahap pertama dan tanpa mengikutsertakan pencilan digerombolkan menggunakan metode penggerombolan berhierarki penggabungan (Norusis 2010), yaitu dimulai dengan mengasumsikan bahwa setiap objek merupakan satu gerombol, dan selanjutnya secara bertahap dilakukan penggabungan pada objek-objek yang paling dekat (Hair et al. 2010).
Pada tahap kedua ini, penentuan jumlah gerombol optimal ditentukan secara otomatis dengan melalui dua langkah (Li dan Sun 2011). Langkah pertama adalah menghitung nilai Kriteria Informasi Bayes/Akaike (Bayesian/Akaike Information Criterion/ BIC/AIC) untuk setiap gerombol. Kriteria informasi BIC dan AIC untuk j buah gerombol dirumuskan sebagai berikut:
𝐵𝐼𝐶𝑗 = −2 𝐽𝑗 =1𝜉𝑗 + 𝑚𝐽 log 𝑁
𝐴𝐼𝐶𝑗 = −2 𝐽𝑗 =1𝜉𝑗 + 2𝑚𝐽, dimana:
𝑚𝐽 = J 2𝐾𝐴+ 𝐾 𝐿𝐾 − 1
𝐵
𝑘=1 dan N adalah jumlah total data.
Kontribusi dari masing-masing peubah dalam pembentukan setiap gerombol dilakukan melalui uji t-Student untuk peubah numerik dan uji khi-kuadrat untuk peubah kategorik (Schiopu 2010).
𝑡 = 𝜇 𝑘 − 𝜇 𝑗𝑘 / 𝜎 𝑗𝑘 𝑁𝑗 1 2 𝜒2 = 𝑁𝑗𝑘𝑙 𝑁𝑘𝑙 − 1 2 𝐿𝑘 𝑙=1
Dimana 𝜇 𝑘 adalah estimasi rataan dari peubah numerik ke-k di dalam
keseluruhan gugus data, dan 𝜇 𝑗𝑘 adalah estimasi rataan dari peubah numerik ke-k
di dalam gerombol j. Hipotesis nol (𝐻0) menyatakan bahwa peubah tidak berpengaruh pada pembentukan gerombol. 𝑁𝑘𝑙 adalah jumlah objek di dalam keseluruhan gugus data untuk peubah kategorik ke-k dengan kategori ke-l. Derajat bebas uji t-Student adalah 𝑁𝑗 dan uji khi-kuadrat adalah 𝐿𝑘 dengan kasus dua arah. Di dalam Bacher et al. (2004), Chiu et al. (2001) mengemukakan 𝐵𝐼𝐶𝑗 atau
𝐴𝐼𝐶𝑗 menghasilkan penduga awal yang baik bagi banyaknya gerombol
maksimum. Banyaknya gerombol maksimum ditentukan sama dengan banyaknya gerombol yang memiliki rasio perubahan BIC (Ratio of BIC Change) 𝐵𝐼𝐶𝑗/𝐵𝐼𝐶𝑘
yang pertama kali lebih kecil dari 𝑐1 (SPSS menetapkan 𝑐1 = 0.04 yang didasarkan atas studi simulasi) (SPSS Technical Report 2001).
Selanjutnya dalam langkah kedua, digunakan nilai rasio ukuran jarak (Ratio
of Distance Measure) untuk j buah gerombol, yaitu R(j) = 𝑑𝑗 −1/𝑑𝑗. Dimana 𝑑𝑗 −1
adalah jarak jika j buah gerombol digabungkan menjadi j-1 gerombol. Jarak 𝑑𝑗
dapat diperoleh dari hasil perhitungan 𝑑𝑗 = 𝑙𝑗 −1− 𝑙𝑗, dimana: 𝑙𝑣 = (𝑟𝑣 𝑙𝑜𝑔 𝑛 − 𝐵𝐼𝐶𝑣) 2 atau
6
Banyaknya gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio ukuran jarak untuk dua nilai terbesar dari R(j) (j = 1,2,…, 𝑗𝑚𝑎𝑥; 𝑗𝑚𝑎𝑥 didapatkan dari langkah
pertama) dihitung dengan 𝑅(𝑗1)/𝑅(𝑗2).
Jika rasio perubahan lebih besar daripada nilai batas 𝑐2 (SPSS menetapkan
nilai 𝑐2 = 1.15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama
dengan 𝑗1, selainnya banyak gerombol sama dengan maksimum 𝑗1, 𝑗2.
METODOLOGI
Data
Data yang digunakan dalam penelitian ini adalah data simulasi dan data riil. Data simulasi didapatkan melalui pembangkitan data dengan menggunakan perangkat lunak statistika, sedangkan data riil didapatkan dari data Podes tahun 2011 khususnya pada peubah-peubah yang menjadi kriteria kemajuan atau ketertinggalan suatu desa. Peubah-peubah tersebut dapat dilihat pada Lampiran 1. Data Podes 2011 terdiri atas 77961 objek desa/kelurahan di Indonesia.
Data simulasi yang dibangkitkan merupakan data dengan kasus khusus. Data bangkitan berasal dari data yang menyebar Normal (i, 𝜎2 = 1) yang kemudian disebut sebagai data populasi dengan i = gerombol 1, 2, dan 3. Data populasi ini beranggotakan 3 gerombol yang saling tumpang tindih satu sama lain (overlap) atau tidak terpisah secara tegas. Peubah yang dibangkitkan merupakan peubah campuran numerik dan kategorik dengan asumsi saling bebas, model komposisi peubahnya disajikan pada Tabel 1.
Tabel 1 Kriteria 2 model peubah campuran
Peubah Kriteria
V1 Peubah campuran dengan sebagian besar bertipe numerik (10) dan sisanya kategorik (3)
V2 Peubah campuran dengan sebagian besar bertipe kategorik (10) dan sisanya numerik (3)
Setiap peubah numerik pada gerombol 1 dibangkitkan dari sebaran yang sama, yaitu menyebar Normal (1,1), begitu pula untuk setiap peubah numerik pada gerombol 2 dibangkitkan dari sebaran yang sama, yaitu menyebar Normal (2,1) dan setiap peubah numerik pada gerombol 3 dibangkitkan dari sebaran yang sama pula, yaitu menyebar Normal (3,1).
Data populasi ini diberikan pencilan dengan pencilan ditempatkan secara sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada objek yang sama. Banyaknya pencilan data yang dibangkitkan terdiri atas 0%, 1%, 5%, dan 15% dari keseluruhan data bangkitan. Ukuran data (N) yang dibangkitkan terdiri atas 100, 500, dan 1000 data bangkitan. Kombinasi data simulasi pada penelitian ini dapat dilihat pada Tabel 2.
Rancangan faktorial lengkap digunakan untuk mengkombinasikan berbagai kemungkinan dari setiap faktor yang dievaluasi, yaitu terdapat 24 (1x2x3x4)
7
kombinasi data. Setiap kombinasi akan diulang sebanyak 30 kali sehingga diperlukan data bangkitan untuk dianalisis sebanyak 720 gugus data.
Tabel 2 Kombinasi data simulasi
Model peubah campuran Ukuran data Pencilan data (%) 100 0, 1, 5, 15 V1 500 0, 1, 5, 15 1000 0, 1, 5, 15 100 0, 1, 5, 15 V2 500 0, 1, 5, 15 1000 0, 1, 5, 15 Metode Penelitian Metode Pembangkitan Data
Metode pembangitan data yang ditampilkan adalah untuk model peubah campuran V1, ukuran data sebesar 500 dan banyaknya pencilan sebesar 5%. 1. Menetapkan parameter 1,2,3, 1,2 dan3 dimana 1 = −6, 2 = 0, 3 =
6, 1 = −70, 2 = 70, 3 = 90 dan ragam 𝜎2 = 1.
2. Membangkitkan 𝑋𝑝×𝑛1~N(1,1), 𝑋𝑝×𝑛2~N(2,1) dan 𝑋𝑝×𝑛3~N(3,1) untuk data peubah numerik gerombol 1, gerombol 2 dan gerombol 3 dengan n1 = 30% × N, n2 = 35% × N, n3 = 35% × N, N = 475 dan p atau jumlah peubah = 10. Setiap peubah (𝑥1,…,𝑥10) dari gerombol 1 memiliki sebaran yang sama, yaitu N(μ1,1), begitu pula untuk setiap peubah (𝑥1,…,𝑥10) dari gerombol 2
Tabel 3 Pembangkitan ukuran data gerombol dan proporsi pencilan
Pencilan Kelompok N=100 N=500 N=1000 n1=30, n2=35, n3=35 n1=150, n2=175, n3=175 n1=300, n2=350, n3=350 n n* n n* n n* 0% 1 30 0 150 0 300 0 2 35 0 175 0 350 0 3 35 0 175 0 350 0 1% 1 30 0 148 2 297 3 2 35 0 173 2 346 4 3 35 0 173 2 346 4 5% 1 28 2 142 8 285 15 2 33 2 166 9 332 18 3 33 2 166 9 332 18 15% 1 25 5 127 23 255 45 2 30 5 149 26 297 53 3 30 5 149 26 297 53 n1 = 30% × N, n2 = 35% × N, n3 = 35% × N; n: jumlah amatan,
8
memiliki sebaran yang sama, yaitu N(μ2,1) dan setiap peubah (𝑥1,…,𝑥10) dari
gerombol 3 memiliki sebaran yang sama pula, yaitu N(μ3,1). Lalu
menggabungkan data peubah yang sama dari setiap gerombol menjadi satu gugus data peubah tersebut. Lebih jelasnya dapat dilihat pada Tabel 3.
3. Membangkitkan 𝑌𝑝×𝑛1~N(1,1), 𝑌𝑝×𝑛2~N(2,1) dan 𝑌𝑝×𝑛3~N(3,1) sebagai sumber data peubah kategorik gerombol 1, gerombol 2 dan gerombol 3 dengan n1 = 30% × N, n2 = 35% × N, n3 = 35% × N, N = 500 dan p = 3 seperti pada Tabel 3.
4. Mentrasformasi data Y yang diperoleh dari langkah 3 menjadi data bertipe kategorik seperti ditunjukkan pada Tabel 4. Cara ini hanyalah salah satu cara metode membuat data peubah kategorik.
Tabel 4 Kriteria nilai transformasi untuk peubah kategorik Peubah Kategori Jumlah Kategori Nilai Kategori
Kriteria nilai transformasi peubah Y ke-
1 2 3 𝑋11 2 Kategori 1 x > -6 x > 0 x > 6 2 x ≤ -6 x ≤ 0 x ≤ 6 3 Kategori 1 x > -4 x > 2 x > 8 𝑋12 2 -8 < x ≤ -4 -2 < x ≤ 2 4 < x ≤ 8 3 x ≤ -8 x ≤ -2 x ≤ 4 4 Kategori 1 x > -4 x > 2 x > 8 𝑋13 2 3 -6 < x ≤ -4 -8 < x ≤ -6 -2 < x ≤ 0 0 < x ≤ 2 6 < x ≤ 8 4 < x ≤ 6 4 x ≤ -8 x ≤ -2 x ≤ 4
5. Membangkitkan 𝑍𝑝×𝑛1~N(1,1), 𝑍𝑝×𝑛2~N(2,1) dan 𝑍𝑝×𝑛3~N(3,1) sebagai data pencilan 5% untuk gerombol 1, gerombol 2 dan gerombol 3 dengan n1 = 30% × N, n2 = 35% × N, n3 = 35% × N, N = 25, dan p = 10 seperti ditunjukkan pada Tabel 3.
6. Menggabungkan data gerombol 1 beserta pencilannya, gerombol 2 beserta pencilannya dan data gerombol 3 beserta pencilannya ke dalam 1 gugus data dengan pencilan ditempatkan secara sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada objek yang sama.
7. Melakukan uji pencilan univariat terhadap data bangkitan peubah numerik beserta pencilannya dengan melihat nilai baku Z data {Z = (x - µ) / σ}. Suatu data dikatakan data pencilan jika memiliki nilai baku Z lebih besar dari 3 atau kurang dari -3 (Hair et al. 2010).
8. Melakukan penggerombolan dengan metode penggerombolan dua tahap dengan membandingkan nilai penanganan pencilan sebesar 1%, 5% dan 15%, serta tanpa melakukan penanganan pencilan atau 0%.
9. Mengulangi langkah 1-8 sebanyak 30 kali ulangan.
10. Mengukur tingkat keakuratan algoritma penggerombolan dua tahap dalam mendeteksi banyaknya gerombol sebenarnya. Tingkat keakuratan (A) didefinisikan sebagai persentase jumlah percobaan yang menghasilkan banyaknya gerombol yang sama dengan gerombol sebenarnya, yaitu A =
𝑋𝑖
9
sama dengan banyaknya gerombol sebenarnya dan bernilai 0 jika selainnya dan N adalah banyaknya ulangan percobaan, yaitu sebanyak 30 ulangan. 11. Melakukan perhitungan tingkat salah klasifikasi dari anggota gerombol, yaitu
total persentase semua objek yang berasal dari suatu gerombol namun teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan. Hal ini diilustrasikan pada Tabel 5.
Tabel 5 Ilustrasi salah klasifikasi Hasil penggerombolan
Keanggotaan pada populasi yang sebenarnya
Populasi 1 Populasi 2
Gerombol-1 𝑛1 𝑛2
Gerombol-2 𝑛3 𝑛4
Salah klasifikasi pada 2 gerombol adalah (𝑛2 + 𝑛3) / (𝑛1 + 𝑛2+ 𝑛3 + 𝑛4) 12. Mengulangi langkah 1-12 untuk setiap kombinasi data simulasi (Tabel 2)
dengan jumlah data dan jumlah pencilan disajikan pada Tabel 2.
Diagram alir (flowchart) metode pembangkitan data dapat dilihat pada Lampiran 2.
Penerapan pada Data Riil
Berikut adalah langkah-langkah untuk penerapan pada data riil. 1. Melakukan standarisasi peubah numerik ke bentuk baku Z.
2. Melakukan pemeriksaan hubungan antar peubah. Peubah numerik menggunakan nilai korelasi Pearson, sedangkan untuk peubah kategorik menggunakan uji khi-kuadrat.
3. Melakukan pereduksian peubah, yaitu memilih peubah yang saling bebas dari setiap peubah numerik dan kategorik.
4. Melakukan penggerombolan dua tahap terhadap peubah yang sudah direduksi dengan menggunakan ukuran jarak Log-likelihood, kriteria penggerombolan BIC dan menggunakan penanganan pencilan sebesar 15%.
5. Menjelaskan karakteristik dari setiap gerombol optimal yang terbentuk. Taraf nyata (α) yang digunakan adalah sebesar 5%.
Diagram alir metode penggerombolan dua tahap penerapan pada data riil dapat dilihat pada Lampiran 3.
HASIL DAN PEMBAHASAN
Kajian pada Kasus Data Khusus
Data khusus yang dikaji dalam metode penggerombolan dua tahap ini adalah data populasi yang mengandung pencilan dengan pencilan ditempatkan secara sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada objek yang sama, dan setiap peubah numerik pada setiap gerombol dibangkitkan dari sebaran yang sama untuk masing-masing gerombol.
10
Tabel 6 Persentase salah banyaknya gerombol yang dihasilkan dengan banyaknya gerombol populasi sebenarnya
Pencilan (%) Penanganan Pencilan (%) N = 100 (kecil) N = 500 (sedang) N = 1000 (besar) V1 (%) V2 (%) V1 (%) V2 (%) V1 (%) V2 (%) 0 1 0 90 0 87 0 90 5 0 90 0 87 0 90 15 0 90 0 93 0 87 0 0 90 0 87 0 90 1 1 0 90 100 83 100 77 5 0 90 100 83 87 77 15 0 90 83 83 60 80 0 0 90 100 83 100 77 5 1 100 67 100 93 100 93 5 100 67 100 93 100 97 15 100 67 90 87 100 83 0 100 67 100 93 100 93 15 1 3 67 37 93 90 97 5 3 67 37 93 90 97 15 3 67 70 77 100 83 0 3 67 37 93 90 97
V1: peubah campuran sebagian besar bertipe numerik (10) dan sisanya kategorik (3), V2: peubah campuran sebagian besar bertipe kategorik (10) dan sisanya numerik (3).
Tabel 7 Persentase salah klasifikasi gerombol yang dihasilkan dengan gerombol populasi sebenarnya Pencilan (%) Penanganan Pencilan (%) N = 100 (kecil) N = 500 (sedang) N = 1000 (besar) V1 (%) V2 (%) V1 (%) V2 (%) V1 (%) V2 (%) 0 1 0.0 51.0 0.0 54.1 0.0 68.3 5 0.0 51.0 0.0 54.1 0.0 68.3 15 0.0 51.0 0.0 55.9 0.0 67.4 0 0.0 51.0 0.0 54.1 0.0 68.3 1 1 0.0 51.0 65.0 65.7 65.0 65.0 5 0.0 51.0 65.0 65.7 52.3 65.0 15 0.0 51.0 51.7 69.3 38.9 76.2 0 0.0 51.0 65.0 65.8 65.0 65.0 5 1 65.0 62.1 65.0 64.2 62.1 64.7 5 65.0 62.1 65.0 64.2 62.1 64.7 15 65.0 62.1 68.1 66.1 62.1 73.1 0 65.0 62.1 65.0 64.9 62.1 64.8 15 1 55.4 62.8 61.8 64.5 62.8 64.5 5 55.4 62.8 61.8 64.5 62.8 64.5 15 55.4 62.8 66.1 67.6 62.8 67.0 0 55.4 62.9 61.8 64.6 62.9 64.6
V1: peubah campuran sebagian besar bertipe numerik (10) dan sisanya kategorik (3), V2: peubah campuran sebagian besar bertipe kategorik (10) dan sisanya numerik (3).
11
Tabel 6 memperlihatkan persentase salah banyaknya gerombol yang dihasilkan dari metode penggerombolan dua tahap dengan banyaknya gerombol populasi sebenarnya. Selanjutnya Tabel 7 memperlihatkan persentase salah klasifikasi gerombol yang dihasilkan dari metode penggerombolan dua tahap dengan gerombol populasi sebenarnya.
Tabel 6 dan Tabel 7 membuktikan beberapa kesimpulan dari penggunaan metode penggerombolan dua tahap pada kasus data khusus tersebut. Pertama, pada data yang mengandung pencilan kecil, penggunaan metode penggerombolan dua tahap memberikan hasil yang lebih akurat dibandingkan dengan data yang mengandung pencilan besar.
Kedua, pada data yang tidak mengandung pencilan khususnya pada peubah kriteria penggerombolan yang sebagian besar bertipe numerik dan sisanya kategorik, metode ini memberikan hasil yang sangat akurat, sedangkan pada peubah yang sebagian besar bertipe kategorik dan sisanya numerik memberikan hasil yang tidak akurat. Ketiga, disebabkan karena pencilan ditempatkan secara sistematik pada setiap peubah dengan pembagian yang sama serta pada objek yang sama maka metode ini dalam melakukan penggerombolannya akan mendeteksi objek pencilan sebagai suatu gerombol yang terpisah atau sebagai suatu gerombol pencilan atau bahkan keduanya.
Keempat, secara umum metode ini kurang akurat ketika menangani peubah penggerombolan yang sebagian besar bertipe kategorik dan sisanya numerik. Kelima, apabila salah banyaknya gerombol yang dihasilkan tinggi maka salah klasifikasi keanggotaan gerombol cenderung tinggi pula. Terakhir, apabila data mengandung pencilan maka besaran penanganan pencilan yang digunakan harus lebih besar daripada pencilannya itu sendiri.
Penerapan pada Data Riil Deskripsi Data
Desa/kelurahan di Indonesia terdiri atas 77961 desa. Dari data Podes tahun 2011 yang merupakan faktor kemajuan dan ketertinggalan suatu desa, terdapat data pencilan sebesar 1%. Di samping itu, sebagian besar peubah kriteria penggerombolannya bertipe numerik dan sisanya bertipe kategorik.
Pereduksian Peubah
Pereduksian peubah dilakukan untuk memilih peubah-peubah yang saling bebas. Langkah ini dilakukan dengan cara memeriksa hubungan antar peubah. Peubah numerik menggunakan nilai korelasi Pearson, sedangkan untuk peubah kategorik menggunakan uji khi-kuadrat. Khusus untuk peubah numerik dilakukan standarisasi ke bentuk baku (Z) terlebih dahulu.
Dari 52 peubah terpilihlah 23 peubah yang saling bebas yang terdiri dari 21 peubah numerik dan 2 peubah kategorik. Faktor alam dan lingkungan diwakili oleh peubah 𝑋2, faktor kelembagaan diwakili oleh peubah 𝑋5, faktor sarana, prasarana dan akses diwakili oleh peubah 𝑋8, 𝑋10, 𝑋12, 𝑋15, 𝑋24, 𝑋25, 𝑋26, 𝑋27, 𝑋28, 𝑋31, 𝑋32, dan 𝑋33, serta faktor sosial ekonomi penduduk diwakili oleh
12
Penggerombolan dengan Metode Penggerombolan Dua Tahap
Metode penggerombolan dua tahap dilakukan terhadap 23 peubah terpilih yang saling bebas. Ukuran jarak yang digunakan adalah jarak Log-likelihood karena data yang digunakan bertipe campuran dari numerik dan kategorik. Penentuan banyaknya gerombol menggunakan kriteria penggerombolan BIC karena memiliki sifat koreksi terhadap ukuran data (N). Serta menggunakan penanganan pencilan sebesar 15%.
Tabel 8 menunjukkan bahwa nilai rasio perubahan BIC yang pertama kali lebih kecil dari batas nilai konstanta 𝑐1 = 0.040 ada pada solusi 12 gerombol, yaitu
0.039. Hal ini dapat disimpulkan bahwa jumlah gerombol maksimum yang dihasilkan pada tahap pertama sebanyak 12 gerombol.
Tabel 8 Penggerombolan dua tahap dengan kriteria penggerombolan BIC
Gerombol BIC Perubahan
BIC Rasio Perubahan BIC Rasio Ukuran Jarak 1 166072.925 2 135960.748 -30112.176 1.000 1.486 3 115855.692 -20105.056 .668 1.911 4 105561.156 -10294.536 .342 1.284 5 97647.348 -7913.808 .263 1.494 6 92507.030 -5140.318 .171 1.065 7 87709.085 -4797.944 .159 1.883 8 85384.926 -2324.159 .077 1.063 9 83227.250 -2157.676 .072 1.073 10 81248.288 -1978.962 .066 1.033 11 79348.576 -1899.712 .063 1.437 12 78171.091 -1177.485 .039 2.798 13 78056.911 -114.180 .004 1.673 14 78180.522 123.611 -.004 1.137
Pada jumlah gerombol yang kurang dari jumlah gerombol maksimum (12), nilai rasio perubahan gerombol untuk dua nilai rasio ukuran jarak (R(j)) yang terbesar, terdapat pada solusi 3 gerombol (R(j) = 1.911) dan 7 gerombol (R(j) = 1.883). Rasio kedua nilai ini sebesar 1.015 dan lebih kecil dari batas nilai konstanta 𝑐2 = 1.15. Dengan demikian, 7 gerombol merupakan solusi optimal. Pendistribusian desa/kelurahan di setiap gerombol dapat dilihat pada Tabel 9.
Tabel 9 Distribusi hasil penggerombolan
Ket Gerombol
1 2 3 4 5 6 7 Pencilan Total
Jumlah 16024 5349 4729 5981 19959 21395 3434 1090 77961
Prs (%) 20.6 6.9 6.1 7.7 25.6 27.4 4.4 1.4 100.0
13
Karakteristik Gerombol Desa/Kelurahan
Karakteristik setiap gerombol dapat dijelaskan melalui data frekuensi peubah kategorik (Tabel 10), grafik tingkat kepentingan uji khi-kuadrat untuk peubah kategorik (Gambar 1 dan 2), grafik tingkat kepentingan uji-t untuk peubah numerik (Lampiran 4) dan tingkat rataan nilai peubah numerik (Lampiran 5).
Gerombol pencilan atau gerombol desa/kelurahan terpencil tidak dapat dikatakan sebagai gerombol optimal. Hal ini disebabkan karena anggota didalamnya merupakan desa/kelurahan yang memencil dan tidak dapat dimasukkan ke dalam gerombol optimal yang terbentuk, yaitu gerombol akhir yang memiliki kemiripan karakteristik antar anggotanya.
Tabel 10 menunjukkan bahwa gerombol yang maju dalam faktor alam dan lingkungan adalah gerombol 6, sedangkan yang tertinggal adalah gerombol 7. Kemudian gerombol yang maju dalam faktor kelembagaan adalah gerombol 6, sedangkan yang tertinggal adalah gerombol 4.
Tabel 10 Frekuensi dan persentase peubah kategorik pada setiap gerombol
Gerombol
𝑋2 𝑋5
1 (Ada) 2 (Tidak Ada) 1 (Ada) 2 (Tidak Ada) Jmlh Prs (%) Jmlh Prs (%) Jmlh Prs (%) Jmlh Prs (%) 1 1 0.0 16023 21.7 16014 22.5 10 0.1 2 261 6.3 5088 6.9 4933 6.9 416 6.2 3 11 0.3 4718 6.4 4706 6.6 23 0.3 4 354 8.6 5627 7.6 16 0.0 5965 88.6 5 0 0.0 19959 27.0 19959 28.0 0 0.0 6 0 0.0 21395 29.0 21395 30.0 0 0.0 7 3434 83.3 0 0.0 3434 4.8 0 0.0 Pencilan (-1) 59 1.4 1031 1.4 774 1.1 316 4.7 Total 4120 100.0 73841 100.0 71231 100.0 6730 100.0 Jmlh: jumlah, Prs: persentase
Peubah mana saja yang berpengaruh terhadap pembentukan setiap gerombol, dapat dilihat melalui grafik tingkat kepentingan masing-masing peubah pada setiap gerombol. Apabila terdapat peubah yang memiliki statistik uji lebih besar dari nilai kritis (garis lurus vertikal) maka peubah tersebut berpengaruh terhadap pembentukan gerombol yang dimaksud.
Gambar 1 memperlihatkan bahwa gerombol yang pembentukannya dipengaruhi oleh peubah 𝑋2 adalah gerombol 1, 5, 6 dan 7. Kemudian Gambar 2
memperlihatkan bahwa gerombol yang pembentukannya dipengaruhi oleh peubah 𝑋5 adalah gerombol 1, 3, 4, 5, 6 dan 7.
14
Gambar 1 Grafik tingkat kepentingan peubah kategorik 𝑋2 pada setiap gerombol
Gambar 2 Grafik tingkat kepentingan peubah kategorik 𝑋5 pada setiap gerombol Tabel 11 menunjukkan peubah numerik yang berpengaruh terhadap pembentukan setiap gerombol yang ditandai dengan rentang nilai peubahnya, sedangkan yang tidak berpengaruh ditandai dengan keterangan “TB”.
Lampiran 5 memperlihatkan bahwa gerombol pencilan memiliki tingkat rataan peubah numerik yang cenderung tinggi dibandingkan dengan gerombol lainnya. Peubah atau ciri kuat pada gerombol 1 hanya terdapat pada 2 peubah, yaitu peubah 𝑋35 dan 𝑋48 dan ciri lemahnya terdapat pada peubah 𝑋8 dan 𝑋10.
Gerombol 2 memiliki tingkat rataan peubah numerik yang cenderung tinggi kecuali pada peubah 𝑋8 dan 𝑋10. Faktor sarana, prasarana dan akses maupun faktor sosial ekonomi penduduk adalah cenderung sama untuk gerombol 3, 4 dan
15
Tabel 11 Rentang nilai pada setiap peubah numerik
Peubah Gerombol 1 2 3 4 5 6 7 X8 (108 km) 0.1−3.0 0.1−3.328 TB 0.1−2.5 0.1−5.53 0−1.12 0−1.9 X10(108 km) 0.1−9.998 0.1−12.07 0.1−9.999 0.1−9.999 0.1−13.15 0.1−4.25 0.1−9.998 X12 (unit) 0−23 0−26 0−12 0−17 0−7 0−6 0−14 X15 (orang) 0−73 0−116 0−74 0−122 0−34 0−32 TB X24 (unit) 0−32 0−42 0−35 0−39 0−30 0−23 0−36 X25 (unit) 0−7 0−10 TB 0−13 0−6 0−6 0−6 X26 (unit) 0−5 0−6 TB 0−5 0−2 0−2 0−4 X27 (unit) 0−2 TB 0−6 0−2 TB TB 0−1 X28 (unit) 0−25 0−38 0−30 0−26 0−7 0−12 0−25 X31 (unit) 0−1187 0−1141 0−300 0−577 0−224 0−235 0−577 X32 (unit) 0−42 0−67 0−52 0−52 0−19 0−35 0−53 X33 (unit) 0−13 0−23 0−10 0−17 0−13 0−15 0−12 X35 (kel) 0−5322 0−5896 TB 0−2223 0−1000 0−809 0−2282 X41 (kel) TB 0−1004 TB TB 0−512 0−614 TB X42 (kel) 0−230 0−300 0−225 TB 0−118 0−160 TB X43 (kel) TB 0−1124 0−860 0−941 0−312 0−675 TB X47 (orang) 0−71 0−123 0−73 TB 0−58 0−42 TB X48 (orang) 0−12401 0−14496 0−6399 TB 0−2126 0−2086 0−5733 X50 (kel) 0−3572 0−5494 0−3416 0−5585 0−1070 0−3426 0−3568 X51 (lmbg) 0−11 0−98 0−26 TB 0−14 0−10 0−19 X52 (lokasi) 0−3 0−3 TB 0−3 0−3 0−3 0−3
TB: tidak berpengaruh, kel: keluarga, lmbg: lembaga.
7, yaitu bukan merupakan ciri kuat maupun ciri lemah atau berada dipertengahan. Kecuali pada peubah 𝑋27 yang masuk ke dalam ciri kuat dan peubah 𝑋47 yang masuk ke dalam ciri lemah untuk gerombol 3, dan peubah 𝑋25 dan 𝑋50 yang
masuk ke dalam ciri kuat dan peubah 𝑋35 yang masuk ke dalam ciri lemah untuk
gerombol 4.
Peubah atau ciri kuat gerombol 5 hanya terdapat pada 2 peubah, yaitu peubah 𝑋8 dan 𝑋10, sedangkan peubah lainnya masuk ke dalam ciri lemah. Gerombol 6 tidak memiliki peubah atau ciri kuat karena sebagian besar peubah cenderung masuk ke dalam ciri lemah.
Lampiran 6 memperlihatkan hasil akhir dari karakteristik setiap gerombol yang terbentuk. Gerombol satu merupakan gerombol desa/kelurahan yang maju dalam faktor alam dan lingkungan; faktor kelembagaan; serta memiliki jarak kantor desa dengan kantor camat dan dengan kantor bupati/walikota lain terdekat yang tidak jauh. Akan tetapi merupakan gerombol desa/kelurahan yang memiliki jumlah keluarga pertanian dan jumlah warga penerima kartu JAMKESMAS/ JAMKESDA selama tahun 2010 yang tinggi.
Gerombol dua merupakan gerombol desa/kelurahan yang maju dalam faktor sarana, prasarana dan akses. Akan tetapi merupakan gerombol desa/kelurahan yang tertinggal dalam faktor sosial ekonomi penduduk. Gerombol tiga merupakan gerombol desa/kelurahan yang tidak maju maupun tidak tertinggal pada semua faktor kemajuan maupun ketertinggalan suatu desa yang mempengaruhinya. Akan tetapi merupakan gerombol desa/kelurahan yang memiliki jumlah Koperasi Unit Desa (KUD) yang masih aktif yang tinggi dan memiliki jumlah penderita gizi buruk selama 3 tahun terakhir yang rendah.
Gerombol empat merupakan gerombol desa/kelurahan yang tertinggal dalam faktor kelembagaan dan memiliki jumlah keluarga yang berlangganan telepon kabel yang tinggi. Akan tetapi merupakan gerombol desa/kelurahan yang
16
memiliki jumlah bank umum yang tinggi dan memiliki jumlah keluarga pertanian yang rendah. Gerombol lima merupakan gerombol desa/kelurahan yang maju dalam faktor alam dan lingkungan; faktor kelembagaan; dan faktor sosial ekonomi penduduk. Akan tetapi merupakan gerombol desa/kelurahan yang tertinggal dalam faktor sarana, prasarana dan akses.
Gerombol enam merupakan gerombol desa/kelurahan yang maju dalam faktor alam dan lingkungan; faktor kelembagaan; dan faktor sosial ekonomi penduduk. Akan tetapi merupakan gerombol desa/kelurahan yang tertinggal dalam faktor sarana, prasarana dan akses. Di samping itu, kondisi faktor sarana, prasarana dan akses gerombol enam lebih maju dibandingkan gerombol lima dan kondisi faktor sosial ekonomi penduduk gerombol enam lebih rendah dibandingkan gerombol lima. Gerombol tujuh merupakan gerombol desa/kelurahan yang tertinggal dalam faktor alam dan lingkungan.
KESIMPULAN DAN SARAN
Kesimpulan
Penggunaan metode penggerombolan dua tahap pada kasus data khusus yaitu
pada data yang mengandung pencilan dengan pencilan ditempatkan secara
sistematik pada setiap peubah numerik, dan setiap peubah numerik dibangkitkan dari sebaran yang sama untuk masing-masing gerombol memberikan beberapa kesimpulan, diantaranya pada data yang mengandung pencilan kecil (1%) metode ini memberikan hasil yang lebih akurat dibandingkan dengan data yang mengandung pencilan besar (5% atau 15%).
Penggunaan besaran penanganan pencilan pada data yang mengandung pencilan harus lebih besar daripada besaran pencilannya itu sendiri. Algoritma metode penggerombolan dua tahap menyediakan perhitungan untuk peubah bertipe kategorik sehingga mempermudah melakukan penggerombolan pada peubah bertipe kategorik maupun campuran dari numerik dan kategorik. Akan tetapi, metode ini kurang akurat apabila menangani peubah campuran yang sebagian besar bertipe kategorik dan sisanya numerik.
Metode penggerombolan dua tahap sangat akurat dalam menghasilkan banyaknya gerombol yang sesuai dengan banyaknya gerombol sebenarnya pada data yang tidak mengandung pencilan khususnya pada peubah penggerombolan yang sebagian besar bertipe numerik dan sisanya kategorik. Secara umum apabila salah banyaknya gerombol yang dihasilkan tinggi, maka salah klasifikasi keanggotaan gerombol cenderung tinggi pula. Penggerombolan Desa/Kelurahan di Indonesia berdasarkan faktor kemajuan dan ketertinggalan suatu desa dengan metode penggerombolan dua tahap menghasilkan 7 gerombol akhir/optimal.
Saran
Saran untuk penelitian selanjutnya adalah mengkaji metode penggerombolan dua tahap untuk data yang mengandung pencilan dengan
17
pencilan ditempatkan secara random pada keseluruhan data dan tidak secara sistematik pada setiap peubah dan objek, serta setiap peubah numerik pada setiap gerombol dibangkitkan dari sebaran yang berbeda, yaitu dengan sebaran Normal Ganda dengan nilai tengah dan ragam yang berbeda.
DAFTAR PUSTAKA
Bacher J, Wenzig K, Vogler M. 2004. SPSS two step cluster – a first evaluation. RC33 Sixth International Conference on Social Science Methodology: Recent Developments and Applications on Social Science Research Methodology [Internet]. [diunduh 18 Mei 2012]; Amsterdam, Netherlands. Tersedia pada http://www.statisticalinnovations.com/products/Two Step. pdf.
Chiu T, Fang D, Chen J, Wang Y., and Jeris C. 2001. A robust and scalable clustering algorithm for mixed type attributes in large database environment. Di dalam: Doheon Lee, Mario Schkolnick, Foster J Provost, Ramakrishnan Srikant. Proceedings of the 7th ACM SIGKDD International Confererence on Knowledge Discovery and Data Mining (KDD-2001); 2001 Agus 26-29; San Francisco, United States. New York (US): ACM Press. hlm 263-264.
Garson DG. 2012. Cluster Analysis. Blue Book Series. North Carolina (US): North Carolina State University.
Hair J.F.Jr, R.E. Anderson, B.J. Babin, & W.C. Black. 2010. Multivariate Data Analysis. Volume ke-7. New Jersey (US): Prentice-Hall.
Johnson RA, Wichern DW. 2002. Applied Multivariate Statistical Analysis. Volume ke-6. New Jersey (US): Prentice-Hall.
Kudsiati. 2006. Pengkajian keakuratan TwoStep Cluster dalam menentukan banyaknya gerombol populasi [tesis]. Bogor (ID): Institut Pertanian Bogor. Li H, Sun J. 2011. Mining business failure predictive knowledge using two-step
clustering. AJBM. 5(11):4107-4120.
Norusis MJ. 2004. SPSS 19.0 Statistical Procedures Companion. Upper Saddle River, NJ (US): Prentice-Hall. hlm 375-404.
Rencher CA. 2002. Methods of Multivariate Analysis. Volume ke-2. New York (US): John Wiley & Sons Inc.
Schiopu, D. 2010. Applying two step cluster analysis for identifying bank customers’ profile. EI-TC. 62(3):66-75.
SPSS Inc. 2001. The SPSS twostep cluster component. A scalable component to segment your customers more effectively. White paper – technical report [Internet]. [diunduh 18 Mei 2012]; Chicago. Tersedia pada http://www.spss. ch/upload/1122644952_The%20SPSS%20TwoStep%20Cluster%20Compo nent.pdf
Zhang T, Ramakrishnan R, Livny M. 1996. BIRCH: An efficient data clustering method for very large databases. Di dalam: HV Jagadish, Inderpal Singh Mumick, editor. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data; 1996 Jun 4-6; Montreal, Canada. New York (US): ACM Press. hlm 103-114.
18
Lampiran 1 Daftar peubah penggerombolan sebelum dilakukan pereduksian
Kategori Kode Peubah Keterangan
Faktor alam dan lingkungan
X1 Jumlah penduduk pada Januari 2011 Numerik
X2 Keberadaan bencana gempa bumi selama 3 tahun terakhir 2 Kategori
X3 Lokasi desa/kelurahan terhadap kawasan hutan 3 Kategori
Faktor kelembagaan
X4 Status pemerintahan 2 Kategori
X5 Keberadaan Badan Perwakilan Desa/Dewan Kelurahan 2 Kategori X6 Keberadaan Satuan Lingkungan Setempat (SLS) terkecil di bawah desa/kelurahan 10 Kategori
Faktor sarana, prasarana dan akses
X7 Keberadaan dan lokasi kantor kepala desa (lurah) 3 Kategori
X8 Jarak kantor desa dengan kantor camat Numerik
X9 Jarak kantor desa dengan kantor bupati/walikota Numerik
X10 Jarak kantor desa dengan kantor bupati/walikota lain terdekat Numerik
X11 Ketersediaan penerangan di jalan utama desa/kelurahan 2 Kategori X12 Jumlah sarana pendidikan negeri Numerik
X13 Jumlah sarana pendidikan swasta Numerik
X14 Jumlah sarana kesehatan Numerik
X15 Jumlah tenaga kesehatan yang menetap di desa/kelurahan Numerik X16 Ketersediaan telepon umum koin/ kartu yang masih aktif 2 Kategori
X17 Ketersediaan Base Transcelver Station (BTS)/ menara telepon 2 Kategori
X18 Kondisi sinyal telepon seluler/hand phone 3 Kategori X19 Ketersediaan Wartel/ kiospon/ warpostel/ warparpostel 2 Kategori
X20 Ketersediaan Warung internet (Warnet) 2 Kategori
X21 Ketersediaan Kantor Pos/ Pos Pembantu/ rumah pos 2 Kategori X22 Ketersediaan Kelompok Pertokoan 2 Kategori X23 Ketersediaan Pasar dengan bangunan permanen/ semi permanen 2 Kategori
X24 Jumlah Minimarket Numerik
X25 Jumlah Bank Umum Numerik
X26 Jumlah Bank Perkreditan Rakyat (BPR) Numerik
X27 Jumlah Koperasi Unit Desa (KUD) yang masih aktif Numerik
X28 Jumlah Koperasi Non KUD yang masih aktif Numerik X29 Ketersediaan perlengkapan keselamatan bencana alam 2 Kategori
X30 Jumlah tempat beribadah Numerik
X31 Jumlah industri kecil dan mikro Numerik
X32 Jumlah restoran/rumah makan Numerik
X33 Jumlah hotel Numerik
X34 Keberadaan pos polisi 2 Kategori
Faktor sosial ekonomi penduduk
X35 Jumlah keluarga pertanian Numerik
X36 Sumber penghasilan utama sebagian besar penduduk 7 Kategori
X37 Jumlah keluarga pengguna listrik PLN Numerik
X38 Bahan bakar memasak yang digunakan sebagian besar keluarga 5 Kategori
X39 Tempat buang sampah sebagian besar keluarga 5 Kategori
X40 Tempat buang air besar sebagian besar keluarga 5 Kategori
X41 Jumlah keluarga yang tinggal di bantaran sungai Numerik X42 Jumlah keluarga yang tinggal di bawah Saluran Udara Tegangan Ekstra Tinggi (SUTET) Numerik
X43 Jumlah keluarga yang tinggal di pemukiman kumuh Numerik
X44 Adanya pencemaran air selama setahun terakhir 2 Kategori
X45 Adanya pencemaran tanah selama setahun terakhir 2 Kategori X46 Adanya pencemaran udara selama setahun terakhir 2 Kategori
X47 Jumlah penderita gizi buruk selama 3 tahun terakhir Numerik
X48 Jumlah warga penerima kartu JAMKESMAS/JAMKESDA selama tahun 2010 Numerik
X49 Sumber air untuk minum/memasak sebagian besar keluarga 8 Kategori X50 Jumlah keluarga yang berlangganan telepon kabel Numerik
X51 Jumlah lembaga non-profit Numerik
19
Lampiran 2 Diagram alir metode pembangkitan data
NB: Bersambung ke halaman selanjutnya
Diulang 30 kali
Mengukur tingkat keakuratan algoritma Penggerombolan Dua Tahap dalam mendeteksi banyaknya gerombol sebenarnya
Banyaknya gerombol yang dihasilkan sama dengan banyaknya gerombol sebenarnya 𝑋𝑖 bernilai 1 𝑋𝑖 bernilai 0 Tidak Ya Mulai
Menetapkan parameter 1, 2, 3, 1, 2 dan 3
Membangkitkan 𝑋𝑝×𝑛1~N(1,1), 𝑋𝑝×𝑛2~N(2,1) dan 𝑋𝑝×𝑛3~N(3,1)
Menggabungkan data peubah yang sama dari setiap gerombol menjadi gugus data peubah tsb Membangkitkan 𝑌𝑝×𝑛1~N(1,1), 𝑌𝑝×𝑛2~N(2,1) dan 𝑌𝑝×𝑛3~N(3,1)
Mentrasformasi data Y menjadi data bertipe kategorik Membangkitkan 𝑍𝑝×𝑛1~N(1,1), 𝑍𝑝×𝑛2~N(2,1) dan 𝑍𝑝×𝑛3~N(3,1)
Menggabungkan data gerombol 1 beserta pencilannya, data gerombol 2 beserta pencilannya dan data gerombol 3 beserta pencilannya kedalam satu gugus data
Melakukan uji pencilan univariat terhadap data peubah numerik beserta pencilannya
Data memiliki nilai baku Z > 3 atau < -3
Data merupakan pencilan
Data bukan merupakan pencilan Tidak
Selesai
Melakukan Penggerombolan Dua Tahap dengan membandingkan nilai penanganan pencilan sebesar 1%, 5% dan 15%, serta tanpa melakukan penanganan pencilan atau 0%
20
Bersambung ke halaman ini
Melakukan perhitungan tingkat salah klasifikasi dari anggota gerombol
Objek berasal dan teridentifikasi pada gerombol
yang sama
Tidak salah klasifikasi
Salah Klasifikasi Tidak
Ya
21
Lampiran 3 Diagram alir metode penggerombolan dua tahap pada data riil
Selesai
Melakukan standarisasi peubah numerik ke bentuk baku Z
Melakukan pemeriksaan hubungan antar peubah.
Melakukan Penggerombolan Dua Tahap
Menjelaskan karakteristik dari setiap gerombol optimal yang terbentuk
Mulai
Peubah
saling bebas Direduksi
Tidak
22
Lampiran 4 Grafik tingkat kepentingan peubah numerik pada setiap gerombol
23
Lampiran 5 Tingkat rataan nilai peubah numerik pada setiap gerombol Gerombol Pencilan Gerombol 1 Gerombol 2 Gerombol 3 1 2 3 4 5 6 7 8 X8 0X1 12X X15 X24 52X 26X X27 X28 X31 2X3 33X X41 X42 X43 7X4 X48 X50 X51 X52 Ti n gka t Peubah 0 2 4 6 8 X8 X10 X12 X15 42X X25 X26 X27 X28 13X X32 X33 X35 X42 74X X48 X50 X51 X52 Ti ng ka t Peubah 0 2 4 6 8 X8 0X1 12X X15 X24 52X 26X X28 X31 X32 3X3 35X X41 X42 X43 7X4 X48 X50 X51 X52 Ti n gka t Peubah 0 2 4 6 8 X1 0 X1 2 X1 5 X2 4 X2 7 X2 8 X3 1 X3 2 X3 3 X4 2 X4 3 X4 7 X4 8 X5 0 X5 1 Ti n gka t Peubah
24 Gerombol 4 Gerombol 5 Gerombol 6 Gerombol 7 0 2 4 6 8 X8 X10 X12 X15 X24 X25 X26 X27 X28 X31 X32 X33 X35 X43 X50 X52 Ti n gka t Peubah 0 2 4 6 8 X8 X10 X12 X15 X24 52X X26 X28 X31 X32 33X X35 X41 X42 X43 74X X48 X50 X51 X52 TT ing ka t Peubah 0 2 4 6 8 X8 0X1 X12 X15 X24 X25 62X X27 X28 X31 X32 3X3 X35 X41 X42 X43 74X X48 X50 X51 X52 Ti n gka t Peubah 0 2 4 6 8 X8 X10 X12 X24 X25 X26 X27 X28 X31 X32 X33 X35 X48 X50 X51 X52 Ti n gka t Peubah
25
Lampiran 6 Karakteristik pada setiap gerombol
Gerombol Faktor Alam dan Lingkungan Faktor Kelembagaan Faktor Sarana, Prasarana dan Akses Faktor Sosial Ekonomi Penduduk Lain-lain
1 Maju Maju Jarak kantor desa
dengan kantor camat dan bupati/walikota tidak jauh dan jumlah keluarga pertanian & warga penerima kartu JAMKESMAS/ JAMKESDA selama tahun 2010 tinggi. 2 Maju Tertinggal 3 Jumlah KUD
yang masih aktif tinggi dan jumlah penderita gizi buruk selama 3 tahun terakhir rendah.
4 Tertinggal Jumlah keluarga
berlangganan telepon kabel dan jumlah bank umum tinggi dan jumlah keluarga pertanian rendah. 5 Maju Maju Tertinggal Maju (lebih
baik dari gerombol 6) 6 Maju Maju Tertinggal
(lebih baik dari gerombol 5)
Maju
26
RIWAYAT HIDUP
Penulis bernama Arni Nurwida dan dilahirkan di Jakarta pada tanggal 31 Januari 1990, anak dari pasangan Ir. Herwin Nur dan Ir. Dwi Budi Utami, M.Si. Penulis merupakan putri ketiga dari tiga bersaudara.
Tahun 2002 penulis menamatkan pendidikan sekolah dasar di MI Darunnajah Ulujami Jakarta Selatan. Kemudian penulis melanjutkan studinya di Pondok Pesantren MTs Darunnajah Ulujami Jakarta Selatan dan lulus pada tahun 2005. Tahun 2008 penulis lulus dari SMAN 47 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis mengambil mayor Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam dengan minor Ekonomi dan Studi Pembangunan dari Fakultas Ekonomi Manajemen.
Selama kuliah, penulis pernah aktif di beberapa Lembaga Kemahasiswaan IPB, yaitu Dewan Perwakilan Mahasiswa Keluarga Mahasiswa (DPM KM) IPB, Majelis Permusyawaratan Mahasiswa Keluarga Mahasiswa (MPM KM) IPB, Lembaga Dakwah Kampus (LDK) Al-Hurriyyah IPB dan Lembaga Dakwah Fakultas (LDF) FMIPA – SERUM-G, serta menjadi asisten praktikum mata kuliah Metode Statistika dan beberapa kali menjadi asisten mata kuliah Pendidikan Agama Islam. Penulis melaksanakan kegiatan praktik lapang di Dinas Kesehatan Kota Bogor pada bulan Februari-April 2012.