PERBANDINGANSINGLELINKAGE,COMPLETELINKAGE,DANAVERAGE LINKAGETERHADAPINDIKATORKEMISKINANMULTIDIMENSI
KABUPATEN/KOTADIINDONESIA
Elza Wirdayani, Arisman Adnan Program Studi S1 Statistika
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Riau Kampus Bina Widya, Pekanbaru 28293
ABSTRACT
The term poverty is no longer associated with the income dimension only. Poverty is a complex problem related to other aspects of human life known as multidimensional poverty. The high level of poverty in Indonesia (9.71% in 2021) needs to be known for the distribution of special treatment. Cluster analysis can be used as an alternative solution to answer these problems. This study discusses the comparison of single linkage, complete linkage, and average linkage to multidimensional poverty indicator (education, health, and standard of living) in districts/cities in Indonesia. This study shows that single linkage and average linkage obtained two clusters with 513 members in cluster 1 and one member in cluster 2, while complete linkage obtained three optimal clusters with 501 members in cluster 1, 12 members in cluster 2, and one member in cluster 3. Based on cluster validation, average linkage is the best cluster analysis in the grouping of districts/cities in Indonesia against multidimensional poverty indicators.
Keywords: Cluster analysis, single linkage, complete linkage, average linkage, multidimentional poverty
ABSTRAK
Istilah kemiskinan saat ini tidak lagi dikaitkan dengan dimensi pendapatan saja.
Kemiskinan merupakan permasalahan yang kompleks dan berkaitan aspek kehidupan manusia lainnya yang dikenal sebagai kemiskinan multidimensi. Tingginya tingkat kemiskinan di Indonesia (9.71% tahun 2021) perlu diketahui sebarannya untuk pemberian perlakuan khusus. Analisis klaster dapat digunakan sebagai solusi alternatif untuk menjawab permasalahan tersebut. Penelitian ini membahas perbandingan single linkage, complete linkage, dan average linkage untuk indikator kemiskinan multidimensi (pendidikan, kesehatan, dan standar hidup) terhadap 514 kabupaten/kota di Indonesia.
Penelitian ini menunjukkan bahwa single linkage dan average linkage memperoleh dua klaster dengan 513 anggota di klaster 1 dan satu anggota di klaster 2, sedangkan complete linkage memperoleh tiga klaster optimal dengan 501 anggota di klaster 1, 12 anggota di klaster 2, dan satu anggota di klaster 3. Berdasarkan validasi klaster, average linkage merupakan analisis klaster terbaik dalam pengelompokan kabupaten/kota di Indonesia terhadap indikator kemiskinan multidimensi.
Kata kunci: Analisis klaster, single linkage, complete linkage, average linkage, kemiskinan multidimensi
1. PENDAHULUAN
Semakin pesatnya perkembangan teknologi dan informasi membuat perkembangan data juga semakin pesat. Banyak dan ragam data itu sendiri dapat digunakan peneliti dalam melakukan berbagai penelitian. Keragaman data membuat pengambil kebijakan sulit untuk mengidentifikasi ciri khas yang dimiliki oleh data itu sendiri. Salah satu analisis yang dapat mengidentifikasi data homogen sehingga dapat diinterpretasikan secara lebih sederhana adalah analisis klaster. Analisis klaster merupakan salah satu teknik dalam data mining yang mempelajari pengelompokkan data.
Analisis klaster terbagi menjadi dua jenis, yaitu pengelompokan secara hierarki (hierarchical) dan pengelompokan secara non-hierarki (non-hierarchical). Analisis klaster hierarki dibagi lagi menjadi dua yaitu aglomeratif dan divisif (Johnson & Wichern, 2007). Dalam aglomeratif, terdapat metode linkage, seperti single linkage, complete linkage, dan average linkage. Misalkan, terdapat dua klaster yaitu X dan Y. Single linkage menggunakan jarak minimum antara anggota klaster X dan Y. Complete linkage menggunakan jarak maksimum antara anggota klaster X dan Y. Average linkage menggunakan jarak yang dihitung dari nilai rata-rata antara anggota klaster X dan Y (Bhandari & Pahwa, 2020).
Analisis klaster dapat digunakan untuk pengelompokan kabupaten/kota berdasarkan data kemiskinan. Dalam pengukuran kemiskinan, kebanyakan peneliti mengaitkan dengan satu dimensi yakni dimensi moneter atau pendapatan. Kenyataannya, kemiskinan merupakan salah satu persoalan kompleks yang memiliki kaitan erat dengan beberapa aspek kehidupan manusia lainnya. Hal ini selaras dengan pendapat Bourguignon & Chakravarty (2003) yang mengatakan kemiskinan tergantung pada variabel moneter dan non-moneter. Istilah ini dikenal sebagai kemiskinan multidimensi.
Pemakaian dimensi yang bervariatif membuat pengambil kebijakan sulit mengidentifikasi kabupaten/kota yang masuk ke dalam kelompok kabupaten/kota dengan tingkat kemiskinan tinggi atau rendah. Analisis klaster dapat menjawab permasalahan tersebut.
Penelitian untuk mengelompokkan kabupaten/kota Indonesia berdasarkan indikator kemiskinan telah dilakukan oleh Putriana et al. (2016) yang menggunakan analisis klaster hierarki dan non hierarki untuk mengelompokkan kabupaten/kota Provinsi Jawa Tengah dan metode K-Means disimpulkan menjadi metode terbaik. Wahyuni & Jatmiko (2018) melakukan pengelompokan kabupaten/kota di Pulau Jawa berdasarkan indikator kemiskinan dengan average linkage yang memperoleh dua klaster. Selain itu, Wijaya et al. (2021) melakukan pengelompokan terhadap 514 kabupaten/kota yang dibagi menjadi tiga wilayah waktu berdasarkan indikator kemiskinan multidimensi menggunakan complete linkage dan average linkage dan average linkage menjadi metode terbaik.
Berdasarkan latar belakang dan penelitian terdahulu, penulis tertarik untuk membandingkan single linkage, complete linkage, dan average linkage terhadap data indikator kemiskinan multidimensi kabupaten/kota Indonesia, agar dapat diperoleh metode terbaik dalam pengelompokan data indikator kemiskinan multidimensi.
2. ANALISIS KLASTER, ANALISIS KLASTER HIERARKI AGLOMERATIF, SINGLE LINKAGE, COMPLETE LINKAGE, DAN AVERAGE LINKAGE Analisis klaster merupakan suatu proses pengelompokan satu kumpulan data menjadi beberapa kumpulan data. Analisis klaster digunakan sebagai alat untuk mendapatkan
informasi tentang distribusi data dan mengamati karakteristik setiap klaster. Selain itu, klaster yang terbentuk dapat dilakukan analisis yang lebih lanjut (Han et al., 2012).
Secara umum, analisis klaster dibagi menjadi dua jenis, yaitu analisis klaster hierarki dan analisis klaster non-hierarki.
Analisis klaster hierarki merupakan analisis kalster yang mengelompokkan data secara bertingkat atau bertahap. Menurut Nugroho (2008), analisis klaster hierarki dibagi menjadi dua algoritma, yakni aglomeratif dan divisif. Pengelompokan dengan algoritma aglomeratif dimulai dengan setiap objek berada dalam n klaster yang berbeda, lalu menggabungkan dua klaster terdekat dan menentukan lagi kedekatan antar 𝑛 − 1 klaster yang baru. Proses pengelompokan dilakukan seterusnya sampai seluruh data bergabung menjadi satu klaster besar. Metode yang menggunakan algoritma aglomeratif adalah single linkage, complete linkage, average linkage, ward method, centroid method, dan median method. Pengelompokan dengan algoritma divisif dimulai dengan menganggap semua objek bergabung menjadi satu klaster yang berisi n objek, lalu dibagi menjadi dua klaster. Proses pengelompokan dapat dilakukan sebanyak (2𝑛−1− 1) cara. Hasil dari pengelompokan ini akan menghasilkan beberapa klaster.
Analisis klaster non-hierarki merupakan metode pengelompokan yang didasarkan pada membagi data yang digunakan ke dalam kelompok-kelompok yang sudah dibentuk.
Karenanya, harus ditentukan terlebih dahulu jumlah klaster yang optimal untuk analisis klaster tersebut. Salah satu contoh analisis klaster non hierarki adalah K-Means (Majerova & Nevima, 2017).
Menurut Johnson & Wichern (2007), algoritma dari analisis klaster hierarki aglomeratif untuk mengelompokkan n objek adalah sebagai berikut.
1. Memulai dengan N klaster, di mana setiap klaster berisi entitas tunggal dan matriks simetris berdimensi N x N dari jarak 𝐷 = {𝑑(𝑖, 𝑗)}.
2. Menghitung matriks jarak untuk pasangan klaster yang paling dekat atau yang paling mirip. Misalkan klaster U dan V memiliki karakteristik yang mirip. Jarak antara dua klaster tersebut dinotasikan 𝑑𝑢𝑣.
3. Menggabungkan klaster U dan V menjadi satu klaster, sehingga label terbarunya adalah UV. Perbarui entri dalam matriks jarak dengan menghapus baris dan kolom yang berhubungan dengan klaster U dan V lalu menambahkan sebuah baris dan kolom yang memberi jarak antara klaster UV dan klaster selanjutnya.
4. Ulangi langkah 2 dan 3 sebanyak N – 1 kali. Saat berakhirnya algoritma, semua anggota akan bergabung dalam satu klaster.
Pada penelitian ini, analisis klaster yang digunakan adalah analisis klaster hierarki dengan algoritma aglomeratif, yaitu single linkage, complete linkage, dan average linkage. Tiga analisis klaster tersebut dijelaskan sebagai berikut berikut (Boongoen &
Iam-On, 2018).
1. Single linkage
Metode ini menggunakan jarak terpendek atau minimum antara satu klaster dengan klaster lainnya. Misalkan 𝐶𝑝 dan 𝐶𝑞 adalah dua klaster. Jarak antara kedua klaster tersebut didefinisikan sebagai,
𝐷𝐶𝑝𝐶𝑞 = min
∀𝑥∈𝐶𝑝,𝑥′∈𝐶𝑞𝑑(𝑥, 𝑥′), (1) dengan 𝑑(𝑥, 𝑥′) adalah jarak antara objek 𝑥 dan 𝑥′.
2. Complete linkage
Metode ini merupakan kebalikan dari single linkage, yaitu menggunakan jarak terbesar atau terjauh antara satu klaster dengan klaster lainnya. Misalkan 𝐶𝑝 dan 𝐶𝑞 adalah dua klaster. Jarak antara dua klaster 𝐷𝐶𝑝𝐶𝑞 didefinisikan sebagai berikut,
𝐷𝐶𝑝𝐶𝑞 = max
∀𝑥∈𝐶𝑝,𝑥′∈𝐶𝑞𝑑(𝑥, 𝑥′), (2) dengan 𝑑(𝑥, 𝑥′) adalah jarak antara objek 𝑥 dan 𝑥′.
3. Average linkage
Metode ini menggunakan nilai rata-rata dari jarak berpasangan. Misalkan 𝐶𝑝 dan 𝐶𝑞 adalah dua klaster. Secara khusus, jarak antara klaster 𝐶𝑝 dan 𝐶𝑞 adalah berikut,
𝐷𝐶𝑝𝐶𝑞 = 1
𝑁𝑝𝑁𝑞 ∑ ∑ 𝑑(𝑥, 𝑥′)
∀𝑥′∈𝐶𝑞
∀𝑥∈𝐶𝑝
, (3)
dengan 𝑑(𝑥, 𝑥′) adalah jarak antara objek 𝑥 dan 𝑥′ serta 𝑁𝑝 dan 𝑁𝑞 adalah masing- masing jumlah data dalam klaster 𝐶𝑝 dan 𝐶𝑞.
Dalam analisis klaster, khususnya yang berjenis hierarki, perlu diketahui seberapa dekat kemiripan objek-objek yang ada pada data. Salah satu metode untuk mengukur kemiripan antara dua objek adalah menghitung jarak dengan euclidean distance.
Misalkan 𝑖 = (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑝) dan 𝑗 = (𝑥𝑗1, 𝑥𝑗2, … , 𝑥𝑗𝑝) adalah dua objek pada variabel 𝑝. Jarak antara objek 𝑖 dan 𝑗 adalah berikut,
𝑑(𝑖, 𝑗) = √(𝑥𝑖1− 𝑥𝑗1)2+ (𝑥𝑖2− 𝑥𝑗2)2+ ⋯ + (𝑥𝑖𝑝− 𝑥𝑗𝑝)2, (4) dengan 𝑑(𝑖, 𝑗) adalah jarak antara objek 𝑖 dan objek 𝑗 (Han et al., 2012).
Variabel yang digunakan pada analisis klaster terkadang tidak memiliki satuan yang sama. Oleh karena itu, variabel tersebut haruslah distandarisasi sebelum dilakukan analisis klaster (Hair Jr. et al., 2010). Bentuk standarisasi yang paling umum adalah Z- scores yang merupakan konversi setiap nilai variabel terhadap rata-rata dan standar deviasi. Persamaan Z-scores untuk setiap data adalah berikut,
𝑍 =𝑥𝑖− 𝜇
𝜎 , (5)
dengan 𝑥𝑖 adalah data awal, 𝜇 adalah rata-rata setiap variabel, dan 𝜎 adalah simpangan baku setiap variabel (Johnson & Wichern, 2007).
Analisis klaster harus memenuhi asumsi tidak adanya multikolinearitas pada data yang digunakan. Menurut Gujarati & Porter (2009), multikolinearitas merujuk pada kondisi adanya hubungan yang erat antar variabel independen di dalam data. Salah satu cara untuk melakukan uji multikolinearitas adalah menggunakan nilai korelasi Pearson.
Misalkan, 𝑋 dan 𝑌 adalah dua variabel. Nilai korelasi antara dua variabel tersebut dapat dihitung sebagai,
𝑟𝑝 = 𝑛 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
√[𝑛(∑ 𝑋2 − (∑ 𝑋)2)][𝑛(∑ 𝑌2 − (∑ 𝑌)2)], (6) dengan 𝑟𝑝 menyatakan koefisien korelasi Pearson dan 𝑛 menyatakan banyaknya data.
Jika nilai koefisien korelasi bernilai atau melebihi 0.8, maka kedua variabel tersebut memiliki hubungan yang erat (Shrestha, 2020).
Penentuan jumlah klaster optimal juga perlu dilakukan dalam analisis klaster dan salah satu caranya adalah berdasarkan silhouette width. Menurut Brock et al. (2008)
silhouette width dapat mengukur tingkat kepercayaan dalam penempatan pengelompokan dari objek tertentu. Silhouette width dihitung dengan persamaan berikut,
𝑆(𝑖) = 𝑏𝑖− 𝑎𝑖
max(𝑏𝑖, 𝑎𝑖), (7)
dengan 𝑎𝑖 adalah rata-rata jarak pengamatan 𝑖 ke semua pengamatan lainnya di dalam klaster yang sama dan 𝑏𝑖 adalah rata-rata jarak minimum pengamatan 𝑖 ke semua pengamatan lainnya di dalam “klaster tetangga terdekat”. Jika nilai dari silhouette width mendekati 1, maka jumlah klaster tersebut optimal untuk dilakukan analisis klaster.
Validasi klaster diperlukan untuk mengetahui seberapa baik kualitas analisis klaster pada suatu data. Oleh karena itu, validasi klaster juga digunakan untuk menentukan analisis klaster terbaik di antara beberapa analisis klaster yang digunakan.
Berdasarkan pendapat Barakbah & Arai (2004), metode klaster yang baik memiliki kriteria berupa nilai simpangan baku dalam klaster (𝑆𝑤) yang minimum dan nilai simpangan baku antarklaster (𝑆𝑏) yang maksimum. Menurut Bunkers et al. (1996), untuk memperoleh simpangan baku dalam klaster (𝑆𝑤) digunakan persamaan berikut,
𝑆𝑤 = 1 𝑁∑ 𝑆𝑘
𝑁
𝑘=1
, (8)
dengan 𝑆𝑘 adalah simpangan baku untuk klaster ke-k. Cara menghitung 𝑆𝑘, digunakan persamaan berikut ini,
𝑆𝑘 = √ 1
𝑛 − 1∑(𝑥𝑖− 𝑥̅𝑘)2
𝑛
𝑖=1
, (9)
dengan n adalah jumlah anggota dari setiap klaster, 𝑥𝑖 adalah anggota ke-i dalam klaster ke-k, dan 𝑥̅𝑘 adalah rata-rata dari klaster k.
Simpangan baku antarklaster (𝑆𝑏) dapat dihitung sebagai berikut, 𝑆𝑏= √ 1
(𝑁 − 1)∑(𝑋̅𝑘− 𝑋̅)2
𝑁
𝑘=1
, (10)
dengan 𝑋̅𝑘 merupakan rata-rata setiap klaster dan 𝑋̅ merupakan total rata-rata untuk semua N klaster.
Barakbah & Arai (2004) juga berpendapat metode klaster dikatakan terbaik jika memiliki nilai rasio 𝑆𝑤 terhadap 𝑆𝑏 paling kecil. Rasio tersebut dapat dihitung sebagai,
𝑆𝑅 =𝑆𝑤
𝑆𝑏. (11)
Validasi klaster juga dapat dilakukan dengan menghitung koefisien korelasi cophenetic yang merupakan nilai korelasi antara data asli pada matriks jarak dengan data yang diperoleh dari dendogram. Nilai dari korelasi cophenetic (𝑟𝑐𝑜𝑝ℎ) dapat diperoleh dengan menggunakan persamaan berikut,
𝑟𝑐𝑜𝑝ℎ = ∑𝑛𝑖<𝑗(𝑑𝑖𝑗− 𝑑̅)(𝑑𝑖𝑗(𝑐𝑜𝑝ℎ)− 𝑑̅𝑐𝑜𝑝ℎ)
√[∑𝑛𝑖<𝑗(𝑑𝑖𝑗− 𝑑̅)2] [∑𝑛𝑖<𝑗(𝑑𝑖𝑗(𝑐𝑜𝑝ℎ)− 𝑑̅𝑐𝑜𝑝ℎ)2]
, (12)
dengan 𝑑𝑖𝑗 menyatakan jarak antara objek ke-i dan objek ke-j, 𝑑̅ menyatakan rata-rata dari 𝑑𝑖𝑗, 𝑑𝑖𝑗(𝑐𝑜𝑝ℎ) menyatakan jarak cophenetic objek ke-i dan objek ke-j, dan 𝑑̅𝑐𝑜𝑝ℎ menyatakan rata-rata dari 𝑑𝑖𝑗(𝑐𝑜𝑝ℎ). Jika nilai korelasi cophenetic mendekati 1, maka proses pengelompokan dengan analisis klaster tersebut memiliki kualitas yang baik (Saraçli et al., 2013).
Analisis klaster dapat diterapkan pada beberapa data kasus sosial ekonomi, termasuk data kemiskinan. Kemiskinan tidak hanya berkaitan dengan dimensi pendapatan, tetapi juga berkaitan dengan dimensi lain yang merepresentasikan tingkat kemiskinan seseorang. Istilah ini dikenal dengan kemiskinan multidimensi. Alkire et al.
(2018) menjelaskan bahwa kemiskinan memiliki definisi yang lebih luas daripada sekedar aspek pendapatan saja, seperti kurangnya di bidang pendidikan, kesehatan, perumahan.
The Oxford Poverty and Human Development Initiative (OPHI) berkolaborasi dengan United Nations Development Program (UNDP) mengembangkan Multidimensional Poverty Index (MPI). MPI memiliki tiga dimensi, yaitu kesehatan, pendidikan, dan standar hidup (Alkire & Santos, 2013). Setiap dimensi memiliki indikator masing-masing. Dimensi kesehatan ada indikator kematian anak dan masyarakat yang kekurangan nutrisi. Indikator pada dimensi pendidikan adalah lama sekolah dan kehadiran sekolah anak. Terakhir, indikator dimensi standar hidup adalah kepemilikan listrik, akses air minum, sanitasi, lantai rumah, bahan bakar memasak, dan kepemilikan aset-aset. (Alkire & Santos, 2010). Indeks yang mengukur kemiskinan secara multidimensi di dalam negeri dikembangkan oleh Badan Pusat Statistik (BPS) yang bernama Indeks Kemiskinan Multidimensi (IKM). IKM juga membagi kemiskinan setiap individu ke dalam tiga dimensi yaitu kesehatan, pendidikan, dan standar hidup.
3. METODOLOGI PENELITIAN
Data yang digunakan pada penelitian ini merupakan data yang mengacu pada tiga dimensi pembentuk kemiskinan multidimensi. Jenis data yang digunakan berupa data sekunder yang berasal dari Survei Sosial Ekonomi Nasional (SUSENAS) periode Maret 2021 yang diperoleh dari Badan Pusat Statistik Republik Indonesia dengan jumlah data sebanyak 514 kabupaten/kota. Variabel penelitian mengacu pada tiga dimensi yang menjadi penyusun IKM yang ditetapkan oleh MPI dan BPS. Ada pun variabel-variabel yang digunakan pada penelitian ini adalah,
1. Rata-Rata Lama Sekolah (𝑋1).
2. Umur Harapan Hidup Saat Lahir (𝑋2).
3. Rumah Tangga dengan Sumber Penerangan Bukan Listrik (𝑋3).
4. Rumah Tangga dengan Jenis Lantai Terluas Tanah (𝑋4).
5. Rumah Tangga dengan Penggunaan Toilet Bersama (𝑋5).
Penyelesaian pada penelitian ini mengikuti langkah-langkah berikut,
1. Mengumpulkan data dari website BPS RI untuk memperoleh data untuk dimensi pendidikan dan dimensi kesehatan, dan data dari publikasi Statistik Kesejahteraan Rakyat setiap provinsi di Indonesia untuk memperoleh data dengan dimensi standar hidup.
2. Melakukan standarisasi data jika di dalam data terdapat perbedaan satuan.
3. Melakukan uji asumsi multikolinearitas menggunakan korelasi Pearson.
4. Menghitung ukuran kemiripan dengan euclidean distance.
5. Menentukan jumlah klaster optimal dengan silhouette width.
6. Melakukan analisis klaster dengan metode single linkage, complete linkage, dan average linkage.
7. Melakukan pelabelan atau pemberian identitas untuk setiap klaster yang didapatkan.
8. Melakukan visualisasi dari hasil klaster yang didapatkan.
9. Melakukan validasi klaster untuk menentukan metode terbaik di antara tiga analisis klaster yang digunakan.
4. PERBANDINGAN SINGLE LINKAGE, COMPLETE LINKAGE, DAN AVERAGE LINKAGE TERHADAP DATA INDIKATOR KEMISKINAN
MULTIDIMENSI
Sebelum melakukan suatu penelitian, perlu diketahui karakteristik dari data indikator kemiskinan multidimensi. Hal ini bertujuan agar peneliti dapat memahami informasi pada variabel-variabel yang digunakan dalam penelitian. Terdapat beberapa hal yang perlu diketahui, yaitu nilai rata-rata, standar deviasi, nilai maksimum, dan nilai minimum.
Tabel 1. berikut ini menyajikan hasil dari keempat nilai untuk setiap variabel.
Tabel 1. Karakteristik data indikator kemiskinan multidimensi Variabel Rata-
rata
Standar deviasi
Nilai minimum
Nilai maksimum
Satuan Dimensi 𝑋1 8.437 1.630842 1.42 12.83 Tahun Pendidikan 𝑋2 69.66 3.447464 55.43 77.73 Tahun Kesehatan
𝑋3 3.625 12.32216 0 99.52 Persen
Standar Hidup
𝑋4 4.164 8.741715 0 81.95 Persen
𝑋5 6.443 5.315256 0 59.89 Persen
Berdasarkan sajian Tabel 1. diketahui bahwa nilai minimum rata-rata lama sekolah adalah 1.42 tahun yang dimiliki oleh Kabupaten Nduga, sedangkan nilai maksimum rata- rata lama sekolah adalah 12.83 tahun yang dimiliki oleh Kota Banda Aceh. Nilai UHH terendah masih dimiliki oleh Kabupaten Nduga yakni 55.43 tahun, sedangkan Kabupaten Sukoharjo menjadi daerah dengan nilai UHH tertinggi yakni 77.73 tahun. Rata-rata rumah tangga dengan sumber penerangan bukan listrik di Indonesia adalah 3.625 persen, rata-rata rumah tangga dengan jenis lantai terluas tanah di Indonesia adalah 4.164 persen, da rata-rata rumah tangga yang menggunakan toilet bersama di Indonesia adalah 6.443 persen. Pada Tabel 1 ditunjukkan juga bahwa data yang digunakan memiliki satuan yang berbeda, maka perlu dilakukan standarisasi data sebelum dilakukan analisis klaster.
Standarisasi dapat dihitung dengan menggunakan bentuk Z-Score dalam persamaan (5).
Data yang digunakan untuk analisis klaster harus memenuhi asumsi tidak terjadinya multikolinearitas. Uji asumsi multikolinearitas menggunakan korelasi Pearson yang dihitung berdasarkan persamaan (6). Hasil dari perhitungan korelasi Pearson dapat dilihat pada Tabel 2.
Tabel 2. Hasil uji multikolinearitas
Variabel 𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒 𝑿𝟓
𝑋1 1.0000000 0.4160388 -0.501750 -0.499737 -0.097205 𝑋2 0.4160388 1.0000000 -0.371706 -0.162702 -0.015661 𝑋3 -0.501750 -0.371706 1.0000000 0.5474040 0.1128124 𝑋4 -0.499737 -0.162702 0.5474040 1.0000000 0.0858545 𝑋5 -0.097205 -0.015661 0.1128124 0.0858545 1.0000000 Jika nilai korelasi antara dua variabel mendekati atau lebih dari 0.8, maka dua variabel tersebut yang mengalami multikolinearitas. Tabel 2. yang menyajikan hasil uji multikolinearitas menunjukkan tidak ada nilai korelasi yang bernilai ataupun melebihi 0.8. Hal ini dapat disimpulkan bahwa asumsi tidak terjadinya multikolinearitas terpenuhi dan penelitian dapat dilanjutkan ke langkah selanjutnya.
Kemiripan antara suatu objek dengan objek lainnya dapat ditentukan dengan menghitung jarak antara dua objek tersebut. Semakin dekat jarak antara dua objek, semakin mirip karakteristik antara dua objek tersebut. Salah satu metode jarak yang digunakan untuk menghitung kemiripan antara dua objek adalah euclidean distance.
Dengan menggunakan persamaan (4), jarak antara satu kabupaten/kota dengan kabupaten/kota lainnya dapat dihitung. Perhitungan euclidean distance menghasilkan matriks jarak berukuran 514 × 514, sesuai dengan jumlah data yang digunakan.
Jumlah klaster harus ditentukan terlebih dahulu sebelum melakukan analisis klaster.
Jumlah klaster yang optimal dapat diperoleh dari nilai silhouette width berdasarkan persamaan (7). Nilai silhouette width disajikan pada Tabel 3. berikut.
Tabel 3. Nilai silhouette width
Analisis klaster Jumlah klaster Nilai silhouette width
Single linkage
2 0.7910
3 0.7686
4 0.7700
5 0.7008
Complete linkage
2 0.7253
3 0.7277
4 0.6833
5 0.1936
Average linkage
2 0.7910
3 0.7277
4 0.6833
5 0.6821
Jumlah klaster optimal untuk suatu analisis klaster adalah jumlah klaster yang memiliki nilai silhouette width yang tertinggi atau yang paling mendekati satu. Oleh karena itu, masing-masing jumlah klaster optimal untuk single linkage, complete linkage, dan average linkage adalah dua klaster, tiga klaster dan dua klaster.
Proses selanjutnya yaitu melakukan pengelompokan dengan analisis klaster single linkage, complete linkage, dan average linkage yang dilakukan sesuai dengan langkah- langkah pada algoritma aglomeratif. Pengelompokan data indikator kemiskinan multidimensi kabupaten/kota Indonesia dengan single linkage menggunakan persamaan (1). Hasil yang diperoleh yaitu Klaster 1 dengan 513 anggota dan Klaster 2 dengan 1 anggota yakni Kabupaten Mamberamo Tengah. Visualiasi klaster disajikan dalam bentuk peta pada Gambar 1. berikut.
Gambar 1. Peta dari hasil pengelompokan dengan single linkage
Karakteristik setiap klaster dapat ditentukan dari rata-rata kelima variabel yang digunakan. Hasil rata-rata dapat dilihat pada Tabel 4.
Tabel 4. Rata-rata variabel setiap klaster single linkage
Klaster Variabel
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
1 8.45 69.7 3.49 4.17 6.34
2 3.33 63.8 74.4 1.79 59.9
Berdasarkan Tabel 4., dapat dilihat bahwa Klaster 1 memiliki kualitas yang lebih baik dari segi pendidikan, kesehatan, serta kualitas hidupnya, daripada Klaster 2. Hal ini dapat dilihat bahwa Klaster 1 memiliki rata-rata tertinggi pada variabel 𝑋1, dan 𝑋2, serta rata-rata terendah pada variabel 𝑋3 dan 𝑋5. Oleh karena itu, dapat disimpulkan bahwa Klaster 1 merupakan klaster yang beranggotakan kabupaten/kota dengan tingkat kemiskinan rendah, sedangkan Klaster 2 merupakan klaster yang tingkat kemiskinan tinggi.
Pengelompokan data indikator kemiskinan multidimensi kabupaten/kota Indonesia dengan complete linkage menggunakan persamaan (2). Hasil yang diperoleh yaitu Klaster
1 dengan 501 anggota, Klaster 2 dengan 12 anggota, dan Klaster 3 dengan 1 anggota.
Visualiasi klaster disajikan dalam bentuk peta pada Gambar 2 berikut.
Gambar 2. Peta dari hasil pengelompokan dengan complete linkage
Perhitungan rata-rata kelima variabel diperlukan untuk melihat karakteristik setiap klaster. Hasil rata-rata tersebut dapat dilihat pada Tabel 5.
Tabel 5. Rata-rata variabel setiap klaster complete linkage
Klaster Variabel
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
1 8.56 69.8 1.80 3.40 6.33
2 3.71 64.2 73.7 36.1 6.53
3 3.33 63.8 74.4 1.79 59.9
Menurut Tabel 5., Klaster 1 memiliki rata-rata tertinggi pada variabel 𝑋1 dan 𝑋2 serta rata-rata yang terendah pada tiga variabel lainnya. Klaster 2 memiliki rata-rata tertinggi pada variabel 𝑋4 dan rata-rata empat variabel lainnya berada di tengah. Klaster 3 memiliki rata-rata tertinggi pada variabel 𝑋3 dan 𝑋5, dan rata-rata variabel 𝑋1 dan 𝑋2 memiliki nilai paling rendah dibandingkan dua klaster lainnya. Oleh karena itu, disimpulkan bahwa Klaster 1 merupakan klaster dengan tingkat kemiskinan yang rendah, Klaster 2 merupakan klaster dengan tingkat kemiskinan yang sedang, sedangkan Klaster 3 merupakan klaster dengan tingkat kemiskinan yang tinggi.
Pengelompokan data indikator kemiskinan multidimensi kabupaten/kota Indonesia dengan average linkage menggunakan persamaan (3). Hasil yang diperoleh yaitu Klaster 1 beranggotakan 513 kabupaten/kota, sedangkan Klaster 2 beranggotakan 1 kabupaten.
Sama seperti single linkage, anggota Klaster 1 adalah Mamberamo Tengah sedangkan sisanya merupakan anggota-anggota Klaster 1. Visualisasi hasil pengelompokan dengan average linkage dapat dilihat pada Gambar 3. yang berupa peta di bawah ini.
Gambar 3. Peta dari hasil pengelompokan dengan average linkage
Karakteristik dari setiap klaster perlu diketahui. Oleh karena itu, perhitungan rata- rata setiap variabel diperlukan untuk mengetahui karakteristik dari setiap klaster. Hasil rata-rata setiap variabel pada Klaster 1 dan Klaster 2 dapat dilihat pada Tabel 6.
Tabel 6. Rata-rata variabel setiap klaster average linkage
Klaster Variabel
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
1 8.45 69.7 3.49 4.17 6.34
2 3.33 63.8 74.4 1.79 59.9
Dari hasil rata-rata variabel, Klaster 1 memiliki kualitas yang lebih baik daripada Klaster 2. Hal ini terlihat pada Klaster 1 yang memiliki nilai rata-rata lebih tinggi pada 𝑋1 dan 𝑋2 serta rata-rata lebih rendah pada 𝑋3, 𝑋4 dan 𝑋5. Klaster 2 memiliki rata-rata yang lebih rendah pada 𝑋1 dan 𝑋2 serta rata-rata variabel lebih tinggi pada 𝑋3, 𝑋4 dan 𝑋5. Oleh karena itu, dapat dikatakan bahwa Klaster 1 merupakan klaster dengan tingkat kemiskinan yang rendah dan Klaster 2 merupakan klaster dengan tingkat kemiskinan yang tinggi.
Langkah terakhir pada penelitian ini adalah melakukan validasi klaster untuk menentukan analisis klaster terbaik di antara tiga analisis klaster yang digunakan.
Penentuan analisis klaster terbaik menggunakan perhitungan yang membandingkan dua jenis simpangan baku, yakni simpangan baku dalam klaster (𝑆𝑤) dan simpangan baku antar klaster (𝑆𝑏). Sebelum menghitung (𝑆𝑤), terlebih dahulu hitung simpangan baku klaster ke-k (𝑆𝑘) dengan menggunakan persamaan (9). Hasil dari 𝑆𝑘 untuk setiap klaster ke-k dapat dilihat pada Tabel 7.
Tabel 7. Hasil simpangan baku klaster ke-k (𝑆𝑘)
Metode Klaster 𝑺𝒌
Single linkage 1 0.3904514
2 0
Complete linkage
1 0.3472561
2 0.7380151
3 0
Average linkage 1 0.3904514
2 0
Perhitungan 𝑆𝑤 dan 𝑆𝑏 masing-masing menggunakan persamaan (8) dan (10). Rasio dari 𝑆𝑤 dan 𝑆𝑏 yang disimbolkan dengan 𝑆𝑅 dapat dihitung dengan menggunakan persamaan (11). Hasil dari 𝑆𝑤, 𝑆𝑏, dan 𝑆𝑅 disajikan dalam Tabel 8.
Tabel 8. Nilai 𝑆𝑤, 𝑆𝑏, dan 𝑆𝑅
Metode 𝑺𝒘 𝑺𝒃 𝑺𝑹
Single linkage 0.1952257 1.513394 0.1289986 Complete linkage 0.3617571 1.082830 0.3340848 Average linkage 0.1952257 1.513394 0.1289986
Tabel 8. menyajikan nilai 𝑆𝑅 pada single linkage dan average linkage memiliki nilai yang sama dan menjadi nilai rasio 𝑆𝑤 dan 𝑆𝑏 terkecil. Oleh karena itu, diperlukan proses metode validasi klaster lainnya, yakni koefisien korelasi cophenetic. Dengan menggunakan persamaan (12), nilai korelasi cophenetic untuk ketiga analisis klaster hierarki tersebut dapat dilihat pada Tabel 9.
Tabel 9. Hasil koefisien korelasi cophenetic Metode 𝒓𝒄𝒐𝒑𝒉
Single linkage 0.8857051 Complete linkage 0.7054612 Average linkage 0.8940651
Berdasarkan Tabel 9. analisis klaster yang memiliki nilai korelasi cophenetic tertinggi adalah average linkage. Karena nilai korelasi cophenetic average linkage mendekati 1, dapat disimpulkan bahwa analisis klaster yang diterapkan memiliki kualitas yang baik. Oleh karena itu, average linkage merupakan analisis klaster terbaik dalam pengelompokkan data indikator kemiskinan multidimensi Indonesia.
5. KESIMPULAN
Berdasarkan hasil yang diperoleh, dapat disimpulkan bahwa single linkage dan average linkage sama-sama memperoleh dua klaster optimal, yakni klaster 1 sebagai kabupaten/kota dengan tingkat kemiskinan rendah dengan 513 anggota dan klaster 2 sebagai kabupaten/kota dengan tingkat kemiskinan tinggi dengan satu anggota. Complete
linkage memperoleh tiga klaster optimal yakni klaster 1 sebagai kabupaten/kota dengan tingkat kemiskinan rendah dengan 501 anggota, klaster 2 sebagai kabupaten/kota dengan tingkat kemiskinan sedang dengan 12 anggota, dan klaster 3 sebagai kabupaten/kota dengan tingkat kemiskinan tinggi dengan satu anggota. Perbandingan kualitas ketiga analisis klaster ini dapat dilihat dari hasil validasi klaster bahwa average linkage menjadi analisis klaster terbaik dalam pengelompokan data indikator kemiskinan multidimensi kabupaten/kota Indonesia.
DAFTAR PUSTAKA
Alkire, S., Kanagaratman, U., & Suppa, N. (2018). The global multidimensional poverty index (MPI): 2018 revision. OPHI MPI Methodological Notes 46. 31(7). 1800–
1806.
Alkire, S., & Santos, M. E. (2010). Acute multidimensional poverty: A new index for developing countries. Oxford: Queen Elizabeth House (QEH).
Alkire, S., & Santos, M. E. (2013). Measuring acute poverty in the developing world:
Robustness and scope of the multidimensional poverty index. Oxford: Queen Elizabeth House (QEH).
Barakbah, A. R., & Arai, K. (2004). Determining constraints of moving variance to find global optimum and make automatic clustering. Industrial Electronics Seminar (IES) 2004. 1(1). 409–413.
Bhandari, N., & Pahwa, P. (2020). Evaluating performance of agglomerative clustering for extended NMF. Journal of Statistics and Management Systems. 23(7). 1117–
1128.
Boongoen, T., & Iam-On, N. (2018). Cluster ensembles: A survey of approaches with recent extensions and applications. Computer Science Review. 28(1). 1–25.
Bourguignon, F., & Chakravarty, S. R. (2003). The measurement of multidimensional poverty. Journal of Economic Inequality. 1(1). 25–49.
Brock, G., Pihur, V., Datta, S., & Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software. 25(4). 1–22.
Bunkers, M. J., Miller Jr., J. R., & DeGaetano, A. T. (1996). Definition of climate regions in the northern plains using an objective cluster modification technique. Journal of Climate. 9(1). 130–146.
Gujarati, D. N., & Porter, D. C. (2009). Basic econometrics (5th ed.). New York: The McGraw-Hill. Inc.
Hair Jr., J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data
analysis (7th ed.). New York: Pearson.
Han, J., Kamber, M., & Pei, J. (2012). Data mining: concepts and techniques (2nd ed.).
Massachusetts: Morgan Kaufmann Publishers.
Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). New Jersey: Pearson Prentice Hall.
Majerova, I., & Nevima, J. (2017). The measurement of human development using the ward method of cluster analysis. Journal of International Studies. 10(2). 239–257.
Nugroho, S. (2008). Statistika mutivariat terapan (1st ed.). Bengkulu: UNIB Press.
Putriana, U., Setyawan, Y., & Noeryanti. (2016). Metode cluster analysis untuk pengelompokan kabupaten/kota di Provinsi Jawa Tengah berdasarkan variabel yang mempengaruhi kemiskinan pada tahun 2013. Jurnal Statistika Industri Dan Komputasi. 1(1). 38–52.
Saraçli, S., Doǧan, N., & Doǧan, I. (2013). Comparison of hierarchical cluster analysis methods by cophenetic correlation. Journal of Inequalities and Applications. 203(1).
1–8.
Shrestha, N. (2020). Detecting multicollinearity in regression analysis. American Journal of Applied Mathematics and Statistics. 8(2). 39–42.
Wahyuni, S., & Jatmiko, Y. A. (2018). Pengelompokan kabupaten/kota di Pulau Jawa berdasarkan faktor-faktor kemiskinan dengan pendekatan average linkage hierarchical clustering. Jurnal Aplikasi Statistika & Komputasi Statistik. 10(1). 1–8.
Wijaya, A., Nurhasanah, N., Ar, F., & Rusyana, A. (2021). Perbandingan metode gerombol pautan lengkap dan pautan rataan untuk pengelompokan kemiskinan kabupaten/kota di Indonesia. Journal of Data Analysis. 3(1). 13–25.