• Tidak ada hasil yang ditemukan

Universitas Negeri Malang Kata Kunci: cluster, single linkage, complete linkage, silhouette, pembangunan manusia.

N/A
N/A
Protected

Academic year: 2022

Membagikan "Universitas Negeri Malang Kata Kunci: cluster, single linkage, complete linkage, silhouette, pembangunan manusia."

Copied!
8
0
0

Teks penuh

(1)
(2)

1. Yuli Novita Indriani adalah mahasiswa jurusan matematika FMIPA Universitas Negeri Malang 2. Abadyo adalah dosen jurusan matematika FMIPA Universitas Negeri Malang

PERBANDINGAN JUMLAH KELOMPOK OPTIMAL PADA METODE SINGLE LINKAGE DAN COMPLETE LINKAGE DENGAN INDEKS

VALIDITAS SILHOUETTE:

Studi Kasus pada Data Pembangunan Manusia Jawa Timur 𝐘𝐮𝐥𝐢 𝐍𝐨𝐯𝐢𝐭𝐚 𝐈𝐧𝐝𝐫𝐢𝐚𝐧𝐢𝟏, 𝐀𝐛𝐚𝐝𝐲𝐨𝟐

Universitas Negeri Malang E-mail: [email protected]

Abstrak: Penelitian ini bertujuan membandingkan mana yang lebih baik antara hasil pengelompokan metode single linkage dan complete linkage dengan menggunakan indeks validitas silhouette berdasarkan nilai Cluster Tightness Measure (CTM). Data yang digunakan dalam penelitian ini adalah data Pembangunan Manusia Jawa Timur dari Tahun 2007 sampai Tahun 2011 dengan 3 variabel penelitian. Berdasarkan hasil penelitian yang diperoleh dari hasil keseluruhan pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah cluster optimum dibandingkan dengan metode complete linkage dengan menggunakan indeks validitas silhouette. Hasil

pengelompokkan pada metode single linkage dari tahun 2007 ke tahun 2011 tidak menunjukkan pergeseran hasil pengelompokan. Pemerintah harus mengarahkan perhatian pada wilayah yang masuk pada k = 2.

Karena, wilayah yang masuk dalam kelompok tersebut adalah wilayah yang memilki Indeks Pembangunan Manusia yang rendah. Berdasarkan hasil yang diperoleh dari analisis faktor, variabel Indeks Pendidikan (IP) adalah variabel yang paling berpengaruh. Maka, perhatian pemerintah harus lebih difokuskan pada pendidikan.

Kata Kunci: cluster, single linkage, complete linkage, silhouette, pembangunan manusia.

Indeks Pembangunan Manusia (IPM) merupakan merupakan suatu indeks komposit yang mencangkup tiga bidang pembangunan manusia yang dianggap sangat mendasar, yaitu kemampuan untuk bertahan hidup lebih lama yang mewakili bidang kesehatan; angka melek huruf, partisipasi sekolah dan rata-rata lamanya sekolah mengukur kinerja pembangunan bidang pendidikan; dan kemampuan daya beli masyarakat terhadap sejumlah kebutuhan pokok yang dilihat dari rata-rata besarnya pengeluaran per kapita. Sehingga, untuk mengetahui pengelompokan IPM dapat digunakan analisis cluster.

Analisis cluster merupakan salah satu metode dalam analisis statistik multivariat yang digunakan untuk mengelompokkan objek-objek ke dalam suatu kelompok berdasarkan karakteristik yang dimiliki, sehingga objek-objek dalam suatu kelompok memiliki ciri-ciri yang lebih homogen dibandingkan dengan objek dalam kelompok lain. Single linkage dan complete linkage merupakan metode dalam analisis cluster pengelompokan hirarki. Salah satu masalah dalam analisis cluster adalah penentuan jumlah optimal kelompok dalam cluster yang

(3)

sudah dibentuk. Oleh karena itu, setelah melakukan analisis cluster perlu dilakukan uji validitas cluster untuk menentukan jumlah kelompok terbaik.

Silhouette dapat digunakan untuk mengevaluasi kevalidan hasil dari suatu analisis cluster yang sesuai. Silhouette tidak dipengaruhi oleh metode pengelompokan yang digunakan.

Silhouette merupakan ukuran statistik yang digunakan untuk menyeleksi jumlah kelompok yang optimal.

Beberapa tahapan untuk prosedure silhouette, dijelaskan sebagai berikut:

1. Untuk tiap-tiap objek 𝑖 yang berada di kelompok A, dihitung:

i j k j

ij A

n d i a

1 ,

) 1

( 𝑖, 𝑗 ∈A, 𝑘 ∈ C

di mana

𝑛𝐴 : banyaknya observasi pada kelompok 𝐴

𝑎(𝑖): rata-rata jarak obyek ke-i ke semua obyek yang lain dalam kelompok A

C : kelompok C (lainnya)

2. Ada beberapa kelompok lain yang berbeda dengan A, dihitung:

C k

ik C

n d C i

d 1

) ,

( 𝑖 ∈ 𝐴, 𝑘 ∈ 𝐶

di mana

𝑛𝐶 : banyaknya observasi pada kelompok C )

, ( Ci

d : rata-rata jarak objek ke-i ke seluruh obyek di kelompok C (lainnya)

3. Setelah menghitung d( Ci, )untuk seluruh kelompok C≠A, diambil nilai terkecil

𝑏 𝑖 = 𝑚𝑖𝑛𝐶≠𝐴 𝑑(𝑖, 𝐶)

Minimum dari rata-rata obyek ke-i ke semua obyek kelompok yang lain.

Misal, kelompok B mencapai minimum dilihat dari d(i,B)b(i) maka dinamakan neighbour dari obyek ke-i. Ini adalah second-best cluster dari obyek ke-i

4. Menghitung statistik silhouette yang didefinisikan:

( ) ( )

max

) ( ) ) (

( a i b i

i a i i b

s

 

di mana

𝑖 ∶ 1,2, … , 𝑛𝑟

𝑛𝑟 : banyaknya observasi pada kelompok-r Jumlah kelompok (𝑘)optimum estimasi dari harga 𝑘 yang paling memaksimumkan nilai rata-rata 𝑠(𝑖) (Rousseeuw, 1987:55).

Dalam metode single linkage jarak di antara dua cluster A dan B

didefinisikan sebagai jarak minimum antara suatu titik di A dan suatu titik di B:

A B

 

d

yi yj

 

D , min , , untuk yiA dan yjB. Sedangkan pada metode complete linkage, jarak di antara dua cluster A dan B didefinisika sebagai jarak maksimum antara suatu titik di A dan suatu titik di B: D

A,B

max

d

yi,yj

 

, untuk yiA dan yjB (Rencher,2002:456).

(4)

Cluster Tightness Measure (CTM) merupakan ukuran kebaikan dari hasil pengelompokan berdasarkan simpangan baku setiap variabel pada masing-maing kelompok, yang dirumuskan sebagai berikut:

 





K

k

p

j n j

j k

p CTM K

1 1

1 1

 .

di mana, kj: simpangan baku pada kelompok ke-k untuk variabel ke-j

j

n: simpangan baku seluruh data untuk variabel ke-j 𝑝 : banyaknya variabel

𝐾 : banyaknya kelompok

Kelompok yang terbentuk dikatakan baik jika memiliki nilai CTM terkecil (Epps dan Ambikairajah, 2008).

Selanjutnya, analisis faktor digunakan untuk melihat veariabel mana yang paling berpengaruh, analisis faktor memiliki model persamaan:

𝑋1− 𝜇1 = 𝐿11𝐹1+ 𝐿12𝐹2+ 𝐿13𝐹3+ ⋯ + 𝐿1𝑚𝐹𝑚 + 𝜀1 𝑋2− 𝜇2 = 𝐿21𝐹1 + 𝐿22𝐹2+ 𝐿23𝐹3+ ⋯ + 𝐿2𝑚𝐹𝑚 + 𝜀2

𝑋𝑝 − 𝜇𝑝 = 𝐿𝑝1𝐹1+ 𝐿𝑝2𝐹2 + 𝐿𝑝3𝐹3+ ⋯ + 𝐿𝑝𝑚𝐹𝑚 + 𝜀𝑝 atau dapat ditulis ke dalam notasi matriks:

𝑋(𝑝×1)− 𝜇(𝑝×1) = 𝐿(𝑝×𝑚 )𝐹(𝑚 ×1)+ 𝜀(𝑝×1) di mana,

𝑋 : vektor variabel asal (𝑋1, 𝑋2, 𝑋3, … , 𝑋𝑝) 𝜇 : vektor rata-rata variabel awal

𝐿 : matriks beban faktor yang merefleksikan pentingnya faktor bersama, dimana 𝐿𝑖𝑗 adalah nilai beban faktor dari variabel ke-𝑖 pada faktor ke-𝑗 dengan 𝑖 = 1, 2, 3, … , 𝑝 dan 𝑗 = 1, 2, 3, … , 𝑚 𝐹 : vektor faktor bersama

𝜀 : vektor faktor khusus atau galat

METODOLOGI PENELITIAN

Data yang digunakan dalam peneltian ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik. Variabel-variabel yang digunakan dalam penelitian ini adalah Indeks Harapan Hidup (IHH), Indeks Pendidikan (IP), dan Purchasing Power Parity (PPP). Langkah-langkah yang dilakukan dalam penelitian ini adalah:

1. Melakukan uji korelasi, jika tidak ada korelasi antar variabel maka analisis cluster tidak dapat dilakukan.

2. Melakukan uji normalitas ganda, jika data tidak normal ganda maka data harus ditransformasi, jika data normal ganda langsung ke langkah 3 dan 4.

3. Melakukan analisis kelompok hirarki metode single linkage.

4. Melakukan analisis kelompok hirarki metode complete linkage.

5. Menghitung indeks validitas silhouette dari hasil langkah 3 dan langkah 4.

6. Menghitung nilai CTM dari hasil langkah no. 5.

7. Membandingkan nilai CTM untuk kedua metode, metode terbaik ditunjukkan dengan nilai CTM minimum.

8. Membandingkan perubahan kelompok Pembangunan Manusia dari tahun ke tahun.

(5)

9. Melakukan analisis faktor.

10. Melakukan analisis diskriminan.

HASIL DAN PEMBAHASAN

Dari hasil analisis kelompok metode single linkage dan complete linkage dengan metode silhouette diperoleh jumlah kelompok optimal sama. Hasil perhitungannya adalah sebagai berikut:

Tabel 1Jumlah Cluster dan Nilai Indeks Validitas Silhouette

Data Single linkage Complete linkage

Jumlah cluster Silhouette (S) Jumlah cluster Silhouette(S)

1 2 0,48961 2 0,52568

2 2 0,48585 2 0,52247

3 2 0,48080 2 0,52451

4 2 0,47828 2 0,51686

5 2 0,48820 2 0,52351

Indeks validitas silhouette memberikan nilai yang tidak sama pada metode single linkage dan complete linkage meskipun jumlah cluster sama.Ini

dikarenakan jumlah kelompok yang terbentuk memiliki anggota yang berbeda meskipun jumlah cluster sama.

Berdasarkan perbedaan tersebut, diperlukan suatu ukuran kebaikan hasil pengelompokan. Dalam penelitian ini ukuran kebaikan hasil pengelompokan yang digunakan adalah Cluster Tighness Measure (CTM). Nilai CTM untuk kedua metode tersebut dapat dilihat pada Tabel 2.

Tabel 2Nilai CTM Single Linkage dan Complete Linkage

Data Single linkage Complete linkage

Jumlah cluster CTM Jumlah cluster CTM

1 2 0,476482 2 0,63777

2 2 0,477519 2 0,636642

3 2 0,479018 2 0,646745

4 2 0,480056 2 0,652892

5 2 0,479704 2 0,660327

Berdasarkan nilai CTM yang diperoleh, 100% nilai CTM dari metode single linkage menunjukkan nilai yang lebih kecil daripada nilai CTM yang dihasilkan pada metode complete linkage. Jadi, hasil pengelompokan

menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah optimum cluster dibandingkan metode complete linkage pada data IPM tahun 2007 sampai tahun 2011 dengan jumlah kelompok optimal dua.

Hasil pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah optimum cluster.

Hasil pengelompokan metode single linkage dengan menggunakan indeks validitas silhouette pada data IPM dari tahun 2007 ke tahun 2011 dapat dilihat pada Tabel 3.

(6)

Tabel 3Hasil Pengelompokan dengan Indeks Validitas Silhouette pada Metode Single Linkage

Kelompok Anggota Kelompok

2007 2008 2009 2010 2011

1

Pacitan Pacitan Pacitan Pacitan Pacitan

Ponorogo Ponorogo Ponorogo Ponorogo Ponorogo

Trenggalek Trenggalek Trenggalek Trenggalek Trenggalek

Tulunggagung Tulunggagung Tulunggagung Tulunggagung Tulunggagung

Blitar Blitar Blitar Blitar Blitar

Kediri Kediri Kediri Kediri Kediri

Malang Malang Malang Malang Malang

Lumajang Lumajang Lumajang Lumajang Lumajang

Jember Jember Jember Jember Jember

Banyuwangi Banyuwangi Banyuwangi Banyuwangi Banyuwangi

Bondowoso Bondowoso Bondowoso Bondowoso Bondowoso

Situbondo Situbondo Situbondo Situbondo Situbondo

Probolinggo Probolinggo Probolinggo Probolinggo Probolinggo

Pasuruan Pasuruan Pasuruan Pasuruan Pasuruan

Sidoarjo Sidoarjo Sidoarjo Sidoarjo Sidoarjo

Mojokerto Mojokerto Mojokerto Mojokerto Mojokerto

Jombang Jombang Jombang Jombang Jombang

Nganjuk Nganjuk Nganjuk Nganjuk Nganjuk

Madiun Madiun Madiun Madiun Madiun

Magetan Magetan Magetan Magetan Magetan

Ngawi Ngawi Ngawi Ngawi Ngawi

Bojonegoro Bojonegoro Bojonegoro Bojonegoro Bojonegoro

Tuban Tuban Tuban Tuban Tuban

Lamongan Lamongan Lamongan Lamongan Lamongan

Gresik Gresik Gresik Gresik Gresik

Bangkalan Bangkalan Bangkalan Bangkalan Bangkalan

Pamekasan Pamekasan Pamekasan Pamekasan Pamekasan

Sumenep Sumenep Sumenep Sumenep Sumenep

Kota Kediri Kota Kediri Kota Kediri Kota Kediri Kota Kediri Kota Blitar Kota Blitar Kota Blitar Kota Blitar Kota Blitar Kota Malang Kota Malang Kota Malang Kota Malang Kota Malang Kota Probolinggo Kota Probolinggo Kota Probolinggo Kota Probolinggo Kota Probolinggo Kota Pasuruan Kota Pasuruan Kota Pasuruan Kota Pasuruan Kota Pasuruan Kota Mojokerto Kota Mojokerto Kota Mojokerto Kota Mojokerto Kota Mojokerto Kota Madiun Kota Madiun Kota Madiun Kota Madiun Kota Madiun Kota Surabaya Kota Surabaya Kota Surabaya Kota Surabaya Kota Surabaya

Kota Batu Kota Batu Kota Batu Kota Batu Kota Batu

2 Sampang Sampang Sampang Sampang Sampang

(7)

Berdasarkan hasil pengelompokan pada Tabel 3, dapat dilihat bahwa keanggotaan kelompok dari tahun 2007 sampai tahun 2011 tidak mengalami pergeseran, serta diketahui wilayah mana yang masuk pada katagori memiliki pambangunan manusia rendah mupun tinggi. Pemerintah harus memberikan perhatian khusus pada wilayah dengan katagori pembangunan manusia yang rendah yaitu daerah yang memiliki indeks kesehatan (IHH), indeks pendidikan (IP), daya beli (PPP) yang rendah yaitu wilayah Sampang.

Berdasarkan hasil dari analisis faktor Data 1, diperoleh persamaan

𝑋 = 0,377 𝐼𝐻𝐻 + 0,409 𝐼𝑃 + 0,348 𝑃𝑃𝑃. Dapat dilihat bahwa variabel IP adalah variabel yang paling berpengaruh yaitu sebesar 0,409. Maka, perhatian

pemerintah seharusnya lebih difokuskan pada pendidikan terhadap wilayah yang mempunyai pembangunan manusia yang masih rendah yaitu dengan

pembangunan sarana pendidikan yang memadai. Selain itu masyarakat yang berada di daerah tersebut sangat membutuhkan adanya pembinaan terhadap pola pikir mereka tentang pentingnya pemanfaatan sarana pendidikan secara optimum.

KESIMPULAN

Berdasarkan hasil nilai CTM terkecil, dari 100% hasil pengelompokan menunjukkan bahwa metode single linkage menghasilkan CTM terkecil. Jadi, hasil pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah cluster optimum dibandingkan metode complete linkage dengan menggunakan indeks validitas silhouette pada data IPM Tahun 2007 sampai Tahun 2011.

Hasil pengelompokan menggunakan indeks validitas silhouette pada metode single linkage menghasilkan jumlah kelompok optimum yang sama dari tahun 2007 sampai yahun 2011, yaitu jumlah kelompok optimum terbentuk dua kelompok.

Hasil pengelompokan metode single linkage pada tahun 2007 ke tahun 2011 tidak menunjukkan pergeseran hasil pengelompokan. Pemerintah harus memberikan perhatian khusus pada wilayah yang masuk dalam kelompok dua atau wilayah Sampang. Karena, wilayah yang masuk dalam kelompok dua adalah wilayah yang memiliki IPM yang rendah.

Berdasarkan hasil yang diperoleh dari analisis faktor, variabel Indeks Pendidikan (IP) adalah variabel yang paling berpengaruh. Maka, perhatian pemerintah seharusnya lebih difokuskan pada pendidikan terhadap wilayah yang mempunyai pembangunan manusia yang masih rendah yaitu dengan

pembangunan sarana pendidikan yang memadai. Selain itu masyarakat yang berada di daerah tersebut sangat membutuhkan adanya pembinaan terhadap pola pikir mereka tentang pentingnya pemanfaatan sarana pendidikan secara optimum.

SARAN

Pada penelitian ini, metode pengelompokan yang digunakan adalah

metode Single Linkage dan Complete Linkage. Bagi pihak lain yang ingin meneliti

(8)

bisa menggunakan K-Means. Selain itu, dalam penelitian ini digunakan indeks validitas Silhouette untuk menentukan jumlah optimum cluster. Bagi peneliti lain yang ingin melakukan penelitian untuk menentukan jumlah optimum cluster dapat menggunakan indeks validitas Gap Statistic ataupun mengggunakan indeks

validitas lainnya .Selanjutnya dalam penelitian ini untuk menentukan ukuran kebaikan hasil pengelompokan digunakan Cluster Tighness Measure (CTM), sedangkan peneliti lain dapat menggunakan metode Compatible Cluster Merging.

DAFTAR RUJUKAN

Epps, J. dan Ambikairajah, E. 2008. Visualisation of Reduced Dimension Microarry Data Using Gaussian Mixture Model. (Online),

(http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.59.1619), diakses 13 Februari 2013.

Rencher, A. C. 2002. Methods of Multivariate Analysis Second Edition. New York: John Wiley & Sons, Inc.

Rousseeuw, P. J. 1987. Silhouettes : A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Journal of Computational and Applied Mathematics 20 : 53-65.

Gambar

Tabel 3 Hasil Pengelompokan dengan Indeks Validitas Silhouette  pada Metode Single  Linkage

Referensi

Dokumen terkait

Jadi dapat disimpulkan bahwa kinerja pegawai adalah prestasi kerja atau hasil kerja baik dari kualitas dan kuantitas yang dicapai pegawai persatuan periode waktu dalam

Menurut Reid, 1961; Welch, 1980 dalam Simanjuntak (2007) kadar oksigen dalam suatu perairan sangat dipengaruhi oleh meningkatnya bahan-bahan organik yang masuk ke

Gambar 7: jalan tanjakan dan tikungan menuju Watu Blorok (Di ambil pada tabnggal 28 Maret 2015).. Jalan tanjakan dan tikungan menuju

aturan atau ketentuan yang mengikat warga kelompok dalam masyarakat, dipakai sebagai panduan, tatanan dan kendali tingkah laku yang sesuai dan diterimaB. aturan atau ketentuan

Penderita yang tergolong good risk dapat diberikan dosis yang relatif tinggi, pada poor risk (apabila didapatkan gangguan berat pada faal organ penting) maka dosis obat

Friend (2015: 211) menyatakan bahwa keputusan besar yang terkait dengan diagnosis menyangkut kelayakan atas layanan pendidikan khusus, pertimbangan berdasarkan

Berdasarkan Tabel 2 pada hasil penelitian dari tiga periode pengambilan sampel, jumlah spesies makrozoobentos yang paling banyak ditemukan di sepanjang Sungai Damar yaitu pada

Di bagian hulu stasiun terdapat industri Pertamina serta mobilitas kapal air dan kapal tanker cukup tinggi di sebelah kanan tepi sungai terdapat jalur-jalur pipa milik