• Tidak ada hasil yang ditemukan

METODE CLUSTER ENSEMBLE UNTUK PENGELOMPOKKAN DESA PERDESAAN DI PROVINSI RIAU

N/A
N/A
Protected

Academic year: 2021

Membagikan "METODE CLUSTER ENSEMBLE UNTUK PENGELOMPOKKAN DESA PERDESAAN DI PROVINSI RIAU"

Copied!
16
0
0

Teks penuh

(1)

1

METODE

CLUSTER ENSEMBLE

UNTUK PENGELOMPOKKAN

DESA PERDESAAN DI PROVINSI RIAU

Angsoka Dewi1, Sutikno2, Heri Kuswanto3

1,2,3Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya

1

angsoka.dewi@bps.go.id, 2sutikno@statistika.its.ac.id, 3heri_k@statistika.its.ac.id

Abstract

The currently emerged clustering algorithms focus on numerical or continuous data. However, datasets with mixed categorical and continuous data are common in real data. Clustering algorithm with mixed type variables is very limited and not yet available in program package. The purpose of this study is to assess and develop programs for cluster ensemble method to deal with mixed type variables. The program will be implemented in the case of grouping rural village in Riau Province. Clustering result with the cluster ensemble will be compared with clustering using the full categorical and full continuous method. Comparison is done by performs the minimum ratio of standard deviation within cluster and standard deviation between clusters. The results show that the ensemble method produce clusters with better performance than the full categorical and full continuous method. Ratios from each method were measured in the number of clusters equal to four in a row is 0.0072, 0.0904, and 0.2679. By cluster ensemble, rural villages in Riau Province can be grouped into four clusters and can identify 65 villages that are remote areas.

Keywords: Remote Area, Cluster Ensemble, Mixed Type Variables.

Abstrak

Metode pengelompokkan yang berkembang saat ini hanya terfokus pada pengelompokkan untuk data-data numerik dan kontinu. Pengelompokkan yang melibatkan variabel berskala campuran masih sangat terbatas dan belum tersedia paket programnya.Tujuan penelitian ini adalah mengkaji dan membangun program untuk metode pengelompokkan ensembel dalam menangani variabel berskala campuran kategorik dan kontinu. Program tersebut akan diimplementasikan untuk mengelompokkan desa perdesaan di Provinsi Riau. Hasil pengelompokkan ensembel akan dibandingkan dengan pengelompokkan full kategorik dan full kontinu dengan kriteria rasio simpangan baku dalam kelompok dan simpangan baku antar kelompok. Hasil pengelompokkan menunjukkan bahwa metode pengelompokkan ensembel menghasilkan kelompok dengan kinerja yang lebih baik daripada pengelompokkan full kategorik dan full kontinu. Nilai rasio dari masing-masing metode yang diukur pada jumlah kelompok sama dengan 4 (empat) secara berturut-turut adalah 0,0072; 0,0904; dan 0,2679. Dengan pengelompokkan ensembel, desa perdesaan di Provinsi Riau dapat dikelompokkan menjadi 4 (empat) kelompok dan dapat mengidentifikasi 65 desa yang merupakan remote area.

(2)

2 1. Pendahuluan

Aspek geografis merupakan salah satu kendala dalam pelaksanaan sensus dan survei yang dilakukan BPS, terutama masalah akses. Akibatnya, muncul kasus keterlambatan penyelesaian kegiatan pendataan, penggantian sampel dan non-respon untuk daerah-daerah yang sulit diakses. Kasus penggantian sampel terkait dengan daerah sulit, yang diistilahkan dengan remote area, banyak terjadi pada pelaksanaan survei dengan pendekatan rumah tangga.

Remotearea merupakan daerah perdesaan yang secara geografis jauh dari daerah perkotaan

dan memiliki aksesibilitas rendah [1].

Untuk mendukung kegiatan sensus dan survei BPS dan mengurangi kemungkinan penggantian sampel, perlu adanya identifikasi remote area. Langkah awalnya adalah dengan melakukan pengelompokkan desa-desa. Hasil pengelompokkan desa-desa perdesaan tersebut diharapkan dapat digunakan sebagai masukan dalam melakukan stratifikasi kerangka sampel yang mempertimbangkan remote area dalam pengalokasian jumlah sampel, khususnya untuk survei-survei dengan pendekatan rumah tangga.Pengelompokkan wilayah berdasarkan kriteria keterpencilan (remoteness) telah dilaksanakan oleh [1], [2], [3], dan [4].

Sebagian besar algoritma pengelompokkan yang ada terfokus pada pengelompokkan dengan variabel yang memiliki data yang berskala numerik atau kontinu, sedangkan basisdata yang dimiliki seringkali berskala campuran kategorik dan kontinu. Algoritma untuk pengelompokkan yang melibatkan variabel berskala campuran masih terbatas dan belum tersedia paket programnya. Pendekatan clustering ensemble dapat diterapkan untuk pengelompokkan objek-objek yang memiliki variabel berskala campuran kategorik dan kontinu. Pengelompokkan ensembel (clustering ensemble) sebagai teknik pengelompokkan untuk menggabungkan hasil pengelompokkan beberapa algoritma pengelompokkan untuk mendapatkan kelompok akhir [5]. Salah satu algoritma yang dapat digunakan adalah Cluster

Ensemble Based Mixed Data Clustering (CEBMDC). Teknik ini dikembangkan dengan

membawa permasalahan ke dalam pengelompokkan data kategorik pada akhir tahapan pengelompokkan.

Tujuan penelitian ini adalah membuat algoritma dan membangun program aplikasi berbasis GUI untuk teknik pengelompokkan ensembel dalam menangani variabel berskala campuran kategorik dan kontinu. Program tersebut akan diimplementasikan untuk mengelompokkan desa perdesaan di Provinsi Riau. Hasil pengelompokkan ensembel kemudian dibandingkan dengan pengelompokkan full kategorik dan full kontinu. Pengelompokkan full kategorik dilakukan dengan preprosesing berupa transformasi variabel berskala kontinu menjadi kategorik, dan pengelompokkan full kontinu didahului dengan transformasi semua variabel kategorik menjadi kontinu.

Ukuran yang digunakan untuk membandingkan kinerja ketiga teknik tersebut adalah rasio simpangan baku dalam kelompok (Sw) dan simpangan baku antar kelompok (Sb). Kelompok yang baik adalah kelompok memiliki rasio Sw dan Sb minimum [6] untuk pengelompokkan data kontinu, dan [7] diadaptasi untuk memperoleh simpangan baku dalam kelompok dan antar kelompok untuk variabel berskala kategorik.

(3)

3 2. Tinjauan Pustaka

2.1 Keterpencilan atau Remoteness

Kata remote dalam kamus diartikan jauh; jauh dari sesuatu; jauh dari tempat di mana orang lain tinggal. Remoteness atau keterpencilan berkaitan dengan jarak fisik yang memisahkan unit spasial. Selain itu remoteness juga diartikan sebagai kemampuan akses ke berbagai layanan, seberapa jauh seseorang melakukan perjalanan ke pusat-pusat rujukan [3].

Departemen Pekerjaan Umum [1] menyebutkan bahwa desa terpencil merupakan kawasan perdesaan yang terisolasi dari pusat pertumbuhan/daerah lain akibat tidak memiliki atau kekurangan sarana (infrastruktur) perhubungan sehingga menghambat pertumbuhan/ perkembangan kawasan.

2.2 Pengelompokkan Ensembel

Pengelompokkan ensembel adalah metode yang menggabungkan beberapa algoritma yang berbeda untuk mendapatkan partisi umum dari data, yang bertujuan untuk konsolidasi dari portofolio hasil pengelompokkan individu [5]. Tujuan pengelompokkan ensembel adalah untuk menggabungkan hasil pengelompokkan dari beberapa algoritma pengelompokkan untuk mendapatkan hasil pengelompokkan yang lebih baik dan robust [9].

Pengelompokkan ensembel terdiri atas 2 (dua) tahap algoritma. Tahap pertama adalah melakukan pengelompokkan dengan beberapa algoritma dan menyimpan hasil pengelompokkan tersebut. Kedua, menggunakan fungsi konsensus untuk menentukan kelompok final dari kelompok-kelompok hasil tahap pertama.

2.3 Algoritma Squeezer

Data X merupakan kumpulan objek yang disebut tuple dimana setiap tuple memiliki identitas yang disebut (tuple identity) dengan indeks 1,2,...,TID. adalah objek terakhir dalam X yang menandakan total banyaknya objek dalam . Misalkan adalah sekumpulan variabel berskala kategorik. Untuk setiap , nilai variabel yang bersesuaian dengan tuple direpresentasikan sebagai .

Definisi 1 : (Cluster) adalah suatu kelompok dengan anggota

objek-objek dengan identitas , dimana .

Definisi 2 : Diketahui kelompok , himpunan nilai yang berbeda yang bersesuaian dengan didefinisikan sebagai :

dimana .

Definisi 3 : (Support) Diketahui kelompok , , support pada yang

bersesuaian dengan kelompok Cl didefinisikan sebagai:

atau support adalah banyaknya tuple pada yang mengandung nilai .

(4)

4 Definisi 4 : (Summary) Diketahui kelompok , summary untuk didefinisikan sebagai

himpunan pasangan dengan , dituliskan sebagai

dimana (1)

3. Metodologi

Data yang digunakan dalam penelitian ini adalah data sekunder hasil yang PODES 2008 dan data Kecamatan Dalam Angka 2009 dengan variabel-variabel yang disajikan pada Tabel 1. Objek penelitiannya adalah 1.383 desa perdesaan di Provinsi Riau.

Tabel 1. Variabel-variabel yang digunakan dalam penelitian

VARIABEL SKALA

PENGUKURAN

X1 Letak geografis Kategorik

X2 Akses dari dan menuju desa Kategorik

X3 Jenis jalan terpanjang Kategorik

X4 Alat transportasi umum utama Kategorik

X5 Kepadatan penduduk Kontinu

X6 Persentase rumah tangga pertanian Kontinu

X7 Jarak desa ke kecamatan Kontinu

X8 Jarak desa ke kabupaten/kota Kontinu

X9 Jarak desa ke kabupaten/kota lain terdekat Kontinu

Langkah-langkah dalam penelitian ini adalah sebagai berikut. A. Penyusunan Algoritma dan Program Pengelompokkan Ensembel

1) Membagi (splitting) data ke dalam data kategorik dan data kontinu 2) Pengelompokkan Data Kategorik dengan Algoritma Squeezer

a. Menentukan threshold (s) dan input data.

b. Manghitung bobot untuk tiap kategori pada masing-masing variabel.

(2)

(3)

dimana , adalah objek/amatan 1,j=1,2,...,n, adalah kategori objek ke- variabel ke- . adalah frekuensi kemunculan . merupakan himpunan

(5)

5 semua pasangan nilai untuk variabel yang lebih dari atau sama dengan pasangan

, dan adalah bobot untuk kategori

c. Baca objek pertama data atau tuple pertama, maka tuple tersebut diinisialisasikan sebagai kelompok pertama.

d. Hitung summary untuk setiap kategori pada masing-masing variabel. e. Untuk baris atau tuple ke-2 sampai dengan tuple terakhir lakukan:

- Hitung kemiripan (similarity) antara tuple dan kelompok yang sudah ada Rumus kemiripan tanpa pembobot:

(4)

Rumus kemiripandengan pembobot:

(5)

- Tentukan similarity maksimum (sim_max) dan catat identitas tuple, yang dinamakan indeks.

- Jika sim_max ≥ s, maka tuple dimasukkan sebagai anggota kelompok dengan

similarity maksimum tersebut, lakukan updating summary pada kelompok

tersebut.

- Jika sim_max < s, maka tuple tersebut membentuk kelompok baru, dan hitung

summary-nya.

f. Menghitung dan menggunakan persamaan (3) dan (4) berikut ini.

(6)

(7) dimana: adalah simpangan baku dalam kelompok, adalahsimpangan baku antar kelompok,

adalah

banyaknya objek dengan kategori , . adalah banyaknya objek pada kelompok ke-c, , dan banyaknya objek kategori ke- , kelompok ke-

g. Sajikan output hasil pengelompokkan (Output 1). 3) Pengelompokkan Data Kontinu dengan Hirarki Aglomeratif

a. Inisialisasi kelompok (cluster) sebanyak objek dengan anggota tunggal.

b. Menentukan ukuran kemiripan dengan jarak Euclidean, dan membuat matriks jarak berukuran .

(6)

6 c. Menggabungkan kelompok dengan jarak yang paling dekat.

d. Menghitung indeks validitas kelompok RMSSTD (Root mean square standard

deviation), R-Squared, SPR (Semi partial R-Squares), dan CD (centroid distance)

yang dijelaskan [8] menggunakan persamaan (8), (9), dan (10) sebagai berikut:

(8)

(9)

(10)

adalah objek ke- . adalah rata-rata objek kelompok ke- dimana .

e. Memperbarui (update) matriks jarak dengan metode complete linkage. f. Mengulangi langkah (c) dan (e) sampai hanya terbentuk 1 (satu) kelompok. g. Menentukan kandidat jumlah kelompok yang optimum berdasarkan indeks

validitas yang diperoleh pada langkah (d).

h. Mengulangi langkah (a) sampai dengan (g) dengan metode average linkage. k. Melakukan kembali proses pengelompokkan dengan cutting-off jumlah kelompok

optimum yang diperoleh dari langkah (g).

l. Menghitung dan menggunakan persamaan (11) dan (12), untuk complete linkage dan average linkage.

(11)

(12)

dimana adalah simpangan baku dalam kelompok, adalah simpangan baku antar kelompok dan adalah simpangan baku kelompok ke- , . Membandingkan hasil langkah (j)dan menentukan kelompok terbaik untuk ukuran jarak Euclidean dengan kriteria rasio dan terkecil.

Tahapan (a) sampai (j) diulangi dengan mengganti ukuran jarak Mahalanobis untuk mendapatkan kelompok terbaik dengan jarak ini. Tahapan terakhir adalah membandingkan kelompok terbaik dengan jarak Euclidean dan jarak Mahalanobis. 4) Penggabungan (combining) Hasil Pengelompokkan ke dalam Final Cluster (Tahapan

Ensembel)

Setelah mendapatkan kelompok yang optimum hasil algoritma Squeezer dan Aglomeratif, tahapan selanjutnya adalah melakukan penggabungan kelompok

(7)

7

(combining). Tahapan combining sama dengan melakukan pengelompokkan data

kategorik dengan Algoritma Squeezer, dimana input untuk tahapan ini adalah kelompok hasil algoritma Squeezer (Output 1) dan kelompok hasil metode Aglomeratif (Output 2).

5) Membuat rancangan program berbasis GUI untuk pengelompokkan ensembel a. Rancangan Basisdata

Data yang dipersiapkan adalah dalam bentuk .mat, yaitu file yang dapat dibaca oleh MATLAB.

b. Rancangan Menu yang terdiri atas:

- Menu Utama, adalah menu yang digunakan untuk pengelompokkan dengan algoritma Squeezer dan metode hirarki aglomeratif.

- Menu Pendukung, antara lain: menu untuk combining data, transformasi data, dan menampilkan peta tematik hasil pengelompokkan.

B. Pengelompokkan Desa Perdesaan di Provinsi Riau dengan Pengelompokkan Ensembel Pengelompokkan dilakukan dengan mengimplementasikan algoritma pada tahapan A dengan menggunakan 9 (sembilan) variabel yang dirinci menjadi 4 (empat) variabel berskala kategorik dan 5 (lima) variabel berskala kontinu.

C. Membandingkan Pengelompokkan Ensembel, Full Kategorik, dan Data Kontinu 1) Pengelompokkan full kategorik

a. Melakukan transformasi variabel-variabel kontinu (X5 sampai dengan X9) menjadi

bentuk kategorik.

b. Data pada masing-masing variabel (X5 sampai X9) dibagi kategori-kategori

sebagai berikut:

Kepadatan Penduduk (X5): 1 = lebih dari 250; 2 = 50,1 - 250; 3 = 0 - 50

Persentase Rumah Tangga Pertanian (X6): 1 = kurang dari 70.00; 2 = lebih dari

atau sama dengan 70.00

Jarak Desa ke Kecamatan (X7): 1 = kurang dari atau sama dengan 5,00; 2 = 5,01 -

10,00; 3 = 10,01 - 20,00; dan 4 = lebih dari 20,00

Jarak Desa ke Kabupaten (X8): 1 = kurang dari atau sama dengan 50,00;2 = 50,01

- 100,00; dan 3 = lebih dari 100

Jarak Desa ke Kabupaten Lain (X9) : 1 = kurang dari atau sama dengan 70,00; 2 =

70,01 - 98,00; 3 = 98,01 - 135,00; 4 = lebih dari 135,00

c. Melakukan pengelompokkan full kategorik menggunakan algoritma Squeezer

dengan melibatkan semua variabel (X1 sampai dengan X9).

d. Menghitung dan dan menentukan jumlah kelompok yang optimum untuk pengelompokkan full kategorik.

2) Pengelompokkan full kontinu

a. Transformasi data kategorik menjadi data kontinu dilakukan berdasarkan Methods

of Successive Interval dengan algoritma sebagai berikut:

i. Menghitung frekuensi dan proporsi setiap kategori. = kategori = .

(8)

8 iii. Menentukan nilai Z untuk masing-masing proporsi kumulatif yang dianggap

menyebar mengikuti sebaran normal baku (invers CDF normal standar).

(13) iv. Mencari probability density function (PDF) bagi Z.

(14) v. Menghitung Scale Value (SV) untuk setiap kategori, dengan persamaan:

(15) vi. Menghitung score (nilai hasil transformasi) untuk setiap kategori dengan

persamaan:

(16) b. Melakukan pengelompokkan full kontinu dengan variabel X1 sampai dengan X9

dengan metode hirarki aglomeratif seperti pada pengelompokkan data kontinu pada tahapan A.3.

3) Membandingkan hasil pengelompokkan ensembel, full kategorik dan full kontinu dengan kriteria rasio simpangan baku dalam kelompok dan simpangan baku antar kelompok.

4. Hasil dan Pembahasan 4.1 Penyusunan Algoritma dan GUI

Penyusunan program dan GUI dilakukan dengan modul GUIDE pada MATLAB 2011a. Pengelompokkan data kategorik dengan algoritma Squeezer dibangun dari beberapa macam fungsi yaitu fungsi untuk menghitung bobot, similarity, summary, dan rasio SW dan SB. Algoritma untuk pengelompokkan data kontinu dengan hirarki aglomeratif dibangun dengan melakukan modifikasi terhadap toolbox clustering dan CVAP 3.7. Untuk menampilkan hasil pengelompokkan dengan peta tematik, dilakukan modifikasi terhadap

toolbox ArcMat yang menjembatani antara ArcView dan MATLAB. Keseluruhan fungsi

tersebut kemudian diintegrasikan ke dalam toolbox baru yang dinamakan Clustering CEBMDC sebagai alat untuk melakukan pengelompokkan dengan cluster ensemble dengan variabel berskala campuran.

4.2 Hasil dan Analisis Pengelompokkan Ensembel

Provinsi Riau terdiri atas 10 kabupaten dan 2 kota dengan 1.383 desa perdesaan. Tahapan preprosesing mengidentifikasi 28 desa sebagai outlier. Kemudian diputuskan untuk

(9)

9 tidak disertakan dalam proses pengelompokkan sehingga desa-desa perdesaan yang akan dikelompokkan adalah 1.355 desa.

A. Hasil Pengelompokkan Data Kategorik dengan Algoritma Squeezer

Pengelompokkan dengan algoritma Squeezer dilakukan tanpa pembobot dan dengan pembobot. Threshold yang digunakan adalah 0,1 sampai dengan 1,0. Gambar 1 menjelaskan pengelompokkan dengan pembobot menghasilkan kelompok yang lebih banyak daripada pengelompokkan tanpa pembobot. Pada threshold 1,0 terdapat selisih hasil dua kali lipat. Pengelompokkan tanpa pembobot menghasilkan 3 (tiga) kelompok dan dengan pembobot menghasilkan 6 (enam) kelompok (Gambar 1a). Secara umum rasio dan untuk pengelompokkan tanpa pembobot cenderung lebih tinggi dibandingkan pengelompokkan dengan pembobot, seperti disajikan pada Gambar 1b. Hal ini berarti kinerja kelompoknya lebih rendah dibandingan pengelompokkan dengan pembobot.

Gambar 1. Plot antara nilai threshold dan banyaknya kelompok (a) dan rasio dan (b) pada pengelompokkan data kategorik tanpa pembobot dan dengan pembobot.

Rasio dan terkecil diperoleh pada pengelompokkan dengan pembobot dan

threshold 0.9 (disingkat dengan WS0.9), sehingga kelompok hasil WS0.9 adalah kelompok

terbaik untuk pengelompokkan data kategorik. Kelompok yang dihasilkan adalah 4 (empat) dan nilai rasio dan adalah 0,0382. Anggota kelompok 1 sampai 4 berturut-turut adalah 793 desa, 349 desa, 148 desa, dan 65 desa. Kelompok 4 adalah kelompok yang memiliki karakteristik daerah remote.

B. Hasil Pengelompokkan Data Kontinu

Berdasarkan indeks RMSSTD, R-Squared, SPR dan CD disimpulkan bahwa perkiraan kelompok optimum pada pengelompokkan data kontinu adalah 3, 4, dan 5 kelompok. Tabel 2 menjelaskan rasio SW dan SB terkecil pada 3 kelompok adalah Euclidean-Complete Linkage

(ECL3), pada 4 dan 5 kelompok adalah Euclidean-average Linkage (EAL3 dan EAL5) dengan nilai berturut-turut adalah 0,2853; 0,3123; dan 0,3422. Kelompok dengan ECL3, EAL4 dan EAL5 digunakan untuk tahap ensembel pada pengeompokkan akhir.

(10)

10

Tabel 2 Nilai rasio SW dan SB berdasarkan ukuran jarak dan metode linkage

Banyaknya Kelompok Euclidean-Average Linkage Euclidean-Complete Linkage Mahalanobis- Average Linkage Mahalanobis-Complete Linkage 3 0,3205 0,2853* 0,5384 0,8475 4 0,3123* 0,3815 0,4012 0,8906 5 0,3422* 0,4326 0,4542 0,7255

Keterangan : *) Nilai rasio terkecil berdasarkan banyaknya kelompok

C. Hasil Akhir Pengelompokkan Ensembel

Tahapan ensembel adalah tahapan menggabungkan (combining) hasil pengelompokkan pada tahap A (WS0.9) dan B (ECL3, EAL4, dan EAL5) menggunakan algoritma Squeezer. Kombinasi pengelompokkan yang digunakan adalah WS0.9-EACL3, WS0.9-EAL4, dan WS0.9-EAL5. Threshold yang digunakan adalah 0,1 sampai 1,0.

Gambar 2a menjelaskan bahwa pada threshold yang sama terdapat perbedaan banyaknya kelompok yang dihasilkan oleh WS0.9-ECL3, WS0.9-EAL4, dan WS0.9-EAL5 tanpa pembobot. Secara umum banyaknya kelompok yang dihasilkan oleh WS09-EAL5 lebih besar daripada WS0.9-ECL3 dan WS0.9-EAL4. Gambar 2b memperlihatkan perbedaan perbedaan nilai rasio dan pada masing-masing metode. Secara umum dengan WS0.9-EAL5 menghasilkan rasio yang lebih besar daripada WS09-ECL3 dan WS09-EAL4.

Gambar 3a menunjukkan bahwa semakin tinggi nilai threshold maka semakin banyak kelompok yang dihasilkan pada pengelompokkan dengan pembobot. WS0.9-EAL5 secara umum menghasilkan kelompok yang paling besar dibandingkan ECL3 dan WS0.9-EAL4. Gambar 3b menjelaskan besarnya rasio dan sangat bervariasi pada threshold 0,1 sampai dengan 0,6 untuk semua kombinasi metode. Namun setelah threshold 0,6 menunjukkan adanya kesamaan pola. Rasio dan terkecil diperoleh pada WS0.9-EAL4 dengan

threshold 0,5 yaitu sebesar 0,0072.

Kombinasi metode dengan rasio dan terkecil dan memiliki tingkat akurasi yang maksimum adalah WS0.9-EAL4, dengan nilai adalah 0,0072 dan akurasi 100%. Dengan demikian kelompok hasil WS09-EAL4 merupakan kelompok akhir yang terbaik metode pengelompokkan ensembel untuk mengelompokkan desa-desa perdesaan di Provinsi Riau.

Kelompok pada WS0.9-EAL4 menghasilkan kelompok dengan karakteristik kelompok 1 adalah bukan daerah remote (793 desa), kelompok 2 bukan daerah remote (349 desa), kelompok 3 bukan daerah remote (148 desa), dan kelompok 4 adalah daerah remote (65 desa).

(11)

11

Gambar 2. Plot antara nilai threshold dan banyaknya kelompok (a) dan rasio dan (b) berdasarkan kombinasi metode pada pengelompokkan tanpa pembobot

Gambar 3. Plot antara nilai threshold dan banyaknya kelompok (a) dan rasio dan (b) berdasarkan kombinasi metode pada pengelompokkan dengan pembobot

4.3 Perbandingan Pengelompokkan Ensembel, Full Kategorik dan Full Kontinu A. Hasil Pengelompokkan Full Kategorik

Gambar 4a menunjukkan bahwa secara umum banyaknya kelompok yang dihasilkan oleh pengelompokkan dengan pembobot lebih besar daripada pengelompokkan tanpa pembobot pada threshold yang sama. Hal ini menunjukkan bahwa adanya pembobot sangat mempengaruhi banyaknya kelompok yang dihasilkan. Gambar 4b menunjukkan besarnya rasio dan untuk pengelompokkan tanpa pembobot lebih kecil daripada pengelompokkan dengan pembobot. Selain itu diketahui bahwa semakin banyak kelompok yang dihasilkan, kinerja hasil kelompoknya semakin menurun.

(12)

12

(a) (b)

Gambar 4. Plot antara nilai threshold dan banyaknya Kelompok (a) dan Rasio dan (b) pada pengelompokkan data kategorik tanpa pembobot dan dengan pembobot

Tabel 3 Rasio dan dan akurasi hasil pengelompokkan full kategorik pada 2, 3, dan 4 kelompok Banyaknya

Kelompok Rasio SW/SB Akurasi (%)

--- Tanpa Pembobot --- 2 0,0660 99,78 3 0,0892 99,56 4 0,1113 84,72 --- Dengan Pembobot --- 2 0,0671 99,19 3 0,0799 96,68 4 0,0904 95,20

Tabel 3 menunjukkan pada 3 (tiga) dan 4 (empat) kelompok rasio dan pengelompokkan dengan pembobot lebih kecil daripada pengelompokkan tanpa pembobot. Secara umum kelompok terbaik dengan metode full kategorik adalah pengelompokkan pada 2 (dua) kelompok. Kelompok 1 dengan anggota 1.139 desa bukan merupakan daerah remote, dan kelompok 2 dengan 216 desa merupakan daerah remote. Untuk membandingkan hasil pengelompokkan dengan pengelompokkan ensembel dan pengelompokkan full kategorik, maka dipilih jumlah kelompok yang sama yang dihasilkan dengan kedua metode tersebut yaitu 4 (empat) kelompok. Kelompok 1, 2, dan 3 bukan merupakan daerah remote, dan kelompok 4 (229 desa) merupakan daerah remote.

B. Hasil Pengelompokkan Full Kontinu

Setelah seluruh data kategorik ditransformasi menjadi kontinu, maka dilakukan pengelompokkan data kontinu dengan metode hirarki aglomeratif. Estimasi banyaknya kelompok optimum yang dapat dibentuk dari 9 variabel berskala kontinu dengan menggunakan plot RMSSTD, R-Squared, SPR, dan CD adalah 3 dan 4 kelompok.

(13)

13

Tabel 4. Nilai rasio SW dan SB berdasarkan ukuran jarak dan metode linkage pada pengelompokkan data full kontinu

Banyaknya Kelompok Euclidean-Complete Linkage Euclidean-Average Linkage Mahalanobis-Complete Linkage Mahalanobis-Average Linkage 3 0,2811 0,2679* 1,3649 0,4491 4 0,3571 0,2981* 1,4383 0,6802 5 0,4059 0,3472* 1,0703 0,5283

Keterangan: *) Rasio SW dan SB terkecil berdasarkan banyaknya kelompok

Tabel 4 menjelaskan bahwametode terbaik yang menghasilkan 3 (tiga) kelompok dan 4 (empat) kelompok adalah Euclidean-Average Linkage (EAL3 dan EAL4) dengan rasio SW dan SB 0,2679 dan 0,2981. Pengelompokkan EAL3 menunjukkan hasil yang paling baik secara keseluruhan karena rasio SW dan SB terkecil. Baik dengan EAL3 maupun EAL4 hanya dapat mengidentifikasi 2 desa sebagai daerah remote.

C. Perbandingan Pengelompokkan Ensembel, Full Kategorik dan Full Kontinu

Tahap sebelumnya telah didapatkan kinerja masing-masing metode pengelompokkan. Kelompok terbaik pada pengelompokkan ensembel adalah WS0.9-EAL4 dengan pembobot dengan besarnya rasio 0,0072 dan menghasilkan 4 (empat) kelompok. Kelompok terbaik pada pengelompokkan full kategorik adalah pengelompokkan tanpa pembobot dengan rasio 0,0334 yang menghasilkan 3 (tiga) kelompok. Kelompok terbaik pada pengelompokkan full kontinu adalah Euclidean-AverageLinkage yang menghasilkan 3 (tiga) kelompok.

Tabel 5 menjelaskan perbandingan rasio SW dan SB hasil pengeompokkan dengan metode ensembel, full kategorik, dan full kontinu pada 3 (tiga), 4 (empat) dan 5 (lima) kelompok. Secara umum metode ensembel memiliki kinerja yang lebih baik dibandingkan metode full kategorik dan full kontinu. Hal ini ditunjukkan oleh nilai rasio SW dan SB yang dihasilkan metode ensembel adalah yang paling kecil diantara kedua metode yang lain. Hasil pengelompokkan pada 4 (empat) kelompok dengan metode ensembel memiliki rasio SW dan SB paling kecil, yaitu 0,0072. Dengan demikian pengelompokkan yang paling tepat untuk menggambarkan karakteristik desa perdesaan di Provinsi Riau adalah dengan metode ensembel dengan banyaknya kelompok adalah 4 (empat).

Tabel 5. Nilai rasio SW dan SB hasil pengelompokkan ensembel, full kategorik, dan full kontinu Banyaknya

Kelompok Ensembel Full Kategorik Full Kontinu

3 0,0334* 0,0799 0,2679

4 0,0072* 0,0904 0,2981

(14)

14 Tabel 6 menunjukkan perbedaan banyaknya anggota pada pengelompokkan ensembel,

full data kategorik, dan full kontinu. Namun dilihat dari karakteristik masing-masing kelompok, ketiganya menghasilkan 3 (tiga) kelompok yang dapat dikategorikan daerah tidak

remote, dan 1 (satu) kelompok dengan karakteristik daerah remote.

Daerah remote yang dapat terdeteksi dari pengelompokkan ensembel adalah sebanyak 65 desa, dengan pengelompokkan full kategorik sebanyak 229 desa. Sedangkan pengelompokkan full kontinu dengan 3 (tiga) maupun 4 (empat) kelompok hanya mampu mengidentifikasi 2 (dua) desa berkarakteristik daerah remote yang kurang menggambarkan kondisi sebenarnya di lapangan.

Tabel 6. Banyaknya anggota dan karakteristik kelompok pada pengelompokkan ensembel, full kategorik, dan full kontinu

Kelompok Banyaknya Anggota Karakteristik Urutan --- Cluster Ensemble --- 1 793 tidak remote 1 2 349 tidak remote 3 3 148 tidak remote 2 4 65 remote 4 --- Full Kategorik --- 1 488 tidak remote 1 2 431 tidak remote 2 3 207 tidak remote 3 4 229 remote 4 --- Full Kontinu --- 1 392 tidak remote 2 2 755 tidak remote 3 3 2 remote 4 4 206 tidak remote 1

Pengelompokkan ensembel membutuhkan proses atau tahapan yang lebih banyak daripada pengelompokkan data full kategorik dan full kontinu. Namun ditinjau dari hasil, pengelompokkan ensembel dapat menghasilkan kelompok-kelompok yang lebih homogen dalam kelompok dan heterogen antar kelompok. Hal ini menunjukkan bahwa masing-masing tipe data memiliki karakteristik yang berbeda sehingga perlakuannya harus dibedakan. Melakukan transformasi data pada saat pre-processing adalah salah satu cara untuk menyederhanakan tahapan pengelompokkan, namun banyak informasi yang hilang sehingga memberikan hasil yang kurang baik. Dalam melakukan transformasi data kontinu menjadi kategorik ditemui kesulitan dalam menentukan kategori yang tepat untuk suatu nilai jika tidak

(15)

15 tersedia referensi. Sedangkan transformasi data kategorik menjadi kontinu akan menemukan kendala pada saat interpretasi hasil pengelompokkan.

Gambar 5 merupakan tampilan peta hasil pengelompokkan ensembel, full kategorik dan

full kontinu.

(a) (b)

(c)

Gambar 5. Peta tematik hasil pengelompokkan ensembel (a), pengelompokkan full kategorik (b), dan pengelompokkan full kontinu (c) pada pengelompokkan desa perdesaan di Provinsi Riau

(16)

16 5. Kesimpulan

Beberapa kesimpulan yang dapat diambil berdasarkan analisis dan pembahasan adalah sebagai berikut.

1. Algoritma dan program berbasis yang dibangun dapat digunakan untuk pengelompokkan ensembel untuk menangani variabel campuran kategorik dan kontinu berdasar Algoritma

Cluster Ensemble Based Mixed Data Clustering (CEBMDC).

2. Pengelompokkan desa perdesaan di Provinsi Riau dengan pengelompokkan ensembel dapat disimpulkan:

a. Desa-desa perdesaan di Provinsi Riau dapat dikelompokkan menjadi 4 (empat) kelompok dari kombinasi metode pengelompokkan algoritma Squeezer dengan

threshold 0.9 (WS0.9) dan metode Euclidean-Average Linkage 4 kelompok (EAL4).

Daerah remote yang dapat diidentifikasi dengan metode ini adalah sebanyak 65 desa. b. Baik pada tahapan pengelompokkan data kategorik dan pengelompokkan akhir

diperoleh kelompok optimum melalui algoritma Squeezer dengan pembobot.

3. Metode ensembel memiliki kinerja yang lebih baik daripada metode full kategorik dan full

kontinu dengan kriteria rasio SW dan SB dalam pengelompokkan desa-desa perdesaan di Provinsi Riau. Namun metode ensembel memiliki kompleksitas pemrograman dan waktu yang lebih tinggi daripada metode full kategorik atau full kontinu.

Daftar Pustaka

[1] Departemen Pekerjaan Umum, 2007, Buku Panduan Pengembangan Pemukiman, RPIJM, Direktorat Jenderal Cipta Karya, Jakarta.

[2] Kralj, B., 2000, "Measuring Rurality, RIO2008 BASIC : Methodology and Results", Ontario: OMA Economics Department.

[3] Australian Bureau of Statistics, 2003, ASGC Remoteness Classification : Purpose and Use (Cencus Paper No.03/01), Canberra: Australian Bureau of Statistics.

[4] Statistics New Zealand, 2006, "Urban/Rural Profile (Experimental) Classification

Categories", available at: http://www.stats.govt.nz/surveys_and_methods/, diakses 23

Mei 2011.

[5] He, Z., Xu, X., & Deng, S. ,2005a, "Clustering Mixed Numeric and Categorical Data: A Cluster Ensemble Approach", Department of Computer Science and Engineering,

Harbin Institute of Technology.

[6] Bunkers, W., Miller, J., & De Gaetano, A., 1996, "Definition of Climate Regions in the Northern Plains Using an Objective Cluster Modification Technique", Journal of

Climate 9, 130-146.

[7] Light, R. J.,& Margolin, B. H., 1971, "An Analysis of Variance for Categorical Data",

Journal of American Statistical Association 66, 335, 534-544.

[8] Halkidi, M., Batistakis, Y., & Vazirgiannis, M., 2001, "On Clustering Validation Techniques", Journal of Intelligent Information Systems, 17:2/3, 107-145.

[9] Yoon, H.-S., Ahn, S.-Y., Lee, S.H., Cho, S.B., & Kim, J.H., 2006, "Heterogeneous Clustering Ensemble Method for Combining Different Cluster Results", BioDM, LNBI 3916, 82-92

Referensi

Dokumen terkait

Selajutnya dilakukan uji One Way Anova menunjukkan bahwa pada waktu pengadukan dengan menggunakan tawas dengan kecepatan 10 rpm dengan berbagai variasi waktu

Program variety show Dangdut Academy Asia 2 bukan hanya mengemas musik dang- dut ke dalam tampilan yang lebih berke- las yang bertujuan untuk meningkatkan popularitas dangdut

Faktor yang berpengaruh secara nyata terhadap pendapatan usahatani mangga gadung di Desa Bayeman Kecamatan Arjasa Kabupaten Situbondo adalah jumlah produksi, harga

Saya optimis sekali dengan adanya hubungan pola kemitraan yang dilaksanakan oleh PT. Arvena Sepakat dengan masyarakat aur cina. Karena, selama ini saya melihat

Berdasarkan simpangan baku dalam kelompok hasil pengelompokkan dengan ketiga metode (pautan lengkap, pautan rata-rata, dan ward’s), metode ward’s memiliki simpangan

Fasilitas umum tersebut, antara lain ada- lah papan pengumuman pada pintu ma- suk kawasan dan di Desa Sawah Luhur, perbaikan dan penambahan pos jaga yang terletak di

Untuk melakukan transmisi data diperlukanlah suatu media, media ini sendiri memiliki beberapa macam seperti bus, kabel yang biasa terdapat pada perangkat internal

DIAN DISTRIATI BURHANUDDIN, ST IBNU SOFWAN LUKITO, S.Si TAUFIQ HIDAYAH, S.Si, M.Si KARNISIH, S.Kom KELOMPOK AB Drs. SARIMIN KHOLIS IRIAWATI, ST RUSGITO, S.Kom TITI HANDAYANI, ST,