CLUSTERING MENGGUNAKAN ALGORITMA K-MEANS DAN DBSCAN PADA ANGGARAN PENDAPATAN DAN BELANJA DAERAH DI INDONESIA

(1)

CLUSTERING MENGGUNAKAN ALGORITMA K-MEANS DAN DBSCAN PADA ANGGARAN PENDAPATAN DAN BELANJA DAERAH DI

INDONESIA

Thazkia Rahmadianissa, Haposan Sirait Program Studi S1 Statistika

Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Riau Kampus Bina Widya, Pekanbaru 28293

thazkia.rahmadianissa3106@student.unri.ac.id

ABSTRACT

The regional government budget is an annual financial plan that affects the Indonesian economy for one year. Administration of APBD data has not been effectively implemented due to limited human resources. Clustering algorithms are used to group provinces based on regional government budget according to data similarities to facilitate the government in future financial planning. In this study using regional government budget data in 2021 using the k-means and DBSCAN methods. The results of this study using k-means with 2 clusters with cluster 1 contain of 33 provinces and cluster 2 contain of 1 province, that is DKI Jakarta.

Meanwhile, using the DBSCAN method with 2 clusters, cluster 1 contain of 30 provinces, cluster 2 contain of 2 provinces there are Central Java and East Java, and 2 noise data, there are DKI Jakarta and West Java.

Keywords: Regional government budget, clustering algorithms, k-means, DBSCAN

ABSTRAK

APBD merupakan rencana keuangan tahunan yang berpengaruh pada perekonomian Indonesia selama satu tahun. Penatausahaan data APBD belum efektif dilaksanakan dikarenakan keterbatasan sumber daya manusia. Algoritma clustering digunakan untuk mengelompokkan provinsi berdasarkan APBD sesuai dengan kemiripan data untuk memudahkan pemerintah dalam perencanaan keuangan kedepannya. Pada penelitian ini menggunakan data APBD pada tahun 2021 menggunakan metode k-means dan DBSCAN. Hasil dari penelitian ini menggunakan k-means dengan cluster sebanyak 2 diperoleh cluster 1 yang terdiri dari 33 provinsi dan cluster 2 terdiri dari 1 provinsi, yaitu provinsi DKI Jakarta.

Sedangkan dengan menggunakan metode DBSCAN diperoleh 2 cluster, dimana cluster 1 terdiri dari 30 provinsi, cluster 2 terdiri dari 2 provinsi yang terdiri dari provinsi Jawa Tengah dan Jawa Timur, dan 2 data noise yaitu provinsi DKI Jakarta dan Jawa Barat.

Kata kunci: APBD, algoritma clustering, k-means, DBSCAN

(2)

1. PENDAHULUAN

Anggaran Pendapatan dan Belanja Daerah (APBD) merupakan rencana keuangan tahunan pemerintahan daerah yang disetujui oleh Dewan Perwakilan Rakyat Daerah (Indonesia, 2003). Menurut Peraturan Menteri Dalam Negeri Nomor 55 Tahun 2008 tentang tata cara penatausahaan dan penyusunan laporan pertanggungjawaban bendahara serta penyampaiannya, Penatausahaan data APBD belum efektif dilaksanakan dikarenakan keterbatasan sumber daya manusia sehingga menyebabkan banyaknya kendala dalam penatausahaan tersebut.

Berdasarkan penjelasan masalah yang telah disampaikan, dapat menggunakan algoritma clustering yang diharapkan dapat memudahkan penatausahaan data APBD tersebut. Adapun metode clustering yang digunakan yaitu metode k-means dan DBSCAN. Metode k-means termasuk ke dalam metode partisi yang banyak digunakan karena memiliki efisiensi yang tinggi dan dapat konvergen dengan cepat ketika berhadapan dengan data berjumlah besar (Wang &

Su, 2011). Metode Density Based Spatial Clustering of Applications with Noise (DBSCAN), merupakan metode clustering berbasis kepadatan yang mampu mengelompokkan data ke dalam beberapa cluster yang berbentuk bebas dan acak (Jing et al., 2019).

Beberapa penelitian dengan menggunakan k-means dan DBSCAN pernah dilakukan oleh Lu (2016), Budiman et al. (2016), Putri et al. (2021), dan Windarto (2017). Adapun tujuan dari hasil clustering tersebut dapat memudahkan pemerintah dalam mengidentifikasi provinsi-provinsi yang sudah optimal dalam mengelola APBD agar tidak terjadi defisit.

2. ANALISIS ALGORITMA K-MEANS DAN DBSCAN

Algoritma k-means merupakan metode yang bekerja dengan cara mengelompokkan data kedalam suatu cluster kemudian secara iteratif mengelompokkan ulang data kedalam cluster hingga kriteria terpenuhi. Adapun tujuan akhir dari k-means ini yaitu meminimalkan jarak antar data pada cluster yang serupa dan juga memaksimalkan jarak antar cluster (Hair et al., 2014). Langkah-langkah yang digunakan pada algoritma k-means yaitu (Kantardzic, 2020) :

1. Menentukan banyak cluster yang akan dibentuk.

2. Menentukan centroid atau titik pusat cluster secara acak, yang dinotasikan sebagai 𝑥_𝑗.

3. Menghitung jarak antara tiap data dengan centroid, dengan menggunakan rumus Euclidian yaitu:

𝑑(𝑥_𝑖, 𝑥_𝑗) = √∑(𝑥𝑖𝑝− 𝑥_𝑗𝑝)²

𝑚

𝑝=1

, (2.1)

dengan 𝑥_𝑖𝑝 merupakan data ke-𝑖 pada variabel ke-𝑝, 𝑥_𝑗𝑝 merupakan data ke- 𝑗 pada variabel ke- 𝑝, dan 𝑚 yaitu banyak variabel.

4. Mengelompokkan data berdasarkan jarak terpendek antara data ke centroid.

5. Menghitung titik centroid yang baru dengan cara menghitung rata-rata yang masuk ke dalam cluster dengan persamaan berikut.

(3)

𝐶_𝑘 = 1

𝑛_𝑘∑ 𝑑(𝑥_𝑖, 𝑥_𝑗)

𝑛𝑘

𝑖=1

, (2.2)

dengan 𝑛_𝑘 merupakan banyak data dalam cluster ke-𝑘, dan 𝐶_𝑘 merupakan centroid baru cluster ke- 𝑘.

6. Melakukan pengulangan dari langkah 3 hingga 5 hingga anggota dari tiap cluster tidak ada yang berpindah ke cluster yang berbeda.

Algoritma Density Based Spatial Clustering of Applications with Noise atau disebut juga DBSCAN merupakan algoritma clustering berbasis kepadatan yang ditemukan oleh Martin Ester pada tahun 1996. Jika ditentukan titik 𝑎 secara acak sebagai pusat cluster, maka titik lain akan berkumpul sesuai dengan kedekatannya dengan jarak 𝑎 dan membentuk suatu kelompok. Algoritma DBSCAN tidak perlu menentukan banyak jumlah cluster dikarenakan pengelompokan hanya bergantung pada kepadatan tiap titik. Oleh karena itu perlu ditentukan 2 parameter awal agar data dapat dikelompokkan ke dalam suatu cluster. Kedua parameter tersebut adalah 𝜀 yaitu jarak maksimum pada tiap cluster dan MinPts yaitu jumlah titik terkecil dalam cluster yang sama dan jumlahnya harus lebih besar atau sama dengan satu.

Kemudian semua titik yang memenuhi kriteria parameter dapat berkumpul dalam sebuah cluster, hal ini disebut density-reachable (Lu et al., 2017).

Terdapat beberapa kategori titik pada DBSCAN (Waheed et al., 2019) :

a) Core point, sebuah titik dikategorikan sebagai core point jika memenuhi syarat 𝜀 dan MinPts.

b) Border point, merupakan titik yang memenuhi radius 𝜀, tetapi tidak memenuhi syarat MinPts.

c) Noise point, dikategorikan sebagai noise atau outlier jika tidak termasuk core dan border.

Berikut tahapan dalam algoritma DBSCAN (Zhang, 2018):

1. Menentukan nilai parameter awal 𝜀 dan MinPts.

2. Menentukan titik 𝑎 atau titik awal secara acak.

3. Menghitung jarak semua titik terhadap titik 𝑎 menggunakan persamaan (2.1).

4. Terbentuk sebuah cluster yang memenuhi kriteria parameter 𝜀 dan MinPts kemudian ditandai sebagai visited.

5. Melakukan pengulangan langkah 3 dan 4 hingga semua titik visited.

Silhouette index merupakan suatu metode yang dapat digunakan dalam mengetahui seberapa baik suatu objek diletakkan dalam sebuah cluster. Rumus dari silhouette index adalah sebagai berikut.

𝑠(𝑖) = 𝑏(𝑖) − 𝑎(𝑖)

max{𝑎(𝑖), 𝑏(𝑖)}, (2.3)

dengan 𝑠(𝑖) merupakan nilai silhouette index data ke-𝑖, 𝑎(𝑖) yaitu rata-rata jarak data ke-𝑖 dengan data lainnya pada cluster yang sama, 𝑏(𝑖) yaitu rata-rata jarak data ke-𝑖 dengan data lainnya, max{𝑎(𝑖), 𝑏(𝑖)}merupakan nilai tertinggi dari 𝑎(𝑖)dan 𝑏(𝑖). Nilai silhouette index yaitu berada pada rentang -1 hingga 1, nilai yang hampir mendekati atau sama dengan 1 menandakan bahwa data tersebut semakin tepat berada di cluster yang dimaksud dan nilai yang negatif yang diperoleh menandakan bahwa data tersebut tidak tepat berada dalam cluster yang dimaksud (Rousseeuw, 1987).

(4)

Standarisasi merupakan proses mengkonversi setiap variabel dengan mengurangkan rata-rata kemudian dibagi dengan standar deviasi untuk setiap variabel. Proses standarisasi dilakukan untuk mengubah data menjadi rata-rata 0 dan standar deviasi 1 (Hair Jr. et al., 2014). Adapun rumus dari standarisasi adalah sebagai berikut.

𝑍 = (𝑥_𝑖− 𝑥̅)

𝑆 , (2.4)

dengan 𝑍 merupakan nilai standarisasi data, 𝑥_𝑖 data ke-𝑖, 𝑥̅ merupakan rata-rata keseluruhan, 𝑥̅ =^∑^𝑛^𝑖=1^𝑥^𝑖

𝑛 , dan 𝑆 merupakan simpangan baku keseluruhan, 𝑆 = √^∑ ^(𝑥^𝑖^−𝑥̅)²

𝑛 𝑖=1

𝑛−1 (Johnson & Wichern, 2007).

Validasi cluster yaitu suatu cara yang dilakukan untuk mengetahui seberapa baik sebuah metode digunakan. Validasi cluster pada penelitian ini menggunakan simpangan baku dalam kelompok (𝑆_𝑤) dan simpangan baku antar kelompok (𝑆_𝑏).

Adapun rumus 𝑆_𝑤 dan 𝑆_𝑏 adalah sebagai berikut (Bunkers & Miller, 1996) : 𝑆_𝑤 = 1

𝐾∑ 𝑆_𝑘 ,

𝐾

𝑘=1

(2.5) dengan 𝐾 merupakan banyak cluster dan 𝑆_𝑘 yaitu simpangan baku cluster ke- 𝑘.

Jika diketahui cluster 𝑐_𝑘, dimana 𝑘 = 1, … , 𝐾 dan tiap-tiap cluster mempunyai anggota yaitu 𝑥_𝑘𝑖_𝑘, dimana 𝑖_𝑘 = 1, … , 𝑛_𝑘 , kemudian 𝑛_𝑘 merupakan banyak anggota dari tiap cluster yang diperoleh, dan 𝑥̅_𝑘 merupakan rata-rata sebuah cluster, maka rumus yang digunakan untuk menghitung simpangan baku dari suatu cluster ke- 𝑘 yaitu:

𝑆_𝑘 = √ 1

𝑛_𝑘− 1 ∑ ( 𝑥_𝑘𝑖_𝑘− 𝑥̅_𝑘)²

𝑛_𝑘

𝑖_𝑘=1

, (2.6)

dengan 𝑥̅_𝑘merupakan rata-rata cluster ke-𝑘, 𝑥̅_𝑘 =^∑ ^𝑥^𝑘𝑖𝑘

𝑛𝑘 𝑖𝑘=1

𝑛_𝑘 .

Jika terdapat rata-rata variabel dalam tiap cluster 𝑘 yang dinotasikan sebagai 𝑥̅_𝑘 dan komponen dari tiap-tiap cluster berbeda, maka simpangan baku antar kelompok (𝑆_𝑏) dapat menggunakan persamaan:

𝑆_𝑏 = √ 1

(𝐾 − 1)∑(𝑥̅_𝑘− 𝑥̅)²

𝐾

𝑘=1

. (2.7)

Barakbah & Arai (2004) mengatakan bahwa metode pengelompokan dapat dikatakan baik jika memiliki nilai 𝑆_𝑤 yang minimum 𝑆_𝑏 yang maksimum. Dan memiliki nilai rasio simpangan baku antara 𝑆_𝑤 terhadap 𝑆_𝑏 yang lebih kecil. Rasio yang digunakan antara nilai 𝑆_𝑤 dengan 𝑆_𝑏 dinotasikan sebagai 𝑆_𝑅 dan didefinisikan dengan ^𝑆^𝑤

𝑆_𝑏.

(5)

3. METODOLOGI PENELITIAN

Artikel ini dilakukan dengan menggunakan data APBD provinsi di Indonesia pada tahun 2021 yang diperoleh dari website kementerian keuangan. Tahapan-tahapan dalam artikel ini adalah sebagai berikut.

1. Melakukan pengambilan data anggaran tahun 2021 dari website kementerian keuangan pada 34 provinsi di Indonesia.

2. Melakukan standarisasi data menggunakan persamaan (2.4).

Untuk algoritma k-means:

a) Menentukan banyak cluster yang terbaik menggunakan metode silhouette.

b) Menentukan titik centroid secara acak.

c) Menghitung jarak antara data dengan centroid menggunakan persamaan (2.1).

d) Mengelompokkan provinsi sesuai jarak terdekat.

e) Mengulangi langkah c dan d hingga anggota cluster tidak ada yang berpindah ke cluster yang berbeda.

Untuk algoritma DBSCAN:

a) Menentukan parameter awal 𝜀 dan MinPts.

b) Menentukan titik 𝑎 awal secara acak sebagai core point awal.

c) Menghitung jarak titik lain terhadap titik 𝑎 menggunakan persamaan (2.1).

d) Terbentuk sebuah kelompok yang memenuhi kriteria 𝜀 dan MinPts.

e) Melakukan pengulangan langkah c dan d hingga semua titik visited.

3. Melakukan validasi cluster untuk melihat validasi tiap cluster.

4. Mengambil kesimpulan dari hasil analisis cluster yang telah diperoleh.

4. CLUSTERING PROVINSI BERDASARKAN ANGGARAN PENDAPATAN DAN BELANJA DAERAH MENGGUNAKAN K-MEANS

DAN DBSCAN DI INDONESIA

Data yang digunakan untuk penelitian ini yaitu data APBD pada tahun 2021 dari setiap provinsi di Indonesia. Data terdiri dari 34 provinsi dan 7 variabel, yaitu pendapatan asli daerah (𝑋₁), pendapatan transfer (𝑋₂), Belanja Operasi (𝑋₃), Belanja Modal (𝑋₄), Belanja tidak terduga (𝑋₅), Belanja Transfer (𝑋₆), dan Penerimaan Pembiayaan (𝑋₇). Tahapan awal dalam melakukan clustering yaitu melakukan standarisasi data. Berikut tampilan data setelah dilakukan standarisasi.

Tabel 4. 1 Data setelah standarisasi

No Provinsi 𝑋₁ 𝑋₂ 𝑋₃ 𝑋₄ 𝑋₅ 𝑋₆ 𝑋₇

1 Aceh -0,292 1,446 0,202 0,923 0,557 0,371 0,766 2 Bali -0,212 -0,566 -0,272 0,278 -0,252 -0,144 0,610 3 Bangka

Belitung -0,461 -0,821 -0,517 -0,560 -0,312 -0,540 -0,311 .

. .

. . .

. . . 34 Sumatera

Utara 0,077 0,469 0,221 -0,283 -0,194 0,117 -0,358

(6)

Kemudian tahapan selanjutnya dalam mengaplikasikan algoritma k-means yaitu pemilihan jumlah cluster optimal. Tahapan pemilihan jumlah cluster optimal ini akan menggunakan metode silhouette.

Gambar 4. 1 Banyak cluster optimal menggunakan metode silhouette Pada gambar 4.1 menunjukkan bahwa titik tertinggi terdapat pada nilai 𝑘 = 2, yang menyatakan bahwa jumlah cluster optimal dalam pengujian ini menggunakan metode silhouette adalah 2. Adapun tahapan selanjutnya yaitu dengan memilih centroid secara acak. Centroid yang terpilih yaitu provinsi DKI Jakarta dan Kalimantan Tengah.

Tabel 4.1 Centroid awal metode k-means

Cluster Centroid

Cluster 1 -0,172 -0,808 -0,382 -0,518 -0,263 -0,261 -0,513 Cluster 2 2,034 2,492 1,551 0,850 0,615 4,760 0,929 Berdasarkan tabel 4.1 Apabila centroid awal telah diambil, langkah selanjutnya yang yaitu menghitung jarak tiap-tiap provinsi dengan centroid menggunakan persamaan Euclidian. Nilai 𝑐₁ merupakan variabel hasil dari perhitungan jarak data ke centroid cluster 1, dan nilai 𝑐₂ merupakan variabel hasil dari perhitungan jarak data ke centroid cluster 2.

Tabel 4. 2 Hasil perhitungan k-means iterasi ke-1

Provinsi 𝑐₁ 𝑐₂ Provinsi 𝑐₁ 𝑐₂

Aceh 3,197 5,256 Kepulauan Riau 0,422 7,259

Bali 1,407 6,554 Lampung 0,586 6,718

Bangka Belitung 0,474 7,345 Maluku 0,655 7,208

Banten 3,419 5,928 Maluku Utara 0,648 7,303

Bengkulu 0,451 7,364 NTB 0,465 7,040

DI Yogyakarta 0,539 6,812 NTT 1,146 6,730

DKI Jakarta 12,299 9,953 Papua 2,769 5,489

Gorontalo 0,604 7,540 Papua Barat 1,486 6,328

Jambi 0,725 7,116 Riau 0,805 6,456

Jawa Barat 7,030 0,000 Sulawesi Barat 0,555 7,503 Jawa Tengah 3,629 3,729 Sulawesi Selatan 1,479 5,992 Jawa Timur 4,159 4,020 Sulawesi Tengah 0,472 7,191 Kalimantan Barat 0,752 6,715 Sulawesi Tenggara 0,831 7,011 Kalimantan Selatan 0,000 7,030 Sulawesi Utara 0,416 7,241 Kalimantan Tengah 0,469 7,042 Sumatera Barat 0,580 6,851 Kalimantan Timur 1,666 5,700 Sumatera Selatan 1,340 5,947 Kalimantan Utara 0,503 7,463 Sumatera Utara 1,511 5,902

(7)

Warna biru menandakan jarak terpendek antara provinsi-provinsi dengan centroid cluster 1. Warna kuning menandakan jarak terpendek antara provinsi-provinsi dengan centroid cluster 2. Kemudian dari hasil jarak terpendek yang diperoleh tersebut ditentukan warna biru sebagai anggota cluster 1 dan warna kuning sebagai anggota cluster 2. Pada iterasi pertama ini diperoleh cluster 1 beranggotakan 31 provinsi dan cluster 2 beranggotakan 3 provinsi. Namun akan dilihat apakah hasil dari iterasi pertama ini konvergen dengan hasil iterasi kedua, maka iterasi dilanjutkan.

Langkah selanjutnya untuk iterasi kedua yaitu menghitung centroid yang baru menggunakan persamaan (2.2), dan kembali menghitung jarak antara data dengan centroid baru yang telah dihitung. Tahapan ini dilakukan secara berulang hingga anggota cluster tidak ada yang berpindah ke cluster yang berbeda. Setelah dilakukan beberapa iterasi, terbentuk sebuah cluster yang dihasilkan sebagai berikut.

Tabel 4. 3 Pembagian wilayah berdasarkan cluster k-means

Cluster Provinsi

1 Aceh, Bali, Banten, Bengkulu, DI Yogyakarta, Gorontalo, Jambi, Jawa Barat, Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Kalimantan Utara, Kepulauan Bangka Belitung, Kepulauan Riau, Lampung, Maluku, Maluku Utara, Nusa Tenggara Barat, Nusa Tenggara Timur, Papua, Papua Barat, Riau, Sulawesi Barat, Sulawesi Selatan, Sulawesi Tengah, Sulawesi Tenggara, Sulawesi Utara, Sulawesi Barat, Sulawesi Selatan, Sulawesi Utara.

2 DKI Jakarta.

Berdasarkan tabel 4. 3 dapat diambil kesimpulan yaitu cluster 1 terdiri dari 33 provinsi, sementara pada cluster 2 hanya terdapat 1 provinsi saja, yaitu DKI Jakarta.

Hasil visualisasi dari clustering menggunakan k-means dengan jumlah cluster sebanyak 2, dapat dilihat pada gambar 4.2.

Gambar 4. 2 Cluster plot k-means dengan 𝑘 = 2

Adapun penjelasan gambar 4.2 mengenai pembagian wilayah clustering provinsi berdasarkan APBD menggunakan metode k-means akan dibagi menjadi 2 bagian, yaitu bagian pendapatan dan pengeluaran, adalah sebagai berikut.

1. Pendapatan, meliputi pendapatan asli daerah, pendapatan transfer, dan penerimaan pembiayaan.

(8)

Nilai rata-rata cluster pendapatan dengan algoritma k-means, diperoleh rata- rata cluster 1 sebesar -0,374 dan rata-rata cluster 2 sebesar 12,341. Jika dibandingkan nilai rata-rata antara 2 cluster ini, cluster 1 memiliki rata-rata pendapatan daerah yang jauh lebih rendah jika dibandingkan dengan rata-rata cluster 2. Nilai selisih antara rata-rata kedua cluster ini sebesar 11,967.

Provinsi- provinsi yang berada pada cluster 1 memiliki rentang antara 5 miliar- 25 triliun rupiah yang membuktikan bahwa wilayah yang berada pada cluster 1 memiliki pendapatan yang tidak terlalu banyak dan termasuk wilayah berkembang sehingga masih perlu dioptimalisasi pendapatan tiap daerah.

Sementara provinsi DKI Jakarta memiliki pendapatan yang sangat besar sampai 50 triliun rupiah. Hal ini dibuktikan dengan provinsi DKI Jakarta yang memiliki pendapatan asli daerah dan pendapatan transfer yang sangat besar.

2. Pengeluaran, meliputi belanja operasi, belanja modal, belanja tidak terduga, dan belanja transfer.

Nilai rata-rata cluster belanja dengan algoritma k-means, diperoleh rata-rata cluster 1 sebesar -0,433 dan rata-rata cluster 2 sebesar 14,295. Dapat disimpulkan bahwa kedua cluster memiliki selisih rata-rata belanja yang cukup besar yaitu sebesar 13,862. Provinsi- provinsi yang berada pada cluster 1 memiliki rentang belanja daerah antara 7 miliar- 25 triliun rupiah. Sementara belanja daerah pada provinsi DKI Jakarta yang berada pada cluster 2 mencapai 60 triliun rupiah. Hal ini bisa terjadi dikarenakan banyaknya pengeluaran yang dilakukan terutama pada belanja operasi yang nilainya mencapai 60 triliun rupiah. Pengeluaran ini sebanding dengan pemasukannya yang sangat besar juga.

Analisis clustering menggunakan algoritma DBSCAN dapat dilakukan dengan menentukan nilai parameter awal. Penentukan nilai 𝜀 yang akan digunakan yaitu dengan menggunakan 3-NN (3 jarak ketetanggaan terdekat).

Gambar 4. 3 3-NN (3 ketetanggaan terdekat)

Pada gambar 4.3 terlihat bahwa membentuk siku-siku pada ε sekitar 2,2 maka ε yang digunakan pada penelitian ini adalah sebesar 2,2 dan MinPts=2. Adapun langkah awal dalam melakukan clustering menggunakan algoritma DBSCAN yaitu dengan menentukan core point awal secara acak.

Tabel 4. 4 Core point awal DBSCAN

𝑋₁ 𝑋₂ 𝑋₃ 𝑋₄ 𝑋₅ 𝑋₆ 𝑋₇

0,016 -0,266 -0,211 0,178 0,293 0,656 0,372 Berdasarkan tabel 4.4, titik yang terpilih sebagai core point awal adalah provinsi Kalimantan Timur. Tahapan selanjutnya yaitu menghitung jarak antara core point dengan titik lainnya menggunakan persamaan (2.1).

Pada tabel 4.5, bagian yang ditandai warna abu-abu merupakan jarak antara core point awal dengan titik lain yang memenuhi kriteria parameter 𝜀=2,2 dan MinPts=2,

(9)

dengan jarak yang lebih kecil sama dengan 2,2 dengan banyak setidaknya 2 titik.

Jika telah memenuhi kriteria tersebut, maka dapat dilanjutkan ke iterasi selanjutnya dengan memilih titik dengan jarak terjauh pada density-reachable untuk dijadikan core point selanjutnya hingga semua titik visited.

Tabel 4. 5 Hasil perhitungan DBSCAN iterasi ke-1

Provinsi Jarak Provinsi Jarak

Aceh 2,014 Kepulauan Riau 1,870

Bali 1,072 Lampung 1,549

Bangka Belitung 1,854 Maluku 1,694

Banten 2,286 Maluku Utara 1,778

Bengkulu 1,988 NTB 1,746

DI Yogyakarta 1,473 NTT 1,274

DKI Jakarta 11,139 Papua 2,226

Gorontalo 2,152 Papua Barat 1,237

Jambi 1,744 Riau 1,388

Jawa Barat 5,700 Sulawesi Barat 2,084

Jawa Tengah 2,765 Sulawesi Selatan 0,841

Jawa Timur 3,254 Sulawesi Tengah 1,820

Kalimantan Barat 1,290 Sulawesi Tenggara 1,486

Kalimantan Selatan 1,666 Sulawesi Utara 1,884

Kalimantan Tengah 1,594 Sumatera Barat 1,590

Kalimantan Timur 0,000 Sumatera Selatan 1,031

Kalimantan Utara 2,019 Sumatera Utara 1,415

Berdasarkan tabel 4.5, jarak terjauh yang terpilih yaitu pada bagian yang ditandai warna merah yaitu pada provinsi Gorontalo. Tahapan ini dilakukan secara berulang hingga semua titik visited atau terpilih. Setelah dilakukan beberapa iterasi, maka terbentuk suatu cluster sebagai berikut.

Tabel 4. 6 Pembagian wilayah berdasarkan cluster DBSCAN Provinsi

noise DKI Jakarta dan Jawa Barat.

Cluster 1 Aceh, Bali, Bangka Belitung, Banten, Bengkulu, DI Yogyakarta, Gorontalo, Jambi, Jawa Barat, Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Tengah, Kalimantan Timur, Kalimantan Utara, Kepulauan Riau, Lampung, Maluku, Maluku Utara, Nusa Tenggara Barat, Nusa Tenggara Timur, Papua, Papua Barat, Riau, Sulawesi Barat, Sulawesi Selatan, Sulawesi Tengah, Sulawesi Tenggara, Sulawesi Utara, Sulawesi Barat, Sulawesi Selatan, Sulawesi Utara.

Cluster 2 Jawa Tengah dan Jawa Timur.

(10)

Tabel 4. 6 menunjukkan bahwa cluster 1 terdapat sebanyak 30 provinsi dengan karakteristik sama yang masuk ke dalam cluster 1. Sementara pada cluster 2 terdapat sebanyak 2 provinsi, dan 2 provinsi yaitu DKI Jakarta dan Jawa Barat tidak masuk ke dalam cluster manapun sehingga ditandai sebagai noise.

Kemudian untuk hasil visualisasi dari cluster menggunakan DBSCAN dengan sebanyak 2 cluster, adalah sebagai berikut.

Gambar 4. 4 Cluster plot DBSCAN

Adapun penjelasan gambar 4.4 mengenai pembagian wilayah clustering provinsi berdasarkan APBD menggunakan metode DBSCAN akan dibagi menjadi 2 bagian, yaitu bagian pendapatan dan pengeluaran, adalah sebagai berikut.

1. Pendapatan, meliputi pendapatan asli daerah, pendapatan transfer, dan penerimaan pembiayaan.

Nilai rata-rata cluster pendapatan dengan algoritma DBSCAN, diperoleh rata- rata cluster 1 sebesar -0,060 dan rata-rata cluster 2 sebesar 0,955. Dapat disimpulkan bahwa cluster 1 memiliki rata-rata pendapatan yang lebih rendah jika dibandingkan dengan rata-rata cluster 2. Nilai selisih antara rata-rata kedua cluster ini sebesar 0,895. Provinsi- provinsi yang berada pada cluster 1 memiliki rentang antara 5 miliar-12 triliun rupiah yang membuktikan bahwa wilayah yang berada pada cluster 1 memiliki pendapatan yang tidak terlalu banyak dan termasuk wilayah berkembang sehingga masih perlu dioptimalisasi pendapatan tiap daerah. Sementara provinsi-provinsi pada cluster 2 memiliki rentang pendapatan antara 620 miliar-16 triliun rupiah.

Provinsi Jawa Timur dan Jawa Tengah memiliki pendapatan yang sangat besar dibandingkan dengan provinsi pada cluster 1 dikarenakan pendapatan asli daerah nya yang mencapai 16 triliun rupiah.

2. Pengeluaran, meliputi belanja operasi, belanja modal, belanja tidak terduga, dan belanja transfer.

Nilai rata-rata cluster belanja dengan algoritma DBSCAN, diperoleh rata-rata cluster 1 sebesar -0,042 dan rata-rata cluster 2 sebesar 0,668. Berdasarkan keterangan tersebut dapat ditarik kesimpulan bahwa cluster 1 dan cluster 2 memiliki selisih rata-rata belanja sangat cukup besar yaitu sebesar 0,626.

Provinsi-provinsi yang berada pada cluster 1 memiliki rentang belanja daerah antara 7 miliar-11 triliun rupiah. Sementara belanja daerah pada provinsi- provinsi yang berada pada cluster 2 memiliki rentang belanja antara 20 miliar- 25 triliun rupiah. Provinsi Jawa Tengah dan Jawa Timur memiliki pengeluaran

(11)

hingga 25 triliun rupiah yaitu pada belanja operasi, yang nilainya 2 kali lipat lebih besar daripada provinsi-provinsi yang berada pada cluster 1.

Adapun validasi cluster atau hasil akurasi dari tiap metode terdapat pada tabel 4. 7 berikut.

Tabel 4. 7 Hasil validasi cluster k-means dan DBSCAN

Metode Silhouette index 𝑆_𝑅

k-means 0,893 0,098

DBSCAN 0,877 0,132

Pada tabel 4. 7 dapat dilihat bahwa dengan menggunakan metode k-means diperoleh nilai silhouette index sebesar 0,893 dan nilai 𝑆_𝑅 sebesar 0,098. Sementara dengan menggunakan metode DBSCAN diperoleh nilai silhouette index sebesar 0,877 dan nilai 𝑆_𝑅 sebesar 0,132.

3. KESIMPULAN

Kesimpulan yang dapat diambil mengenai hasil clustering provinsi berdasarkan APBD di Indonesia, yaitu dengan metode k-means diperoleh 2 cluster, dimana cluster 1 terdiri dari 33 provinsi dan cluster 2 terdiri dari 1 provinsi yaitu provinsi DKI Jakarta. Sedangkan metode DBSCAN diperoleh 2 cluster, dimana cluster 1 terdiri dari 30 provinsi, cluster 2 terdiri dari 2 provinsi yaitu provinsi Jawa Tengah dan Jawa Timur, dan terdapat 2 provinsi yang dinyatakan sebagai noise yaitu provinsi DKI Jakarta dan Jawa Barat.

DAFTAR PUSTAKA

Barakbah, A. R., & Arai, K. (2004). Determining constraints of moving variance to find global optimum and make automatic clustering. Industrial Electronics Seminar (IES) 2004, 1(1), 409–413.

Budiman, S. A. D., Safitri, D., & Ispriyanti, D. (2016). Perbandingan metode k- means dan metode DBSCAN pada pengelompokan rumah kost mahasiswa di Kelurahan Tembalang Semarang. Jurnal Gaussian, 5(4), 757–762.

Bunkers, M. J., & Miller, J. R. (1996). Definition of climate regions in the Northern Plains using an objective cluster modification technique. Journal of Climate, 9(1), 130–146.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2014). Multivariate data analysis (7th ed.). Canada: Pearson Education Limited.

Indonesia. Undang - Undang Nomor 17 Tahun 2003 tentang Keuangan Negara.

Lembaran Negara RI Tahun 2003 Nomor 47. Sekretariat Negara. Jakarta.

Jing, W., Zhao, C., & Jiang, C. (2019). An improvement method of DBSCAN algorithm on cloud computing. Procedia Computer Science, 147(1), 596–604.

(12)

Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis.

New Jersey: Pearson Prentice Hall.

Kantardzic, M. (2020). Data mining: Concepts, models, methods, and algorithms.

New Jersey: John Wiley & Sons, Inc.

Lu, C., Shi, Y., Chen, Y., Bao, S., & Tang, L. (2017). Data mining applied to oil well using k-means and DBSCAN. 7th International Conference on Cloud Computing and Big Data, CCBD 2016, 1(1), 37–40.

Putri, M. M., Dewi, C., Permata Siam, E., Asri Wijayanti, G., Aulia, N., &

Nooraeni, R. (2021). Comparison of DBSCAN and k-means clustering for grouping the village status in central java 2020. Jurnal Matematika, Statistika

& Komputasi, 17(3), 394–404.

Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20(1), 53–65.

Waheed, U., Al-Zahrani, S., & Hanafy, S. M. (2019). Machine learning algorithms for automatic velocity picking: K-means vs. DBSCAN. SEG Technical Program Expanded Abstracts, 1(1), 5110–5114.

Wang, J., & Su, X. (2011). An improved k-Means clustering algorithm. IEEE 3rd International Conference on Communication Software and Networks, 1(1), 44–46.

Windarto, A. P. (2017). Implementation of data mining on rice imports by major country of origin using algorithm using k-Means clustering method.

International Journal of Artificial Intelligence Research, 1(2), 1–8.

Zhang, M. (2018). Use density-based spatial clustering of applications with noise (DBSCAN) algorithm to identify galaxy cluster members. IOP Conference Series: Earth and Environmental Science, 252(1), 1-5.