IMPLEMENTASI ALGORITMA K-MEANS CLUSTERING DALAM PENENTUAN PRIORITAS REHABILITASI DAERAH ALIRAN SUNGAI (DAS)

(1)

19 | P a g e

IMPLEMENTASI ALGORITMA K-MEANS CLUSTERING DALAM

PENENTUAN PRIORITAS REHABILITASI DAERAH ALIRAN

SUNGAI (DAS)

Muhammad Farid Fahmi 1)_{, Yoyon K Suprapto}2) Jurusan Teknik Elektro, Fakultas Teknologi Industri,

Institut Teknologi Sepuluh Nopember Surabaya Kampus ITS Sukolilo, Surabaya 60111 Email : [email protected]

ABSTRAK

Ketersediaan informasi mengenai tingkat kekeritisan lahan yang akurat mempunyai arti yang sangat penting dalam program RHL sehingga Priorotas DAS mana yang akan dilakukan rehabilitasi bisa diketahui. Dari permasalahan diatas diperlukan sebuah cara untuk menentukan prioritas DAS yang direhabilitasi. Adapun metode yang digunakan dalam penelitan ini adalah K-Means Clustering. K-Means Clustering memodelkan dataset menjadi cluster-cluster dimana data pada satu cluster yang memiliki karakteristik sama dan memiliki karakteristik yang berbeda dari cluster lain berdasarkan parameter tingkat kekeritisan lahan. Dari penelitian ini diperolah Kelompok DAS dengan skor rendah untuk semua parameter kekritisan lahan sehingga memiliki tingkat kekritisan lahan tinggi dan menjadi prioritas untuk dilakukan rehabilitasi.

Kata Kunci: Rehabilitasi, DAS, Data Mining, K-means Clustering

ABSTRACT

The availability of information on the degree of criticality of accurate land has particular significance in RHL program that watershed priorities which will be rehabilitated can be known. From the above problems needed a way to determine the priority watershed rehabilitated. The method used in this research is a K-Means Clustering. K-Means Clustering modeling the dataset into cluster s where data on a cluster that has the same characteristics and has different characteristics from other clusters based on land kekeritisan level parameters. From this research obtained watershed group with low scores for all the critical parameters of the land so that it has a high degree of criticality and priority land to be rehabilitated.

Keyword: Rehabilitation, Watershed, Data Minning , K-means Clustering 1. PENDAHULUAN

Kerusakan sumber daya hutan berakibat pada menurunnya kemampuan hutan dalam mendukung fungsi ekonomi, sosial dan ekologis. Indikasi kerusakan sumber daya hutan ini dapat dilihat dari menurunnya kualitas Daerah Aliran Sungai (DAS) dan semakin intensnya terjadi bencana alam berupa banjir, kekeringan, dan tanah longsor. Selain itu, kerusakan sumber daya hutan menjadi sorotan dunia internasional sebagai salah satu penyebab perubahan iklim dunia. Dalam rangka mengembalikan kondisi hutan agar mampu berfungsi secara optimal sekaligus untuk mengatasi perubahan iklim, maka diperlukan upaya mitigasi berupa kegiatan Rehabilitasi Hutan dan Lahan (RHL) di 108 DAS prioritas.

Program RHL terlaksana dengan baik apabila informasi obyektif kondisi hutan dan lahan sasaran RHL teridentifikasi secara menyeluruh. Penyediaan data dan informasi sangat diperlukan terutama dalam menunjang formulasi strategi RHL yang berdayaguna dan tepat sasaran, sehingga diharapkan dapat diperoleh acuan dalam pengalokasian sumberdaya secara proporsional.

Ketersediaan informasi mengenai jumlah dan distribusi lahan kritis yang akurat mempunyai arti yang sangat penting dalam memaksimalkan program RHL sehingga Informasi tentang DAS mana yang menjadi prioritas RHL tersedia.

(2)

20 N E R O

Teknologi data mining adalah salah satu cara mendapatkan informasi yang tersembunyi dari rangkaian data untuk menjadi pengetahuan yang bisa mendukung sebuah organisasi dalam mengambil keputusan. Data mining adalah metode pengolahan data untuk menemukan pola dan informasi yang tersembunyi dari sekumpulan data [1]. Salah satu Algoritma dalam data mining adalah K-Means Clustering. Yaitu menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hierarki [2].

Rumusan permasalahan yang diselesaikan dalam penelitian ini bagaimana menentukan prioritas DAS yang direhabilitasi berdasarkan tingkat kekritisan lahan dengan menggunakan Alogitma K-means clustering. Algoritma K-Means Clustering sederhana untuk diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi serta umum penggunaanya dalam paraktek [3].

Adapun yang menjadi tujuan dari penelitian ini adalah Untuk melakukan pengelompokan/

clustering tingkat kekritisan lahan menggunakan Algoritma K-Means Clustering sehingga

diperoleh kelompok DAS yang menjadi prioritas untuk dilakukan rehabilitasi. 2. Dasar Teori

2.1 Rehabilitasi DAS (Daerah Aliran Sungai)

Rehabilitasi Hutan dan Lahan (RHL) adalah upaya untuk memulihkan, mempertahankan dan meningkatkan fungsi hutan dan lahan sehingga daya dukung, produktifitas dan peranannya dalam mendukung sistem penyangga kehidupan tetap terjaga. Daerah Aliran Sungai yang selanjutnya disingkat DAS yang tersebar diseluruh wilayah Indonesia, merupakan satu kesatuan ekosistem alami yang utuh dari ekosistem pegunungan di hulu hingga ekosistem pantai di hilir [4].

Sesuai Peraturan Pemerintah Nomor 37 tahun 2012, Daya Dukung DAS adalah kemampuan DAS untuk mewujudkan kelestarian dan keserasian ekosistem serta meningkatnya kemanfaatan sumber daya alam bagi manusia dan makhluk hidup lainnya secara berkelanjutan. Salah satu sasaran lokasi RHL dipersyaratkan masuk dalam rencana teknik RHL DAS adalah Terdapat hutan rusak dan lahan kritis yang perlu direhabilitasi. Semakin Kritis tingkat kerusakan lahan maka akan menjadi prioritas utama untuk dilakukan Rehabilitasi [4].

Berdasarkan Permenhut Nomor P.32/Menhut-II/2009, Parameter penentu lahan kritis di Hutan Lindung meliputi Penutupan Lahan, Kemiringan Lereng, Tingkat Erosi dan Manajemen. 2.2 Data Mining

Data mining adalah metode pengolahan data untuk menemukan pola dan informasi yang tersembunyi dari sekumpulan data tersebut. Hasil dari pengolahan data dengan metode data mining ini dapat menghasilkan informasi yang digunakan untuk mengambil keputusan di masa depan. Data mining ini juga dikenal dengan istilah pattern recognition [1].

Data mining merupakan metode pengolahan data berskala besar oleh karena itu data mining ini memiliki peranan penting dalam berbagai bidang seperti pemerintahan, industri, keuangan serta ilmu dan teknologi. Secara umum kajian data mining membahas metode-metode seperti prediksi, estimasi, clustering, klasifikasi, asosiasi, regresi, seleksi variable, dan market basket analisis [1].

2.3 Clustering

Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang

memiliki kemiripan karakteriktik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised), maksudnya metode ini diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher) serta tidak memerlukan target output. Dalam data mining ada dua jenis metode clustering yang digunakan dalam pengelompokan data, yaitu hierarchical clustering dan non-hierarchical

(3)

21 | P a g e

Hierarchical clustering adalah suatu metode pengelompokan data yang dimulai dengan

mengelompokkan dua atau lebih objek yang memiliki kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang memiliki kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam pohon dimana ada hierarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai yang paling tidak mirip. Secara logika semua objek pada akhirnya hanya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hierarki tersebut [2].

Berbeda dengan metode hierarchical clustering, metode non-hierarchical clustering justru dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster , tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hierarki. Metode ini biasa disebut dengan K-Means Cluster

ing [2].

2.4 Algoritma K-Means Clustering

Algoritma K-Means Clustering merupakan algortima pengelompokan iteratif yang melakukan partisi set data ke dalam sejumlah K cluster yang sudah di tetapkan di awal [5]. Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster/ kelompok dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster/ kelompok yang lain sehingga data yang berada dalam satu cluster/ kelompok memiliki tingkat variasi yang kecil [6].

Kedekatan dua objek ditentukan berdasarkan jarak kedua objek tersebut. Demikian juga kedekatan suatu data ke cluster tertentu ditentukan jarak antara data dengan pusat cluster . Jarak paling dekat antara satu data dengan satu cluster tertentu akan menentukan suatu data masuk dalam cluster mana [1]. Perhitungan jarak semua data ke setiap tiitk pusat cluster menggunakan teori jarak Euclidean yang dirumuskan sebagai berikut:

ሺ݅ǡ ݆ሻ ൌ ඥሺݔΌ݆ െ ݔΌ݆ሻଶ_{൅ሺݔ΍݆ െ ݔ΍݆ሻ}ଶ_{൅Ǥ Ǥ ൅ሺݔ݇݅ െ ݔ݆݇ሻ}ଶ ₍₁₎

Dimana :

d(i,j) = Jarak data ke i ke pusat cluster j xki = Data ke i pada atribut data ke k

xkj = Titik pusat ke j pada atribut ke k

Menurut Prasetyo [3], langkah langkah melakukan Algoritma K-Means Clustering adalah sebagai berikut :

1. Tentukan nilai K sebagai jumlah cluster . 2. Pilih K dari dataset X sebagai centroid.

3. Alokasikan semua data ke centroid dengan metrik jarak menggunakan rumus persamaan 1.

4. Hitung kembali centroid C berdasarkan data yang mengikuti cluster masing-masing. Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai, yaitu (a) perubahan fungsi objektif sudah dibawah ambang batas yang diinginkan atau (b) tidak ada data yang berpindah

cluster atau perubahan posisi centroid sudah dibawah ambang batas yang ditetapkan.

2.7. PENELITIAN SEBELUMNYA

Penelitian mengenai Data mining dengan algoritma K-means clustering telah banyak dilakukan untuk penyelesaian masalah yang beragam. Salah satunya oleh Oscar [6] yang melakukan clustering untuk menentukan strategi marketing President University. Dari penelitian tersebut didapatkan 3 cluster mahasiswa dengan karakteristik Jurusan, daerah asal dan IPK yang mirip sehingga dari data clustering tersebut bisa dijadikan acuan untuk menentukan strategi promos yang tepat.

Firli,dkk [7] melakukan Penelitian mengenai pengelompokan Kecamatan berdasarkan indikator pendidikan. Hasil dari penelitian ini didapatkan jumlah empat cluster kecamatan dengan tingkat kemiripan yang paling mirip.

(4)

22 N E R O 3. METODOLOGI

Penelitian ini dilakukan berdasarkan beberapa tahapan yang bertujuan memperlihatkan bagaimana sebuah model clustering bisa memberikan informasi tentang karakteristik kelompok tertentu berdasarkan parameter yang ada. Tahapan dalam penelitian ini adalah sebagai berikut :

1. Transformasi Database

Data yang digunakan dalam penelitian ini adalah file DBF dari Database peta liputan lahan peta kemiringan lahan, peta erosi dan peta manajemen lahan yang diperoleh dari Balai Pegelolaan Daerah Aliran Sungai (BPDAS) Tondano Provinsi Sulawesi Utara. Data yang diperoleh masih berupa data dengan banyak atribut sehingga atribut yang tidak digunakan akan dibuang sebagian melalui proses transformasi basis data.

2. Pembersihan Data

Proses selajutnya adalah melakukan pembersihan data, proses ini bisa menghapus data yang duplikat atau ada field data yang kosong serta data dengan atribut yang tidak sesuai dengan klasifikasi skor parameter DAS sehingga akan mengurangi jumlah data asal. 3. Pemilihan Data UJi

Proses pemilihan data dilakukan untuk memilih data yang akan diujikan. Mengingat jumlah data DAS yang relatif besar, maka dalam penelitian ini hanya di lakukan clustering terhadap 1000 data DAS dengan luasan terbesar yang ada di wilayah kerja BPDAS Tondano.

4. Clustering Data DAS

Dalam penelitian ini simulasi clustering data DAS dilakukan dengan menggunakan tools

WEKA.

5. Informasi & Pengetahuan

Informasi yang dihasilkan nantinya akan berupa visualisasi. Visualisasi ini berfungsi untuk mempermudah penulis dalam menganalisis kelompok-kelompok DAS dengan karakteristik yang sama.

4. PENGUJIAN DAN PEMBAHASAN 4.1. DATA UJI

Data uji yang digunakan dalam penelitian ini berjumlah 1000 record data DAS. Data yang sudah di transformasi dan dibersihkan dari atribut yang tidak dipakai kemudian dipilih 1000 data DAS dengan luasan terbesar untuk dilakukan clustering. Fitur yang dipakai dalam

clustering adalah parameter yang berpengaruh dalam menentukan tingkat kekritisan lahan yaitu

skor penutupan lahan, skor lereng, skor erosi, skor produktivitas dan skor manajemen. data yang sudah dipilih sesuai dengan Table 1.

Tabel 1. Data Uji

Data Ke- ID_DAS SKOR_PL SKOR_LER SKOR_ERO SKOR_MNJ

1 DAS510130 3 5 3 3 2 DAS510131 3 5 3 3 3 DAS510132 3 5 3 3 4 DAS510134 5 5 4 5 5 DAS510135 5 5 4 5 …. …. …. …. …. …. 1000 DAS511383 1 5 5 1

4.2. PENGUJIAN CLUSTERING DATA DENGAN ALGORITMA K-MEANS

Perhitungan pada algortima k-means melalui bantuan tools WEKA 3.6 diawali dengan menentukan jumlah cluster atau kelompok data yang dihasilkan nantinya. Dalam penelitian ini menggunakan 5 cluster untuk menentukan tingkat kekritisan lahan. proses penentuan cluster

(5)

23 | P a g e ditunjukan pada Gambar 1. Pada Gambar 1. Juga menunjukan metode apa yang akan digunakan untuk penghitungan jarak. Dalam hal ini kita menggunakan metode Euclidean sesuai dengan persamaan 1.

Gambar 1. Penentuan jumlah cluster dan metode untuk menghitung jarak kedekatan Setelah kita lakukan proses clustering. Maka didapatkan hasil centroid dan banyaknya data yang masuk untuk masing-masing cluster . Seperti yang ditunjukan pada Gambar 2.

Gambar 2. Centroid dan data untuk masing –masing cluster

Dari Gambar 2. Didapatkan hasil cluster 3 adalah cluster yang memiliki anggota yang paling banyak yaitu 243 data DAS dengan centroid(2.59;4.18;2.33;3.06;3). Gambar 3 menunjukan grafik jumlah data pada masing-masing cluster.

(6)

24 N E R O

4.3. VISUALISASI DATA CLUSTER Hasil clustering ke

mudian divisualisasikan untuk mendapatkan informasi dan mempermudah melakukan analisis. Visualisasi yang di tampilkan adalah data untuk semua cluster berdasarkan parameter tingkat kekritisan lahan.

Gambar 4. Cluster berdasarkan Skor Penutupan Lahan

Pada Gambar 4. menunjukan bahwa cluster 1 (warna merah) dan 4 (warna ungu) adalah kelompok data dengan skor penutupan lahan tinggi dibanding cluster lainnya. Hal ini terjadi karena data DAS pada cluster 1 mempunyai nilai penutupan lahan rata-rata diatas sedang.

Gambar 5. Cluster berdasarkan Skor Kemiringan Lereng

Pada Gambar 5. Menunjukan bahwa cluster 2 (warna hijau) dan 3 (warna biru muda) merupakan kelompok data dengan skor kemiringan lereng tinggi. Sedangkan untuk skor penutupan lahan terendah di dominasi data di cluster 0.

(7)

25 | P a g e Gambar 6. Cluster berdasarkan Skor Erosi

Pada Gambar 6. menunjukan bahwa cluster 1 (warna merah) dan 2 (warna hijau), data di

cluster 1 dan 2 memiliki skor erosi yang rendah. Artinya DAS di cluster 1 mempunyai nilai tingkat bahaya erosi rata-rata ditas sedang dan ringan.

Gambar 7. Cluster berdasarkan Skor Produktivitas

Pada gambar 7. Menunjukan bahwa selain cluster 1. Cluster 4 adalah kelompok data dengan skor Produktivitas tinggi, artinya DAS di cluster 1 dan 4 adalah DAS dengan nilai produktivitas yang baik. Hal ini terjadi karena data DAS pada cluster 1 mempunyai nilai tingkat produktivitas rata-rata diatas tinggi.

Gambar 8. Cluster berdasarkan Skor Manajemen

Pada gambar 8. Menunjukan cluster 1 adalah kelompok data dengan skor menajemen tinggi, artinya DAS di cluster 1 adalah DAS dengan nilai pengelolaan yang baik. Hal ini terjadi karena data DAS pada cluster 1 mempunyai nilai tingkat produktivitas rata-rata diatas tinggi. 5. Kesimpulan dan Saran

Dari penelitian dan uji coba yang telah dilakukan dapat ditarik beberapa kesimpulan sebagai berikut :

1. Algoritma K-Means Clustering mampu mengelompokan data DAS menjadi beberapa kelompok sesuai kemiripan dan karekteristik masing-masing.

2. Dari uji coba yang telah dilakukan, maka didapatkan pola kelompok DAS dengan karakteristik :

- Cluster 0 sebanyak 212 data atau 21,2 % dari jumlah semua data DAS, Berisikan kelompok DAS dengan karakteristik penutupan lahan yang buruk dengan tingkat

(8)

26 N E R O

kelerangan yang curam. Kelompok ini juga didominasi DAS dengan tingkat bahaya erosi yang sangat berat serta masuk dalam kelas sedang untuk tingkat produktivitas dan manajemen pengelolaannya.

- Cluster 1 sebanyak 230 data atau 23 % dari jumlah semua data DAS, Merupakan kelompok DAS dengan karakteristik penutupan lahan sedang dengan tingkat kelerangan yang agak curam. Kelompok di cluster 1 juga merupakan DAS dengan tingkat bahaya erosi yang berat dan masuk dalam kelas sedang untuk tingkat produktivitas serta mempunyai manajemen pengelolaan yang baik.

- Cluster 2 sebanyak 155 data atau 15,5 % dari jumlah semua data DAS, Terdiri dari kelompok DAS dengan karakteristik pentupan lahan yang lebih buruk dari cluster 0 atau bisa dikatakan sangat buruk namun memiliki tingkat kelerengan yang landai. DAS di kelompok ini masuk dalam kategori sedang untuk tingkat bahaya erosi, tingkat produktivitas dan manajemen pengelolaannya.

- Cluster 3 sebanyak 243 data atau 24,5 % dari jumlah semua data DAS, Berisikan kelompok DAS dengan karakteristik penutupan lahan yang buruk namun memiliki kelerengan yang landai. Kelompok ini juga merupakan DAS dengan tingkat bahaya erosi yang sangat berat serta masuk dalam kelas sedang untuk tingkat produktivitas dan manajemen pengelolaannya.

- Cluster 4 sebanyak 160 data atau 16 % dari jumlah semua data DAS, Mayoritas DAS dalam kelompok ini mempunya karakteristik penutupan lahan yang baik denga kelerengan yang agak curam. Sedangkan tingkat bahaya erosinya masuk dalam kelas yang sedang namun memiliki tingkat produktivitas yang tinggi dan manajemen pengelolaan lahan sedang.

3. Cluster 0 merupakan kelompok DAS dengan tingkat kekritisan lahan paling tinggi karena nilai rata-rata dari semua paramater DAS di cluster 0 dibawah rata rata dari semua cluster yaitu penutupan lahan 2,037, Kelerengan 1,9811, Tingkat Erosi 2.1509, tingkat Produktivitas 2,9151 dan Manajemen 3 sehingga DAS yang ada di kelompok 0 merupakan DAS yang menjadi prioritas untuk dilakukan rehabilitasi..

6. Daftar Pustaka

[1] Santosa B, "Data Mining : Teknik Pemanfaatan Data untuk keperluan Bisnis," Graha Ilmu-Yogyakarta, 2007.

[2] Santoso, "Statistik Multivariat," Elekmedi Komputindo-Jakarta, 2005.

[3] Prasetyo, Eko, "Data Mining Mengolah Data menjadi Informasi dengan Matlab," Andi-Yogyakarta, 2009.

[4] Dephut, “ P.32/Menhut-II/2009 tentang Tata cara penyusunan rencana teknik rehabilitasi hutan dan lahan Daeah Aliran sungai”. Jakarta, 2009.

[5] Rajagopal, Sankar, "Customer data clustering using data mining Technique," in International Journal of Database Management System Vol.3 No.4, 2011.

[6] Oscar, Johan Ong, “Implementasi Algoritma K-Means Clustering untuk menentukan Strategi Marketing President University”, Jurnal Ilmiah Teknik Industri, Vol.12 No.1, 2013