• Tidak ada hasil yang ditemukan

PENGKLASTERAN AREA PEMBANGUNAN BAK SAMPAH DAUN MENGGUNAKAN METODE K-MEANS ABSTRACT

N/A
N/A
Protected

Academic year: 2022

Membagikan "PENGKLASTERAN AREA PEMBANGUNAN BAK SAMPAH DAUN MENGGUNAKAN METODE K-MEANS ABSTRACT"

Copied!
11
0
0

Teks penuh

(1)

1

PENGKLASTERAN AREA PEMBANGUNAN BAK SAMPAH DAUN MENGGUNAKAN METODE K-MEANS

Herman Suryadi, Yanti Andriyani

Mahasiswa Program Studi S1 Sistem Informasi Jurusan Ilmu Komputer

Fakultas Matematika dan Ilmu Pengetahuan Alam Kampus Bina Widya Pekanbaru, 28293, Indonesia

[email protected]

ABSTRACT

The area around Riau University has a lot of leaf litter because the area is overgrown with trees, but currently the destruction of leaf litter scattered only done by burning. This is because there is no leaf garbage tub available in riau university environment and also there has not been an analysis of the grouping of areas that have the potential for the construction of the leaf garbage tub. From the existing problems, it can be seen that Riau University needs analysis of the grouping of areas to determine the grouping of areas in building garbage cans. Therefore, this research aims to implement the k-means clustering algorithm in conducting cluster analysis to determine the group of areas in building garbage bins that exist in the area of Riau University. This study reviewed data in the form of 71 data point location of leaf garbage stacks with data attributes clustered are latitude points and longitude of data objects. The research phase that emphasizes the analysis of k-means clustering goes through 2 stages, namely the process of clustering with k-means, and the testing of clustering results with silhouette coefficient, The clustering process is carried out by experimenting the number of different clusters, namely 3, 4, 5, 6, and 7 clusters. The best cluster results testing is done using the silhouette coefficent method. Based on the results of the experiment, the number of k=3 is the best cluster with test results of 0.5906023241609282. This means that as many as 3 garbage can be built in the area around the centroid point of each cluster.

Keywords : Clustering, Data Mining, K-Means, Python, Leaf Litter.

(2)

2

ABSTRAK

Area sekitar Universitas Riau banyak terdapat sampah daun dikarenakan areanya yang banyak ditumbuhi oleh pepohonan, akan tetapi saat ini pemusnahan sampah daun yang berserakan hanya dilakukan dengan proses pembakaran. Hal ini disebabkan karena belum tersedianya bak sampah daun di lingkungan Universitas Riau dan juga belum adanya analisa pengelompokan area yang berpotensi untuk pembangunan bak sampah daun tersebut. Dari permasalahan yang ada maka bisa dilihat bahwa Universitas Riau membutuhkan analisa pengelompokan area untuk menentukan kelompok area dalam membangun bak sampah. Oleh karena itu, penelitian ini bertujuan untuk mengimplementasikan algoritma k-means clustering dalam melakukan cluster analisis untuk menentukan kelompok area dalam membangun bak sampah yang ada di area Universitas Riau. Penelitian ini mengolah data berupa 71 data titik lokasi tumpukan sampah daun dengan atribut data yang di clustering adalah titik latitude dan longitude dari objek data. Tahapan penelitian yang menekankan pada analisa k-means clustering melewati 2 tahapan, yaitu proses clustering dengan k-means dan pengujian hasil clustering dengan silhouette coefficient. Proses clustering dilakukan dengan percobaan jumlah cluster yang berbeda, yaitu 3, 4, 5, 6, dan 7 cluster. Pengujian hasil cluster terbaik dilakukan dengan menggunakan metode silhouette coefficient Berdasarkan hasil percobaan, jumlah k=3 merupakan cluster yang terbaik dengan hasil pengujian sebesar 0.5906023241609282. Artinya jumlah bak sampah daun dapat dibangun sebanyak 3 bak sampah pada area di sekitar titik centroid tiap cluster.

Kata Kunci : Clustering, Data Mining, K-Means, Python, Sampah Daun.

PENDAHULUAN

Sampah merupakan material sisa setelah berakhirnya suatu proses. Sampah didefinisikan oleh manusia menurut derajat keterpakaiannya dalam proses-proses alam sebenarnya tidak ada konsep sampah, yang ada hanya produk-produk yang dihasilkan setelah dan selama proses alam tersebut berlangsung.

Sampah daun merupakan sampah organik dimana jenis sampah ini masih dapat dipakai jika dikelola dengan prosedur yang benar. Bak Sampah adalah tempat pembuangan sampah sebelum sampah diangkut ke tempat pendaur ulang, pengelolaan, dan atau tempat pengelolaan sampah terpadu.

Akan tetapi, untuk penentuan area bak sampah perlu adanya analisis lebih lanjut menentukan daerah pembangunannya berdasarkan pengelompokan area (clustering).

Untuk menentukan kelompok area dalam membangun bak sampah daun dibutuhkan cluster analisis atau biasa juga disebut dengan clustering. Dengan didapatkannya data cluster daerah area terbaik maka daerah pada cluster tersebut bisa ditindak lanjuti

(3)

3 untuk pemilihan area pembangunan bak sampah daun.

METODE PENELITIAN

a. Teknik Pengumpulan Data

Data yang akan digunakan yaitu titik-titik koordinat (Latitude dan Longitude) yang diambil dari lokasi tumpukan daun yang memiliki volume yang besar di lingkungan Universitas Riau Kampus Bina Widya.

b. Peralatan yang Digunakan

Adapun peralatan yang digunakan dalam penelitian ini terbagi menjadi 2 kategori,yaitu hardware dan software. Peralatan hardware dapat dilihat pada Tabel 1 dan software pada Tabel 2.

Tabel 1. Hardware yang digunakan

No Nama Alat dan Bahan Fungsi Keterangan

1 Laptop Pengolahan

program software

Laptop Asus Intel® Core(TM) i3-7020U CPU @2.30GHz (4 CPUs), ~2.3GHz

2 Printer Mencetak

Skripsi

Epson L210

Tabel 2. Software yang digunakan

No Nama Alat dan Bahan Fungsi Keterangan

1 Windows Sistem operasi Windows 10

Ultimate 64 bit 2 Microsoft Office Penulisan dokumen teks

dan pengolahan data

Word 2013 dan Excel 2013 3 Jupyter Notebook Platform penghubung

Bahasa Program

Anaconda3 4 Google Chrome Penghubung dengan

internet dan menjalankan program

Version 87.0.4280.88

(4)

4 5 GPS Map Camera Mengambil dan

mendeteksi lokasi data

Version 1.8.2

c. Preprocessing Data

Pada tahap ini dilakukan penghapusan kolom yang tidak digunakan serta pembersihan terhadap data yang akan diuji agar dataset bersih dari noise dan hal yang tidak berguna sehingga data siap digunakan dalam proses selanjutnya. Proses preprocessing data yang akan dilakukan yaitu seleksi feature.

Tahap ini dilakukan agar dataset yang diuji bersih dari hal yang tidak penting dan juga terbebas dari noise sehingga data siap digunakan untuk dianalisis.

1. Ekstraksi Data

Ditahap ini akan dilakukan proses pengambilan data dari sumber data yang akan ditindak lanjuti.

2. Pembersihan Data

Ditahap ini akan dilakukan pembersihan dataset dari data yang tidak penting agar terbebas dari noise (data yang rusak), data akan disesuaikan dengan kebutuhan untuk dianalisis.

3. Transformasi Data

Tahap ini akan dilakukannya pengubahan data atau mengedit data agar memenuhi asumsi-asumsi analisis, data-data dalam bentuk kata akan dirubah menjadi bentuk numerik agar memenuhi syarat analisis.

d. Proses Clustering

Tahap ini akan diterapkan metode K-Means untuk mengelompokkan data tumpukan daun.

e. Pengujian Hasil Clustering

Setelah proses clustering, tahap selanjutnya adalah proses pengujian hasil clustering. Pengujian hasil clustering menggunakan metode silhouette coefficient yang bertujuan untuk menguji seberapa baik cluster yang dihasilkan pada proses clustering.

f. K-Means

Metode K-Means pertama kali diperkenalkan oleh MacQueen JB pada tahun 1976. Metode ini adalah salah satu metode non hierarki yang umum digunakan.

Metode ini termasuk dalam teknik penyekatan (partition) yang membagi atau memisahkan objek ke k daerah bagian yang terpisah. Pada K-Means, setiap objek harus masuk dalam kelompok tertentu tetapi dalam satu tahapan proses tertentu,

(5)

5 objek yang sudah masuk dalam satu kelompok, pada satu tahapan berikutnya objek akan berpindah ke kelompok lain.

Hasil cluster dengan metode K-Means sangat bergantung pada nilai pusat kelompok awal yang diberikan. Pemberian nilai awal yang berbeda bisa menghasilkan kelompok yang berbeda. Ada beberapa cara memberi nilai awal misalnya dengan mengambil sampel awal dari objek, lalu mencari nilai pusatnya, memberi nilai awal secara random, menentukan nilai awalnya atau menggunakan hasil dari kelompok hierarki dengan jumlah kelompok yang sesuai (Santosa 2007) dikutip dalam (Fitria Hastuti, 2013).

Menurut Nuningsih (2010) dikutip dalam (Fitria Hastuti, 2013), Algoritma K- Means memerlukan 3 komponen, yaitu:

1. Jumlah Cluster K

K-Means merupakan bagian dari metode non-hierarki sehingga dalam metode ini jumlah k harus ditentukan terlebih dahulu. Jumlah cluster k dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah cluster k, terkadang jumlah cluster yang diinginkan tergantung pada subyektif seseorang.

2. Cluster Awal

Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal (centroid awal). Dalam hal ini, terdapat beberapa pendapat dalam memilih cluster awal untuk metode K-Means sebagai berikut:

a. Berdasarkan Hartigan (1975), pemilihan cluster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi.

b. Berdasarkan Rencher (2002), pemilihan cluster awal dapat ditentukan melalui pendekatan salah satu metode hierarki.

c. Berdasarkan Teknomo (2007), pemilihan cluster awal dapat secara acak dari semua observasi.

Oleh karena adanya pemilihan cluster awal yang berbeda ini maka kemungkinan besar solusi cluster yang dihasilkan akan berbeda pula.

3. Ukuran Jarak

Metode K-Means dimulai dengan pembentukan prototipe cluster di awal kemudian secara iteratif prototipe cluster ini diperbaiki hingga konvergen (tidak terjadi perubahan yang signifikan pada prototipe cluster). Perubahan ini diukur dengan ukuran jarak Euclidean. Ukuran jarak ini digunakan untuk menempatkan observasi ke dalam cluster berdasarkan centroid terdekat. Menurut Sarwono (2011) dikutip dalam (Fitria Hastuti, 2013), Algoritma K-Means adalah sebagai berikut:

a. Menentukan k sebagai jumlah cluster yang ingin dibentuk.

(6)

6 b. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak

k.

c. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Eucledian (Eucledian Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance :

( ) √∑ ( ) ... (1) Dimana :

: data kriteria

: centroid pada cluster ke-j

d. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).

e. Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan dengan menggunakan rumus:

( )

... (2) Dimana :

( ) : centroid baru pada iterasi ke (t + 1), : banyak data pada cluster Sj

f. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster tidak ada yang berubah.

g. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (µj) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.

HASIL DAN PEMBAHASAN

a. Data

Dari hasil pengumpulan data diperoleh data tumpukan sampah daun di lokasi sekitar Universitas Riau Bina Widya sebanyak 71 data. Data didapatkan dengan cara mengambil gambar berupa foto menggunakan aplikasi GPS Map Camera. Setelah semua data titik area tumpukan sampah daun terkumpul data tersebut dimasukkan secara manual ke dalam Microsoft Excel.

b. Processing Data

Pada tahap ini dilakukan proses pembersihan data berupa penghapusan kolom yang tidak digunakan sehingga data siap digunakan dalam proses melakukan clustering. Penghapusan pada tahap ini adalah penghapusan atribut Nama Jalan dan Volume pada Tabel 1, sedangkan atribut kolom Latitude dan Longitude akan

(7)

7 digunakan dalam proses clustering. Tabel 1 di bawah ini menunjukkan beberapa data setelah dilakukan proses preprocessing.

Tabel 1 Contoh data setelah proses preprocessing Latitude Longitude

0.477887 101.37956 0.478921 101.379561 0.478789 101.378466 0.478822 101.37835 0.478869 101.37986 0.479177 101.379932

…. ….

0.464508 101.379696

c. Proses Clustering

Proses clustering dengan menggunakan metode K-Means akan dilakukan terhadap 71 data area tumpukan sampah daun. Langkah-langkah proses clustering dengan K-Means adalah sebagai berikut :

1. Menentukan nilai k yaitu jumlah cluster yang dibentuk. Pada pembahasan ini diambil contoh perhitungan dengan nilai k = 3. Namun pada penelitian ini nilai k yang akan diuji coba adalah sebanyak 3, 4, 5, 6, dan 7. Uji coba dilakukan berulang-ulang dengan jumlah k berbeda agar mendapatkan hasil dengan jumlah cluster yang paling baik.

2. Kemudian tetapkan nilai centroid sebanyak k secara random. Untuk k = 3, maka jumlah centroid yang diinisialisasi berjumlah 3. Berdasarkan pengambilan nilai centroid secara random diperoleh centroid untuk masing-masing cluster sebagai berikut :

= (0.47125, 101.380472) => Didapatkan secara random dari data ke-10 = (0.476311, 101.381678) => Didapatkan secara random dari data ke-58 = (0.476425, 101.387988) => Didapatkan secara random dari data ke-50 3. Menghitung jarak setiap data area ke masing-masing centroid cluster

menggunakan rumus Eucledian Distance berdasarkan Persamaan 2.1.

Jarak data ke-1 dengan centroid cluster 1 :

(8)

8 ( ) √( ) ( )

Jarak data ke-1 dengan centroid cluster 2 :

( ) √( ) ( )

Jarak data ke-1 dengan centroid cluster 3 :

( ) √( ) ( )

Tahapan berikutnya adalah melakukan perhitungan data ke-2 hingga data ke-71 terhadap masing-masing centroid cluster seperti cara di atas.

4. Setelah jarak setiap data area ke masing-masing cluster telah didapat, proses berikutnya adalah mengelompokkan setiap data ke dalam cluster yang memiliki jarak terdekat dengan centroidnya. Contohnya pada perhitungan jarak data ke-1 dengan masing-masing centroid pada langkah 3, data ke-1 menghasilkan jarak terkecil dengan cluster 2. Perhitungan jarak data ini bisa dilihat pada Tabel 2.

Tabel 2 Hasil perhitungan jarak data ke-1 ke masing-masing centroid Nama Jalan

Jl. Unri, Simpang Baru, Kec Tampan,

Kota Pekanbaru, Riau 28292 0.006699 0.002640 0.008553 Dari perhitungan langkah 3, data ke-1 memiliki jarak terdekat dengan cluster 2 dari pada cluster yang lain. Maka data ke-1 masuk ke dalam cluster 2. Proses berikutnya adalah pengalokasian data ke dalam cluster terdekat hingga data ke- 71.

5. Menghitung nilai centroid baru dengan menggunakan Persamaan 2.2, yang merupakan perhitungan rata-rata tiap atribut dari seluruh anggota yang tergabung ke dalam anggota masing-masing cluster.

Perhitungan centroid baru cluster 1 :

Pada hasil pengalokasian data pada langkah 3, jumlah anggota pada cluster 1 berjumlah 12 yaitu data 9, 10, 11, 12, 13, 14, 35, 36, 67, 69, 70, 71.

Maka perhitungan centroid baru didapatkan dari hasil rata-rata atribut Latitude dan Longitude dari 12 data objek yang tergabung dalam cluster 1 tersebut.

(9)

9 Perhitungan centroid baru dilanjutkan hingga cluster 3 seperti cara di atas.

Sehingga menghasilkan centroid baru tiap cluster menjadi : = (0.470118583, 101.379505583)

= (0.477063148, 101.378803851) = (0.4762118, 101.3881052)

6. Selanjutnya, proses dilakukan pada langkah 3 sampai 5 berulang-ulang (iterasi) jika centroid baru tidak sama dengan centroid sebelumnya. Iterasi akan berhenti jika centroid baru telah sama dengan centroid sebelumnya, yang artinya anggota tiap cluster juga tidak akan berubah lagi dan centroid saat ini telah konvergen.

Hasil akhir dari proses clustering 71 data titik lokasi tumpukan sampah daun dengan 3 cluster menghasilkan centroid akhir sebagai berikut :

= (0.46880167, 101.38021844) = (0.47690558, 101.37872823) = (0.4762118, 101.3881052) d. Hasil Clustering

Hasil clustering dilakukan dengan uji coba menggunakan jumlah k yang berbeda yaitu sebanyak 3, 4, 5, 6, dan 7. Visualisasi data dari 71 titik lokasi sebelum dilakukan clustering dapat dilihat pada Gambar 1.

Gambar 1 Uncluster data titik tumpukan sampah daun

Gambar 1 adalah data area tumpukan sampah daun sebelum dilakukan clustering dengan K-Means. Selanjutnya, berikut hasil clustering dengan menggunakan masing-masing jumlah k yang diuji coba.

(10)

10 e. Pengujian Hasil Clustering

Setiap percobaan memiliki nilai rata-rata silhouette yang berbeda sesuai dengan hasil clustering pada percobaan tersebut. Berdasarkan percobaan yang dilakukan dengan jumlah k sebanyak 3, 4, 5, 6, dan 7, didapatkan nilai rata-rata silhouette yang dapat dilihat pada Tabel 3.

Tabel 3 Rata-rata nilai silhouette

Pada Tabel 3, kualitas cluster diperlihatkan berdasarkan nilai Silhouette_score.

Untuk jumlah cluster 3 didapatkan Silhouette_score 0.5906023241609282 yang merupakan Medium Structure cluster, untuk jumlah cluster 4 didapatkan Silhouette_score 0.44819025637746907 yang merupakan Weak Structure cluster, untuk jumlah cluster 5 didapatkan Silhouette_score 0.4818257782628804 yang merupakan Weak Structure cluster, untuk jumlah cluster 6 didapatkan Silhouette_score 0.4865304473709829 yang merupakan Weak Structure cluster, untuk jumlah cluster 7 didapatkan Silhouette_score 0.5195882826067241 yang merupakan Weak Structure cluster. Dari 5 jumlah cluster yang diuji yaitu k=3, k=4, k=5, k=6, dan k=7, cluster dengan jumlah tiga memiliki nilai Silhouette_score tertinggi yaitu sebesar 0.5906023241609282 dengan level Medium Structure cluster.

Yang artinya k=3 direkomendasikan untuk mengcluster data titik area yang didapat.

KESIMPULAN

Berdasarkan penelitian yang dilakukan oleh penulis dengan mengamati dan menganalisa sistem pengolahan data yang digunakan serta didukung teori dan alat yang berkaitan dengan penelitian maka dapat diambil kesimpulan sebagai berikut:

1. Dari proses clustering menggunakan beberapa nilai k (banyak cluster) didapatkan hasil cluster yang bervariasi diantaranya yaitu untuk proses clustering dengan tiga cluster didapatkan hasil pengujian menggunakan Silhoutte Coefficent sebesar 0.5906023241609282 yang bisa dikatakan sebagai Medium Structure Cluster begitu juga dengan tujuh cluster sedangkan untuk proses clustering dengan empat cluster, lima cluster dan enam cluster didapatkan hasil pengujian

Jumlah Cluster Silhouette_score Kualitas Cluster

3 0.5906023241609282 Medium Structure Cluster 4 0.44819025637746907 Weak Structure Cluster 5 0.4818257782628804 Weak Structure Cluster 6 0.4865304473709829 Weak Structure Cluster 7 0.5195882826067241 Medium Structure Cluster

(11)

11 menggunakan Silhoutte Coefficient sebesar 0.44819025637746907, 0.4818257782628804 dan 0.4865304473709829 yang bisa dikatakan sebagai Weak Structure Cluster, jadi bisa disimpulkan yang bisa menjadi rekomendasi hasil clustering untuk lokasi area tumpukan daun adalah hasil clustering dengan tiga cluster karena memiliki nilai Silhoutte Coefficient tertinggi.

SARAN

Adapun saran dari penelitian ini adalah sebagai berikut:

1. Dibutuhkan suatu algoritma tambahan untuk menentukan lokasi pasti tempat pembangunan bak sampah daun dari hasil analisa cluster yang dihasilkan, seperti algoritma untuk sistem pendukung keputusan.

2. Penelitian ini dapat dikembangkan dengan algoritma clustering lainnya seperti Fuzzy C-Means, serta dapat juga membandingkan atau mengombinasikan dengan algoritma lain untuk mendapatkan hasil yang lebih baik.

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada Ibu Yanti Andriyani , ST., M.TI., Ph.D yang telah membimbing, memberikan arahan, masukan, dan memotivasi serta membantu penelitian dan penulisan karya ilmiah ini.

DAFTAR PUSTAKA

Fitria Hastuti, N. (2013) Pemanfaatan metode k-means clustering dalam penentuan penerima beasiswa, Skripsi. Universitas Sebelas Maret.

Referensi

Dokumen terkait

yang tinggi dan pembersihan data yang sempurna supaya tidak terjadinya noise.. d) Data perlu menyesuaikan dengan kurikulum yang terbaru. e) Dibuatkan grafik jumlah

hasil yang diperoleh dari metode K-Means yang telah diimplementasikan kedalam Rapid Miner memiliki nilai yang sama yaitu menghasilkan 3 kluster yaitu kluster tidak laku,

Klaster tiga: klaster yang beranggotakan 22 Kabupaten/Kota dimana klaster ini memiliki rata-rata tenaga kesehatan paling rendah dibanding rata-rata variabel pada klaster

Maka hasil yang didapatkan adalah klaster 1 terdapat 8.556 WUS yang memiliki karakteristik berpendidikan tinggi, status ekonomi menengah atas, dan tinggal di perkotaan

Pada tahap ini, sistem yang akan diuji untuk melakukan pengujian dengan dataset sebanyak 30 foto diambil dari performansi jarak yang terbaik yaitu pada keadaan 30 cm outdoor..

Pada penelitian ini, digunakan dataset IPM tahun 2019 di Indonesia untuk dapat dilakukan proses data mining dengan salah satu metode Unsupervised Learning, yaitu clustering yang

Pra proses data mining, meliputi data cleaning pembersihan data yang di dalamnya terdapat atribut kosong maupun tidak lengkap, data integration atau pengubahan data

Bahan penelitian yang digunakan di dalam penelitian ini adalah data event yang telah diselenggarakan oleh beberapa event organizer di Surabaya sebagai dataset, antara lain nama event,