Preprocessing Tranformasi Data Menggunakan K-Means Clustering
Fathoni Dwiatmoko1,Ema Utami2, Sudarmawan3 Universitas AMIKOM Yogyakarta1,2,3
[email protected], [email protected]2, [email protected]3 Abstrak – Perkembangan teknologi informasi telah menjadi hal yang tidak dapat dipisahkan dari kehidupan manusia. Banyaknya jumlah data di dunia menyebabkan pengolahan data menjadi pesat karena jumlah data yang semakin bertambah. Salah satu bidang yang terdapat pertumbuhan data yang pesat adalah bidang pertanian. Data pertanian dapat di proses dengan data mining untuk dapat di jadikan bahan pembelajaran maupun pengambilan keputusan. Pada data mining terdapat berbagai macam teknik salah satunya adalah klasifikasi, dalam klasifikasi terdapat preprocesing data salah satunya yaitu transformasi data, pada data pertanian di perlukan transformasi data numerik menjadi interval untuk itu diperlukan metode clustering yang digunakan untuk mengkategorikan data. K-means clustering merupakan salah satu metode yang dapat mempartisi setiap data sehingga pada setiap cluster memiliki karakteristik data yang sama. Tujuan dari penelitian ini adalah untuk mengkategorikan data dalam proses transformasi data pada data mining. Hasil dari clustering menggunakan k-means clustering didapatkan data cls_0 dengan 50 data dengan kategori ringan, cls_1 dengan 9 data kategori sedang dan cls_2 dengan 13 data dengan kategori berat. Pengujian dilakukan menggunakan data uji sebanyak 72 data dan memiliki tingkat kemiripan data pada cluster sebesar 82,3%.
Kata kunci: K-means Clustering; data mining;
Abstract - The development of information technology has become an inseparable part of human life. The large amount of data in the world causes data processing to be fast because the amount of data is increasing. One of the areas where data is growing rapidly is agriculture. Agricultural data can be processed with data mining to be used as learning materials and decision making. In data mining there is one process, namely data transformation, it is necessary to use a clustering method to categorize data. K-means clustering is a method that can partition each data so that each cluster has the same data characteristics. The purpose of this research is to categorize data in the process of data transformation in data mining. The results of clustering using k-means clustering obtained cls_0 data with 50 data with light categories, cls_1 with 9 moderate data categories and cls_2 with 13 heavy category data with 72 test data and has a data similarity level in clusters of 82.3%.
Keyword : K-means Clustering; Data mining;
1. Latar Belakang
Perkembangan teknologi informasi telah menjadi hal yang tidak dapat dipisahkan dari kehidupan manusia. Banyaknya jumlah data di dunia menyebabkan pengolahan data menjadi pesat karena jumlah data yang semakin bertambah. Salah satu bidang yang memiliki pertumbuhan data yang besar adalah bidang pertanian. Bayaknya data dibidang pertanian seperti data serangan hama, curah hujan, luas tanam, waktu tanam, hasil panen dapat dimanfaatkan untuk melihat masa depan dengan menggunakan data mining. Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu [1]. Terdapat berbagai macam Teknik dalam data mining yang dapat dimanfaatkan untuk mengolah data, diantaranya adalah klasifikasi dan clustering. Teknik klasifikasi dalam data mining dapat dijadikan untuk membantu dalam pengambilan keputusan. Proses klasifikasi
memerlukan beberapa tahapan salah satunya adalah preprocesing. Preprocessing terdapat beberapa tahapan seperti cleansing dan transformasi data. Proses transformasi data yang perlu dilakukan salah satunya adalah mengelompokan data menjadi beberapa kelompok. Tahapan transformasi data memiliki tingkat kesulitan yang tinggi karena merubah data numerik menjadi data interval. Untuk itu diperlukan otomatisasi transformasi data numerik menjadi data interval. Dalam penelitian ini menggunakan metode k-means clustering yang berfungsi mengelompokan data kedalam kelompok tertentu serta dilakukan pengujian menggunakan Davies Bouldin yang dapat memaksimalkan jarak antara cluster yang satu dengan cluster lainnya dan meminimalkan jarak antara objek pada sebuah cluster dengan semakin minimum DBI (Index Davies Bouldien) semakin baik [2].
Berikut ini merupakan penelitian terdahulu yang mendasari pemilihan metode k-means
clustering. penelitian dilakukan oleh Darmansah dan Ni Wayan Wardani yang melakukan penelitian tentang metode k-means clustering untuk menganalisis kerusakan tanaman cabai dengan mengelompokan data jenis hama yang menyerang. Pada penelitian tersebut dilakukan pengujian dengan jumlah data sebanyak 77 maka didapatkan hasil untuk C0 menentukan kerusakan cabai berjenis berat yang terdiri dari 25 data, C1 untuk menentukan kerusakan cabai berjenis ringan sebanyak 3 data, sedangkan C2 untuk menentukan kerusakan cabai yang berjenis ringan [3]. Penelitian lain dilakukan oleh Surya Nagari Stefanny dan Inayati Lilik tentang mengelompokan status gizi anak usia dibawah 60 bulan yang dilakukan dengan metode C-Means Clustering. Hasil pengujian melalui parameter berat badan menurut umur pada klaster 4 yaitu klaster 1 dengan status gizi buruk 23 balita, klaster 2 dengan 17 balita dalam status gizi kurang. Cluster 3 dengan 7 balita status gizi baik dan cluster 4 dengan 10 balita status gizi lebih baik [4]. Berdasakan penelitian tersebut maka akan digunakan metode k-means clustering untuk otomatisasi transformasi data serangan hama kedalam bentuk kategori serangan ringan, sedang dan berat.
2. Kajian Pustaka
Pada penelitian yang dilakukan oleh Darmansah pada penelitian ini menghasilkan 3 cluster yaitu C0 menentukan kerusakan cabai berjenis berat yang terdiri dari 25 data, C1 untuk menentukan kerusakan cabai berjenis ringan sebanyak 3 data, sedangkan C2 untuk menentukan kerusakan cabai yang berjenis sedang terdapat 49 data dengan 77 data pengujian[3]. Pada penelitian yang dilakukan oleh Gustientiedina, Adiya, M. Hasmil, dan Desnelita Yenny menghasilkan kelompok obat dengan pemakaian sedikit terdapat pada cluster 1 yang memiliki 224 anggota, kelompok obat dengan pemakaian sedang terdapat pada cluster 2 yang memiliki 55 anggota, dan kelompok obat dengan pemakaian tinggi terdapat pada cluster 3 yang memiliki 16 anggota [5]. Pada penelitian yang dilakukan oleh Harahap, Baginda pada penelitian ini menghasilkan 3 cluster yaitu cluster sangat laris dengan 24 item, cluster laris dengan 6 item, dan cluster kurang laris terdapat 10 item. Data yang digunakan yaitu jumlah stok barang diambil dari jumlah barang terjual dan jumlah barang tidak terjual. Maka didapat 3 iterasi dengan nilai centroid C0 tidak terjual 21.125,
terjual 62.54166667, nilai centroid C1 tidak terjual 242.166667, terjual 941.1666667 dan centroid C2 tidak terjual 53, terjual 222 [6]. Pada penelitian Parasian D P Silitonga dan Irene Sri Morina melakukan penelitian untuk menemukan pola kecenderungan penyakit berdasarkan kelompok usia pasien. Pada penelitian ini menghasilkan 3 cluster diperoleh: cluster 1 sebesar 46% dengan kategori usia tua, cluster 2 sebesar 26% dengan kategori usia muda dan cluster 3 sebesar 31% dengan kategori usia paruhbaya [7].
3. Metode Penelitian a. Sumber Data
Sumber data pada peneltiaan ini yaitu hasil wawancara dengan petugas POPT diwilayah Kecamatan Batanghari Nuban, data yang didapatkan yaitu data serangan OPT dari tahun 2016 hingga 2018 dengan jumlah data 72 data berformat excel.
b. Metode Penelitian
berikut merupakan langkah analisis data pada penelitian ini yang ditunjukan pada gambar 1.
Gambar 1 langkah penelitian
Pada gambar 1 menunjukan langkah-langkah yang akan dilakukan oleh penelti dengan sebagai berikut: Mulai Koleksi data cleansing data clustering menggunakan K-means clustering evaluasi hasil Kesimpulan Selesai
1. Menyiapkan data serangan hama Hawar Pelapah Putih dengan bentuk data file excel yang didapatkan dari petugas POPT.
2. Melakukan penghapusan data yang kosong.
3. Melakukan pengelompokkan data menggunakan metode k-means clustering untuk menghasilkan automatisasi pengkategorian serangan hama.
4. Mengevalusi hasil clustering menggunakan metode k-means clustering.
5. Menarik kesimpulan dari hasil clustering.
4. Implementasi Sistem dan Hasil a. Implementasi
Pada tahap implementasi ini peneliti menggunakan tool RapidMiner Studio 9.9 dengan metode k-means, pada pengujian peneliti memberi nilai k=3 yang artinya akan dibagi menjadi tiga kategori dari 72 data uji. Berikut gambar 2 yang merupakan desain pada RapidMiner Stuido 9.9, pada K diberikan angka 3, Measure types NumericalMeasure, dan Numerical measure menggunakan EuclideanDistance.
Gambar 2 desain k-means clsutering Pada tahap pengujian performance k-means clustering menggunakan tool rapidMiner Studio 9.9 dengan menggunakan Davies Bouldin. Berikut gambar 3 yang merupakan desain pada RapidMiner Studio 9.9, pada menu main criterion menggunakan davies Bouldin dan ceklis pada normalize dan maximize.
b. Hasil
1. Hasil Transformasi data menggunakan k-means clustering
Hasil dari pengujian transformasi data menggunakan k-means clusetering. Berikut merupakan hasil clustering dengan menggunkan k=3. Berikut hasil dari clustering
data menggunakan k-means clustering dengan k=3 berikut disajikan dalam bentuk tabel. Tabel 1 cls_0 Insitas serangan Tengah bulan Bulan dan tahun cls 0,0 TB1 DESEMBER 2016 cls_0 0,0 TB2 DESEMBER 2016 cls_0 0,0 TB2 MARET 2016 cls_0 0,0 TB1 april 2016 cls_0 0,0 TB2 april 2016 cls_0 0,0 TB1 MEI 2016 cls_0 0,0 TB2 MEI 2016 cls_0 0,0 TB1 AGUSTUS 2016 cls_0 0,0 TB2 AGUSTUS 2016 cls_0 0,0 TB1 september 2016 cls_0 0,0 TB2 OKTOBER 2016 cls_0 0,0 TB1 NOPEMBE R 2016 cls_0 0,0 TB1 JANUARI 2017 cls_0 0,0 TB2 JANUARI 2017 cls_0 0,0 TB1 PEBRUARI 2017 cls_0 0,0 TB2 PEBRUARI 2017 cls_0 0,0 TB1 MARET 2017 cls_0 0,0 TB2 MARET 2017 cls_0 0,0 TB1 JUNI 2017 cls_0 0,0 TB2 JUNI 2017 cls_0 0,0 TB1 JULI 2017 cls_0 0,0 TB2 JULI 2017 cls_0 0,0 TB1 AGUSTUS 2017 cls_0 0,0 TB2 AGUSTUS 2017 cls_0 0,0 TB1 september 2017 cls_0 0,0 TB2 september 2017 cls_0 0,0 TB1 OKTOBER 2017 cls_0 0,0 TB2 OKTOBER 2017 cls_0
0,0 TB1 NOPEMBE R 2017 cls_0 0,0 TB2 NOPEMBE R 2017 cls_0 0,0 TB1 DESEMBER 2018 cls_0 0,0 TB2 DESEMBER 2018 cls_0 0,0 TB1 JANUARI 2018 cls_0 0,0 TB2 JANUARI 2018 cls_0 0,0 TB1 PEBRUARI 2018 cls_0 0,0 TB2 PEBRUARI 2018 cls_0 0,0 TB1 MARET 2018 cls_0 0,0 TB2 MARET 2018 cls_0 0,0 TB1 april 2018 cls_0 0,0 TB2 april 2018 cls_0 0,0 TB1 MEI 2018 cls_0 0,0 TB2 MEI 2018 cls_0 0,0 TB1 JUNI 2018 cls_0 0,0 TB2 JUNI 2018 cls_0 0,0 TB1 JULI 2018 cls_0 0,0 TB2 JULI 2018 cls_0 0,0 TB1 AGUSTUS 2018 cls_0 0,0 TB2 OKTOBER 2018 cls_0 0,0 TB1 NOPEMBE R 2018 cls_0 0,0 TB2 NOPEMBE R 2018 Cls_0 Pada tabel 1 disajikan hasil cls_0 dengan juimlah data 50 dan merupakan kategori ringan. Berikut tabel 2 hasil dari clustering.
Table 2 cls_1 Intesitas serangan Tengah bulan Bulan dan tahun cluste r 3,2 TB1 DESEMBER 2017 cls_1 4,0 TB2 NOPEMBE R 2016 cls_1 4,6 TB2 AGUSTUS 2018 cls_1 4,6 TB2 JANUARI 2016 cls_1 5,1 TB1 april 2017 cls_1 5,1 TB1 JUNI 2016 cls_1 5,1 TB2 DESEMBER 2017 cls_1 5,7 TB1 PEBRUARI 2016 cls_1 5,7 TB1 JULI 2016 cls_1 Pada tabel 2 disajikan data cls_1 terdapat 9 data yang termasuk kategori sedang.
Berikut tabel 3 hasil clustering. Tabel 3 cls_2 Intesitas serangan Tenga h bulan Bulan dan tahun cluste r 8,9 TB2 september 2016 cls_2 9,3 TB1 JANUARI 2016 cls_2 10,8 TB2 april 2017 cls_2 11,1 TB1 september 2018 cls_2 11,1 TB2 september 2018 cls_2 11,1 TB1 OKTOBER 2018 cls_2 11,4 TB2 PEBRUAR I 2016 cls_2 11,4 TB1 MARET 2016 cls_2 11,4 TB2 JUNI 2016 cls_2 11,4 TB2 JULI 2016 cls_2 11,4 TB1 OKTOBER 2016 cls_2 11,4 TB1 MEI 2017 cls_2 11,4 TB2 MEI 2017 cls_2
Pada tabel 3 disajikan data cls_2 terdapat 13 data yang termasuk kategori berat.
2. Pengujian performa k-means clustering menggunakan Davies Bouldin
Hasil pengujian perfoma k-means clustering menggunakan davies bouldin. Berikut tabel 4 merupakan hasil dari performa k-means clustering menggunkan davies bouldin.
Tabel 4 Pengujian performa k-means clustering Rata-rata jarak pada
cls_0
0.000
Rata-rata jarak pada cls_1
0.674 Rata-rata jarak pada
cls_2
0.563
Davies Bouldin 0.172
Pada tabel 4 terdapat nilai rata-rata pada centroid cls_0 yaitu 0,000, nilai rata-rata pada
centroid cls_1 yaitu 0.674, nilai rata-rata pada centroid cls_2 yaitu 0.563 dan pada davies bouldin didapatkan tingkat kemiripan data dalam satu cluster yaitu 0,172 yang berarti setiap cluster memiliki kemiripan data sebesar 82,3%.
5. Kesimpulan
Berdasarkan hasil penelitian yang dilakukan peneliti dalam mentransformasikan data menggunakan metode k-means clustering didapatkan hasil cluster_0 dengan 50 data ketegori ringan, cluster_1 dengan 9 data kategori sedang dan cluster_2 dengan 13 data kategori berat dengan data uji 72 data dan memiliki tingkat kemiripan data pada cluster sebesar 82,3%.
6. Pustaka
[1] Y. Mardi, “Data Mining : Klasifikasi Menggunakan Algoritma C4.5,” Edik Inform., vol. 2, no. 2, pp. 213–219, 2017, doi: 10.22202/ei.2016.v2i2.1465. [2] A. Badruttamam, S. Sudarno, and D. A.
I. Maruddani, “PENERAPAN ANALISIS
KLASTER K-MODES DENGAN
VALIDASI DAVIES BOULDIN INDEX
DALAM MENENTUKAN
KARAKTERISTIK KANAL YOUTUBE DI INDONESIA (Studi Kasus: 250 Kanal YouTube Indonesia Teratas Menurut Socialblade),” J. Gaussian, vol. 9, no. 3, pp. 263–272, 2020, doi: 10.14710/j.gauss.v9i3.28907.
[3] N. W. W. Darmansah, “Analisa Penyebab Kerusakan Tanaman Cabai Menggunakan Metode K-Means,” JATISI (Jurnal Tek. Inform. dan Sist. Informasi), vol. 7, no. 2, pp. 126–134, 2020, doi: 10.35957/jatisi.v7i2.309. [4] S. Surya Nagari and L. Inayati,
“IMPLEMENTATION OF CLUSTERING USING K-MEANS METHOD TO DETERMINE NUTRITIONAL STATUS,” J. Biometrika dan Kependud., vol. 9, no. 1, pp. 62–68, Jun. 2019, doi: 10.20473/jbk.v9i1.2020.62-68.
[5] G. Gustientiedina, M. H. Adiya, and Y. Desnelita, “Penerapan Algoritma K-Means Untuk Clustering Data Obat-Obatan,” J. Nas. Teknol. dan Sist. Inf., vol. 5, no. 1, pp. 17–24, 2019, doi: 10.25077/teknosi.v5i1.2019.17-24. [6] B. Harahap, “Penerapan Algoritma
K-Means Untuk Menentukan Bahan Bangunan Laris (Studi Kasus Pada UD. Toko Bangunan YD Indarung),” pp.
394–403, 2019.
[7] P. M. Silitonga Irene Sri, “Klusterisasi Pola Penyebaran Penyakit Pasien Berdasarkan Usia Pasien Dengan Menggunakan K-Means Clustering,” J. TIMES, vol. VI, no. Vol 6, No 2 (2017), pp. 22–25, 2017, [Online]. Available:
http://ejournal.stmik-time.ac.id/index.php/jurnalTIMES/articl e/view/584.