ANALISIS EVALUASI PERHITUNGAN JARAK TERHADAP NILAI SILHOUETTE COEFFICIENT PADA
ALGORITMA K-MEANS
TESIS
KARTIKA SARI 187038021
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN
2020
ANALISIS EVALUASI PERHITUNGAN JARAK TERHADAP NILAI SILHOUETTE COEFFICIENT PADA
ALGORITMA K-MEANS
TESIS
Diajukanuntukmelengkapitugasdanmemenuhisyaratmemperolehijazah Magister Teknik Informatika
KARTIKA SARI 187038021
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA MEDAN
2020
ii
PERSETUJUAN
Judul Tesis : ANALISIS EVALUASI PERHITUNGAN JARAK
TERHADAP NILAI SILHOUETTE COEFFICIENT PADA ALGORITMAK-MEANS
Kategori : TESIS
Nama Mahasiswa : KARTIKA SARI Nomor Induk Mahasiswa : 187038021
Program Studi : MAGISTER TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 1
Pembimbing 2
PERNYATAAN ORISINALITAS
ANALISIS EVALUASI PERHITUNGAN JARAK TERHADAP NILAI SILHOUETTE COEFFICIENT PADA
ALGORITMA K-MEANS TESIS
Dengan ini saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juli 2020
KARTIKA SARI 187038021
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan dibawah ini:
Nama : KARTIKA SARI
NIM : 187038021
Program Studi : Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas Tesis saya yang berjudul:
ANALISIS EVALUASI PERHITUNGAN JARAK TERHADAP NILAI SILHOUETTE COEFFICIENT PADA
ALGORITMA K-MEANS
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, Juli 2020
KARTIKA SARI 187038021
Telah diuji pada
Tanggal: 26 Juni 2020
PANITIA PENGUJI TESIS
Ketua : 1. Dr.Syahril Efendi, S.Si. M.IT Anggota : 2. Dr. Sawaluddin, M. IT
3. Prof.Dr. Muhammad Zarlis
4. Prof. Dr. Herman Mawengkang
vi
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap : KARTIKA SARI
Tempat dan Tanggal Lahir : Medan, 27 April 1987
Alamat Rumah : Jl.Camar 2 No. 169 Perumnas Mandala Medan
Handphone : 082161018598
E-mail : [email protected]
Instansi Tempat Bekerja : BPBD MADINA
Alamat Kantor : Jln. Willem Iskandar No.11 Panyabungan Kabupaten.Mandailing Natal
DATA PENDIDIKAN
TK : TK. ABANG MELATI MEDAN TAMAT : 1993
SD : SD MUHAMMADDYAH 30 MEDAN TAMAT : 1999
SMP : SMP NEGERI 13 MEDAN TAMAT : 2002
SMA : SMA KEMALA BHAYANGKARI 1 MEDAN TAMAT : 2005
S1 : STMIK TIME MEDAN TAMAT : 2013
S2 : TEKNIK INFORMATIKA USU TAMAT : 2020
UCAPAN TERIMA KASIH
Alhamdulillahirobbil’alamin, puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, yang telah melimpahkan segala karunia, rahmat dan hidayah-Nya karena dengan seizin-Nyalah penulis, dapat menyelesaikan penyusunan tesis ini dengan judul “ANALISIS EVALUASI PERHITUNGAN JARAK TERHADAP NILAI SILHOUETTE COEFFICIENT PADA ALGORITMA K-MEANS” dapat diselesaikan dengan baik.
Tesis ini merupakan syarat untuk menyelesaikan studi pada jenjang magister (S2) yang dalam penyusunannya tidak terlepas dari dukungan berbagai pihak, baik secara moril maupun materil. Pada kesempatan ini, saya menyampaikan rasa terima kasih yang sebesar-besarnya kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., selaku Rektor Universitas Sumatera Utara Medan;
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
3. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, selaku Ketua Program Studi S2 Teknik Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
4. Bapak Dr. Syahril Efendi, S.Si, M.IT, sebagai Dosen Pembimbing I yang telah memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
5. Bapak Dr. Sawalluddin, M.IT, sebagai Dosen Pembimbing II yang telah memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
6. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, Dosen Pembanding/Penguji I yang telah memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini;
7. Bapak Prof. Dr. Herman Mawengkang, selaku Dosen Pembanding/Penguji II yang telah memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini;
8. Penulis mengucapkan rasa terima kasih sedalam-dalamnya kepada orang tua penulis tercinta dan tersayang, Ibu Hj. Rosdeli dan bapak Alm. H. Suhaimi yang telah memberikan perhatian, pengertian, kasih sayang, motivasi serta dukungan berupa material dan spiritual kepada penulis.
viii
9. Teman-teman seangkatan di MTI-Kom-A-2018 yang telah bersama-sama menempuh pendidikan pada Program Studi S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
Penulis juga meyampaikan rasa terima kasih kepada seluruh keluarga Besar Penulis dan berbagai pihak yang telah banyak membantu, memberikan motivasi, perhatian serta dukungan kepada penulis.Terimakasih Kepada Kepala BPBD Madina dan semua atasan Penulis dan semua teman-teman Kantor penulis yang selama mendukung penulis hingga lulus S2 sekali lagi terima kasih untuk kekompakan, keakraban, dan kerjasama selama ini.Penulis pasti sangat merindukan kalian. Tetap Semangat !!!
Penulis menyadari bahwa masih terdapat kekurangan dalam penyusunan tesis ini.Oleh karena itu, penulis mengharapkan kritik dan saran dari pembaca demi kesempurnaan penelitian selanjutnya.
Akhir kata, penulis berharap semoga tesis ini dapat dikembangkan lagi menjadi lebih baik dan bermanfaat bagi semua pihak khususnya dalam dunia pendidikan dan teknologi.
Medan, Juli 2020
KARTIKA SARI 187038021
ABSTRAK
Pada penelitian ini dilakukan analisis evaluasi perhitungan jarak terhadap nilai Silhouette Coefficient pada algoritma K-Means dengan perhitungan jarak data terhadap centroid dengan menggunakan empat metode perhitungan yaitu Euclidean distance, minkowski distance,jaccard serta cosine distance serta menghitung nilai silhouette coefficient untuk setiap metode perhitungan jarak tersebut. Jumlah cluster yang digunakan pada penelitian ini adalah sebanyak 6 cluster sesuai dengan jumlah kualitas wine yaitu klas 3, 4, 5, 6, 7 dan 8. Berdasarkan hasil analisis dan pengujian terhadap clustering dataset menggunakan metode K-Means Clustering dengan 4 jenis distance measure dapat disimpulkan bahwa untuk dataset Wine Quality nilai Silhouette Coefficient Clustering adalah sebagai berikut untuk Euclidean Distance sebesar 0.7721, Minkowski Distance sebesar 0.3306, Jaccard Distance sebesar 0.5095 dan Cosine Distance sebesar 0.4992. Sedangkan untuk dataset Pima Indian adalah nilai Silhouette Coefficient Clustering adalah sebagai berikut untuk Euclidean Distance sebesar 0.6317, Minkowski Distance sebesar 0.5734, Jaccard Distance sebesar 0.4997 dan Cosine Distance sebesar 0.5059.
Kata Kunci: Data Mining, Clustering,Silhouette Coefficient.
x
ABSTRACT
ANALYSIS OF THE EVALUATION OF DISTANCE CALCULATION OF SILHOUETTE COEFFICIENT VALUE IN K-MEANS ALGORITHM
In this study the analysis of the effect of distance calculation on the value of the Silhouette Coefficient on the K-Means algorithm with the calculation of the distance data to centroid using four methods of calculation are Euclidean distance, minkowski distance, jaccard and cosine distance and calculate the value of silhouette coefficient for each distance calculation method . The number of clusters used in this study is as many as 6 clusters in accordance with the amount of wine quality, namely classes 3, 4, 5, 6, 7 and 8. Based on the results of the analysis and testing of clustering datasets using the K-Means Clustering method with 4 types of distance measure can concluded that for the Wine Quality dataset Silhouette Coefficient Clustering values are as follows for Euclidean Distance of 0.7721, Minkowski Distance of 0.3306, Jaccard Distance of 0.5095 and Cosine Distance of 0.4992. Whereas for the Pima Indian dataset the Silhouette Coefficient Clustering values are as follows for Euclidean Distance of 0.6317, Minkowski Distance of 0.5734, Jaccard Distance of 0.4997 and Cosine Distance of 0.5059.
Keywords: Data Mining, Clustering, Silhouette Coefficient.
DAFTAR ISI
Halaman
LEMBAR PERSETUJUAN ... ii
LEMBAR PERNYATAAN ORISINALITAS ... iii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ... iv
LEMBAR PANITIA PENGUJI TESIS ... v
RIWAYAT HIDUP ... vi
UCAPAN TERIMA KASIH ... vii
ABSTRAK ... viii
ABSTRACT ... ix
DAFTAR ISI ... x
DAFTAR TABEL ... xiii
DAFTAR GAMBAR ... xiv
BAB 1 : PENDAHULUAN 1.1 Latar Belakang Masalah ... 1
1.2 Perumusan Masalah ... 2
1.3 Batasan Masalah ... 2
1.4 Tujuan Penelitian ... 3
1.5 Manfaat Penelitian ... 3
1.6 Penelitian Terkait ... 4
BAB 2 : TINJAUAN PUSTAKA 2.1 Pengertian Data ... 4
2.1.1 Jenis Data Berdasarkan Sifatnya ... 4
2.1.2 Jenis Data Menurut Sumbernya ... 6
2.1.3 Jenis Data Menurut Cara Memperolehnya ... 6
2.1.4 Jenis Data Menurut Waktu Pengumpulannya ... 6
2.2 Menambang Data (Data Mining) ... 7
2.3 Clustering ... 9
xii
2.4 Algoritma K-Means ... 12
2.5 Silhoutte Coefficient ... 13
2.6 Distance Measure ... 14
2.6.1 Euclidean distance ... 15
2.6.2 Minkowski distance ... 15
2.6.3 Jaccard distance ... 16
2.6.4 Cosine distance ... 16
BAB 3 : METODOLOGI PENELITIAN 3.1 Pengumpulan Data ... 17
3.2 Analisa Data ... 18
3.3 Metode Analisis Data ... 18
3.3.1 Data Yang Digunakan ... 19
3.3.2 Bagan Penelitian ... 19
3.4 Normalisasi Dataset ... 20
3.5 Algoritma K-Means Clustering ... 22
3.5.1 Clustering dengan Distance Measure Euclidean Distance ... 22
3.5.2 Perhitungan silhouette coefficient Euclidean Distance ... 26
3.6 Clustering dengan Distance Measure Euclidean Distance ... 29
3.7 Perhitungan Silhouette Coefficient Metode Jarak Minkowski Distance ... 33
3.8 Clustering dengan Distance Measure Jaccard Distance ... 36
3.9 Perhitungan Silhouette Coefficient Metode Jarak Jaccard Distance ... 38
3.10 Clustering dengan Distance Measure CosineDistance .... 41
3.11 Perhitungan silhouette coefficient Cosine Distance ... 45
3.12 Clustering dengan Distance Measure Cosine Distance ... 30
3.13 Perhitungan Silhouette coefficient Cosine Distance ... 31
BAB 4 : HASIL DAN PEMBAHASAN
4.1 Hasil ... 54 4.1.1 Langkah-Langkah Clustering ... 54 4.1.2 Clustering K-Means metode Euclidean Distance .. 55 4.1.3 Perhitungan Jarak Data dengan Centroid dengan
Metode Eucludian Distance ... 56 4.1.4 Clustering K-Means metode Minkowski Distance 57 4.1.5 Clustering K-Means metode Jaccard Distance ... 58 4.1.6 Clustering K-Means metode Cosine Distance ... 59 4.1.7 Hasil Perhitungan Silhouette Coefficient Dataset
Winequality ... 60 4.1.8 Hasil Perhitungan Silhouette Coefficient Dataset
PimaIndian ... 63 4.2 Pembahasan ... 71
BAB 5 : KESIMPULAN DAN SARAN
5.1 Kesimpulan ... 72 5.2 Saran ... 72
DAFTAR PUSTAKA ...
xiv
DAFTAR TABEL
Halaman
Tabel 3.1 Wine Quality ... 18
Tabel 3.2 Nilai Atribut Maksimum dan Minimum ... 20
Table 3.3 Dataset Hasil Normalisasi ... 21
Tabel 3.4 Hasil Perhitungan Jarak Euclidean Distance ... 25
Tabel 3.5 Hasil Clustering Euclidean Distance ... 26
Tabel 3.6 Nilai a(i) Hasil Clustering Euclidean Distance ... 27
Tabel 3.7 Nilai Silhoutte CoeffisienS(i) Hasil Clustering Euclidean Distance ... 29
Tabel 3.8 Hasil Perhitungan Jarak Minkowski Distance ... 33
Tabel 3.9 Nilai a(i) Hasil Clustering Minkowski Distance ... 34
Tabel 3.10 Nilai Silhoutte CoeffisienS (i) Hasil Clustering Minkowski Distance ... 35
Tabel 3.11 Hasil Perhitungan Jarak Jaccard Distance ... 38
Tabel 3.12 Nilai a(i) Hasil Clustering Jaccard Distance ... 39
Tabel 3.13 Nilai Silhoutte CoeffisienS(i) Hasil Clustering Jaccard Distance ... 40
Tabel 3.14 Hasil Perhitungan Jarak Cosine Distance ... 43
Tabel 3.15 Nilai a(i) Hasil Clustering Cosine Distance ... 45
Tabel 3.16 Nilai Silhoutte CoeffisienS(i) Hasil Clustering Cosine Distance ... 46
Tabel 4.1 Hasil Clustering Wine Quality ... 47
Tabel 4.2 Jarak Rata-rata ... 57
Tabel 4.3 Hasil Silhouette Coefficient Masing-masing Metode Jarak WineQuality ... 61
Tabel 4.4 Nilai Silhouette Coefficient Dataset Wine Quality ... 62
Tabel 4.5 Hasil Silhouette Coefficient Dataset Wine Quality ... 63
Tabel 4.6 Dataset PimaIndian ... 64
Tabel 4.7 Hasil Silhouette Coefficient Masing-masing Metode Jarak Dataset Pima Indian ... 69 Tabel 4.8 Nilai Silhouette Coefficient Dataset Pima Indian ... 70 Tabel 4.9 Hasil Silhouette Coefficient Dataset Pima Indian ... 71
xvi
DAFTAR GAMBAR
Gambar 2.1 Contoh Proses Clustering ... 11
Gambar 3.1 Bagan Penelitian ... 19
Gambar 4.1 Data Fixed Acidity ... 48
Gambar 4.2 Data Volatile Acidity ... 49
Gambar 4.3 Data Citric Acid ... 49
Gambar 4.4 Data Residual Sugar ... 50
Gambar 4.5 Data Chlorides ... 50
Gambar 4.6 Data Free Sulfur Dioxide ... 51
Gambar 4.7 Data Total Sulfur Dioxide ... 51
Gambar 4.8 Data Density ... 52
Gambar 4.9 Data pH ... 52
Gambar 4.10 Data Sulphates ... 53
Gambar 4.11 Data Alcohol ... 53
Gambar 4.12 Hasil K-Means Clustering Dengan Metode EuclideanDistance ... 56
Gambar 4.13 Hasil K-Means Clustering Dengan Metode Minkowski Distance ... 58
Gambar 4.14 Hasil K-Means Clustering Dengan Metode Jaccard Distance ... 59
Gambar 4.15 Hasil K-Means Clustering Dengan Metode CosineDistance ... 60
Gambar 4.16 Grafik Nilai Perbandingan Silhouette Coefficient Dataset Wine Quality ... 62
Gambar 4.17 Sebaran Data Pregnats ... 65
Gambar 4.18 Sebaran Data Glucose ... 65
Gambar 4.19 Sebaran Data Presure ... 66
Gambar 4.20 Sebaran Data Thickness ... 66
Gambar 4.21 Sebaran Data Insulin ... 67
Gambar 4.22 Sebaran Data BMI ... 67
Gambar 4.23 Sebaran Data Function ... 68
Gambar 4.24 Sebaran Data Age ... 68 Gambar 4.25 Grafik Nilai Perbandingan Silhouette Coefficient
Dataset Pima Indian ... 70
xviii
DAFTAR LAMPIRAN
Halaman Listing Program ...
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Data Mining adalah suatu proses yang bertujuan menemukan pola atau kecendrungan data dari sejumlah data yang besar. Sebagai sebuah proses penemuan pengetahuan, biasanya melibatkan pembersihan data, integrasi data, pemilihan data, transformasi data, penemuan pola, evaluasi pola dan presentasi pengetahuan (Jiawei et al, 2012).
Salah satu metode data mining adalah metode pengelompokan atau clustering.
Clustering adalah proses pengelompokan objek data menjadi beberapa cluster yang terpisah sehingga data yang adadi dalam masing-masing cluster tersebut menjadi sebuah kelompok data yang memiliki kemiripan yang relatif sama. Cluster adalah kumpulan objek data yang karakteristiknya sama satu sama lain yang ada di dalam cluster yang sama dan data tersebut memiliki karakteristik yang berbeda dengan objek data yang ada di cluster yang lain.
K-Means adalah salah satu teknik clustering yang paling tua dan yang paling banyak dipakai sampai sekarang. Jumlah cluster (k) telah ditentukan sebelumnya, kemudian menentukan centroid awal secara acak dan diikuti dengan proses iterasi untuk menentukan jarak dari setiap titik data ke centroid terdekatnya. Perulangan tersebut diulang-ulang sehingga tidak ada anggota cluster yang berpindah ke cluster lain (Unnati & Chaita, 2016). Algoritma K-Means bekerja dalam rentang waktu yang relatif cepat dan mudah untuk diimplementasikan, namun algoritma K-Means juga memiliki kelemahan, yang salah satunya adalah pada perhitungan jarak data terhadap centroid atau titik pusat cluster.
Perhitungan jarak data terhadap centroid memiliki pengaruh besar untuk mendapatkan nilai centroid yang lebih baik pada iterasi yang selanjutnya. Lazimnya perhitungan jarak data terhadap centroid dilakukan dengan menggunakan rumus Euclidean Distance.
2
Rishikesh dan Shubha (2016), membahas metode yang digunakan untuk menghitung jarak data terhadap centroid pada algoritma K-Means menggunakan Euclidean Distance. Dari penelitian tersebut, diperoleh hasil akurasi sebesar 8% lebih baik dibandingkan dengan menggunakan metode K-Means yang biasa. Sedangkan Qiang Zhan (2017), di dalam penelitiannya menggunakan metode Minkowski Distance. Hasil dari penelitian tersebut didapatkan peningkatan efektifitas untuk performa clustering untuk data yang tidak seimbang. Untuk menghitung jarak antara data terhadap centroid dapat dilakukan menggunakan metode Euclidean Distance, Manhattan Distance dan Minkowski Distance untuk memperoleh hasil yang lebih baik.(Rashmi et al, 2017)
Singh, Archana (2013) meneliti pengaruh tiga distance metric, yaitu Euclidean distance, Minkowski distance, dan Manhattan distance. Dari hasil pengujian didapat Euclidean distance memberikan hasil yang terbaik sedangkan manhattan distance memberikan hasil clustering terburuk danuntuk memperoleh informasi kedekatan hubungan antar objek dalam sebuah cluster dan sejauh mana sebuah cluster terpisah dengan cluster lainnya, maka dilakukanlah sebuah pengujian model.
Bora et al(2014) meneliti pengaruh empat distance measure, yaitu Euclidean Distance, Manhattan Distance, Cosine dan Pearson Correlation terhadap perfomansi algoritma K-Means dengan menggunakan evaluasi silhouette coefficient. Untuk waktu komputasi Manhattan Distance menunjukkan performansi yang lebih baik untuk pengujian pada dataset irish dan wine sebaliknya cosine memperlihatkan waktu komputasi tertinggi diantara lainnya.Namun, dari hasil silhouette coefficient plots dari cluster, hasil pengukuran untuk correlation distance menunjukkan hasil yang lebih baik untuk interpretasi cluster.
Padapenelitian Anggara (2016) menggunakan pengujian Silhouette Coefficient untuk mengukur nilai distance measure yang optimal, diantara Euclidean Distance, Manhattan Distance, dan Chebyshev Distance dimana distance measure yang terbaik pada kasus ini adalah Chebyshev Distance yang nilai silhouette coefficient-nyalebih mendekati 1 yaitu 0.242821.
Untuk membuktikan bahwa adanya pengaruh distance measure terhadap perbaikan cluster, maka penulis mengambil judul penelitian ini “Analisis Evaluasi Perhitungan Jarak Terhadap Nilai Silhouette Coefficient Pada Algoritma K-Means”.
1.2. Rumusan Masalah
Hasil proses clustering akan berbeda-beda apabila distance measure yang digunakan berbeda, sehingga diperlukan evaluasi clustering untuk mendapatkan nilai distance measure yang baik dan sesuai untuk clustering dengan menggunakan algoritma K- Means.
1.3. Batasan Masalah
Adapun pembatasan masalah yang ada pada penelitian ini adalah:
1. Dataset yang digunakan dalam penelitian ini yaitu 2 dataset dari UCI Machine Learning Repository yaitu Wine Quality dan Diabetic Pima Indian.
2. Evaluasi hasil clustering menggunakan silhouette coefficient.
3. Penulis menggunakan empat distance measure sebagai perbandingan yaitu Euclidean distance, minkowski distance, jaccard serta cosine distance.
1.4. Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah untuk menemukan metode perhitungan jarak pada clustering yang lebih tepat pada algoritma K-Means dengan melakukan perbandingan empat metode perhitungan jarak diatas serta mengevaluasinya menggunakan Silhouette Coefficient apakah keempat metode perhitungan jarak diatas dapat menghasilkan nilai Silhouette Coefficient dengan kategori cluster strong, medium, weak ataupun no structure.
1.5. Manfaat Penelitian
Adapun manfaat dari penelitian ini adalah untuk mengetahui seberapa besar peningkatan nilai silhouette coeeficient yang diperoleh dari perhitungan jarak data terhadap centroid menggunakan Euclidean distance, Minkowski distance, Jaccard serta Cosine. Sehingga dapat memberikan masukan dalam ilmu pengetahuan untuk penelitian selanjutnya dalam pengembangan metode algoritma K-Means.
4
1.6. Penelitian Terkait
Adapun penelitian terkait adalah sebagai berikut:
1. Pada penelitian Anggara et al (2016) dilakukan pemilihan distance measure pada proses K-Means Clustering dalam pengelompokkan member di Alvaro Fitness.
Hasil percobaan Hasil pengujian Silhouette Coefficient setiap distance measure nya, antara lain Euclidean Distance bernilai 0,232149, Manhattan Distance bernilai 0,240016, dan Chebyshev Distance bernilai 0.242821. Berdasarkan hasil dari pengujian silhouette coefficient yang dilakukan, distance measure paling optimal untuk kasus ini adalah Chebyshev Distance, yaitu dengan nilai silhouette coefficient paling mendekati 1 adalah 0.242821.
2. Pada penelitian Azuri & Pontoh (2016) dilakukan pengelompokkan kabupaten/kota di pulau Jawa berdasarkan pembangunan manusia berbasis gender menggunakan bisecting K-Meansi. Pada penelitian ini digunakan Bisecting K- means untuk pengelompokkan Kabupaten/Kota di Pulau Jawa. Dari penelitian didapatkan 3 klaster yang terbentuk baik pada laki-laki ataupun perempuan. Pada klaster laki-laki, klaster 1 beranggotakan 32 Kabupaten/Kota, anggota pada klaster 2 yaitu 43 Kabupaten/Kota, dan klaster 3 terdapat 44 Kabupaten/Kota.
Nilai silhouette coefficient pada klaster laki-laki yaitu 0,3. Sedangkan pada klaster perempuan yaitu dimana pada klaster 1 beranggotakan 42 Kabupaten/Kota, anggota pada klaster 2 yaitu 42 Kabupaten/Kota, dan klaster 3 terdapat 35 Kabupaten/Kota. Nilai silhouette coefficient pada klaster perempuan yaitu 0,26.
Baik pada klaster perempuan ataupun laki-laki, klaster yang terbentuk masih tergolong lemah.
3. Pada penelitian Paramartha et al (2017) dilakukan analisis perbandingan metode K-Means dengan Improved Semi-Supervised K-Means untuk mengindeks pembangunan Manusia. Pengujian metode improved semi-supervised k-means memberikan rata-rata akurasi sebesar 90.3%, lebih baik dari metode k-means yang memberikan nilai akurasi 73.7%. Pengujian kedua, metode improved semi- supervised k-means menghasilkan nilai rata-rata waktu untuk satu kali konvergen 1222.9959 detik, lebih baik dari k-means dengan rata-rata 1504.75 detik.
Pengujian ketiga, metode improved semi-supervised k-means menghasilkan rata- rata jumlah iterasi untuk satu kali konvergen yang lebih efisien dari algoritma k- means dengan jumlah iterasi 7.11 berbanding 9.72. Terakhir pada pengujian
kualitas klaster dengan metode silhouette coefficient, metode improved semi- supervised k-means memberikan rata-rata nilai 0.69880, lebih baik dari k-means tradisional dengan rata-rata nilai 0.62734.
BAB 2
LANDASAN TEORI
2.1 Pengertian Data
Pengertian data yang terdapat pada pustaka Webster’s New World’s adalah something known or assumed yang berarti datum dalam bentuk tunggal yaitu data merupakan sesuatu yang diketahui atau dianggap ada, maka data dapat memberikan representasi tentang sebuah kondisi ataupun masalah. Menurut pustaka Oxford Dictionary, data adalah sebuah the Facts. Jadi kesimpulannya bahwa data adalah sesuatu yang benar- benar ada diketahui atau yang dianggap yang dipergunakan untuk kegunaan suatu analisis, diskusi, presentasi ilmiah maupun uji statistika. Adapun data dapat dibagi menjadi 4 jenis yaitu: (Madni et al, 2017).
2.1.1 Menurut Sifatnya
Adapun data menurut sifatnya terbagi menjadi dua jenis, yaitu data kualitatif atau data non-metrik serta data kuantitatif yang dikenal dengan data metrik. Selanjutnya jenis data kualitatif terdiri dari data nominal dan data ordinal, sedangkan jenis data kuantitatif terdiri dari dua jenis yaitu data interval serta data rasio (Mulyati, 2015).
a. Data Kualitatif
Data kualitatif yaitu data yang bukan berupa angka atau numerik dimana ciri-cirinya didapat dengan menghitung dan tidak memiliki nilai desimal. Data jenis ini tidak dapat melakukan operasi matematika yaitu dengan penambahan, pengurangan, perkalian ataupun pembagian. Adapun contoh data jenis ini adalah jenis kelamin, golongan darah, tempat tinggal atau pekerjaan. Data kualitatif agar dapat melakukan operasi matematika, maka data dirubah kedalam bentuk numerik atau angka dimana proses ini dinamakan kategorisasi. Data kualitatif ini terdiri dari dua jenis, yaitu data Nominal dan Ordinal (Santoso, 2010).
Data Nominal digunakan untuk mengidentifikasi, mengklasifikasi ataupun membedakan objek, dimana jenis data ini adalah data yang paling rendah dalam tingkat pengukuran. Semua data mempunyai posisi setara,yaitu tidak ada data yang mempunyai tingkat yang lebih atau kurang jika dibandingkan dengan data lainnya.
Selain itu data nominal tidak mempunyai nilai jarak, urutan ataupun titik origin (Sowmya & Suneetha, 2017).
Jenis data Ordinal adalah jenis data kualitatif tetapi mempunyai tingkat yang diatas data nominal. Jenis data ini memiliki karakter nominal tapi berbeda dalam derajatnya, urutan maupun ranking pada sebuah objek atau letak data yang tak setara (Sowmya & Suneetha, 2017).
b. Data Kuantitatif
Data Kuantitatif adalah data berupa data numerik atau angka, jadi semua operasi matematika dapat dilakukan pada data ini. Jenis data ini diperoleh dengan cara pengukuran jadi memiliki nilai desimal. Sebagai contoh adalah tinggi badan manusia, umur, berat, jumlah penjualan dan lain sebagainya dimana sebagai contohnya adalah berat kotor badan seseorang adalah 60 kg atau lebih. Jenis data kuantitatif terdiri dari dua yaitu data interval serta data rasio (Santoso, 2010).
Jenis data interval mempunyai tingkat pengukuran data yang tertinggi dari pada data Ordinal karena data Ordinal dapat memiliki tingkatan urutan, maka urutan tersebut juga dapat dikuantitatifkan serta mempunyai indikator jarak. Sebagai contohnya pengukuran suhu ruangan dimana selang suhu ruang tersebut adalah:
a. Dikatakan cukup panas jika suhu diantara 50 0C – 80 0C.
b. Dikatakan panas jika suhudiantara 80 0C – 110 0C.
c. Dikatakan sangat panas jika suhu diantara 110 0C – 140 0C.
Padakondisi di atas, data suhudapat disebut data interval karena mempunyai jarak (range) tertentu, yaitu 140 oC. Data rasio adalah data yang memiliki tingkat pengukuran yang paling tinggi diantara semua jenis data lainnya. Data rasio merupakan data berupa numerik atau angka, bukan merupakan kategori seperti data nominal ataupun ordinal sehinggga dapat dilakukan operasi matematis tambah, kurang, kali dan bagi. Perbedaan dengan data interval adalah data rasio memiliki indikator titik asal yang tetap (absolute), sebagai contoh adalah jumlah barang atau produk, jika jumlah barang 0 (nol) ini berarti tidak ada barang yang ada. Contoh lain adalah jarak antar kota atau kedalaman dasar lautan dimana pengukurannya dapat
8
bernilai 0 (nol) yang sebenar, misalnya jika suhu tubuh 37 o C ini berarti suhu orang sehat.
2.1.2 Menurut Sumbernya
Data menurut sumbernya dibagi menurut jenisnya menurut sumber diperolehnya yaitu data internal dan eksternal (Ong, 2013). Adapun data internal ialah informasi yang dikumpulkan oleh sebuah organisasi untuk keperluan menampilkan kondisi tertentu ataupun aktifitas organisasi tersebut serta berfungsi juga untuk agenda kegiatan harian dan pengawasan kedalam perusahaan. Misalnya transaksi rekening, pengiriman barang atau jasa, jam kerja karyawan perkebunan atau biaya pengeluaran, laporan laba rugi perusahaan, personalia dan lain sebagainya.
Jenis data eksternal merupakan informasi yang dipadukan yang berfungsi untuk merepresentasikan suatu kondisi atau aktifitas diluar perusahaan tersebut. Adapun contoh dari data eksternal adalah jumlah sensus penduduk serta informasi statistik pendapatan nasional yang diperoleh dari kantor pusat badan statistik nasional. Sebuah perusahaan sangat membutuhkan data eksternal antara lain pendapatan bersih penduduk yang berfungsi dapat meramalkan daya beli masyarakat agar dapat mengalokasikan produksinya, dimana data pendapatan nasional diperlukan untuk menetapkan nilai atau tingkatan daya beli masyarakat umum sebagai informasi sebagai dasar penetapan tingkat harga produksi barang tertentu.
2.1.3 Menurut Cara Perolehannya
Jenis data menurut cara perolehannya dimasukkan kedalam dua jenis data yaitu data primer dan sekunder (Ong, 2013). Jenis data primer adalah informasi yang diakumulasikan dan diproses sendiri oleh sebuah institusi atau perusahaan ataupun perorangan secara langsung yang bersumber dari objeknya. Sebagai contohnya sebuah institusi ingin mendapatkan informasi mengenai rata-rata pemakaian sebuah barang tertentu pada sebuah area penduduk atau masyarakat dengan proses tanya jawab atau wawancara pada penduduk pada area tersebut. Adapun data sekunder didapatkan dalam keadaan jadi serta telah siap pakai oleh penduduk atau masyarakat yang mana umumnya data ini tersedia dalam bentuk publikasi.
2.1.4 Menurut Waktu Pengumpulan
Jenis data ini dapat dimasukkan kedalam dua jenis data yaitu data cross section dan data time series atau berkala (Ong, 2013). Adapun data cross section adalah informasi yang dikelompokkan untuk waktu tertentu, dimana data tersebut biasanya mengandung informasi yang merepresentasikan situasi atau aktifitas pada jenjang waktu tersebut. Seperti informasi laporan laba rugi tahun bulan Mei 2018 adalah informasi pendapatan dan pengeluaran pada sebuah perusahaan pada periode bulan Mei tahun 2018 dan lainnya.
Data time series adalah informasi yang dikoleksi dari hari ke hari, bulan ke bulan maupun tahun ke tahun yang bertujuan untuk mempresentasikan perkembangan suatu aktifitas umpamanya jumlah produksi kelapa sawit dalam ton pada perusahaan perkebunan selama sepuluh tahun terakhir yang diambil per bulan, kondisi curah hujan dan harga per ton sawit selama setahun atau sepuluh tahun terakhir dan lain sebagainya dimana data disebut juga dengan data historis.
2.2 Menambang Data (Data Mining)
Pada masa sekarang ini, informasi menjadi sumber daya yang memegang pengaruh penting dalam berbagai hal. Banyak organisasi yang telah mengumpulkan dan menyimpan data yang berskala besar. Namun, sebagian dari organisasi tersebut tidak mendapatkan adanya informasi berharga yang tersembunyi dari banyaknya data tersebut, sehingga organisasi-organisasi tersebut memilih untuk menggunakan teknologi informasi untuk memanajemen data-data yang telah tertimbun. Pada dasarnya data mining adalah proses yang menggunakan alat (tools) untuk mengekstraksi atau menggali informasi-informasi yang berguna dari dataset yang besar; data mining adalah sebuah proses untuk menggali informasi di dalam database yang menghasilkan sesuatu yang berguna dari data tersebut. (Tipawan & Kulthida, 2017).
Banyak nama yang umumnya digunakan pada penyebutan data mining seperti knowledge extraction (KE), Knowledge discovery in databases (KDD), data dredging, data/pattern analysis, business intelligence (BI) dan data archaeology (Hermawati, 2009). Satu diantara banyak kemampuan pada data mining yang merupakan andalan yaitu menemukan informasi berupa transaksi keuangan yang
10
berharga pada database yang sangat banyak dan beberapa fungsi dari teknik data mining ini dipakai untuk keperluan:
1. Meramalkan kecendrungan dan juga sifat-sifat dari transaksi bisnis, dimana data mining dapat mengotomatiskan proses mendapatkan data dan informasi serta meramalkan pola-pola transaksi di dalam kumpulan data yang besar.
2. Kemampuannya untuk melihat pola-pola yang kasat mata, yang mana data mining melihat sampai pada semua informasi yang dimiliki institusi atau perusahaan pada sumber data dan selanjutnya mengidentifikasi semua pola- pola yang sebelumnya tidak ditemukan pada satu kali pencarian.
3. Data mining dapat juga berfungsi untuk membantu pembuatan keputusan dengan cepat pada saat terjadi kritis yang terutama penetapan sebuah strategi perusahaan.
Adapun beberapa pengertian data mining sebagai berikut:
1. Data mining merupakan pekerjaan untuk mencari tahu sebuah informasi yang berarti dari sebuah kecendrungan dan kondisi rutin yang teracak, dimana proses data mining adalah menseleksi pola-pola dan kecendrungan yang ada dengan memilah-milah data yang mempunyai ukuran luas yang ada dalam basisdata, memakai teknologi identifikasi poladan teknik matematis serta statistika.
2. Data mining merupakan kumpulan dari proses-proses yang mengambil kembali atau menggali ilmu yang diperlukan bagi institusi maupun perusahaan.
3. Data mining adalah sebuah pekerjaan menganalisa ataupun memperhatihan data dari kumpulan data untuk menemukan kembali informasi hubungan yang tidak diduga yang berguna untuk meringkas atau merangkum data agar dimengerti dan berguna bagi pemiliknya.
Beberapa contoh dari data mining dimana aplikasinya yang banyak dipakai pada bidang banking, marketing maupun perusahan penjamin. Aplikasi data mining ini yang umumnya dipakai pada bidang marketing adalah bertujuan untuk mengidentifikasi pembelian atau para pengguna yang dapat menemukan relasi atau keterhubungan karakteristik zona-zona kepada pelanggan, selain itu juga dapat memprediksikan respon penawaran yang disampaikan via surat.
Contoh aplikasi dari data mining yaitu aplikasi data mining yang umum dipakai di bidang banking yaitu mampu menangkap pola-pola manipulasi kartu kredit dan mendeteksi nilai kesetiaan seorang pelanggan pada sebuah perusahaan dagang. Data mining juga sering digunakan pada bidang asuransi misalnya menganalisis klaim dalam memprediksi pelanggan apakah akan membeli produksi terbaru dari perusahaan.
Pada bidang kesehatan, data mining mempunyai kekuatan besar dalam membantu proses analisis data pada sebuah rumah sakit dengan mempergunakan informasi data dan menganalisa untuk mendeteksi pelayanan yang terbaik dalam hal peningkatan perawatan yang disajikan dan data mining juga mampu mengurangi biaya tinggi yang berdampak baik bagi konsumen. Pendekatan yang umumnya dilakukan dipelayanan kesehatan yaitu informasi database dengan banyak dimensi, learning machines, soft computing, statistika dan presentasi data. Setelah menjalani pembelajaran menggunakan data mining, maka dapat melakukan prediksi jumlah pasien kedalam setiap kategorial. Perkembangan yang perlu adalah diaman pasien dipastikan akan mendapat perawatan yang tepat pada tempat yang tepat dan pada waktu yang tepat juga.
Dan bidang Educational Data Mining (EDM), yang berhubungan dengan metode pengembangan ilmu pengetahuan dari informasi yang berasal dari bidang pendidikan dimana tujuan utamanya dari bidang EDM yaitu mengidentifikasi dan memprediksi kebiasaan belajar pada siswa dimasa yang akan datang dan memajukan pengetahuan ilmiah tentang pembelajaran. Data mining ini dapat dipakai pada sebuah perusahaan atau lembaga pendidikan yang memerlukannya dalam pengambilan keputusan dengan akurasi tinggi serta juga mampu melakukan prediksi kebiasaan belajar para siswa dengan harapan institusi dapat lebih fokus kepada arah tujuan pengajaran tersebut dan bagaimana mekanisme mengajar yang dilakukan kepada siswa. Adapun pola belajar siswa yang sudah di analisa oleh data mining akan mampu diambil serta digunakan dalam pengembangan teknik mengajar mereka (Madni et al, 2017).
2.3 Clustering
Clustering adalah proses memisahkan sekumpulan data atau objek ke dalam kelompok
12
atau cluster yang lebih kecil berdasarkan kesamaan ciri yang dimiliki (Serapiao et al., 2016). Terdapat berbagai algoritma clustering yang dapat digunakan, tetapi secara umum dapat dikelompokkan menjadi beberapa kategori sebagai berikut (Rokach and Maimon, 2005).
1. Partitioning Methods. Diberikan himpunan dari n objek. Metode partisi akan mengelompokkan k partisi dari data. Dimana setiap partisi merepresentasikan sebuah cluster dan k ≤ n. Setiap objek yang ada merupakan bagian dari sebuah cluster. Beberapa algoritma yang sering dipakai, yang termasuk dalam kategori partitioning methods adalah algoritma K-Means dan K-Medoids.
2. Hierarchical Methods. Pada metode berbasis hirarki ini akan dibangkitkan hierarchical decomposition (dekomposisi berurutan) dari himpunan data objek. Berbeda dengan metode partitioning yang mengelompokkan data ke dalam kelompok-kelompok. Metode hierarchical mengelompokkan data ke dalam hirarki atau tree dari cluster. Representasi data dalam bentuk hirarki adalah diperlukan untuk keperluan penyajiandan visualisasi data. Strategi pengembangan dari metode ini dapat dibagi menjadi 2 jenis yaitu Agglomerative (Bottom-Up) dan Devisive (Top-Down). Metode Agglomerative merupakan metode yang sering digunakan dan terdiri atas metode: Single Linkage, Complete Linkage, dan Average Linkage.
3. Density-Based Methods metode Density-Based ini merupakan metode yang dikembangkan berdasarkan density (kepadatan) tertentu dimana pada metode ini cluster dianggap sebagai suatu daerah yang berisi objek-objek yang padat atau penuh sesak, yang dipisahkan oleh area yang memiliki kepadatan rendah (merepresentasikan noise). Adapun beberapa algoritma yang termasuk metode Density-Based adalah DBSCAN (Density Based Spatial Clustering of Application with Noise) serta OPTICS (Ordering Points to Identify the Clustering Structure).
4. Grid-Based Methods, pada metode ini penempatan ruang objek ke dalam jumlah berhingga sel yang membentuk struktur grid dimana sehingga dikatakan juga bahwa metode ini menggunakan multi resolution pada struktur data grid (jaringan). Salah satu algoritma yang mendasarkan pada metode ini adalah STING (Statistical Information Grid).
Tujuan utama dari metoda clustering adalah mengelompokkan banyak informasi atau objek-objek ke dalam cluster (group) sehingga untuk setiap clusterada berisi informasi yang hampir mirip atau semirip mungkin, yang berarti data atau obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan objek dalam cluster - cluster yang lain (Santosa, 2007).
Gambar 2.1 Contoh Proses Clustering (Sumber: Nugraheni, 2011)
Ada dua metode Clustering yang dikenal saat ini yaitu Hierarchical Clustering dan Partitioning Clustering. Pada metode Hierarchical Clustering terdiri dari Complete Linkage Clustering, Single Linkage Clustering, Average Linkage Clustering serta Centroid Linkage Clustering, sedangkan pada metode Partitioning terdiri dari K- Means serta Fuzzy K-Means (Paramartha, 2017).
Pada metode Hierachical Clustering yang merupakan suatu metode pengelompokan informasi yang akan diawali dengan mengelompokkan dua ataupun banyak informasi atau objek yang mempunyai sifat yang paling mirip, lalu proses pengelompokan dilanjutkan ke data atau objek lain yang mempunyai kemiripan kedua, demikian selanjutnya sehingga cluster akan membangun pola-pola pohon yang mana terdapat batasan-batasan atau level-level yang jelas diantara sesama objek maupun informasi tersebut, dari yang memiliki kemirip tertinggi sampai dengan yang memiliki kemiripan rendah. Secara alamiah pada akhirnya akan terbentuk sebuah kelompok atau cluster dimana digunakan sebuah dendogram yang berguna untuk membantu menjelaskan proses hierarki tersebut (Santoso, 2010).
14
Selanjutnya pada metode Non Hierarchical Clustering proses awal dimulai dengan menentukan terlebih dahulu jumlah cluster yang diperlukan misalnya dua cluster, tiga cluster atau jumlah yang lain. Lalu setelah jumlah cluster ditentukan, maka proses cluster dimulai tanpa mengikuti proses hierarki dimana metode ini disebut dengan K-Means Clustering (Santoso, 2010).
2.4 Algoritma K-Means
Metode K-means clustering adalah metode pengelompokan data atau objek yang dilakukan dengan cara mempartisi data (partitional clustering). Pengelompokan menggunakan K-Means bertujuan untuk mempartisi sejumlah data atau objek kedalam sejumlah kelompok dimana setiap data atau objek dimasukan ke dalam mean k yang terdekat. Metode ini akan menghasilkan sejumlah kelompok dengan perbedaan yang signifikan. Jumlah yang paling baik dari sebuah kelompok data adalah didasari pada jarak atau disebut juga apriori yang harus dihitung dari data yang ada dan sesuai dengan yang dibutuhkan. (Paramartha et al, 2017).
Algoritma K-Means membutuhkan beberapa parameter masukan dengan sejumlah klaster, selanjutnya membagi sekumpulan data atau objek ke dalam cluster- cluster sampai tingkat kemiripan dari antara data atau objek yang ada pada cluster tersebut memiliki kemiripan yang mendekati. Secara umum dapat dikatakan bahwa K- Means adalah sebuah algoritma untuk melakukan proses clustering dimana cluster yang terbentuk bergantung pada inisialisasi jumlah cluster serta nilai titik pusatnya (centroid). Dibawah ini adalah langkah-langkah dari algoritma K-Means adalah sebagai berikut (Unnati & Chaita 2016) :
1. Tentukan jumlah K, K adalah jumlah cluster.
2. Tentukan nilai awal titik pusat cluster untuk dilakukannya proses clustering.
3. Hitung distance measure (jarak data) terhadap masing-masing centroid.
4. Alokasikan seluruh objek data yang telah dihitung ke dalam masing-masing cluster.
5. Tentukan centroid baru dengan menggunakan persamaan berikut:
……….………. (2.1) Keterangan:
ij =centroid/rata-rata cluster ke-i untuk variabel ke-j
Ni = jumlah data yang menjadi anggota cluster ke-i i,k =indeks dari cluster
j = indeks dari variabel
xkj = nilai data ke-k yang ada di dalam cluster tersebut untuk variabel ke-j
6. Ulang kembali langkah 3, 4 dan 5 hingga tidak ada lagi anggota cluster yang berpindah ke cluster lain.
2.5 Silhoutte Coefficient
Pada pengujian sebuah model dilakukan bertujuan untuk mendapatkan informasi sedekat apa hubungan antara satu objek dengan objek lain pada sebuah cluster dan sejauh berapa antara sebuah cluster dengan cluster yang lainnya. Metode pengujian yang dipakai pada kasus ini adalah dengan mencari Silhouette Coefficient dimana metode ini adalah penggabungan dari pada dua metode lainnya yaitu metode Cohesion yang berguna pada mengukur sedekat apa relasi antar satu objek dengan objek lainnya pada sebuah cluster dan metode Separation yang berguna untuk menghitung seberapa jauh sebuah cluster berpisah dari cluster yang lain atau sejauh apa sebuah cluster dengan cluster yang lainnya (Azuri et al, 2016).
Adapun Silhouette Coefficient terdapat pada angka antara nilai -1 sampai 1 dimana nilai Silhouette Coefficient semakin mendekati nilai 1, maka semakin bagus pengelompokan objek-objek kedalam sebuah cluster dan sebaliknya jika Silhouette coefficient sudah mendekati angka -1, maka akan makin buruk metode pengelompokan datanya pada cluster tersebut dimana metode pengukuran ini menggabungkan metode Cohesion dengan Separation. Penghitungan Silhoutte Coefficient untuk suatu titik tunggal melalui proses tiga tahap yaitu sebagai berikut:
1. Pada objek ke i, dihitung rata-rata jarak antar satu objek dengan objek yang lain dalam satu cluster, kemudian disebut dengan ai.
a(i) = …..……….. (2.2)
A= konstanta
2. Pada objek ke i, dihitung rata-rata jarak terhadap semua objek-objek di cluster lain, yang kemudian disebut dengan bi.
b(i) = min( D(I,C) ……….………. (2.3) D= jarak
16
C= Cluster
3. Silhoutte Coeffisien untuk suatu titik didapatkan dengan:
Si = (bi-ai)/max (ai,b) s(i) =
s = 1 -a/b jika a < b s= b/a –1 jika a ≥ b
Silhoutte Coeffisien dapat bervariasi nilainya yaitu diantara angka -1 sampai 1 dimana nilai yang negatif tidak baik sebab ai adalah jarak rata-rata dari titik pusat ke cluster.
Nilai rata-rata Silhoutte Coeffisien untuk tiap titik yang paling baik yaitu dimana semakin mendekati angka 1. Hasil clustering dapat disebutkan bagus jika Silhoutte Coeffisien harus bernilai positif (ai < bi) dan ai harus mendekati 0, sehingga mendapatkan angka Silhoutte Coeffisien yang paling tinggi yaitu 1 saat ai = 0, maka dengan kata lain, jika nilai si = 1 yang artinya bahwa objek i berada didalam cluster yang tepat dan jika nilai si = 0, maka data atau objek i berada diantara dua cluster yang berbeda dekat, sehingga informasi atau objek tersebut tidak jelas dimasuk ke dalam cluster yang mana, apakah pada cluster-A atau cluster-B. Akan tetapi, jika nilai si = -1 yang berarti struktur cluster yang dihasilkan adalah over lapping, sehingga data atau objek i lebih tepat dimasukan ke dalam cluster yang lain. Nilai Silhoutte Coeffisien rata-rata dari setiap data atau objek pada sebuah cluster adalah merupakan suatu takaran yang menunjukkan seketat apada objek-objek dimasukkan pada suatu cluster tertentu. Berikut adalah Silhoutte Coeffisien menurut Kaufman dan Rousseeuw (Anggara et al, 2016):
0.7 < SC <= 1 merupakan cluster Strong stucture 0.5 < SC <= 0.7 merupakan clusterMedium structure 0.25 < SC <= 0.5 merupakan clusterWeak structure SC <= 0.25 merupakan clusterNo structure
2.6 Distance Measure
Distance measure berfungsi untuk mengukur kedekatan data pada sebuah cluster dimana hasil dari proses clustering akan mendapatkan hasil yang berbeda apabila distance measure yang digunakan juga berbeda (Anggara et al, 2016). Proses clustering adalah sebuah proses pengelompokkan data yang mirip, akan tetapi tetap
saja dibutuhkan beberapa pengukuran untuk menentukan dua data mirip atau tidak mirip satu sama lainnya. Untuk menentukan kemiripan tersebut dapat digunakan pengukuran yang disebut dengan distance measure dan berikutnya ini adalah cara-cara perhitungan jarak antara lain:
2.6.1 Metode Euclidean distance
Adapun metode Euclidean distance adalah sebuah teknik perhitungan jarak antara dua buah titik dalam Euclidean Space yang meliputi bidang euclidean dua dimensi, tiga dimensi bahkan lebih. Dalam mengukur derajat kemiripan data dengan rumus euclidean distance dapat menggunakan rumus berikut (Maulida, 2018):
……….. (2.4) Dimana,
d = jarak antara x dan y x = data pusat klaster y = data pada atribut i = setiap data n = jumlah data,
xi = data pada pusat klaster ke i yi = data pada setiap data ke i
2.6.2 Metode Minkowski distance
Dasar metode Minkowski distance adalah merupakan sebuah metrik dalam domain vektor yang mana suatu norma didefinisikan dan sekaligus dianggap sebagai penyempurnaan dari metode Euclidean distance dan Manhattan distance (Mulyati, 2015). Untuk menghitung jarak antar objek satu dengan lainnya dengan menggunakan metode Minkowski distance ini umumya menggunakan nilai p adalah 1 atau 2. Berikut ini rumusan yang dipakai dalam menghitung jarak dalam metode ini adalah:
………. (2.5) dimana,
d = jarak antara x dan y x = data pusat klaster y = data pada atribut
18
i = setiap data n = jumlah data,
xi = data pada pusat klaster ke i yi = data pada setiap data ke i p = power
2.6.3 Metode Jaccarddistance
Adapun pada metode Jaccard distance adalah merupakan metode yang sering digunakan untuk menghitung derajat kemiripan antara objek satu dengan lainnya.
(Nurdiana et al, 2016). Dan seperti metode Cosine distance dan matching coefficient diatas, secara umum perhitungan metode ini berdasarkan pada vector space similarity measure.
J(x,y) = ………. (2.6)
Dimana = p adalah banyak data, x merupakan nilai dari data 1 dan y data 2.
2.6.4 Metode Cosine distance
Metode Cosine distance adalah jarak antara dua titik adalah satu minus kosinus dari sudut yang disertakan antara titik yang diperlakukan sebagai vektor (Sugiyamta.
2015). Diberikan matriks data m-by-n X, yang diperlakukan sebagai vektor baris m (1-oleh-n) x1, x2, ...,xm, jarak kosinus antara vektor xs dan xt didefinisikan sebagai berikut (Sugiyamta. 2015):
D (x1,y1) = =
………...….. (2.7)
Dimana :
Dimana = n adalah banyak data, x merupakan nilai dari data 1 dan y data 2.
BAB 3
METODOLOGI PENELITIAN
Pada penelitian ini dilakukan analisis evaluasi perhitungan jarak terhadap nilai Silhouette Coefficient pada algoritma K-Means. Masalah yang hendak diselesaikan adalah menemukan metode yang lebih efektif dalam perhitungan jarak data terhadap centroid pada algoritma K-Means dengan melakukan perbandingan empat metode perhitungan yaitu Euclidean distance, Minkowski distance, Jaccard serta Cosine distance dan mengevaluasinya menggunakan Silhouette Coefficient.
Pada proses clustering dilakukan pengelompokkan data yang mirip, akan tetapi masih tetap diperlukan beberapa pengukuran untuk menentukan dua data atau objek mirip, kurang mirip ataupun tidak mirip sama sekali dan untuk menentukan kemiripan tersebut digunakan pengukuran yang disebut dengan distance measure.
Langkah-langkah penelitian analisis pengaruh perhitungan jarak terhadap nilai Silhouette Coefficient pada algoritma K-Means adalah sebagai berikut:
1. Melakukan normalisasi dataset.
2. Melakukan clutering dataset dengan algoritma K-Means clustering dengan metode measure distance yaitu Euclidean distance, Minkowski distance, Jaccard serta Cosine distance.
3. Menghitung jarak data dengan centroid pada setiap cluster.
4. Menghitung jarak satu cluster dengan cluster lainnya.
5. Menentukan nilai Silhouette Coefficient.
3.1 Data Yang Digunakan
Data yang digunakan dalam penelitian ini adalah berupa dataset yang diambil dari dataset dari UCI Machine Learning Repository yaitu Wine Quality serta Pima Indian.
Dataset Wine Quality terdiri dari 1599 record dengan atribut sebagai berikut:
20
1. Kadar nilai Fixed Acidity 2. Kadar nilai Volatile Acidity 3. Kadar nilai Citric Acid 4. Kadar nilai Residual Sugar 5. Kadar nilai Chlorides
6. Kadar nilai Free Sulfur Dioxide 7. Total Sulfur Dioxide
8. Nilai Density 9. Nilai pH
10. Kadar nilai Sulphates 11. Kadar nilai Alcohol 12. Nilai Quality
Adapun dataset wine quality dapat dilihat seperti pada Tabel 3.1.
Tabel 3.1 Wine Quality
1 2 3 4 5 6 7 8 9 10 11 12
7.4 0.7 0 1.9 0.076 11 34 0.9978 3.51 0.56 9.4 5 7.8 0.88 0 2.6 0.098 25 67 0.9968 3.2 0.68 9.8 5 7.8 0.76 0.04 2.3 0.092 15 54 0.997 3.26 0.65 9.8 5 11.2 0.28 0.56 1.9 0.075 17 60 0.998 3.16 0.58 9.8 6 7.4 0.7 0 1.9 0.076 11 34 0.9978 3.51 0.56 9.4 5 7.4 0.66 0 1.8 0.075 13 40 0.9978 3.51 0.56 9.4 5 7.9 0.6 0.06 1.6 0.069 15 59 0.9964 3.3 0.46 9.4 5 7.3 0.65 0 1.2 0.065 15 21 0.9946 3.39 0.47 10 7 7.8 0.58 0.02 2 0.073 9 18 0.9968 3.36 0.57 9.5 7
…. …. …. ….. …… …. ….. …….. …… …… …. ….
6 0.31 0.47 3.6 0.067 18 42 0.99549 3.39 0.66 11 6
3.2 Bagan Penelitian
Pada penelitian ini dilakukan analisis pengaruh perhitungan jarak terhadap nilai Silhouette Coefficient pada algoritma K-Means. Adapun secara garis besarnya penelitian ini dapat digambarkan dalam bentuk bagan seperti pada Gambar 3.1.
Gambar 3.1 Bagan Penelitian
Pada awalnya pengguna menginput dataset dan proses awal yang dilakukan adalah clustering dengan K-Means pada dataset dengan menghitung jarak dari data ke centroid cluster (pusat cluster) dengan metode Euclidean distance, Minkowski distance, Jaccard distance serta Cosine distance. Selanjutnya dilakukan perhitungan Measure Distance menggunakan silhouette coefficient. Langkah terakhir yaitu menarik kesimpulan yang bertujuan untuk memberikan informasi pengaruh perhitungan jarak terhadap nilai Silhouette Coefficient.
3.3 Normalisasi Dataset
Sebelum melakukan training, maka pada dataset dilakukan normalisasi data agar nilai dataset dalam jangkauan 0-1 dengan rumus:
Xn = ……….. (3.1)
Xi = bobot atribut ke i
INPUT Dataset
Normalisasi dataset
Hitung Silhouette Coefficient
Kesimpulan
K-Means Clustering dengan Distance:
Euclidean Distance, Minkowski Distance, Jaccard Serta Cosine Distance
22
Xmin = bobot minimum atribut i Xmax = bobot maksimum atribut i
Dari Dataset yang digunakan dapat diperoleh informasi seperti pada Tabel 3.2.
Tabel 3.2 Nilai Atribut Maksimum dan Minimum
Atribut Nilai Minimum Nilai Maksimum
Fixed Acidity 4.6 15.9
Volatile Acidity 0.12 1.58
Citric Acid 0 1
Residual Sugar 0.9 15.5
Chlorides 0.012 0.611
Free Sulfur Dioxide 1 72
Total Sulfur Dioxide 6 289
Density 0.99007 1.00369
pH 2.74 4.01
Sulphates 0.33 2
Alcohol 8.4 14.9
Quality 3 8
Untuk Data-1 dengan atribut:
Fixed Acidity = 7.4, Volatile Acidity = 0.7, Citric Acid = 0, Residual Sugar = 1.9, Chlorides = 0.076, Free Sulfur Dioxide = 11, Total Sulfur Dioxide = 34, Density = 0.9978, pH = 3.51, Sulphates = 0.56, Alcohol = 9.4, Quality = 5.
Fixed Acidity (x1) = = 0.2477 Volatile Acidity (x2) = = 0.3973 Citric Acid (x3) = = 0
Residual Sugar (x4) = = 0.0685 Chlorides (x5) = = 0.1068 Free Sulfur Dioxide (x6) = = 0.1408
Total Sulfur Dioxide (x7) = = 0.0989 Density (x8) = = 0.5675
pH (x9) = = 0.6063
Sulphates (x10) = = 0.1377 Alcohol (x11) = = 0.1538 Quality (x12) = = 0.400
Dari perhitungan normalisasi untuk Data-1 diatas dimasukkan ke dalam tabel dan untuk perhitungan normalisasi data selanjutnya dilakukan dengan cara yang sama.
Hasil normalisasi semua data dari dataset dapat dilihat seperti pada Tabel 3.3.
Table 3.3 Dataset Hasil Normalisasi
No.
Data 1 2 3 4 5 6 7 8 9 10 11 12
1 0.2478 0.3973 0.0000 0.0685 0.1068 0.1408 0.0989 0.5675 0.6063 0.1377 0.1538 0.4000 2 0.2832 0.5205 0.0000 0.1164 0.1436 0.3380 0.2155 0.4941 0.3622 0.2096 0.2154 0.4000 3 0.2832 0.4384 0.0400 0.0959 0.1336 0.1972 0.1696 0.5088 0.4094 0.1916 0.2154 0.4000 4 0.5841 0.1096 0.5600 0.0685 0.1052 0.2254 0.1908 0.5822 0.3307 0.1497 0.2154 0.6000 5 0.2478 0.3973 0.0000 0.0685 0.1068 0.1408 0.0989 0.5675 0.6063 0.1377 0.1538 0.4000 6 0.2478 0.3699 0.0000 0.0616 0.1052 0.1690 0.1201 0.5675 0.6063 0.1377 0.1538 0.4000 7 0.2920 0.3288 0.0600 0.0479 0.0952 0.1972 0.1873 0.4648 0.4409 0.0778 0.1538 0.4000 8 0.2389 0.3630 0.0000 0.0205 0.0885 0.1972 0.0530 0.3326 0.5118 0.0838 0.2462 0.8000 9 0.2832 0.3151 0.0200 0.0753 0.1018 0.1127 0.0424 0.4941 0.4882 0.1437 0.1692 0.8000 10 0.2566 0.2603 0.3600 0.3562 0.0985 0.2254 0.3392 0.5675 0.4803 0.2814 0.3231 0.4000 11 0.1858 0.3151 0.0800 0.0616 0.1419 0.1972 0.2085 0.4280 0.4252 0.1257 0.1231 0.4000 12 0.2566 0.2603 0.3600 0.3562 0.0985 0.2254 0.3392 0.5675 0.4803 0.2814 0.3231 0.4000 13 0.0885 0.3390 0.0000 0.0479 0.1285 0.2113 0.1873 0.3106 0.6614 0.1138 0.2308 0.4000 14 0.2832 0.3356 0.2900 0.0479 0.1703 0.1127 0.0813 0.5382 0.4094 0.7365 0.1077 0.4000 15 0.3805 0.3425 0.1800 0.1986 0.2738 0.7183 0.4912 0.6263 0.3307 0.3293 0.1231 0.4000 16 0.3805 0.3425 0.1900 0.2055 0.2638 0.7042 0.5018 0.6263 0.3386 0.3593 0.1231 0.4000 17 0.3451 0.1096 0.5600 0.0616 0.1336 0.4789 0.3428 0.5015 0.4409 0.2515 0.3231 0.8000 18 0.3097 0.3014 0.2800 0.0548 0.5943 0.2113 0.1767 0.4941 0.2913 0.5689 0.1385 0.4000 19 0.2478 0.3219 0.0800 0.2397 0.1235 0.0704 0.0813 0.5382 0.5039 0.1018 0.0923 0.2000 20 0.2920 0.1370 0.5100 0.0616 0.5492 0.2254 0.1767 0.5015 0.2362 0.4491 0.1231 0.6000 1599 0.1239 0.1301 0.4700 0.1849 0.0918 0.2394 0.1272 0.3979 0.5118 0.1976 0.4000 0.6000
24
3.4 Algoritma K-Means Clustering
Pada penelitian ini dilakukan clustering dataset dengan algoritma K-Means Clustering dengan metode distace measure Euclidean distance, Minkowski distance, Jaccard distance serta Cosine distance.
3.4.1 Clustering dengan Distance Measure Euclidean Distance
Metode jarak Euclidean distanceadalah salah satu metode perhitungan jarak yang digunakan untuk mengukur jarak dari 2 (dua) titik data dalam Euclidean Space yang meliputi bidang euclidean dua dimensi menurut persamaan:
... (3.1) Dimana,
d = jarak antara x dan y x = data pusat cluster y = data pada atribut i = setiap data n = jumlah data,
xi = data pada pusat cluster ke i yi = data pada setiap data ke i
Pertama-tama bangkitkan 6 (enam) bilangan acak sebanyak jumlah klas kualitas wine dengan interval data terkecil dan data terbesar, misalnya diperoleh:
Cluster-1 = 0.0923 Cluster-2 = 0.1138 Cluster-3 = 0.4789 Cluster-4 = 0.7365 Cluster-5 = 0.5492 Cluster-6 = 0.9625
Dengan menggunakan persamaan (3.1) hitung jarak data dengan centroid dengan meminimalkan jarak melalui iterasi.
Untuk Data-1 dengan Cluster-1
1 0.2832 0.5205 0.0000 0.1164 0.1436 0.3380 0.2155 0.4941 0.3622 0.2096 0.2154 0.4000
= 0.82384
Untuk Data-1 dengan Cluster-2
= 0.80518
Untuk Data-1 dengan Cluster-3
= 0.68854
Untuk Data-1 dengan Cluster-4
= 1.67991
Untuk Data-1 dengan Cluster-5
26
= 1.08074
Untuk Data-1 dengan Cluster-6
= 2.55063
Untuk Data-2 dengan Cluster-1
2 0.2478 0.3973 0.0000 0.0685 0.1068 0.1408 0.0989 0.5675 0.6063 0.1377 0.1538 0.4000
= 0.99177
Untuk Data-2 dengan Cluster-2
= 0.94306
Untuk Data-2 dengan Cluster-3
= 1.05234
Untuk Data-2 dengan Cluster-4
= 1.832293
Untuk Data-2 dengan Cluster-5
= 1.19785
Untuk Data-2 dengan Cluster-6
= 2.56693
Perhitungan dilanjutkan sampai data ke 1599 dan Cluster-6 dan hasil perhitungan di atas diperoleh jarak antara data dengan cluster dan dimasukkan ke dalam Tabel 3.4.
Tabel 3.4 Hasil Perhitungan JarakEuclidean Distance
No.
Data 1 2 3 4 5 C1 C2 C3 C4 C5 C6
1 0.2478 0.3973 0.0000 0.0685 0.1068 0.8238 0.8051 0.6885 1.6799 1.0807 2.5506 2 0.2832 0.5205 0.0000 0.1164 0.1436 0.9917 0.9430 1.0523 1.8322 1.1978 2.5669 3 0.2832 0.4384 0.0400 0.0959 0.1336 0.6638 0.7541 0.2541 1.5524 1.1259 2.3259 4 0.5841 0.1096 0.5600 0.0685 0.1052 0.2351 0.6352 1.5521 1.2214 1.1542 2.4752 5 0.2478 0.3973 0.0000 0.0685 0.1068 0.1124 0.2544 0.3524 1.4425 1.0325 2.5021 6 0.2478 0.3699 0.0000 0.0616 0.1052 0.5478 0.8547 1.2154 1.8541 1.1247 2.5632 7 0.2920 0.3288 0.0600 0.0479 0.0952 0.5256 0.2154 0.5541 1.2214 1.0574 2.2541 8 0.2389 0.3630 0.0000 0.0205 0.0885 0.5487 0.5256 1.2654 1.3368 1.2301 2.5241 9 0.2832 0.3151 0.0200 0.0753 0.1018 0.2654 0.3324 0.6324 1.0854 1.1020 2.4251 10 0.2566 0.2603 0.3600 0.3562 0.0985 0.3325 0.9652 1.5241 1.0252 1.2014 2.5984 .... .... .... .... .... .... .... .... .... .... .... ....
1599 0.1239 0.1301 0.4700 0.1849 0.0918 0.1254 0.8854 0.3358 0.1285 0.6951 1.2254
Lakukan pemilihan cluster yang paling kecil sehingga diperoleh Tabel 3.5.
A. Hasil Clustering
1. Hasil Clustering menggunakan Euclidean Distance
Berikut ini adalah hasil clustering akhir dari Euclidean Distance. Adapun total member yang terkelompok ke dalam masing-masing cluster adalah Cluster 1 = 5 member, Cluster 2 = 3 member, Cluster 3 = 2 member, Cluster 4 = 0 member, Cluster