PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE
TESIS
HANDRY ELDO 177038055
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2020
PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
HANDRY ELDO 177038055
PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN
2020
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :
Nama NIM
Program Studi Jenis Karya Ilmiah
: HANDRY ELDO : 177038055
: Magister (S-2) Teknik Informatika : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti Free Right) atas tesis
saya yang berjudul :
PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 30 Januari 2020
Handry Eldo 177038055
v
Telah diuji pada
Tanggal : 30 Januari 2020
PANITIA PENGUJI TESIS
Ketua : Dr. Syahril Efendi, S.Si., M.IT Anggota : 1.Prof. Herman Mawengkang : 2.Prof. Dr. Muhammad Zarlis
: 3.Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng.
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap
Tempat dan Tanggal Lahir Alamat Rumah
Telepon/HP/WA Email
: Handry Eldo
: Lhokseumawe, 04 Juli 1991
: Hagu Kec. Banda Sakti Kab. Lhokseumawe Prov.Aceh
: 085297000022
DATA PENDIDIKAN
SD : SD Negeri 1 Lhokseumawe TAMAT : 2003
SMP : SLTP Negeri 2 Lhokseumawe TAMAT : 2006
SMA : SMA Negeri 2 Lhokseumawe TAMAT : 2009
S1 : Teknik Informatika Universitas Malikussaleh TAMAT : 2014 S2 : Teknik Informatika Universitas Sumatera Utara TAMAT : 2020
UCAPAN TERIMA KASIH
Puji dan syukur dipanjatkan kehadapan Tuhan Yang Maha Esa atas berkat, karena hanya atas karunia-Nya, tesis ini dapat diselesaikan berupa pengetahuan, kesehatan dan kesempatan yang diberikan kepada penulis sehingga dapat menyelesaikan tesis dengan judul “PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE”. disusun untuk penyelesaian tugas akhir perkuliahan program pasca sarjana Universitas Sumatera Utara.
Pada kesempatan ini penulis ingin menyampaikan ucapan rasa terima kasih yang sebesar-besarnya di tujukan kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H, M.Hum., selaku Rektor Universitas Sumatera Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul., selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera Utara.
3. Bapak Prof. Dr. Muhammad Zarlis., selaku Ketua Program Studi Magister Teknik Informatika dan juga selaku Dosen Pembanding I yang dengan penuh perhatian telah memberikan dorongan, semangat, bimbingan, dan saran serta pembelajaran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.
4. Bapak Dr.Syahril Efendi, S.Si, M.IT., selaku Sekretaris Program Studi Magister Teknik Informatika dan juga selaku Dosen Pembimbing I yang selama ini telah memberikan saran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.
5. Bapak Prof. Herman Mawengkang., selaku Dosen Pembimbing II yang telah memberikan banyak saran serta pembelajaran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.
6. Bapak Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng., selaku Dosen Pembanding II yang yang selama ini telah memberikan saran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.
7. Bapak/Ibu Dosen Program Studi Pasca Sarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Universitas Sumatera Utara yang telah memberikan bekal ilmu yang sangat berharga bagi penulis selama menjadi mahasiswa.
8. Seluruh Staf Akademika, dan Pegawai Program Studi Pasca Sarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Universitas Sumatera Utara yang telah membantu penulis dalam menyelesaikan penelitian ini.
9. Ayahanda Ibbaidullah dan Ibunda Nurhaslinda Meutia yang tercinta atas pengorbanan dan dukungan yang sangat luar biasa bagi penulis selama menjalani perkuliahan sehingga penulis dapat menjalani dan menyelesaikan studi.
10. Sahabat-sahabat yang luar biasa di Magister Teknik Informatika KOM-C 2017
Penulis menyadari bahwa masih banyak kekurangan dalam tesis ini, Akhir kata penulis berharap semoga tesis ini ada mamfaatnya bagi peneliti lainnya, khususnya dalam bidang pendidikan. Penulis menyadari masih ada kekurangan dalam penulisan tesis, untuk itu penulis mengharapkan kritik dan saran dari pembaca demi kesempurnaan penelitian selanjutnya.
Medan, 30 Januari 2020
(Handry Eldo)
ABSTRAK
Pada penelitian ini dilakukan untuk mendapatkan jumlah klaster terbaik dalam algoritma K-Means dengan menghitung nilai Silhouette Coefficient untuk setiap jumlah pusat klaster. Pada algoritma K-Means tahapan perhitungan jarak menggunakan Euclidean Distance. Dataset yang digunakan dalam percobaan penelitian ini diambil dari repository UCI Machine Learning dengan dataset Iris, Blood Transfusion Service Center, Wholesale Customers. Adapun hasil pecobaan dengan menggunakan 10 pusat cluster pada masing-masing dataset didapatkan dataset Iris dengan jumlah klaster optimum adalah k=2 dan indeks validitas Silhouette 0.681046, untuk dataset Blood Transfusion Service Center jumlah klaster optimum K=2 dan indeks validitas Silhouette 0.70497874. Sedangkan untuk dataset Wholesale Customers jumlah klaster optimum K=2 dengan indeks validitas silhouette 0.4263.
Kata Kunci : Dataset , Algoritma K-Means, Silhouette Coefficient
ABSTRACT
This research was conducted to get the best number of clusters in the K-Means algorithm by calculating the Silhouette Coefficient value for each number of cluster centers. In the K-Means algorithm the distance calculation step uses Euclidean Distance. The dataset used in this research experiment was taken from the UCI Machine Learning repository with Iris dataset, Blood Transfusion Service Center, Wholesale Customers. The results of experiments using 10 cluster centers in each dataset obtained Iris dataset with the optimum number of clusters is k = 2 and the Silhouette validity index 0.681046, for the Blood Transfusion Service Center dataset the optimum cluster number K = 2 and Silhouette validity index 0.70497874. As for the Wholesale Customers dataset, the optimum number of clusters is K = 2 with a silhouette validity index of 0.4263. Keywords: Dataset, K- Means Algorithm, Silhouette Coefficient
DAFTAR ISI
Hal.
HALAMAN JUDUL ... i
PERSETUJUAN ... ii
PERNYATAAN ORISINALITAS ... iii
PERSETUJUAN PUBLIKASI ... iv
PANITIA PENGUJI ... v
RIWAYAT HIDUP ... vi
UCAPAN TERIMA KASIH ... vii
ABSTRAK ... ix
ABSTRACT ... x
DAFTAR ISI ... xi
DAFTAR TABEL ... xii
DAFTAR GAMBAR ... xiii
BAB 1. PENDAHULUAN 1.1 Latar Belakang Masalah ... 1
1.2 Rumusan Masalah ... 2
1.3 Batasan Masalah ... 2
1.4 Tujuan Penelitian ... 3
1.5 Manfaat Penelitian ... 3
BAB 2. TINJAUAN PUSTAKA 2.1 Data Mining ... 4
2.2 Tahapan Data Mining ... 4
2.3 Metode Clustering ... 8
2.4 Manfaat Clutering Data ... 8
2.4.1 Algoritma K-Means ... 10
2.4.2 Metode Silhoutte ... 13
2.4.3 Riset Terkait... 14
2.4.4 Perbedaan Penelitian Dengan Penelitian Terdahulu ... 15
BAB 3. METODE PENELITIAN
3.1 Perancangan Algoritma 16 3.2 Metode Penelitian17 BAB 4. HASIL DAN PEMBAHASAN
4.1 Hasil Pengujian 19 4.2 Dataset Blood Transfusion Service Center 19 4.3 Perhitungan K-Means 24 4.4 Hasil Silhoutte Coeffcient64 4.5 Hasil Pengujian Menggunakan Dataset Lain 68 4.6 BAB 5. KESIMPULAN DAN SARAN
5.1 Kesimpulan 70 5.2 Saran 70 DAFTAR PUSTAKA
DAFTAR TABEL
Hal.
Tabel 2.1 Riset – Riset Terkait ... 14
Tabel 4.1 Ringkasan Dataset Yang Digunakan ... 19
Tabel 4.2 Dataset Blood Transfussion Service Center ... 20
Tabel 4.3 Perhitungan Jarak Dengan Titik Pusat Cluster ... 26
Tabel 4.4 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 2 ... 29
Tabel 4.5 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 3 ... 33
Tabel 4.6 Hasil Akhir Perhitungan K-means Dengan Pusat Cluster Sebanyak 4 37 Tabel 4.7 Hasil Akhir K-Means Dengan Jumlah Pusat Cluster 5 ... 41
Tabel 4.8 Hasil Akhir K-Means Pada Pusat Cluster 6 ... 44
Tabel 4.9 Hasil Akhir K-Means Pada Pusat Cluster 7 ... 48
Tabel 4.10 Hasil Akhir K-Means Pada Pusat Cluster 8 ... 52
Tabel 4.11 Hasil Akhir K-Means Pada Pusat Cluster 9 ... 56
Tabel 4.12 Hasil Akhir K-Means Pada Pusat Cluster 10 ... 60
Tabel 4.13 Hasil Akhir Pusat Cluster ... 64
Tabel 4.14 Shilhouette Coeffient ... 64
Tabel 4.15 Hasil Data Iris ... 68
Tabel 4.16 Hasil Wholesale Costomers ... 69
DAFTAR GAMBAR
Hal.
Gambar 2.1Proses Menggali Pengetahuan Dari Pangkalan Data ... 5
Gambar 2.2 Contoh Proses Clustering ... 10
Gambar 2.3 Proses Clustering Objek Menggunakan Metode K-Means ... 10
Gambar 2.4 Flowchart Algoritma K-Means ... 13
Gambar 3.1 Flowchart K-Means Berbasis Shilhouette ... 16
Gambar 3.2Langkah-langkah Penelitian ... 18
Gambar 4.1Nilai Shilhouette Dengan K=2 ... 65
Gambar 4.2Nilai Shilhouette Dengan K=3 ... 65
Gambar 4.3Nilai Shilhouette Dengan K=4 ... 66
Gambar 4.4Nilai Shilhouette Dengan K=5 ... 66
Gambar 4.5Nilai Shilhouette Dengan K=6 ... 66
Gambar 4.6Nilai Shilhouette Dengan K=7 ... 67
Gambar 4.7Nilai Shilhouette Dengan K=8 ... 67
Gambar 4.8Nilai Shilhouette Dengan K=9 ... 67
Gambar 4.9Nilai Shilhouette Dengan K=10 ... 68
BAB I PENDAHULUAN
1.1 Latar Belakang
Clustering merupakan proses pada pengelompokkan data kedalam beberapa cluster berdasarkan persamaan yang dimiliki data dalam suatu cluster tersebut tingkat kemiripan maksimal, Tan(2006). Proses partisi suatu objek data pada clustering. Sampai saat ini menggunakan algoritma clustering dan tidak dilakukan secara manual. Clustering sangat bermanfaat dalam menggelompokan yang tidak dikenal penggelompokan data. Sehingga Algoritma clustering sudah sangat banyak di pergunakan dalam berbagai bidang diantaranya pengolahan citra, pendukung dalam pengambilan keputusan, pengenalan pola hingga dalam bidang bioinformatika.
Di dalam sistem clustering terdapat beberapa pendekatan yang bisa menggelompokan data secara akurat dan benar. Algoritma k-means salah satu contohnya. K-means merupakan algoritma untuk menganalisa data ke partisian N untuk melakukan objek ke dalam data cluster. Setiap objek yang diamati dalam kelompok tersebut berdasarkan nilai jarak terdekat. Sehingga dapat mengoptimalkan objek dengan data yang lebih terukur.
K-means banyak digunakan lebih efektif dan efesien penglompokan data.
Salah satu yang menjadi faktornya adalah lebih mudah dipelajari dan waktu komputasi relatif lebih singkat. Penentuan hasil cluster k-means dilihat dari jarak objek. Sebelum mencari jarak cluster yang terdekat, untuk mengetahui jumlah cluster dan data yang menjadi titik cluster wajib ditentukan terlebih dahulu. Selain ketelitian yang tinggi ke beberapa objek, algoritma k-means juga pemprosesan data ke jumlah banyak.
Alasan memilih clustering dalam pemprosesan data ialah menentukan k terbaik pada pengelompokan dalam data set. Penganalisaan k suatu cara efektif karena hasil cluster bergantung pada jumlah k yang digunakan.
Penulis menggunakan metode silhouette untuk menemukan nilai k terbaik pada metode k-means. Metode silhouette mampu menemukan fungsi dari jumlah cluster dari sebuah data yang diuji. Hasil jumlah cluster menjadi lebih optimal setiap nilai k yang diperoleh pada K-means.
Di dalam bidang algoritma K- means bersifat Unsupervised Learning yang dapat menerima data tanpa label kelas dan algoritma , input jumlah , dan kelompok sebuah centroid untuk mempsentasikan cluster tersebut.
1.2 Rumusan Masalah
Nilai cluster adalah aspek ke sistem clustering. Nilai cluster berpengaruh dalam konsistensi, ketetapan dan kualitas dari cluster yang dibentuk. Pada penelitian ini penulis mencoba menentukan cluster terbaik yang selanjutnya di cluster menggunakan K-Means. Diharapkan pada penelitian ini nilai cluster yang dihasilkan lebih optimal.
1.3 Batasan Masalah
Masalah berkaitan kepada penentuan cluster optimum permasalahan penelitian ini adalah:
1. Metode K-Means Cluster
a. Iterasi maksimal sebanyak 20.
b. Untuk mencari jarak data dan centroid menggunakan pendekatan Euclidean distance,manhattan distance, chebyshev distance, dan minkowski distance .
c. Dataset Wholesale Customers, yang berjumlah total keseluruhan 440 data dengan 8 atribut numerik, di proses dari UCI Machine Learning Repository.
d. Iris, berjumlah total 150 data dengan 4 atribut numerik, diperoleh dari UCI Machine Learning Repository.
2. Output jumlah cluster yang paling optimum.
1.4 Tujuan Penelitian
Tujuan tesis adalah melakukan optimasi cluster dengan modifikasi metode shilhouette dalam menentukan jumlah cluster yang paling bagus.
1.5 Manfaat Penelitian
Meliputi untuk meneliti sebagai berikut:
1. Didapatkan suatu metode cluster dengan jumlah K paling optimum 2. Menjadi perbandingan peneliti lain. Mengganalisis menggunakan
metode clustering
BAB II
TINJAUAN PUSTAKA
2.1 Data Mining
Data mining adalah sebuah informasi menarik dalam metode tertentu dengan data terpilih yang menggunakan teknik yang relatif akurat. Dengan ada nya teknik yang digunakan data mining seperti teknik statistik, matematika, kecerdasan buatan dan machine learning untuk menganalisa sebagai informasi yang di terima dan didapatkan dalam database yang cukup besar agar mempermudah koneksi pada database yang digunakan (Turban et al, 2005).
Pengumpulan data mining tersebut memiliki informasi ilmu untuk menggali data yang di reset ulang pada program kecerdasan buatan memiliki ekstraksi dan membersihkan data dari data pertama di ekstrak dari data aslinya yang sesuai dengan data model khas. (Prasetyo, 2012).
2.1.1 Tahapan Data Mining
Data mining suatu pekerjaan yang diterapkan ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data algoritma dengan progress dan juga melakukan interpretasi dari hasilnya sehingga menemukan pola yang barudan berguna .Seharusnya tahapan-tahapan yang diperlukan tentu menjadi umpan balik atau arah panah yang berhadapan. Pada proses yang berjalan secara interaktif akan menemukan hasil jarang tidak sesuai alur dikarenakan proses sudah berat untuk di uji ulang. (kusnawi, 2007)
Proses untuk memperbaiki nilai tambah dari data yang diperoleh sangat maksimal pada pangkalan data (knowledge Discovery in Database = KDD).
Diskusi yang di ajukan akan di tujukan pada gambar 2.1 berikut :
Gambar 2.1 Proses menggali pengetahuan dara pangkalan data (sumber ; Han.J & Kember 2006)
Adapun pangkalan data sesuai proses hanya saja tidak dinamis pada gambar 2.1 diatas. Data bersifat interaktif dimana pemakai terlibat secara langsung melalui perantaran yang ada knowledge base.
1. Data Selection
Ini target tujuan memfokuskan pada subset variabel data yang dibutuhkan untuk digunakan pada saat target dihasilkan. Hasil disimpan dalam folder yang terpisah dari basis data yang dioperasikan.
2. Pre-Processing
Tahap ini dilakukan untuk menghilangkan data yang tidak ofisien (noise), diaplikasi oleh data agar data dapat di uji Kembali.
3. Transformation
Tranformasi tujuan untuk mengubah skala pengukuran data asli menjadi bentuk lain yang sudah di analisi data. Dengan teknik data mining membutuhkan format data yang khusus sebelum bisa dijadikan aplikasi utuh.
4. Data Mining
Data informasi dihasilkan proses data mining perlu ditampilkan dalam bentuk operasional supaya informasi dapat dihasilkan sesuai kepentingan. Tahap ini salah satu bagian dari proses KDD yang disebut dengan interpretation.
5. Evaluasi
Fungsi ini menjelaskan bentuk cluster yang dihasilkan melalui terhadap data kompleks. Evaluasi yang dimaksudkan disini dengan cara memeriksa apakah informasi yang ditemukan sesuai atau berlawan arah dengan fakta sebelumnya.
6. Deployment
Model ini yang telah dibuat, deployment yang sederhana adalah sampai menghasilkan data dalam bentuk laporan sedangkan deployment yang kompleks adalah melaksanakan model baru dihasilkan proses paralel pada departemen lainnya.
Fungsi-fungsi dalam data mining:
1. Fungsi deskripsi (desciption)
Fungsi deskripsi ialah yang digunakan untuk merancang sekumpulan data secara ringkas. Sampai saat ini cara yang digunakan dalam memberikan arah secara ringkas dalam bentuk jumlah yang cukup besar dan banyak memberikan Deskripsi Grafis, Deskripsi Lokasi, dan Deskripsi Keragaman.
2. Fungsi Estimasi
Fungsi ini untuk memperkirakan suatu data yang sudah terurai. Fungsi estimasi ini sendiri terdiri dari dua fungsi yaitu Estimasi Titik dan Estimasi Selang Kepercayaan.
3. Fungsi prediksi (prediction)
Fungsi prediksi adalah mengutamakan hasil dari hal yang belum dihasilkan untuk mendapatkan data baru yang akan muncul pada periode berikutnya. Cara
memprediksi dalam fungsi ini adalah Regresi Linier.
4. Fungsi klasifikasi (classification)
Fungsi klasifikasi atau menggolongkan suatu data. Cara yang digunakan terdiri dari algoritma Mean Vector, algoritme K-nearest Neighbor, algoritma ID3, algoritma C4.5, dan algoritma C5.0
5. Fungsi pengelompokan (cluster)
Fungsi kelompok ini data yang dikelompokan sebuah objek atau catatan yang memiliki kemiripan atribut kemudian dikelompokan pada kelompok yang berbeda. Algoritma yang digunakan adalah algoritma Hirarchical Clustering, algoritma Partitional Clustering, algoritma Single Linkage, algoritma Complete Linkage, algoritma Average Linkage, algoritma K-Means dan lain-lain.
6. Fungsi asosiasi (association)
Fungsi asosiasi ini untuk menemukan aturan asosiasi (association rule) yang mampu mengidentifikasi item-item pada objek. Algoritma yang digunakan algoritma Generalized Association Rules, Quantitative Association Rule, asynchronous Parallel Mining
2.2 Metode Clustering
Clustering merupakan pengelompokan suatu partisi berbeda, atau lebih tepatnya partisi tidak melakukan data pengulangan dengan berkali kali. Cluster ini terdiri dari kumpulan benda-benda yang mirip antara satu dengan yang lainnya dan berbeda dengan benda yang terdapat pada cluster lainnya. Algoritma clustering terdiri dari dua bagian yaitu secara hirarkis dan secara partitional.
Algoritma partitional menentukan semua kelompok pada waktu tertentu.
Metodologi cluster baik digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian pada sebuah strukturnya. Clustering juga bisa dikatakan suatu proses dimana mengelompokan dan membagi pola data menjadi beberapa jumlah data set sehingga akan membentuk pola yang serupa dan dikelompokkan pada cluster yang sama dan memisahkan diri dengan membentuk pola yang berbeda di cluster yang berbeda. Clustering dapat ditemukan dibeberapa aplikasi yang ada di berbagai bidang. Sebagai pengelompokan data yang digunakan untuk menganalisa data statistik untuk pembelajaran mesin, data mining, pengenalan pola, analisis citra dan bioinformatika di ering clustering tersebut.
2.3 Manfaat Clustering data
Pengelompokkan objek didasarkan pada kesamaan antar objek tidak melalui proses klasifikasi yang bersifat supervised learning, pada clustering.
Pengelompokkan yang dilakukan salah satu dasar unsupervised learning. Pada proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya. Kesamaan di klas terbilang tinggi dan kesamaan antar klas terbilang rendrah, tergantung pada pengukuran klasnya. Kemampuan untuk mendapatkan beberapa atau semua pola yang tersembunyi salah satu hasil kelompok yang baik. Sedangkan pada proses clustering, proses pengelompokkan kejadian dalam klas akan dilakukan secara alami tanpa mengidentifikasi klas-klas sebelumnya. Poses berikut memberikan manfaat clustering bedasarkan klasifikasi.
1. Kelompok hasil pencarian search engine 2. Penelusuran hasil pencarian data
3. Kelompok koleksi dokumen pada cluster 4. Pencarian dan pengaturan dokumen
5. Tingkatan precision dan recall pada information retrieval 6. Meningkatan kecepatan pencarian pada search engine 7. Penentuan topik dokumen
8. Clustering ialah segmentasi data yang sangat berguna dalam prediksi dan analisa masalah bisnis tertentu. Misalnya Segmentasi pasar, marketing dan pemetaan zonasi wilayah.
9. Identifikasi objek dalam bidang berbagai bidang seperti computer vision dan image processing.
Pendekatan clustering sangat berpengaruh di wilayah mirip dibagian clusternya. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki (Oliveira et al, 2007). Sebenarnya dengan pendekatan partisi pengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster yang ada. Clustering hirarki sangat mirip Ketika mendekati data dalam cluster yang berbeda (Self-Organising Map/SOM).
Tujuan utama dari metode clustering adalah pengelompokan sejaumlah objek kedalam cluster sehingga setiap cluster akan berisi data yang semirip mungkin. Artinya, objek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan objek yang ada dalam cluster lainnya. (Santosa, 2007)
Gambar 2.2 Contoh proses clustering(sumber ; Nugraheni, 2011)
2.4 Algoritma K-Means
K-Means salah satu algoritma dengan partitional, karena K-Means didasarkan pada penentuan jumlah awal kelompok dengan mendefinisikan nilai centroid pada dasarnya . Algoritma K-Means menggunakan proses secara berulang-ulang untuk mendapatkan basis data cluster. Partitional clustering ialah hasil data yang dikelompokkan ke dalam sejumlah cluster tanpa adanya struktur hirarki antara satu sama yang lain. Pada metode partitional clusteringsetiap cluster memiliki titik pusat cluster (centroid) secara umum metode ini memiliki fungsi tujuan yaitu minimum jarak dari keseluruh data ke pusat cluster masing-masing. Contoh metode partitional clustering: K-Means, Fuzzy K-means dan Mixture Modelling.
G ambar 2.2 Proses Clustering Obyek Menggunakan metode k-Mean (Sumber: Han dkk, 2012)
K-Means menggunakan teknik yang sederhana dan cukup cepat dalam proses clustering obyek (clustering). Algoritma K-mean mendefinisikan centroid atau
pusat cluster dari cluster menjadi rata-rata point dari cluster tersebut. Dalam penerapan algoritma k-Means, jika diberikan sekumpulan data X = {x1, x2,
…,xn} maka xi = (xi1, xi2, …, xin) adalah ystem dalam ruang real Rn, maka algoritma k-Means akan menyalin partisi X dalam sejumlah k cluster. Sehingga setiap cluster memiliki wilayah titik tengah (centroid) yang merupakan nilai rata- rata (mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k- Means adalah memilih secara acak k buah obyek sebagai centroid untuk data.
Jumlah cluster awal yang diminta sebagai masukan dan hasil jumlah cluster akhir sebagai output. Jika algoritma diperlukan untuk menghasilkan cluster K maka akan ada K awal dan K akhir. Metode K-Means akan memilih pola k sebagai titik awal centroid secara acak. Jumlah iterasi untuk mencapai cluster centroid akan dipengaruhi oleh cluster centroid secara random dimana jika posisi centroid baru tidak akan berubah atau teracak. Nilai K yang dipilih menjadi pusat awal, akan dihitung dengan menggunakan rumus Euclidean Distance yaitu mencari jarak terdekat antara titik centroid dengan data/objek. Data yang memiliki jarak pendek atau terdekat dengan centroid akan membentuk sebuah cluster. Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Pada umumnya metode k-means ini melakukan proses pengelompokan dengan tahapan sebagai berikut:
1. Menentukan jumlah cluster
2. Lokasi data secara random ke cluster tersebut
3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya 4. Lokasikan kembali semua data ke cluster yang terdekat
5. Ulang proses pada nomor 3 (tiga), sampai proses tidak ada perubahan atau perubahan yang rusak terjadi di bawah threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan
Berikut ini tahap-tahap dalam menyelesaikan algoritma K-Means 1. Tentukan k sebagai jumlah cluster yang akan rancang 2. Tentukan k Centroid (titik pusat cluster) awal secara acak
= ∑ − 1 …….i=1,2,3,….,n ... (1)
Dimana : v = centroid pada cluster Xi = objek ke-i
n= banyaknya objek/jumlah objek yang menjadi anggota cluster
3. Hitung jarak objek ke centroid dari masing-masing cluster. Untuk menghitung jarak antara objek dengan centroid untuk dapat menggunakan Euclidian Distance.
( , ) = | − || = √∑ ( − ) ; I = 1,2,3….,n ... (2)
−1
Dimana : Xi = objek x ke i Yi = daya y ke i
N = banyaknya objek
4. Alokasikan masing-masing objek ke dalam centroid yang paling dekat 5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan
menggunakan persamaan
6. Ulangi langkah 3 jika posisi centroid baru tidak sama
start
Set hitungan cluster k
Tentukan titik k
Tentukan jarak objek dengan k centroid
Clustering terhadap jarak minimum
Apakah ya
centroid selalu mirip ?
tidak
selesai
Gambar 2.4 Flowchart algoritma K-means 2.5 Metode Silhouette
Silhouette Coefficient ialah untuk melihat kualitas pada kekuatan cluster, seberapa ofisien suatu objek ditempatkan dalam suatu cluster. Metode ini merupakan gabungan dari metode cohesion dan separation. Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut:
1. Rata-rata jarak dari suatu dokumen misalkan i dengan semua dokumen lain yang berada dalam satu cluster
( ) =| |−1 ∑ 1 ∈ ≠ , ( , )………(3)
Dimana : j adalah dokumen lain dalam satu cluster A d(I,j) adalah jarak antara dokumen I dengan j.
13
2. Hitung rata-rata jarak dari dokumen i tersebut dengan semua dokumen di cluster lain, dan diambil nilai terkecilnya.
( , ) = 1
| | ∑ ∈ ( , ) ………(4)
Dimana d(I,C) adalah jarak rata-rata document i dengan semua objek pada cluster lain C dimana A ≠ C
( ) = min ≠ ( , ) ... (5)
3. Nilai Silhouette Coefficient nya adalah :
( ) = ( )− ( ) ………(6)
max ( ( ), ( ))
2.6 Riset Terkait
Pada peneitian ini suatu acuan dalam penulisan penelitian sehingga penulisan dapat memberikan banyak teori untuk digunakan dalam kajian penelitian yang dilakukan. Dari penelitian terdahulu, sampai saat ini penulis tidak menemukan penelitian dengan judul yang sama seperti judul penulis. Namun penulis mengangkat penulisan beberapa metode penelitian sebagai referensi dalam menganalisa sebuah metode dan memperkaya bahan kajian pada penelitian penulis. Berikut ini adalah penelitian terdahulu berupa beberapa jurnal terkait dengan penelitian yang dilakukan penulis.
Tabel 2.1 Riset-riset terkait
No Judul Riset Nama dan Metode yang Hasil penelitian
Tahun digunakan
Penelitan
1 Modifikasi K-Means Ulya. M Algoritma K- Tingkat akurasi metode Berbasis Ordered (2011) Means OWA k-means berbasis OWA
Weighted Averaging dalam klastering data
(OWA) Untuk Kasus set iris adalah 96.67%
Klastering
14
2 Algoritma modified k- Rena Algoritma k- Modifikasi Algoritma means clustering pada Nainggolan means dan K-Means Clustering penentuan cluster centre (2014) sum of dengan berbasis SSE berbasis sum of squared squared error lebih optimum
error (SSE)
3 Integration K-Means M A Saakut, K-Means dan K=3 adalah hasil cluster
Clustering Method and B K Elbow yang optimal dengan
Elbow Method For Khotimah, E jumlah data testing 500.
Identification of The Best M S Customer Profile Cluster Rochman, B
D Satoto (2017)
4 Pemilihan Distance Mario Distance Distance measure paling Measure Pada K-Means Anggara, measure dan maksimal untuk
Clustering Untuk Herry K-Means digunakan dalam kasus
Pengelompokkan Sujiani, Helfi pengelompokkan
Member Di Alvaro Nasution member di Alvaro
Fitness (2016) fitness adalah
Chebyshev Distance
2.7 Perbedaan Penelitian dengan Penelitian Terdahulu
Berdasarkan riset yang sudah pernah dilakukan, peneliti mampu membuat perbedaan dalam penelitian ini sebagai berikut :
1. Algoritma K-Means yang digunakan dalam penentuan pusat cluster adalah algoritma modified K-Means berbasais Silhouette.
2. Untuk menghitung jarak antara distance antara data dan centroid menggunakan Euclidienc Distance Space.
3. Nilai K hasil dari Silhouette akan dilihat nilai SSE( Sum Of Sequere Error) pada nilai cluster yang dihasilkan.
BAB III
METODE PENELITIAN
Proses penelitian tentang analisis dan pemodelan menjadi persoalan teknik informasi pada saat meneliti yang belum benar dilakukan terknik untuk menentukan cluster yang optimum.
3.1 Rancangan Algoritma
Desain diagram alir untuk penentuan jumlah cluster optimum K-Means menggunakan algoritma Silhouette dapat digambarkan sebagai berikut :
Start
Jumlah Cluster
Nilai K
Hitung Jarak
Euclidean Manhattan Chebyshev Minkowski
Kelompok Berdasarkan Jarak
Apakah sentroid Tidak
Silhouette coefficient
Selesai
Gambar 3.1 Struktur K-Means metode Silhouette
Algoritma diatas menjelaskan langkah-langkag berikut : 1. Cluster yang akan di uji
2. Pusat cluster secara random.
3. Jumlah cluster adalah sebanyak 3 cluster.
4. Menghitung jarak setiap cluster menggunakan Euclidean distance, Manhattan distance, Chebyshev distance dan Minkowski distance 5. Data berdasarkan jarak yang sudah dihitung.
6. Perhitungan jarak dan menentukan jumlah cluster yang optimum.
3.2 Metode penelitian
perancangan k-means dalam penelitian ini sebagai berikut:
1. Studi literatur
Studi literatur penelitian ini untuk mengumpulkan laporan yang efesien tentang algoritma k-means dan Silhouette dari berbagai sumber buku dan jurnal.
2. Analisa permasalahan
Analisis data studi literatur untuk mengumpulkan dan memberi pemahaman tentang algoritma K-Means dan Silhouette untuk menghitung jumlah cluster optimum.
3. Inisialisasi data
Jika data tidak valid maka dilakukan observasi lapangan kembali.
4. Penyusunan dataset pengujian
Setelah didapat data yang valid, maka sekarang disusun metode- metode pengujian agar tujuan penelitian terpenuhi.
5. Pelaksanaan pengujian menggunakan aplikasi dan Evaluasi hasil.
6. Tahap ini untuk menguji data menggunakan program aplikasi dan melakukan analisa terhadap hasil pengujian dan evaluasi kesalahan.
7. Menyusun buku tugas akhir.
Tahap akhir ini merupakan dokumentasi dari teori-teori penunjang, perancangan system aplikasi, hasil dan analisa pengujian, serta saran dan kesimpulan.
Gambar 3.2 Langkah-Langkah Penelitian
BAB IV
HASIL DAN PEMBAHASAN
4.1 Hasil Pengujian
Untuk menguji penulis menggunakan beberapa data yang bersumber dari repository UCI Machine Learning. Adapun ringkasan dataset table 4.1 berikut :
Tabel 4.1 Ringkasan Dataset
No Dataset Jumlah Jumlah Jenis Data Tipe
Data Atribut Data
1 Iris 150 4 Numerik Real
2 Blood Transfusion
748 5 Numerik Real
Service Center
3 Wholesale
440 6 Numerik Real
Customers
Mendapatkan jumlah cluster optimal yang menganalisa hasil perhitungan k-means menggunakan shilhoutte.
4.2 Dataset Blood Transfusion Service Center
Untuk mendukung kelancaran penelitian ini, berikut akan di paparkan dataset Blood Transfussion Service Center untuk perhitungan manual yang diperoleh dari
proses clustering digunakan 748 dengan total atribut 5 didalamnya. Dataset tersebut dapat dilihat pada table berikut :
Tabel 4.2 Dataset Blood Transfussion Service Center Dataset Blood Transfussion Service Center
Nomor V1 V2 V3 V4 Class
1 2 50 12500 98 2
2 0 13 3250 28 2
3 1 16 4000 35 2
4 2 20 5000 45 2
5 1 24 6000 77 1
6 4 4 1000 4 1
7 2 7 1750 14 2
8 1 12 3000 35 1
9 2 9 2250 22 2
10 5 46 11500 98 2
11 4 23 5750 58 1
12 0 3 750 4 1
13 2 10 2500 28 2
14 1 13 3250 47 1
15 2 6 1500 15 2
16 2 5 1250 11 2
17 2 14 3500 48 2
18 2 15 3750 49 2
19 2 6 1500 15 2
20 2 3 750 4 2
21 2 3 750 4 2
22 4 11 2750 28 1
23 2 6 1500 16 2
24 2 6 1500 16 2
25 9 9 2250 16 1
26 4 14 3500 40 1
27 4 6 1500 14 1
28 4 12 3000 34 2
29 4 5 1250 11 2
30 4 8 2000 21 1
31 1 14 3500 58 1
32 4 10 2500 28 2
33 4 10 2500 28 2
34 4 9 2250 26 2
35 2 16 4000 64 1
36 2 8 2000 28 2
37 2 12 3000 47 2
Dataset Blood Transfussion Service Center
Nomor V1 V2 V3 V4 Class
38 4 6 1500 16 2
39 2 14 3500 57 2
40 4 7 1750 22 2
41 2 13 3250 53 2
42 2 5 1250 16 1
43 2 5 1250 16 2
44 2 5 1250 16 1
45 4 20 5000 69 2
46 4 9 2250 28 2
47 2 9 2250 36 1
48 2 2 500 2 1
49 2 2 500 2 1
50 2 2 500 2 1
51 2 11 2750 46 1
52 2 11 2750 46 2
53 2 6 1500 22 1
54 2 12 3000 52 1
55 4 5 1250 14 2
56 4 19 4750 69 2
57 4 8 2000 26 2
58 2 7 1750 28 2
59 2 16 4000 81 1
60 3 6 1500 21 1
61 2 7 1750 29 1
62 2 8 2000 35 2
63 2 10 2500 49 1
64 4 5 1250 16 2
65 2 3 750 9 2
66 3 16 4000 74 1
67 2 4 1000 14 2
68 0 2 500 4 1
69 4 7 1750 25 1
70 1 9 2250 51 1
71 2 4 1000 16 1
72 2 4 1000 16 1
73 4 17 4250 71 2
74 2 2 500 4 1
75 2 2 500 4 2
76 2 2 500 4 2
Dataset Blood Transfussion Service Center
Nomor V1 V2 V3 V4 Class
77 2 4 1000 16 2
78 2 2 500 4 1
79 2 2 500 4 1
80 2 2 500 4 1
81 4 6 1500 23 2
82 2 4 1000 16 1
83 2 4 1000 16 1
84 2 4 1000 16 1
85 2 6 1500 28 2
86 2 6 1500 28 1
87 4 2 500 4 1
88 4 2 500 4 1
89 4 2 500 4 1
90 2 7 1750 35 2
91 4 2 500 4 2
92 4 2 500 4 1
93 4 2 500 4 1
94 4 2 500 4 1
95 12 11 2750 23 1
96 4 7 1750 28 1
97 3 17 4250 86 1
98 4 9 2250 38 2
99 4 4 1000 14 2
100 5 7 1750 26 2
101 4 8 2000 34 2
102 2 13 3250 76 2
103 4 9 2250 40 1
104 2 5 1250 26 1
105 2 5 1250 26 1
106 6 17 4250 70 1
107 0 8 2000 59 1
108 3 5 1250 26 1
109 2 3 750 14 1
110 2 10 2500 64 1
… … … …
… … … …
… … … …
… … … …
748 72 1 250 72 1
Setelah data ini di input, maka selanjutkan akan dilakukan algoritma k-means.
4.3 Pencarian K-Means
Tahapan akan dilakukan menggunakan k-means pada dataset blood Transfusion Service Center. Perhitungan akan dilakukan menggunakan pusat cluster dua (dua) samapi dengan 10 (sepuluh) yang diambil secara acak. Berikut penyelesaiannya :
1. K = 2
Dengan pusat cluster yang diambil secara acak berada pada data ke :1 dan 9 yaitu (2, 50, 12500, 98, 2) dan (2, 9, 2250, 22, 2). Dengan jarak yang dihitung menggunakan Euclidean Distance. Perhitungan 1 sampai 10: a. Jarak data ke- 1 dengan pusat cluster
(1, 1) = √(2 − 2)2 + (50 − 50)2 + (12500 − 12500)2 + (98 − 98)2 + (2 − 2)2 (1, 1) = 0
(1, 2) = √(2 − 2)2 + (50 − 9)2 + (12500 − 2250)2 + (28 − 22)2 + (2 − 2)2 (1, 2) = 10250.36
b. Jarak data ke-2 dengan pusat cluster
(2, 1) = √(0 − 2)2 + (13 − 50)2 + (3250 − 12500)2 + (28 − 98)2 + (2 − 2)2 (2, 1) = 9250.339.
(2, 2) = √(0 − 2)2 + (13 − 9)2 + (3250 − 2250)2 + (28 − 22)2 + (2 − 2)2 (2, 2) = 1000.028
c. Jarak data ke-3 dengan pusat cluster
(3, 1) = √(1 − 2)2 + (16 − 50)2 + (4000 − 12500)2 + (35 − 98)2 + (2 − 2)2 (3, 1) = 8500.302 (3, 2) = √(1 − 2)2 + (16 − 9)2 + (4000 − 2250)2 + (35 − 22)2 + (2 − 2)2 (3, 2) = 1750.063
d. Jarak data ke-4 dengan pusat cluster
(4, 1) = √(2 − 2)2 + (20 − 50)2 + (5000 − 12500)2 + (45 − 98)2 + (2 − 2)2 (4, 1) = 7500.247 (4, 2) = √(2 − 2)2 + (20 − 9)2 + (5000 − 2250)2 + (45 − 22)2 + (2 − 2)2 (4, 2) = 2750.118
e. Jarak data ke-5 dengan pusat cluster
23
(5, 1) = √(1 − 2)2 + (24 − 50)2 + (6000 − 12500)2 + (77 − 98)2 + (1 − 2)2
(5, 1) = 6500.086
(5, 2) = √(1 − 2)2 + (24 − 9)2 + (6000 − 2250)2 + (77 − 22)2 + (1 − 2)2 (5, 2) = 3750.434
f. Jarak data ke-6 dengan pusat cluster
(6, 1) = √(4 − 2)2 + (4 − 50)2 + (1000 − 12500)2 + (4 − 98)2 + (1 − 2)2
(6, 1) = 11500.48
(6, 2) = √(4 − 2)2 + (4 − 9)2 + (1000 − 2250)2 + (4 − 22)2 + (1 − 2)2 (6, 2) = 1250.142
g. Jarak data ke-7 dengan pusat cluster
(7, 1) = √(2 − 2)2 + (7 − 50)2 + (1750 − 12500)2 + (14 − 98)2 + (2 − 2)2
(7, 1) = 10750.41
(7, 2) = √(2 − 2)2 + (7 − 9)2 + (1750 − 2250)2 + (14 − 22)2 + (2 − 2)2 (7, 2) = 500.068
h. Jarak data ke -8 dengan pusat cluster
(8, 1) = √(1 − 2)2 + (12 − 50)2 + (3000 − 12500)2 + (35 − 98)2 + (1 − 2)2
(8, 1) = 9500.285
(8, 2) = √(1 − 2)2 + (12 − 9)2 + (3000 − 2250)2 + (35 − 22)2 + (1 − 2)2 (8, 2) = 750.12
i. Jarak data ke -9 dengan pusat cluster
(9, 1) = √(2 − 2)2 + (9 − 50)2 + (2250 − 12500)2 + (22 − 98)2 + (2 − 2)2
(9, 1) = 10250.36
(9, 2) = √(2 − 2)2 + (9 − 9)2 + (2250 − 2250)2 + (22 − 22)2 + (2 − 2)2 (9, 2) = 0
j. Jarak data ke -10 dengan pusat cluster
(10, 1) = √(5 − 2)2 + (46 − 50)2 + (11500 − 12500)2 + (98 − 98)2 + (2 − 2)2
(10 1) = 1000.12
(10, 2) = √(5 − 2)2 + (46 − 9)2 + (11500 − 2250)2 + (98 − 22)2 + (2 − 2)2 (10, 2) = 9250.387
Perhitungan data dengan kedua cluster, dapat dilihat pada tabel 4.3 berikut:
Tabel 4.3 Pencarian jarak dengan titik pada cluster
date ke c1 c2
1 0 10250.36
24
date ke c1 c2 2 9250.339 1000.028 3 8500.302 1750.063 4 7500.247 2750.118 5 6500.086 3750.434 6 11500.48 1250.142 7 10750.41 500.068 8 9500.285 750.12
9 10250.36 0
10 1000.012 9250.387 11 6750.173 3500.214 12 11750.47 1500.122 13 10000.32 250.074 14 9250.215 1000.321 15 11000.4 750.0387 16 11250.43 1000.068 17 9000.211 1250.28 18 8750.207 1500.255 19 11000.4 750.0387 20 11750.47 1500.12 21 11750.47 1500.12 22 9750.33 500.045 23 11000.39 750.03 24 11000.39 750.03 25 10250.41 9.273618 26 9000.259 1250.142 27 11000.41 750.052 28 9500.292 750.1047 29 11250.43 1000.07 30 10500.37 250.014 31 9000.161 1250.529 32 10000.33 250.082 33 10000.33 250.082 34 10250.34 4.472136 35 8500.136 1750.518 36 10500.32 250.074 37 9500.213 750.4225 38 11000.39 750.0327 39 9000.165 1250.5 40 10750.35 500.008 41 9250.183 1000.488
date ke c1 c2 42 11250.39 1000.026 43 11250.39 1000.026 44 11250.39 1000.026 45 7500.116 2750.424 46 10250.32 6.324555 47 10250.27 14.03567 48 12000.48 1750.129 49 12000.48 1750.129 50 12000.48 1750.129 51 9750.217 500.5807 52 9750.217 500.5797 53 11000.35 750.0067 54 9500.187 750.6064 55 11250.4 1000.042 56 7750.117 2500.463 57 10500.33 250.042 58 10750.31 500.04 59 8500.085 1751.009 60 11000.36 750.008 61 10750.31 500.054 62 10500.27 250.3398 63 10000.2 251.4577 64 11250.39 1000.028 65 11750.43 1500.068 66 8500.102 1750.787 67 11500.4 1250.036 68 12000.46 1750.108 69 10750.33 500.018 70 10250.19 29.03446 71 11500.38 1250.025 72 11500.38 1250.025 73 8250.11 2000.617 74 12000.46 1750.107 75 12000.46 1750.107 76 12000.46 1750.107 77 11500.38 1250.024 78 12000.46 1750.107 79 12000.46 1750.107 80 12000.46 1750.107 81 11000.34 750.0093
date ke c1 c2 82 11500.38 1250.025 83 11500.38 1250.025 84 11500.38 1250.025 85 11000.31 750.03 86 11000.31 750.0307 87 12000.46 1750.108 88 12000.46 1750.108 89 12000.46 1750.108 90 10750.27 500.173 91 12000.46 1750.108 92 12000.46 1750.108 93 12000.46 1750.108 94 12000.46 1750.108 95 9750.372 500.106 96 10750.31 500.045 97 8250.075 2001.04 98 10250.26 16.12452 99 11500.4 1250.037 100 10750.33 500.029
… … …
… … …
... … …
748 12250.33 2001.865
Langkah selanjutnya yaitu menentukan centroid (mean) pada cluster. Setelah diperoleh nilai baru maka selanjutnya akan kembali menghitung jarak. Iterasi selanjutnya akan dihitung dengan cara yang sama dan perpindahan data lain.
Setelah tidak terjadi perpindahan data dari cluster yang satu dengan yang lainnya, maka proses clustering dihentikan. Pada pengujian yang dilakukan menggunakan dataset Blood Transfusion Service Center dengan jumlah pusat cluster 2 (dua) berhenti pada iterasi ke – 12 (dua belas). Berikut merupakan hasil akhir pengujian yang dilakukan.
Tabel 4.4 Pengujian k-means dengan pusat cluster 2 date ke Hasil Clustering
Data 1 Clustering 1
Data 2 Clustering 1
date ke Hasil Clustering
Data 3 Clustering 1
Data 4 Clustering 1
Data 5 Clustering 1
Data 6 Clustering 2
Data 7 Clustering 2
Data 8 Clustering 1
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 1
Data 12 Clustering 2
Data 13 Clustering 2
Data 14 Clustering 1
Data 15 Clustering 2
Data 16 Clustering 2
Data 17 Clustering 1
Data 18 Clustering 1
Data 19 Clustering 2
Data 20 Clustering 2
Data 21 Clustering 2
Data 22 Clustering 2
Data 23 Clustering 2
Data 24 Clustering 2
Data 25 Clustering 2
Data 26 Clustering 2
Data 27 Clustering 2
Data 28 Clustering 1
Data 29 Clustering 2
Data 30 Clustering 2
Data 31 Clustering 1
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 1
Data 36 Clustering 2
Data 37 Clustering 1
Data 38 Clustering 2
Data 39 Clustering 1
Data 40 Clustering 2
Data 41 Clustering 1
Data 42 Clustering 2
date ke Hasil Clustering
Data 43 Clustering 2
Data 44 Clustering 2
Data 45 Clustering 1
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 2
Data 49 Clustering 2
Data 50 Clustering 2
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 2
Data 54 Clustering 1
Data 55 Clustering 2
Data 56 Clustering 1
Data 57 Clustering 2
Data 58 Clustering 2
Data 59 Clustering 1
Data 60 Clustering 2
Data 61 Clustering 2
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 2
Data 65 Clustering 2
Data 66 Clustering 1
Data 67 Clustering 2
Data 68 Clustering 2
Data 69 Clustering 2
Data 70 Clustering 2
Data 71 Clustering 2
Data 72 Clustering 2
Data 73 Clustering 1
Data 74 Clustering 2
Data 75 Clustering 2
Data 76 Clustering 2
Data 77 Clustering 2
Data 78 Clustering 2
Data 79 Clustering 2
Data 80 Clustering 2
Data 81 Clustering 2
Data 82 Clustering 2
date ke Hasil Clustering
Data 83 Clustering 2
Data 84 Clustering 2
Data 85 Clustering 2
Data 86 Clustering 2
Data 87 Clustering 2
Data 88 Clustering 2
Data 89 Clustering 2
Data 90 Clustering 2
Data 91 Clustering 2
Data 92 Clustering 2
Data 93 Clustering 2
Data 94 Clustering 2
Data 95 Clustering 2
Data 96 Clustering 2
Data 97 Clustering 1
Data 98 Clustering 2
Data 99 Clustering 2
Data 100 Clustering 2
… …
… …
... …
Data 748 Clustering 2
Dari 748 data, yang termasuk dalam Clustering 1 sebanyak 81 data dan yang termasuk ke dalam Clustering 2 sebanyak 657.
2. K = 3
Dengan menggunakan pusat cluster sebanyak 3 pusat cluster yang diambil secara acak berhenti di iterasi ke-2 dengan hasil akhir Clustering sebagai berikut :
Tabel 4.5 Pengujian k-means pada pusat cluster 2 date ke Hasil Clustering
Data 1 Clustering 1
Data 2 Clustering 2
Data 3 Clustering 2
Data 4 Clustering 2
Data 5 Clustering 2
Data 6 Clustering 3
date ke Hasil Clustering
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 2
Data 12 Clustering 3
Data 13 Clustering 2
Data 14 Clustering 2
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 2
Data 18 Clustering 2
Data 19 Clustering 3
Data 20 Clustering 3
Data 21 Clustering 3
Data 22 Clustering 2
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 2
Data 27 Clustering 3
Data 28 Clustering 2
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 2
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 2
Data 36 Clustering 2
Data 37 Clustering 2
Data 38 Clustering 3
Data 39 Clustering 2
Data 40 Clustering 3
Data 41 Clustering 2
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 2
Data 46 Clustering 2
date ke Hasil Clustering
Data 47 Clustering 2
Data 48 Clustering 3
Data 49 Clustering 3
Data 50 Clustering 3
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 3
Data 54 Clustering 2
Data 55 Clustering 3
Data 56 Clustering 2
Data 57 Clustering 2
Data 58 Clustering 3
Data 59 Clustering 2
Data 60 Clustering 3
Data 61 Clustering 3
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 3
Data 66 Clustering 2
Data 67 Clustering 3
Data 68 Clustering 3
Data 69 Clustering 3
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 2
Data 74 Clustering 3
Data 75 Clustering 3
Data 76 Clustering 3
Data 77 Clustering 3
Data 78 Clustering 3
Data 79 Clustering 3
Data 80 Clustering 3
Data 81 Clustering 3
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 3
Data 86 Clustering 3
date ke Hasil Clustering
Data 87 Clustering 3
Data 88 Clustering 3
Data 89 Clustering 3
Data 90 Clustering 3
Data 91 Clustering 3
Data 92 Clustering 3
Data 93 Clustering 3
Data 94 Clustering 3
Data 95 Clustering 3
Data 96 Clustering 3
Data 97 Clustering 2
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 3
… …
… …
... …
Data 748 Clustering 3
Dari 748 data yang dihitung dengan pusat cluster 3, yang termasuk dalam Clustering 1 sebanyak 8, Clustering 2 sebanyak 164, Clustering 3 sebanyak 576.
3. K = 4
Dengan menggunakan pusat cluster sebanyak 4 pusat cluster yang diambil secara acak berhenti di iterasi ke-4 dengan hasil akhir Clustering ini :
Tabel 4.6 Perhitungan k-means dengan pusat cluster sebanyak 4 date ke Hasil Clustering
Data 1 Clustering 1
Data 2 Clustering 2
Data 3 Clustering 2
Data 4 Clustering 2
Data 5 Clustering 2
Data 6 Clustering 4
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 3
date ke Hasil Clustering
Data 10 Clustering 1
Data 11 Clustering 2
Data 12 Clustering 4
Data 13 Clustering 3
Data 14 Clustering 2
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 2
Data 18 Clustering 2
Data 19 Clustering 3
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 2
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 3
Data 26 Clustering 2
Data 27 Clustering 3
Data 28 Clustering 2
Data 29 Clustering 3
Data 30 Clustering 3
Data 31 Clustering 2
Data 32 Clustering 3
Data 33 Clustering 3
Data 34 Clustering 3
Data 35 Clustering 2
Data 36 Clustering 3
Data 37 Clustering 2
Data 38 Clustering 3
Data 39 Clustering 2
Data 40 Clustering 3
Data 41 Clustering 2
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 2
Data 46 Clustering 3
Data 47 Clustering 3
Data 48 Clustering 4
Data 49 Clustering 4
date ke Hasil Clustering
Data 50 Clustering 4
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 3
Data 54 Clustering 2
Data 55 Clustering 3
Data 56 Clustering 2
Data 57 Clustering 3
Data 58 Clustering 3
Data 59 Clustering 2
Data 60 Clustering 3
Data 61 Clustering 3
Data 62 Clustering 3
Data 63 Clustering 3
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 2
Data 67 Clustering 4
Data 68 Clustering 4
Data 69 Clustering 3
Data 70 Clustering 3
Data 71 Clustering 4
Data 72 Clustering 4
Data 73 Clustering 2
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 4
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 3
Data 82 Clustering 4
Data 83 Clustering 4
Data 84 Clustering 4
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
date ke Hasil Clustering
Data 90 Clustering 3
Data 91 Clustering 4
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 4
Data 95 Clustering 2
Data 96 Clustering 3
Data 97 Clustering 2
Data 98 Clustering 3
Data 99 Clustering 4
Data 100 Clustering 3
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan pusat cluster 4, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 95 data, Clustering 3 sebanyak 226 data, dan Clustering ke 4 sebanyak 419 data.
4. K = 5
Dengan menggunakan pusat cluster sebanyak 5 pusat cluster yang diambil secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering ini:
Tabel 4.7 Hasil akhir k-means pada pusat cluster 5 date ke Hasil Clustering
Data 1 Clustering 1
Data 2 Clustering 2
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 3
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 2
date ke Hasil Clustering
Data 10 Clustering 1
Data 11 Clustering 5
Data 12 Clustering 4
Data 13 Clustering 2
Data 14 Clustering 2
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 5
Data 18 Clustering 5
Data 19 Clustering 3
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 2
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 5
Data 27 Clustering 3
Data 28 Clustering 2
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 5
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 2
Data 37 Clustering 2
Data 38 Clustering 3
Data 39 Clustering 5
Data 40 Clustering 3
Data 41 Clustering 2
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 4
Data 49 Clustering 4
date ke Hasil Clustering
Data 50 Clustering 4
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 3
Data 54 Clustering 2
Data 55 Clustering 3
Data 56 Clustering 5
Data 57 Clustering 2
Data 58 Clustering 3
Data 59 Clustering 5
Data 60 Clustering 3
Data 61 Clustering 3
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 5
Data 67 Clustering 3
Data 68 Clustering 4
Data 69 Clustering 3
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 5
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 3
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 3
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
date ke Hasil Clustering
Data 90 Clustering 3
Data 91 Clustering 4
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 2
Data 95 Clustering 3
Data 96 Clustering 5
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 3
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan jumlah pusat cluster 5, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 114 data, Clustering 3 sebanyak 219 data, Clustering ke 4 sebanyak 357 data dan Clustering 5 sebanyak 50 data.
5. K = 6
Dengan menggunakan pusat cluster sebanyak 6 pusat cluster yang diambil secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering sebagai berikut :
date ke Hasil Clustering
Data 1 Clustering 1
Data 2 Clustering 6
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 3
Data 7 Clustering 2
Data 8 Clustering 6
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 5
date ke Hasil Clustering
Data 12 Clustering 4
Data 13 Clustering 2
Data 14 Clustering 6
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 6
Data 18 Clustering 6
Data 19 Clustering 3
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 6
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 6
Data 27 Clustering 3
Data 28 Clustering 6
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 6
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 2
Data 37 Clustering 6
Data 38 Clustering 3
Data 39 Clustering 6
Data 40 Clustering 2
Data 41 Clustering 6
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 4
Data 49 Clustering 4
Data 50 Clustering 4
Data 51 Clustering 6
date ke Hasil Clustering
Data 52 Clustering 6
Data 53 Clustering 3
Data 54 Clustering 6
Data 55 Clustering 3
Data 56 Clustering 5
Data 57 Clustering 2
Data 58 Clustering 2
Data 59 Clustering 5
Data 60 Clustering 3
Data 61 Clustering 2
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 5
Data 67 Clustering 3
Data 68 Clustering 4
Data 69 Clustering 2
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 5
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 3
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 3
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
Data 90 Clustering 2
Data 91 Clustering 4
date ke Hasil Clustering
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 4
Data 95 Clustering 6
Data 96 Clustering 2
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 2
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan jumlah pusat cluster 6, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 112 data, Clustering 3 sebanyak 176 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31 data dan Clustering 6 sebanyak 64.
6. K = 7
Dengan menggunakan pusat cluster sebanyak 7 pusat cluster yang diambil secara acak berhenti di iterasi ke-8 dengan hasil akhir Clustering sebagai berikut :
date ke Hasil Clustering
Data 1 Clustering 1
Data 2 Clustering 6
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 3
Data 7 Clustering 7
Data 8 Clustering 6
Data 9 Clustering 2
Data 10 Clustering 1
date ke Hasil Clustering
Data 11 Clustering 5
Data 12 Clustering 4
Data 13 Clustering 2
Data 14 Clustering 6
Data 15 Clustering 7
Data 16 Clustering 3
Data 17 Clustering 6
Data 18 Clustering 6
Data 19 Clustering 7
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 6
Data 23 Clustering 7
Data 24 Clustering 7
Data 25 Clustering 2
Data 26 Clustering 6
Data 27 Clustering 7
Data 28 Clustering 6
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 6
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 2
Data 37 Clustering 6
Data 38 Clustering 7
Data 39 Clustering 6
Data 40 Clustering 7
Data 41 Clustering 6
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 4
Data 49 Clustering 4
Data 50 Clustering 4
date ke Hasil Clustering
Data 51 Clustering 6
Data 52 Clustering 6
Data 53 Clustering 7
Data 54 Clustering 6
Data 55 Clustering 3
Data 56 Clustering 5
Data 57 Clustering 2
Data 58 Clustering 7
Data 59 Clustering 5
Data 60 Clustering 7
Data 61 Clustering 7
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 5
Data 67 Clustering 3
Data 68 Clustering 4
Data 69 Clustering 7
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 5
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 3
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 7
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 7
Data 86 Clustering 7
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
Data 90 Clustering 7