• Tidak ada hasil yang ditemukan

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE TESIS HANDRY ELDO

N/A
N/A
Protected

Academic year: 2022

Membagikan "PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE TESIS HANDRY ELDO"

Copied!
75
0
0

Teks penuh

(1)

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE

TESIS

HANDRY ELDO 177038055

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2020

(2)

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

HANDRY ELDO 177038055

PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

2020

(3)
(4)
(5)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :

Nama NIM

Program Studi Jenis Karya Ilmiah

: HANDRY ELDO : 177038055

: Magister (S-2) Teknik Informatika : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti Free Right) atas tesis

saya yang berjudul :

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 30 Januari 2020

Handry Eldo 177038055

v

(6)

Telah diuji pada

Tanggal : 30 Januari 2020

PANITIA PENGUJI TESIS

Ketua : Dr. Syahril Efendi, S.Si., M.IT Anggota : 1.Prof. Herman Mawengkang : 2.Prof. Dr. Muhammad Zarlis

: 3.Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng.

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama Lengkap

Tempat dan Tanggal Lahir Alamat Rumah

Telepon/HP/WA Email

: Handry Eldo

: Lhokseumawe, 04 Juli 1991

: Hagu Kec. Banda Sakti Kab. Lhokseumawe Prov.Aceh

: 085297000022

: [email protected]

DATA PENDIDIKAN

SD : SD Negeri 1 Lhokseumawe TAMAT : 2003

SMP : SLTP Negeri 2 Lhokseumawe TAMAT : 2006

SMA : SMA Negeri 2 Lhokseumawe TAMAT : 2009

S1 : Teknik Informatika Universitas Malikussaleh TAMAT : 2014 S2 : Teknik Informatika Universitas Sumatera Utara TAMAT : 2020

(8)

UCAPAN TERIMA KASIH

Puji dan syukur dipanjatkan kehadapan Tuhan Yang Maha Esa atas berkat, karena hanya atas karunia-Nya, tesis ini dapat diselesaikan berupa pengetahuan, kesehatan dan kesempatan yang diberikan kepada penulis sehingga dapat menyelesaikan tesis dengan judul “PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN ALGORITMA SILHOUETTE”. disusun untuk penyelesaian tugas akhir perkuliahan program pasca sarjana Universitas Sumatera Utara.

Pada kesempatan ini penulis ingin menyampaikan ucapan rasa terima kasih yang sebesar-besarnya di tujukan kepada :

1. Bapak Prof. Dr. Runtung Sitepu, S.H, M.Hum., selaku Rektor Universitas Sumatera Utara.

2. Bapak Prof. Dr. Opim Salim Sitompul., selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera Utara.

3. Bapak Prof. Dr. Muhammad Zarlis., selaku Ketua Program Studi Magister Teknik Informatika dan juga selaku Dosen Pembanding I yang dengan penuh perhatian telah memberikan dorongan, semangat, bimbingan, dan saran serta pembelajaran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.

4. Bapak Dr.Syahril Efendi, S.Si, M.IT., selaku Sekretaris Program Studi Magister Teknik Informatika dan juga selaku Dosen Pembimbing I yang selama ini telah memberikan saran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.

5. Bapak Prof. Herman Mawengkang., selaku Dosen Pembimbing II yang telah memberikan banyak saran serta pembelajaran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.

6. Bapak Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng., selaku Dosen Pembanding II yang yang selama ini telah memberikan saran yang berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.

(9)

7. Bapak/Ibu Dosen Program Studi Pasca Sarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Universitas Sumatera Utara yang telah memberikan bekal ilmu yang sangat berharga bagi penulis selama menjadi mahasiswa.

8. Seluruh Staf Akademika, dan Pegawai Program Studi Pasca Sarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Universitas Sumatera Utara yang telah membantu penulis dalam menyelesaikan penelitian ini.

9. Ayahanda Ibbaidullah dan Ibunda Nurhaslinda Meutia yang tercinta atas pengorbanan dan dukungan yang sangat luar biasa bagi penulis selama menjalani perkuliahan sehingga penulis dapat menjalani dan menyelesaikan studi.

10. Sahabat-sahabat yang luar biasa di Magister Teknik Informatika KOM-C 2017

Penulis menyadari bahwa masih banyak kekurangan dalam tesis ini, Akhir kata penulis berharap semoga tesis ini ada mamfaatnya bagi peneliti lainnya, khususnya dalam bidang pendidikan. Penulis menyadari masih ada kekurangan dalam penulisan tesis, untuk itu penulis mengharapkan kritik dan saran dari pembaca demi kesempurnaan penelitian selanjutnya.

Medan, 30 Januari 2020

(Handry Eldo)

(10)

ABSTRAK

Pada penelitian ini dilakukan untuk mendapatkan jumlah klaster terbaik dalam algoritma K-Means dengan menghitung nilai Silhouette Coefficient untuk setiap jumlah pusat klaster. Pada algoritma K-Means tahapan perhitungan jarak menggunakan Euclidean Distance. Dataset yang digunakan dalam percobaan penelitian ini diambil dari repository UCI Machine Learning dengan dataset Iris, Blood Transfusion Service Center, Wholesale Customers. Adapun hasil pecobaan dengan menggunakan 10 pusat cluster pada masing-masing dataset didapatkan dataset Iris dengan jumlah klaster optimum adalah k=2 dan indeks validitas Silhouette 0.681046, untuk dataset Blood Transfusion Service Center jumlah klaster optimum K=2 dan indeks validitas Silhouette 0.70497874. Sedangkan untuk dataset Wholesale Customers jumlah klaster optimum K=2 dengan indeks validitas silhouette 0.4263.

Kata Kunci : Dataset , Algoritma K-Means, Silhouette Coefficient

(11)

ABSTRACT

This research was conducted to get the best number of clusters in the K-Means algorithm by calculating the Silhouette Coefficient value for each number of cluster centers. In the K-Means algorithm the distance calculation step uses Euclidean Distance. The dataset used in this research experiment was taken from the UCI Machine Learning repository with Iris dataset, Blood Transfusion Service Center, Wholesale Customers. The results of experiments using 10 cluster centers in each dataset obtained Iris dataset with the optimum number of clusters is k = 2 and the Silhouette validity index 0.681046, for the Blood Transfusion Service Center dataset the optimum cluster number K = 2 and Silhouette validity index 0.70497874. As for the Wholesale Customers dataset, the optimum number of clusters is K = 2 with a silhouette validity index of 0.4263. Keywords: Dataset, K- Means Algorithm, Silhouette Coefficient

(12)

DAFTAR ISI

Hal.

HALAMAN JUDUL ... i

PERSETUJUAN ... ii

PERNYATAAN ORISINALITAS ... iii

PERSETUJUAN PUBLIKASI ... iv

PANITIA PENGUJI ... v

RIWAYAT HIDUP ... vi

UCAPAN TERIMA KASIH ... vii

ABSTRAK ... ix

ABSTRACT ... x

DAFTAR ISI ... xi

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xiii

BAB 1. PENDAHULUAN 1.1 Latar Belakang Masalah ... 1

1.2 Rumusan Masalah ... 2

1.3 Batasan Masalah ... 2

1.4 Tujuan Penelitian ... 3

1.5 Manfaat Penelitian ... 3

BAB 2. TINJAUAN PUSTAKA 2.1 Data Mining ... 4

2.2 Tahapan Data Mining ... 4

2.3 Metode Clustering ... 8

2.4 Manfaat Clutering Data ... 8

2.4.1 Algoritma K-Means ... 10

2.4.2 Metode Silhoutte ... 13

2.4.3 Riset Terkait... 14

2.4.4 Perbedaan Penelitian Dengan Penelitian Terdahulu ... 15

(13)

BAB 3. METODE PENELITIAN

3.1 Perancangan Algoritma 16 3.2 Metode Penelitian17 BAB 4. HASIL DAN PEMBAHASAN

4.1 Hasil Pengujian 19 4.2 Dataset Blood Transfusion Service Center 19 4.3 Perhitungan K-Means 24 4.4 Hasil Silhoutte Coeffcient64 4.5 Hasil Pengujian Menggunakan Dataset Lain 68 4.6 BAB 5. KESIMPULAN DAN SARAN

5.1 Kesimpulan 70 5.2 Saran 70 DAFTAR PUSTAKA

(14)

DAFTAR TABEL

Hal.

Tabel 2.1 Riset – Riset Terkait ... 14

Tabel 4.1 Ringkasan Dataset Yang Digunakan ... 19

Tabel 4.2 Dataset Blood Transfussion Service Center ... 20

Tabel 4.3 Perhitungan Jarak Dengan Titik Pusat Cluster ... 26

Tabel 4.4 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 2 ... 29

Tabel 4.5 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 3 ... 33

Tabel 4.6 Hasil Akhir Perhitungan K-means Dengan Pusat Cluster Sebanyak 4 37 Tabel 4.7 Hasil Akhir K-Means Dengan Jumlah Pusat Cluster 5 ... 41

Tabel 4.8 Hasil Akhir K-Means Pada Pusat Cluster 6 ... 44

Tabel 4.9 Hasil Akhir K-Means Pada Pusat Cluster 7 ... 48

Tabel 4.10 Hasil Akhir K-Means Pada Pusat Cluster 8 ... 52

Tabel 4.11 Hasil Akhir K-Means Pada Pusat Cluster 9 ... 56

Tabel 4.12 Hasil Akhir K-Means Pada Pusat Cluster 10 ... 60

Tabel 4.13 Hasil Akhir Pusat Cluster ... 64

Tabel 4.14 Shilhouette Coeffient ... 64

Tabel 4.15 Hasil Data Iris ... 68

Tabel 4.16 Hasil Wholesale Costomers ... 69

(15)

DAFTAR GAMBAR

Hal.

Gambar 2.1Proses Menggali Pengetahuan Dari Pangkalan Data ... 5

Gambar 2.2 Contoh Proses Clustering ... 10

Gambar 2.3 Proses Clustering Objek Menggunakan Metode K-Means ... 10

Gambar 2.4 Flowchart Algoritma K-Means ... 13

Gambar 3.1 Flowchart K-Means Berbasis Shilhouette ... 16

Gambar 3.2Langkah-langkah Penelitian ... 18

Gambar 4.1Nilai Shilhouette Dengan K=2 ... 65

Gambar 4.2Nilai Shilhouette Dengan K=3 ... 65

Gambar 4.3Nilai Shilhouette Dengan K=4 ... 66

Gambar 4.4Nilai Shilhouette Dengan K=5 ... 66

Gambar 4.5Nilai Shilhouette Dengan K=6 ... 66

Gambar 4.6Nilai Shilhouette Dengan K=7 ... 67

Gambar 4.7Nilai Shilhouette Dengan K=8 ... 67

Gambar 4.8Nilai Shilhouette Dengan K=9 ... 67

Gambar 4.9Nilai Shilhouette Dengan K=10 ... 68

(16)

BAB I PENDAHULUAN

1.1 Latar Belakang

Clustering merupakan proses pada pengelompokkan data kedalam beberapa cluster berdasarkan persamaan yang dimiliki data dalam suatu cluster tersebut tingkat kemiripan maksimal, Tan(2006). Proses partisi suatu objek data pada clustering. Sampai saat ini menggunakan algoritma clustering dan tidak dilakukan secara manual. Clustering sangat bermanfaat dalam menggelompokan yang tidak dikenal penggelompokan data. Sehingga Algoritma clustering sudah sangat banyak di pergunakan dalam berbagai bidang diantaranya pengolahan citra, pendukung dalam pengambilan keputusan, pengenalan pola hingga dalam bidang bioinformatika.

Di dalam sistem clustering terdapat beberapa pendekatan yang bisa menggelompokan data secara akurat dan benar. Algoritma k-means salah satu contohnya. K-means merupakan algoritma untuk menganalisa data ke partisian N untuk melakukan objek ke dalam data cluster. Setiap objek yang diamati dalam kelompok tersebut berdasarkan nilai jarak terdekat. Sehingga dapat mengoptimalkan objek dengan data yang lebih terukur.

K-means banyak digunakan lebih efektif dan efesien penglompokan data.

Salah satu yang menjadi faktornya adalah lebih mudah dipelajari dan waktu komputasi relatif lebih singkat. Penentuan hasil cluster k-means dilihat dari jarak objek. Sebelum mencari jarak cluster yang terdekat, untuk mengetahui jumlah cluster dan data yang menjadi titik cluster wajib ditentukan terlebih dahulu. Selain ketelitian yang tinggi ke beberapa objek, algoritma k-means juga pemprosesan data ke jumlah banyak.

Alasan memilih clustering dalam pemprosesan data ialah menentukan k terbaik pada pengelompokan dalam data set. Penganalisaan k suatu cara efektif karena hasil cluster bergantung pada jumlah k yang digunakan.

(17)

Penulis menggunakan metode silhouette untuk menemukan nilai k terbaik pada metode k-means. Metode silhouette mampu menemukan fungsi dari jumlah cluster dari sebuah data yang diuji. Hasil jumlah cluster menjadi lebih optimal setiap nilai k yang diperoleh pada K-means.

Di dalam bidang algoritma K- means bersifat Unsupervised Learning yang dapat menerima data tanpa label kelas dan algoritma , input jumlah , dan kelompok sebuah centroid untuk mempsentasikan cluster tersebut.

1.2 Rumusan Masalah

Nilai cluster adalah aspek ke sistem clustering. Nilai cluster berpengaruh dalam konsistensi, ketetapan dan kualitas dari cluster yang dibentuk. Pada penelitian ini penulis mencoba menentukan cluster terbaik yang selanjutnya di cluster menggunakan K-Means. Diharapkan pada penelitian ini nilai cluster yang dihasilkan lebih optimal.

1.3 Batasan Masalah

Masalah berkaitan kepada penentuan cluster optimum permasalahan penelitian ini adalah:

1. Metode K-Means Cluster

a. Iterasi maksimal sebanyak 20.

b. Untuk mencari jarak data dan centroid menggunakan pendekatan Euclidean distance,manhattan distance, chebyshev distance, dan minkowski distance .

c. Dataset Wholesale Customers, yang berjumlah total keseluruhan 440 data dengan 8 atribut numerik, di proses dari UCI Machine Learning Repository.

d. Iris, berjumlah total 150 data dengan 4 atribut numerik, diperoleh dari UCI Machine Learning Repository.

2. Output jumlah cluster yang paling optimum.

(18)

1.4 Tujuan Penelitian

Tujuan tesis adalah melakukan optimasi cluster dengan modifikasi metode shilhouette dalam menentukan jumlah cluster yang paling bagus.

1.5 Manfaat Penelitian

Meliputi untuk meneliti sebagai berikut:

1. Didapatkan suatu metode cluster dengan jumlah K paling optimum 2. Menjadi perbandingan peneliti lain. Mengganalisis menggunakan

metode clustering

(19)

BAB II

TINJAUAN PUSTAKA

2.1 Data Mining

Data mining adalah sebuah informasi menarik dalam metode tertentu dengan data terpilih yang menggunakan teknik yang relatif akurat. Dengan ada nya teknik yang digunakan data mining seperti teknik statistik, matematika, kecerdasan buatan dan machine learning untuk menganalisa sebagai informasi yang di terima dan didapatkan dalam database yang cukup besar agar mempermudah koneksi pada database yang digunakan (Turban et al, 2005).

Pengumpulan data mining tersebut memiliki informasi ilmu untuk menggali data yang di reset ulang pada program kecerdasan buatan memiliki ekstraksi dan membersihkan data dari data pertama di ekstrak dari data aslinya yang sesuai dengan data model khas. (Prasetyo, 2012).

2.1.1 Tahapan Data Mining

Data mining suatu pekerjaan yang diterapkan ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data algoritma dengan progress dan juga melakukan interpretasi dari hasilnya sehingga menemukan pola yang barudan berguna .Seharusnya tahapan-tahapan yang diperlukan tentu menjadi umpan balik atau arah panah yang berhadapan. Pada proses yang berjalan secara interaktif akan menemukan hasil jarang tidak sesuai alur dikarenakan proses sudah berat untuk di uji ulang. (kusnawi, 2007)

Proses untuk memperbaiki nilai tambah dari data yang diperoleh sangat maksimal pada pangkalan data (knowledge Discovery in Database = KDD).

Diskusi yang di ajukan akan di tujukan pada gambar 2.1 berikut :

(20)

Gambar 2.1 Proses menggali pengetahuan dara pangkalan data (sumber ; Han.J & Kember 2006)

Adapun pangkalan data sesuai proses hanya saja tidak dinamis pada gambar 2.1 diatas. Data bersifat interaktif dimana pemakai terlibat secara langsung melalui perantaran yang ada knowledge base.

1. Data Selection

Ini target tujuan memfokuskan pada subset variabel data yang dibutuhkan untuk digunakan pada saat target dihasilkan. Hasil disimpan dalam folder yang terpisah dari basis data yang dioperasikan.

2. Pre-Processing

Tahap ini dilakukan untuk menghilangkan data yang tidak ofisien (noise), diaplikasi oleh data agar data dapat di uji Kembali.

3. Transformation

Tranformasi tujuan untuk mengubah skala pengukuran data asli menjadi bentuk lain yang sudah di analisi data. Dengan teknik data mining membutuhkan format data yang khusus sebelum bisa dijadikan aplikasi utuh.

(21)

4. Data Mining

Data informasi dihasilkan proses data mining perlu ditampilkan dalam bentuk operasional supaya informasi dapat dihasilkan sesuai kepentingan. Tahap ini salah satu bagian dari proses KDD yang disebut dengan interpretation.

5. Evaluasi

Fungsi ini menjelaskan bentuk cluster yang dihasilkan melalui terhadap data kompleks. Evaluasi yang dimaksudkan disini dengan cara memeriksa apakah informasi yang ditemukan sesuai atau berlawan arah dengan fakta sebelumnya.

6. Deployment

Model ini yang telah dibuat, deployment yang sederhana adalah sampai menghasilkan data dalam bentuk laporan sedangkan deployment yang kompleks adalah melaksanakan model baru dihasilkan proses paralel pada departemen lainnya.

Fungsi-fungsi dalam data mining:

1. Fungsi deskripsi (desciption)

Fungsi deskripsi ialah yang digunakan untuk merancang sekumpulan data secara ringkas. Sampai saat ini cara yang digunakan dalam memberikan arah secara ringkas dalam bentuk jumlah yang cukup besar dan banyak memberikan Deskripsi Grafis, Deskripsi Lokasi, dan Deskripsi Keragaman.

2. Fungsi Estimasi

Fungsi ini untuk memperkirakan suatu data yang sudah terurai. Fungsi estimasi ini sendiri terdiri dari dua fungsi yaitu Estimasi Titik dan Estimasi Selang Kepercayaan.

3. Fungsi prediksi (prediction)

Fungsi prediksi adalah mengutamakan hasil dari hal yang belum dihasilkan untuk mendapatkan data baru yang akan muncul pada periode berikutnya. Cara

(22)

memprediksi dalam fungsi ini adalah Regresi Linier.

4. Fungsi klasifikasi (classification)

Fungsi klasifikasi atau menggolongkan suatu data. Cara yang digunakan terdiri dari algoritma Mean Vector, algoritme K-nearest Neighbor, algoritma ID3, algoritma C4.5, dan algoritma C5.0

5. Fungsi pengelompokan (cluster)

Fungsi kelompok ini data yang dikelompokan sebuah objek atau catatan yang memiliki kemiripan atribut kemudian dikelompokan pada kelompok yang berbeda. Algoritma yang digunakan adalah algoritma Hirarchical Clustering, algoritma Partitional Clustering, algoritma Single Linkage, algoritma Complete Linkage, algoritma Average Linkage, algoritma K-Means dan lain-lain.

6. Fungsi asosiasi (association)

Fungsi asosiasi ini untuk menemukan aturan asosiasi (association rule) yang mampu mengidentifikasi item-item pada objek. Algoritma yang digunakan algoritma Generalized Association Rules, Quantitative Association Rule, asynchronous Parallel Mining

(23)

2.2 Metode Clustering

Clustering merupakan pengelompokan suatu partisi berbeda, atau lebih tepatnya partisi tidak melakukan data pengulangan dengan berkali kali. Cluster ini terdiri dari kumpulan benda-benda yang mirip antara satu dengan yang lainnya dan berbeda dengan benda yang terdapat pada cluster lainnya. Algoritma clustering terdiri dari dua bagian yaitu secara hirarkis dan secara partitional.

Algoritma partitional menentukan semua kelompok pada waktu tertentu.

Metodologi cluster baik digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian pada sebuah strukturnya. Clustering juga bisa dikatakan suatu proses dimana mengelompokan dan membagi pola data menjadi beberapa jumlah data set sehingga akan membentuk pola yang serupa dan dikelompokkan pada cluster yang sama dan memisahkan diri dengan membentuk pola yang berbeda di cluster yang berbeda. Clustering dapat ditemukan dibeberapa aplikasi yang ada di berbagai bidang. Sebagai pengelompokan data yang digunakan untuk menganalisa data statistik untuk pembelajaran mesin, data mining, pengenalan pola, analisis citra dan bioinformatika di ering clustering tersebut.

2.3 Manfaat Clustering data

Pengelompokkan objek didasarkan pada kesamaan antar objek tidak melalui proses klasifikasi yang bersifat supervised learning, pada clustering.

Pengelompokkan yang dilakukan salah satu dasar unsupervised learning. Pada proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya. Kesamaan di klas terbilang tinggi dan kesamaan antar klas terbilang rendrah, tergantung pada pengukuran klasnya. Kemampuan untuk mendapatkan beberapa atau semua pola yang tersembunyi salah satu hasil kelompok yang baik. Sedangkan pada proses clustering, proses pengelompokkan kejadian dalam klas akan dilakukan secara alami tanpa mengidentifikasi klas-klas sebelumnya. Poses berikut memberikan manfaat clustering bedasarkan klasifikasi.

1. Kelompok hasil pencarian search engine 2. Penelusuran hasil pencarian data

(24)

3. Kelompok koleksi dokumen pada cluster 4. Pencarian dan pengaturan dokumen

5. Tingkatan precision dan recall pada information retrieval 6. Meningkatan kecepatan pencarian pada search engine 7. Penentuan topik dokumen

8. Clustering ialah segmentasi data yang sangat berguna dalam prediksi dan analisa masalah bisnis tertentu. Misalnya Segmentasi pasar, marketing dan pemetaan zonasi wilayah.

9. Identifikasi objek dalam bidang berbagai bidang seperti computer vision dan image processing.

Pendekatan clustering sangat berpengaruh di wilayah mirip dibagian clusternya. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki (Oliveira et al, 2007). Sebenarnya dengan pendekatan partisi pengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster yang ada. Clustering hirarki sangat mirip Ketika mendekati data dalam cluster yang berbeda (Self-Organising Map/SOM).

Tujuan utama dari metode clustering adalah pengelompokan sejaumlah objek kedalam cluster sehingga setiap cluster akan berisi data yang semirip mungkin. Artinya, objek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan objek yang ada dalam cluster lainnya. (Santosa, 2007)

(25)

Gambar 2.2 Contoh proses clustering(sumber ; Nugraheni, 2011)

2.4 Algoritma K-Means

K-Means salah satu algoritma dengan partitional, karena K-Means didasarkan pada penentuan jumlah awal kelompok dengan mendefinisikan nilai centroid pada dasarnya . Algoritma K-Means menggunakan proses secara berulang-ulang untuk mendapatkan basis data cluster. Partitional clustering ialah hasil data yang dikelompokkan ke dalam sejumlah cluster tanpa adanya struktur hirarki antara satu sama yang lain. Pada metode partitional clusteringsetiap cluster memiliki titik pusat cluster (centroid) secara umum metode ini memiliki fungsi tujuan yaitu minimum jarak dari keseluruh data ke pusat cluster masing-masing. Contoh metode partitional clustering: K-Means, Fuzzy K-means dan Mixture Modelling.

G ambar 2.2 Proses Clustering Obyek Menggunakan metode k-Mean (Sumber: Han dkk, 2012)

K-Means menggunakan teknik yang sederhana dan cukup cepat dalam proses clustering obyek (clustering). Algoritma K-mean mendefinisikan centroid atau

(26)

pusat cluster dari cluster menjadi rata-rata point dari cluster tersebut. Dalam penerapan algoritma k-Means, jika diberikan sekumpulan data X = {x1, x2,

…,xn} maka xi = (xi1, xi2, …, xin) adalah ystem dalam ruang real Rn, maka algoritma k-Means akan menyalin partisi X dalam sejumlah k cluster. Sehingga setiap cluster memiliki wilayah titik tengah (centroid) yang merupakan nilai rata- rata (mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k- Means adalah memilih secara acak k buah obyek sebagai centroid untuk data.

Jumlah cluster awal yang diminta sebagai masukan dan hasil jumlah cluster akhir sebagai output. Jika algoritma diperlukan untuk menghasilkan cluster K maka akan ada K awal dan K akhir. Metode K-Means akan memilih pola k sebagai titik awal centroid secara acak. Jumlah iterasi untuk mencapai cluster centroid akan dipengaruhi oleh cluster centroid secara random dimana jika posisi centroid baru tidak akan berubah atau teracak. Nilai K yang dipilih menjadi pusat awal, akan dihitung dengan menggunakan rumus Euclidean Distance yaitu mencari jarak terdekat antara titik centroid dengan data/objek. Data yang memiliki jarak pendek atau terdekat dengan centroid akan membentuk sebuah cluster. Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Pada umumnya metode k-means ini melakukan proses pengelompokan dengan tahapan sebagai berikut:

1. Menentukan jumlah cluster

2. Lokasi data secara random ke cluster tersebut

3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya 4. Lokasikan kembali semua data ke cluster yang terdekat

5. Ulang proses pada nomor 3 (tiga), sampai proses tidak ada perubahan atau perubahan yang rusak terjadi di bawah threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan

(27)

Berikut ini tahap-tahap dalam menyelesaikan algoritma K-Means 1. Tentukan k sebagai jumlah cluster yang akan rancang 2. Tentukan k Centroid (titik pusat cluster) awal secara acak

= 1 …….i=1,2,3,….,n ... (1)

Dimana : v = centroid pada cluster Xi = objek ke-i

n= banyaknya objek/jumlah objek yang menjadi anggota cluster

3. Hitung jarak objek ke centroid dari masing-masing cluster. Untuk menghitung jarak antara objek dengan centroid untuk dapat menggunakan Euclidian Distance.

( , ) = | − || = √∑ ( − ) ; I = 1,2,3….,n ... (2)

−1

Dimana : Xi = objek x ke i Yi = daya y ke i

N = banyaknya objek

4. Alokasikan masing-masing objek ke dalam centroid yang paling dekat 5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan

menggunakan persamaan

6. Ulangi langkah 3 jika posisi centroid baru tidak sama

(28)

start

Set hitungan cluster k

Tentukan titik k

Tentukan jarak objek dengan k centroid

Clustering terhadap jarak minimum

Apakah ya

centroid selalu mirip ?

tidak

selesai

Gambar 2.4 Flowchart algoritma K-means 2.5 Metode Silhouette

Silhouette Coefficient ialah untuk melihat kualitas pada kekuatan cluster, seberapa ofisien suatu objek ditempatkan dalam suatu cluster. Metode ini merupakan gabungan dari metode cohesion dan separation. Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut:

1. Rata-rata jarak dari suatu dokumen misalkan i dengan semua dokumen lain yang berada dalam satu cluster

( ) =| |−1 1 ∈ ≠ , ( , )………(3)

Dimana : j adalah dokumen lain dalam satu cluster A d(I,j) adalah jarak antara dokumen I dengan j.

13

(29)

2. Hitung rata-rata jarak dari dokumen i tersebut dengan semua dokumen di cluster lain, dan diambil nilai terkecilnya.

( , ) = 1

| | ∑ ∈ ( , ) ………(4)

Dimana d(I,C) adalah jarak rata-rata document i dengan semua objek pada cluster lain C dimana A ≠ C

( ) = min ≠ ( , ) ... (5)

3. Nilai Silhouette Coefficient nya adalah :

( ) = ( )− ( ) ………(6)

max ( ( ), ( ))

2.6 Riset Terkait

Pada peneitian ini suatu acuan dalam penulisan penelitian sehingga penulisan dapat memberikan banyak teori untuk digunakan dalam kajian penelitian yang dilakukan. Dari penelitian terdahulu, sampai saat ini penulis tidak menemukan penelitian dengan judul yang sama seperti judul penulis. Namun penulis mengangkat penulisan beberapa metode penelitian sebagai referensi dalam menganalisa sebuah metode dan memperkaya bahan kajian pada penelitian penulis. Berikut ini adalah penelitian terdahulu berupa beberapa jurnal terkait dengan penelitian yang dilakukan penulis.

Tabel 2.1 Riset-riset terkait

No Judul Riset Nama dan Metode yang Hasil penelitian

Tahun digunakan

Penelitan

1 Modifikasi K-Means Ulya. M Algoritma K- Tingkat akurasi metode Berbasis Ordered (2011) Means OWA k-means berbasis OWA

Weighted Averaging dalam klastering data

(OWA) Untuk Kasus set iris adalah 96.67%

Klastering

14

(30)

2 Algoritma modified k- Rena Algoritma k- Modifikasi Algoritma means clustering pada Nainggolan means dan K-Means Clustering penentuan cluster centre (2014) sum of dengan berbasis SSE berbasis sum of squared squared error lebih optimum

error (SSE)

3 Integration K-Means M A Saakut, K-Means dan K=3 adalah hasil cluster

Clustering Method and B K Elbow yang optimal dengan

Elbow Method For Khotimah, E jumlah data testing 500.

Identification of The Best M S Customer Profile Cluster Rochman, B

D Satoto (2017)

4 Pemilihan Distance Mario Distance Distance measure paling Measure Pada K-Means Anggara, measure dan maksimal untuk

Clustering Untuk Herry K-Means digunakan dalam kasus

Pengelompokkan Sujiani, Helfi pengelompokkan

Member Di Alvaro Nasution member di Alvaro

Fitness (2016) fitness adalah

Chebyshev Distance

2.7 Perbedaan Penelitian dengan Penelitian Terdahulu

Berdasarkan riset yang sudah pernah dilakukan, peneliti mampu membuat perbedaan dalam penelitian ini sebagai berikut :

1. Algoritma K-Means yang digunakan dalam penentuan pusat cluster adalah algoritma modified K-Means berbasais Silhouette.

2. Untuk menghitung jarak antara distance antara data dan centroid menggunakan Euclidienc Distance Space.

3. Nilai K hasil dari Silhouette akan dilihat nilai SSE( Sum Of Sequere Error) pada nilai cluster yang dihasilkan.

(31)

BAB III

METODE PENELITIAN

Proses penelitian tentang analisis dan pemodelan menjadi persoalan teknik informasi pada saat meneliti yang belum benar dilakukan terknik untuk menentukan cluster yang optimum.

3.1 Rancangan Algoritma

Desain diagram alir untuk penentuan jumlah cluster optimum K-Means menggunakan algoritma Silhouette dapat digambarkan sebagai berikut :

Start

Jumlah Cluster

Nilai K

Hitung Jarak

Euclidean Manhattan Chebyshev Minkowski

Kelompok Berdasarkan Jarak

Apakah sentroid Tidak

Silhouette coefficient

Selesai

Gambar 3.1 Struktur K-Means metode Silhouette

(32)

Algoritma diatas menjelaskan langkah-langkag berikut : 1. Cluster yang akan di uji

2. Pusat cluster secara random.

3. Jumlah cluster adalah sebanyak 3 cluster.

4. Menghitung jarak setiap cluster menggunakan Euclidean distance, Manhattan distance, Chebyshev distance dan Minkowski distance 5. Data berdasarkan jarak yang sudah dihitung.

6. Perhitungan jarak dan menentukan jumlah cluster yang optimum.

3.2 Metode penelitian

perancangan k-means dalam penelitian ini sebagai berikut:

1. Studi literatur

Studi literatur penelitian ini untuk mengumpulkan laporan yang efesien tentang algoritma k-means dan Silhouette dari berbagai sumber buku dan jurnal.

2. Analisa permasalahan

Analisis data studi literatur untuk mengumpulkan dan memberi pemahaman tentang algoritma K-Means dan Silhouette untuk menghitung jumlah cluster optimum.

3. Inisialisasi data

Jika data tidak valid maka dilakukan observasi lapangan kembali.

4. Penyusunan dataset pengujian

Setelah didapat data yang valid, maka sekarang disusun metode- metode pengujian agar tujuan penelitian terpenuhi.

5. Pelaksanaan pengujian menggunakan aplikasi dan Evaluasi hasil.

6. Tahap ini untuk menguji data menggunakan program aplikasi dan melakukan analisa terhadap hasil pengujian dan evaluasi kesalahan.

7. Menyusun buku tugas akhir.

Tahap akhir ini merupakan dokumentasi dari teori-teori penunjang, perancangan system aplikasi, hasil dan analisa pengujian, serta saran dan kesimpulan.

(33)

Gambar 3.2 Langkah-Langkah Penelitian

(34)

BAB IV

HASIL DAN PEMBAHASAN

4.1 Hasil Pengujian

Untuk menguji penulis menggunakan beberapa data yang bersumber dari repository UCI Machine Learning. Adapun ringkasan dataset table 4.1 berikut :

Tabel 4.1 Ringkasan Dataset

No Dataset Jumlah Jumlah Jenis Data Tipe

Data Atribut Data

1 Iris 150 4 Numerik Real

2 Blood Transfusion

748 5 Numerik Real

Service Center

3 Wholesale

440 6 Numerik Real

Customers

Mendapatkan jumlah cluster optimal yang menganalisa hasil perhitungan k-means menggunakan shilhoutte.

4.2 Dataset Blood Transfusion Service Center

Untuk mendukung kelancaran penelitian ini, berikut akan di paparkan dataset Blood Transfussion Service Center untuk perhitungan manual yang diperoleh dari

proses clustering digunakan 748 dengan total atribut 5 didalamnya. Dataset tersebut dapat dilihat pada table berikut :

(35)

Tabel 4.2 Dataset Blood Transfussion Service Center Dataset Blood Transfussion Service Center

Nomor V1 V2 V3 V4 Class

1 2 50 12500 98 2

2 0 13 3250 28 2

3 1 16 4000 35 2

4 2 20 5000 45 2

5 1 24 6000 77 1

6 4 4 1000 4 1

7 2 7 1750 14 2

8 1 12 3000 35 1

9 2 9 2250 22 2

10 5 46 11500 98 2

11 4 23 5750 58 1

12 0 3 750 4 1

13 2 10 2500 28 2

14 1 13 3250 47 1

15 2 6 1500 15 2

16 2 5 1250 11 2

17 2 14 3500 48 2

18 2 15 3750 49 2

19 2 6 1500 15 2

20 2 3 750 4 2

21 2 3 750 4 2

22 4 11 2750 28 1

23 2 6 1500 16 2

24 2 6 1500 16 2

25 9 9 2250 16 1

26 4 14 3500 40 1

27 4 6 1500 14 1

28 4 12 3000 34 2

29 4 5 1250 11 2

30 4 8 2000 21 1

31 1 14 3500 58 1

32 4 10 2500 28 2

33 4 10 2500 28 2

34 4 9 2250 26 2

35 2 16 4000 64 1

36 2 8 2000 28 2

37 2 12 3000 47 2

(36)

Dataset Blood Transfussion Service Center

Nomor V1 V2 V3 V4 Class

38 4 6 1500 16 2

39 2 14 3500 57 2

40 4 7 1750 22 2

41 2 13 3250 53 2

42 2 5 1250 16 1

43 2 5 1250 16 2

44 2 5 1250 16 1

45 4 20 5000 69 2

46 4 9 2250 28 2

47 2 9 2250 36 1

48 2 2 500 2 1

49 2 2 500 2 1

50 2 2 500 2 1

51 2 11 2750 46 1

52 2 11 2750 46 2

53 2 6 1500 22 1

54 2 12 3000 52 1

55 4 5 1250 14 2

56 4 19 4750 69 2

57 4 8 2000 26 2

58 2 7 1750 28 2

59 2 16 4000 81 1

60 3 6 1500 21 1

61 2 7 1750 29 1

62 2 8 2000 35 2

63 2 10 2500 49 1

64 4 5 1250 16 2

65 2 3 750 9 2

66 3 16 4000 74 1

67 2 4 1000 14 2

68 0 2 500 4 1

69 4 7 1750 25 1

70 1 9 2250 51 1

71 2 4 1000 16 1

72 2 4 1000 16 1

73 4 17 4250 71 2

74 2 2 500 4 1

75 2 2 500 4 2

76 2 2 500 4 2

(37)

Dataset Blood Transfussion Service Center

Nomor V1 V2 V3 V4 Class

77 2 4 1000 16 2

78 2 2 500 4 1

79 2 2 500 4 1

80 2 2 500 4 1

81 4 6 1500 23 2

82 2 4 1000 16 1

83 2 4 1000 16 1

84 2 4 1000 16 1

85 2 6 1500 28 2

86 2 6 1500 28 1

87 4 2 500 4 1

88 4 2 500 4 1

89 4 2 500 4 1

90 2 7 1750 35 2

91 4 2 500 4 2

92 4 2 500 4 1

93 4 2 500 4 1

94 4 2 500 4 1

95 12 11 2750 23 1

96 4 7 1750 28 1

97 3 17 4250 86 1

98 4 9 2250 38 2

99 4 4 1000 14 2

100 5 7 1750 26 2

101 4 8 2000 34 2

102 2 13 3250 76 2

103 4 9 2250 40 1

104 2 5 1250 26 1

105 2 5 1250 26 1

106 6 17 4250 70 1

107 0 8 2000 59 1

108 3 5 1250 26 1

109 2 3 750 14 1

110 2 10 2500 64 1

… … … …

… … … …

… … … …

… … … …

748 72 1 250 72 1

(38)

Setelah data ini di input, maka selanjutkan akan dilakukan algoritma k-means.

4.3 Pencarian K-Means

Tahapan akan dilakukan menggunakan k-means pada dataset blood Transfusion Service Center. Perhitungan akan dilakukan menggunakan pusat cluster dua (dua) samapi dengan 10 (sepuluh) yang diambil secara acak. Berikut penyelesaiannya :

1. K = 2

Dengan pusat cluster yang diambil secara acak berada pada data ke :1 dan 9 yaitu (2, 50, 12500, 98, 2) dan (2, 9, 2250, 22, 2). Dengan jarak yang dihitung menggunakan Euclidean Distance. Perhitungan 1 sampai 10: a. Jarak data ke- 1 dengan pusat cluster

(1, 1) = √(2 − 2)2 + (50 − 50)2 + (12500 − 12500)2 + (98 − 98)2 + (2 − 2)2 (1, 1) = 0

(1, 2) = √(2 − 2)2 + (50 − 9)2 + (12500 − 2250)2 + (28 − 22)2 + (2 − 2)2 (1, 2) = 10250.36

b. Jarak data ke-2 dengan pusat cluster

(2, 1) = √(0 − 2)2 + (13 − 50)2 + (3250 − 12500)2 + (28 − 98)2 + (2 − 2)2 (2, 1) = 9250.339.

(2, 2) = √(0 − 2)2 + (13 − 9)2 + (3250 − 2250)2 + (28 − 22)2 + (2 − 2)2 (2, 2) = 1000.028

c. Jarak data ke-3 dengan pusat cluster

(3, 1) = √(1 − 2)2 + (16 − 50)2 + (4000 − 12500)2 + (35 − 98)2 + (2 − 2)2 (3, 1) = 8500.302 (3, 2) = √(1 − 2)2 + (16 − 9)2 + (4000 − 2250)2 + (35 − 22)2 + (2 − 2)2 (3, 2) = 1750.063

d. Jarak data ke-4 dengan pusat cluster

(4, 1) = √(2 − 2)2 + (20 − 50)2 + (5000 − 12500)2 + (45 − 98)2 + (2 − 2)2 (4, 1) = 7500.247 (4, 2) = √(2 − 2)2 + (20 − 9)2 + (5000 − 2250)2 + (45 − 22)2 + (2 − 2)2 (4, 2) = 2750.118

e. Jarak data ke-5 dengan pusat cluster

23

(39)

(5, 1) = √(1 − 2)2 + (24 − 50)2 + (6000 − 12500)2 + (77 − 98)2 + (1 − 2)2

(5, 1) = 6500.086

(5, 2) = √(1 − 2)2 + (24 − 9)2 + (6000 − 2250)2 + (77 − 22)2 + (1 − 2)2 (5, 2) = 3750.434

f. Jarak data ke-6 dengan pusat cluster

(6, 1) = √(4 − 2)2 + (4 − 50)2 + (1000 − 12500)2 + (4 − 98)2 + (1 − 2)2

(6, 1) = 11500.48

(6, 2) = √(4 − 2)2 + (4 − 9)2 + (1000 − 2250)2 + (4 − 22)2 + (1 − 2)2 (6, 2) = 1250.142

g. Jarak data ke-7 dengan pusat cluster

(7, 1) = √(2 − 2)2 + (7 − 50)2 + (1750 − 12500)2 + (14 − 98)2 + (2 − 2)2

(7, 1) = 10750.41

(7, 2) = √(2 − 2)2 + (7 − 9)2 + (1750 − 2250)2 + (14 − 22)2 + (2 − 2)2 (7, 2) = 500.068

h. Jarak data ke -8 dengan pusat cluster

(8, 1) = √(1 − 2)2 + (12 − 50)2 + (3000 − 12500)2 + (35 − 98)2 + (1 − 2)2

(8, 1) = 9500.285

(8, 2) = √(1 − 2)2 + (12 − 9)2 + (3000 − 2250)2 + (35 − 22)2 + (1 − 2)2 (8, 2) = 750.12

i. Jarak data ke -9 dengan pusat cluster

(9, 1) = √(2 − 2)2 + (9 − 50)2 + (2250 − 12500)2 + (22 − 98)2 + (2 − 2)2

(9, 1) = 10250.36

(9, 2) = √(2 − 2)2 + (9 − 9)2 + (2250 − 2250)2 + (22 − 22)2 + (2 − 2)2 (9, 2) = 0

j. Jarak data ke -10 dengan pusat cluster

(10, 1) = √(5 − 2)2 + (46 − 50)2 + (11500 − 12500)2 + (98 − 98)2 + (2 − 2)2

(10 1) = 1000.12

(10, 2) = √(5 − 2)2 + (46 − 9)2 + (11500 − 2250)2 + (98 − 22)2 + (2 − 2)2 (10, 2) = 9250.387

Perhitungan data dengan kedua cluster, dapat dilihat pada tabel 4.3 berikut:

Tabel 4.3 Pencarian jarak dengan titik pada cluster

date ke c1 c2

1 0 10250.36

24

(40)

date ke c1 c2 2 9250.339 1000.028 3 8500.302 1750.063 4 7500.247 2750.118 5 6500.086 3750.434 6 11500.48 1250.142 7 10750.41 500.068 8 9500.285 750.12

9 10250.36 0

10 1000.012 9250.387 11 6750.173 3500.214 12 11750.47 1500.122 13 10000.32 250.074 14 9250.215 1000.321 15 11000.4 750.0387 16 11250.43 1000.068 17 9000.211 1250.28 18 8750.207 1500.255 19 11000.4 750.0387 20 11750.47 1500.12 21 11750.47 1500.12 22 9750.33 500.045 23 11000.39 750.03 24 11000.39 750.03 25 10250.41 9.273618 26 9000.259 1250.142 27 11000.41 750.052 28 9500.292 750.1047 29 11250.43 1000.07 30 10500.37 250.014 31 9000.161 1250.529 32 10000.33 250.082 33 10000.33 250.082 34 10250.34 4.472136 35 8500.136 1750.518 36 10500.32 250.074 37 9500.213 750.4225 38 11000.39 750.0327 39 9000.165 1250.5 40 10750.35 500.008 41 9250.183 1000.488

(41)

date ke c1 c2 42 11250.39 1000.026 43 11250.39 1000.026 44 11250.39 1000.026 45 7500.116 2750.424 46 10250.32 6.324555 47 10250.27 14.03567 48 12000.48 1750.129 49 12000.48 1750.129 50 12000.48 1750.129 51 9750.217 500.5807 52 9750.217 500.5797 53 11000.35 750.0067 54 9500.187 750.6064 55 11250.4 1000.042 56 7750.117 2500.463 57 10500.33 250.042 58 10750.31 500.04 59 8500.085 1751.009 60 11000.36 750.008 61 10750.31 500.054 62 10500.27 250.3398 63 10000.2 251.4577 64 11250.39 1000.028 65 11750.43 1500.068 66 8500.102 1750.787 67 11500.4 1250.036 68 12000.46 1750.108 69 10750.33 500.018 70 10250.19 29.03446 71 11500.38 1250.025 72 11500.38 1250.025 73 8250.11 2000.617 74 12000.46 1750.107 75 12000.46 1750.107 76 12000.46 1750.107 77 11500.38 1250.024 78 12000.46 1750.107 79 12000.46 1750.107 80 12000.46 1750.107 81 11000.34 750.0093

(42)

date ke c1 c2 82 11500.38 1250.025 83 11500.38 1250.025 84 11500.38 1250.025 85 11000.31 750.03 86 11000.31 750.0307 87 12000.46 1750.108 88 12000.46 1750.108 89 12000.46 1750.108 90 10750.27 500.173 91 12000.46 1750.108 92 12000.46 1750.108 93 12000.46 1750.108 94 12000.46 1750.108 95 9750.372 500.106 96 10750.31 500.045 97 8250.075 2001.04 98 10250.26 16.12452 99 11500.4 1250.037 100 10750.33 500.029

… … …

… … …

... … …

748 12250.33 2001.865

Langkah selanjutnya yaitu menentukan centroid (mean) pada cluster. Setelah diperoleh nilai baru maka selanjutnya akan kembali menghitung jarak. Iterasi selanjutnya akan dihitung dengan cara yang sama dan perpindahan data lain.

Setelah tidak terjadi perpindahan data dari cluster yang satu dengan yang lainnya, maka proses clustering dihentikan. Pada pengujian yang dilakukan menggunakan dataset Blood Transfusion Service Center dengan jumlah pusat cluster 2 (dua) berhenti pada iterasi ke – 12 (dua belas). Berikut merupakan hasil akhir pengujian yang dilakukan.

Tabel 4.4 Pengujian k-means dengan pusat cluster 2 date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 1

(43)

date ke Hasil Clustering

Data 3 Clustering 1

Data 4 Clustering 1

Data 5 Clustering 1

Data 6 Clustering 2

Data 7 Clustering 2

Data 8 Clustering 1

Data 9 Clustering 2

Data 10 Clustering 1

Data 11 Clustering 1

Data 12 Clustering 2

Data 13 Clustering 2

Data 14 Clustering 1

Data 15 Clustering 2

Data 16 Clustering 2

Data 17 Clustering 1

Data 18 Clustering 1

Data 19 Clustering 2

Data 20 Clustering 2

Data 21 Clustering 2

Data 22 Clustering 2

Data 23 Clustering 2

Data 24 Clustering 2

Data 25 Clustering 2

Data 26 Clustering 2

Data 27 Clustering 2

Data 28 Clustering 1

Data 29 Clustering 2

Data 30 Clustering 2

Data 31 Clustering 1

Data 32 Clustering 2

Data 33 Clustering 2

Data 34 Clustering 2

Data 35 Clustering 1

Data 36 Clustering 2

Data 37 Clustering 1

Data 38 Clustering 2

Data 39 Clustering 1

Data 40 Clustering 2

Data 41 Clustering 1

Data 42 Clustering 2

(44)

date ke Hasil Clustering

Data 43 Clustering 2

Data 44 Clustering 2

Data 45 Clustering 1

Data 46 Clustering 2

Data 47 Clustering 2

Data 48 Clustering 2

Data 49 Clustering 2

Data 50 Clustering 2

Data 51 Clustering 2

Data 52 Clustering 2

Data 53 Clustering 2

Data 54 Clustering 1

Data 55 Clustering 2

Data 56 Clustering 1

Data 57 Clustering 2

Data 58 Clustering 2

Data 59 Clustering 1

Data 60 Clustering 2

Data 61 Clustering 2

Data 62 Clustering 2

Data 63 Clustering 2

Data 64 Clustering 2

Data 65 Clustering 2

Data 66 Clustering 1

Data 67 Clustering 2

Data 68 Clustering 2

Data 69 Clustering 2

Data 70 Clustering 2

Data 71 Clustering 2

Data 72 Clustering 2

Data 73 Clustering 1

Data 74 Clustering 2

Data 75 Clustering 2

Data 76 Clustering 2

Data 77 Clustering 2

Data 78 Clustering 2

Data 79 Clustering 2

Data 80 Clustering 2

Data 81 Clustering 2

Data 82 Clustering 2

(45)

date ke Hasil Clustering

Data 83 Clustering 2

Data 84 Clustering 2

Data 85 Clustering 2

Data 86 Clustering 2

Data 87 Clustering 2

Data 88 Clustering 2

Data 89 Clustering 2

Data 90 Clustering 2

Data 91 Clustering 2

Data 92 Clustering 2

Data 93 Clustering 2

Data 94 Clustering 2

Data 95 Clustering 2

Data 96 Clustering 2

Data 97 Clustering 1

Data 98 Clustering 2

Data 99 Clustering 2

Data 100 Clustering 2

… …

… …

... …

Data 748 Clustering 2

Dari 748 data, yang termasuk dalam Clustering 1 sebanyak 81 data dan yang termasuk ke dalam Clustering 2 sebanyak 657.

2. K = 3

Dengan menggunakan pusat cluster sebanyak 3 pusat cluster yang diambil secara acak berhenti di iterasi ke-2 dengan hasil akhir Clustering sebagai berikut :

Tabel 4.5 Pengujian k-means pada pusat cluster 2 date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 2

Data 3 Clustering 2

Data 4 Clustering 2

Data 5 Clustering 2

Data 6 Clustering 3

(46)

date ke Hasil Clustering

Data 7 Clustering 3

Data 8 Clustering 2

Data 9 Clustering 2

Data 10 Clustering 1

Data 11 Clustering 2

Data 12 Clustering 3

Data 13 Clustering 2

Data 14 Clustering 2

Data 15 Clustering 3

Data 16 Clustering 3

Data 17 Clustering 2

Data 18 Clustering 2

Data 19 Clustering 3

Data 20 Clustering 3

Data 21 Clustering 3

Data 22 Clustering 2

Data 23 Clustering 3

Data 24 Clustering 3

Data 25 Clustering 2

Data 26 Clustering 2

Data 27 Clustering 3

Data 28 Clustering 2

Data 29 Clustering 3

Data 30 Clustering 2

Data 31 Clustering 2

Data 32 Clustering 2

Data 33 Clustering 2

Data 34 Clustering 2

Data 35 Clustering 2

Data 36 Clustering 2

Data 37 Clustering 2

Data 38 Clustering 3

Data 39 Clustering 2

Data 40 Clustering 3

Data 41 Clustering 2

Data 42 Clustering 3

Data 43 Clustering 3

Data 44 Clustering 3

Data 45 Clustering 2

Data 46 Clustering 2

(47)

date ke Hasil Clustering

Data 47 Clustering 2

Data 48 Clustering 3

Data 49 Clustering 3

Data 50 Clustering 3

Data 51 Clustering 2

Data 52 Clustering 2

Data 53 Clustering 3

Data 54 Clustering 2

Data 55 Clustering 3

Data 56 Clustering 2

Data 57 Clustering 2

Data 58 Clustering 3

Data 59 Clustering 2

Data 60 Clustering 3

Data 61 Clustering 3

Data 62 Clustering 2

Data 63 Clustering 2

Data 64 Clustering 3

Data 65 Clustering 3

Data 66 Clustering 2

Data 67 Clustering 3

Data 68 Clustering 3

Data 69 Clustering 3

Data 70 Clustering 2

Data 71 Clustering 3

Data 72 Clustering 3

Data 73 Clustering 2

Data 74 Clustering 3

Data 75 Clustering 3

Data 76 Clustering 3

Data 77 Clustering 3

Data 78 Clustering 3

Data 79 Clustering 3

Data 80 Clustering 3

Data 81 Clustering 3

Data 82 Clustering 3

Data 83 Clustering 3

Data 84 Clustering 3

Data 85 Clustering 3

Data 86 Clustering 3

(48)

date ke Hasil Clustering

Data 87 Clustering 3

Data 88 Clustering 3

Data 89 Clustering 3

Data 90 Clustering 3

Data 91 Clustering 3

Data 92 Clustering 3

Data 93 Clustering 3

Data 94 Clustering 3

Data 95 Clustering 3

Data 96 Clustering 3

Data 97 Clustering 2

Data 98 Clustering 2

Data 99 Clustering 3

Data 100 Clustering 3

… …

… …

... …

Data 748 Clustering 3

Dari 748 data yang dihitung dengan pusat cluster 3, yang termasuk dalam Clustering 1 sebanyak 8, Clustering 2 sebanyak 164, Clustering 3 sebanyak 576.

3. K = 4

Dengan menggunakan pusat cluster sebanyak 4 pusat cluster yang diambil secara acak berhenti di iterasi ke-4 dengan hasil akhir Clustering ini :

Tabel 4.6 Perhitungan k-means dengan pusat cluster sebanyak 4 date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 2

Data 3 Clustering 2

Data 4 Clustering 2

Data 5 Clustering 2

Data 6 Clustering 4

Data 7 Clustering 3

Data 8 Clustering 2

Data 9 Clustering 3

(49)

date ke Hasil Clustering

Data 10 Clustering 1

Data 11 Clustering 2

Data 12 Clustering 4

Data 13 Clustering 3

Data 14 Clustering 2

Data 15 Clustering 3

Data 16 Clustering 3

Data 17 Clustering 2

Data 18 Clustering 2

Data 19 Clustering 3

Data 20 Clustering 4

Data 21 Clustering 4

Data 22 Clustering 2

Data 23 Clustering 3

Data 24 Clustering 3

Data 25 Clustering 3

Data 26 Clustering 2

Data 27 Clustering 3

Data 28 Clustering 2

Data 29 Clustering 3

Data 30 Clustering 3

Data 31 Clustering 2

Data 32 Clustering 3

Data 33 Clustering 3

Data 34 Clustering 3

Data 35 Clustering 2

Data 36 Clustering 3

Data 37 Clustering 2

Data 38 Clustering 3

Data 39 Clustering 2

Data 40 Clustering 3

Data 41 Clustering 2

Data 42 Clustering 3

Data 43 Clustering 3

Data 44 Clustering 3

Data 45 Clustering 2

Data 46 Clustering 3

Data 47 Clustering 3

Data 48 Clustering 4

Data 49 Clustering 4

(50)

date ke Hasil Clustering

Data 50 Clustering 4

Data 51 Clustering 2

Data 52 Clustering 2

Data 53 Clustering 3

Data 54 Clustering 2

Data 55 Clustering 3

Data 56 Clustering 2

Data 57 Clustering 3

Data 58 Clustering 3

Data 59 Clustering 2

Data 60 Clustering 3

Data 61 Clustering 3

Data 62 Clustering 3

Data 63 Clustering 3

Data 64 Clustering 3

Data 65 Clustering 4

Data 66 Clustering 2

Data 67 Clustering 4

Data 68 Clustering 4

Data 69 Clustering 3

Data 70 Clustering 3

Data 71 Clustering 4

Data 72 Clustering 4

Data 73 Clustering 2

Data 74 Clustering 4

Data 75 Clustering 4

Data 76 Clustering 4

Data 77 Clustering 4

Data 78 Clustering 4

Data 79 Clustering 4

Data 80 Clustering 4

Data 81 Clustering 3

Data 82 Clustering 4

Data 83 Clustering 4

Data 84 Clustering 4

Data 85 Clustering 3

Data 86 Clustering 3

Data 87 Clustering 4

Data 88 Clustering 4

Data 89 Clustering 4

(51)

date ke Hasil Clustering

Data 90 Clustering 3

Data 91 Clustering 4

Data 92 Clustering 4

Data 93 Clustering 4

Data 94 Clustering 4

Data 95 Clustering 2

Data 96 Clustering 3

Data 97 Clustering 2

Data 98 Clustering 3

Data 99 Clustering 4

Data 100 Clustering 3

… …

… …

... …

Data 748 Clustering 4

Dari 748 data yang dihitung dengan pusat cluster 4, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 95 data, Clustering 3 sebanyak 226 data, dan Clustering ke 4 sebanyak 419 data.

4. K = 5

Dengan menggunakan pusat cluster sebanyak 5 pusat cluster yang diambil secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering ini:

Tabel 4.7 Hasil akhir k-means pada pusat cluster 5 date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 2

Data 3 Clustering 5

Data 4 Clustering 5

Data 5 Clustering 5

Data 6 Clustering 3

Data 7 Clustering 3

Data 8 Clustering 2

Data 9 Clustering 2

(52)

date ke Hasil Clustering

Data 10 Clustering 1

Data 11 Clustering 5

Data 12 Clustering 4

Data 13 Clustering 2

Data 14 Clustering 2

Data 15 Clustering 3

Data 16 Clustering 3

Data 17 Clustering 5

Data 18 Clustering 5

Data 19 Clustering 3

Data 20 Clustering 4

Data 21 Clustering 4

Data 22 Clustering 2

Data 23 Clustering 3

Data 24 Clustering 3

Data 25 Clustering 2

Data 26 Clustering 5

Data 27 Clustering 3

Data 28 Clustering 2

Data 29 Clustering 3

Data 30 Clustering 2

Data 31 Clustering 5

Data 32 Clustering 2

Data 33 Clustering 2

Data 34 Clustering 2

Data 35 Clustering 5

Data 36 Clustering 2

Data 37 Clustering 2

Data 38 Clustering 3

Data 39 Clustering 5

Data 40 Clustering 3

Data 41 Clustering 2

Data 42 Clustering 3

Data 43 Clustering 3

Data 44 Clustering 3

Data 45 Clustering 5

Data 46 Clustering 2

Data 47 Clustering 2

Data 48 Clustering 4

Data 49 Clustering 4

(53)

date ke Hasil Clustering

Data 50 Clustering 4

Data 51 Clustering 2

Data 52 Clustering 2

Data 53 Clustering 3

Data 54 Clustering 2

Data 55 Clustering 3

Data 56 Clustering 5

Data 57 Clustering 2

Data 58 Clustering 3

Data 59 Clustering 5

Data 60 Clustering 3

Data 61 Clustering 3

Data 62 Clustering 2

Data 63 Clustering 2

Data 64 Clustering 3

Data 65 Clustering 4

Data 66 Clustering 5

Data 67 Clustering 3

Data 68 Clustering 4

Data 69 Clustering 3

Data 70 Clustering 2

Data 71 Clustering 3

Data 72 Clustering 3

Data 73 Clustering 5

Data 74 Clustering 4

Data 75 Clustering 4

Data 76 Clustering 4

Data 77 Clustering 3

Data 78 Clustering 4

Data 79 Clustering 4

Data 80 Clustering 4

Data 81 Clustering 3

Data 82 Clustering 3

Data 83 Clustering 3

Data 84 Clustering 3

Data 85 Clustering 3

Data 86 Clustering 3

Data 87 Clustering 4

Data 88 Clustering 4

Data 89 Clustering 4

(54)

date ke Hasil Clustering

Data 90 Clustering 3

Data 91 Clustering 4

Data 92 Clustering 4

Data 93 Clustering 4

Data 94 Clustering 2

Data 95 Clustering 3

Data 96 Clustering 5

Data 97 Clustering 5

Data 98 Clustering 2

Data 99 Clustering 3

Data 100 Clustering 3

… …

… …

... …

Data 748 Clustering 4

Dari 748 data yang dihitung dengan jumlah pusat cluster 5, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 114 data, Clustering 3 sebanyak 219 data, Clustering ke 4 sebanyak 357 data dan Clustering 5 sebanyak 50 data.

5. K = 6

Dengan menggunakan pusat cluster sebanyak 6 pusat cluster yang diambil secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering sebagai berikut :

date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 6

Data 3 Clustering 5

Data 4 Clustering 5

Data 5 Clustering 5

Data 6 Clustering 3

Data 7 Clustering 2

Data 8 Clustering 6

Data 9 Clustering 2

Data 10 Clustering 1

Data 11 Clustering 5

(55)

date ke Hasil Clustering

Data 12 Clustering 4

Data 13 Clustering 2

Data 14 Clustering 6

Data 15 Clustering 3

Data 16 Clustering 3

Data 17 Clustering 6

Data 18 Clustering 6

Data 19 Clustering 3

Data 20 Clustering 4

Data 21 Clustering 4

Data 22 Clustering 6

Data 23 Clustering 3

Data 24 Clustering 3

Data 25 Clustering 2

Data 26 Clustering 6

Data 27 Clustering 3

Data 28 Clustering 6

Data 29 Clustering 3

Data 30 Clustering 2

Data 31 Clustering 6

Data 32 Clustering 2

Data 33 Clustering 2

Data 34 Clustering 2

Data 35 Clustering 5

Data 36 Clustering 2

Data 37 Clustering 6

Data 38 Clustering 3

Data 39 Clustering 6

Data 40 Clustering 2

Data 41 Clustering 6

Data 42 Clustering 3

Data 43 Clustering 3

Data 44 Clustering 3

Data 45 Clustering 5

Data 46 Clustering 2

Data 47 Clustering 2

Data 48 Clustering 4

Data 49 Clustering 4

Data 50 Clustering 4

Data 51 Clustering 6

(56)

date ke Hasil Clustering

Data 52 Clustering 6

Data 53 Clustering 3

Data 54 Clustering 6

Data 55 Clustering 3

Data 56 Clustering 5

Data 57 Clustering 2

Data 58 Clustering 2

Data 59 Clustering 5

Data 60 Clustering 3

Data 61 Clustering 2

Data 62 Clustering 2

Data 63 Clustering 2

Data 64 Clustering 3

Data 65 Clustering 4

Data 66 Clustering 5

Data 67 Clustering 3

Data 68 Clustering 4

Data 69 Clustering 2

Data 70 Clustering 2

Data 71 Clustering 3

Data 72 Clustering 3

Data 73 Clustering 5

Data 74 Clustering 4

Data 75 Clustering 4

Data 76 Clustering 4

Data 77 Clustering 3

Data 78 Clustering 4

Data 79 Clustering 4

Data 80 Clustering 4

Data 81 Clustering 3

Data 82 Clustering 3

Data 83 Clustering 3

Data 84 Clustering 3

Data 85 Clustering 3

Data 86 Clustering 3

Data 87 Clustering 4

Data 88 Clustering 4

Data 89 Clustering 4

Data 90 Clustering 2

Data 91 Clustering 4

(57)

date ke Hasil Clustering

Data 92 Clustering 4

Data 93 Clustering 4

Data 94 Clustering 4

Data 95 Clustering 6

Data 96 Clustering 2

Data 97 Clustering 5

Data 98 Clustering 2

Data 99 Clustering 3

Data 100 Clustering 2

… …

… …

... …

Data 748 Clustering 4

Dari 748 data yang dihitung dengan jumlah pusat cluster 6, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 112 data, Clustering 3 sebanyak 176 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31 data dan Clustering 6 sebanyak 64.

6. K = 7

Dengan menggunakan pusat cluster sebanyak 7 pusat cluster yang diambil secara acak berhenti di iterasi ke-8 dengan hasil akhir Clustering sebagai berikut :

date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 6

Data 3 Clustering 5

Data 4 Clustering 5

Data 5 Clustering 5

Data 6 Clustering 3

Data 7 Clustering 7

Data 8 Clustering 6

Data 9 Clustering 2

Data 10 Clustering 1

(58)

date ke Hasil Clustering

Data 11 Clustering 5

Data 12 Clustering 4

Data 13 Clustering 2

Data 14 Clustering 6

Data 15 Clustering 7

Data 16 Clustering 3

Data 17 Clustering 6

Data 18 Clustering 6

Data 19 Clustering 7

Data 20 Clustering 4

Data 21 Clustering 4

Data 22 Clustering 6

Data 23 Clustering 7

Data 24 Clustering 7

Data 25 Clustering 2

Data 26 Clustering 6

Data 27 Clustering 7

Data 28 Clustering 6

Data 29 Clustering 3

Data 30 Clustering 2

Data 31 Clustering 6

Data 32 Clustering 2

Data 33 Clustering 2

Data 34 Clustering 2

Data 35 Clustering 5

Data 36 Clustering 2

Data 37 Clustering 6

Data 38 Clustering 7

Data 39 Clustering 6

Data 40 Clustering 7

Data 41 Clustering 6

Data 42 Clustering 3

Data 43 Clustering 3

Data 44 Clustering 3

Data 45 Clustering 5

Data 46 Clustering 2

Data 47 Clustering 2

Data 48 Clustering 4

Data 49 Clustering 4

Data 50 Clustering 4

(59)

date ke Hasil Clustering

Data 51 Clustering 6

Data 52 Clustering 6

Data 53 Clustering 7

Data 54 Clustering 6

Data 55 Clustering 3

Data 56 Clustering 5

Data 57 Clustering 2

Data 58 Clustering 7

Data 59 Clustering 5

Data 60 Clustering 7

Data 61 Clustering 7

Data 62 Clustering 2

Data 63 Clustering 2

Data 64 Clustering 3

Data 65 Clustering 4

Data 66 Clustering 5

Data 67 Clustering 3

Data 68 Clustering 4

Data 69 Clustering 7

Data 70 Clustering 2

Data 71 Clustering 3

Data 72 Clustering 3

Data 73 Clustering 5

Data 74 Clustering 4

Data 75 Clustering 4

Data 76 Clustering 4

Data 77 Clustering 3

Data 78 Clustering 4

Data 79 Clustering 4

Data 80 Clustering 4

Data 81 Clustering 7

Data 82 Clustering 3

Data 83 Clustering 3

Data 84 Clustering 3

Data 85 Clustering 7

Data 86 Clustering 7

Data 87 Clustering 4

Data 88 Clustering 4

Data 89 Clustering 4

Data 90 Clustering 7

Gambar

Gambar 2.1 Proses menggali pengetahuan dara pangkalan data (sumber ; Han.J & Kember 2006)
Gambar 2.2 Contoh proses clustering(sumber ; Nugraheni, 2011)
Gambar 2.4 Flowchart algoritma K-means  2.5 Metode Silhouette
Tabel 2.1 Riset-riset terkait
+7

Referensi

Dokumen terkait

Parameter yang diuji adalah pengujian jumlah iterasi pada algoritma K-Means menggunakan silhoutte coefficient, pengujian jumlah popsize atau colony size, pengujian

Algoritma K-Means Clustering mampu mengelompokan data DAS menjadi beberapa kelompok sesuai kemiripan dan karekteristik masing-masing dengan Tingkat validasi data

Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma yang

Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma yang

Pada uji coba validasi, telah dilakukan klasterisasi dengan algoritma K-means menggunakan bahasa SQL pada dataset dengan variasi jumlah dimensi, jumlah klaster dan

Penerapan metode K-Means Clustering untuk mengelompokkan provinsi menurut jumlah produksi bahan pangan dimulai dari analisa data yang terdiri dari produksi jagung,

Jika M adalah jumlah data dalam suatu klaster dan i adalah fitur ke-i dalam sebuah klaster, maka persamaan yang digunakan untuk menghitung sentroid baru adalah: * + ,∑, ./ /0+ 1

Penelitian ini bertujuan untuk mengelompokkan jumlah penumpang pesawat di bandara Juanda dan Ngurah Rai menggunakan algoritma K-Means pada data lima tahun