BAB II LANDASAN TEORI
2.2 Clustering
2.2. K Means Clustering
K Means clustering merupakan metode yang populer digunakan untuk
mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan
kecenderungan setiap individu data untuk berkelompok dengan
individu-individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan
pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari
metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin
ada untuk kemudian mengelompokkan setiap data individu ke dalam salah
satu dari kelompok-kelompok tersebut berdasarkan jaraknya (Turban dkk,
2005). Semakin dekat jarak data individual, sebut saja X1 dengan salah satu
pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1
tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin
jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya
(ilustrasi dapat dilihat pada gambar 1). Secara kuantitatif hal ini ditunjukkan
melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang
20 Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak
(Turban dkk, 2005)
Cara untuk menemukan pusat yang paling sesuai sebagai upaya
merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang
lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai
dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang
telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data
berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan
seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah
selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok.
2.2.1 Langkah K Means Clustering
Metode pengelompokkan K Means pada dasarnya melakukan dua proses yakni
tiap-21 tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma
K Means sebagai berikut :
1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.
2. Bangkitkan K centroid (titik pusat cluster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid.
4. Setiap data memilih centroid yang terdekat.
5. Tentukan posisi centroid baru dengan cara menghitung nilai rata-rata
dari data-data yang terletak pada centroid yang sama.
6. Kembali ke langkah 3 jika posisi centroid baru kurang dari centroids
lama.
Berdasarkan cara kerjanya Algoritma K Means memiliki karakteristik sebagai
berikut :
1. K Means sangat cepat dalam proses clustering.
2. K Means sangat sensitif dalam proses pembangkitan centroid awal secara
random.
3. Memungkinkan suatu cluster tidak mempunyai anggota.
4. Hasil clustering dengan K Means bersifat tidak unik.
Proses pengelompokkan data ke dalam suatu cluster dapat dilakukan dengan cara
menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Rumus untuk
menghitung jarak tersebut menggunakan euclidean matrix:
(2.3)
22 g = 2, untuk menghitung jarak euclidean
xi , xj adalah dua buah data yang akan dihitung jaraknya
p = dimensi dari sebuah data
Pembaharuan suatu titik centroid dapat dilakukan dengan rumus berikut:
(2.4)
dimana:
µk = titik centroid dari cluster ke-K
Nk = banyaknya data pada cluster ke-K
xq = data ke-q pada cluster ke-K
2.2.2 Hierarchical Clustering
Metode agglomerative hierarchical clustering adalah metode yang
menggunakan strategi disain bottom-up yang dimulai dengan meletakkan setiap
obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya
menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam
sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu
(Arai ,2007).
Sebelum dibentuknya sebuah cluster perlu melalui langkah menghitung
23 banyak digunakan adalah dengan perhitungan euclidean distance. Euclidean
distance sendiri adalah:
√ | | | | | | | | (2.5) dapat disederhanakan dengan:
√∑ (2.6)
Keterangan:
adalah jumlah atribut atau dimensi
dan adalah data
Hierarchical clustering memiliki beberapa cara untuk perhitungan jarak
antar cluster, di antaranya adalah single linkage, average linkage, dan complete
linkage. Berikut ini adalah pendevinisian perhitungan jarak dengan cara single
linkage:
Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum
antar cluster. Dengan single linkage jarak antara dua cluster didevinisikan sebagai
berikut:
(2.7)
Keterangan:
adalah jarak antara data dan y dari masing-masing cluster A dan B.
Berdasarkan perhitungan rumus di atas akan didapatkan jarak antar cluster. Jarak
minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama.
Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster
24 J a r a k 0 1 2 0,5 1,5 a b c e d f D a t a Gambar 2.4 Dendrogram
Penggunaan metode hierarchical clustering untuk mengelompokkan n
obyek data adalah sebagai berikut :
1. Hitung Matrik Jarak antar data.
2. Ulangi langkah 3 dan 4 higga hanya satu kelompok yang tersisa.
3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang
ditentukan.
4. Perbarui Matrik Jarak antar data untuk merepresentasikan kedekatan di
antara kelompok baru dan kelompok yang masih tersisa.
5. Selesai.
Sebagai contoh, terdapat beberapa data yang dapat dilihat pada tabel 2.4 di
bawah ini. Data akan dibentuk dengan menggunakan hierarchical clustering
dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan
25 Tabel 2.4 Contoh Data Perhitungan hierarchical clustering
Data X Y A 1 1 B 4 1 C 1 2 D 3 4 E 5 4
Dihitung dengan euclidean distance setiap obyek data tersebut dihitung
jaraknya sebagai berikut:
√ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | |
Berdasarkan perhitungan tersebut dapat dibentuk matriks jarak seperti
26 Tabel 2.5 Matriks jarak
A B C D E a 0 3 1 3.61 5 b 3 0 3.16 3.16 3.16 c 1 3.16 0 2.83 4.47 d 3.61 3.16 2.83 0 2 e 5 3.16 4.47 2 0 Single linkage
Selanjutnya dari tabel 2.5 dapat dilihat jarak obyek data yang paling dekat,
yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.
Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari
sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk
pencarian jarak ini pertama digunakan single linkage.
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster
27 Tabel 2.6Matriks Jarak Pertama singlelinkage
Ac B d E
Ac 0 3 2.83 4.47
B 0 3.16 3.16
D 0 2
E 0
Berdasar pada matriks jarak kedua (Tabel 2.6), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster
(de), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.7 Matriks Jarak Kedua singlelinkage
Ac b De
Ac 0 3 2.83
B 0 3.16
28 Berdasar pada matriks jarak ketiga (Tabel 2.7), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai
2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.
Langkah selanjutnya yaitu menghapus dan menambahkan baris dan kolom
untuk cluster (acde) baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan (de), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.8 Matriks Jarak Ketiga singlelinkage
acde B
Acde 0 3
B 0
Proses iterasi perhitungan jarak untuk pembentukan cluster sudah slesai
karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b) digabung menjadi
satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut ini adalah hasil
29 Gambar 2.5 Dendrogram singlelinkage untuk 5 obyek data
2.3 Hierarchical K Means
Menurut eksperimen yang telah dilakukan, metode K Means sudah
digunakan untuk metode pengelompokan data set. Hal itu dapat dibuktikan
dengan prosentase eror yang minimal, namun seiring berjalannya waktu,
eksperimen tentang clustering lebih berkembang dengan adanya metode
Hierarichal K Means yang dapat menentukan centroid awal yang akan
digunakan untuk clustering pada metode K Means. Ternyata metode
Hierarichal K Means dapat mengatasi pemilihan centroid secara random yang
memikiki tingkat eror lebih besar dan dalam penggunannya dianggap kurang
praktis karena harus melakukan beberapa eksperimen dalam menentukan
centroid awal yang tepat. Harapannya dengan diterapkan Hierarichal K Means
dapat meningkatkan akurasi dan menurunkan prosentasi erornya, disebutkan
dalam penelitian, ternyata eror pada metode K Means dengan centroid
random sebesar 32.5236%, sedangkan dengan metode Hierarichal K Means
30 Berikut adalah langkah dalam menentukan centoid awal dengan menggunakan
hierarchicalK Means :
1. Set X ={xi | i =1, ..., r} i setiap data A, dimana A {ai | i= 1, ..., n} dengan
n-dimensi vektor.
2. Set K sebagai jumlah _ cluster yang telah ditetapkan.
3. Tentukan p sebagai banyaknya perhitungan
4. Set i = 1 sebagai counter awal
5. Terapkan algoritma K Means.
6. Catat hasil centroid hasil Clustering sebagai Ci = {ij | j = 1, ..., K}
7. Tambahkan i = i + 1
8. Ulangi dari langkah 5 saat i <p.
9. Asumsikan C = {Ci | i = 1, ..., p} sebagai satu set data baru, dengan K
sebagai nomor _ cluster yang telah ditetapkan
10.Terapkan algoritma hirarki (singlelinkage)
11.Catat hasil centroid Clustering sebagai D = {di | i = 1, ..., K}
Langkah berikutnya adalah menerapkan D = {di | i = 1, ..., K} sebagai
pusat klaster awal untuk K Means. Penggunaan algoritma hirarki untuk
menemukan centroid awal dipilih single linkage, karena single linkage
penerapannya mudah selain itu ternyata tidak ada perbedaan signifikan
dibandingkan dengan average maupun completelinkage (Arai, 2007).