Clustering - LANDASAN TEORI - Pengelompokan artikel berbahasa Jawa dengan hierarchical k means

BAB II LANDASAN TEORI

2.2 Clustering

2.2. K Means Clustering

K Means clustering merupakan metode yang populer digunakan untuk

mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan

kecenderungan setiap individu data untuk berkelompok dengan

individu-individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan

pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari

metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin

ada untuk kemudian mengelompokkan setiap data individu ke dalam salah

satu dari kelompok-kelompok tersebut berdasarkan jaraknya (Turban dkk,

2005). Semakin dekat jarak data individual, sebut saja X1 dengan salah satu

pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1

tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin

jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya

(ilustrasi dapat dilihat pada gambar 1). Secara kuantitatif hal ini ditunjukkan

melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang

20 Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak

(Turban dkk, 2005)

Cara untuk menemukan pusat yang paling sesuai sebagai upaya

merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang

lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai

dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang

telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data

berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan

seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah

selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok.

2.2.1 Langkah K Means Clustering

Metode pengelompokkan K Means pada dasarnya melakukan dua proses yakni

tiap-21 tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma

K Means sebagai berikut :

1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.

2. Bangkitkan K centroid (titik pusat cluster) awal secara random.

3. Hitung jarak setiap data ke masing-masing centroid.

4. Setiap data memilih centroid yang terdekat.

5. Tentukan posisi centroid baru dengan cara menghitung nilai rata-rata

dari data-data yang terletak pada centroid yang sama.

6. Kembali ke langkah 3 jika posisi centroid baru kurang dari centroids

lama.

Berdasarkan cara kerjanya Algoritma K Means memiliki karakteristik sebagai

berikut :

1. K Means sangat cepat dalam proses clustering.

2. K Means sangat sensitif dalam proses pembangkitan centroid awal secara

random.

3. Memungkinkan suatu cluster tidak mempunyai anggota.

4. Hasil clustering dengan K Means bersifat tidak unik.

Proses pengelompokkan data ke dalam suatu cluster dapat dilakukan dengan cara

menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Rumus untuk

menghitung jarak tersebut menggunakan euclidean matrix:

(2.3)

22 g = 2, untuk menghitung jarak euclidean

x_i , x_j adalah dua buah data yang akan dihitung jaraknya

p = dimensi dari sebuah data

Pembaharuan suatu titik centroid dapat dilakukan dengan rumus berikut:

(2.4)

dimana:

µk = titik centroid dari cluster ke-K

N_k = banyaknya data pada cluster ke-K

xq = data ke-q pada cluster ke-K

2.2.2 Hierarchical Clustering

Metode agglomerative hierarchical clustering adalah metode yang

menggunakan strategi disain bottom-up yang dimulai dengan meletakkan setiap

obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya

menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam

sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu

(Arai ,2007).

Sebelum dibentuknya sebuah cluster perlu melalui langkah menghitung

23 banyak digunakan adalah dengan perhitungan euclidean distance. Euclidean

distance sendiri adalah:

√ | | | | | | | | (2.5) dapat disederhanakan dengan:

√∑ (2.6)

Keterangan:

 adalah jumlah atribut atau dimensi

 dan adalah data

Hierarchical clustering memiliki beberapa cara untuk perhitungan jarak

antar cluster, di antaranya adalah single linkage, average linkage, dan complete

linkage. Berikut ini adalah pendevinisian perhitungan jarak dengan cara single

linkage:

Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum

antar cluster. Dengan single linkage jarak antara dua cluster didevinisikan sebagai

berikut:

(2.7)

Keterangan:

^{adalah jarak antara data} ^{dan y dari masing-masing}^cluster^{A dan B.}

Berdasarkan perhitungan rumus di atas akan didapatkan jarak antar cluster. Jarak

minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama.

Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster

24 J a r a k 0 1 2 0,5 1,5 a b c e d f D a t a Gambar 2.4 Dendrogram

Penggunaan metode hierarchical clustering untuk mengelompokkan n

obyek data adalah sebagai berikut :

1. Hitung Matrik Jarak antar data.

2. Ulangi langkah 3 dan 4 higga hanya satu kelompok yang tersisa.

3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang

ditentukan.

4. Perbarui Matrik Jarak antar data untuk merepresentasikan kedekatan di

antara kelompok baru dan kelompok yang masih tersisa.

5. Selesai.

Sebagai contoh, terdapat beberapa data yang dapat dilihat pada tabel 2.4 di

bawah ini. Data akan dibentuk dengan menggunakan hierarchical clustering

dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan

25 Tabel 2.4 Contoh Data Perhitungan hierarchical clustering

Data X Y A 1 1 B 4 1 C 1 2 D 3 4 E 5 4

Dihitung dengan euclidean distance setiap obyek data tersebut dihitung

jaraknya sebagai berikut:

√ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | | √ | | | |

Berdasarkan perhitungan tersebut dapat dibentuk matriks jarak seperti

26 Tabel 2.5 Matriks jarak

A B C D E a 0 3 1 3.61 5 b 3 0 3.16 3.16 3.16 c 1 3.16 0 2.83 4.47 d 3.61 3.16 2.83 0 2 e 5 3.16 4.47 2 0  Single linkage

Selanjutnya dari tabel 2.5 dapat dilihat jarak obyek data yang paling dekat,

yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.

Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari

sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk

pencarian jarak ini pertama digunakan single linkage.



Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster

27 Tabel 2.6Matriks Jarak Pertama singlelinkage

Ac B d E

Ac 0 3 2.83 4.47

B 0 3.16 3.16

D 0 2

E 0

Berdasar pada matriks jarak kedua (Tabel 2.6), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.

Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.



Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster

(de), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.7 Matriks Jarak Kedua singlelinkage

Ac b De

Ac 0 3 2.83

B 0 3.16

28 Berdasar pada matriks jarak ketiga (Tabel 2.7), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai

2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.

 Langkah selanjutnya yaitu menghapus dan menambahkan baris dan kolom

untuk cluster (acde) baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster (ac) dan (de), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.8 Matriks Jarak Ketiga singlelinkage

acde B

Acde 0 3

B 0

Proses iterasi perhitungan jarak untuk pembentukan cluster sudah slesai

karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b) digabung menjadi

satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut ini adalah hasil

29 Gambar 2.5 Dendrogram singlelinkage untuk 5 obyek data

2.3 Hierarchical K Means

Menurut eksperimen yang telah dilakukan, metode K Means sudah

digunakan untuk metode pengelompokan data set. Hal itu dapat dibuktikan

dengan prosentase eror yang minimal, namun seiring berjalannya waktu,

eksperimen tentang clustering lebih berkembang dengan adanya metode

Hierarichal K Means yang dapat menentukan centroid awal yang akan

digunakan untuk clustering pada metode K Means. Ternyata metode

Hierarichal K Means dapat mengatasi pemilihan centroid secara random yang

memikiki tingkat eror lebih besar dan dalam penggunannya dianggap kurang

praktis karena harus melakukan beberapa eksperimen dalam menentukan

centroid awal yang tepat. Harapannya dengan diterapkan Hierarichal K Means

dapat meningkatkan akurasi dan menurunkan prosentasi erornya, disebutkan

dalam penelitian, ternyata eror pada metode K Means dengan centroid

random sebesar 32.5236%, sedangkan dengan metode Hierarichal K Means

30 Berikut adalah langkah dalam menentukan centoid awal dengan menggunakan

hierarchicalK Means :

1. Set X ={xi | i =1, ..., r} i setiap data A, dimana A {ai | i= 1, ..., n} dengan

n-dimensi vektor.

2. Set K sebagai jumlah _ cluster yang telah ditetapkan.

3. Tentukan p sebagai banyaknya perhitungan

4. Set i = 1 sebagai counter awal

5. Terapkan algoritma K Means.

6. Catat hasil centroid hasil Clustering sebagai Ci = {i_j | j = 1, ..., K}

7. Tambahkan i = i + 1

8. Ulangi dari langkah 5 saat i <p.

9. Asumsikan C = {Ci | i = 1, ..., p} sebagai satu set data baru, dengan K

sebagai nomor _ cluster yang telah ditetapkan

10.Terapkan algoritma hirarki (singlelinkage)

11.Catat hasil centroid Clustering sebagai D = {di | i = 1, ..., K}

Langkah berikutnya adalah menerapkan D = {di | i = 1, ..., K} sebagai

pusat klaster awal untuk K Means. Penggunaan algoritma hirarki untuk

menemukan centroid awal dipilih single linkage, karena single linkage

penerapannya mudah selain itu ternyata tidak ada perbedaan signifikan

dibandingkan dengan average maupun completelinkage (Arai, 2007).

Dalam dokumen Pengelompokan artikel berbahasa Jawa dengan hierarchical k means clustering. (Halaman 36-47)