METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

(1)

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN

PENDEKATAN GRAF HUTAN YANG MINIMUM

Achmad Maududie1), Wahyu Catur Wibowo2)

1)

Program Studi Sistem Informasi, Universitas Jember

2)

Fakultas Ilmu Komputer, Universitas Indonesia

Email : maududie@gmail.com1), wibowo@cs.ui.ac2)

Abstrak

Pengelompokkan obyek dalam sejumlah grup

(kelompok) dalam proses clustering tidak hanya memperhatikan algoritma clustering yang digunakan, namun juga indeks validitas clustering yang digunakan yang menunjukkan kualitas hasil clustering. Salah satu usaha untuk meningkatkan kualitas tersebut adalah membagi cluster hasil yang memiliki diameter terlalu besar. Artikel ini mengenalkan metode pembagian cluster yang tidak hanya dapat membagi cluster menjadi dua sub cluster (bisecting), namun dimungkinkan tiga atau lebih. Metode ini didasarkan pada pendekatan graf hutan yang minimum yang dinamakan Adaptive-secting Divisive Clustering Minimum Forest Graph (ADCMFG). Dari hasil eksperimen didapatkan bahwa metode ADCMFG mampu membagi dua atau lebih cluster target dengan hasil kinerja yang baik. Hal ini ditunjukkan dari

hasil evaluasi yang dilakukan (menggunakan

Compactess-separation Criterion) yang menyatakan adanya perbaikan indeks dari cluster hasil yang didapat, yaitu; 0,127 menjadi 0,106 untuk dataset 1, 0,190 menjadi 0,071 untuk dataset 2, dan 0,205 menjadi 0,069 untuk dataset 3. Disamping itu, pendekatan ini juga mampu melakukan reposisi elemen ke dalam cluster yang lebih tepat seperti yang ditunjukkan dalam hasil clustering pada dataset 3.

Kata kunci: clustering, adaptive-secting, graf hutan yang minimum.

1. Pendahuluan

Tujuan utama proses clustering adalah mengelompokkan seluruh obyek dalam sejumlah grup (kelompok) obyek berdasarkan tingkat kedekatan (proximity) obyeknya [1, p. 8], [2, p. 3], [3, p. 269], [4, p. 1499] yang dipresentasikan dalam indeks kesamaan (similarity) dan ketidaksamaan (dissimilarity) [1, p. 11], [2, p. 5]. Selain pemilihan algoritma clustering yang tepat, clustering juga memperhatikan kualitas hasil yang diperoleh dengan melakukan evaluasi terhadap beberapa indikator atau yang dikenal sebagai proses validitas clustering. Salah satu contoh metode validitas clustering yang digunakan dalam algoritma clustering yang berbasis nilai tengah (center-based clustering algorithm) adalah

Compactness-separation criterion (CSC) yang

dikenalkan oleh Ray dan Tury (1999) [2, p. 37]. Semakin kecil indeks CSC maka semakin kompak dan terdistribusi cluster yang dihasilkan.

Hasil clustering yang memiliki cluster dengan elemen yag memiliki diameter atau sum of square error (SSE) terlalu besar biasanya memberikan indeks CSC menjadi besar yang berarti cluster yang dihasilkan adalah cluster yang relatif tidak kompak atau memiliki separasi antar cluster yang terlalu dekat. Problem semacam ini biasanya diselesaikan dengan menambah jumlah cluster yang dihasilkan dengan cara membagi cluster dengan diameter besar menjadi dua sub cluster atau yang dikenal dengan bisecting divisive clustering. Meskipun sering menjawab problem yang muncul, namun bisecting hanya membagi sebuah cluster menjadi dua, sehingga apabila cluster yang dimaksud harus dibagi menjadi lebih dari dua sub-cluster maka proses bisecting harus dilakukan lebih dari satu kali. Selain itu, proses bisecting hanya dapat dilakukan dalam satu cluster saja pada satu waktu.

25,64 14,48 25,67 11,63 8,02 16,57 10,72 6,53 10,46 8,20 5,45 12,50 5,06 6,06 10,03 10,72 6,53 10,46 8,36 a. Cluster yang akan dipisah b. Hasil bisecting pertama c. Hasil bisecting kedua

Gambar 1. Contoh Proses Bisecting untuk

Menghasilkan Tiga Sub Cluster

Artikel ini menawarkan pendekatan baru yang fokus pada proses pemisahan cluster yang bersifat adaptif, yiatu dapat memisahkan sebuah cluster menjadi dua atau lebih sub-cluster dalam satu proses. Selain itu pendekatan ini diharapkan dapat melakukan pemisahan pada lebih dari satu cluster secara serempak seperti dalam Gambar 2. Kualitas hasil clustering yang didapat dievaluasi menggunakan CSC. Indeks CSC dalam hasil

clustering setelah dilakukan pembagian akan

(2)

Gambar 2. Contoh Hasil Adaptive Bisecting Clustering 2. Pembahasan

Compactness-Separation Criterion

Hingga saat ini telah banyak metode validitas clustering yang dikembangkan, baik menggunakan kriteria internal, eksternal, dan relatif [2, p. 299]. Validasi dengan kriteria

internal fokus mengukur seberapa kompak

(compactness) cluster yang dihasilkan baik yang ditunjukkan oleh homogenitas intra-cluster, separasi inter-cluster, atau kombinasi keduanya [3, p. 273] hanya menggunakan data internal [2, p. 303], [3, p. 273]. Metode Compactness-separation Criterion (CSC) adalah

salah satu metode validitas clustering yang

menggunakan kriteria internal. Dalam metode ini terdapat dua nilai penting yang harus dihitung, yaitu intra-cluster (Mintra) dan inter-cluster (Minter). Nilai Mintra

dihitung menggunakan WCSS (within-cluster sum of

squares), yaitu mengukur rerata jarak setiap obyek

terhadap centroid dari cluster masing-masing, sedangkan

nilai Minter ditentukan oleh jarak terpendek antar

centroidnya [2, p. 37].

... (1)

... (2) dengan n adalah jumlah obyek, zi adalah centroid dari

cluster Ci.

Dari Persamaan (1) dan (2) maka indeks validitas (V) dapat dihitung sebagai berikut [2, p. 37].

... (3)

Adaptive-secting Divisive Clustering

Pada prinsipnya, metode pembagian cluster yang dikenalkan berbasis pada graf hutan yang minimum

(ADCMFG), memiliki 8 tahapan proses seperti dalam Gambar 3.

ALGORITMA ADCMFG

Input: Cluster target, jumlah cluster target t Output: Sub Cluster

1. Hitung rerata jarak setiap elemen terhadap

centroidnya ( ) di setiap cluster target dan rerata dari rerata jarak setiap elemen terhadap centroidnya

2. Pilih elemen yang memiliki jarak lebih besar dari

rerata jaraknya ( )

3. Bangkitkan graf hutan yang minimum dari semua elemen yang terpilih berdasarkan jarak terdekatnya dengan ketentuan jarak terdekatnya tidak boleh melebihi

4. Bangkitkan centroid awal (initial centroid) yang dibentuk dari rerata tiap komponen graf hutan 5. while terdapat jarak antar centroid awal yang lebih

kecil dari lakukan

6. Gabungkan dua centroid awal terdekat yang

memiliki jarak lebih dari dengan

menggunakan rerata kedua inisial centroid tersebut

7. end while

8. Lakukan clustering terhadap cluster yang akan dibagi menggunakan centroid awal yang terbentuk dengan.

Gambar 3. Algoritma ADCMFG

Sebagai ilustrasi, dalam Gambar 4 terdapat dua cluster dari hasil proses clustering dengan masing-masing rerata jarak elemen terhadap centroidnya adalah 17,05 untuk cluster 1 dan 17,27 untuk cluster 2. Dari kedua cluster tersebut didapat indeks CSC sebesar 0,29. Apabila kedua cluster tersebut dianggap sebaga cluster target (t = 2), maka dari kedua cluster tersebut diseleksi elemen-elemen yang memiliki jarak lebih besar dari masing-masing jarak reratanya. Dengan elemen-elemen yang terseleksi tersebut disusun sebuah graf hutan yang minimum (berdasarkan jarak terdekat) dengan jarak yang

tidak melebihi (Lihat Gambar 5).

12,50 17,50 17,90 25,89 14,73 16,44 7,73 11,29 25,33 13,46 12,50 24,62 23,05

(3)

Gambar 4. Contoh Hasil Proses Clustering 23,05 17,50 17,90 25,89 25,33 24,62 15,00 15,81 x2 x3 x4 x5 x6 x1

a. Hasil seleksi elemen

( )

b. Graf hutan yang minimum (dengan empat komponen)

Gambar 5. Contoh Hasil Pembangkitan Graf Hutan

yang Minimum

Dalam Gambar 5b terlihat bahwa graf hutan yang minimum memiliki empat komponen (tree) dengan dua diantaranya tidak memiliki sisi (hanya terbentuk dari sebuah simpul), yaitu pada simpul x5 dan x6 karena

jarak terdekat ke simpul lainnya melebihi . Dari setiap komponen graf hutan yang terbentuk dibangkitkan centroid awal dari nilai tengah setiap komponen. Apabila jarak antar dua centroid awal terdekatnya kurang dari , maka kedua centroid awal tersebut digabungkan dengan mengambil reratanya.

... (4) 15,00 15,81 x2 x3 x4 x5 x6 x1 a. Pembangkitan Centroid

awal (tanda silang)

b. Centroid awal

(tanda silang)

Gambar 6. Contoh Pembangkitan Centroid Awal Apabila tidak ada jarak antar centroid awal yang kurang

dari maka lakukan proses clustering dengan

menggunakan centroid awal yang telah terbentuk tersebut.

Gambar 7. Contoh Hasil Pembagian Cluster Dalam Gambar 7 terlihat bahwa masing-masing cluster dibagi menjadi dua sub cluster secara bersamaan, sehingga terbentuk empat cluster. Apabila indeks CSC hasil pembagian cluster tersebut dibandingkan dengan sebelum dibagi maka hasil pembagian memiliki indeks yang lebih baik.

Hasil eksperimen

Dalam eksperimen, pendekatan Adaptive-secting

Divisive Clustering Minimum Forest Graph (ADCMFG)

diuji dengan menggunakan tiga dataset sintetik yang berdimensi dua (lihat Gambar 8). Hasil clustering dari setiap dataset tersebut telah ditentukan cluster mana yang murupakan cluster target, sehingga metoda

ADCMFG difokuskan untuk melakukan proses

pembagian cluster target. Indeks CSC hasil pembagian cluster di tiap dataset akan dibandingkan dengan indeks CSC cluster sebelum dibagi.

Dari ketiga dataset sitetik yang digunakan, hasil pembagian setiap dataset dapat dilihat dalam Tabel 1. Tabel 1. Hasil Pembagian Dataset

Dataset Status

Indeks CSC Jml.

cluster Mintra Minter V

1 Awal 2 165,00 1300,00 0,127 Akhir 3 68,33 644,44 0,106 2 Awal 3 344,21 1808,02 0,190 Akhir 5 60,03 847,22 0,071 3 Awal 3 367,56 1796,50 0,205 Akhir 6 65,32 941,00 0,069

Dalam Tabel 1 terlihat bahwa hasil pembagian cluster mendapatkan indeks CSC yang lebih kecil dibandingkan sebelum dibagi. Hal ini berarti bahwa hasil pembagian cluster pada ketiga dataset tersebut memberikan cluster yang lebih kompak dan lebih terdistribusi.

(4)

11,18 20,62 10,00 5,00 14,14 20,62 7,07 7,07 11,18 11,18

a. Dataset 1 (jumlah cluster target = 1)

21,67 22,42 17,40 17,40 25,22 17,16 24,04 9,72 16,67 17,16 24,04 25,22 7,45 7,45 4,71 19,69 26,12 17,44 10,48 5,67 11,25 16,71 27,77 21,64

b. Dataset 2 (jumlah cluster target = 2)

21,67 22,42 17,40 17,40 25,22 17,16 24,04 9,72 16,67 17,16 24,04 25,22 19,69 26,12 17,44 10,48 5,67 11,25 16,71 27,77 21,64 18,87 6,87 3,73 8,98 10,96 13,04

c. Dataset 2 (jumlah cluster target = 3)

Gambar 8. Tiga Dataset Sintetik yang digunakan dalam

Eksperimen

Pada dataset 1, cluster target dibagi menjadi dua 2 sub cluster (seperti yang dihasilkan oleh proses bisecting divisive clustering). Namun demikian, pada dataset 2 dan 3, cluster target dibagi menjadi lebih dari dua sub cluster (lihat Gambar 9).

C2

C1

C3

a. Hasil pembagian dataset 1

C2

C1

C3

C5

C4

b. Hasil pembagian dataset 2

C2 C1 C3 C5 C4 C6

c. Hasil pembagian dataset 3

Gambar 9. Hasil Pembagian Cluster

menggunakan metode ADCMFG

Dalam Gambar 9c terlihat bahwa pembagian cluster dengan metode ADCMFG tidak hanya mempu membagi cluster menjadi sejumlah sub cluster, namun juga dapat

(5)

3. Kesimpulan

Dari hasil eksperimen dapat disimpulkan bahwa metode

yang diperkenalkan (Adaptive-secting Divisive

Clustering Minimum Forest Graph) mampu membagi

cluster target menjadi dua atau lebih sub cluster. Disamping itu, metode ini juga mampu melakukan reposisi elemen cluster ke cluster yang sesuai. Disamping itu, hasil evaluasi menggunakan

Compactess-separation Criterion menunjukkan indeks yang baik

dibandingkan dengan cluster yang belum dilakukan pembagian, yaitu; 0,127 menjadi 0,106 untuk dataset 1, 0,190 menjadi 0,071 untuk dataset 2, dan 0,205 menjadi 0,069 untuk dataset 3. Untuk penelitian selanjunya, metode ini sebaiknya diuji dengan struktur data yang lain dan bila perlu dataset uji memiliki dimensi yang lebih besar.

Daftar Pustaka

[1] A. K. Jain, Algorithms for clustering data. Englewood Cliffs, N.J: Prentice Hall, 1988.

[2] G. Gan, Data clustering: theory, algorithms, and applications. Philadelphia, Pa. : Alexandria, Va: SIAM, Society for Industrial and Applied Mathematics ; American Statistical Association, 2007.

[3] L. Rokach, “A survey of Clustering Algorithms,” in Data Mining

and Knowledge Discovery Handbook, O. Maimon and L.

Rokach, Eds. Boston, MA: Springer US, 2010.

[4] D. Cheng, R. Kannan, S. Vempala, and G. Wang, “A divide-and-merge methodology for clustering,” ACM Trans. Database Syst., vol. 31, no. 4, pp. 1499–1525, Dec. 2006.

[5] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a review,” ACM Comput. Surv., vol. 31, no. 3, pp. 264–323, Sep. 1999.

[6] M. E. Celebi, H. A. Kingravi, and P. A. Vela, “A comparative study of efficient initialization methods for the k-means clustering algorithm,” Expert Syst. Appl., vol. 40, no. 1, pp. 200– 210, Jan. 2013.

[7] X. Wu, V. Kumar, J. Ross Quinlan, J. Ghosh, Q. Yang, H. Motoda, G. J. McLachlan, A. Ng, B. Liu, P. S. Yu, Z.-H. Zhou, M. Steinbach, D. J. Hand, and D. Steinberg, “Top 10 algorithms in data mining,” Knowl. Inf. Syst., vol. 14, no. 1, pp. 1–37, Jan. 2008.

[8] S. S. Khan and A. Ahmad, “Cluster center initialization algorithm for K-modes clustering,” Expert Syst. Appl., vol. 40, no. 18, pp. 7444–7456, Dec. 2013.

[9] K. Liao, G. Liu, L. Xiao, and C. Liu, “A sample-based hierarchical adaptive K-means clustering method for large-scale video retrieval,” Knowl.-Based Syst., vol. 49, pp. 123–133, Sep. 2013.