HASIL DAN PEMBAHASAN

METODE PENELITIAN

Preprocessing Data

Data yang digunakan pada penelitian ini adalah data bunga karang atau sponge jenis

O.Hadromerida (Demospongiae. Porifera) yang terdapat di Lautan Atlantik. Data diperoleh dari hasil penelitian Iosune Uriz dan Marta Domingo pada tahun 1993. Data ini memiliki 76 record dan 45 atribut. Format awal data adalah format txt.

Tahap praproses data dilakukan terhadap data bunga karang meliputi:

1 Data selection

Pada proses ini dilakukan dua tahapan : a Seleksi record. Dari 76 record data

terdapat 22 missingdata pada atribut ke 39, oleh karena itu diperlukan pemilihan record yang sesuai sehingga data yang hilang tidak mempengaruhi hasil. Pada penelitian ini seleksi record dilakukan dengan cara membuang 22 record missing

data, sehingga dihasilkan 54 record

data. Data sponge tersebut dapat dilihat pada Lampiran 1.

b Seleksi atribut. Dalam data yang digunakan terdapat 45 atribut yang terdiri dari 27 atribut non-numerik, 15 atribut boolean, dan tiga atribut

numeric. Karena tiga atribut numeric

dalam bentuk bilangan diskret maka diasumsikan bahwa nilai dari atribut

tersebut merupakan hasil pengamatan yang didiskretkan sehingga dapat dijadikan kategori. Oleh karena semua atribut yang ada berhubungan dengan struktur anatomidan fisiologi dari bunga karang maka semua atribut digunakan dalam proses data mining. Atribut yang digunakan dapat dilihat pada Lampiran 2. 2 Data transformation

Pada tahapan proses ini dilakukan tranformasi data dari format .txt ke format

.xls agar dapat diproses dengan mudah oleh MATLAB. Kemudian dilakukan inisialisasi untuk setiap data kedalam bentuk integer untuk mempermudah proses perhitungan similaritas.

Data Mining

Pada tahap ini dilakukan clustering

menggunakan langkah-langkah dari algoritme ROCK dan QROCK. Pada langkah pertama akan dilakukan proses clustering

menggunakan algoritme ROCK. Percobaan

clustering dilakukan untuk ukuran cluster dua sampai 13 (k = 2…13). Untuk masing–masing ukuran cluster dilakukan percobaan dengan nilai threshold diambil pada selang 0 sampai 1 (0:0.1:1). Cluster hasil ditentukan sedemikian sehingga cluster hasil memiliki nilai cohesion

yang tinggi dan telah merepresentasikan pola anatomi dari sponge.

Cluster yang dihasilkan oleh algoritme ROCK berjumlah tujuh cluster dengan nilai

threshold 0.6. Hasil algortme ROCK tersebut disajikan pada Tabel 1.

Tabel 1 Cluster hasil algoritmeROCK untuk ukuran k = 7 dan = 0,6 Cluster Anggota 1 [16 20 21 28 34 52] 2 [1 8 25 26 35 38 44 54] 3 [9 22 23 24 32 39 40 41] 4 [4 29 31 36 37 45 49 50] 5 [2 3 5 7 30 42 43 48] 6 [10 13 14 18 19 27 33 53] 7 [6 11 12 15 17 46 47 51] Persentase dan jumlah anggota masing- masing cluster algoritme ROCK dengan ukuran k = 7 dan threshold = 0,6 disajikan dalam Tabel 2 .

9 Tabel 2 Persentase dan jumlah anggota cluster

algoritme ROCK untuk ukuran k = 7 dan = 0,6 Cluster Jumlah anggota Persentase (%) 1 6 11 2 8 15 3 8 15 4 8 15 5 8 15 6 8 15 7 8 15

Pola anatomi yang direpresentasikan dari

cluster hasilalgoritme ROCK yaitu :

1 Anggota cluster satu merupakan sponge

yang tidak memiliki bagian dalam cortex, tidak memiliki espicula, megasclera tipe satu dan warnanya selain warna biru, kuning dan orange permukaan halus. 2 Anggota cluster dua merupakan sponge

yang memiliki cortex, tidak memiliki tipe

espicula, megasclera tipe tiga, dan bentuk lapisan permukaannya keras.

3 Cluster tiga merupakan sponge yang tidak memiliki cortex, tidak memiliki espicula,

megasclera tipe satu, berwarna kuning dan lapisan permukaan kasar.

4 Anggota cluster empat merupakan sponge

yang tidak memiliki cortex, tidak memiliki

espicula, megasclera tipe satu dan dua, berwarna kuning, selain biru dan orange, memiliki lapisan permukaan halus namun keras.

5 Cluster lima merupakan sponge yang memiliki cortex, memiliki espicula,

megasclera tipe tiga dan satu, warnanya selain warna biru dan orange, bentuk lapisan permukaannya beragam dan keras.

6 Cluster enam merupakan sponge yang tidak memiliki cortex, tidak memiliki

espicula, megasclera tipe satu, dua, dan tiga, berwarna kuning, selain biru dan

orange, memiliki lapisan permukaan halus dan kasar serta keras.

7 Cluster tujuh merupakan sponge yang memiliki cortex, tidak memiliki espicula

dan memiliki espicula, megasclera tipe satu, dua, dan tiga, berwarna kuning,

selain biru dan orange, memiliki permukaan yang keras.

Pada percobaan untuk algoritme QROCK tidak diperlukan penentuan ukuran cluster

karena ukuran cluster akan dibangkitkan otomatis oleh algoritme QROCK. Pada algoritme ini hanya diperlukan masukan data dan nilai threshold.

Nilai threshold pada percobaan ini diambil pada selang 0 sampai dengan 1 (0:0.05:1). Percobaan clustering dilakukan dengan memasukan nilai threshold yang bervariasi hingga menghasilkan cluster yang memiliki nilai cohesion yang tinggi dan telah merepresentasikan pola anatomi dari sponge.

Cluster yang dihasilkan oleh algoritme QROCK berjumlah enam cluster dengan nilai

threshold 0.85. Hasil algoritme QROCK tersebut disajikan pada Tabel 3.

Tabel 3 Cluster yang dihasilkan oleh algoritmeQROCK pada ukuran k = 6 dan = 0,85 Cluster Anggota 1 [1] 2 [2 3 4 5 6 7 8 9 22 23 24 25 26 29 30 31 32 36 37 39 40 41 44 45 48 49 50 51] 3 [10] 4 [11 12 13 14 15 16 17 18 19 20 21 27 28 33 34 35 38 52 53 54] 5 [42 43] 6 [46 47]

Persentase dan jumlah anggota masing- masing cluster algoritme QROCK pada ukuran k = 6 dan threshold = 0,85 disajikan dalam Tabel 4.

Tabel 4 Persentase dan jumlah anggota cluster

algoritme QROCK pada ukuran k = 6 dan = 0,85 Cluster Jumlah anggota Persentase (%) 1 1 2 2 28 52 3 1 2 4 20 37 5 2 4 6 2 4

10 Pola anatomi yang direpresentasikan dari

cluster hasilalgoritme QROCK yaitu : 1 Anggota cluster satu merupakan sponge

yang memiliki cortex, tidak ada espicula, megasclera tipe satu, warna selain kuning, biru dan orange, permukaannya kasar. 2 Cluster dua sponge yang memiliki cortex,

megascleras tipe satu dan dua, tidak memiliki espicula, warna kuning dan selain biru dan orange, permukaan halus dan keras.

3 Anggota cluster tiga sponge yang memiliki cortex dan espicula, megasclera

tipe tiga, permukaannya halus dan warnanya kuning.

4 Cluster empat sponge yang memiliki

cortex dan tidak memiliki espicula,

megasclera tipe tiga, warna selain kuning, biru dan orange, permukaan halus tapi keras.

5 Cluster lima sponge yang tidak memiliki

cortex namun memiliki espicula, megasclera tipe tiga, warna kuning, lapisan permukaan halus dan kasar. 6 Cluster enam merupakan sponge yang

memiliki cortex dan tidak memiliki

espicula, tidak memiliki megasclera, warna selain kuning, biru dan orange,

permukaannya berbentuk poligon besar dan kasar.

Pada kasus algoritme ROCK yang membutuhkan dua parameter ukuran cluster

dan nilai threshold, algoritme berhenti setelah mendapatkan kcluster yang ditentukan maka

k > untuk nilai threshold . Cluster

tambahan (| | buah) tidak lain merupakan calon anggota cluster, namun karena nilai k terpenuhi maka proses merge

tidak sempat dikerjakan. Selain itu, kondisi data dalam jumlah besar dan kemungkinan memiliki outliers sangat sulit untuk menentukan nilai k. Algoritme QROCK lebih mudah dan natural karena tidak harus menentukan ukuran k dibandingkan algoritme ROCK.

Evaluasi Pola

Hasil clustering dari setiap kombinasi ukuran cluster dan nilai threshold dievaluasi menggunakan total cohesion dengan menggunakan persamaan (7) dan nilai

separation dengan menggunakan persamaan

(8). Nilai total cohesion untuk clustering

algoritme ROCK disajikan pada Lampiran 3. Pada algoritme ROCK pola anatomi

sponge dapat direpresentasikan setelah ukuran cluster tujuh. Pada tabel di Lampiran 3 dapat terlihat bahwa untuk ukuran cluster

tujuh dengan nilai cohesion yang paling tinggi terdapat pada nilai threshold 0.6, maka

cluster yang dipilih untuk algoritme ROCK adalah ukuran cluster tujuh dengan = 0.6.

Nilai cohesion dan nilai separation untuk

cluster tujuh dan = 0.6 tersebut disajikan pada Tabel 5.

Tabel 5 Nilai cohesion dan nilai separation

algoritme ROCKuntuk cluster

delapan dan = 0.7

Cluster Jumlah

Anggota Cohesion Separation

1 6 498,5351 8228 2 8 1597 15.316 3 8 1487 14.812 4 8 1198 12.804 5 8 1071 11.622 6 8 1006 11.510 7 8 638,5595 10.676

Nilai total cohesion untuk clustering dari setiap kombinasi nilai threshold bagi algoritme QROCK disajikan pada Lampiran 4.

Pada algoritme QROCK pola anatomi

sponge dapat direpresentasikan pada ukuran

cluster enam. Pada tabel di Lampiran 4 dapat dilihat bahwa untuk nilai (threshold) = 0.85 total cohesion memiliki nilai cohesion

yang tinggi dibandingkan dengan cluster

sembilan yang dihasilkan oleh nilai threshold

= 0.87, maka cluster yang dipilih untuk algoritme QROCK adalah cluster ukuran enam dengan = 0.85.

Nilai cohesion dan nilai separation untuk ukuran cluster enam dan = 0.85 tersebut disajikan pada Tabel 6.

11 Tabel 6 Nilai cohesion dan nilai separation

algoritme QROCK untuk cluster

enam dan = 0.85

Cluster Jumlah

anggota Cohesion Separation

1 1 0 0 2 28 13946 0 3 1 0 0 4 20 1517.3 0 5 2 0 0 6 2 0 0

Semakin besar nilai cohesion (intracluster) menunjukkan kemiripan (similaritas) objek-objek tersebut semakin besar (Mali & Mitra, 1998). Semakin kecil nilai separation yang menggunakan persamaan similaritas maka perbedaan atau jarak suatu cluster dengan cluster lainnya semakin besar (Tan et al. 2006). Dengan demikian suatu cluster dikatakan baik jika nilai cohesion lebih besar dari nilai

separation-nya.

Dari Tabel 5 dapat dilihat bahwa algoritme ROCK memiliki nilai total cohesion 7.498,6 dan nilai separation 84.969. Nilai separation

lebih besar dibandingkan nilai cohesion-nya. Sedangkan dari Tabel 6 terlihat bahwa algoritme QROCK memili ki nilai cohesion

15.463,3 dan nilai total separation 0. Nilai

separation algoritme QROCK lebih kecil dibandingkan nilai cohesion-nya. Dengan demikian berdasarkan hasil penelitian ini,

cluster yang dihasilkan algoritme QROCK lebih baik dibandingkan cluster yang dihasilkan algoritme ROCK.

Ukuran Cluster dan Nilai Cohesion

Nilai cohesion menentukan kualitas suatu

cluster sementara ukuran cluster menentukan nilai total cohesion. Nilai cohesion

menentukan kualitas suatu cluster karena dengan semakin tinggi nilai cohesion maka semakin baik kualitas suatu cluster. Ukuran

cluster menentukan nilai total cohesion karena semakin banyak cluster yang terbentuk maka semakin sedikit anggota suatu cluster dan semakin sedikit pula nilai total cohesion-nya.

Hubungan antar ukuran cluster dan nilai

cohesion pada algoritme ROCK dapat dilihat pada Lampiran 3. Nilai total cohesion dan ukuran cluster pada nilai threshold 0.7 untuk algoritme ROCK dapat dilihat pada Tabel 7.

Tabel 7 Nilai total cohesion dan ukuran

cluster algoritme ROCK pada nilai

threshold 0.6 Cluster Threshold 0.6 2 12626.5 3 5794.67 4 3485.75 5 2436 6 1546 7 1071.14 8 904.625 9 743.78 10 609.2 11 492.09 12 360.08 13 262.07

Berdasarkan Tabel 7 dapat dilihat grafik nilai k terhadap nilai total cohesion pada Gambar 4.

Gambar 4 Grafik nilai cohesion terhadap nilai k pada algoritme ROCK. Nilai total cohesion dan ukuran cluster

pada algoritme QROCK dapat dilihat pada Lampiran 4. Nilai k terhadap total cohesion

dari Lampiran 4 diplotkan pada grafik dalam Gambar 5.

12 Gambar 5 Grafik nilai cohesion terhadap

nilai k pada algoritme QROCK. Dari grafik Gambar 4 dan 5 dapat disimpulkan bahwa semakin besar jumlah k

maka semakin kecil nilai total cohesion-nya, hal ini disebabkan semakin banyak cluster

mengakibatkan jumlah anggota suatu cluster

semakin sedikit sehingga menyebabkan nilai total cohesion menjadi kecil.

Perbandingan nilai cohesion terhadap ukuran cluster antara algoritme ROCK dan QROCK dapat dilihat pada Gambar 6.

Gambar 6 Perbandingan nilai cohesion

terhadap ukuran cluster untuk ROCK dan QROCK.

Pada algoritme QROCK menurunnya nilai

cohesion lebih dipengaruhi oleh nilai

threshold dibandingkan oleh ukuran cluster

karena ukuran clusternya ditentukan secara otomatis oleh algoritme QROCK berdasarkan nilai threshold yang ditentukan.

Nilai Threshold dan Nilai Cohesion

Nilai threshold pada algoritme ROCK menentukan kepadatan dari graf L (graf yang dibangkitkan oleh algoritme ROCK), sehingga menentukan hasil akhir algoritme ROCK. Pada saat nilai k tidak diberikan, algoritme ROCK akan berhenti secara otomatis dengan

kumpulan cluster sebagai sekumpulan komponen graf L (M.Dutta et al. 2005).

Misalkan adalah jumlah cluster akhir graf L berdasarkan . Nilai dapat diambil pada rentang 0 sampai dengan 1, sedemikian sehingga nilai konstan. Sehingga jika maka nbrlist dari nbrlist , jumlah anggota cluster jumlah anggota

cluster , cluster cluster (M.Dutta

et al. 2005).

Hubungan antar nilai threshold dan nilai

cohesion pada algoritme ROCK dapat dilihat pada Tabel 8.

Tabel 8 Hubungan antar nilai threshold dan nilai cohesion pada algoritme ROCK pada ukuran cluster tujuh

Threshold Cluster 7 0    226.57  0.1 322.28 0.2 447.14 0.3 612.57 0.4 835.86 0.5 1021.29 0.6 1071.14 0.7 1070.7 0.8 885.71 0.9 252.74 1 226.57 

Berdasarkan Tabel 8 dapat digambarkan grafik hubungan nilai threshold terhadap nilai total cohesion pada Gambar 7.

13 Gambar 7 Grafik nilai threshold terhadap

nilai cohesion pada algoritme ROCK.

Pada algoritme QROCK, cluster akhir hanya ditentukan oleh nilai threshold sehingga proses algoritme dapat berhenti secara natural (M.Dutta et al 2005). Nilai total cohesion dan ukuran cluster pada algoritme QROCK dapat dilihat pada Lampiran 4. Nilai k terhadap total

cohesion dari Lampiran 4 digambarkan pada grafik dalam Gambar 8.

Gambar 8 Grafik nilai threshold terhadap nilai cohesion pada algoritme QROCK.

Dari grafik Gambar 7 dan 8 dapat disimpulkan bahwa semakin besar nilai

threshold maka semakin kecil nilai total

cohesion-nya ini dikarenakan nilai nbrlist

semakin kecil mengakibatkan jumlah anggota suatu cluster semakin sedikit sehingga menyebabkan nilai total cohesion menjadi kecil.

Perbandingan nilai cohesion terhadap nilai

threshold antara algoritme ROCK dan QROCK dapat dilihat pada Gambar 9.

Gambar 9 Perbandingan nilai cohesion

terhadap nilai threshold untuk ROCK dan QROCK.

Mendeteksi Outlier

Algoritme ROCK akan berhenti ketika : jumlah cluster yang diharapkan terpenuhi atau tidak ada lagi link diantara cluster-cluster-nya. Pada suatu kasus algoritme ROCK berhenti ketika tidak ada lagi link antar cluster-nya dikarenakan sudah tidak memiliki link yang tidak nol antara mereka, namun ketika kasus yang sama diproses oleh algoritme QROCK ternyata masih memiliki link antar cluster-

nya.

Teorema 1 : Jika cluster akhir hasil algoritme ROCK sudah tidak memiliki

link yang tidak nol antara mereka maka cluster tersebut tidak lain adalah sebuah link graf L yang komponen- komponennya saling berhubung (M.Dutta et al. 2005).

Pembuktian dari teorema tersebut ada dua yaitu :

1 Jika algoritme ROCK berhenti karena tidak ada lagi link yang tidak nol (global heap semuanya nol proses algoritme ROCK berhenti), maka cluster yang terbentuk merupakan komponen terhubung dari graf L.

2 Komponen terhubung tersebut sebenarnya adalah cluster itu sendiri yang merupakan hasil algoritme ROCK (M.Dutta et al. 2005).

Pembuktian pertama terjadi pada saat nilai

threshold 0.9 untuk kombinasi ukuran cluster

dua sampai dengan 13 cluster yang terbentuk sebanyak 23 cluster. Hal tersebut dikarenakan tidak ada lagi link yang tidak nol maka algoritme ROCK menghasilkan secara otomatis 23 cluster. Pada algoritme QROCK

14 ketika nilai threshold 0.9 cluster yang

terbentuk adalah 19 cluster, dimana data ke 14 masih dapat digabungdengan data ke 19, data ke 42 digabung dengan data ke 43, data ke 46 masih bisa digabung dengan data ke 47, dan data ke 18 digabung dengan data ke 27. Dari hasil penelitian tersebut terbukti bahwa algoritme QROCK dapat mendeteksi outlier

pada algoritme ROCK. Perbandingan hasil

cluster algoritme ROCK dan QROCK pada nilai threshold 0.9 dapat dilihat pada Lampiran 5.

KESIMPULAN DAN SARAN

Kesimpulan

Pada penelitian ini dilakukan proses

clustering menggunakan algoritme ROCK dan QROCK untuk data bunga karang (sponge).

Percobaan clustering untuk algoritme ROCK dilakukan untuk ukuran cluster dua sampai 13 (k = 1…13) untuk masing–masing ukuran

cluster dilakukan percobaan dengan nilai

threshold diambil pada selang 0 sampai 1 (0:0,1:1). Pada algoritme QROCK ukuran

cluster akan dibangkitkan otomatis oleh algoritmenya, algoritme QROCK hanya membutuhkan nilai threshold untuk menghasilkan cluster. Percobaan cluster pada algoritme QROCK dilakukan berdasarkan variasi nilai threshold pada selang 0 sampai 1 (0:0,05:1). Algoritme QROCK terbukti lebih mudah dibandingkan algoritme ROCK karena tidak perlu menentukan ukuran dari cluster.

Dari percobaan diperoleh hasil clustering

terbaik untuk algoritme ROCK adalah

clustering dengan ukuran cluster tujuh dan nilai threshold 0.6, memiliki nilai total

cohesion 7.498,6 dan nilai separation 84.969.

Clustering terbaik untuk algoritme QROCK yaitu cluster berukuran enam dan nilai

threshold 0.85. Nilai total cohesion 15.463,3 dan nilai total separation 0.

Dilihat dari nilai cohesion dan separation

algoritme ROCK memiliki nilai cohesion

lebih kecil dibandingkan nilai separationnya. Sedangkan untuk algoritme QROCK nilai

cohesion lebih besar dari pada nilai

separationnya. Dengan demikian dapat disimpulkan algoritme QROCK lebih baik dibandingkan algoritme ROCK.

Pada percobaan untuk nilai threshold 0.9 algoritme ROCK menghasilkan 23 cluster

karena sudah tidak ada lagi nilai link yang tak nol, sedangkan pada algoritme QROCK dengan nilai threshold 0.9 dihasilkan 19

cluster. Dengan demikian dapat disimpulkan bahwa algoritme QROCK dapat mendeteksi

outlier pada algoritme ROCK.

Algoritme ROCK dan QROCK dapat digunakan untuk data kategorik, namun menurut hasil dari penelitian ini algoritme QROCK lebih baik dari pada algoritme ROCK.

Saran

Penelitian ini dapat dilanjutkan dengan menentukan klasifikasi taksonomi dari data sponge dari cluster-cluster yang telah dihasilkan.

Perbandingan hasil clustering algoritme QROCK dapat dilakukan dengan algoritme lain yang berbeda base misal algoritme

conceptual clustering yaitu COWEB dan ITERATE, sehingga dari perbandingan tersebut dapat diketahui algoritme mana yang lebih efektif digunakan untuk data kategorik.

DAFTAR PUSTAKA

Goharian & Grossman. 2003. Introduction to

Data Mining.

http://ir.iit.edu/~nazli/cs422/CS422- Slide/DM-Introduction.pdf. [Juni 2008].

Guha S, Rajeev R, & Kyuseok S. 2000.

ROCK: A Robust Clustering Algorithm for Categorical Attributes. Proceedings of the IEEE International Conference on Data Engineering, Sydney, Maret 1999.

Han J dan Kamber M. 2006. Data Mining Concepts and Techniques Edisi Ke-2. San Francisco: Morgan Kaufmann Publisher.

Huntsbergen . 1987. Elemen of Statistical Inference. Edisi Ke-6. New York : Allyn and Balon, Inc.

Kantardzic M. 2003. Data Mining: Concepts, Model, Methods, and Algorithm. New Jersey: John Wiley & Sons inc.

Mali K, Mitra S. 2003. Clustering Validation

In A Symbolic Framework.

http://www.dis.uniromal.it/~sassano/ST AG E/Fast.Clustering.pdf. [juli 2008]. M.Dutta, A.Kakoti M & Arun K. 2005.

QROCK : A Quick Version of the ROCK Algorithm for Clustering of Categorical Data. Proceedings of the