METODE PENELITIAN
HASIL DAN PEMBAHASAN
Preprocessing Data
Data yang digunakan pada penelitian ini adalah data bunga karang atau sponge jenis
O.Hadromerida (Demospongiae. Porifera) yang terdapat di Lautan Atlantik. Data diperoleh dari hasil penelitian Iosune Uriz dan Marta Domingo pada tahun 1993. Data ini memiliki 76 record dan 45 atribut. Format awal data adalah format txt.
Tahap praproses data dilakukan terhadap data bunga karang meliputi:
1 Data selection
Pada proses ini dilakukan dua tahapan : a Seleksi record. Dari 76 record data
terdapat 22 missingdata pada atribut ke 39, oleh karena itu diperlukan pemilihan record yang sesuai sehingga data yang hilang tidak mempengaruhi hasil. Pada penelitian ini seleksi record dilakukan dengan cara membuang 22 record missing
data, sehingga dihasilkan 54 record
data. Data sponge tersebut dapat dilihat pada Lampiran 1.
b Seleksi atribut. Dalam data yang digunakan terdapat 45 atribut yang terdiri dari 27 atribut non-numerik, 15 atribut boolean, dan tiga atribut
numeric. Karena tiga atribut numeric
dalam bentuk bilangan diskret maka diasumsikan bahwa nilai dari atribut
tersebut merupakan hasil pengamatan yang didiskretkan sehingga dapat dijadikan kategori. Oleh karena semua atribut yang ada berhubungan dengan struktur anatomidan fisiologi dari bunga karang maka semua atribut digunakan dalam proses data mining. Atribut yang digunakan dapat dilihat pada Lampiran 2. 2 Data transformation
Pada tahapan proses ini dilakukan tranformasi data dari format .txt ke format
.xls agar dapat diproses dengan mudah oleh MATLAB. Kemudian dilakukan inisialisasi untuk setiap data kedalam bentuk integer untuk mempermudah proses perhitungan similaritas.
Data Mining
Pada tahap ini dilakukan clustering
menggunakan langkah-langkah dari algoritme ROCK dan QROCK. Pada langkah pertama akan dilakukan proses clustering
menggunakan algoritme ROCK. Percobaan
clustering dilakukan untuk ukuran cluster dua sampai 13 (k = 2…13). Untuk masing–masing ukuran cluster dilakukan percobaan dengan nilai threshold diambil pada selang 0 sampai 1 (0:0.1:1). Cluster hasil ditentukan sedemikian sehingga cluster hasil memiliki nilai cohesion
yang tinggi dan telah merepresentasikan pola anatomi dari sponge.
Cluster yang dihasilkan oleh algoritme ROCK berjumlah tujuh cluster dengan nilai
threshold 0.6. Hasil algortme ROCK tersebut disajikan pada Tabel 1.
Tabel 1 Cluster hasil algoritmeROCK untuk ukuran k = 7 dan = 0,6 Cluster Anggota 1 [16 20 21 28 34 52] 2 [1 8 25 26 35 38 44 54] 3 [9 22 23 24 32 39 40 41] 4 [4 29 31 36 37 45 49 50] 5 [2 3 5 7 30 42 43 48] 6 [10 13 14 18 19 27 33 53] 7 [6 11 12 15 17 46 47 51] Persentase dan jumlah anggota masing- masing cluster algoritme ROCK dengan ukuran k = 7 dan threshold = 0,6 disajikan dalam Tabel 2 .
9 Tabel 2 Persentase dan jumlah anggota cluster
algoritme ROCK untuk ukuran k = 7 dan = 0,6 Cluster Jumlah anggota Persentase (%) 1 6 11 2 8 15 3 8 15 4 8 15 5 8 15 6 8 15 7 8 15
Pola anatomi yang direpresentasikan dari
cluster hasilalgoritme ROCK yaitu :
1 Anggota cluster satu merupakan sponge
yang tidak memiliki bagian dalam cortex, tidak memiliki espicula, megasclera tipe satu dan warnanya selain warna biru, kuning dan orange permukaan halus. 2 Anggota cluster dua merupakan sponge
yang memiliki cortex, tidak memiliki tipe
espicula, megasclera tipe tiga, dan bentuk lapisan permukaannya keras.
3 Cluster tiga merupakan sponge yang tidak memiliki cortex, tidak memiliki espicula,
megasclera tipe satu, berwarna kuning dan lapisan permukaan kasar.
4 Anggota cluster empat merupakan sponge
yang tidak memiliki cortex, tidak memiliki
espicula, megasclera tipe satu dan dua, berwarna kuning, selain biru dan orange, memiliki lapisan permukaan halus namun keras.
5 Cluster lima merupakan sponge yang memiliki cortex, memiliki espicula,
megasclera tipe tiga dan satu, warnanya selain warna biru dan orange, bentuk lapisan permukaannya beragam dan keras.
6 Cluster enam merupakan sponge yang tidak memiliki cortex, tidak memiliki
espicula, megasclera tipe satu, dua, dan tiga, berwarna kuning, selain biru dan
orange, memiliki lapisan permukaan halus dan kasar serta keras.
7 Cluster tujuh merupakan sponge yang memiliki cortex, tidak memiliki espicula
dan memiliki espicula, megasclera tipe satu, dua, dan tiga, berwarna kuning,
selain biru dan orange, memiliki permukaan yang keras.
Pada percobaan untuk algoritme QROCK tidak diperlukan penentuan ukuran cluster
karena ukuran cluster akan dibangkitkan otomatis oleh algoritme QROCK. Pada algoritme ini hanya diperlukan masukan data dan nilai threshold.
Nilai threshold pada percobaan ini diambil pada selang 0 sampai dengan 1 (0:0.05:1). Percobaan clustering dilakukan dengan memasukan nilai threshold yang bervariasi hingga menghasilkan cluster yang memiliki nilai cohesion yang tinggi dan telah merepresentasikan pola anatomi dari sponge.
Cluster yang dihasilkan oleh algoritme QROCK berjumlah enam cluster dengan nilai
threshold 0.85. Hasil algoritme QROCK tersebut disajikan pada Tabel 3.
Tabel 3 Cluster yang dihasilkan oleh algoritmeQROCK pada ukuran k = 6 dan = 0,85 Cluster Anggota 1 [1] 2 [2 3 4 5 6 7 8 9 22 23 24 25 26 29 30 31 32 36 37 39 40 41 44 45 48 49 50 51] 3 [10] 4 [11 12 13 14 15 16 17 18 19 20 21 27 28 33 34 35 38 52 53 54] 5 [42 43] 6 [46 47]
Persentase dan jumlah anggota masing- masing cluster algoritme QROCK pada ukuran k = 6 dan threshold = 0,85 disajikan dalam Tabel 4.
Tabel 4 Persentase dan jumlah anggota cluster
algoritme QROCK pada ukuran k = 6 dan = 0,85 Cluster Jumlah anggota Persentase (%) 1 1 2 2 28 52 3 1 2 4 20 37 5 2 4 6 2 4
10 Pola anatomi yang direpresentasikan dari
cluster hasilalgoritme QROCK yaitu : 1 Anggota cluster satu merupakan sponge
yang memiliki cortex, tidak ada espicula, megasclera tipe satu, warna selain kuning, biru dan orange, permukaannya kasar. 2 Cluster dua sponge yang memiliki cortex,
megascleras tipe satu dan dua, tidak memiliki espicula, warna kuning dan selain biru dan orange, permukaan halus dan keras.
3 Anggota cluster tiga sponge yang memiliki cortex dan espicula, megasclera
tipe tiga, permukaannya halus dan warnanya kuning.
4 Cluster empat sponge yang memiliki
cortex dan tidak memiliki espicula,
megasclera tipe tiga, warna selain kuning, biru dan orange, permukaan halus tapi keras.
5 Cluster lima sponge yang tidak memiliki
cortex namun memiliki espicula, megasclera tipe tiga, warna kuning, lapisan permukaan halus dan kasar. 6 Cluster enam merupakan sponge yang
memiliki cortex dan tidak memiliki
espicula, tidak memiliki megasclera, warna selain kuning, biru dan orange,
permukaannya berbentuk poligon besar dan kasar.
Pada kasus algoritme ROCK yang membutuhkan dua parameter ukuran cluster
dan nilai threshold, algoritme berhenti setelah mendapatkan kcluster yang ditentukan maka
k > untuk nilai threshold . Cluster
tambahan (| | buah) tidak lain merupakan calon anggota cluster, namun karena nilai k terpenuhi maka proses merge
tidak sempat dikerjakan. Selain itu, kondisi data dalam jumlah besar dan kemungkinan memiliki outliers sangat sulit untuk menentukan nilai k. Algoritme QROCK lebih mudah dan natural karena tidak harus menentukan ukuran k dibandingkan algoritme ROCK.
Evaluasi Pola
Hasil clustering dari setiap kombinasi ukuran cluster dan nilai threshold dievaluasi menggunakan total cohesion dengan menggunakan persamaan (7) dan nilai
separation dengan menggunakan persamaan
(8). Nilai total cohesion untuk clustering
algoritme ROCK disajikan pada Lampiran 3. Pada algoritme ROCK pola anatomi
sponge dapat direpresentasikan setelah ukuran cluster tujuh. Pada tabel di Lampiran 3 dapat terlihat bahwa untuk ukuran cluster
tujuh dengan nilai cohesion yang paling tinggi terdapat pada nilai threshold 0.6, maka
cluster yang dipilih untuk algoritme ROCK adalah ukuran cluster tujuh dengan = 0.6.
Nilai cohesion dan nilai separation untuk
cluster tujuh dan = 0.6 tersebut disajikan pada Tabel 5.
Tabel 5 Nilai cohesion dan nilai separation
algoritme ROCKuntuk cluster
delapan dan = 0.7
Cluster Jumlah
Anggota Cohesion Separation
1 6 498,5351 8228 2 8 1597 15.316 3 8 1487 14.812 4 8 1198 12.804 5 8 1071 11.622 6 8 1006 11.510 7 8 638,5595 10.676
Nilai total cohesion untuk clustering dari setiap kombinasi nilai threshold bagi algoritme QROCK disajikan pada Lampiran 4.
Pada algoritme QROCK pola anatomi
sponge dapat direpresentasikan pada ukuran
cluster enam. Pada tabel di Lampiran 4 dapat dilihat bahwa untuk nilai (threshold) = 0.85 total cohesion memiliki nilai cohesion
yang tinggi dibandingkan dengan cluster
sembilan yang dihasilkan oleh nilai threshold
= 0.87, maka cluster yang dipilih untuk algoritme QROCK adalah cluster ukuran enam dengan = 0.85.
Nilai cohesion dan nilai separation untuk ukuran cluster enam dan = 0.85 tersebut disajikan pada Tabel 6.
11 Tabel 6 Nilai cohesion dan nilai separation
algoritme QROCK untuk cluster
enam dan = 0.85
Cluster Jumlah
anggota Cohesion Separation
1 1 0 0 2 28 13946 0 3 1 0 0 4 20 1517.3 0 5 2 0 0 6 2 0 0
Semakin besar nilai cohesion (intracluster) menunjukkan kemiripan (similaritas) objek-objek tersebut semakin besar (Mali & Mitra, 1998). Semakin kecil nilai separation yang menggunakan persamaan similaritas maka perbedaan atau jarak suatu cluster dengan cluster lainnya semakin besar (Tan et al. 2006). Dengan demikian suatu cluster dikatakan baik jika nilai cohesion lebih besar dari nilai
separation-nya.
Dari Tabel 5 dapat dilihat bahwa algoritme ROCK memiliki nilai total cohesion 7.498,6 dan nilai separation 84.969. Nilai separation
lebih besar dibandingkan nilai cohesion-nya. Sedangkan dari Tabel 6 terlihat bahwa algoritme QROCK memili ki nilai cohesion
15.463,3 dan nilai total separation 0. Nilai
separation algoritme QROCK lebih kecil dibandingkan nilai cohesion-nya. Dengan demikian berdasarkan hasil penelitian ini,
cluster yang dihasilkan algoritme QROCK lebih baik dibandingkan cluster yang dihasilkan algoritme ROCK.
Ukuran Cluster dan Nilai Cohesion
Nilai cohesion menentukan kualitas suatu
cluster sementara ukuran cluster menentukan nilai total cohesion. Nilai cohesion
menentukan kualitas suatu cluster karena dengan semakin tinggi nilai cohesion maka semakin baik kualitas suatu cluster. Ukuran
cluster menentukan nilai total cohesion karena semakin banyak cluster yang terbentuk maka semakin sedikit anggota suatu cluster dan semakin sedikit pula nilai total cohesion-nya.
Hubungan antar ukuran cluster dan nilai
cohesion pada algoritme ROCK dapat dilihat pada Lampiran 3. Nilai total cohesion dan ukuran cluster pada nilai threshold 0.7 untuk algoritme ROCK dapat dilihat pada Tabel 7.
Tabel 7 Nilai total cohesion dan ukuran
cluster algoritme ROCK pada nilai
threshold 0.6 Cluster Threshold 0.6 2 12626.5 3 5794.67 4 3485.75 5 2436 6 1546 7 1071.14 8 904.625 9 743.78 10 609.2 11 492.09 12 360.08 13 262.07
Berdasarkan Tabel 7 dapat dilihat grafik nilai k terhadap nilai total cohesion pada Gambar 4.
Gambar 4 Grafik nilai cohesion terhadap nilai k pada algoritme ROCK. Nilai total cohesion dan ukuran cluster
pada algoritme QROCK dapat dilihat pada Lampiran 4. Nilai k terhadap total cohesion
dari Lampiran 4 diplotkan pada grafik dalam Gambar 5.
12 Gambar 5 Grafik nilai cohesion terhadap
nilai k pada algoritme QROCK. Dari grafik Gambar 4 dan 5 dapat disimpulkan bahwa semakin besar jumlah k
maka semakin kecil nilai total cohesion-nya, hal ini disebabkan semakin banyak cluster
mengakibatkan jumlah anggota suatu cluster
semakin sedikit sehingga menyebabkan nilai total cohesion menjadi kecil.
Perbandingan nilai cohesion terhadap ukuran cluster antara algoritme ROCK dan QROCK dapat dilihat pada Gambar 6.
Gambar 6 Perbandingan nilai cohesion
terhadap ukuran cluster untuk ROCK dan QROCK.
Pada algoritme QROCK menurunnya nilai
cohesion lebih dipengaruhi oleh nilai
threshold dibandingkan oleh ukuran cluster
karena ukuran clusternya ditentukan secara otomatis oleh algoritme QROCK berdasarkan nilai threshold yang ditentukan.
Nilai Threshold dan Nilai Cohesion
Nilai threshold pada algoritme ROCK menentukan kepadatan dari graf L (graf yang dibangkitkan oleh algoritme ROCK), sehingga menentukan hasil akhir algoritme ROCK. Pada saat nilai k tidak diberikan, algoritme ROCK akan berhenti secara otomatis dengan
kumpulan cluster sebagai sekumpulan komponen graf L (M.Dutta et al. 2005).
Misalkan adalah jumlah cluster akhir graf L berdasarkan . Nilai dapat diambil pada rentang 0 sampai dengan 1, sedemikian sehingga nilai konstan. Sehingga jika maka nbrlist dari nbrlist , jumlah anggota cluster jumlah anggota
cluster , cluster cluster (M.Dutta
et al. 2005).
Hubungan antar nilai threshold dan nilai
cohesion pada algoritme ROCK dapat dilihat pada Tabel 8.
Tabel 8 Hubungan antar nilai threshold dan nilai cohesion pada algoritme ROCK pada ukuran cluster tujuh
Threshold Cluster 7 0 226.57 0.1 322.28 0.2 447.14 0.3 612.57 0.4 835.86 0.5 1021.29 0.6 1071.14 0.7 1070.7 0.8 885.71 0.9 252.74 1 226.57
Berdasarkan Tabel 8 dapat digambarkan grafik hubungan nilai threshold terhadap nilai total cohesion pada Gambar 7.
13 Gambar 7 Grafik nilai threshold terhadap
nilai cohesion pada algoritme ROCK.
Pada algoritme QROCK, cluster akhir hanya ditentukan oleh nilai threshold sehingga proses algoritme dapat berhenti secara natural (M.Dutta et al 2005). Nilai total cohesion dan ukuran cluster pada algoritme QROCK dapat dilihat pada Lampiran 4. Nilai k terhadap total
cohesion dari Lampiran 4 digambarkan pada grafik dalam Gambar 8.
Gambar 8 Grafik nilai threshold terhadap nilai cohesion pada algoritme QROCK.
Dari grafik Gambar 7 dan 8 dapat disimpulkan bahwa semakin besar nilai
threshold maka semakin kecil nilai total
cohesion-nya ini dikarenakan nilai nbrlist
semakin kecil mengakibatkan jumlah anggota suatu cluster semakin sedikit sehingga menyebabkan nilai total cohesion menjadi kecil.
Perbandingan nilai cohesion terhadap nilai
threshold antara algoritme ROCK dan QROCK dapat dilihat pada Gambar 9.
Gambar 9 Perbandingan nilai cohesion
terhadap nilai threshold untuk ROCK dan QROCK.
Mendeteksi Outlier
Algoritme ROCK akan berhenti ketika : jumlah cluster yang diharapkan terpenuhi atau tidak ada lagi link diantara cluster-cluster-nya. Pada suatu kasus algoritme ROCK berhenti ketika tidak ada lagi link antar cluster-nya dikarenakan sudah tidak memiliki link yang tidak nol antara mereka, namun ketika kasus yang sama diproses oleh algoritme QROCK ternyata masih memiliki link antar cluster-
nya.
Teorema 1 : Jika cluster akhir hasil algoritme ROCK sudah tidak memiliki
link yang tidak nol antara mereka maka cluster tersebut tidak lain adalah sebuah link graf L yang komponen- komponennya saling berhubung (M.Dutta et al. 2005).
Pembuktian dari teorema tersebut ada dua yaitu :
1 Jika algoritme ROCK berhenti karena tidak ada lagi link yang tidak nol (global heap semuanya nol proses algoritme ROCK berhenti), maka cluster yang terbentuk merupakan komponen terhubung dari graf L.
2 Komponen terhubung tersebut sebenarnya adalah cluster itu sendiri yang merupakan hasil algoritme ROCK (M.Dutta et al. 2005).
Pembuktian pertama terjadi pada saat nilai
threshold 0.9 untuk kombinasi ukuran cluster
dua sampai dengan 13 cluster yang terbentuk sebanyak 23 cluster. Hal tersebut dikarenakan tidak ada lagi link yang tidak nol maka algoritme ROCK menghasilkan secara otomatis 23 cluster. Pada algoritme QROCK
14 ketika nilai threshold 0.9 cluster yang
terbentuk adalah 19 cluster, dimana data ke 14 masih dapat digabungdengan data ke 19, data ke 42 digabung dengan data ke 43, data ke 46 masih bisa digabung dengan data ke 47, dan data ke 18 digabung dengan data ke 27. Dari hasil penelitian tersebut terbukti bahwa algoritme QROCK dapat mendeteksi outlier
pada algoritme ROCK. Perbandingan hasil
cluster algoritme ROCK dan QROCK pada nilai threshold 0.9 dapat dilihat pada Lampiran 5.
KESIMPULAN DAN SARAN
Kesimpulan
Pada penelitian ini dilakukan proses
clustering menggunakan algoritme ROCK dan QROCK untuk data bunga karang (sponge).
Percobaan clustering untuk algoritme ROCK dilakukan untuk ukuran cluster dua sampai 13 (k = 1…13) untuk masing–masing ukuran
cluster dilakukan percobaan dengan nilai
threshold diambil pada selang 0 sampai 1 (0:0,1:1). Pada algoritme QROCK ukuran
cluster akan dibangkitkan otomatis oleh algoritmenya, algoritme QROCK hanya membutuhkan nilai threshold untuk menghasilkan cluster. Percobaan cluster pada algoritme QROCK dilakukan berdasarkan variasi nilai threshold pada selang 0 sampai 1 (0:0,05:1). Algoritme QROCK terbukti lebih mudah dibandingkan algoritme ROCK karena tidak perlu menentukan ukuran dari cluster.
Dari percobaan diperoleh hasil clustering
terbaik untuk algoritme ROCK adalah
clustering dengan ukuran cluster tujuh dan nilai threshold 0.6, memiliki nilai total
cohesion 7.498,6 dan nilai separation 84.969.
Clustering terbaik untuk algoritme QROCK yaitu cluster berukuran enam dan nilai
threshold 0.85. Nilai total cohesion 15.463,3 dan nilai total separation 0.
Dilihat dari nilai cohesion dan separation
algoritme ROCK memiliki nilai cohesion
lebih kecil dibandingkan nilai separationnya. Sedangkan untuk algoritme QROCK nilai
cohesion lebih besar dari pada nilai
separationnya. Dengan demikian dapat disimpulkan algoritme QROCK lebih baik dibandingkan algoritme ROCK.
Pada percobaan untuk nilai threshold 0.9 algoritme ROCK menghasilkan 23 cluster
karena sudah tidak ada lagi nilai link yang tak nol, sedangkan pada algoritme QROCK dengan nilai threshold 0.9 dihasilkan 19
cluster. Dengan demikian dapat disimpulkan bahwa algoritme QROCK dapat mendeteksi
outlier pada algoritme ROCK.
Algoritme ROCK dan QROCK dapat digunakan untuk data kategorik, namun menurut hasil dari penelitian ini algoritme QROCK lebih baik dari pada algoritme ROCK.
Saran
Penelitian ini dapat dilanjutkan dengan menentukan klasifikasi taksonomi dari data sponge dari cluster-cluster yang telah dihasilkan.
Perbandingan hasil clustering algoritme QROCK dapat dilakukan dengan algoritme lain yang berbeda base misal algoritme
conceptual clustering yaitu COWEB dan ITERATE, sehingga dari perbandingan tersebut dapat diketahui algoritme mana yang lebih efektif digunakan untuk data kategorik.
DAFTAR PUSTAKA
Goharian & Grossman. 2003. Introduction to
Data Mining.
http://ir.iit.edu/~nazli/cs422/CS422- Slide/DM-Introduction.pdf. [Juni 2008].
Guha S, Rajeev R, & Kyuseok S. 2000.
ROCK: A Robust Clustering Algorithm for Categorical Attributes. Proceedings of the IEEE International Conference on Data Engineering, Sydney, Maret 1999.
Han J dan Kamber M. 2006. Data Mining Concepts and Techniques Edisi Ke-2. San Francisco: Morgan Kaufmann Publisher.
Huntsbergen . 1987. Elemen of Statistical Inference. Edisi Ke-6. New York : Allyn and Balon, Inc.
Kantardzic M. 2003. Data Mining: Concepts, Model, Methods, and Algorithm. New Jersey: John Wiley & Sons inc.
Mali K, Mitra S. 2003. Clustering Validation
In A Symbolic Framework.
http://www.dis.uniromal.it/~sassano/ST AG E/Fast.Clustering.pdf. [juli 2008]. M.Dutta, A.Kakoti M & Arun K. 2005.
QROCK : A Quick Version of the ROCK Algorithm for Clustering of Categorical Data. Proceedings of the
14 ketika nilai threshold 0.9 cluster yang
terbentuk adalah 19 cluster, dimana data ke 14 masih dapat digabungdengan data ke 19, data ke 42 digabung dengan data ke 43, data ke 46 masih bisa digabung dengan data ke 47, dan data ke 18 digabung dengan data ke 27. Dari hasil penelitian tersebut terbukti bahwa algoritme QROCK dapat mendeteksi outlier
pada algoritme ROCK. Perbandingan hasil
cluster algoritme ROCK dan QROCK pada nilai threshold 0.9 dapat dilihat pada Lampiran 5.
KESIMPULAN DAN SARAN
Kesimpulan
Pada penelitian ini dilakukan proses
clustering menggunakan algoritme ROCK dan QROCK untuk data bunga karang (sponge).
Percobaan clustering untuk algoritme ROCK dilakukan untuk ukuran cluster dua sampai 13 (k = 1…13) untuk masing–masing ukuran
cluster dilakukan percobaan dengan nilai
threshold diambil pada selang 0 sampai 1 (0:0,1:1). Pada algoritme QROCK ukuran
cluster akan dibangkitkan otomatis oleh algoritmenya, algoritme QROCK hanya membutuhkan nilai threshold untuk menghasilkan cluster. Percobaan cluster pada algoritme QROCK dilakukan berdasarkan variasi nilai threshold pada selang 0 sampai 1 (0:0,05:1). Algoritme QROCK terbukti lebih mudah dibandingkan algoritme ROCK karena tidak perlu menentukan ukuran dari cluster.
Dari percobaan diperoleh hasil clustering
terbaik untuk algoritme ROCK adalah
clustering dengan ukuran cluster tujuh dan nilai threshold 0.6, memiliki nilai total
cohesion 7.498,6 dan nilai separation 84.969.
Clustering terbaik untuk algoritme QROCK yaitu cluster berukuran enam dan nilai
threshold 0.85. Nilai total cohesion 15.463,3 dan nilai total separation 0.
Dilihat dari nilai cohesion dan separation
algoritme ROCK memiliki nilai cohesion
lebih kecil dibandingkan nilai separationnya. Sedangkan untuk algoritme QROCK nilai
cohesion lebih besar dari pada nilai
separationnya. Dengan demikian dapat disimpulkan algoritme QROCK lebih baik dibandingkan algoritme ROCK.
Pada percobaan untuk nilai threshold 0.9 algoritme ROCK menghasilkan 23 cluster
karena sudah tidak ada lagi nilai link yang tak nol, sedangkan pada algoritme QROCK dengan nilai threshold 0.9 dihasilkan 19
cluster. Dengan demikian dapat disimpulkan bahwa algoritme QROCK dapat mendeteksi
outlier pada algoritme ROCK.
Algoritme ROCK dan QROCK dapat digunakan untuk data kategorik, namun menurut hasil dari penelitian ini algoritme QROCK lebih baik dari pada algoritme ROCK.
Saran
Penelitian ini dapat dilanjutkan dengan menentukan klasifikasi taksonomi dari data sponge dari cluster-cluster yang telah dihasilkan.
Perbandingan hasil clustering algoritme QROCK dapat dilakukan dengan algoritme lain yang berbeda base misal algoritme
conceptual clustering yaitu COWEB dan ITERATE, sehingga dari perbandingan tersebut dapat diketahui algoritme mana yang lebih efektif digunakan untuk data kategorik.
DAFTAR PUSTAKA
Goharian & Grossman. 2003. Introduction to
Data Mining.
http://ir.iit.edu/~nazli/cs422/CS422- Slide/DM-Introduction.pdf. [Juni 2008].
Guha S, Rajeev R, & Kyuseok S. 2000.
ROCK: A Robust Clustering Algorithm for Categorical Attributes. Proceedings of the IEEE International Conference on Data Engineering, Sydney, Maret 1999.
Han J dan Kamber M. 2006. Data Mining Concepts and Techniques Edisi Ke-2. San Francisco: Morgan Kaufmann Publisher.
Huntsbergen . 1987. Elemen of Statistical Inference. Edisi Ke-6. New York : Allyn and Balon, Inc.
Kantardzic M. 2003. Data Mining: Concepts, Model, Methods, and Algorithm. New Jersey: John Wiley & Sons inc.
Mali K, Mitra S. 2003. Clustering Validation
In A Symbolic Framework.
http://www.dis.uniromal.it/~sassano/ST AG E/Fast.Clustering.pdf. [juli 2008]. M.Dutta, A.Kakoti M & Arun K. 2005.
QROCK : A Quick Version of the ROCK Algorithm for Clustering of Categorical Data. Proceedings of the