Clustering - LANDASAN TEORI - IMPLEMENTASI ALGORITMA K-MEANS DALAM DATA MINING UNTUK PEMINATAN

BAB II. LANDASAN TEORI

2.3. Clustering

2.3.1. Pengertian Clustering

Clustering atau clusterisasi adalah salah satu alat bantu pada data mining yang bertujuan mengelompokkan obyek-obyek ke dalam cluster-cluster. Cluster adalah sekelompok atau sekumpulan obyek-obyek data yang similar satu sama lain dalam cluster yang sama dan dissimilar terhadap obyek-obyek yang berbeda cluster. Obyek akan dikelompokkan ke dalam satu atau lebih cluster sehingga obyek-obyek yang berada dalam satu cluster akan mempunyai kesamaan yang tinggi antara satu dengan lainnya. Obyek-obyek tersebut dikelompokkan berdasarkan prinsip memaksimalkan kesamaan obyek pada cluster yang sama dan memaksimalkan ketidaksamaan pada cluster yang berbeda. Kesamaan obyek biasanya diperoleh dari nilai-nilai atribut yang menjelaskan obyek data, sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi (Baskoro, 2010).

Gambar 2.3 Klasterisasi Berdasarkan Similaritas (Kesamaan) Bentuk

2.3.2. Konsep Clustering dalam Data Mining

Konsep dasar data mining adalah menemukan informasi tersembunyi dalam sebuah basis data dan merupakan bagian dari Knowledge Discovery in Database (KDD) untuk menemukan informasi dan pola yang berguna dalam data (Dunham 2003). Data mining mencari informasi baru, berharga dan berguna dalam sekumpulan data dengan melibatkan komputer dan manusia serta bersifat iteratif baik melalui proses yang otomatis ataupun manual. Clustering membagi data menjadi kelompok-kelompok atau cluster berdasarkan suatu kemiripan atribut-atribut diantara data tersebut (Dunham, 2003). Karakteristik tiap cluster tidak ditentukan sebelumnya, melainkan tercermin dari kemiripan data yang terkelompok di dalamnya. Oleh sebab itu hasil clustering seringkali perlu diinterprestasikan oleh pihak-pihak yang benar-benar mengerti mengenai karakter mining, clustering juga digunakan dalam pra-pemrosesan data sebelum data diolah dengan metode data mining yang lain untuk meningkatkan pemahaman terhadap domain data. Karakteristik terpenting

dari hasil clustering yang baik adalah suatu instance data dalam suatu cluster lebih “mirip” dengan instance lain di dalam cluster tersebut daripada dengan instance di luar dari cluster itu (Kantardzic, 2003). Ukuran kemiripan (similarity measure) bisa bermacam-macam dan mempengaruhi perhitungan dalam menentukan anggota suatu cluster. Jadi tipe data yang akan di-cluster (kuantitatif atau kualitatif) juga menentukan ukuran apa yang tepat digunakan dalam suatu algoritma. Selain kemiripan antar data dalam suatu cluster, clustering juga dapat dilakukan berdasarkan jarak antar data atau cluster yang satu dengan yang lainnya. Ukuran jarak (distance atau dissimilarity measure) yang merupakan kebalikan dari ukuran kemiripan ini juga banyak ragamnya dan penggunaannya juga tergantung pada tipe data yang akan di-cluster. Kedua ukuran ini bersifat simetris, dimana jika A dikatakan mirip dengan B maka dapat disimpulkan bahwa B mirip dengan A.

2.3.3. Algoritma Clustering

Pembagian clustering (Bahar, 2011) dapat digambarkan sebagai berikut :

Hierarchical clustering menentukan sendiri jumlah cluster yang dihasilkan. Hasil dari metode ini adalah suatu struktur data berbentuk pohon yang disebut dendogram dimana data dikelompokkan secara bertingkat dari yang paling bawah dimana tiap instance data merupakan satu cluster sendiri, hingga tingkat paling atas dimana keseluruhan data membentuk satu cluster besar berisi cluster-cluster (Bahar, 2011).

Gambar 2.5 Dendogram

Divisive hierarchical clustering mengelompokkan data dari kelompok yang terbesar hingga ke kelompok yang terkecil, yaitu masing-masing instance dari kelompok data tersebut. Sebaliknya, agglomerative hierarchical clustering mulai mengelompokkan data dari kelompok yang terkecil hingga kelompok yang terbesar (Kantardzic, 2003). Beberapa algoritma yang menggunakan metode ini adalah: RObust Clustering Using LinKs (ROCK), Chameleon, Cobweb, Shared Nearest Neighbor (SNN) (Bahar, 2011).

Partitional clustering yang mengelompokkan data ke dalam k cluster dimana k adalah banyaknya cluster dari input user. Kategori ini biasanya

memerlukan pengetahuan yang cukup mendalam tentang data dan proses bisnis yang memanfaatkannya untuk mendapatkan kisaran nilai input yang sesuai. Beberapa algoritma yang masuk dalam kategori ini antara lain: K-Means, Fuzzy C-Means, Clustering Large Aplications (CLARA), Expectation Maximation (EM), Bond Energy Algorithm (BEA), algoritma Genetika, Jaringan Saraf Tiruan (Bahar, 2011).

Clustering Large Data, dibutuhkan untuk melakukan clustering pada data yang volumenya sangat besar sehingga tidak cukup ditampung dalam memori komputer pada suatu waktu. Biasanya untuk mengatasi masalah besarnya volume data, dicari teknik-teknik untuk meminimalkan berapa kali algoritma harus membaca seluruh data. Beberapa algoritma yang masuk dalam kategori ini antara lain: Balanced Iteratif Reducing and clustering using hierarchies (BIRCH), Density Based Spatial Clustering of Application With Noise (DCSCAN), Clustering Categorical Data Using Summaries (CACTUS) (Bahar, 2011).

2.3.4. Pengukuran Kinerja Clustering

Menurut Eko Prasetyo (2012), sebuah sistem klustering juga harus diukur kinerjanya guna melihat tingkat akurasi dan kesalahan dari sistem tersebut. Umumnya, pengukuran kinerja klustering dilakukan dengan matriks konfusi (confusion matrix). Matriks konfusi merupakan tabel pencatat hasil kerja klustering. Tabel 2.1 merupakan contoh matriks konfusi yang melakukan

klasifikasi masalah biner pada dua kelas yaitu kelas 0 dan 1. Setiap sel fij dalam matriks menyatakan jumah rekord/data dari kelas i yang hasil prediksinya masuk ke kelas j. Misalnya, sel f11 adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan f10 adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0.

Tabel 2.1 Matriks konfusi untuk klustering dua kelas fij

Kelas hasil prediksi (j) Kelas = 1 Kelas = 0 Kelas asli (i)

Kelas = 1 f11 f10

Kelas = 0 f01 f00

Berdasarkan isi matriks konfusi, dapat diketahui jumlah data dari masing-masing kelas yang dikluster secara benar, yaitu (f11+f00), dan data yang dikluster secara salah, yaitu (f10+f01). Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error. Dengan mengetahui jumlah data yang dikluster secara benar, dapat diketahui akurasi hasil prediksi, dan dengan mengetahui jumlah data yang dikluster secara salah, dapat diketahui laju error dari prediksi yang dilakukan. Dua kuantitas ini digunakan sebagai matrik kinerja kluster.

Untuk menghitung akurasi kluster digunakan formula :

Dalam dokumen IMPLEMENTASI ALGORITMA K-MEANS DALAM DATA MINING UNTUK PEMINATAN JURUSAN BAGI SISWA KELAS X SMA NEGERI 29 JAKARTA (Halaman 40-46)