Clustering Partisional ( Partitional Clustering )

TINJAUAN PUSTAKA

2.2. Penambangan Data Pada Pendidikan Tingg

2.3.2. Clustering Partisional ( Partitional Clustering )

Dengan mengetahui objek-objek database N, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.

Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya.

Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda (yang dianggap sebagai representative) dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy.

Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilitas adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah pembagian (partition). Tergantung pada bagaimana representative dibuat,

algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metode- metode K-medoids dan K-means.

2.4 Analisis Cluster

Analisis cluster adalah suatu analisis statitik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin (Prayudho, 2008).

Tujuan Analisis Cluster :

1. Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompok- kelompok yang mempunyai sifat yang relatif sama (homogen)

2. Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan kelompok lainnya.

Adapun manfaat Analisis Cluster sebagai berikut :

1. Untuk menerapkan dasar-dasar pengelompokkan dengan lebih konsisten

2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus.

3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti 4. Mendeskripsikan sifat-sifat / karakteristik dari masing-masing kelompok Analisis cluster dilakukan dengan langkah-langkah berikut :

1. Merumuskan permasalahan

2. Memilih ukuran jarak atau kesamaan 3. Memilih prosedur pengklusteran 4. Menetapkan jumlah cluster 5. Interpretasi dan profil dari cluster 6. Menaksir reliabilitas dan validitas

2.5 Metode Kernel

Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh metode yang popular kernel Mercer (Christianini & Taylor, 2000). Point utama dalam metode kernel adalah apa yang disebut “kernel trick”, yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas, ruang fitur Anggaplah xi dan xj

k (x

adalah dua point data ruang input. Jika fungsi kernel k(…) memenuhi kondisi Mercer maka :

i , xj) = Φ(xi).Φ(xj

Dimana, (x

) (2.1)

i,xj

Metode-metode Kernel adalah algoritma yang secara implisit melaksanakan, melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi (Vapnik, ) menunjukkan inner product dan Φ(.) melambangkan pemetaan non-linier dari ruang input kepada fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner product ruang fitur kernel.

1995). Metode-metode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi.

K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dari centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.

2.6 Fungsi Kernel

Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM (support vector machine) dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linier, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru dimana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefenisikan transformasi.

Anggaplah kita diberikan sekumpulan sampel x1, x2, x3,…, xN, dimana xi ɛ RD, dan fungsi pemetaan Φ yang memetakan x1 dari ruang input RD

k (x

pada ruang baru Q. Fungsi kernel didefenisikan sebagai dot product dalam ruang baru Q :

i , xj) = Φ(xi).Φ(xj) (2.2)

Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk kongkrit dari Φ, yaitu transformasi yang didefinisikan secara implicit. Tiga fungsi kernel yang secara umum tercantum di bawah ini : Polynomial k ( xi, xj) = (xi . xj + 1 )d Radial k ( x (2.3) i, xj) = exp (-r || xi – xj ||2 Neural k ( x ) (2.4) i, xj) = tanh (axi . xj

Kelemahan utama dari fungsi Kernel meliputi, pertama beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen.

+ b) (2.5)

Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas. Prinsip ini menjamin bahwa fungsi kernel dapat selalu diexpresikan sebagi dot product diantara dua input vector dalam beberapa ruang dimensi yang tinggi.

Gambar 2.2. Proses Pemetaan Kernel

Dalam dokumen Model Profil Mahasiswa Yang Potensial Drop Out Menggunakan Teknik Kernel K-Mean Clustering Dan Decision Tree (Halaman 38-44)