1PT. Ganesha Cipta Informatika, Jakarta 2Departemen Statistika FMIPA-IPB, Bogor
E-mail: [email protected]
ABSTRAK
Metode penggerombolan k-rataan tidak mampu menggerombolkan data yang terpisah secara non linier. Salah satu cara mengatasi permasalahan ini adalah dengan menambahkan transformasi fungsi kernel pada metode k-rataan. Metode ini dikenal dengan metode k-rataan kernel. Penelitian ini bertujuan untuk mengkaji penentuan nilai lebar jendela dan persentase salah klasifikasi dari metode k-rataan kernel pada beberapa jenis gerombol data. Pada penelitian ini digunakan funggsi kernel Gauss. Hasil penelitian menunjukkan bahwa metode k-rataan kernel mampu menggerombolkan data yang terpisah secara linier maupun non linier, sedangkan metode k-rataan hanya mampu menggerombolkan data yang terpisah secara linier. Kedua metode memiliki kelemahan dalam menggerombolkan data yang memiliki anggota tumpang tindih. Lebar jendela fungsi kernel sangat berpengaruh terhadap persentase salah klasifikasi. Penentuan lebar jendela dengan metode perkiraan kasar cukup efisien.
Kata kunci: Analisis gerombol, k-rataan, kernel Gauss, k-rataan kernel, lebar jendela
1 PENDAHULUAN
Analisis gerombol merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengelompokkan objek-objek ke dalam beberapa gerombol. Objek-objek di dalam satu gerombol memiliki karakteristik yang mirip sedangkan karakteristik antar gerombol berbeda [1]. Metode ini dapat diaplikasikan dalam berbagai bidang seperti pengenalan pola, mesin pembelajaran, penambangan data dan pemrosesan citra [2]. Metode analisis gerombol yang sering digunakan adalah analisis gerombol dengan metode hierarki dan metode non hierarki k-rataan.
Metode penggerombolan yang paling populer dan sederhana adalah metode k-rataan. Metode k-rataan memiliki sejarah yang bermacam-macam karena diperkenalkan di berbagai bidang yang berbeda-beda oleh banyak ahli seperti oleh Steinhaus pada tahun 1956, Ball dan Hall pada tahun 1965 dan MacQueen pada tahun 1967. Algoritma penggerombolan k-rataan bertujuan untuk meminimumkan kuadrat galat antara pusat gerombol yang terbentuk dengan masing-masing anggota gerombolnya [3]. Salah satu kelemahan yang dimiliki analisis
50 Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012
gerombol dengan metode k-rataan adalah hanya memilliki kemampuan untuk mengidentifikasi gerombol yang terpisah secara linier [2]. Kelemahan tersebut juga dimiliki oleh analisis gerombol hierarki. Pengimplementasian metode-metode analisis gerombol tersebut pada dunia nyata mengalami banyak kesulitan karena pada umumnya fenomena- fenomena yang terjadi di alam tidak selalu terpisah secara linier.
Girolami [4] memperkenalkan metode penggerombolan dengan menggunakan transformasi fungsi kernel. Metode ini mengalami perkembangan pesat hingga saat ini. Perkembangan metode tersebut menghasilkan banyak metode penggerombolan baru yang menggunakan fungsi kernel sebagai fungsi transformasi non linier. Salah satu hasil pengembangan metode tersebut adalah metode k-rataan kernel. Metode k-rataan kernel adalah penerapan algoritma k-rataan dalam ruang transformasi non linier dengan fungsi kernel.
Penelitian ini bertujuan untuk mengkaji hasil penggerombolan dengan metode k-rataan kernel ke dalam beberapa kondisi gerombol data yaitu gerombol-gerombol yang terpisah secara linier, terpisah secara non linier, dan gerombol-gerombol dengan anggota yang tumpang tindih.
2 TINJAUAN PUSTAKA 2.1. Metode Kernel
Metode kernel adalah suatu alat pemodelan non parametrik yang sangat handal. Setiap metode kernel secara umum memiliki dua bagian utama. Bagian pertama adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk [5]. Metode ini sering disebut juga sebagai kernel trick.
Misalkan π1,π2,β¦,ππ adalah segugus data berukuran n dengan ππ β π π· dan π
adalah sebuah fungsi pemetaan yang memetakan ππ dari ruang awal π π· ke dalam ruang baru
yaitu π maka:
π» ππ,ππ =π ππ β π ππ
Satu hal yang penting dari fungsi kernel adalah bentuk konkrit dari π tidak diketahui, sehingga transformasi didefinisikan secara implisit. Beberapa fungsi kernel yang biasa digunakan adalah:
Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012
51
Polinomial: π» ππ,ππ = ππβ ππ + 1 π Radial: π» ππ,ππ =ππ₯π βπ ππβ ππ 2 Gaussian: π» ππ,ππ =ππ₯π β 1 2π2 ππβ ππ 2Pemilihan fungsi kernel yang digunakan sangat spesifik terhadap data. Namun dalam berbagai kasus spesifik dalam pemisahan data, fungsi kernel yang memiliki kemampuan pendugaan yang baik secara umum adalah fungsi kernel berbasis radial [4].
Penentuan lebar jendela yang tepat untuk fungsi kernel Gaussian merupakan hal yang sangat penting. Pemilihan lebar jendela tepat akan meningkatkan ketepatan dari penggerombolan yang akan diterapkan dalam ruang transformasi. Pada fungsi kernel Gauss yang memiliki bentuk umum ππ₯π βπΎ ππβ ππ 2 , lebar jendela πΎ yang optimum dapat dihitung menggunakan perkiraan kasar dengan rumus:
1
πΎ =πππππππ,π=1,β¦,ππ π₯π,π₯π atau 1
πΎ =πππππ,π=1,β¦,ππ π₯π,π₯π
Metode perkiraan kasar ini didasarkan pada sifat kurva kuadrat eksponensial yang memiliki titik penurunan yang paling kuat ketika nilai eksponennya adalah -1 [6].
Beberapa kelemahan utama dari fungsi kernel adalah:
1. Hilangnya beberapa sifat dari ruang yang baru (seperti: dimensi dan selang nilai) karena tidak adanya bentuk yang eksplisit dari π.
2. Penentuan bentuk kernel yang sesuai untuk suatu data harus diketahui melalui eksperimen.
3. Penggunaan fungsi kernel membuat proses komputasi dan biaya penyimpanan meningkat dengan sangat besar [7].
2.3 K-Rataan Kernel
Metode k-rataan kernel merupakan bentuk khusus dari algoritma k-rataan dengan titik- titik data dipetakan terlebih dahulu dari ruang awal ke dalam ruang khusus melalui transformasi non linier π. Selanjutnya algoritma k-rataan diterapkan dalam ruang khusus tersebut. Hal ini akan menghasilkan pemisah linier di dalam ruang khusus yang menyerupai pemisah non linier di ruang awal [2].
Jika ππ =π ππ menunjukkan transformasi dari ππ maka jarak Euclid antara ππ dan ππ
52 Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012
π·2 π π,ππ = π ππ β π ππ 2 =π2 ππ β2π ππ β π ππ +π2 ππ =π» ππ,ππ β2π» ππ,ππ +π» ππ,ππ
Misalkan ππ adalah titik tengah gerombol dalam ruang yang telah ditransformasi:
ππ=
1
πΆπ πΏ ππ,πΆπ ππ π
π=1
dengan πΏ ππ,πΆπ adalah fungsi indikator. Jarak antara ππ dan ππ dapat dihitung dengan cara:
π·2 π π,ππ = ππβ 1 πΆπ πΏ ππ,πΆπ ππ π π=1 2 =π» ππ,ππ +π ππ,πΆπ +π πΆπ (1) dengan π ππ,πΆπ =β πΆ2π ππ=1πΏ ππ,πΆπ π» ππ,ππ ; π πΆπ = πΆ1π 2 ππ=1 ππ=1πΏπ,ππΏπ,ππ» ππ,ππ ; πΏπ,π =πΏ π’π,πΆπ ; πΏπ,π =πΏ π’π,πΆπ
Suku π» ππ,ππ pada persamaan (1) diabaikan pada saat pembentukan fungsi indikator karena
faktor tersebut tidak berkontribusi dalam penentuan gerombol terdekat. Penentuan titik tengah dari gerombol direpresentasikan dengan titik tengah semu karena titik tengah gerombol tidak dapat dinyatakan secara eksplisit dalam ruang transformasi [7].
3 METODOLOGI PENELITIAN
Data gerombol yang digunakan dalam penelitian ini ada dua macam, yaitu: 1. Data simulasi sebaran normal ganda.
2. Data simulasi gerombol terpisah non linier