Bimandra Adiputra Djaafara 1 , Anik Djuraidah 2 , Aji Hamim Wigena

1_{PT. Ganesha Cipta Informatika, Jakarta} 2_{Departemen Statistika FMIPA-IPB, Bogor}

ABSTRAK

Metode penggerombolan k-rataan tidak mampu menggerombolkan data yang terpisah secara non linier. Salah satu cara mengatasi permasalahan ini adalah dengan menambahkan transformasi fungsi kernel pada metode k-rataan. Metode ini dikenal dengan metode k-rataan kernel. Penelitian ini bertujuan untuk mengkaji penentuan nilai lebar jendela dan persentase salah klasifikasi dari metode k-rataan kernel pada beberapa jenis gerombol data. Pada penelitian ini digunakan funggsi kernel Gauss. Hasil penelitian menunjukkan bahwa metode k-rataan kernel mampu menggerombolkan data yang terpisah secara linier maupun non linier, sedangkan metode k-rataan hanya mampu menggerombolkan data yang terpisah secara linier. Kedua metode memiliki kelemahan dalam menggerombolkan data yang memiliki anggota tumpang tindih. Lebar jendela fungsi kernel sangat berpengaruh terhadap persentase salah klasifikasi. Penentuan lebar jendela dengan metode perkiraan kasar cukup efisien.

Kata kunci: Analisis gerombol, k-rataan, kernel Gauss, k-rataan kernel, lebar jendela

1 PENDAHULUAN

Analisis gerombol merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengelompokkan objek-objek ke dalam beberapa gerombol. Objek-objek di dalam satu gerombol memiliki karakteristik yang mirip sedangkan karakteristik antar gerombol berbeda [1]. Metode ini dapat diaplikasikan dalam berbagai bidang seperti pengenalan pola, mesin pembelajaran, penambangan data dan pemrosesan citra [2]. Metode analisis gerombol yang sering digunakan adalah analisis gerombol dengan metode hierarki dan metode non hierarki k-rataan.

Metode penggerombolan yang paling populer dan sederhana adalah metode k-rataan. Metode k-rataan memiliki sejarah yang bermacam-macam karena diperkenalkan di berbagai bidang yang berbeda-beda oleh banyak ahli seperti oleh Steinhaus pada tahun 1956, Ball dan Hall pada tahun 1965 dan MacQueen pada tahun 1967. Algoritma penggerombolan k-rataan bertujuan untuk meminimumkan kuadrat galat antara pusat gerombol yang terbentuk dengan masing-masing anggota gerombolnya [3]. Salah satu kelemahan yang dimiliki analisis

50 Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

gerombol dengan metode k-rataan adalah hanya memilliki kemampuan untuk mengidentifikasi gerombol yang terpisah secara linier [2]. Kelemahan tersebut juga dimiliki oleh analisis gerombol hierarki. Pengimplementasian metode-metode analisis gerombol tersebut pada dunia nyata mengalami banyak kesulitan karena pada umumnya fenomena- fenomena yang terjadi di alam tidak selalu terpisah secara linier.

Girolami [4] memperkenalkan metode penggerombolan dengan menggunakan transformasi fungsi kernel. Metode ini mengalami perkembangan pesat hingga saat ini. Perkembangan metode tersebut menghasilkan banyak metode penggerombolan baru yang menggunakan fungsi kernel sebagai fungsi transformasi non linier. Salah satu hasil pengembangan metode tersebut adalah metode k-rataan kernel. Metode k-rataan kernel adalah penerapan algoritma k-rataan dalam ruang transformasi non linier dengan fungsi kernel.

Penelitian ini bertujuan untuk mengkaji hasil penggerombolan dengan metode k-rataan kernel ke dalam beberapa kondisi gerombol data yaitu gerombol-gerombol yang terpisah secara linier, terpisah secara non linier, dan gerombol-gerombol dengan anggota yang tumpang tindih.

2 TINJAUAN PUSTAKA 2.1. Metode Kernel

Metode kernel adalah suatu alat pemodelan non parametrik yang sangat handal. Setiap metode kernel secara umum memiliki dua bagian utama. Bagian pertama adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk [5]. Metode ini sering disebut juga sebagai kernel trick.

Misalkan _𝒙1,𝒙2,…,𝒙𝑛 adalah segugus data berukuran n dengan 𝒙𝑖 ∈ 𝑅𝐷 dan 𝜙

adalah sebuah fungsi pemetaan yang memetakan 𝒙𝑖 dari ruang awal 𝑅𝐷 ke dalam ruang baru

yaitu 𝑄 maka:

𝐻 𝒙𝑖,𝒙𝑗 =𝜙 𝒙𝑖 ∙ 𝜙 𝒙𝑗

Satu hal yang penting dari fungsi kernel adalah bentuk konkrit dari _𝜙 tidak diketahui, sehingga transformasi didefinisikan secara implisit. Beberapa fungsi kernel yang biasa digunakan adalah:

Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

51

Polinomial: _{𝐻 𝒙}_𝑖,𝒙_𝑗 = 𝒙_𝑖∙ 𝒙_𝑗 + 1 𝑑 Radial: _{𝐻 𝒙}_𝑖,𝒙_𝑗 =𝑒𝑥𝑝 −𝑟 𝒙_𝑖− 𝒙_𝑗 2 Gaussian: _{𝐻 𝒙}_𝑖,𝒙_𝑗 =𝑒𝑥𝑝 − 1 2𝜍2 𝒙𝑖− 𝒙𝑗 2

Pemilihan fungsi kernel yang digunakan sangat spesifik terhadap data. Namun dalam berbagai kasus spesifik dalam pemisahan data, fungsi kernel yang memiliki kemampuan pendugaan yang baik secara umum adalah fungsi kernel berbasis radial [4].

Penentuan lebar jendela yang tepat untuk fungsi kernel Gaussian merupakan hal yang sangat penting. Pemilihan lebar jendela tepat akan meningkatkan ketepatan dari penggerombolan yang akan diterapkan dalam ruang transformasi. Pada fungsi kernel Gauss yang memiliki bentuk umum _{𝑒𝑥𝑝 −𝛾 𝒙}_𝑖_{− 𝒙}_𝑗 2 , lebar jendela _𝛾 yang optimum dapat dihitung menggunakan perkiraan kasar dengan rumus:

𝛾 =𝑚𝑒𝑑𝑖𝑎𝑛𝑖,𝑗=1,…,𝑛𝑑 𝑥𝑖,𝑥𝑗 atau 1

𝛾 =𝑚𝑒𝑎𝑛𝑖,𝑗=1,…,𝑛𝑑 𝑥𝑖,𝑥𝑗

Metode perkiraan kasar ini didasarkan pada sifat kurva kuadrat eksponensial yang memiliki titik penurunan yang paling kuat ketika nilai eksponennya adalah -1 [6].

Beberapa kelemahan utama dari fungsi kernel adalah:

1. Hilangnya beberapa sifat dari ruang yang baru (seperti: dimensi dan selang nilai) karena tidak adanya bentuk yang eksplisit dari 𝜙.

2. Penentuan bentuk kernel yang sesuai untuk suatu data harus diketahui melalui eksperimen.

3. Penggunaan fungsi kernel membuat proses komputasi dan biaya penyimpanan meningkat dengan sangat besar [7].

2.3 K-Rataan Kernel

Metode k-rataan kernel merupakan bentuk khusus dari algoritma k-rataan dengan titik- titik data dipetakan terlebih dahulu dari ruang awal ke dalam ruang khusus melalui transformasi non linier 𝜙. Selanjutnya algoritma k-rataan diterapkan dalam ruang khusus tersebut. Hal ini akan menghasilkan pemisah linier di dalam ruang khusus yang menyerupai pemisah non linier di ruang awal [2].

Jika 𝒖𝑖 =𝜙 𝒙𝑖 menunjukkan transformasi dari 𝒙𝑖 maka jarak Euclid antara 𝒖𝑖 dan 𝒖𝑗

52 Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

𝐷2_𝒖 𝑖,𝒖𝑗 = 𝜙 𝒙𝑖 − 𝜙 𝒙𝑗 2 =𝜙2 𝒙_𝑖 −2𝜙 𝒙_𝑖 ∙ 𝜙 𝒙_𝑗 +𝜙2 𝒙_𝑗 =𝐻 𝒙_𝑖,𝒙_𝑖 −2𝐻 𝒙_𝑖,𝒙_𝑗 +𝐻 𝒙_𝑗,𝒙_𝑗

Misalkan 𝒛𝑘 adalah titik tengah gerombol dalam ruang yang telah ditransformasi:

𝒛𝑘=

𝐶𝑘 𝛿 𝒖𝑖,𝐶𝑘 𝒖𝑖 𝑛

𝑖=1

dengan _{𝛿 𝒖}_𝑖,𝐶_𝑘 adalah fungsi indikator. Jarak antara 𝒖_𝑖 dan 𝒛_𝑘 dapat dihitung dengan cara:

𝐷2_𝒖 𝑖,𝒛𝑘 = 𝒖𝑖− 1 𝐶𝑘 𝛿 𝒖𝑗,𝐶𝑘 𝒖𝑗 𝑛 𝑗=1 2 =𝐻 𝒙_𝑖,𝒙_𝑖 +𝑓 𝒙_𝑖,𝐶_𝑘 +𝑔 𝐶_𝑘 (1) dengan 𝑓 𝒙𝑖,𝐶𝑘 =−_𝐶2_𝑘 𝑛𝑗=1𝛿 𝒖𝑗,𝐶𝑘 𝐻 𝒙𝑖,𝒙𝑗 ; 𝑔 𝐶𝑘 =_𝐶1_𝑘 2 𝑗𝑛=1 𝑛𝑙=1𝛿𝑗,𝑘𝛿𝑙,𝑘𝐻 𝒙𝑗,𝒙𝑙 ; 𝛿𝑗,𝑘 =𝛿 𝑢𝑗,𝐶𝑘 ; 𝛿𝑙,𝑘 =𝛿 𝑢𝑙,𝐶𝑘

Suku 𝐻 𝒙𝑖,𝒙𝑖 pada persamaan (1) diabaikan pada saat pembentukan fungsi indikator karena

faktor tersebut tidak berkontribusi dalam penentuan gerombol terdekat. Penentuan titik tengah dari gerombol direpresentasikan dengan titik tengah semu karena titik tengah gerombol tidak dapat dinyatakan secara eksplisit dalam ruang transformasi [7].

3 METODOLOGI PENELITIAN

Data gerombol yang digunakan dalam penelitian ini ada dua macam, yaitu: 1. Data simulasi sebaran normal ganda.

2. Data simulasi gerombol terpisah non linier

Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

53

Dalam dokumen 2012 Prosiding SNS V FMIPA IPB 2012 (Halaman 60-64)