• Tidak ada hasil yang ditemukan

Bimandra Adiputra Djaafara 1 , Anik Djuraidah 2 , Aji Hamim Wigena

Dalam dokumen 2012 Prosiding SNS V FMIPA IPB 2012 (Halaman 60-64)

1PT. Ganesha Cipta Informatika, Jakarta 2Departemen Statistika FMIPA-IPB, Bogor

E-mail: [email protected]

ABSTRAK

Metode penggerombolan k-rataan tidak mampu menggerombolkan data yang terpisah secara non linier. Salah satu cara mengatasi permasalahan ini adalah dengan menambahkan transformasi fungsi kernel pada metode k-rataan. Metode ini dikenal dengan metode k-rataan kernel. Penelitian ini bertujuan untuk mengkaji penentuan nilai lebar jendela dan persentase salah klasifikasi dari metode k-rataan kernel pada beberapa jenis gerombol data. Pada penelitian ini digunakan funggsi kernel Gauss. Hasil penelitian menunjukkan bahwa metode k-rataan kernel mampu menggerombolkan data yang terpisah secara linier maupun non linier, sedangkan metode k-rataan hanya mampu menggerombolkan data yang terpisah secara linier. Kedua metode memiliki kelemahan dalam menggerombolkan data yang memiliki anggota tumpang tindih. Lebar jendela fungsi kernel sangat berpengaruh terhadap persentase salah klasifikasi. Penentuan lebar jendela dengan metode perkiraan kasar cukup efisien.

Kata kunci: Analisis gerombol, k-rataan, kernel Gauss, k-rataan kernel, lebar jendela

1 PENDAHULUAN

Analisis gerombol merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengelompokkan objek-objek ke dalam beberapa gerombol. Objek-objek di dalam satu gerombol memiliki karakteristik yang mirip sedangkan karakteristik antar gerombol berbeda [1]. Metode ini dapat diaplikasikan dalam berbagai bidang seperti pengenalan pola, mesin pembelajaran, penambangan data dan pemrosesan citra [2]. Metode analisis gerombol yang sering digunakan adalah analisis gerombol dengan metode hierarki dan metode non hierarki k-rataan.

Metode penggerombolan yang paling populer dan sederhana adalah metode k-rataan. Metode k-rataan memiliki sejarah yang bermacam-macam karena diperkenalkan di berbagai bidang yang berbeda-beda oleh banyak ahli seperti oleh Steinhaus pada tahun 1956, Ball dan Hall pada tahun 1965 dan MacQueen pada tahun 1967. Algoritma penggerombolan k-rataan bertujuan untuk meminimumkan kuadrat galat antara pusat gerombol yang terbentuk dengan masing-masing anggota gerombolnya [3]. Salah satu kelemahan yang dimiliki analisis

50 Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

gerombol dengan metode k-rataan adalah hanya memilliki kemampuan untuk mengidentifikasi gerombol yang terpisah secara linier [2]. Kelemahan tersebut juga dimiliki oleh analisis gerombol hierarki. Pengimplementasian metode-metode analisis gerombol tersebut pada dunia nyata mengalami banyak kesulitan karena pada umumnya fenomena- fenomena yang terjadi di alam tidak selalu terpisah secara linier.

Girolami [4] memperkenalkan metode penggerombolan dengan menggunakan transformasi fungsi kernel. Metode ini mengalami perkembangan pesat hingga saat ini. Perkembangan metode tersebut menghasilkan banyak metode penggerombolan baru yang menggunakan fungsi kernel sebagai fungsi transformasi non linier. Salah satu hasil pengembangan metode tersebut adalah metode k-rataan kernel. Metode k-rataan kernel adalah penerapan algoritma k-rataan dalam ruang transformasi non linier dengan fungsi kernel.

Penelitian ini bertujuan untuk mengkaji hasil penggerombolan dengan metode k-rataan kernel ke dalam beberapa kondisi gerombol data yaitu gerombol-gerombol yang terpisah secara linier, terpisah secara non linier, dan gerombol-gerombol dengan anggota yang tumpang tindih.

2 TINJAUAN PUSTAKA 2.1. Metode Kernel

Metode kernel adalah suatu alat pemodelan non parametrik yang sangat handal. Setiap metode kernel secara umum memiliki dua bagian utama. Bagian pertama adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk [5]. Metode ini sering disebut juga sebagai kernel trick.

Misalkan 𝒙1,𝒙2,…,𝒙𝑛 adalah segugus data berukuran n dengan 𝒙𝑖 ∈ 𝑅𝐷 dan πœ™

adalah sebuah fungsi pemetaan yang memetakan 𝒙𝑖 dari ruang awal 𝑅𝐷 ke dalam ruang baru

yaitu 𝑄 maka:

𝐻 𝒙𝑖,𝒙𝑗 =πœ™ 𝒙𝑖 βˆ™ πœ™ 𝒙𝑗

Satu hal yang penting dari fungsi kernel adalah bentuk konkrit dari πœ™ tidak diketahui, sehingga transformasi didefinisikan secara implisit. Beberapa fungsi kernel yang biasa digunakan adalah:

Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

51

Polinomial: 𝐻 𝒙𝑖,𝒙𝑗 = π’™π‘–βˆ™ 𝒙𝑗 + 1 𝑑 Radial: 𝐻 𝒙𝑖,𝒙𝑗 =𝑒π‘₯𝑝 βˆ’π‘Ÿ π’™π‘–βˆ’ 𝒙𝑗 2 Gaussian: 𝐻 𝒙𝑖,𝒙𝑗 =𝑒π‘₯𝑝 βˆ’ 1 2𝜍2 π’™π‘–βˆ’ 𝒙𝑗 2

Pemilihan fungsi kernel yang digunakan sangat spesifik terhadap data. Namun dalam berbagai kasus spesifik dalam pemisahan data, fungsi kernel yang memiliki kemampuan pendugaan yang baik secara umum adalah fungsi kernel berbasis radial [4].

Penentuan lebar jendela yang tepat untuk fungsi kernel Gaussian merupakan hal yang sangat penting. Pemilihan lebar jendela tepat akan meningkatkan ketepatan dari penggerombolan yang akan diterapkan dalam ruang transformasi. Pada fungsi kernel Gauss yang memiliki bentuk umum 𝑒π‘₯𝑝 βˆ’π›Ύ π’™π‘–βˆ’ 𝒙𝑗 2 , lebar jendela 𝛾 yang optimum dapat dihitung menggunakan perkiraan kasar dengan rumus:

1

𝛾 =π‘šπ‘’π‘‘π‘–π‘Žπ‘›π‘–,𝑗=1,…,𝑛𝑑 π‘₯𝑖,π‘₯𝑗 atau 1

𝛾 =π‘šπ‘’π‘Žπ‘›π‘–,𝑗=1,…,𝑛𝑑 π‘₯𝑖,π‘₯𝑗

Metode perkiraan kasar ini didasarkan pada sifat kurva kuadrat eksponensial yang memiliki titik penurunan yang paling kuat ketika nilai eksponennya adalah -1 [6].

Beberapa kelemahan utama dari fungsi kernel adalah:

1. Hilangnya beberapa sifat dari ruang yang baru (seperti: dimensi dan selang nilai) karena tidak adanya bentuk yang eksplisit dari πœ™.

2. Penentuan bentuk kernel yang sesuai untuk suatu data harus diketahui melalui eksperimen.

3. Penggunaan fungsi kernel membuat proses komputasi dan biaya penyimpanan meningkat dengan sangat besar [7].

2.3 K-Rataan Kernel

Metode k-rataan kernel merupakan bentuk khusus dari algoritma k-rataan dengan titik- titik data dipetakan terlebih dahulu dari ruang awal ke dalam ruang khusus melalui transformasi non linier πœ™. Selanjutnya algoritma k-rataan diterapkan dalam ruang khusus tersebut. Hal ini akan menghasilkan pemisah linier di dalam ruang khusus yang menyerupai pemisah non linier di ruang awal [2].

Jika 𝒖𝑖 =πœ™ 𝒙𝑖 menunjukkan transformasi dari 𝒙𝑖 maka jarak Euclid antara 𝒖𝑖 dan 𝒖𝑗

52 Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

𝐷2 𝒖 𝑖,𝒖𝑗 = πœ™ 𝒙𝑖 βˆ’ πœ™ 𝒙𝑗 2 =πœ™2 𝒙𝑖 βˆ’2πœ™ 𝒙𝑖 βˆ™ πœ™ 𝒙𝑗 +πœ™2 𝒙𝑗 =𝐻 𝒙𝑖,𝒙𝑖 βˆ’2𝐻 𝒙𝑖,𝒙𝑗 +𝐻 𝒙𝑗,𝒙𝑗

Misalkan π’›π‘˜ adalah titik tengah gerombol dalam ruang yang telah ditransformasi:

π’›π‘˜=

1

πΆπ‘˜ 𝛿 𝒖𝑖,πΆπ‘˜ 𝒖𝑖 𝑛

𝑖=1

dengan 𝛿 𝒖𝑖,πΆπ‘˜ adalah fungsi indikator. Jarak antara 𝒖𝑖 dan π’›π‘˜ dapat dihitung dengan cara:

𝐷2 𝒖 𝑖,π’›π‘˜ = π’–π‘–βˆ’ 1 πΆπ‘˜ 𝛿 𝒖𝑗,πΆπ‘˜ 𝒖𝑗 𝑛 𝑗=1 2 =𝐻 𝒙𝑖,𝒙𝑖 +𝑓 𝒙𝑖,πΆπ‘˜ +𝑔 πΆπ‘˜ (1) dengan 𝑓 𝒙𝑖,πΆπ‘˜ =βˆ’ 𝐢2π‘˜ 𝑛𝑗=1𝛿 𝒖𝑗,πΆπ‘˜ 𝐻 𝒙𝑖,𝒙𝑗 ; 𝑔 πΆπ‘˜ = 𝐢1π‘˜ 2 𝑗𝑛=1 𝑛𝑙=1𝛿𝑗,π‘˜π›Ώπ‘™,π‘˜π» 𝒙𝑗,𝒙𝑙 ; 𝛿𝑗,π‘˜ =𝛿 𝑒𝑗,πΆπ‘˜ ; 𝛿𝑙,π‘˜ =𝛿 𝑒𝑙,πΆπ‘˜

Suku 𝐻 𝒙𝑖,𝒙𝑖 pada persamaan (1) diabaikan pada saat pembentukan fungsi indikator karena

faktor tersebut tidak berkontribusi dalam penentuan gerombol terdekat. Penentuan titik tengah dari gerombol direpresentasikan dengan titik tengah semu karena titik tengah gerombol tidak dapat dinyatakan secara eksplisit dalam ruang transformasi [7].

3 METODOLOGI PENELITIAN

Data gerombol yang digunakan dalam penelitian ini ada dua macam, yaitu: 1. Data simulasi sebaran normal ganda.

2. Data simulasi gerombol terpisah non linier

Prosiding Seminar Nasional Sains V; Bogor, 10 November 2012

53

Dalam dokumen 2012 Prosiding SNS V FMIPA IPB 2012 (Halaman 60-64)