• Tidak ada hasil yang ditemukan

DETEKSI GEROMBOL DENGAN METODE K-RATAAN KERNEL GAUSS BIMANDRA ADIPUTRA DJAAFARA

N/A
N/A
Protected

Academic year: 2021

Membagikan "DETEKSI GEROMBOL DENGAN METODE K-RATAAN KERNEL GAUSS BIMANDRA ADIPUTRA DJAAFARA"

Copied!
35
0
0

Teks penuh

(1)

DETEKS

BIMA

FAKULTAS MATE

INS

TEKSI GEROMBOL DENGAN METODE

K-RATAAN KERNEL GAUSS

BIMANDRA ADIPUTRA DJAAFARA

DEPARTEMEN STATISTIKA

ATEMATIKA DAN ILMU PENGETAHUAN AL

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(2)

ABSTRAK

BIMANDRA ADIPUTRA DJAAFARA. Deteksi Gerombol Dengan Metode k-Rataan Kernel

Gauss. Dibimbing oleh ANIK DJURAIDAH dan AJI HAMIM WIGENA.

Metode penggerombolan k-rataan tidak mampu menggerombolkan data yang terpisah secara non linier. Salah satu cara untuk menanggulangi permasalahan ini adalah dengan menggunakan fungsi kernel. Penerapan metode k-rataan di dalam ruang transformasi fungsi kernel dikenal dengan metode k-rataan kernel. Tujuan dari penelitian ini adalah untuk mengkaji nilai lebar jendela dan persentase salah klasifikasi metode k-rataan kernel pada beberapa jenis gerombol data. Data yang digunakan dalam penelitian ini terdiri dari data simulasi dan data asli. Hasil penelitian menunjukkan bahwa metode k-rataan kernel mampu menggerombolkan gerombol-gerombol yang terpisah secara linier maupun non linier sedangkan metode k-rataan hanya mampu menggerombolkan gerombol-gerombol yang terpisah secara linier. Pada data asli, metode k-rataan kernel menghasilkan persentase kesalahan klasifikasi yang lebih kecil dibandingkan metode k-rataan. Kedua metode memiliki kelemahan dalam menggerombolkan gerombol-gerombol yang memiliki anggota tumpang tindih. Penentuan lebar jendela pada fungsi kernel Gaussian sangat berpengaruh terhadap persentase salah klasifikasi. Penentuan lebar jendela dengan perkiraan kasar cukup efisien.

(3)

DETEKSI GEROMBOL DENGAN METODE

K-RATAAN KERNEL GAUSS

BIMANDRA ADIPUTRA DJAAFARA

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Statistika pada

Departemen Statistika

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

(4)

Judul Skripsi : Deteksi Gerombol Dengan Metode k-Rataan Kernel Gauss Nama : Bimandra Adiputra Djaafara

NIM : G14080025

Menyetujui:

Pembimbing I Pembimbing II

Dr. Ir. Anik Djuraidah, MS Dr. Ir. Aji Hamim Wigena M.Sc 196305151987032002 195209281977011001

Mengetahui:

Ketua Departemen Statistika

Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto, M.Si NIP 196504211990021001

(5)

KATA PENGANTAR

Alhamdulillah, segala puji penulis panjatkan kehadirat Allah SWT. atas segala karunia serta limpahan rahmat-Nya sehingga penulis bisa menyelesaikan karya ilmiah dengan judul “Deteksi Gerombol Dengan Metode k-Rataan Kernel Gauss”. Shalawat serta salam semoga selalu dilimpahkan kepada Rasulullah Muhammad SAW. beserta keluarga, sahabat dan umatnya.

Terima kasih yang sebesar-besarnya penulis sampaikan kepada semua pihak yang telah berperan besar dalam membantu penulis sehingga penulis mampu menyelesaikan karya tulis ini, antara lain:

1. Ibu Dr. Ir. Anik Djuraidah, MS. dan Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku komisi pembimbing yang telah memberikan bimbingan, arahan, serta masukan selama proses penulisan karya ilmiah ini.

2. Ibu, Mas Bram dan Inong atas doa, semangat, dan kasih sayang yang diberikan kepada penulis selama ini.

3. Raisya Noor Pertiwi atas dukungan dan doanya.

4. Bapak Dr. Ir. Hari Wijayanto, M.Si beserta seluruh staf pengajar Departemen Statistika Institut Pertanian Bogor yang telah memberikan berbagai bekal ilmu selama penulis melaksanakan studi di Institut Pertanian Bogor.

5. Seluruh staf administrasi dan karyawan Departemen Statistika yang selalu siap membantu penulis dalam menyelesaikan berbagai keperluan terkait penyelesaian karya ilmiah ini. 6. Seluruh teman-teman seperjuangan Statistika angkatan 45.

7. Budi, Fatul, Hendra, dan Silvi selaku teman satu bimbingan yang telah berjuang bersama selama ini.

8. Aji, Ibay, Andzar, Fey, Rizal, Ian, Wisnu, Hadi, Pepeng, Agus dan Dila atas segala dukungan serta bantuannya selama ini.

9. Kakak-kakak STK 44 serta adik-adik STK 46 dan STK 47. 10. Keluarga besar UKM MAX!! IPB untuk seluruh dukungan doanya.

11. Seluruh pihak yang telah memberikan dukungan doa serta motivasi dalam penyelesaian karya ilmiah ini.

Semoga Allah SWT. membalas segala kebaikan yang telah diberikan kepada penulis dan semoga karya ilmiah ini bermanfaat bagi semua orang yang membacanya.

Bogor, Juli 2012

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 9 Februari 1990. Penulis merupakan anak kedua dari dua bersaudara pasangan Alm. Adril Sjahril Djaafara dan Dina Anita Kusumastuti.

Pada tahun 2002 penulis menyelesaikan studi di SD Angkasa X Halim Perdanakusuma. Penulis melanjutkan studi di SMP Labschool Rawamangun dan lulus pada tahun 2005. Pada tahun 2008 penulis menyelesaikan studi di SMA Negeri 8 Jakarta. Penulis diterima di Departemen Statistika, Fakultas Matematikadan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB pada tahun 2008.

Penulis aktif sebagai pengurus Himpunan Profesi Statistika Gamma Sigma Beta sebagai anggota divis Database Centre pada periode 2009/2010 dan 2010/2011. Penulis juga aktif dalam berbagai kepanitiaan Himpunan Profesi seperti Statistika Ria dan Lomba Jajak Pendapat Statistika. Penulis merupakan anggota Unit Kegiatan Mahasiswa Music/Agriculture/X-Pression dan pernah menjabat sebagai General Manager pada periode kepengurusan 2010/2011. Penulis melaksanakan kegiatan praktik lapang di PT Ganesha Cipta Informatika pada bulan Februari-April 2012.

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... viii

DAFTAR GAMBAR ... viii

DAFTAR LAMPIRAN ... ix PENDAHULUAN Latar Belakang ... . 1 Tujuan ... 1 TINJAUAN PUSTAKA Analisis Gerombol ... . 1 Metode Kernel ... . 2 K-Rataan Kernel ... . 2 METODOLOGI Data Data Simulasi Sebaran Normal Ganda ... . 3

Data Simulasi Sebaran Gerombol Terpisah Non Linier ... . 4

Data Asli... . 5

Metode Penentuan Lebar Jendela Fungsi Kernel Gaussian ... . 5

Metode k-Rataan ... . 5

Metode k-Rataan Kernel ... . 5

HASIL DAN PEMBAHASAN Pemilihan Lebar Jendela Fungsi Kernel ... . 6

Kekonsistenan Metode ... . 7

Hasil Penggerombolan Gerombol Terpisah Secara Linier ... . 7

Gerombol Dengan Anggota Tumpang Tindih ... . 7

Gerombol Terpisah Secara Non Linier ... . 9

Data Asli... 11

KESIMPULAN DAN SARAN Kesimpulan ... 13

Saran... 13

DAFTAR PUSTAKA ... 13

(8)

DAFTAR TABEL

Hal 1. Parameter pada data simulasi ………... 4 2. Peubah-peubah pada data bunga iris ……….... 5 3. Peubah-peubah pada data pasien penderita kanker payudara pada Rumah Sakit

Universitas Wisconsin ………... 5 4. Persentase salah klasifikasi untuk setiap lebar jendela yang dicobakan pada

gugus data D1 ……….... 6 5. Persentase salah klasifikasi untuk setiap lebar jendela yang dicobakan pada

gugus data D22 ……….. 6 6. Persentase salah klasifikasi untuk setiap lebar jendela yang dicobakan pada

gugus data D25 ……….. 6 7. Rata-rata persentase salah klasifikasi gerombol terpisah secara linier ………… 9 8. Rata-rata persentase salah klasifikasi gerombol dengan anggota tumpang tindih 10 9. Rata-rata persentase salah klasifikasi gerombol terpisah secara non linier …….. 11 10. Rata-rata persentase salah klasifikasi data asli ……….. 11 11. Rata-rata persentase salah klasifikasi untuk beberapa nilai lebar jendela metode

k-rataan kernel pada data WISCONSIN ……… 13

DAFTAR GAMBAR

Hal 1. Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan 8 2. Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan

kernel ………. 8 3. Plot tebaran data dan hasil penggerombolan dengan metode k-rataan dan

metode k-rataan kernel pada data D16 ………..………. 9 4. Plot tebaran data dan hasil penggerombolan dengan metode k-rataan dan

metode k-rataan kernel pada data D4 ……….……… 10 5. Plot tebaran data dan hasil penggerombolan dengan metode k-rataan dan

metode k-rataan kernel pada data D25………..……….. 11 6. Biplot data asli dan hasil penggerombolan dengan metode k-rataan dan metode

k-rataan kernel pada data bunga Iris ……… 12 7. Biplot data asli dan hasil penggerombolan dengan metode k-rataan dan metode

k-rataan kernel pada data pasien penderita kanker payudara Rumah Sakit Universitas Wisconsin……… 12

(9)

DAFTAR LAMPIRAN

Hal

1. Plot tebaran data D13………..……….. 14

2. Plot tebaran data D14………..……….. 14

3. Plot tebaran data D15………..……….. 15

4. Plot tebaran data D17………..……….. 15

5. Plot tebaran data D18………..……….. 16

6. Plot tebaran data D22………..……….. 16

7. Plot tebaran data D23………..……….. 17

8. Plot tebaran data D24………..……….. 17

9. Plot tebaran data D1 ……….. 18

10. Plot tebaran data D2 ……….. 18

11. Plot tebaran data D3 ……….. 19

12. Plot tebaran data D5 ……….. 19

13. Plot tebaran data D6 ……….. 20

14. Plot tebaran data D7 ……….. 20

15. Plot tebaran data D8 ……….. 21

16. Plot tebaran data D9 ……….. 21

17. Plot tebaran data D10...……….. 22

18. Plot tebaran data D11...……….. 22

19. Plot tebaran data D12…...……….. 23

20. Plot tebaran data D19.………..……….. 23

21. Plot tebaran data D20…..……….. 24

22. Plot tebaran data D21…..……….. 24

(10)

PENDAHULUAN

Latar Belakang

Analisis gerombol merupakan suatu metode peubah ganda yang memiliki tujuan untuk mengelompokkan objek-objek ke dalam beberapa gerombol. Objek-objek di dalam satu gerombol memiliki karakteristik yang mirip sedangkan karakteristik antar gerombol berbeda (Sharma 1996). Metode ini dapat diaplikasikan dalam berbagai bidang seperti pengenalan pola, mesin pembelajaran, penambangan data dan pemrosesan citra (Tzortzis & Likas 2009). Metode analisis gerombol yang sering digunakan adalah analisis gerombol dengan metode hierarki dan metode non hierarki k-rataan.

Metode penggerombolan yang paling populer dan sederhana adalah metode k-rataan. Metode k-rataan memiliki sejarah yang bermacam-macam karena diperkenalkan di berbagai bidang yang berbeda-beda oleh banyak ahli seperti oleh Steinhaus pada tahun 1956, Ball dan Hall pada tahun 1965 dan MacQueen pada tahun 1967. Algoritma penggerombolan k-rataan bertujuan untuk meminimumkan kuadrat galat antara pusat gerombol yang terbentuk dengan masing-masing anggota gerombolnya (Jain 2010). Salah satu kelemahan yang dimiliki analisis gerombol dengan metode k-rataan adalah hanya memilliki kemampuan untuk mengidentifikasi gerombol yang terpisah secara linier (Tzortzis & Likas 2009). Kelemahan tersebut juga dimiliki oleh analisis gerombol hierarki. Pengimplementasian metode-metode analisis gerombol tersebut pada dunia nyata mengalami banyak kesulitan karena pada umumnya fenomena-fenomena yang terjadi di alam tidak selalu terpisah secara linier.

Pada suatu permasalahan non linier, transformasi data ke bentuk linier merupakan cara yang lebih efisien dibandingkan mencari fungsi non linier yang kompleks. Salah satu cara transformasi tersebut adalah dengan menggunakan fungsi kernel. Fungsi kernel dapat dipandang sebagai suatu transformasi non linier yang meningkatkan kemampuan pemisahan data dengan memetakan data awal ke dalam suatu ruang baru yang berdimensi tinggi. Transformasi ini diharapkan dapat memisahkan data secara linier dalam ruang baru tersebut.

Girolami (2002) memperkenalkan metode penggerombolan dengan menggunakan transformasi fungsi kernel. Metode ini mengalami perkembangan pesat hingga saat

ini. Perkembangan metode tersebut menghasilkan banyak metode penggerombolan baru yang menggunakan fungsi kernel sebagai fungsi transformasi non linier. Salah satu hasil pengembangan metode tersebut adalah metode k-rataan kernel. Metode k-rataan kernel adalah penerapan algoritma k-rataan dalam ruang transformasi non linier menggunakan fungsi kernel. Metode ini diharapkan mampu memisahkan gerombol secara linier di dalam ruang baru hasil transformasi fungsi kernel.

Tujuan

Penelitian ini bertujuan untuk:

1. Mengkaji penggerombolan dengan metode k-rataan kernel ke dalam beberapa kondisi gerombol data yaitu gerombol-gerombol yang terpisah secara linier, terpisah secara non linier, dan gerombol-gerombol dengan anggota yang tumpang tindih.

2. Menerapkan analisis gerombol dengan metode k-rataan kernel pada gugus data bunga Iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin.

3. Membandingkan hasil penggerombolan metode k-rataan kernel dengan hasil penggerombolan metode k-rataan.

TINJAUAN PUSTAKA

Analisis Gerombol

Analisis gerombol bertujuan untuk mengelompokkan objek-objek data ke dalam gerombol-gerombol yang homogen (Tzortzis & Likas 2009). Pembagian gerombol didasari oleh suatu ukuran kemiripan atau ketidakmiripan Beberapa ukuran ketidakmiripan yang sering digunakan dalam analisis gerombol adalah jarak Euclid, jarak Mahalanobis, dan jarak Manhattan. Data yang dibutuhkan untuk analisis gerombol dapat berupa ukuran-ukuran kemiripan/ ketidakmiripan antar objek atau data asli yang dapat dihitung ukuran kemiripan/ ketidakmiripannya (Johnson & Wichern 2007).

Secara umum analisis gerombol dapat dikelompokkan menjadi dua kategori:

1. Analisis gerombol hierarki 2. Analisis gerombol non hierarki

Analisis gerombol hierarki biasa digunakan bila jumlah gerombol awal tidak diketahui dan secara umum terdiri dari dua metode yaitu metode agglomerative dan divisive. Hasil dari analisis gerombol hierarki dipresentasikan dalam bentuk diagram yang disebut

(11)

dendogram. Beberapa teknik penggerombolan metode hierarki adalah pautan tunggal, pautan lengkap dan pautan rataan.

Analisis gerombol non hierarki digunakan jika jumlah gerombol awal sudah diketahui atau data yang tersedia berukuran sangat besar. Metode analisis gerombol non hierarki yang sering digunakan adalah metode k-rataan. Misalkan , , … ,  adalah segugus data dengan p peubah. Pada metode k-rataan n buah data akan dikelompokkan ke dalam K buah gerombol , , … ,  dengan nilai tengah dari tiap gerombol , , … ,  sebagai pusat dari masing-masing gerombol. Algoritma metode k-rataan adalah sebagai berikut:

1. Tentukan K buah titik tengah gerombol awal.

2. Tempatkan setiap objek  untuk nilai 1,2,3, … ,  ke gerombol yang memiliki jarak titik tengah gerombol paling dekat terhadap objek sehingga terbentuk K buah gerombol. Selanjutnya tentukan nilai dari fungsi indikator ,  untuk nilai  1,2,3, … , .

,  1 0 selainnya ,   , ,  ( dengan ,  adalah jarak Euclid antara objek  dengan titik tengah gerombol .

3. Hitung titik tengah  untuk setiap gerombol .  |*

+|∑ ,  

- 

dimana || adalah banyaknya anggota pada gerombol .

4. Ulangi langkah 2 dan 3 hingga konvergen. 5. Hitung nilai akhir bagi  untuk nilai

 1,2,3, … , 

Metode Kernel

Metode kernel adalah suatu alat pemodelan non parametrik yang sangat handal. Setiap metode kernel secara umum memiliki dua bagian utama. Bagian pertama adalah sebuah modul yang mentransformasikan data dari ruang awal ke dalam ruang baru yang berdimensi tinggi. Bagian kedua adalah suatu algoritma yang berfungsi untuk menemukan pola linier di dalam ruang baru yang terbentuk (Shawe-Taylor & Cristianini 2004). Metode ini sering disebut juga sebagai kernel trick.

Misalkan , , … ,  adalah segugus data berukuran n dengan  . /0 dan 1 adalah sebuah fungsi pemetaan yang memetakan  dari ruang awal /0 ke dalam ruang baru yaitu 2 maka:

3,  1 · 1

Satu hal yang penting dari fungsi kernel adalah bentuk konkrit dari 1 tidak diketahui, sehingga transformasi didefinisikan secara implisit. Beberapa fungsi kernel yang biasa digunakan adalah:

Polinomial: 3,  · 5 16 Radial: 3,  789 :;<=; => Gaussian: 3,  789 :;?@=; =>

Pemilihan fungsi kernel yang digunakan sangat spesifik terhadap data. Namun dalam berbagai kasus spesifik dalam pemisahan data, fungsi kernel yang memiliki kemampuan pendugaan yang baik secara umum adalah fungsi kernel berbasis radial (Girolami 2002).

Penentuan lebar jendela yang tepat untuk fungsi kernel Gaussian merupakan hal yang sangat penting. Pemilihan lebar jendela tepat akan meningkatkan ketepatan dari algoritma yang akan diterapkan dalam ruang transformasi. Padafungsi kernel Gaussian yang memiliki bentuk umum 789 :;A=; =>, lebar jendela A yang optimum dapat dihitung menggunakan perkiraan kasar dengan rumus:

1

A B7C D,-,…,C8, 8 atau

1

A B7D,-,…,C8, 8

Metode perkiraan kasar ini didasarkan pada sifat dari kurva kuadrat eksponensial yang memiliki titik penurunan yang paling kuat ketika nilai eksponennya adalah -1 (Lampert 2009).

Beberapa kelemahan utama dari fungsi kernel adalah:

1. Hilangnya beberapa sifat dari ruang yang baru (seperti: dimensi dan selang nilai) karena tidak adanya bentuk yang eksplisit dari 1.

2. Penentuan bentuk kernel yang sesuai untuk suatu data harus diketahui melalui eksperimen.

3. Penggunaan fungsi kernel membuat proses komputasi dan biaya penyimpanan meningkat dengan sangat besar (Zhang & Rudnicky 2002).

K-Rataan Kernel

Metode k-rataan kernel merupakan bentuk khusus dari algoritma k-rataan dengan titik-titik data dipetakan terlebih dahulu dari ruang awal ke dalam ruang khusus melalui transformasi non linier 1. Selanjutnya algoritma k-rataan diterapkan dalam ruang khusus tersebut. Hal ini akan menghasilkan pemisah linier di dalam ruang khusus yang

(12)

menyerupai pemisah non linier di ruang awal (Tzortzis & Likas 2009).

Jika E 1 menunjukkan transformasi dari  maka jarak Euclid antara E dan E adalah:

E, E =1 ; 1=

1 ; 21 · 1 5 1 3,  ; 23,  5 3,  F adalah titik tengah gerombol dalam ruang yang telah ditransformasi:

F |1

| G E, E 

-

dengan E,  adalah fungsi indikator. Jarak antara E dan F dapat dihitung dengan cara: E, F HE; 1 || G E, E  - H  3,  5 I,  5 J K1L dengan I,  ;|2 | G E, 3,   - J |1 |G G ,M,  M-  - 3, M , N,  M, NM, 

Dengan mengaplikasikan persamaan [1] ke dalam algoritma k-rataan maka akan didapatkan suatu algoritma k-rataan kernel sebagai berikut:

1. Tetapkan nilai awal untuk E,  untuk nilai 1,2,3, … ,  dan  1,2,3, … ,  sehingga terbentuk K buah gerombol , , … , .

2. Untuk setiap gerombol  hitunglah || dan J.

3. Untuk setiap  dan gerombol  hitunglah I,  lalu tempatkan  pada gerombol terdekat: ,  O P Q 1 I,  5 J  I,  5 J untuk semua    0 selainnya ( 4. Ulangi langkah 2 dan 3 hingga konvergen. 5. Untuk setiap gerombol  pilih sebuah

anggota gerombol yang memiliki jarak terdekat dengan titik tengah gerombol sebagai wakil dari gerombol  arg B X, YEX,*+- 1, F. Suku 3,  pada persamaan [1] diabaikan pada saat pembentukan fungsi indikator karena faktor tersebut tidak berkontribusi dalam penentuan gerombol terdekat. Langkah 5 dalam algoritma menjelaskan penentuan titik tengah dari gerombol yang direpresentasikan dengan titik

tengah semu karena titik tengah gerombol tidak dapat dinyatakan secara eksplisit dalam ruang transformasi (Zhang & Rudnicky 2002).

METODOLOGI

Data

Data gerombol yang digunakan dalam penelitian ini ada tiga macam, yaitu:

1. Data simulasi sebaran normal ganda. 2. Data simulasi gerombol terpisah non linier 3. Data asli

Data Simulasi Sebaran Normal Ganda

Data simulasi sebaran normal ganda dibangkitkan dengan menggunakan fungsi mvrnorm pada program R versi 2.14.0. Data yang dibangkitkan digunakan untuk melihat efektivitas metode penggerombolan terhadap gerombol yang memiliki anggota tumpang tindih dan gerombol yang terpisah secara linier secara berdekatan maupun berjauhan. Setiap kasus simulasi terdiri atas dua gerombol yang dibangkitkan menggunakan sebaran normal ganda dengan dua peubah (X dan Y). Setiap gerombol terdiri atas 300 amatan.

Parameter-parameter yang harus ditentukannsebelum melakukan simulasi data sebaran normal ganda adalah:

1. Vektor rataan untuk masing-masing gerombol.

2. Ragam masing-masing peubah pada masing-masing gerombol.

3. Korelasi antar peubah pada setiap gerombol.

Parameter selengkapnya untuk data simulasi dengan sebaran normal ganda disajikan pada Tabel 1.

Secara keseluruhan terdapat 24 buah kasus data simulasi yang dibangkitkan dengan sebaran normal ganda dengan Z menyatakan ragam peubah ke-i pada gerombol ke-k untuk 1,2 dan  1,2. Kasus D1-D3 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam homogen Z 4. Kasus D4-D6 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam homogen Z 9. Kasus D7-D9 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam homogen Z 25. Kasus D10-D12 berisi gerombol dengan vektor rataan berbeda berjarak kecil dan matriks ragam peragam tidak homogen Z 4, Z 9. Kasus D13-D15 berisi gerombol dengan vektor rataan berbeda berjarak besar dan

(13)

matriks ragam peragam homogen Z 4. Kasus D16-D18 berisi gerombol dengan vektor rataan berbeda berjarak besar dan matriks ragam peragam homogen Z 9. Kasus D19-D21 berisi gerombol dengan vektor rataan berbeda berjarak besar dan matriks ragam peragam homogen Z 25. Kasus D22-D24 berisi gerombol dengan vektor rataan berbeda berjarak besar dan matriks ragam peragam tidak homogen Z 4, Z 9. Tabel 1 Parameter pada data simulasi

Data ^_, ^` ab` c D1 d 10,10 d 15,10 4 0.1 D2 0.5 D3 0.9 D4 9 0.1 D5 0.5 D6 0.9 D7 25 0.1 D8 0.5 D9 0.9 D10 Z  4 Z 9 0.1 D11 0.5 D12 0.9 D13 d 10,10 d 25,10 4 0.1 D14 0.5 D15 0.9 D16 9 0.1 D17 0.5 D18 0.9 D19 25 0.1 D20 0.5 D21 0.9 D22 Z  4 Z 9 0.1 D23 0.5 D24 0.9

Algoritma untuk membangkitkan data dengan sebaran normal ganda e~gh^, i dengan e matriks berukuran n x p, ^ vektor kolom berukuran p dan i matriks ragam peragam definit positif berukuran p x p adalah: 1. Bangkitkan j~gh0, k dengan cara membangkitkan peubah acak j, j, … , jh yang masing-masing menyebar normal dengan rataan 0 dan simpangan baku 1. Selanjutnya gabungkan j, j, … , jh menjadi matriks j berukuran n x p. 2. Tentukan ragam dari masing-masing

peubah e, e, … , eh yaitu Z, Z, … , Zh. 3. Tentukan korelasi antar peubah

e, e, … , eh yaitu l,, l,m, … , lhn,h. 4. Hitung nilai peragam antar peubah

e, e, … , eh yaitu Z,, Z,m, … , Zhn,h

dengan menggunakan rumus Z, l, 8 oZ 8 Z.

5. Dari nilai ragam dan peragam yang ada, bentuk matriks ragam peragam i.

6. Lakukan dekomposisi spektral terhadap matriks i sehingga didapatkan i pqpr dengan kolom-kolom dari s merupakan vektor ciri dari i dan q adalah matriks diagonal yang berisi akar ciri dari i. 7. Definisikan t sq/j sehingga

t~gh0, i.

8. Dengan mendifinisikan e t 5 ^ maka didapatkan e~gh^, i.

Data Simulasi Gerombol Terpisah Non Linier

Data simulasi gerombol terpisah non linier dibangkitkan dengan menggunakan fungsi rnorm dan mvrnorm pada program R versi 2.14.0. Data simulasi gerombol terpisah non linier terdiri dari dua kasus. Kasus D25 berisi gerombol berbentuk lingkaran dengan gerombol lain berada di pusat lingkaran. Kasus D26 berisi gerombol yang berbentuk persegi dengan gerombol lain yang juga berbentuk persegi berada di pusat gerombol pertama. Setiap kasus simulasi terdiri atas dua gerombol dengan dua peubah (X dan Y). Setiap gerombol terdiri atas 300 amatan.

Data simulasi gerombol terpisah non linier kasus D25 dibangkitkan dengan cara:

1. Bangkitkan data peubah X dan Y dengan menggunakan persamaan lingkaran. 2. Masing-masing nilai peubah X dan Y

ditambahkan dengan galat yang menyebar normal.

3. Bangkitkan data peubah X dan Y yang menyebar normal ganda dengan vektor nilai tengah merupakan pusat lingkaran gerombol pertama.

Data simulasi gerombol terpisah non linier kasus D26 dibangkitkan dengan cara:

1. Bangkitkan nilai variabel X yang berurutan dari – 9 sampai 9 dengan nilai Y konstan yaitu – 9 dan 9 sebagai sisi horizontal. 2. Bangkitkan nilai variabel Y yang berurutan

dari – 9 sampai 9 dengan nilai X konstan yaitu – 9 dan 9 sebagai sisi horizontal. 3. Masing-masing nilai variabel X dan Y

ditambahkan galat yang menyebar normal. 4. Ulangi langkah 1-3 dengan nilai 9 yang

lebih kecil sebagai gerombol kedua. Bangkitkan sisi vertikal secara berulang untuk setiap nilai X yang berurutan dari – 9

(14)

sampai 9 sehingga terbentuk data berbentuk persegi yang penuh.

Data Asli

Data asli yang digunakan dalam penelitian ini terdiri dari dua buah gugus data yaitu gugus data bunga Iris (Fisher 1936) dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin (Mangasarian et al. 1990). Gugus data bunga Iris memiliki 150 objek, empat peubah, dan tiga buah gerombol spesies bunga Iris yaitu Iris setosa, Iris versicolor, dan Iris virginica. Gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin memiliki 683 objek, sembilan peubah, dan dua buah gerombol jenis tumor yaitu tumor jinak dan tumor ganas. Keterangan lengkap mengenai seluruh peubah yang terdapat pada gugus data bunga iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin disajikan pada Tabel 2 dan Tabel 3.

Tabel 2 Peubah-peubah pada data bunga Iris Peubah Keterangan

X1 Panjang kelopak (cm) X2 Lebar kelopak (cm) X3 Panjang mahkota (cm) X4 Lebar mahkota (cm)

Tabel 3 Peubah-peubah pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin Peubah Keterangan

X1 Ketebalan gumpalan (1-10) X2 Keseragaman ukuran sel (1-10) X3 Keseragaman bentuk sel (1-10) X4 Kelekatan ujung-ujung sel (1-10) X5 Ukuran sel epitel tunggal (1-10) X6 Inti telanjang (1-10)

X7 Kromatin halus (1-10) X8 Nukleus normal (1-10) X9 Mitosis (1-10)

Metode

Penelitian ini menggunakan dua metode penggerombolan. Kedua metode yang digunakan adalah metode k-rataan dan metode k-rataan kernel dengan menggunakan fungsi kernel Gaussian.

Penentuan Lebar Jendela Fungsi Kernel Gaussian

Tahapan metode untuk membuktikan bahwa rumus perkiraan kasar merupakan metode penentuan lebar jendela yang efisien untuk fungsi kernel Gaussian adalah:

1. Hitung nilai lebar jendela dari gugus data D1, D22, dan D25 dengan perkiraan kasar: 

w B7D,-,…,C8, 8.

2. Hitung persentase salah klasifikasi masing-masing gugus data D1, D22, dan D25 dengan menggunakan lebar jendela yang dihitung dengan perkiraan kasar.

3. Hitung persentase salah klasifikasi masing-masing gugus data D1, D22, dan D25 dengan menggunakan lebar jendela 0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, dan 5.

4. Bandingkan seluruh nilai persentase salah klasifikasi yang dihasilkan oleh semua lebar jendela pada masing-masing gugus data.

Metode k-Rataan

Algoritma penggunaan metode k-rataan untuk diterapkan pada data simulasi dan data asli adalah sebagai berikut:

1. Tentukan K buah pusat gerombol awal , , … , .

2. Hitung jarak Euclid dari setiap objek terhadap masing-masing pusat gerombol , .

3. Tempatkan setiap objek  pada gerombol yang memiliki jarak antara objek dengan pusat gerombol paling dekat.

4. Hitung pusat gerombol , , … ,  yang baru dengan menghitung rata-rata dari seluruh objek di dalam gerombol. 5. Lakukan langkah 2, 3, dan 4 hingga

konvergen.

6. Catat persentase salah klasifikasi dari hasil penggerombolan.

7. Ulangi langkah 1-6 sebanyak tiga puluh kali.

Metode k-Rataan Kernel

Algoritma penggunaan metode k-rataan kernel untuk diterapkan pada data simulasi dan data asli adalah sebagai berikut:

1. Tentukan nilai lebar jendela fungsi kernel Gaussian dengan menggunakan perkiraan kasar.

2. Tempatkan secara acak setiap objek ke dalam gerombol-gerombol yang tersedia. 3. Hitung jarak antara objek dengan pusat

gerombol di dalam ruang transformasi

E

, F xE;|*+|∑y-E, Ex 

. 4. Tempatkan setiap objek  pada gerombol

yang memiliki jarak antara objek dengan pusat gerombol dalam ruang transformasi paling dekat.

5. Lakukan langkah 3 dan 4 hingga konvergen.

(15)

6. Catat persentase salah klasifikasi dari hasil penggerombolan.

7. Ulangi langkah 2-6 sebanyak tiga puluh kali.

HASIL DAN PEMBAHASAN

Penentuan Lebar Jendela Fungsi Kernel

Penentuan lebar jendela fungsi kernel Gaussian merupakan hal yang sangat penting untuk mendapatkan hasil penggerombolan yang baik. Pemilihan lebar jendela dapat dilakukan dengan memasukkan nilai-nilai secara berurutan hingga didapatkan hasil penggerombolan sesuai dengan yang diinginkan. Namun cara tersebut tidak efisien karena akan memerlukan banyak waktu. Salah satu cara yang dapat digunakan untuk menentukan lebar jendela fungsi kernel Gaussian yang efisien adalah dengan perkiraan kasar: w B7D,-,…,C8, 8.

Gugus data D1, D22, dan D25 digunakan untuk membuktikan keefisienan perkiraan kasar. Masing-masing gugus data merupakan perwakilan jenis-jenis gugus data yang disimulasikan. Lebar jendela untuk gugus data D1, D22, dan D25 dengan menggunakan perkiraan kasar secara berturut-turut adalah 1.5289, 2.2516, dan 1.4921. Persentase salah klasifikasi penggerombolan untuk seluruh nilai lebar jendela yang dicobakan pada gugus data D1, D22, dan D25 tertera pada Tabel 4, Tabel 5, dan Tabel 6.

Pada gugus data D1 didapatkan persentase salah klasifikasi minimum sebesar 11.83% pada saat lebar jendela 2. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 12.67%. Pada gugus data D22 didapatkan persentase salah klasifikasi minimum sebesar 0% pada saat lebar jendela 3, 3.5, dan 4. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 1.33%. Pada gugus data D25 didapatkan persentase salah klasifikasi minimum sebesar 0% pada saat lebar jendela 2, 2.5, 3, dan 3.5. Persentase salah klasifikasi dengan lebar jendela yang dihitung menggunakan perkiraan kasar sebesar 0.33%. Hasil persentase salah klasifikasi yang dihasilkan oleh lebar jendela yang dihitung dengan perkiraan kasar bukan merupakan persentase salah klasifikasi yang paling minimum dari setiap gugus data. Namun perbedaannya dengan nilai persentase salah klasifikasi minimum pada setiap gugus data sangat kecil. Hal ini menunjukkan bahwa perkiraan kasar merupakan cara yang cukup

efisien untuk menentukan lebar jendela fungsi kernel Gaussian.

Tabel 4 Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D1

Lebar

Jendela Persentase Salah Klasifikasi

0.5 39.67 1 28.33 1.5 17.67 2 11.83 2.5 12.33 3 12.50 3.5 12.00 4 12.17 4.5 12.17 5 12.17 1.5389* 12.67

Keterangan: * dihitung dengan perkiraan kasar

Tabel 5 Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D22

Lebar

Jendela Persentase Salah Klasifikasi

0.5 40.33 1 31.17 1.5 8.5 2 3.17 2.5 0.67 3 0 3.5 0 4 0 4.5 0.17 5 0.17 2.2516* 1.33

Keterangan: * dihitung dengan perkiraan kasar

Tabel 6 Persentase salah klasifikasi untuk beberapa lebar jendela pada gugus data D25

Lebar

Jendela Persentase Salah Klasifikasi

0.5 17.33 1 1.83 1.5 0.33 2 0 2.5 0 3 0 3.5 0 4 25.50 4.5 25.83 5 25.83 1.4921* 0.33

(16)

Konsistensi Metode

Pada masing-masing metode dilakukan ulangan sebanyak tiga puluh kali untuk masing-masing data simulasi. Pengulangan digunakan untuk mengetahui konsistensi hasil penggerombolan dari masing-masing metode. Konsistensi hasil penggerombolan perlu diukur karena penetapan keanggotaan gerombol awal untuk masing-masing objek sangat berpengaruh terhadap hasil akhir dari penggerombolan. Konsistensi metode ditentukan berdasarkan selang persentase salah klasifikasi dari tiga puluh kali ulangan pada masing-masing kasus data simulasi. Jika nilai maksimum dan minimum dari persentase salah klasifikasi tidak berbeda terlalu jauh dapat dikatakan bahwa metode tersebut konsisten.

Hasil akhir penggerombolan dengan metode k-rataan dan k-rataan kernel juga ditentukan oleh inisialisasi nilai awal pusat-pusat gerombol. Pada kenyataannya nilai pusat-pusat awal gerombol sulit untuk ditentukan sehingga sering digunakan objek-objek yang dipilih secara acak sebagai pusat-pusat gerombol awal. Diagram kotak garis pada Gambar 1 dan Gambar 2 menggambarkan sebaran persentase salah klasifikasi dari tiga puluh ulangan untuk masing-masing metode pada tiap gugus data simulasi D1-D26.

Diagram kotak garis pada Gambar 1 menunjukkan bahwa metode k-rataan merupakan metode yang memberikan hasil akhir penggerombolan yang konsisten. Sebagian besar hasil penggerombolan memberikan nilai yang sama pada setiap ulangannya. Hanya beberapa contoh data simulasi yang menghasilkan variasi hasil akhir penggerombolan namun tidak memiliki perbedaan yang signifikan.

Diagram kotak garis pada Gambar 2 menunjukkan bahwa metode k-rataan kernel memberikan hasil penggerombolan yang tidak konsisten pada beberapa gugus data. Gugus data dengan hasil penggerombolan yang tidak konsisten adalah gugus data simulasi dengan gerombol-gerombol yang memiliki anggota yang tumpang tindih. Konsistensi hasil penggerombolan dapat dilihat pada gugus data dengan gerombol terpisah secara linier (D13, D14, D15, D16, D17, D18, D22, D23 dan D24) dan gugus data dengan gerombol terpisah secara non linier (D25 dan D26).

Hasil Penggerombolan

Metode analisis gerombol yang baik akan memberikan persentase salah klasifikasi yang kecil. Analisis mengenai kebaikan

penggerombolan juga dilakukan dengan melakukan plot data hasil penggerombolan. Plot tersebut digunakan untuk melihat kemampuan tiap metode untuk mengenali pola yang ada pada data.

Gerombol Terpisah Secara Linier

Persentase salah klasifikasi yang kecil dihasilkan oleh kedua metode pada gugus data D13, D14, D15, D16, D17, D18, D22, D23 dan D24. Karakteristik utama dari gugus-gugus data tersebut adalah memiliki jarak antar pusat gerombol yang jauh serta memiliki keragaman data yang kecil sehingga gerombol-gerombol yang dihasilkan benar-benar terpisah secara linier. Persentase salah klasifikasi yang kecil untuk kedua metode menunjukkan bahwa metode k-rataan dan metode k-rataan kernel mampu menggerombolkan sembilan gugus data tersebut dengan sangat baik. Kesalahan klasifikasi yang terjadi disebabkan beberapa data yang menyebar terlalu jauh dari pusat gerombol asli sehingga terklasifikasi sebagai anggota gerombol yang lain. Persentase salah klasifikasi untuk sembilan gugus data tersebut dapat dilihat pada Tabel 7. Ilustrasi mengenai hasil penggerombolan dengan kedua metode dapat dilihat pada Gambar 3. Persentase salah klasifikasi yang kecil dari kedua metode dan konsistensi hasil penggerombolan kedua metode menunjukkan bahwa kedua metode mampu bekerja dengan baik pada data yang terpisah secara linier. Plot tebaran data dan hasil penggerombolan untuk gugus data D13, D14, D15, D17, D18, D22, D23, dan D24 selengkapnya tertera pada Lampiran 1 sampai Lampiran 8.

Gerombol Dengan Anggota Tumpang

Tindih

Gugus data D1-D12 merupakan gugus-gugus data yang memiliki jarak antar pusat gerombol yang kecil sehingga membesarnya ragam peubah-peubahnya akan membuat semakin banyak tumpang tindih anggota gerombol. Gugus data D19-D21 memiliki jarak antar pusat gerombol yang besar namun masing-masing gerombol memiliki ragam yang besar juga sehingga terjadi tumpang tindih anggota gerombol. Gugus data D1-D12 dan D19-D21 merupakan gugus-gugus data dengan anggota yang tumpang tindih. Rata-rata persentase salah klasifikasi untuk gugus-gugus data tersebut tersedia pada Tabel 8. Ilustrasi penggerombolan oleh kedua metode tersedia pada Gambar 4.

(17)

Gambar 1 Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan

Gambar 2 Diagram kotak garis persentase salah klasifikasi data simulasi metode k-rataan kernel

Persentase salah klasifikasi yang besar dihasilkan metode k-rataan pada gugus data D1-D12. Persentase salah klasifikasi juga semakin meningkat ketika ragam peubah-peubah pada masing-masing gerombol diperbesar. Karakteristik penggerombolan dengan metode k-rataan yang hanya mampu memisahkan secara linier membuat pemisahan gerombol dilakukan tepat di tengah-tengah. Hal tersebut menyebabkan salah klasifikasi bagi anggota-anggota gerombol yang tumpang tindih. Gugus data D19-D21 memiliki persentase salah klasifikasi metode k-rataan cukup baik. Hal ini disebabkan jarak antar gerombol pada gugus-gugus data tersebut memiliki jarak antar pusat gerombol yang jauh. Salah klasifikasi disebabkan objek-objek

yang tumpang tindih karena ragam peubahnya yang besar.

Metode k-rataan kernel menghasilkan hasil salah klasifikasi yang tidak jauh berbeda dengan metode k-rataan ketika diterapkan pada gerombol-gerombol yang memiliki anggota tumpang tindih. Persentase salah klasifikasi yang cukup besar menunjukkan bahwa metode k-rataan kernel juga tidak dapat menggerombolkan dengan baik jika terdapat anggota gerombol yang tumpang tindih. Metode k-rataan kernel juga memperlihatkan hasil yang tidak konsisten jika diterapkan pada gerombol-gerombol yang memiliki anggota yang tumpang tindih. Hal tersebut dapat terlihat dari nilai minimum dan maksimum dari persentase salah klasifikasi yang berbeda cukup jauh. Dari ilustrasi pada

(18)

Tabel 7 Rata-rata persentase salah klasifikasi gerombol terpisah secara linier

Data d, d Z l k-Rataan k-Rataan Kernel D13 d 10,10 d 25,10 4 0.1 0.00 0.00 D14 0.5 0.00 0.00 D15 0.9 0.00 0.00 D16 9 0.1 0.67 1.09 D17 0.5 0.00 0.79 D18 0.9 0.50 2.17 D22 Z  4 Z 9 0.1 0.33 1.33 D23 0.5 1.17 2.53 D24 0.9 0.17 1.06

Gambar 3 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D16, (b) Hasil penggerombolan metode k-rataan pada data D16, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D16

Gambar 4, terlihat bahwa metode k-rataan kernel memiliki cara pemisahan gerombol yang berbeda dengan metode k-rataan. Metode k-rataan kernel tidak langsung memisahkan gerombol dengan suatu garis lurus. Posisi gerombol-gerombol yang dihasilkan juga tidak selalu sama. Hasil penggerombolan yang tidak konsisten dan perubahan posisi gerombol di setiap ulangan diduga karena inisialisasi anggota gerombol awal yang berbeda-beda. Plot tebaran data dan hasil penggerombolan untuk gugus data D1, D2, D3, D5, D6, D7, D8, D9, D10, D11, D12, D19, D20, dan D21 selengkapnya tertera pada Lampiran 9 sampai Lampiran 22.

Gerombol Terpisah Secara Non Linier

Gugus data D25 dan D26 merupakan gugus data dengan gerombol yang terpisah secara non linier. Perbedaan dari kedua gugus data tersebut adalah pada bentuk data. Gugus data D25 memiliki bentuk gerombol berupa lingkaran sedangkan gugus data D26 memiliki bentuk gerombol berupa persegi. Perbedaan bentuk gerombol ini digunakan untuk melihat kemampuan penggerombolan metode k-rataan kernel Gauss. Pola-pola yang terbentuk dari penggerombolan pada data-data gerombol yang terpisah secara linier maupun gerombol dengan anggota tumpang tindih memperlihatkan kecenderungan gerombol

(19)

Tabel 8 Rata-rata persentase salah klasifikasi gerombol dengan anggota tumpang tindih Data d, d Z l k-Rataan k-Rataan Kernel

D1 d 10,10 d 15,10 4 0.1 12.37 14.55 D2 0.5 13.50 13.06 D3 0.9 18.00 4.42 D4 9 0.1 22.50 34.13 D5 0.5 25.67 28.41 D6 0.9 29.80 27.47 D7 25 0.1 30.11 40.61 D8 0.5 34.50 39.61 D9 0.9 38.83 44.93 D10 Z  4 Z 9 0.1 16.17 17.97 D11 0.5 21.83 22.65 D12 0.9 28.67 16.68 D19 d  10,10 d 25,10 25 0.1 7.50 21.10 D20 0.5 8.17 20.16 D21 0.9 11.50 19.98

Gambar 4 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D4, (b) Hasil penggerombolan metode k-rataan pada data D4, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D4

yang dibentuk oleh metode k-rataan kernel Gauss memiliki pola lingkaran.

Persentase salah klasifikasi untuk gerombol yang terpisah secara non linier dapat dilihat pada Tabel 9. Rata-rata persentase salah klasifikasi dari metode k-rataan kernel Gauss pada gugus data D25 dan D26 adalah sebesar 0.33% dan 0.07% sedangkan rata-rata

persentase salah klasifikasi metode k-rataan pada kedua gugus data tersebut adalah sebesar 28.27% dan 49.57%. Pada Gambar 5 terlihat bahwa metode k-rataan hanya memisahkan gerombol pada gugus data D25 secara linier dengan garis lurus sedangkan penggerombolan metode k-rataan kernel mampu membaca

(20)

Gambar 5 Plot tebaran data dan hasil penggerombolan: (a) Gerombol asli data D25, (b) Hasil penggerombolan metode k-rataan pada data D25, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D25

pola lingkaran data sehingga mampu memisahkan kedua gerombol dengan sangat baik. Hal ini menunjukkan bahwa metode k-rataan kernel mampu menggerombolkan objek-objek pada gerombol yang terpisah secara non linier dengan baik sedangkan metode k-rataan tidak mampu menggerombolkannya dengan baik. Plot tebaran data dan hasil penggerombolan untuk gugus data D26 tertera pada Lampiran 23.

Tabel 9 Rata-rata persentase salah klasifikasi gerombol terpisah secara non linier Data k-Rataan k-Rataan Kernel D25 28.27 0.33 D26 49.57 0.07

Data Asli

Data asli yang digunakan dalam penelitian ini adalah gugus data bunga Iris dan gugus data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin. Pada masing-masing gugus data dilakukan penggerombolan dengan metode k-rataan dan k-rataan kernel.Rata-rata persentase salah klasifikasi untuk metode k-rataan dan metode k-rataan kernel tersedia pada Tabel 10. Tabel 10 Rata-rata persentase salah klasifikasi

data asli

Data k-Rataan k-Rataan Kernel IRIS 4.41 26.36 WISCONSIN 3.81 2.93

(21)

Penerapan metode k-rataan terhadap data asli bunga Iris menunjukkan hasil yang sangat baik dengan rata-rata persentase salah klasifikasi sebesar 4.41%. Sebaliknya, penerapan metode k-rataan kernel terhadap data bunga Iris menunjukkan hasil yang sangat buruk dengan persentase salah klasifikasi sebesar 26.36%. Hasil ini bertolak belakang dengan hasil-hasil penggerombolan pada data simulasi. Seharusnya metode k-rataan kernel memberikan hasil yang sama baiknya atau bahkan lebih baik dari metode k-rataan.

Pada pembahasan awal dijelaskan bahwa penentuan nilai lebar jendela sangat berpengaruh terhadap hasil penggerombolan dengan metode k-rataan kernel. Rumus perkiraan kasar digunakan untuk menentukan lebar jendela dari masing-masing kasus. Pada kasus data asli bunga Iris didapatkan lebar jendela untuk fungsi kernel Gaussian sebesar 2.2342. Berdasarkan hasil pembahasan di awal, beberapa nilai lebar jendela dipilih, yaitu 1, 2, 3, 4, 5, 6, 7 dan 8. Hasil persentase salah klasifikasi pada Tabel 11 memperlihatkan bahwa pada lebar jendela 6 didapatkan rata-rata persentase salah klasifikasi sebesar 3.33%. Persentase salah klasifikasi ini lebih kecil dibandingkan persentase salah klasifikasi metode k-rataan. Hal ini menunjukkan bahwa

nilai lebar jendela yang digunakan pada fungsi kernel Gaussian sangat berpengaruh terhadap hasil penggerombolan. Pada kasus ini perkiraan kasar ternyata tidak terlalu efektif dalam penentuan lebar jendela pada fungsi kernel Gaussian.

Visualisasi hasil penggerombolan dengan biplot untuk penerapan metode k-rataan dan metode k-rataan kernel pada data asli bunga Iris dapat dilihat pada Gambar 6. Pada biplot tampak bahwa kedua metode mampu menggerombolkan objek-objek pada data asli bunga Iris dengan baik.

Penerapan metode k-rataan terhadap data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin menunjukkan hasil yang sangat baik.. Rata-rata persentase salah klasifikasi dengan metode k-rataan adalah sebesar 3.81%. Penerapan metode k-rataan kernel terhadap data asli bunga Iris dan data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin juga menunjukkan hasil yang sangat baik dengan rata-rata persentase salah klasifikasi sebesar 2.93%. Gambar 7 menunjukkan visualisasi hasil penggerombolan dengan biplot untuk penerapan metode k-rataan dan k-rataan kernel pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin.

Gambar 6 Biplot hasil penggerombolan (a) Data asli bunga Iris, (b) Hasil penggerombolan dengan metode k-rataan, dan (c) Hasil penggerombolan dengan metode k-rataan kernel

Gambar 7 Biplot hasil penggerombolan (a) Data asli pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin, (b) Hasil penggerombolan dengan metode k-rataan, dan (c) Hasil penggerombolan dengan metode k-rataan kernel

(22)

Pada biplot tampak bahwa kedua metode mampu menemukan pola gerombol pada data pasien penderita kanker payudara pada Rumah Sakit Universitas Wisconsin dengan baik.

Tabel 11 Rata-rata persentase salah klasifikasi untuk beberapa nilai lebar jendela metode k-rataan kernel pada data WISCONSIN Lebar Jendela Persentase Salah Klasifikasi

1 46.67 2 26.67 3 7.50 4 5.26 5 3.67 6 3.33 7 3.50 8 3.54 2.2342* 26.36

Keterangan: * dihitung dengan perkiraan kasar

Kedua metode menghasilkan rata-rata persentase yang kecil namun secara umum metode k-rataan kernel menghasilkan hasil penggerombolan yang lebih baik ketika diterapkan pada kedua gugus data asli. Hasil visualisasi dengan biplot menggambarkan bahwa metode k-rataan kernel mampu menemukan pola gerombol data dengan baik.

KESIMPULAN DAN SARAN

Kesimpulan

Berdasarkan hasil penelitian yang telah dilakukan dapat ditarik beberapa kesimpulan: 1. Penentuan lebar jendela fungsi kernel

Gaussian sangat penting karena berpengaruh terhadap kebaikan hasil penggerombolan. Perkiraan kasar cukup efisien untuk menentukan nilai lebar jendela fungsi kernel Gaussian.

2. Metode k-rataan dan k-rataan kernel memiliki kemampuan yang sama baiknya dalam menggerombolkan objek-objek pada gerombol yang terpisah secara linier. Metode k-rataan lebih efisien dari sisi komputasi.

3. Metode k-rataan kernel memiliki kemampuan yang sangat baik dalam menggerombolkan objek-objek pada gerombol yang terpisah secara non linier sedangkan metode k-rataan tidak mampu menggerombolkan objek-objek pada gerombol yang terpisah secara non linier. 4. Metode k-rataan dan k-rataan kernel

memiliki kemampuan yang kurang baik dalam menggerombolkan data gerombol yang memiliki anggota tumpang tindih.

Saran

Beberapa saran untuk penelitian lanjutan berdasarkan hasil penelitian yang telah dilakukan adalah sebagai berikut:

1. Untuk menentukan lebar jendela fungsi kernel Gaussian dapat digunakan metode lain seperti metode validasi silang.

2. Menerapkan transformasi fungsi kernel pada beberapa metode penggerombolan lain seperti fuzzy c-means.

DAFTAR PUSTAKA

Fisher RA. 1936. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics Vol. 7: 179-188. Girolami M. 2002. Mercer Kernel Based

Clustering in Feature Space. IEEE Transactions on Neural Networks Vol. 13: 780-784.

Jain AK. 2010. Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters Vol. 31(8): 651-666.

Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis. New Jersey: Pearson Prentice Hall.

Lampert CH. 2009. Kernel Methods in Computer Vision. Foundations and Trends in Computer Graphics and Vision Vol. 4(3): 193-285.

Mangasarian OL, Street WN, Wolberg WH. 1994. Breast Cancer Diagnosis and Prognosis via Linear Programming. Operations Research Vol. 43(4): 570-577. Shawe-Taylor J, Cristianini N. 2004. Kernel

Methods for Pattern Analysis. New York: Cambridge University Press.

Sharma S. 1996. Applied Multivariate Technique. New York: John Wiley & Sons.

Tzortzis GF, Likas AC. 2009. The Global Kernel k-Means Algorithm for Clustering in Feature Space. IEEE Transactions on Neural Networks Vol. 20(7): 1181-1194. Zhang R, Rudnicky AI. 2002. A Large Scale

Clustering Scheme for Kernel Clustering. 16th International Conference of Pattern Recognition Vol. 4: 289-292.

(23)
(24)

Lampiran 1 Plot tebaran data D13

Plot data dan hasil penggerombolan: (a) Gerombol asli data D13, (b) Hasil penggerombolan metode k-rataan pada data D13, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D13

Lampiran 2 Plot tebaran data D14

Plot data dan hasil penggerombolan: (a) Gerombol asli data D14, (b) Hasil penggerombolan metode k-rataan pada data D14, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D14

(25)

Lampiran 3 Plot tebaran data D15

Plot data dan hasil penggerombolan: (a) Gerombol asli data D15, (b) Hasil penggerombolan metode k-rataan pada data D15, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D15

Lampiran 4 Plot tebaran data D17

Plot data dan hasil penggerombolan: (a) Gerombol asli data D17, (b) Hasil penggerombolan metode k-rataan pada data D17, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D17

(26)

Lampiran 5 Plot tebaran data D18

Plot data dan hasil penggerombolan: (a) Gerombol asli data D18, (b) Hasil penggerombolan metode k-rataan pada data D18, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D18

Lampiran 6 Plot tebaran data D22

Plot data dan hasil penggerombolan: (a) Gerombol asli data D22, (b) Hasil penggerombolan metode k-rataan pada data D22, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D22

(27)

Lampiran 7 Plot tebaran data D23

Plot data dan hasil penggerombolan: (a) Gerombol asli data D23, (b) Hasil penggerombolan metode k-rataan pada data D23, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D23

Lampiran 8 Plot tebaran data D24

Plot data dan hasil penggerombolan: (a) Gerombol asli data D24, (b) Hasil penggerombolan metode k-rataan pada data D24, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D24

(28)

Lampiran 9 Plot tebaran data D1

Plot data dan hasil penggerombolan: (a) Gerombol asli data D1, (b) Hasil penggerombolan metode k-rataan pada data D1, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D1 Lampiran 10 Plot tebaran data D2

Plot data dan hasil penggerombolan: (a) Gerombol asli data D2, (b) Hasil penggerombolan metode k-rataan pada data D2, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D2

(29)

Lampiran 11 Plot tebaran data D3

Plot data dan hasil penggerombolan: (a) Gerombol asli data D3, (b) Hasil penggerombolan metode k-rataan pada data D3, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D3 Lampiran 12 Plot tebaran data D5

Plot data dan hasil penggerombolan: (a) Gerombol asli data D5, (b) Hasil penggerombolan metode k-rataan pada data D5, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D5

(30)

Lampiran 13 Plot tebaran data D6

Plot data dan hasil penggerombolan: (a) Gerombol asli data D6, (b) Hasil penggerombolan metode k-rataan pada data D6, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D6 Lampiran 14 Plot tebaran data D7

Plot data dan hasil penggerombolan: (a) Gerombol asli data D7, (b) Hasil penggerombolan metode k-rataan pada data D7, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D7

(31)

Lampiran 15 Plot tebaran data D8

Plot data dan hasil penggerombolan: (a) Gerombol asli data D8, (b) Hasil penggerombolan metode k-rataan pada data D8, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D8 Lampiran 16 Plot tebaran data D9

Plot data dan hasil penggerombolan: (a) Gerombol asli data D9, (b) Hasil penggerombolan metode k-rataan pada data D9, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D9

(32)

Lampiran 17 Plot tebaran data D10

Plot data dan hasil penggerombolan: (a) Gerombol asli data D10, (b) Hasil penggerombolan metode k-rataan pada data D10, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D10

Lampiran 18 Plot tebaran data D11

Plot data dan hasil penggerombolan: (a) Gerombol asli data D11, (b) Hasil penggerombolan metode k-rataan pada data D11, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D11

(33)

Lampiran 19 Plot tebaran data D12

Plot data dan hasil penggerombolan: (a) Gerombol asli data D12, (b) Hasil penggerombolan metode k-rataan pada data D12, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D12

Lampiran 20 Plot tebaran data D19

Plot data dan hasil penggerombolan: (a) Gerombol asli data D19, (b) Hasil penggerombolan metode k-rataan pada data D19, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D19

(34)

Lampiran 21 Plot tebaran data D20

Plot data dan hasil penggerombolan: (a) Gerombol asli data D20, (b) Hasil penggerombolan metode k-rataan pada data D20, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D20

Lampiran 22 Plot tebaran data D21

Plot data dan hasil penggerombolan: (a) Gerombol asli data D21, (b) Hasil penggerombolan metode k-rataan pada data D21, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D21

(35)

Lampiran 23 Plot tebaran data D26

Plot data dan hasil penggerombolan: (a) Gerombol asli data D26, (b) Hasil penggerombolan metode k-rataan pada data D26, (c) dan (d) Hasil penggerombolan metode k-rataan kernel pada data D26

Referensi

Dokumen terkait

Pada penelitian ini digunakan tanah terkondisi yaitu penimbunan pupuk anorganik dan garam pada lahan tanah yang dianggap belum terpapar pupuk tujuannya adalah untuk

Didukung oleh Lasamadi (2013) yang menyatakan bahwa unsur nitrogen yang terkandung dalam pupuk organik sangat besar kegunaannya bagi tanaman untuk pertumbuhan dan

Agar pariwisata dapat terus berkembang dengan baik diperlukan konsep pengembangan pariwisata berkelanjutan, yang merupakan sebuah konsep kepariwisataan yang

In the English translation of a Chinese poem ( Qiuye Duzuo ) entitled An Autum Night, Sitting Alone , imagery is used to create the atmosphere that constructs

Permasalahan utama dalam penelitian ini adalah bagaimana perempuan direpresentasikan oleh majalah Manglè melalui unsur-unsur leksikal yang terdapat di dalam teks

Kesalahan timbul dalam bentuk burst yaitu lebih dari satu bit terganggu dalam satu satuan waktu.Deteksi error dengan Redundansi, yaitu data tambahan yang tidak ada

Dari ketiga variabel independen yang diujikan dalam penelitian ini yaitu Kepemimpinan Transformasional, Disiplin Kerja dan Motivasi Kerja, terbukti semua berpengaruh signifikan

ﺔﻨﺠﻟا ﻰﻟإ هﺮﺠﺗ ﻲﺘﻟا ﮫﺘﻋﺎﻃو ﺮﻓﺎﻜﻟا ﻦﯿﺑ لﻮﺤﯾو ، رﺎﻨﻟا ﻰﻟإ هﺮﺠﺗو ﮫﻗﻮﺴﺗ ﻲﺘﻟا ﮫﯿﺻﺎﻌﻣو ﻦﻣﺆﻤﻟا ﻦﯿﺑ لﻮﺤﯾ.. kedalam api neraka jika tidak dapat mengontrol hatinya