PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN
K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN
YANNE FLOWRENSIA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2010
RINGKASAN
YANNE FLOWRENSIA. Perbandingan Penggerombolan K-means dan K-medoid pada Data yang Mengandung Pencilan. Dibimbing oleh I MADE SUMERTAJAYA dan LA ODE ABDUL RAHMAN.
Analisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya, sehingga objek yang terletak dalam satu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan objek pengamatan yang terletak pada gerombol lain. K-means merupakan salah satu metode penggerombolan tak berhirarki yang paling banyak digunakan, namun karena menggunakan rataan sebagai centroidnya, metode ini lebih sensitif terhadap keberadaan pencilan pada data. Sehingga berkembanglah metode baru, k-medoid, dengan berbasis median sebagai pusat gerombolnya. Penelitian ini bertujuan untuk membandingkan hasil analisis gerombol metode
k-means dengan k-medoid baik pada saat data mengandung pencilan maupun tidak. Metode k-medoid diharapkan lebih kekar terhadap pencilan dibandingkan dengan k-means, sehingga dapat
memberikan hasil gerombol yang lebih akurat dengan nilai tingkat salah klasifikasi yang lebih kecil. Hasil penggerombolan menunjukkan bahwa metode k-medoid mempunyai nilai rataan tingkat salah klasifikasi yang lebih rendah dan signifikan pada kondisi proporsi pencilan 5%, sedangkan pada kondisi proporsi pencilan 10% dan 15% hasil nilai rataan salah klasifikasinya tidak berbeda signifikan dengan metode k-means.
PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN
K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN
YANNE FLOWRENSIA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2010
Judul : Perbandingan Penggerombolan K-means dan K-medoid pada Data yang ciMengandung Pencilan
Nama : Yanne Flowrensia NRP : G14060259
Menyetujui :
Pembimbing I,
Dr. Ir. I Made Sumertajaya, M.Si NIP : 196807021994021001
Pembimbing II,
La Ode Abdul Rahman, S.Si, M.Si
Mengetahui :
Ketua Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, M.Si NIP : 196504211990021001
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Allah SWT atas segala berkah dan rahmat-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Karya ilmiah ini berjudul ”Perbandingan Penggerombolan K-means dan K-medoid pada Data yang Mengandung Pencilan”. Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Penulis menyampaikan terimakasih kepada Bapak Dr. Ir. I Made Sumertajaya, M.Si dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku dosen pembimbing yang telah memberikan bimbingan, masukan dan arahan selama penulisan karya ilmiah ini. Terimakasih juga kepada Ibu Dr. Ir. Anik Djuraidah, MS selaku dosen moderator seminar serta Bapak Ir. Bunawan Sunarlim, MS selaku dosen penguji yang telah memberikan banyak saran dan masukannya kepada penulis. Disamping itu, penulis juga mengucapkan terimakasih kepada seluruh dosen dan staf pengajar Departemen Statistika yang telah memberikan ilmu dan wawasan selama penulis menuntut ilmu di Departemen Statistika serta seluruh staf Departemen Statistika yang telah banyak membantu penulis. Ungkapan terimakasih juga disampaikan kepada kedua orang tua dan seluruh keluarga yang telah memberikan doa, kasih sayang serta dorongan yang tulus baik moril maupun materil.
Penulis sangat menghargai kritik dan saran untuk perbaikan karya ilmiah ini. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan.
Bogor, November 2010
RIWAYAT HIDUP
Penulis dilahirkan di Bukit Tinggi pada tanggal 28 Juli 1988. Penulis merupakan anak tunggal dari pasangan Bapak Deswarto dan Ibu Yumarni.
Tahun 2000 penulis lulus dari SD N 3 Pasar Kemis Tangerang, kemudian melanjutkan studi di SLTP N 1 Pasar Kemis Tangerang hingga tahun 2003. Selanjutnya, penulis menyelesaikan pendidikannya di SMA N 2 Tangerang dan lulus pada tahun 2006. Pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Masuk IPB). Setelah satu tahun menjalani perkuliahan di TPB (Tingkat Persiapan Bersama), pada tahun 2007 penulis diterima sebagai mahasiswa Departemen Statistika, FMIPA IPB dengan mayor Statistika dan minor Ilmu Konsumen.
Selama mengikuti perkuliahan, penulis berkesempatan menjadi Asisten Dosen Mata Kuliah Metode Statistika pada tahun ajaran 2008/2009, serta Mata Kuliah Analisis Regresi I pada tahun ajaran 2009/2010. Penulis juga aktif dalam berbagai kegiatan kepanitiaan seperti Statistika Ria 2008, Welcome Ceremony Statistics (WCS) 2008 dan 2009, serta Pesta Sains 2008 dan 2009. Pada Februari – April 2010, penulis melaksanakan kegiatan praktik lapang di Perusahaan Media Televisi Indonesia (Metro TV), Jakarta Barat.
DAFTAR ISI
Halaman
DAFTAR GAMBAR ... vii
DAFTAR TABEL ... vii
DAFTAR LAMPIRAN ... vii
PENDAHULUAN ... 1
Latar Belakang ... 1
Tujuan ... 1
TINJAUAN PUSTAKA ... 1
Pencilan ... 1
Analisis Komponen Utama ... 1
Analisis Gerombol ... 2
Penggerombolan K-means ... 2
Penggerombolan K-medoid ... 2
DATA DAN METODE ... 3
Data ... 3
Metode ... 3
HASIL DAN PEMBAHASAN ... 4
Karakteristik Data ... 4
Pembentukan dan Identifikasi Pencilan ... 5
Perbandingan Hasil Penggerombolan K-means dan K-medoid ... 6
Hasil Penggerombolan Data Asli (Tanpa Pencilan) ... 6
Hasil Penggerombolan Data yang Mengandung Pencilan ... 7
SIMPULAN DAN SARAN ... 8
DAFTAR PUSTAKA ... 8
vii
DAFTAR GAMBAR
Halaman
1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris ... 5
2 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris ... 5
3 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris ... 6
4 Plot gerombol k-means ... 7
5 Plot gerombol k-medoid ... 7
DAFTAR TABEL
Halaman 1 Deskripsi tiap peubah karakteristik tanaman bunga iris ... 52 Korelasi antar peubah karakteristik tanaman bunga iris ... 5
3 Vektor rataan baru untuk pembangkitan gugus data pencilan ... 6
4 Rata-rata tingkat salah klasifikasi pada penggerombolan k-means dan k-medoid ... 7
DAFTAR LAMPIRAN
Halaman 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris ... 102 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan ... 10 3 Skript pembangkitan data dengan software Matlab ... 11
4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1) ... 13
5 Plot gerombol dua skor komponen utama pada proporsi pencilan 10% (Iterasi 1) ... 14
6 Plot gerombol dua skor komponen utama pada proporsi pencilan 15% (Iterasi 1) ... 15
7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1) ... 16
1
PENDAHULUAN
Latar Belakang
Analisis gerombol merupakan salah satu alat analisis statistika yang cukup penting dan telah banyak diterapkan pada berbagai bidang. Pada bidang sosial analisis gerombol dapat
mengklasifikasikan manusia berdasarkan
perilaku dan kesukaan mereka, pada bidang marketing, sering digunakan sebagai alat untuk segmentasi pasar, pada bidang geografi
dapat mengelompokkan wilayah/region
berdasarkan kriteria tertentu, dan kegunaan-kegunaan pada bidang lainnya.
Dalam metode penggerombolan dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Salah satu metode penggerombolan tidak berhirarki yang umum digunakan dalam analisis gerombol ialah metode k-means. Dalam penggerombolan, keberadaan pencilan pada data sangat diperhatikan, karena pencilan tersebut akan mempengaruhi hasil penggerombolan. Metode
k-means akan lebih sensitif terhadap data yang
mengandung pencilan karena menggunakan rataan sebagai centroidnya (Kaufmann & Rousseeuw 1990). Oleh karena itu kajian mengenai metode penggerombolan yang kekar tehadap pencilan mutlak diperlukan, karena keberadaan pencilan dalam data terkadang tidak dapat dihindarkan.
Salah satu statistik yang cukup kekar terhadap pencilan yaitu median, sehingga berkembang metode alternatif yang dapat menggerombolkan data yang mengandung
pencilan yaitu k-medoid. K-medoid
merupakan salah satu metode dari
penggerombolan tak berhirarki yang
menggunakan median sebagai pusat
gerombolnya.
Tujuan
Penelitian ini bertujuan untuk
membandingkan hasil analisis k-means dan
k-medoid pada penggerombolan data baik
pada saat data mengandung pencilan maupun tidak.
TINJAUAN PUSTAKA
Pencilan
Pencilan ialah data yang tidak mengikuti pola umum model dan secara kasar yaitu
yang sisaannya (error) berjarak tiga
simpangan baku atau lebih jauh lagi dari rata-rata sisaannya. Pencilan merupakan suatu keganjilan dan menandakan suatu titik data
yang sama sekali tidak tipikal dibandingkan data lainnya (Aunuddin 1989).
Pencilan menurut Johnson & Winchern (1998) yaitu suatu pengamatan pada rangkaian data yang terlihat tidak konsisten terhadap sisaan dari data tersebut. Pada analisis
gerombol keberadaan pencilan dapat
menyebabkan gerombol yang terbentuk
menjadi tidak representatif (Barnett & Lewis 1994).
Analisis Komponen Utama
Analisis komponen utama (AKU)
merupakan pendekatan statistika untuk
mereduksi gugus peubah asal berdimensi p menjadi gugus peubah baru (komponen utama) berdimensi q dimana q<p (Johnson 1998).
Menurut Johnson & Winchern (1998) ada tiga karakteristik komponen utama, yaitu:
Informasi data asal yang dijelaskan
maksimum (memiliki ragam maksimum)
Antar komponen utama saling
ortogonal/bebas
Merupakan kombinasi linier dari peubah
asal
Tujuan dari analisis komponen utama yaitu:
Mendapatkan peubah-peubah baru yang
saling ortogonal/bebas
Membuat plot objek dalam dimensi yang
lebih kecil
AKU dapat diturunkan dari matriks ragam peragam ( ) atau matriks korelasi (R), melalui persamaan ciri berikut:
atau
Misalkan 12 … p > 0 adalah akar
ciri yang berpadanan dengan vektor ciri 1,
2, …, p dari matriks atau R, dan panjang
dari setiap vektor itu masing masing adalah 1,
atau i’ i = 1 untuk i = 1, 2, …, p. Maka,
KU1 = 1’X, dengan var(KU1) = 1
KU2 = 2’X, dengan var(KU2) = 2
…,
KUp = p’X, dengan var(KUp) = p
berturut-turut adalah komponen utama
pertama, kedua, …, ke-p dari X.
Ada tiga metode dalam penentuan banyaknya KU, yaitu:
1. Berdasarkan kumulatif proporsi
keragaman total yang mampu dijelaskan. 2. Pemilihan komponen utama didasarkan
pada ragam komponen utama, yang tidak lain adalah akar ciri.
3. Penggunaan grafik yang disebut scree plot
p ip i i i a X a X a X Y 1 1 2 2...
2
Analisis Gerombol
Analisis gerombol merupakan salah satu analisis peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya sehingga setiap objek yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan (Hair et al. 1995). Menurut Johnson & Winchern (1998) ada dua jenis penggerombolan data yang sering digunakan yaitu penggerombolan berhirarki dan penggerombolan tak berhirarki.
1. Metode Hirarki
Metode penggerombolan hirarki
digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini efektif digunakan untuk ukuran data kecil.
Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya
dianggap sebagai gerombol tersendiri
sehingga terdapat gerombol sebanyak jumlah observasi. Kemudian dua gerombol yang terdekat kesamaannya digabung menjadi suatu gerombol baru, sehingga jumlah gerombol berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu gerombol besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk gerombol-gerombol yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi gerombol sendiri-sendiri.
2. Metode Tidak Berhirarki
Metode penggerombolan tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya.
Metode tidak berhirarki mampu
meminimalkan rata-rata jarak setiap data ke gerombolnya. Karakteristik dari algoritma tidak berhirarki salah satunya adalah sangat sensitif dalam penentuan titik pusat gerombol awal karena secara titik pusat awal ini ditetapkan secara acak.
Pada saat pembangkitan awal titik pusat yang acak tersebut mendekati solusi akhir pusat gerombol, metode tidak berhirarki mempunyai kemungkinan yang tinggi untuk menemukan titik pusat gerombol yang tepat. Sebaliknya, jika titik pusat awal tersebut jauh dari solusi akhir pusat gerombol, maka besar kemungkinan hal ini akan menyebabkan penggerombolan yang tidak tepat. Akibatnya
metode ini tidak menjamin hasil
penggerombolan yang unik.
Penggerombolan K-means
K-means merupakan salah satu metode
penggerombolan data tidak berhirarki yang berusaha mempartisi data yang ada ke dalam satu atau lebih gerombol. Adapun tujuan dari penggerombolan data ini adalah untuk meminimalkan fungsi objektif yang pada umumnya berusaha meminimalkan keragaman di dalam suatu gerombol dan memaksimalkan keragaman antar gerombol (Hair et al. 1995).
Untuk menghitung centroid gerombol
ke-i, pada peubah ke-j, cij, digunakan rumus
sebagai berikut:
dengan adalah nilai pengamatan objek
ke-k untuk peubah ke-j. Sedangkan Ni adalah
jumlah data yang menjadi anggota gerombol ke-i (Agusta 2007).
Har-Peled & Kushal (2007) menyatakan, misalkan S sebagai sekumpulan objek,
dalam suatu fungsi jarak
tertentu. Ide dasar dari k-means yaitu
menemukan titik pusat (rataan)
, dimana S dapat dipartisi ke-k
gerombol C1, C2,..., Ck dengan menempatkan
setiap objek dalam S ke centroid terdekat Ci.
Jumlah kuadrat jarak yang diminimalkan yaitu:
Perhitungan jarak atau tingkat kemiripan dalam analisis gerombol salah satunya menggunakan konsep jarak Euclid, dimana untuk dua unit pengamatan yang mempunyai vektor x dan y dengan dimensi p peubah, jarak Euclidnya adalah:
Jarak Euclid dapat digunakan jika tidak ada korelasi antar peubah yang diamati. Jika terjadi korelasi antar peubah maka perlu dilakukan analisis komponen utama terlebih dahulu.
Penggerombolan K-medoid
K-medoid merupakan salah satu teknik
penggerombolan yang mirip dengan k-means. Namun perbedaan mendasarnya adalah pada
k-medoid data/objek dipilih sebagai pusat
gerombol (medoid).
Salah satu algoritma yang sering
digunakan dalam k-medoid yaitu Partitioning
3
menggunakan data yang berada di tengah gerombol, maka metode ini lebih kekar
terhadap pencilan dibandingkan dengan
metode k-means (Kaufman & Rousseuw 1990).
Anggap S sebagai sekumpulan objek,
dalam fungsi jarak Euclid.
Ide dasar dari k-medoid yaitu menemukan k
objek sebagai medoid,
yang meminimumkan total jarak dari setiap objek ke medoidnya (Har-Peled & Kushal 2007). Medoid dapat diartikan sebagai sebuah objek dari sebuah gerombol yang mempunyai rata-rata jarak terkecil ke objek lainnya, dengan kata lain yaitu objek yang terletak ditengah-tengah gugus data.
Kaufman & Rousseuw (1990) menyatakan
bahwa, misalkan nXp adalah gugus data yang
mempunyai n objek dan p peubah. Jarak antara objek ke-i, xi, dan objek ke-j, xj,
dinotasikan dengan . Dalam pemilihan
suatu objek sebagai objek yang representatif
dalam suatu gerombol (medoid awal), yi
didefinisikan sebagai variabel biner 0 dan 1,
dimana jika dan hanya jika objek i
dipilih sebagai medoid awal. Penempatan setiap objek j ke salah satu
medoid awal dapat dituliskan sebagai ,
dimana didefinisikan sebagai variabel
biner 0 dan 1, bernilai 1 jika dan hanya jika
objek j ditempatkan ke gerombol dimana objek i sebagai medoid awal.
Vinod (1969) dalam Kaufman &
Rousseeuw (1990) pertama kali menemukan model optimasi dalam k-medoid yang dapat dituliskan sebagai berikut:
(1) Dimana: (2) i , j = 1,2,..., n (3) k = jumlah gerombol (4) (5)
Persamaan (2) menyatakan bahwa setiap objek j harus di tempatkan ke hanya satu medoid awal. Persamaan (2) dan (5)
berimplikasi bahwa untuk suatu j, akan
bernilai 1 atau 0. Persamaan (4) menyatakan bahwa hanya ada k objek yang akan dipilih sebagai medoid.
Gerombol akan terbentuk dengan
menempatkan setiap objek ke medoid awal yang terdekat. Persamaan (2) berimplikasi
bahwa jarak antara objek j dan medoid awal didefinisikan sebagai:
Karena semua objek harus ditempatkan ke medoid terdekat, total jarak didefinisikan sebagai:
dimana fungsi tersebut merupakan fungsi objektif yang harus diminimalkan dalam metode ini.
DATA DAN METODE
Data
Data yang digunakan dalam penelitian ini yaitu data contoh dan data simulasi. Data contoh diperoleh dari database University of
California, Irvinea (ftp://ftp.ics.uci.edu/pub/m
achine-learning-databases/iris/
)
. Data tersebut merupakan data hasil 150 pengukuran peubah karakteristik tanaman bunga iris (50 objek untuk setiap tiga varietas, yaitu Setosa,Versicolor, dan Virginica). Dimana tiga jenis
varietas bunga iris tersebut dianggap sebagai
gerombol pada penelitian ini. Peubah
karakteristik tanaman bunga iris yang
digunakan sebagai berikut:
X1 = Panjang sepal/daun kelopak (cm) X2 = Lebar sepal/daun kelopak (cm) X3 = Panjang petal/daun mahkota (cm) X4 = Lebar petal/daun mahkota (cm)
Data simulasi merupakan data hasil bangkitan bilangan acak normal ganda yang akan digunakan sebagai gugus data pencilan.
Metode
Tahap-tahap yang dilakukan dalam
persiapan data adalah:
1. Memastikan tidak ada pencilan pada data contoh dengan menghitung jarak kuadrat
Mahalanobis (Di2) untuk tiap
pengamatan di setiap gerombol. Nilai Di2
kemudian dibandingkan dengan
(α=0.01). Jika Di2> , maka xi atau
pengamatan ke-i dianggap sebagai pencilan.
dimana µ merupakan vektor nilai tengah
X, dan merupakan matriks kovarian
4
2. Menyiapkan gugus data pencilan dengan membangkitkan peubah acak normal
ganda dengan parameter µ
yang diekstrimkan dari data contoh dan dengan matriks ragam-peragam yang sama dengan data contoh.
Proses penyiapan gugus data pencilan:
2.1 Hitung statistik rataan dan matriks
ragam-peragam S dari data contoh untuk setiap gerombol, sehingga didapat 1, 2, 3, S1,S2,S3.
2.2 Ekstrimkan nilai 1, 2, 3 dengan
cara meningkatkan nilai tersebut
sebesar 70%, atau
2.3 Nilai rataan yang baru ( )
digunakan sebagai parameter untuk pembangkitan data normal ganda
. Parameter
diduga dari nilai S yang didapat pada langkah 1.
2.4 Bangkitkan masing-masing 50
bilangan acak normal ganda
sehingga
didapat matriks Y1, Y2, Y3.
2.5 Gabungkan Y1, Y2, Y3 sehingga
didapat matriks 150Y4 yang
digunakan sebagai gugus data
pencilan.
3. Menyiapkan gugus data baru yang merupakan gabungan dari data contoh yang sebagian datanya (γn) diganti dengan objek pada gugus data pencilan. Proporsi pencilan yang diberikan (γ) yaitu sebesar 0% (tanpa pencilan), 5%, 10%, dan 15%.
4. Melakukan identifikasi pencilan pada gugus data yang telah dibentuk pada langkah 3 untuk memastikan proporsi pencilan yang diberikan.
Langkah-langkah yang dilakukan dalam analisis data adalah:
1. Memeriksa kebebasan antar peubah dengan menggunakan korelasi Pearson. Koefisien korelasi Pearson dihitung dengan persamaan sebagai berikut:
dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:
hipotesis nol ditolak jika t lebih besar dari t tabel pada taraf nyata 5% dengan derajat bebas n-2 (Aunuddin 2005).
2. Melakukan analisis komponen utama jika pada langkah 1 hipotesis nol ditolak.
3. Menggerombolkan data baik tanpa
pencilan maupun dengan pencilan
menggunakan metode k-means dengan tahapan:
3.1 Menentukan pusat gerombol awal secara acak.
3.2 Menghitung jarak setiap objek
dengan pusat gerombol dengan menggunakan jarak Euclid.
3.3 Alokasikan tiap objek ke suatu
gerombol yang memiliki jarak
terdekat dengan pusat gerombolnya. 3.4 Hitung kembali pusat gerombol yang
terbentuk dengan merata-ratakan
pusat gerombolnya.
3.5 Ulangi dari langkah 3.2 sampai tidak
ada perpindahan objek antar
gerombol.
4. Menggerombolkan data baik tanpa
pencilan maupun dengan pencilan
menggunakan metode k-medoid dengan tahapan:
4.1 Inisialisasi, yaitu menentukan k objek sebagai medoid.
4.2 Alokasikan tiap objek ke suatu
gerombol yang memiliki jarak
terdekat dengan medoid gerombol tersebut.
4.3 Mencari objek lain yang lebih baik sebagai medoid (yang memiliki jarak rataan terkecil ke semua objek)
dengan membandingkan semua
pasangan objek medoid dan non-medoid.
4.4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan pada medoid.
5. Membandingkan hasil penggerombolan
k-means dan k-medoid pada langkah 3
dan 4.
6. Menghitung tingkat salah klasifikasi pada metode k-means dan k-medoid pada berbagai kondisi proporsi pencilan. 7. Melakukan tahap persiapan dan analisis
data hingga rataan nilai tingkat salah klasifikasi cukup konsisten.
HASIL DAN PEMBAHASAN
Karakteristik Data
Data contoh merupakan data pengamatan empat peubah karakteristik tanaman bunga iris dengan deskripsi tiap peubah ditunjukkan
5
pada Tabel 1. Sedangkan untuk deskripsi setiap gerombol awal pada data contoh dapat dilihat pada Lampiran 1.
Tabel 1 Deskripsi tiap peubah karakteristik tanaman bunga iris
Peubah Rataan Standar Deviasi X1 5.843 0.828 X2 3.057 0.436 X3 3.758 1.765 X4 1.199 0.762
Besarnya korelasi antar peubah dapat dilihat pada Tabel 2. Tabel 2 menunjukkan bahwa hampir pada semua peubah saling berkorelasi dan signifikan pada taraf nyata 5% kecuali pada peubah X1 (panjang sepal) dan X2 (lebar sepal). Hubungan antara panjang sepal (X1) dan panjang petal (X3) bernilai positif dan mempunyai nilai korelasi yang besar (0.872) sehingga peningkatan panjang sepal menyebabkan peningkatan panjang petal dan sebaliknya, begitu pula dengan peubah panjang petal (X3) dan lebar petal (X4). Lebar sepal (X2) memiliki korelasi negatif yang siginifikan pada taraf 5% terhadap panjang petal (X3) dan lebar petal (X4) yang masing-masing bernilai -0.428 dan
-0.366. Korelasi antara peubah-peubah
tersebut tidak besar namun cukup kuat dibuktikan dengan nilai-p yang signifikan pada taraf 5%.
Tabel 2 Korelasi antar peubah karakteristik tanaman bunga iris
X1 X2 X3 X4 X1 r 1 nilai-p 0.000 X2 r -0.118 1 nilai-p 0.152 0.000 X3 r 0.872 -0.428 1 nilai-p 0.000 0.000 0.000 X4 r 0.818 -0.366 0.963 1 nilai-p 0.000 0.000 0.000 0.000
Jarak Euclid mensyaratkan tidak adanya korelasi antar peubah pada data, oleh karena itu dilakukan proses transformasi komponen utama untuk mendapatkan nilai antar peubah yang saling bebas. Pada penelitian ini dipilih matriks ragam-peragam sebagai matriks masukan untuk mendapatkan skor komponen utama. Pemilihan matriks ragam-peragam ini didasarkan pada satuan awal data contoh yang
sama (cm). Untuk mendapatkan skor
komponen utama yang mempunyai
karakteristik paling mirip dengan karakteristik data asli maka digunakan seluruh komponen utama.
Pembentukan dan Identifikasi Pencilan
Pengujian keberadaan pencilan pada data
dengan menggunakan uji Chi-Square
membutuhkan asumsi kenormalan data.
Kenormalan data dapat dilihat dengan cara membuat plot Quantil antara nilai jarak kuadrat mahalanobis terurut dengan nilai
Chi-Square dari (Johnson & Winchern 1998).
Plot Quantil Chi-Square untuk
gerombol 1 pada Gambar 1 menunjukkan pola yang mengikuti garis lurus atau linear sehingga data tersebut dapat dikatakan menyebar normal ganda. Hal yang sama juga ditunjukkan oleh plot Quantil Chi-Square untuk gerombol 2 pada Gambar 2 dan plot Quantil Chi-Square untuk gerombol 3 pada Gambar 3.
Gambar 1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris
Gambar 2 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris 0 2 4 6 8 10 12 14 16 0 5 10 15 di 2 χ2 p((j-1/2)/n) 0 2 4 6 8 10 12 14 0 5 10 15 di 2 χ2 p((j-1/2)/n)
6
Gambar 3 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris
Ketiga plot Quantil menunjukkan data menyebar normal ganda, karena itu proses identifikasi pencilan data contoh dapat dilakukan dengan jarak Mahalanobis. Suatu pengamatan disebut pencilan apabila jarak Mahalanobis terhadap nilai tengah melebihi
titik kritis . Hasil perhitungan jarak
Mahalanobis menunjukkan bahwa tidak ada pencilan pada data contoh. Hal tersebut dikarenakan semua pengamatan memiliki jarak Mahalanobis tidak melebihi 13.277. Jika asumsi kenormalan data tidak terpenuhi, maka alternatif pengujian keberadaan pencilan dapat menggunakan boxplot dari nilai jarak kuadrat Mahalanobis.
Data contoh yang digunakan merupakan data yang tidak mengandung pencilan. Oleh karena itu diperlukan data pencilan untuk proses simulasi. Data pencilan dibangkitkan dengan meningkatkan vektor rataan sebesar 70% dari vektor rataan awal data contoh untuk setiap gerombol. Sedangkan untuk matriks ragam-peragam disamakan dengan matriks ragam-peragam tiap gerombol awal data contoh.
Tabel 3 Vektor rataan baru untuk
pembangkitan gugus data
pencilan µ1 µ2 µ3 X1 8.510 10.091 11.199 X2 5.827 4.709 5.056 X3 2.485 7.242 9.438 X4 0.418 2.254 3.444
Proses awal sebelum dilakukan
penggerombolan k-means dan k-medoid
adalah pengidentifikasian jumlah pencilan pada berbagai kondisi proporsi pencilan. Hal
ini dilakukan untuk memastikan apakah data yang diberikan benar-benar sebagai data pencilan.
Dari 5 kali ulangan pembentukan gugus
data baru, hasil perhitungan jarak
Mahalanobis untuk setiap gerombol
menunjukkan bahwa semua pencilan yang diberikan teridentifikasi sebagai pencilan oleh jarak Mahalanobis, baik pada proporsi pencilan 5%, 10% maupun 15%.
Perbandingan Hasil Penggerombolan
K-means dan K-medoid
Proses penggerombolan dilakukan pada skor komponen utama yang didapat dari hasil transformasi komponen utama pada data asli dan data asli yang telah diberikan proporsi pencilan tertentu. Pembentukan gugus data baru yang mengandung pencilan dilakukan hingga rata-rata hasil tingkat salah klasifikasi baik pada hasil penggerombolan k-means dan
k-medoid menunjukkan hasil yang cukup
konsisten. Lampiran 2 menunjukkan nilai tingkat salah klasifikasi dari 5 kali ulangan
yang meliputi pembangkitan data,
penggantian γn data asli dengan data pencilan hingga menggerombolkan data skor utama dari data yang telah diberi pencilan.
Untuk menghitung salah klasifikasi pada
penggerombolan data dengan proporsi
pencilan 0%, hasil penggerombolannya
dibandingkan dengan penggerombolan awal data yang telah diketahui. Sedangkan untuk menghitung nilai salah klasifikasi dari data yang sudah diberikan pencilan (proporsi
pencilan 5%, 10% dan 15%), hasil
penggerombolannya dibandingkan dengan hasil penggerombolan pada proporsi pencilan 0% dan bukan pada penggerombolan data awal yang telah diketahui. Hal ini disebabkan data awal tersebut sudah memiliki nilai salah klasifikasi sendiri, sehingga jika diberi pencilan dapat dilihat bagaimana kemampuan atau kekekaran dari dua metode tersebut.
Hasil Penggerombolan Data Asli (Tanpa Pencilan)
Dari hasil penggerombolan k-means yang terbentuk dapat dilihat bahwa gerombol 1 (bunga jenis iris Setosa) memiliki jarak gerombol yang terpisah dari gerombol 2 dan 3 (bunga jenis iris Versicolor dan Virginica), sedangkan untuk gerombol 2 dan 3 memiliki jarak gerombol yang dekat satu sama lain. Hal ini dapat dilihat dari hasil plot dua skor komponen utama yang menjelaskan 89.75% keragaman pada data baik pada metode
k-means maupun k-medoid. Gambar 4 0 2 4 6 8 10 12 14 16 0 5 10 15 di 2 χ2 p((j-1/2)/n)
7
menunjukkan plot penggerombolan data asli dengan metode k-means, sedangkan Gambar 5 menunjukkan plot penggerombolan data asli dengan metode k-medoid.
Gambar 4 Plot gerombol k-means
Gambar 5 Plot gerombol k-medoid
Pada gerombol 1 tidak terjadi salah klasifikasi ke gerombol lain baik pada
k-means maupun k-medoid, hal ini diakibatkan gerombol 1 memiliki jarak yang terpisah cukup jauh dengan 2 gerombol lainnya. Lain halnya dengan gerombol 2 dan 3 yang masih terdapat salah klasifikasi karena jarak gerombol yang cukup berdekatan.
Dari hasil nilai tingkat salah klasifikasi,
k-means memiliki tingkat salah klasifikasi
sebesar 16.67%, sedangkan hasil
penggerombolan k-medoid memiliki tingkat salah klasifikasi sebesar 15.33%. Pada kondisi ini, hasil penggerombolan k-medoid sedikit lebih baik dibandingkan dengan k-means.
Hasil Penggerombolan Data dengan Pencilan
Pada kondisi proporsi pencilan 5%, hasil
penggerombolan k-medoid menunjukkan
perbedaan yang signifikan dibandingkan dengan hasil penggerombolan pada k-means. Tingkat salah klasifikasi dari rata-rata 5 kali ulangan pada k-means mencapai 34.40%, sedangkan pada k-medoid tingkat salah klasifikasinya hanya sebesar 10.40%. Pada kondisi ini hanya ada delapan pencilan yang dimasukkan ke dalam data awal, sehingga
k-medoid masih bisa mengakomodir keberadaan pencilan ini, walaupun pencilan
yang diberikan untuk gerombol 2
teridentifikasi sebagai anggota gerombol 3. Hal ini juga ditunjukkan oleh plot gerombol pada Lampiran 4.
Pada kondisi proporsi pencilan 10% dan 15% tidak menunjukkan perbedaan yang signifikan baik pada hasil penggerombolan dengan k-means maupun dengan k-medoid. Pada proporsi pencilan 10%, rata-rata hasil tingkat salah klasifikasi k-means sebesar 34.00% sedangkan untuk k-medoid sebesar 33.73%. Pada proporsi pencilan 15% rata-rata hasil tingkat salah klasifikasi k-means sebesar 32.00% dan k-medoid sebesar 32.93%. Pencilan yang diberikan pada kondisi ini membentuk sebuah gerombol tersendiri, yang juga berdampak pada anggota gerombol 3 yang teridentifikasi sebagai gerombol 2,
sehingga penggerombolannya menjadi
gerombol 1 (bunga jenis iris Setosa), gerombol 2 (bunga jenis iris Versicolor, dan
Virginica), serta gerombol pencilan yang
diberikan untuk gerombol 2 dan 3. Hal ini dapat dilihat pada Lampiran 5 dan 6.
Tabel 4 Rata-rata tingkat salah klasifikasi
pada hasil penggerombolan
k-means dan k-medoid
Proporsi Pencilan k-means k-medoid 0% 16.67% 15.33% 5% 34.40% 10.40% 10% 34.00% 33.73% 15% 32.00% 32.93%
Lampiran 7 menunjukkan koordinat nilai centroid dan medoid pada kedua metode untuk berbagai kondisi pencilan. Perbedaan yang terlihat jelas pada koordinat pusat
gerombol kedua metode yaitu pada
gerombol 3 saat kondisi proporsi pencilan 5%. Nilai koordinat centroid terlihat cukup besar dibandingkan dengan koordinat objek medoid
8
gerombol 3, karena pada gerombol 3 k-means memberikan hasil penggerombolan yang
beranggotakan hanya data pencilan,
sedangkan pada k-medoid, gerombol 3 mirip pada gerombol 3 data asli.
Dari hasil tingkat salah klasifikasi
perbedaan yang signifikan hanya terdapat pada kondisi proporsi pencilan 5%. Pada kasus data ini dimungkinkan adanya suatu batas toleransi dimana k-medoid dapat menangani pencilan, yaitu sampai pada proporsi pencilan 5%. Semakin banyak pencilan yang diberikan maka perpindahan objek antar gerombol semakin sulit dihindari, sehingga nilai tingkat salah klasifikasi pun semakin besar. Hal ini juga tergantung dari karakteristik data yang akan digerombolkan. Semakin dekat jarak antar gerombol maka akan semakin sensitif terhadap keberadaan
pencilan dan menyebabkan banyaknya
perpindahan objek antar gerombol, begitu pula sebaliknya.
Pada kondisi proporsi pencilan 10% dan 15% tidak terdapat perbedaan yang signifikan, karena baik pada k-means maupun k-medoid, pencilan yang diberikan membentuk gerombol tersendiri. Hal ini juga disebabkan pada proses pembentukan pencilan, dimana gugus data pencilan dibentuk berdasarkan sebaran normal ganda. Sehingga kecenderungan pencilan-pencilan tersebut untuk menggerombol sulit dihindari.
SIMPULAN DAN SARAN
Simpulan
Penggerombolan k-medoid menunjukkan hasil yang lebih baik dibandingkan dengan hasil penggerombolan k-means, terutama dalam kondisi proporsi pencilan 5%. Dimana pada taraf ini dimungkinkan sebagai batas toleransi keberadaan pencilan untuk k-medoid. Untuk kondisi proporsi pencilan 10% dan 15% hasil penggerombolan k-means dan
k-medoid tidak menunjukkan perbedaan yang
signifikan. Hal ini didukung dari pergerakan nilai centroid dan medoid pada kondisi 5% yang cukup berbeda pada gerombol 3. Sedangkan pada kondisi proporsi pencilan 10% dan 15%, koordinat centroid dan medoid tidak terlihat jauh berbeda.
Saran
Diharapkan pada penelitian selanjutnya
dapat mengkaji mengenai proses
pembentukan pencilan serta melakukan
kontrol secara komputasi terhadap
penggantian data asli dengan data pencilan,
dimana data asli yang diganti dan data pencilan pengganti yaitu data yang memiliki nilai jarak Mahalanobis maksimum. Dengan
cara tersebut diharapkan hasil
penggerombolan pada k-medoid akan lebih baik untuk berbagai kondisi pencilan.
DAFTAR PUSTAKA
Agusta Y. 2007. K-means: Penerapan, Permasalahan dan Metode Terkait. Jurnal
Sistem dan Informatika. 3(1):47-60.
Aunuddin. 1989. Analisis Data. Bogor: IPB Press.
_____. 2005. Statistika : Rancangan dan
Analisis Data. Bogor : IPB Press.
Barnett V, Lewis T. 1994. Outliers in
Statistical Data 3rd Edition. New York :
John Wiley
Hair JF Jr, Anderson RE, Tatham RL, Black
WC. 1995. Multivariate Data Analysis 4th
Edition. New Jersey : Prentice Hall
Har-Peled S, Kushal A. 2007. Smaller Coresets for k-Median and k-Means Clustering. Discrete & Computational
Geometry. 37: 3-19.
Johnson RA, Winchern DW. 1998. Applied
Multivariate Statistical Analisys 4th Edition. London : Prentice-Hall.
Kaufman L, Rousseeuw PJ. 1990. Finding
Groups in Data: An Introduction to Gerombol Analysis. New York : John
10
Lampiran 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris
Gerombol 1 Gerombol 2 Gerombol 3
X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 rataan 5.006 3.428 1.462 0.246 5.936 2.770 4.260 1.326 6.588 2.974 5.552 2.026 st.dev 0.3525 0.3791 0.1737 0.1054 0.5162 0.3138 0.4699 0.1978 0.6359 0.3225 0.5519 0.2747 ragam-peragam 0.1242 0.0992 0.0164 0.0103 0.2664 0.0852 0.1829 0.0558 0.4043 0.0938 0.3033 0.0491 0.0992 0.1437 0.0117 0.0093 0.0852 0.0985 0.0827 0.0412 0.0938 0.1040 0.0714 0.0476 0.0164 0.0117 0.0302 0.0061 0.1829 0.0827 0.2208 0.0731 0.3033 0.0714 0.3046 0.0488 0.0103 0.0093 0.0061 0.0111 0.0558 0.0412 0.0731 0.0391 0.0491 0.0476 0.0488 0.0754
Lampiran 2 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan Salah Klasifikasi (SK) k-means k-medoid SK Rataan SK SK Rataan SK 0% pencilan 16.67% 16.67% 15.33% 15.33% 5% pencilan k=1 32.67% 32.67% 9.33% 9.33% k=2 35.33% 34.00% 9.33% 9.33% k=3 35.33% 34.44% 11.33% 10.00% k=4 34.67% 34.50% 10.67% 10.17% k=5 34.00% 34.40% 11.33% 10.40% 10% pencilan k=1 31.33% 31.33% 36.00% 36.00% k=2 34.00% 32.67% 34.00% 35.00% k=3 37.33% 34.22% 36.00% 35.33% k=4 32.67% 33.83% 32.67% 34.67% k=5 34.67% 34.00% 30.00% 33.73% 15% pencilan k=1 25.33% 25.33% 34.00% 34.00% k=2 35.33% 30.33% 33.33% 33.67% k=3 32.67% 31.11% 36.00% 34.44% k=4 29.33% 30.67% 32.00% 33.83% k=5 37.33% 32.00% 29.33% 32.93%
11
Lampiran 3 Skript pembangkitan data dengan software Matlab
function [Y]=mnorm(mu,sigma,n)
%fungsi ini membentuk matriks data yang terdiri dari p variabel dengan mu %dan sigma tertentu
%Input:
%mu = vektor berukuran 1xp
%sigma = matriks ragam peragam berukuran pxp %n = banyaknya pengamatan %p = banyaknya variabel %Output: %Y = matriks data m=size (sigma); p=m(1); for i=1:n
Z(i,:)normrnd(0,1,[1 p]); %Z matriks berukuran nxp end
a=chol(sigma); %sigma=a'a M=mu(ones(n,1),:); Yt=M'+a'*Z'; Y=Yt';
function [Youtl]=gab(mu1,mu2,mu3,sigma1,sigma2,sigma3)
%fungsi ini untuk menggabungkan matriks X dengan parameter berbeda untuk %setiap gerombol menjadi satu matriks baru
%Input:
%mu1,mu2,mu3 = nilai tengah untuk gerombol 1,2,3
%sigma1,sigma2,sigma3 = matriks ragam peragam untuk gerombol 1,2,3 %Output:
%Xoutl = matriks gabungan data pencilan n=50; x1=mvn(mu1,sigma1,n); x2=mvn(mu2,sigma2,n); x3=mvn(mu3,sigma3,n); Youtl=[x1;x2;x3]; function [Xnew]=new(X,Youtl,a)
%fungsi ini membentuk matriks gabungan dari matriks data awal (X) dan %matriks pencilan (Youtl) dimana baris ke p pada X diganti dengan baris %ke p pada Youtl
%Input:
%X = matriks data awal
%Youtl = matriks data pencilan
%a = besarnya proporsi pencilan yang ingin diganti %Output
%Xnew = matriks gabungan sx=size(X); n=sx(1); m=ceil((a/100)*n); Xnew=X; for i=1:m rp=randperm(n); p=rp(1); Xnew(p,:)= Youtl(p,:); end b=cb(Xnew,X); if b<m s=m-b; for k=1:s
12
rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) k=k-1; else Xnew(p,:)= Youtl(p,:); end end end b=cb(Xnew,X) if b>m s=m-b; for k=1:s rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) Xnew(p,:)=X(p,:); end end end function b=cb(X,Youtl)%fungsi ini menghitung jumlah baris pada matriks X dan Youtl yang %berbeda yang diganti pada proses penggantian data dengan data pencilan %Input:
%X, Youtl = matriks data yang dibandingkan %Output
%b = jumlah baris yang berbeda sx=size(X); rx=sx(1); b=0; for i=1:rx if X(i,:)== Youtl(i,:) b=b+0; else b=b+1; end end
13
Lampiran 4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1)
7 6 5 4 3 2 1 0 -1 -2 5 4 3 2 1 0 -1 -2 Z1 Z2 8 7 6 5 4 3 2 1
Plot posisi 5% pencilan pada data
14
Lampiran 5 Plot gerombol dua skor komponen utama pada proporsi pencilan 10% (Iterasi 1)
7 6 5 4 3 2 1 0 -1 -2 4 3 2 1 0 -1 -2 Z1 Z2 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Plot posisi 10% pencilan pada data
15
Lampiran 6 Plot gerombol dua skor komponen utama pada proporsi pencilan 15% (Iterasi 1)
6 5 4 3 2 1 0 -1 -2 -3 4 3 2 1 0 -1 -2 Z1 Z2 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Plot posisi 15% pencilan pada data
16
Lampiran 7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1) Proporsi Pencilan k-means k-medoid V1 V2 V3 V4 V1 V2 V3 V4 medoid 5% Gerombol 1 -1.813 0.771 0.009 0.015 -1.836 0.755 -0.037 -0.018 8 Gerombol 2 0.610 -0.643 0.023 -0.008 -0.222 -0.822 -0.010 -0.097 95 Gerombol 3 4.020 2.760 -0.323 0.006 1.335 -0.385 0.132 0.166 140 10% Gerombol 1 -1.605 0.976 0.016 0.011 -1.845 0.679 -0.016 -0.032 8 Gerombol 2 0.438 -0.719 0.011 -0.004 0.396 -0.852 0.074 0.109 127 Gerombol 3 4.087 1.588 -0.175 -0.018 3.618 1.782 -0.103 0.039 59 15% Gerombol 1 -1.489 1.025 0.017 0.010 -1.779 0.785 0.002 0.008 1 Gerombol 2 3.649 0.885 -0.125 -0.001 3.017 0.959 -0.320 -0.074 100 Gerombol 3 0.191 -0.779 0.014 -0.006 0.152 -0.885 0.077 0.099 127