PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN YANNE FLOWRENSIA

(1)

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN

K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN

YANNE FLOWRENSIA

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2010

(2)

RINGKASAN

YANNE FLOWRENSIA. Perbandingan Penggerombolan K-means dan K-medoid pada Data yang Mengandung Pencilan. Dibimbing oleh I MADE SUMERTAJAYA dan LA ODE ABDUL RAHMAN.

Analisis gerombol merupakan salah satu metode peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya, sehingga objek yang terletak dalam satu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan objek pengamatan yang terletak pada gerombol lain. K-means merupakan salah satu metode penggerombolan tak berhirarki yang paling banyak digunakan, namun karena menggunakan rataan sebagai centroidnya, metode ini lebih sensitif terhadap keberadaan pencilan pada data. Sehingga berkembanglah metode baru, k-medoid, dengan berbasis median sebagai pusat gerombolnya. Penelitian ini bertujuan untuk membandingkan hasil analisis gerombol metode

k-means dengan k-medoid baik pada saat data mengandung pencilan maupun tidak. Metode k-medoid diharapkan lebih kekar terhadap pencilan dibandingkan dengan k-means, sehingga dapat

memberikan hasil gerombol yang lebih akurat dengan nilai tingkat salah klasifikasi yang lebih kecil. Hasil penggerombolan menunjukkan bahwa metode k-medoid mempunyai nilai rataan tingkat salah klasifikasi yang lebih rendah dan signifikan pada kondisi proporsi pencilan 5%, sedangkan pada kondisi proporsi pencilan 10% dan 15% hasil nilai rataan salah klasifikasinya tidak berbeda signifikan dengan metode k-means.

(3)

PERBANDINGAN PENGGEROMBOLAN K-MEANS DAN

K-MEDOID PADA DATA YANG MENGANDUNG PENCILAN

YANNE FLOWRENSIA

Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2010

(4)

Judul : Perbandingan Penggerombolan K-means dan K-medoid pada Data yang ciMengandung Pencilan

Nama : Yanne Flowrensia NRP : G14060259

Menyetujui :

Pembimbing I,

Dr. Ir. I Made Sumertajaya, M.Si NIP : 196807021994021001

Pembimbing II,

La Ode Abdul Rahman, S.Si, M.Si

Mengetahui :

Ketua Departemen Statistika

Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto, M.Si NIP : 196504211990021001

(5)

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah SWT atas segala berkah dan rahmat-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Karya ilmiah ini berjudul ”Perbandingan Penggerombolan K-means dan K-medoid pada Data yang Mengandung Pencilan”. Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Penulis menyampaikan terimakasih kepada Bapak Dr. Ir. I Made Sumertajaya, M.Si dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku dosen pembimbing yang telah memberikan bimbingan, masukan dan arahan selama penulisan karya ilmiah ini. Terimakasih juga kepada Ibu Dr. Ir. Anik Djuraidah, MS selaku dosen moderator seminar serta Bapak Ir. Bunawan Sunarlim, MS selaku dosen penguji yang telah memberikan banyak saran dan masukannya kepada penulis. Disamping itu, penulis juga mengucapkan terimakasih kepada seluruh dosen dan staf pengajar Departemen Statistika yang telah memberikan ilmu dan wawasan selama penulis menuntut ilmu di Departemen Statistika serta seluruh staf Departemen Statistika yang telah banyak membantu penulis. Ungkapan terimakasih juga disampaikan kepada kedua orang tua dan seluruh keluarga yang telah memberikan doa, kasih sayang serta dorongan yang tulus baik moril maupun materil.

Penulis sangat menghargai kritik dan saran untuk perbaikan karya ilmiah ini. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan.

Bogor, November 2010

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Bukit Tinggi pada tanggal 28 Juli 1988. Penulis merupakan anak tunggal dari pasangan Bapak Deswarto dan Ibu Yumarni.

Tahun 2000 penulis lulus dari SD N 3 Pasar Kemis Tangerang, kemudian melanjutkan studi di SLTP N 1 Pasar Kemis Tangerang hingga tahun 2003. Selanjutnya, penulis menyelesaikan pendidikannya di SMA N 2 Tangerang dan lulus pada tahun 2006. Pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Masuk IPB). Setelah satu tahun menjalani perkuliahan di TPB (Tingkat Persiapan Bersama), pada tahun 2007 penulis diterima sebagai mahasiswa Departemen Statistika, FMIPA IPB dengan mayor Statistika dan minor Ilmu Konsumen.

Selama mengikuti perkuliahan, penulis berkesempatan menjadi Asisten Dosen Mata Kuliah Metode Statistika pada tahun ajaran 2008/2009, serta Mata Kuliah Analisis Regresi I pada tahun ajaran 2009/2010. Penulis juga aktif dalam berbagai kegiatan kepanitiaan seperti Statistika Ria 2008, Welcome Ceremony Statistics (WCS) 2008 dan 2009, serta Pesta Sains 2008 dan 2009. Pada Februari – April 2010, penulis melaksanakan kegiatan praktik lapang di Perusahaan Media Televisi Indonesia (Metro TV), Jakarta Barat.

(7)

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... vii

DAFTAR TABEL ... vii

DAFTAR LAMPIRAN ... vii

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan ... 1

TINJAUAN PUSTAKA ... 1

Pencilan ... 1

Analisis Komponen Utama ... 1

Analisis Gerombol ... 2

Penggerombolan K-means ... 2

Penggerombolan K-medoid ... 2

DATA DAN METODE ... 3

Data ... 3

Metode ... 3

HASIL DAN PEMBAHASAN ... 4

Karakteristik Data ... 4

Pembentukan dan Identifikasi Pencilan ... 5

Perbandingan Hasil Penggerombolan K-means dan K-medoid ... 6

Hasil Penggerombolan Data Asli (Tanpa Pencilan) ... 6

Hasil Penggerombolan Data yang Mengandung Pencilan ... 7

SIMPULAN DAN SARAN ... 8

DAFTAR PUSTAKA ... 8

(8)

vii

DAFTAR GAMBAR

Halaman

1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris ... 5

4 Plot gerombol k-means ... 7

5 Plot gerombol k-medoid ... 7

DAFTAR TABEL

Halaman 1 Deskripsi tiap peubah karakteristik tanaman bunga iris ... 5

2 Korelasi antar peubah karakteristik tanaman bunga iris ... 5

3 Vektor rataan baru untuk pembangkitan gugus data pencilan ... 6

4 Rata-rata tingkat salah klasifikasi pada penggerombolan k-means dan k-medoid ... 7

DAFTAR LAMPIRAN

Halaman 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris ... 10

2 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan ... 10 3 Skript pembangkitan data dengan software Matlab ... 11

4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1) ... 13

7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1) ... 16

(9)

1 PENDAHULUAN

Latar Belakang

Analisis gerombol merupakan salah satu alat analisis statistika yang cukup penting dan telah banyak diterapkan pada berbagai bidang. Pada bidang sosial analisis gerombol dapat

mengklasifikasikan manusia berdasarkan

perilaku dan kesukaan mereka, pada bidang marketing, sering digunakan sebagai alat untuk segmentasi pasar, pada bidang geografi

dapat mengelompokkan wilayah/region

berdasarkan kriteria tertentu, dan kegunaan-kegunaan pada bidang lainnya.

Dalam metode penggerombolan dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Salah satu metode penggerombolan tidak berhirarki yang umum digunakan dalam analisis gerombol ialah metode k-means. Dalam penggerombolan, keberadaan pencilan pada data sangat diperhatikan, karena pencilan tersebut akan mempengaruhi hasil penggerombolan. Metode

k-means akan lebih sensitif terhadap data yang

mengandung pencilan karena menggunakan rataan sebagai centroidnya (Kaufmann & Rousseeuw 1990). Oleh karena itu kajian mengenai metode penggerombolan yang kekar tehadap pencilan mutlak diperlukan, karena keberadaan pencilan dalam data terkadang tidak dapat dihindarkan.

Salah satu statistik yang cukup kekar terhadap pencilan yaitu median, sehingga berkembang metode alternatif yang dapat menggerombolkan data yang mengandung

pencilan yaitu k-medoid. K-medoid

merupakan salah satu metode dari

penggerombolan tak berhirarki yang

menggunakan median sebagai pusat

gerombolnya.

Tujuan

Penelitian ini bertujuan untuk

membandingkan hasil analisis k-means dan

k-medoid pada penggerombolan data baik

pada saat data mengandung pencilan maupun tidak.

TINJAUAN PUSTAKA

Pencilan

Pencilan ialah data yang tidak mengikuti pola umum model dan secara kasar yaitu

yang sisaannya (error) berjarak tiga

simpangan baku atau lebih jauh lagi dari rata-rata sisaannya. Pencilan merupakan suatu keganjilan dan menandakan suatu titik data

yang sama sekali tidak tipikal dibandingkan data lainnya (Aunuddin 1989).

Pencilan menurut Johnson & Winchern (1998) yaitu suatu pengamatan pada rangkaian data yang terlihat tidak konsisten terhadap sisaan dari data tersebut. Pada analisis

gerombol keberadaan pencilan dapat

menyebabkan gerombol yang terbentuk

menjadi tidak representatif (Barnett & Lewis 1994).

Analisis Komponen Utama

Analisis komponen utama (AKU)

merupakan pendekatan statistika untuk

mereduksi gugus peubah asal berdimensi p menjadi gugus peubah baru (komponen utama) berdimensi q dimana q<p (Johnson 1998).

Menurut Johnson & Winchern (1998) ada tiga karakteristik komponen utama, yaitu:

 Informasi data asal yang dijelaskan

maksimum (memiliki ragam maksimum)

 Antar komponen utama saling

ortogonal/bebas

 Merupakan kombinasi linier dari peubah

asal

Tujuan dari analisis komponen utama yaitu:

 Mendapatkan peubah-peubah baru yang

saling ortogonal/bebas

 Membuat plot objek dalam dimensi yang

lebih kecil

AKU dapat diturunkan dari matriks ragam peragam ( ) atau matriks korelasi (R), melalui persamaan ciri berikut:

atau

Misalkan 12 … p > 0 adalah akar

ciri yang berpadanan dengan vektor ciri 1,

2, …, p dari matriks atau R, dan panjang

dari setiap vektor itu masing masing adalah 1,

atau i’ i = 1 untuk i = 1, 2, …, p. Maka,

KU1 = 1’X, dengan var(KU1) = 1

KU2 = 2’X, dengan var(KU2) = 2

…,

KUp = p’X, dengan var(KUp) = p

berturut-turut adalah komponen utama

pertama, kedua, …, ke-p dari X.

Ada tiga metode dalam penentuan banyaknya KU, yaitu:

1. Berdasarkan kumulatif proporsi

keragaman total yang mampu dijelaskan. 2. Pemilihan komponen utama didasarkan

pada ragam komponen utama, yang tidak lain adalah akar ciri.

3. Penggunaan grafik yang disebut scree plot

p ip i i i a X a X a X Y  1 1 2 2...

(10)

2

Analisis Gerombol

Analisis gerombol merupakan salah satu analisis peubah ganda yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya sehingga setiap objek yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan (Hair et al. 1995). Menurut Johnson & Winchern (1998) ada dua jenis penggerombolan data yang sering digunakan yaitu penggerombolan berhirarki dan penggerombolan tak berhirarki.

1. Metode Hirarki

Metode penggerombolan hirarki

digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini efektif digunakan untuk ukuran data kecil.

Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya

dianggap sebagai gerombol tersendiri

sehingga terdapat gerombol sebanyak jumlah observasi. Kemudian dua gerombol yang terdekat kesamaannya digabung menjadi suatu gerombol baru, sehingga jumlah gerombol berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu gerombol besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk gerombol-gerombol yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi gerombol sendiri-sendiri.

2. Metode Tidak Berhirarki

Metode penggerombolan tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya.

Metode tidak berhirarki mampu

meminimalkan rata-rata jarak setiap data ke gerombolnya. Karakteristik dari algoritma tidak berhirarki salah satunya adalah sangat sensitif dalam penentuan titik pusat gerombol awal karena secara titik pusat awal ini ditetapkan secara acak.

Pada saat pembangkitan awal titik pusat yang acak tersebut mendekati solusi akhir pusat gerombol, metode tidak berhirarki mempunyai kemungkinan yang tinggi untuk menemukan titik pusat gerombol yang tepat. Sebaliknya, jika titik pusat awal tersebut jauh dari solusi akhir pusat gerombol, maka besar kemungkinan hal ini akan menyebabkan penggerombolan yang tidak tepat. Akibatnya

metode ini tidak menjamin hasil

penggerombolan yang unik.

Penggerombolan K-means

K-means merupakan salah satu metode

penggerombolan data tidak berhirarki yang berusaha mempartisi data yang ada ke dalam satu atau lebih gerombol. Adapun tujuan dari penggerombolan data ini adalah untuk meminimalkan fungsi objektif yang pada umumnya berusaha meminimalkan keragaman di dalam suatu gerombol dan memaksimalkan keragaman antar gerombol (Hair et al. 1995).

Untuk menghitung centroid gerombol

ke-i, pada peubah ke-j, cij, digunakan rumus

sebagai berikut:

dengan adalah nilai pengamatan objek

ke-k untuk peubah ke-j. Sedangkan Ni adalah

jumlah data yang menjadi anggota gerombol ke-i (Agusta 2007).

Har-Peled & Kushal (2007) menyatakan, misalkan S sebagai sekumpulan objek,

dalam suatu fungsi jarak

tertentu. Ide dasar dari k-means yaitu

menemukan titik pusat (rataan)

, dimana S dapat dipartisi ke-k

gerombol C1, C2,..., Ck dengan menempatkan

setiap objek dalam S ke centroid terdekat Ci.

Jumlah kuadrat jarak yang diminimalkan yaitu:

Perhitungan jarak atau tingkat kemiripan dalam analisis gerombol salah satunya menggunakan konsep jarak Euclid, dimana untuk dua unit pengamatan yang mempunyai vektor x dan y dengan dimensi p peubah, jarak Euclidnya adalah:

Jarak Euclid dapat digunakan jika tidak ada korelasi antar peubah yang diamati. Jika terjadi korelasi antar peubah maka perlu dilakukan analisis komponen utama terlebih dahulu.

Penggerombolan K-medoid

K-medoid merupakan salah satu teknik

penggerombolan yang mirip dengan k-means. Namun perbedaan mendasarnya adalah pada

k-medoid data/objek dipilih sebagai pusat

gerombol (medoid).

Salah satu algoritma yang sering

digunakan dalam k-medoid yaitu Partitioning

(11)

3

menggunakan data yang berada di tengah gerombol, maka metode ini lebih kekar

terhadap pencilan dibandingkan dengan

metode k-means (Kaufman & Rousseuw 1990).

Anggap S sebagai sekumpulan objek,

dalam fungsi jarak Euclid.

Ide dasar dari k-medoid yaitu menemukan k

objek sebagai medoid,

yang meminimumkan total jarak dari setiap objek ke medoidnya (Har-Peled & Kushal 2007). Medoid dapat diartikan sebagai sebuah objek dari sebuah gerombol yang mempunyai rata-rata jarak terkecil ke objek lainnya, dengan kata lain yaitu objek yang terletak ditengah-tengah gugus data.

Kaufman & Rousseuw (1990) menyatakan

bahwa, misalkan nXp adalah gugus data yang

mempunyai n objek dan p peubah. Jarak antara objek ke-i, xi, dan objek ke-j, xj,

dinotasikan dengan . Dalam pemilihan

suatu objek sebagai objek yang representatif

dalam suatu gerombol (medoid awal), yi

didefinisikan sebagai variabel biner 0 dan 1,

dimana jika dan hanya jika objek i

dipilih sebagai medoid awal. Penempatan setiap objek j ke salah satu

medoid awal dapat dituliskan sebagai ,

dimana didefinisikan sebagai variabel

biner 0 dan 1, bernilai 1 jika dan hanya jika

objek j ditempatkan ke gerombol dimana objek i sebagai medoid awal.

Vinod (1969) dalam Kaufman &

Rousseeuw (1990) pertama kali menemukan model optimasi dalam k-medoid yang dapat dituliskan sebagai berikut:

(1) Dimana: (2) i , j = 1,2,..., n (3) k = jumlah gerombol (4) (5)

Persamaan (2) menyatakan bahwa setiap objek j harus di tempatkan ke hanya satu medoid awal. Persamaan (2) dan (5)

berimplikasi bahwa untuk suatu j, akan

bernilai 1 atau 0. Persamaan (4) menyatakan bahwa hanya ada k objek yang akan dipilih sebagai medoid.

Gerombol akan terbentuk dengan

menempatkan setiap objek ke medoid awal yang terdekat. Persamaan (2) berimplikasi

bahwa jarak antara objek j dan medoid awal didefinisikan sebagai:

Karena semua objek harus ditempatkan ke medoid terdekat, total jarak didefinisikan sebagai:

dimana fungsi tersebut merupakan fungsi objektif yang harus diminimalkan dalam metode ini.

DATA DAN METODE

Data

Data yang digunakan dalam penelitian ini yaitu data contoh dan data simulasi. Data contoh diperoleh dari database University of

California, Irvinea (ftp://ftp.ics.uci.edu/pub/m

achine-learning-databases/iris/

)

. Data tersebut merupakan data hasil 150 pengukuran peubah karakteristik tanaman bunga iris (50 objek untuk setiap tiga varietas, yaitu Setosa,

Versicolor, dan Virginica). Dimana tiga jenis

varietas bunga iris tersebut dianggap sebagai

gerombol pada penelitian ini. Peubah

karakteristik tanaman bunga iris yang

digunakan sebagai berikut:

X1 = Panjang sepal/daun kelopak (cm) X2 = Lebar sepal/daun kelopak (cm) X3 = Panjang petal/daun mahkota (cm) X4 = Lebar petal/daun mahkota (cm)

Data simulasi merupakan data hasil bangkitan bilangan acak normal ganda yang akan digunakan sebagai gugus data pencilan.

Metode

Tahap-tahap yang dilakukan dalam

persiapan data adalah:

1. Memastikan tidak ada pencilan pada data contoh dengan menghitung jarak kuadrat

Mahalanobis (Di2) untuk tiap

pengamatan di setiap gerombol. Nilai Di2

kemudian dibandingkan dengan

(α=0.01). Jika Di2> , maka xi atau

pengamatan ke-i dianggap sebagai pencilan.

dimana µ merupakan vektor nilai tengah

X, dan merupakan matriks kovarian

(12)

4

2. Menyiapkan gugus data pencilan dengan membangkitkan peubah acak normal

ganda dengan parameter µ

yang diekstrimkan dari data contoh dan dengan matriks ragam-peragam yang sama dengan data contoh.

Proses penyiapan gugus data pencilan:

2.1 Hitung statistik rataan dan matriks

ragam-peragam S dari data contoh untuk setiap gerombol, sehingga didapat 1, 2, 3, S1,S2,S3.

2.2 Ekstrimkan nilai 1, 2, 3 dengan

cara meningkatkan nilai tersebut

sebesar 70%, atau

2.3 Nilai rataan yang baru ( )

digunakan sebagai parameter untuk pembangkitan data normal ganda

. Parameter

diduga dari nilai S yang didapat pada langkah 1.

2.4 Bangkitkan masing-masing 50

bilangan acak normal ganda

sehingga

didapat matriks Y1, Y2, Y3.

2.5 Gabungkan Y1, Y2, Y3 sehingga

didapat matriks 150Y4 yang

digunakan sebagai gugus data

pencilan.

3. Menyiapkan gugus data baru yang merupakan gabungan dari data contoh yang sebagian datanya (γn) diganti dengan objek pada gugus data pencilan. Proporsi pencilan yang diberikan (γ) yaitu sebesar 0% (tanpa pencilan), 5%, 10%, dan 15%.

4. Melakukan identifikasi pencilan pada gugus data yang telah dibentuk pada langkah 3 untuk memastikan proporsi pencilan yang diberikan.

Langkah-langkah yang dilakukan dalam analisis data adalah:

1. Memeriksa kebebasan antar peubah dengan menggunakan korelasi Pearson. Koefisien korelasi Pearson dihitung dengan persamaan sebagai berikut:

dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

hipotesis nol ditolak jika t lebih besar dari t tabel pada taraf nyata 5% dengan derajat bebas n-2 (Aunuddin 2005).

2. Melakukan analisis komponen utama jika pada langkah 1 hipotesis nol ditolak.

3. Menggerombolkan data baik tanpa

pencilan maupun dengan pencilan

menggunakan metode k-means dengan tahapan:

3.1 Menentukan pusat gerombol awal secara acak.

3.2 Menghitung jarak setiap objek

dengan pusat gerombol dengan menggunakan jarak Euclid.

3.3 Alokasikan tiap objek ke suatu

gerombol yang memiliki jarak

terdekat dengan pusat gerombolnya. 3.4 Hitung kembali pusat gerombol yang

terbentuk dengan merata-ratakan

pusat gerombolnya.

3.5 Ulangi dari langkah 3.2 sampai tidak

ada perpindahan objek antar

gerombol.

4. Menggerombolkan data baik tanpa

pencilan maupun dengan pencilan

menggunakan metode k-medoid dengan tahapan:

4.1 Inisialisasi, yaitu menentukan k objek sebagai medoid.

4.2 Alokasikan tiap objek ke suatu

gerombol yang memiliki jarak

terdekat dengan medoid gerombol tersebut.

4.3 Mencari objek lain yang lebih baik sebagai medoid (yang memiliki jarak rataan terkecil ke semua objek)

dengan membandingkan semua

pasangan objek medoid dan non-medoid.

4.4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan pada medoid.

5. Membandingkan hasil penggerombolan

k-means dan k-medoid pada langkah 3

dan 4.

6. Menghitung tingkat salah klasifikasi pada metode k-means dan k-medoid pada berbagai kondisi proporsi pencilan. 7. Melakukan tahap persiapan dan analisis

data hingga rataan nilai tingkat salah klasifikasi cukup konsisten.

HASIL DAN PEMBAHASAN

Karakteristik Data

Data contoh merupakan data pengamatan empat peubah karakteristik tanaman bunga iris dengan deskripsi tiap peubah ditunjukkan

(13)

5

pada Tabel 1. Sedangkan untuk deskripsi setiap gerombol awal pada data contoh dapat dilihat pada Lampiran 1.

Tabel 1 Deskripsi tiap peubah karakteristik tanaman bunga iris

Peubah Rataan Standar Deviasi X1 5.843 0.828 X2 3.057 0.436 X3 3.758 1.765 X4 1.199 0.762

Besarnya korelasi antar peubah dapat dilihat pada Tabel 2. Tabel 2 menunjukkan bahwa hampir pada semua peubah saling berkorelasi dan signifikan pada taraf nyata 5% kecuali pada peubah X1 (panjang sepal) dan X2 (lebar sepal). Hubungan antara panjang sepal (X1) dan panjang petal (X3) bernilai positif dan mempunyai nilai korelasi yang besar (0.872) sehingga peningkatan panjang sepal menyebabkan peningkatan panjang petal dan sebaliknya, begitu pula dengan peubah panjang petal (X3) dan lebar petal (X4). Lebar sepal (X2) memiliki korelasi negatif yang siginifikan pada taraf 5% terhadap panjang petal (X3) dan lebar petal (X4) yang masing-masing bernilai -0.428 dan

-0.366. Korelasi antara peubah-peubah

tersebut tidak besar namun cukup kuat dibuktikan dengan nilai-p yang signifikan pada taraf 5%.

Tabel 2 Korelasi antar peubah karakteristik tanaman bunga iris

X1 X2 X3 X4 X1 r 1 nilai-p 0.000 X2 r -0.118 1 nilai-p 0.152 0.000 X3 r 0.872 -0.428 1 nilai-p 0.000 0.000 0.000 X4 r 0.818 -0.366 0.963 1 nilai-p 0.000 0.000 0.000 0.000

Jarak Euclid mensyaratkan tidak adanya korelasi antar peubah pada data, oleh karena itu dilakukan proses transformasi komponen utama untuk mendapatkan nilai antar peubah yang saling bebas. Pada penelitian ini dipilih matriks ragam-peragam sebagai matriks masukan untuk mendapatkan skor komponen utama. Pemilihan matriks ragam-peragam ini didasarkan pada satuan awal data contoh yang

sama (cm). Untuk mendapatkan skor

komponen utama yang mempunyai

karakteristik paling mirip dengan karakteristik data asli maka digunakan seluruh komponen utama.

Pembentukan dan Identifikasi Pencilan

Pengujian keberadaan pencilan pada data

dengan menggunakan uji Chi-Square

membutuhkan asumsi kenormalan data.

Kenormalan data dapat dilihat dengan cara membuat plot Quantil antara nilai jarak kuadrat mahalanobis terurut dengan nilai

Chi-Square dari (Johnson & Winchern 1998).

Plot Quantil Chi-Square untuk

gerombol 1 pada Gambar 1 menunjukkan pola yang mengikuti garis lurus atau linear sehingga data tersebut dapat dikatakan menyebar normal ganda. Hal yang sama juga ditunjukkan oleh plot Quantil Chi-Square untuk gerombol 2 pada Gambar 2 dan plot Quantil Chi-Square untuk gerombol 3 pada Gambar 3.

Gambar 1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris

Gambar 2 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris 0 2 4 6 8 10 12 14 16 0 5 10 15 di 2 χ2 p((j-1/2)/n) 0 2 4 6 8 10 12 14 0 5 10 15 di 2 χ2 p((j-1/2)/n)

(14)

6

Gambar 3 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris

Ketiga plot Quantil menunjukkan data menyebar normal ganda, karena itu proses identifikasi pencilan data contoh dapat dilakukan dengan jarak Mahalanobis. Suatu pengamatan disebut pencilan apabila jarak Mahalanobis terhadap nilai tengah melebihi

titik kritis . Hasil perhitungan jarak

Mahalanobis menunjukkan bahwa tidak ada pencilan pada data contoh. Hal tersebut dikarenakan semua pengamatan memiliki jarak Mahalanobis tidak melebihi 13.277. Jika asumsi kenormalan data tidak terpenuhi, maka alternatif pengujian keberadaan pencilan dapat menggunakan boxplot dari nilai jarak kuadrat Mahalanobis.

Data contoh yang digunakan merupakan data yang tidak mengandung pencilan. Oleh karena itu diperlukan data pencilan untuk proses simulasi. Data pencilan dibangkitkan dengan meningkatkan vektor rataan sebesar 70% dari vektor rataan awal data contoh untuk setiap gerombol. Sedangkan untuk matriks ragam-peragam disamakan dengan matriks ragam-peragam tiap gerombol awal data contoh.

Tabel 3 Vektor rataan baru untuk

pembangkitan gugus data

pencilan µ1 µ2 µ3 X1 8.510 10.091 11.199 X2 5.827 4.709 5.056 X3 2.485 7.242 9.438 X4 0.418 2.254 3.444

Proses awal sebelum dilakukan

penggerombolan k-means dan k-medoid

adalah pengidentifikasian jumlah pencilan pada berbagai kondisi proporsi pencilan. Hal

ini dilakukan untuk memastikan apakah data yang diberikan benar-benar sebagai data pencilan.

Dari 5 kali ulangan pembentukan gugus

data baru, hasil perhitungan jarak

Mahalanobis untuk setiap gerombol

menunjukkan bahwa semua pencilan yang diberikan teridentifikasi sebagai pencilan oleh jarak Mahalanobis, baik pada proporsi pencilan 5%, 10% maupun 15%.

Perbandingan Hasil Penggerombolan

K-means dan K-medoid

Proses penggerombolan dilakukan pada skor komponen utama yang didapat dari hasil transformasi komponen utama pada data asli dan data asli yang telah diberikan proporsi pencilan tertentu. Pembentukan gugus data baru yang mengandung pencilan dilakukan hingga rata-rata hasil tingkat salah klasifikasi baik pada hasil penggerombolan k-means dan

k-medoid menunjukkan hasil yang cukup

konsisten. Lampiran 2 menunjukkan nilai tingkat salah klasifikasi dari 5 kali ulangan

yang meliputi pembangkitan data,

penggantian γn data asli dengan data pencilan hingga menggerombolkan data skor utama dari data yang telah diberi pencilan.

Untuk menghitung salah klasifikasi pada

penggerombolan data dengan proporsi

pencilan 0%, hasil penggerombolannya

dibandingkan dengan penggerombolan awal data yang telah diketahui. Sedangkan untuk menghitung nilai salah klasifikasi dari data yang sudah diberikan pencilan (proporsi

pencilan 5%, 10% dan 15%), hasil

penggerombolannya dibandingkan dengan hasil penggerombolan pada proporsi pencilan 0% dan bukan pada penggerombolan data awal yang telah diketahui. Hal ini disebabkan data awal tersebut sudah memiliki nilai salah klasifikasi sendiri, sehingga jika diberi pencilan dapat dilihat bagaimana kemampuan atau kekekaran dari dua metode tersebut.

Hasil Penggerombolan Data Asli (Tanpa Pencilan)

Dari hasil penggerombolan k-means yang terbentuk dapat dilihat bahwa gerombol 1 (bunga jenis iris Setosa) memiliki jarak gerombol yang terpisah dari gerombol 2 dan 3 (bunga jenis iris Versicolor dan Virginica), sedangkan untuk gerombol 2 dan 3 memiliki jarak gerombol yang dekat satu sama lain. Hal ini dapat dilihat dari hasil plot dua skor komponen utama yang menjelaskan 89.75% keragaman pada data baik pada metode

k-means maupun k-medoid. Gambar 4 0 2 4 6 8 10 12 14 16 0 5 10 15 di 2 χ2 p((j-1/2)/n)

(15)

7

menunjukkan plot penggerombolan data asli dengan metode k-means, sedangkan Gambar 5 menunjukkan plot penggerombolan data asli dengan metode k-medoid.

Gambar 4 Plot gerombol k-means

Gambar 5 Plot gerombol k-medoid

Pada gerombol 1 tidak terjadi salah klasifikasi ke gerombol lain baik pada

k-means maupun k-medoid, hal ini diakibatkan gerombol 1 memiliki jarak yang terpisah cukup jauh dengan 2 gerombol lainnya. Lain halnya dengan gerombol 2 dan 3 yang masih terdapat salah klasifikasi karena jarak gerombol yang cukup berdekatan.

Dari hasil nilai tingkat salah klasifikasi,

k-means memiliki tingkat salah klasifikasi

sebesar 16.67%, sedangkan hasil

penggerombolan k-medoid memiliki tingkat salah klasifikasi sebesar 15.33%. Pada kondisi ini, hasil penggerombolan k-medoid sedikit lebih baik dibandingkan dengan k-means.

Hasil Penggerombolan Data dengan Pencilan

Pada kondisi proporsi pencilan 5%, hasil

penggerombolan k-medoid menunjukkan

perbedaan yang signifikan dibandingkan dengan hasil penggerombolan pada k-means. Tingkat salah klasifikasi dari rata-rata 5 kali ulangan pada k-means mencapai 34.40%, sedangkan pada k-medoid tingkat salah klasifikasinya hanya sebesar 10.40%. Pada kondisi ini hanya ada delapan pencilan yang dimasukkan ke dalam data awal, sehingga

k-medoid masih bisa mengakomodir keberadaan pencilan ini, walaupun pencilan

yang diberikan untuk gerombol 2

teridentifikasi sebagai anggota gerombol 3. Hal ini juga ditunjukkan oleh plot gerombol pada Lampiran 4.

Pada kondisi proporsi pencilan 10% dan 15% tidak menunjukkan perbedaan yang signifikan baik pada hasil penggerombolan dengan k-means maupun dengan k-medoid. Pada proporsi pencilan 10%, rata-rata hasil tingkat salah klasifikasi k-means sebesar 34.00% sedangkan untuk k-medoid sebesar 33.73%. Pada proporsi pencilan 15% rata-rata hasil tingkat salah klasifikasi k-means sebesar 32.00% dan k-medoid sebesar 32.93%. Pencilan yang diberikan pada kondisi ini membentuk sebuah gerombol tersendiri, yang juga berdampak pada anggota gerombol 3 yang teridentifikasi sebagai gerombol 2,

sehingga penggerombolannya menjadi

gerombol 1 (bunga jenis iris Setosa), gerombol 2 (bunga jenis iris Versicolor, dan

Virginica), serta gerombol pencilan yang

diberikan untuk gerombol 2 dan 3. Hal ini dapat dilihat pada Lampiran 5 dan 6.

Tabel 4 Rata-rata tingkat salah klasifikasi

pada hasil penggerombolan

k-means dan k-medoid

Proporsi Pencilan k-means k-medoid 0% 16.67% 15.33% 5% 34.40% 10.40% 10% 34.00% 33.73% 15% 32.00% 32.93%

Lampiran 7 menunjukkan koordinat nilai centroid dan medoid pada kedua metode untuk berbagai kondisi pencilan. Perbedaan yang terlihat jelas pada koordinat pusat

gerombol kedua metode yaitu pada

gerombol 3 saat kondisi proporsi pencilan 5%. Nilai koordinat centroid terlihat cukup besar dibandingkan dengan koordinat objek medoid

(16)

8

gerombol 3, karena pada gerombol 3 k-means memberikan hasil penggerombolan yang

beranggotakan hanya data pencilan,

sedangkan pada k-medoid, gerombol 3 mirip pada gerombol 3 data asli.

Dari hasil tingkat salah klasifikasi

perbedaan yang signifikan hanya terdapat pada kondisi proporsi pencilan 5%. Pada kasus data ini dimungkinkan adanya suatu batas toleransi dimana k-medoid dapat menangani pencilan, yaitu sampai pada proporsi pencilan 5%. Semakin banyak pencilan yang diberikan maka perpindahan objek antar gerombol semakin sulit dihindari, sehingga nilai tingkat salah klasifikasi pun semakin besar. Hal ini juga tergantung dari karakteristik data yang akan digerombolkan. Semakin dekat jarak antar gerombol maka akan semakin sensitif terhadap keberadaan

pencilan dan menyebabkan banyaknya

perpindahan objek antar gerombol, begitu pula sebaliknya.

Pada kondisi proporsi pencilan 10% dan 15% tidak terdapat perbedaan yang signifikan, karena baik pada k-means maupun k-medoid, pencilan yang diberikan membentuk gerombol tersendiri. Hal ini juga disebabkan pada proses pembentukan pencilan, dimana gugus data pencilan dibentuk berdasarkan sebaran normal ganda. Sehingga kecenderungan pencilan-pencilan tersebut untuk menggerombol sulit dihindari.

SIMPULAN DAN SARAN

Simpulan

Penggerombolan k-medoid menunjukkan hasil yang lebih baik dibandingkan dengan hasil penggerombolan k-means, terutama dalam kondisi proporsi pencilan 5%. Dimana pada taraf ini dimungkinkan sebagai batas toleransi keberadaan pencilan untuk k-medoid. Untuk kondisi proporsi pencilan 10% dan 15% hasil penggerombolan k-means dan

k-medoid tidak menunjukkan perbedaan yang

signifikan. Hal ini didukung dari pergerakan nilai centroid dan medoid pada kondisi 5% yang cukup berbeda pada gerombol 3. Sedangkan pada kondisi proporsi pencilan 10% dan 15%, koordinat centroid dan medoid tidak terlihat jauh berbeda.

Saran

Diharapkan pada penelitian selanjutnya

dapat mengkaji mengenai proses

pembentukan pencilan serta melakukan

kontrol secara komputasi terhadap

penggantian data asli dengan data pencilan,

dimana data asli yang diganti dan data pencilan pengganti yaitu data yang memiliki nilai jarak Mahalanobis maksimum. Dengan

cara tersebut diharapkan hasil

penggerombolan pada k-medoid akan lebih baik untuk berbagai kondisi pencilan.

DAFTAR PUSTAKA

Agusta Y. 2007. K-means: Penerapan, Permasalahan dan Metode Terkait. Jurnal

Sistem dan Informatika. 3(1):47-60.

Aunuddin. 1989. Analisis Data. Bogor: IPB Press.

_____. 2005. Statistika : Rancangan dan

Analisis Data. Bogor : IPB Press.

Barnett V, Lewis T. 1994. Outliers in

Statistical Data 3rd Edition. New York :

John Wiley

Hair JF Jr, Anderson RE, Tatham RL, Black

WC. 1995. Multivariate Data Analysis 4th

Edition. New Jersey : Prentice Hall

Har-Peled S, Kushal A. 2007. Smaller Coresets for k-Median and k-Means Clustering. Discrete & Computational

Geometry. 37: 3-19.

Johnson RA, Winchern DW. 1998. Applied

Multivariate Statistical Analisys 4th Edition. London : Prentice-Hall.

Kaufman L, Rousseeuw PJ. 1990. Finding

Groups in Data: An Introduction to Gerombol Analysis. New York : John

(17)

(18)

10

Lampiran 1 Deskripsi tiap gerombol peubah karakteristik tanaman bunga iris

Gerombol 1 Gerombol 2 Gerombol 3

X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 rataan 5.006 3.428 1.462 0.246 5.936 2.770 4.260 1.326 6.588 2.974 5.552 2.026 st.dev 0.3525 0.3791 0.1737 0.1054 0.5162 0.3138 0.4699 0.1978 0.6359 0.3225 0.5519 0.2747 ragam-peragam 0.1242 0.0992 0.0164 0.0103 0.2664 0.0852 0.1829 0.0558 0.4043 0.0938 0.3033 0.0491 0.0992 0.1437 0.0117 0.0093 0.0852 0.0985 0.0827 0.0412 0.0938 0.1040 0.0714 0.0476 0.0164 0.0117 0.0302 0.0061 0.1829 0.0827 0.2208 0.0731 0.3033 0.0714 0.3046 0.0488 0.0103 0.0093 0.0061 0.0111 0.0558 0.0412 0.0731 0.0391 0.0491 0.0476 0.0488 0.0754

Lampiran 2 Nilai tingkat salah klasifikasi penggerombolan data pada berbagai kondisi pencilan Salah Klasifikasi (SK) k-means k-medoid SK Rataan SK SK Rataan SK 0% pencilan 16.67% 16.67% 15.33% 15.33% 5% pencilan k=1 32.67% 32.67% 9.33% 9.33% k=2 35.33% 34.00% 9.33% 9.33% k=3 35.33% 34.44% 11.33% 10.00% k=4 34.67% 34.50% 10.67% 10.17% k=5 34.00% 34.40% 11.33% 10.40% 10% pencilan k=1 31.33% 31.33% 36.00% 36.00% k=2 34.00% 32.67% 34.00% 35.00% k=3 37.33% 34.22% 36.00% 35.33% k=4 32.67% 33.83% 32.67% 34.67% k=5 34.67% 34.00% 30.00% 33.73% 15% pencilan k=1 25.33% 25.33% 34.00% 34.00% k=2 35.33% 30.33% 33.33% 33.67% k=3 32.67% 31.11% 36.00% 34.44% k=4 29.33% 30.67% 32.00% 33.83% k=5 37.33% 32.00% 29.33% 32.93%

(19)

11

Lampiran 3 Skript pembangkitan data dengan software Matlab

function [Y]=mnorm(mu,sigma,n)

%fungsi ini membentuk matriks data yang terdiri dari p variabel dengan mu %dan sigma tertentu

%Input:

%mu = vektor berukuran 1xp

%sigma = matriks ragam peragam berukuran pxp %n = banyaknya pengamatan %p = banyaknya variabel %Output: %Y = matriks data m=size (sigma); p=m(1); for i=1:n

Z(i,:)normrnd(0,1,[1 p]); %Z matriks berukuran nxp end

a=chol(sigma); %sigma=a'a M=mu(ones(n,1),:); Yt=M'+a'*Z'; Y=Yt';

function [Youtl]=gab(mu1,mu2,mu3,sigma1,sigma2,sigma3)

%fungsi ini untuk menggabungkan matriks X dengan parameter berbeda untuk %setiap gerombol menjadi satu matriks baru

%Input:

%mu1,mu2,mu3 = nilai tengah untuk gerombol 1,2,3

%sigma1,sigma2,sigma3 = matriks ragam peragam untuk gerombol 1,2,3 %Output:

%Xoutl = matriks gabungan data pencilan n=50; x1=mvn(mu1,sigma1,n); x2=mvn(mu2,sigma2,n); x3=mvn(mu3,sigma3,n); Youtl=[x1;x2;x3]; function [Xnew]=new(X,Youtl,a)

%fungsi ini membentuk matriks gabungan dari matriks data awal (X) dan %matriks pencilan (Youtl) dimana baris ke p pada X diganti dengan baris %ke p pada Youtl

%Input:

%X = matriks data awal

%Youtl = matriks data pencilan

%a = besarnya proporsi pencilan yang ingin diganti %Output

%Xnew = matriks gabungan sx=size(X); n=sx(1); m=ceil((a/100)*n); Xnew=X; for i=1:m rp=randperm(n); p=rp(1); Xnew(p,:)= Youtl(p,:); end b=cb(Xnew,X); if b<m s=m-b; for k=1:s

(20)

12

rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) k=k-1; else Xnew(p,:)= Youtl(p,:); end end end b=cb(Xnew,X) if b>m s=m-b; for k=1:s rp=randperm(n); p=rp(1); if Xnew(p,:)== Youtl(p,:) Xnew(p,:)=X(p,:); end end end function b=cb(X,Youtl)

%fungsi ini menghitung jumlah baris pada matriks X dan Youtl yang %berbeda yang diganti pada proses penggantian data dengan data pencilan %Input:

%X, Youtl = matriks data yang dibandingkan %Output

%b = jumlah baris yang berbeda sx=size(X); rx=sx(1); b=0; for i=1:rx if X(i,:)== Youtl(i,:) b=b+0; else b=b+1; end end

(21)

13

Lampiran 4 Plot gerombol dua skor komponen utama pada proporsi pencilan 5% (Iterasi 1)

7 6 5 4 3 2 1 0 -1 -2 5 4 3 2 1 0 -1 -2 Z1 Z2 8 7 6 5 4 3 2 1

Plot posisi 5% pencilan pada data

(22)

14

7 6 5 4 3 2 1 0 -1 -2 4 3 2 1 0 -1 -2 Z1 Z2 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

(23)

15

6 5 4 3 2 1 0 -1 -2 -3 4 3 2 1 0 -1 -2 Z1 Z2 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

(24)

16

Lampiran 7 Nilai centroid dan medoid pada k-means dan k-medoid pada berbagai kondisi proporsi pencilan (Iterasi 1) Proporsi Pencilan k-means k-medoid V1 V2 V3 V4 V1 V2 V3 V4 medoid 5% Gerombol 1 -1.813 0.771 0.009 0.015 -1.836 0.755 -0.037 -0.018 8 Gerombol 2 0.610 -0.643 0.023 -0.008 -0.222 -0.822 -0.010 -0.097 95 Gerombol 3 4.020 2.760 -0.323 0.006 1.335 -0.385 0.132 0.166 140 10% Gerombol 1 -1.605 0.976 0.016 0.011 -1.845 0.679 -0.016 -0.032 8 Gerombol 2 0.438 -0.719 0.011 -0.004 0.396 -0.852 0.074 0.109 127 Gerombol 3 4.087 1.588 -0.175 -0.018 3.618 1.782 -0.103 0.039 59 15% Gerombol 1 -1.489 1.025 0.017 0.010 -1.779 0.785 0.002 0.008 1 Gerombol 2 3.649 0.885 -0.125 -0.001 3.017 0.959 -0.320 -0.074 100 Gerombol 3 0.191 -0.779 0.014 -0.006 0.152 -0.885 0.077 0.099 127