• Tidak ada hasil yang ditemukan

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

N/A
N/A
Protected

Academic year: 2022

Membagikan "HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:"

Copied!
5
0
0

Teks penuh

(1)

2. Menyiapkan gugus data pencilan dengan membangkitkan peubah acak normal ganda dengan parameter µ yang diekstrimkan dari data contoh dan dengan matriks ragam-peragam yang sama dengan data contoh.

Proses penyiapan gugus data pencilan:

2.1 Hitung statistik rataan dan matriks ragam-peragam S dari data contoh untuk setiap gerombol, sehingga didapat 1, 2, 3, S1,S2,S3.

2.2 Ekstrimkan nilai 1, 2, 3 dengan cara meningkatkan nilai tersebut sebesar 70%, atau

2.3 Nilai rataan yang baru ( ) digunakan sebagai parameter untuk pembangkitan data normal ganda

. Parameter diduga dari nilai S yang didapat pada langkah 1.

2.4 Bangkitkan masing-masing 50 bilangan acak normal ganda

sehingga didapat matriks Y1, Y2, Y3.

2.5 Gabungkan Y1, Y2, Y3 sehingga didapat matriks 150Y4 yang digunakan sebagai gugus data pencilan.

3. Menyiapkan gugus data baru yang merupakan gabungan dari data contoh yang sebagian datanya (γn) diganti dengan objek pada gugus data pencilan.

Proporsi pencilan yang diberikan (γ) yaitu sebesar 0% (tanpa pencilan), 5%, 10%, dan 15%.

4. Melakukan identifikasi pencilan pada gugus data yang telah dibentuk pada langkah 3 untuk memastikan proporsi pencilan yang diberikan.

Langkah-langkah yang dilakukan dalam analisis data adalah:

1. Memeriksa kebebasan antar peubah dengan menggunakan korelasi Pearson.

Koefisien korelasi Pearson dihitung dengan persamaan sebagai berikut:

dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

hipotesis nol ditolak jika t lebih besar dari t tabel pada taraf nyata 5% dengan derajat bebas n-2 (Aunuddin 2005).

2. Melakukan analisis komponen utama jika pada langkah 1 hipotesis nol ditolak.

3. Menggerombolkan data baik tanpa pencilan maupun dengan pencilan menggunakan metode k-means dengan tahapan:

3.1 Menentukan pusat gerombol awal secara acak.

3.2 Menghitung jarak setiap objek dengan pusat gerombol dengan menggunakan jarak Euclid.

3.3 Alokasikan tiap objek ke suatu gerombol yang memiliki jarak terdekat dengan pusat gerombolnya.

3.4 Hitung kembali pusat gerombol yang terbentuk dengan merata-ratakan pusat gerombolnya.

3.5 Ulangi dari langkah 3.2 sampai tidak ada perpindahan objek antar gerombol.

4. Menggerombolkan data baik tanpa pencilan maupun dengan pencilan menggunakan metode k-medoid dengan tahapan:

4.1 Inisialisasi, yaitu menentukan k objek sebagai medoid.

4.2 Alokasikan tiap objek ke suatu gerombol yang memiliki jarak terdekat dengan medoid gerombol tersebut.

4.3 Mencari objek lain yang lebih baik sebagai medoid (yang memiliki jarak rataan terkecil ke semua objek) dengan membandingkan semua pasangan objek medoid dan non- medoid.

4.4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan pada medoid.

5. Membandingkan hasil penggerombolan k-means dan k-medoid pada langkah 3 dan 4.

6. Menghitung tingkat salah klasifikasi pada metode k-means dan k-medoid pada berbagai kondisi proporsi pencilan.

7. Melakukan tahap persiapan dan analisis data hingga rataan nilai tingkat salah klasifikasi cukup konsisten.

HASIL DAN PEMBAHASAN

Karakteristik Data

Data contoh merupakan data pengamatan empat peubah karakteristik tanaman bunga iris dengan deskripsi tiap peubah ditunjukkan

(2)

pada Tabel 1. Sedangkan untuk deskripsi setiap gerombol awal pada data contoh dapat dilihat pada Lampiran 1.

Tabel 1 Deskripsi tiap peubah karakteristik tanaman bunga iris

Peubah Rataan Standar Deviasi

X1 5.843 0.828

X2 3.057 0.436

X3 3.758 1.765

X4 1.199 0.762

Besarnya korelasi antar peubah dapat dilihat pada Tabel 2. Tabel 2 menunjukkan bahwa hampir pada semua peubah saling berkorelasi dan signifikan pada taraf nyata 5% kecuali pada peubah X1 (panjang sepal) dan X2 (lebar sepal). Hubungan antara panjang sepal (X1) dan panjang petal (X3) bernilai positif dan mempunyai nilai korelasi yang besar (0.872) sehingga peningkatan panjang sepal menyebabkan peningkatan panjang petal dan sebaliknya, begitu pula dengan peubah panjang petal (X3) dan lebar petal (X4). Lebar sepal (X2) memiliki korelasi negatif yang siginifikan pada taraf 5%

terhadap panjang petal (X3) dan lebar petal (X4) yang masing-masing bernilai -0.428 dan -0.366. Korelasi antara peubah-peubah tersebut tidak besar namun cukup kuat dibuktikan dengan nilai-p yang signifikan pada taraf 5%.

Tabel 2 Korelasi antar peubah karakteristik tanaman bunga iris

X1 X2 X3 X4

X1 r 1

nilai-p 0.000

X2 r -0.118 1

nilai-p 0.152 0.000

X3 r 0.872 -0.428 1

nilai-p 0.000 0.000 0.000 X4 r 0.818 -0.366 0.963 1

nilai-p 0.000 0.000 0.000 0.000 Jarak Euclid mensyaratkan tidak adanya korelasi antar peubah pada data, oleh karena itu dilakukan proses transformasi komponen utama untuk mendapatkan nilai antar peubah yang saling bebas. Pada penelitian ini dipilih matriks ragam-peragam sebagai matriks masukan untuk mendapatkan skor komponen utama. Pemilihan matriks ragam-peragam ini didasarkan pada satuan awal data contoh yang sama (cm). Untuk mendapatkan skor

komponen utama yang mempunyai karakteristik paling mirip dengan karakteristik data asli maka digunakan seluruh komponen utama.

Pembentukan dan Identifikasi Pencilan Pengujian keberadaan pencilan pada data dengan menggunakan uji Chi-Square membutuhkan asumsi kenormalan data.

Kenormalan data dapat dilihat dengan cara membuat plot Quantil antara nilai jarak kuadrat mahalanobis terurut dengan nilai Chi-Square dari (Johnson & Winchern 1998).

Plot Quantil Chi-Square untuk gerombol 1 pada Gambar 1 menunjukkan pola yang mengikuti garis lurus atau linear sehingga data tersebut dapat dikatakan menyebar normal ganda. Hal yang sama juga ditunjukkan oleh plot Quantil Chi-Square untuk gerombol 2 pada Gambar 2 dan plot Quantil Chi-Square untuk gerombol 3 pada Gambar 3.

Gambar 1 Plot Quantil Chi-Square gerombol 1 data karakteristik tanaman bunga iris

Gambar 2 Plot Quantil Chi-Square gerombol 2 data karakteristik tanaman bunga iris

0 2 4 6 8 10 12 14 16

0 5 10 15

di2

χ2p((j-1/2)/n)

0 2 4 6 8 10 12 14

0 5 10 15

di2

χ2p((j-1/2)/n)

(3)

Gambar 3 Plot Quantil Chi-Square gerombol 3 data karakteristik tanaman bunga iris

Ketiga plot Quantil menunjukkan data menyebar normal ganda, karena itu proses identifikasi pencilan data contoh dapat dilakukan dengan jarak Mahalanobis. Suatu pengamatan disebut pencilan apabila jarak Mahalanobis terhadap nilai tengah melebihi titik kritis . Hasil perhitungan jarak Mahalanobis menunjukkan bahwa tidak ada pencilan pada data contoh. Hal tersebut dikarenakan semua pengamatan memiliki jarak Mahalanobis tidak melebihi 13.277. Jika asumsi kenormalan data tidak terpenuhi, maka alternatif pengujian keberadaan pencilan dapat menggunakan boxplot dari nilai jarak kuadrat Mahalanobis.

Data contoh yang digunakan merupakan data yang tidak mengandung pencilan. Oleh karena itu diperlukan data pencilan untuk proses simulasi. Data pencilan dibangkitkan dengan meningkatkan vektor rataan sebesar 70% dari vektor rataan awal data contoh untuk setiap gerombol. Sedangkan untuk matriks ragam-peragam disamakan dengan matriks ragam-peragam tiap gerombol awal data contoh.

Tabel 3 Vektor rataan baru untuk pembangkitan gugus data pencilan

µ1 µ2 µ3

X1 8.510 10.091 11.199

X2 5.827 4.709 5.056

X3 2.485 7.242 9.438

X4 0.418 2.254 3.444

Proses awal sebelum dilakukan penggerombolan k-means dan k-medoid adalah pengidentifikasian jumlah pencilan pada berbagai kondisi proporsi pencilan. Hal

ini dilakukan untuk memastikan apakah data yang diberikan benar-benar sebagai data pencilan.

Dari 5 kali ulangan pembentukan gugus data baru, hasil perhitungan jarak Mahalanobis untuk setiap gerombol menunjukkan bahwa semua pencilan yang diberikan teridentifikasi sebagai pencilan oleh jarak Mahalanobis, baik pada proporsi pencilan 5%, 10% maupun 15%.

Perbandingan Hasil Penggerombolan K-means dan K-medoid

Proses penggerombolan dilakukan pada skor komponen utama yang didapat dari hasil transformasi komponen utama pada data asli dan data asli yang telah diberikan proporsi pencilan tertentu. Pembentukan gugus data baru yang mengandung pencilan dilakukan hingga rata-rata hasil tingkat salah klasifikasi baik pada hasil penggerombolan k-means dan k-medoid menunjukkan hasil yang cukup konsisten. Lampiran 2 menunjukkan nilai tingkat salah klasifikasi dari 5 kali ulangan yang meliputi pembangkitan data, penggantian γn data asli dengan data pencilan hingga menggerombolkan data skor utama dari data yang telah diberi pencilan.

Untuk menghitung salah klasifikasi pada penggerombolan data dengan proporsi pencilan 0%, hasil penggerombolannya dibandingkan dengan penggerombolan awal data yang telah diketahui. Sedangkan untuk menghitung nilai salah klasifikasi dari data yang sudah diberikan pencilan (proporsi pencilan 5%, 10% dan 15%), hasil penggerombolannya dibandingkan dengan hasil penggerombolan pada proporsi pencilan 0% dan bukan pada penggerombolan data awal yang telah diketahui. Hal ini disebabkan data awal tersebut sudah memiliki nilai salah klasifikasi sendiri, sehingga jika diberi pencilan dapat dilihat bagaimana kemampuan atau kekekaran dari dua metode tersebut.

Hasil Penggerombolan Data Asli (Tanpa Pencilan)

Dari hasil penggerombolan k-means yang terbentuk dapat dilihat bahwa gerombol 1 (bunga jenis iris Setosa) memiliki jarak gerombol yang terpisah dari gerombol 2 dan 3 (bunga jenis iris Versicolor dan Virginica), sedangkan untuk gerombol 2 dan 3 memiliki jarak gerombol yang dekat satu sama lain. Hal ini dapat dilihat dari hasil plot dua skor komponen utama yang menjelaskan 89.75%

keragaman pada data baik pada metode k-means maupun k-medoid. Gambar 4

0 2 4 6 8 10 12 14 16

0 5 10 15

di2

χ2p((j-1/2)/n)

(4)

menunjukkan plot penggerombolan data asli dengan metode k-means, sedangkan Gambar 5 menunjukkan plot penggerombolan data asli dengan metode k-medoid.

Gambar 4 Plot gerombol k-means

Gambar 5 Plot gerombol k-medoid

Pada gerombol 1 tidak terjadi salah klasifikasi ke gerombol lain baik pada k-means maupun k-medoid, hal ini diakibatkan gerombol 1 memiliki jarak yang terpisah cukup jauh dengan 2 gerombol lainnya. Lain halnya dengan gerombol 2 dan 3 yang masih terdapat salah klasifikasi karena jarak gerombol yang cukup berdekatan.

Dari hasil nilai tingkat salah klasifikasi, k-means memiliki tingkat salah klasifikasi sebesar 16.67%, sedangkan hasil penggerombolan k-medoid memiliki tingkat salah klasifikasi sebesar 15.33%. Pada kondisi ini, hasil penggerombolan k-medoid sedikit lebih baik dibandingkan dengan k-means.

Hasil Penggerombolan Data dengan Pencilan

Pada kondisi proporsi pencilan 5%, hasil penggerombolan k-medoid menunjukkan perbedaan yang signifikan dibandingkan dengan hasil penggerombolan pada k-means.

Tingkat salah klasifikasi dari rata-rata 5 kali ulangan pada k-means mencapai 34.40%, sedangkan pada k-medoid tingkat salah klasifikasinya hanya sebesar 10.40%. Pada kondisi ini hanya ada delapan pencilan yang dimasukkan ke dalam data awal, sehingga k-medoid masih bisa mengakomodir keberadaan pencilan ini, walaupun pencilan yang diberikan untuk gerombol 2 teridentifikasi sebagai anggota gerombol 3.

Hal ini juga ditunjukkan oleh plot gerombol pada Lampiran 4.

Pada kondisi proporsi pencilan 10% dan 15% tidak menunjukkan perbedaan yang signifikan baik pada hasil penggerombolan dengan k-means maupun dengan k-medoid.

Pada proporsi pencilan 10%, rata-rata hasil tingkat salah klasifikasi k-means sebesar 34.00% sedangkan untuk k-medoid sebesar 33.73%. Pada proporsi pencilan 15% rata-rata hasil tingkat salah klasifikasi k-means sebesar 32.00% dan k-medoid sebesar 32.93%.

Pencilan yang diberikan pada kondisi ini membentuk sebuah gerombol tersendiri, yang juga berdampak pada anggota gerombol 3 yang teridentifikasi sebagai gerombol 2, sehingga penggerombolannya menjadi gerombol 1 (bunga jenis iris Setosa), gerombol 2 (bunga jenis iris Versicolor, dan Virginica), serta gerombol pencilan yang diberikan untuk gerombol 2 dan 3. Hal ini dapat dilihat pada Lampiran 5 dan 6.

Tabel 4 Rata-rata tingkat salah klasifikasi pada hasil penggerombolan k-means dan k-medoid

Proporsi Pencilan k-means k-medoid

0% 16.67% 15.33%

5% 34.40% 10.40%

10% 34.00% 33.73%

15% 32.00% 32.93%

Lampiran 7 menunjukkan koordinat nilai centroid dan medoid pada kedua metode untuk berbagai kondisi pencilan. Perbedaan yang terlihat jelas pada koordinat pusat gerombol kedua metode yaitu pada gerombol 3 saat kondisi proporsi pencilan 5%.

Nilai koordinat centroid terlihat cukup besar dibandingkan dengan koordinat objek medoid

(5)

gerombol 3, karena pada gerombol 3 k-means memberikan hasil penggerombolan yang beranggotakan hanya data pencilan, sedangkan pada k-medoid, gerombol 3 mirip pada gerombol 3 data asli.

Dari hasil tingkat salah klasifikasi perbedaan yang signifikan hanya terdapat pada kondisi proporsi pencilan 5%. Pada kasus data ini dimungkinkan adanya suatu batas toleransi dimana k-medoid dapat menangani pencilan, yaitu sampai pada proporsi pencilan 5%. Semakin banyak pencilan yang diberikan maka perpindahan objek antar gerombol semakin sulit dihindari, sehingga nilai tingkat salah klasifikasi pun semakin besar. Hal ini juga tergantung dari karakteristik data yang akan digerombolkan.

Semakin dekat jarak antar gerombol maka akan semakin sensitif terhadap keberadaan pencilan dan menyebabkan banyaknya perpindahan objek antar gerombol, begitu pula sebaliknya.

Pada kondisi proporsi pencilan 10% dan 15% tidak terdapat perbedaan yang signifikan, karena baik pada k-means maupun k-medoid, pencilan yang diberikan membentuk gerombol tersendiri. Hal ini juga disebabkan pada proses pembentukan pencilan, dimana gugus data pencilan dibentuk berdasarkan sebaran normal ganda. Sehingga kecenderungan pencilan- pencilan tersebut untuk menggerombol sulit dihindari.

SIMPULAN DAN SARAN

Simpulan

Penggerombolan k-medoid menunjukkan hasil yang lebih baik dibandingkan dengan hasil penggerombolan k-means, terutama dalam kondisi proporsi pencilan 5%. Dimana pada taraf ini dimungkinkan sebagai batas toleransi keberadaan pencilan untuk k-medoid.

Untuk kondisi proporsi pencilan 10% dan 15% hasil penggerombolan k-means dan k-medoid tidak menunjukkan perbedaan yang signifikan. Hal ini didukung dari pergerakan nilai centroid dan medoid pada kondisi 5%

yang cukup berbeda pada gerombol 3.

Sedangkan pada kondisi proporsi pencilan 10% dan 15%, koordinat centroid dan medoid tidak terlihat jauh berbeda.

Saran

Diharapkan pada penelitian selanjutnya dapat mengkaji mengenai proses pembentukan pencilan serta melakukan kontrol secara komputasi terhadap penggantian data asli dengan data pencilan,

dimana data asli yang diganti dan data pencilan pengganti yaitu data yang memiliki nilai jarak Mahalanobis maksimum. Dengan cara tersebut diharapkan hasil penggerombolan pada k-medoid akan lebih baik untuk berbagai kondisi pencilan.

DAFTAR PUSTAKA

Agusta Y. 2007. K-means: Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika. 3(1):47-60.

Aunuddin. 1989. Analisis Data. Bogor: IPB Press.

_____. 2005. Statistika : Rancangan dan Analisis Data. Bogor : IPB Press.

Barnett V, Lewis T. 1994. Outliers in Statistical Data 3rd Edition. New York : John Wiley

Hair JF Jr, Anderson RE, Tatham RL, Black WC. 1995. Multivariate Data Analysis 4th Edition. New Jersey : Prentice Hall Har-Peled S, Kushal A. 2007. Smaller

Coresets for k-Median and k-Means Clustering. Discrete & Computational Geometry. 37: 3-19.

Johnson RA, Winchern DW. 1998. Applied Multivariate Statistical Analisys 4th Edition. London : Prentice-Hall.

Kaufman L, Rousseeuw PJ. 1990. Finding Groups in Data: An Introduction to Gerombol Analysis. New York : John Wiley.

Gambar

Tabel  1    Deskripsi  tiap  peubah  karakteristik  tanaman bunga iris
Gambar 3  Plot Quantil Chi-Square gerombol  3  data  karakteristik  tanaman  bunga iris

Referensi

Dokumen terkait

Variasi debunga yang paling signifikan antara genus ialah hiasan eksin. Kandelia mempunyai hiasan jenis fossulat manakala Ceriops adalah jenis perforat. Genus Bruguiera

3 Bank bertindak sebagai Penyedia Fasilitas Likuiditas Jenis eksposur (contoh: tagihan beragun rumah tinggal).. 4 Bank bertindak sebagai Penyedia Jasa Jenis eksposur (contoh:

10 tahun 1998 adalah atura perjanjian berdasarkan hukum islam antara bank dengan pihak lainuntuk penyimpanan dana atau pembiayaan kegiatan usaha, atau kegiatan lainnya

Membantu bengkel Auto 2000 Cabang Radio Dalam untuk mengetahui bagaimana menganalisa Pengaruh Bauran Pemasaran dan Lingkungan Sosio-Budaya Pelanggan terhadap Pengambilan Keputusan

Rasulullah SAW, para sahabatnya dan para ulama sangat memberikan perhatian yang besar terhadap bagaimana mengucapkan lafazh-lafazh al-Qur’an secara baik dan

Setiap komponen yang ada di Sekolah SMP Kristen Satu Bakti kota Bogor baik Kepala Sekolah, Administrator, Guru dan seluruh aspek lainnya yang ada di sekolah tersebut

Strategi Kuapa Kokoo dalam mengatasi masalah ini antara lain menjadi LBCs bagi petani agar petani mendapatkan harga yang layak atas produksi kakaonya, Kuapa

Odum (1993), menyatakan bahwa kadar oksigen dalam air akan bertambah dengan semakin rendahnya suhu dan berkurang dengan semakin tingginya salinitas. Pada lapisan permukaan,