simulasi terdiri dari tiga gerombol. Ketiga gerombol tersebut berasal dari sebaran normal ganda (Gaussian) dengan parameter vektor rataan ( dan matriks peragam ( ) yang dibuat sama maupun berbeda. Terdapat 27 kasus simulasi yang dibedakan atas parameter sebaran, jarak antar pusat gerombol, ragam setiap peubah pada setiap gerombol, dan nilai korelasi.
Plot skor komponen utama dibuat untuk memperlihatkan pola tebaran data yang terbentuk sesuai dengan kondisi ketiga gerombol yang dibangkitkan pada setiap kasus simulasi. Plot tersebut dapat memberikan gambaran untuk setiap gerombol yang saling berjauhan, saling berdekatan, maupun saling tumpang tindih. Setiap amatan diberikan warna berbeda jika berasal dari gerombol yang berbeda, sesuai dengan klasifikasi yang
sebenarnya. Metode penggerombolan
berdasarkan GMM diterapkan pada setiap kasus simulasi. Untuk memberikan gambaran mengenai gerombol yang dihasilkan metode ini, dibuat plot skor komponen utama dengan memberikan warna berbeda jika berasal dari gerombol yang berbeda, sesuai dengan hasil penggerombolan berdasarkan metode tersebut. Metode ini dikatakan efektif jika memiliki rataan tingkat kesalahan klasifikasi kurang dari 10%. Semakin kecil rataan tingkat kesalahan klasifikasi, maka metode ini semakin efektif dalam menggerombolkan kasus simulasi tersebut.
Kedua plot skor utama setiap kasus simulasi yang dibuat pada salah satu ulangan dapat dilihat pada Lampiran. Misalnya plot skor komponen utama untuk K7, ketiga gerombol memiliki pusat gerombol yang sama dengan matriks peragam yang berbeda. Data saling tumpang tindih dengan membentuk pola seperti tiga lingkaran yang mempunyai pusat yang sama dengan diameter yang berbeda. Berdasarkan hasil metode, terbentuk dua gerombol yang memiliki pusat gerombol yang hampir sama dengan matriks peragam yang berbeda. Terlihat juga bahwa gerombol 2 dan gerombol 3 didefinisikan sebagai gerombol yang sama.
Ketiga Gerombol Berasal dari Populasi
Identik [ ]
Data yang terdiri dari tiga gerombol dengan vektor rataan dan matriks peragam yang identik terdapat pada K1, K2, K3, K4, K5, dan K6. Tiga kasus pertama memiliki ragam setiap peubah yang kecil sedangkan tiga kasus selanjutnya memiliki ragam setiap peubah yang besar.
Metode penggerombolan berdasarkan
GMM memisahkan gerombol sehingga
masing-masing gerombol memiliki sebaran
Gaussian dengan parameter berbeda.
Penerapan metode pada kasus simulasi dengan ketiga gerombol yang berasal dari populasi identik telah menghasilkan satu gerombol. Hal ini ditemukan pada K1, K3, K4, dan K6. Berbeda dengan keempat kasus tersebut,
penerapan metode ini pada nilai korelasi antar peubah sebesar 0.2 (K2 dan K5) telah menghasilkan dua gerombol. Kedua gerombol yang dihasilkan memiliki vektor rataan berbeda dengan matriks peragam yang sama. Rataan tingkat kesalahan klasifikasi yang diperoleh untuk K2 sebesar 40.9% dan untuk K5 sebesar 30.7%. Rataan tingkat kesalahan klasifikasi pada tiga nilai korelasi yang dicobakan untuk kasus-kasus tersebut dapat dilihat pada Gambar 1.
Gambar 1. Rataan tingkat kesalahan
klasifikasi pada kasus simulasi untuk ketiga gerombol yang berasal dari populasi identik
Ketiga Gerombol Berasal dari Populasi Berbeda
Matriks peragam ketiga gerombol berbeda
[ ]
Penerapan metode penggerombolan
berdasarkan GMM pada data yang terdiri dari tiga gerombol dengan vektor rataan yang identik dan matriks peragam yang berbeda yaitu pada K7, K8, dan K9 telah menghasilkan dua gerombol yang saling tumpang tindih. Kedua gerombol yang dihasilkan memiliki vektor rataan yang hampir sama dengan matriks peragam yang berbeda. Jumlah gerombol yang seharusnya terbentuk adalah sebanyak tiga gerombol dengan vektor rataan identik dan matriks peragam berbeda (ketiga gerombol saling tumpang tindih). Rataan tingkat kesalahan klasifikasi yang diperoleh untuk K7, K8, dan K9 secara berturut-turut sebesar 38.5%, 39%, dan 38.8%. Metode ini kurang efektif diterapkan pada data yang saling tumpang tindih.
Vektor rataan ketiga gerombol berbeda
[ ]
K10 terdiri dari tiga gerombol yang memiliki vektor rataan berbeda dengan jarak
antar pusat gerombol yang bernilai kecil, matriks peragam identik dengan ragam setiap peubah pada setiap gerombol bernilai kecil, dan tidak terdapat korelasi antar peubah. Penerapan metode ini pada K10 menghasilkan tiga gerombol dengan vektor rataan berbeda dan matriks peragam yang identik. Rataan tingkat kesalahan klasifikasi yang diperoleh sebesar 0.33%. Sedangkan pada kondisi yang sama dengan korelasi sebesar 0.2 untuk K11
dan korelasi sebesar 0.8 untuk K12, setelah metode diterapkan, terbentuk tiga gerombol tanpa adanya kesalahan klasifikasi.
Data yang terdiri dari tiga gerombol yang memiliki vektor rataan berbeda dengan jarak antar pusat gerombol yang bernilai kecil, matriks peragam identik dengan ragam antar peubah pada setiap gerombol bernilai besar yaitu terdapat pada K13, K14, dan K15. Metode penggerombolan berdasarkan GMM menghasilkan satu gerombol dengan rataan tingkat kesalahan klasifikasi sebesar 66.67% jika diterapkan pada K13. Jumlah gerombol berbeda pada beberapa ulangan diperoleh pada K14 dan K15. Sebanyak satu gerombol pada lima ulangan dan dua gerombol pada ulangan lainnya dengan rataan tingkat kesalahan klasifikasi sebesar 66.9% diperoleh pada K14. Sedangkan sebanyak satu gerombol pada tujuh ulangan dan tiga gerombol pada ulangan lainnya dengan rataan tingkat klasifikasi sebesar 50.87% diperoleh pada K15. Ragam setiap peubah pada setiap gerombol yang bernilai besar menyebabkan amatan menyebar jauh dari rataannya, sehingga jika
jarak antar pusat gerombolnya kecil
menyebabkan banyak amatan yang tumpang tindih dengan amatan pada gerombol lain. Metode penggerombolan berdasarkan GMM tidak efektif diterapkan untuk kasus simulasi dengan pola tersebut.
K16, K17, dan K18 memiliki vektor rataan berbeda dengan jarak antar pusat gerombol bernilai besar dan matriks peragam identik dengan ragam setiap peubah pada setiap gerombol yang bernilai kecil. Setiap amatan
cenderung menggerombol di sekitar
rataannya. Penerapan metode pada ketiga kasus tersebut menghasilkan tiga gerombol tanpa adanya kesalahan klasifikasi.
Hasil penggerombolan pada K19, K20, dan K21 menghasilkan tiga gerombol dengan rataan tingkat kesalahan klasifikasi masing-masing sebesar 2.53%, 1.2% dan 0%. Kasus-kasus simulasi tersebut memiliki vektor rataan berbeda dengan jarak antar pusat gerombol yang besar, matriks peragam identik dengan ragam setiap peubah yang besar.
0 20 40 60 0 0.2 0.8 ra ta an t in g k at k esal ah an k la si fi k asi ( %) korelasi 1.a 1.b
8
Tabel 3. Rataan tingkat kesalahan klasifikasi setiap kasus simulasi
1, 9, dan 25 0 40.9±9.29 0 0 30.7±10.4 0 38.5±0.63 39±1.07 38.8±1.59 1, 9, dan 25 0.33±0.32 0 0 66.67 66.87±0.3 50.87±25.44 13.3±1.03 14.2±1.76 3.50±0.53 1, 9, dan 25 0 0 0 2.53±0.53 1.2±0.39 0 0.53±0.42 0.07±0.14 0
Vektor rataan dan matriks peragam ketiga
gerombol berbeda [ ]
Kasus simulasi yang memiliki vektor rataan dan matriks peragam berbeda dengan jarak antar pusat gerombol bernilai kecil yaitu terdapat pada K22, K23, dan K24. K22 mewakili data dengan kondisi tersebut tanpa adanya korelasi antar peubah, K23 mewakili data dengan korelasi antar peubah sebesar 0.2, dan K24 mewakili data dengan korelasi antar peubah sebesar 0.8. Penerapan metode penggerombolan berdasarkan GMM pada ketiga kasus tersebut menghasilkan tiga gerombol dengan rataan tingkat kesalahan klasifikasi sebesar 13.3% untuk K22, sebesar 14.2% untuk K23, dan sebesar 3.5% untuk K24. Vektor rataan dengan jarak antar pusat gerombol yang besar dan matriks peragam berbeda untuk setiap gerombol terdapat pada K25, K26, dan K27. Nilai rataan tingkat kesalahan klasifikasi sebesar 0.53% dan 0.07% masing-masing dihasilkan oleh K25 dan K26, sedangkan pada K27 tidak terdapat kesalahan klasifikasi.
Tabel 3 menunjukkan bahwa secara umum, rataan tingkat kesalahan klasifikasi berkurang jika jarak antar pusat gerombol semakin besar, hal ini disebabkan oleh
semakin sedikitnya amatan yang saling tumpang tindih dengan amatan pada gerombol yang lain. Ragam setiap peubah yang besar juga dapat meningkatkan tingkat kesalahan klasifikasi. Gerombol dengan ragam antar peubah pada setiap gerombol yang lebih besar daripada jarak antar pusat gerombol, memiliki rataan tingkat kesalahan klasifikasi yang sangat besar. Sedangkan untuk kasus dengan
atau tanpa adanya korelasi tidak
mempengaruhi tingkat kesalahan klasifikasi.
Hal ini disebabkan oleh metode
penggerombolan berdasarkan GMM
mempertimbangkan parameterisasi ,
dimana untuk data yang memiliki korelasi
antar peubah diberikan model
dan untuk data yang tidak memiliki korelasi antar peubah diberikan
model . Pada kasus dimana terdapat
korelasi antar peubah, nilai korelasi antar peubah sebesar 0.8 memberikan rataan tingkat kesalahan yang lebih kecil daripada kasus dengan nilai korelasi antar peubah sebesar 0.2. Penjabaran diatas untuk kasus simulasi dengan ketiga gerombol yang berasal dari populasi berbeda dapat terlihat pada Gambar 2.
Gambar 3 memperlihatkan bahwa rataan tingkat kesalahan klasifikasi terbesar
diperoleh pada data dengan jarak antar pusat gerombol yang kecil dan ragam setiap peubah yang besar pada berbagai nilai korelasi yang dicobakan.
Gambar 2. Rataan tingkat kesalahan
klasifikasi pada kasus simulasi dengan ketiga gerombol yang berasal dari populasi berbeda
Gambar 3. Rataan tingkat kesalahan
klasifikasi pada setiap kasus simulasi