• Tidak ada hasil yang ditemukan

TINJAUAN PUSTAKA Gambaran Umum Analisis Gerombol

Analisis gerombol merupakan salah satu metode analisis peubah ganda yang bertujuan untuk mengelompokkan objek kedalam kelompok – kelompok tertentu yang relatif homogen berdasarkan kemiripan atau ketidakmiripan karakteristik– karakteristik yang dimiliki (Hair et al, 1998). Ukuran kemiripan yang digunakan adalah fungsi jarak antara dua objek. Bila antar peubah yang digunakan saling

bebas digunakan jarak euclidean -

sedangkan bila terdapat

korelasi antar peubah digunakan jarak mahalanobis - - -

dengan adalah matriks ragam peragam. Secara umum terdapat dua metode penggerombolan yang menggunakan ukuran jarak, yaitu metode penggerombolan berhirarki dan metode penggerombolan tak berhirarki (Johnson, 1998).

a. Metode berhirarki

Metode penggerombolan berhirarki dimulai dengan mengelompokkan dua atau lebih objek yang memiliki kesamaan terdekat menjadi suatu gerombol baru sehingga jumlah gerombol berkurang satu pada setiap tahap, atau dengan menganggap seluruh objek berasal dari satu gerombol kemudian ketidakmiripan yang paling tinggi dipisah hingga tiap observasi menjadi gerombol sendiri– sendiri. Metode ini digunakan bila jumlah gerombol yang akan dibentuk belum diketahui sebelumnya.

b. Metode tak berhirarki

Metode penggerombolan tak berhirarki digunakan bila banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. K-rataan merupakan metode tak berhirarki yang paling banyak digunakan. Penentuan objek kedalam gerombol tertentu pada metode ini berdasarkan rataan terdekat, yang terdiri dari tiga tahap. Tahap pertama mengambil k unit data pertama yang digunakan sebagai k pusat gerombol awal. Tahap kedua, menggabungkan setiap (n-k) data yang merupakan sisa objek ke pusat gerombol terdekat, kemudian dihitung masing-masing pusat (rataan) gerombol baru yang terbentuk dari hasil gabungan. Pada tahap ketiga, pusat gerombol yang terbentuk dijadikan sebuah titik pusat (rataan) gerombol

kemudian dilakukan penggabungan kembali dari setiap unit data ke dalam titik pusat terdekat. Ketiga tahap ini dilakukan hingga diperoleh gerombol yang konvergen yaitu adanya titik pusat yang tetap dan tidak ada lagi perubahan anggota di setiap gerombol. Metode penggerombolan tak berhirarki lainnya adalah metode penggerombolan berbasis model campuran.

Penggerombolan Berbasis Model

Metode penggerombolan berbasis model campuran mengasumsikan bahwa sebaran data yang digunakan adalah sebaran campuran dengan setiap subpopulasi mewakili suatu gerombol yang berbeda, sehingga dalam mendefinisikan setiap gerombol yang terbentuk digunakan distribusi statistik (Fraley,1998). Tujuan dari metode ini adalah untuk mengoptimalkan kemiripan antar objek dengan menggunakan pendekatan model peluang. Pendekatan tersebut dapat memodelkan data yang dimiliki dengan menerapkan pengaturan karakteristik yang berbeda- beda dan menentukan jumlah gerombol yang sesuai dengan data seiring proses pemodelan karakteristik dari masing-masing gerombol tersebut. Berbeda dengan k-rataan yang perpindahan objek secara berulang dari satu gerombol ke gerombol lain mulai dari partisi awal berdasarkan jarak metrik, tehnik perpindahan objek pada analisis gerombol berbasis model didasarkan pada algoritma EM. Penentuan banyaknya gerombol dalam metode ini ditentukan dengan menggunakan BIC.

Sebaran campuran merupakan campuran dari beberapa sebaran statistik, dimana contoh berasal dari populasi yang tidak sama. Sebaran ini digunakan dalam dua keadaan yaitu struktur campuran dari populasi diketahui dan struktur campuran dari populasi tidak diketahui. Dengan demikian pada keadaan pertama dapat diduga sebaran masing – masing subpopulasi dan proporsinya, sedangkan pada keadaan kedua dapat dilakukan klasifikasi data ke dalam subpopulasi berdasarkan peluang akhir (Mclachlan dan Basford 1988). Misalkan

adalah contoh acak peubah ganda p dari suatu populasi, dimana p menyatakan dimensi data dan n menyatakan banyaknya objek pengamatan yang dianggap berasal dari campuran G sub populasi, dengan fungsi kepekatan campurannya adalah , dimana ; , ; . adalah fmp atau fkp campuran,

adalah proporsi subpopulasi ke- dan adalah fmp atau fkp subpopulasi. Fungsi kepekatan campuran (fkp) dari subpopulasi tidak harus memiliki parameter dan sebaran yang sama, namun dalam penelitian ini digunakan fkp subpopulasi yang memiliki sebaran yang sama dan parameter yang berbeda. Dengan demikian fkp campuran untuk beberapa vektor parameter yang tidak diketahui yaitu:

(1)

Dengan asumsi contoh acak bebas stokastik dan identik, dengan fungsi kepekatan objek dari gerombol ke-k yaitu , maka fungsi kepekatan campuran pada persamaan (1) didefinisikan sebagai:

(2)

dimana merupakan peluang suatu pengamatan berada pada komponen ke-k

.

Dalam penelitian ini digunakan sebaran normal ganda yang dinotasikan dengan ( , sehingga jika merupakan fungsi kepekatan peubah ganda campuran normal dengan parameter vektor rataan dan matriks peragam

dapat dinyatakan dalam bentuk

Algoritma EM

Dalam analisis gerombol berbasis model, algoritma EM dapat digunakan sebagai tehnik perpindahan objek sehingga dapat memutuskan hasil gerombol. Menurut Dempster (1977), algoritma ini merupakan metode perhitungan iterasi yang sangat cocok untuk pendugaan parameter dari fungsi kemungkinan maksimum pada data tidak lengkap seperti yang terdapat pada sebaran campuran. Pada sebaran campuran dinyatakan bahwa data terdiri dari n pengamatan peubah ganda yang diperoleh dari , dengan merupakan peubah yang teramati dan merupakan peubah yang tidak teramati. memetakan objek ke dalam gerombol dimana yang didefinisikan dengan

diasumsikan saling bebas dan terdistribusi identik menurut sebaran multinomial dari G kategori dengan peluang dan fkp dari dengan adalah

. Setiap iterasi pada algoritma EM terdiri atas dua tahap yaitu

expectation-step (tahap E) dan maximization-step (tahap M).

Diketahui bahwa contoh acak saling bebas dan yang menentukan objek dari gerombol mana berasal, maka

dengan

Fungsi kemungkinan yang diperoleh yaitu

Jika digunakan fungsi kepekatan peubah ganda campuran normal, maka fungsi kemungkinannya adalah:

- - - -

Tahap E

Pada tahap E merupakan tahap untuk menghitung nilai harapan bersyarat dari loglikelihood. Dengan demikian, diperoleh:

- - - - dengan Tahap M

Pada tahap M merupakan tahap untuk memaksimalkan nilai harapan bersyarat dari loglikelihood. Paramater yang diduga yaitu proporsi campuran ( ), rata-rata ( ), dan matrik kovarian ( ).

- - - - -

Terdapat dua metode pendugaan parameter yang bisa digunakan dalam tahap ini, yaitu metode kemungkinan maksimum dan metode Bayes.

a. Metode kemungkinan maksimum

Pendugaan parameter dengan menggunakan metode kemungkinan maksimum bertujuan untuk mencari nilai fungsi loglikelihood yang paling maksimum (Fraley, 2002). Fungsi kemungkinan maksimum untuk peubah ganda normal (n objek) yaitu

- - - - - - - - (4 Pada model campuran dengan G komponen, fungsi kemungkinan maksimum likelihood didefinisikan sebagai:

Jika fkp dari pengamatan yang diberikan oleh adalah , maka loglikelihood data lengkap adalah:

(5)

Fraley & Raftery (2002) mengemukakan bahwa penduga parameter yang memaksimalkan dihitung menggunakan yang diperoleh pada tahap E, dengan formula parameter sebagai berikut:

b. Metode Bayes

Pendugaan parameter dengan menggunakan metode Bayes yaitu menggabungkan informasi yang dikandung dalam sampel dengan informasi lain yang telah tersedia sebelumnya. Asumsi yang digunakan dalam metode ini yaitu setiap parameter itu bervariasi menurut sebaran peluang tertentu yang disebut sebagai sebaran awal (Walpole, 1992). Sebaran peluang tersebut digunakan bersama-sama untuk menghitung sebaran posterior bagi parameter. Berdasarkan Fraley,2007 guna mencari penduga parameter yang dapat memaksimumkan posterior digunakan conjugate prior (konjugasi sebaran awal). Konjugasi sebaran

awal yang dimaksud untuk peubah ganda normal yaitu sebaran normal untuk kondisi rata-rata dengan syarat matriks peragam dan sebaran kebalikan wishart untuk kondisi matriks peragam. Dengan demikian fkp sebaran awal merupakan hasil kali dari sebaran normal dengan sebaran kebalikan wishart. Sebaran awal untuk rata-rata adalah sebaran normal (bersyarat pada matriks peragam), didefinisikan sebagai

- - (6)

dan sebaran awal matriks peragam yaitu sebaran kebalikan wishart, didefinisikan sebagai

.

(7) dan diasumsikan sama untuk semua komponen, dengan rincian sebagai berikut:

: rata-rata dari data

: 0,01 (pemulusan bagian kurva BIC) : p+2

(untuk model spherical dan diagonal) : ( (untuk model ellipsoidal)

dan adalah matriks peragam.

Fraley (2007) mengemukakan bahwa formula parameter yang digunakan guna memaksimalkan posterior, yang dihitung menggunakan pada tahap E sebagai berikut:

Iterasi ini berlangsung hingga diperoleh nilai loglikelihood atau nilai posterior yang konvergen.

Algoritma EM membutuhkan inisialisasi nilai awal dalam algoritmanya. Tingkat konvergensi bisa sangat lama apabila tidak digunakan nilai inisialisasi awal yang wajar. Banfiled (1993) menggunakan metode analisis gerombol berhirarki sebagai inisialisasi nilai awal , kemudian secara iteratif dugaan nilai parameter akan diperbaharui. Berdasarkan Fraley (2010), penentuan nilai awal berdasarkan penggabungan objek dilakukan berdasarkan jarak minimum.

Karakteristik Geometrik Model

Setiap gerombol yang terbentuk berpusat di dan matriks peragam yang dihasilkan akan menentukan karakteristik geometrik yaitu bentuk, volume dan orientasi (Fraley dan Raftery 2002). Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol yang sama. Bentuk komponen matriks peragam terdiri atas tiga macam yaitu spherical, diagonal dan ellipsoidal. Fraley (2007) mengemukakan formula berdasarkan metode pendugaan parameter yang digunakan, yaitu:

a. Metode kemungkinan maksimum

1. Bentuk spherical (sebanding dengan matriks identitas) - Spherical sama - Spherical berbeda

2. Bentuk diagonal (sejajar sumbu) - Diagonal sama

- Diagonal berbeda

3. Bentuk ellipsoidal - Diagonal sama - Diagonal berbeda b. Metode bayes

1. Bentuk spherical (sebanding dengan matriks identitas) - Spherical sama - Spherical berbeda

2. Bentuk diagonal (sejajar sumbu) - Diagonal sama - Diagonal berbeda 3 3. Bentuk ellipsoidal - Diagonal sama - Diagonal berbeda dengan - -

Guna mendefinisikan kelas metode penggerombolan berhirarki berdasarkan geometri lintas gerombol, Branfield dan Raftery (1993) menyatakan matriks peragam melalui suku-suku dekomposisi akar ciri untuk komponen gerombol model campuran peubah ganda dalam bentuk:

(9

dimana

adalah matriks vektor ciri adalah akar ciri terbesar dari

adalah matriks diagonal dengan elemennya proporsional terhadap akar ciri dari , yaitu dimana Ketiga suku dekomposisi diatas mencirikan karakteristik geometrik dimana mencirikan orientasi dari k gerombol, mencirikan ukuran dan mencirikan bentuk. Ukuran tersebut diartikan sebagai volume dari cluster dalam p peubah yang berisi objek.

Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol yang sama. Matriks peragam untuk semua komponen bisa sama atau bervariasi, yang secara umum dapat dilihat pada Tabel 1.

Penentuan Jumlah Gerombol

Jumlah gerombol terbaik dapat ditentukan dengan memilih model terbaik melalui nilai BIC terbesar. Fraley (1998) menyatakan bahwa pemilihan model terbaik dilakukan dengan membandingkan model parameterisasi matriks peragam yang berbeda dan banyaknya gerombol yang berbeda. Secara umum formulasi yang digunakan adalah sebagai berikut:

(10) dimana

= loglikelihood yang dimaksimalkan untuk model dan data = jumlah parameter bebas yang diduga dalam model

Tabel 1 Matriks peragam untuk model campuran normal ganda dan interpretasi geometrik

Simbol Mclust

Bentuk Prior Dipakai untuk

EII Spherical Inverse gamma

VII Spherical Inverse gamma

EEI Diagonal Inverse gamma Setiap anggota diagonal

VEI Diagonal

EVI Diagonal

VVI Diagonal Inverse gamma Setiap anggota diagonal EEE Ellipsoidal Inverse wishart

VEE Inverse gamma

Inverse wishart EVE Ellipsoidal

VVE Ellipsoidal Inverse gamma Setiap anggota diagonal EEV Ellipsoidal Inverse gamma Setiap anggota diagonal VEV Ellipsoidal

EVV Ellipsoidal Inverse gamma

Inverse wishart VVV Ellipsoidal Inverse wishart Sumber: (Fraley, 2007).

Jika pada algoritma EM ingin dihasilkan nilai maksimum posterior yang konvergen, maka pada persamaan diatas diganti dengan nilai posterior (Fraley,2007). Dalam perhitungan nilai BIC setiap model dibutuhkan informasi mengenai jumlah parameter bebas yang diduga, yang secara garis besar dapat dilihat pada Tabel 2.

Tabel 2 Parameter bebas tiap model

Model Parameter Bebas

( ( ( ( ( Sumber: (Celeux,2006)

Fraley (2002) membuat strategi metode berbasis model dengan mengkombinasikan penggerombolan hirarki, algoritma EM dan faktor bayes, dengan langkah–langkah sebagai berikut:

1. Tentukan banyak gerombol maksimum ( ) dari himpunan model campuran 2. Lakukan penggerombolan secara hirarki penggabungan, untuk setiap model

campuran normal ganda. Hasil gerombol ini ditransformasikan ke dalam peubah indikator, yang kemudian digunakan sebagai nilai awal untuk algoritma EM

3. Lakukan algoritma EM untuk setiap model dan setiap gerombol 3 , yang dimulai dengan klasifikasi dari gerombol berhirarki

4. Hitung nilai BIC untuk kasus satu gerombol pada setiap model dan model campuran, dengan parameter optimal dari algoritma EM untuk 3 gerombol

DATA DAN METODE Sumber Data

Data yang digunakan dalam penelitian ini adalah data hasil simulasi dan data dari paket Mclust ver 3.4.8. Data simulasi dibuat dalam dua jumlah amatan yaitu 50 dan 150. Tujuan dari data simulasi ini adalah untuk mengenalkan model karena data ini dihasilkan berdasarkan kondisi yang diinginkan. Penggunaan jumlah amatan yang berbeda, bertujuan untuk mengetahui efektifitas analisis gerombol berbasis model pada jumlah amatan kecil dan besar. Setiap kasus simulasi dilakukan sebanyak lima kali ulangan, hal ini dikarenakan setiap kasus yang digunakan pemilihannya dilakukan secara acak. Pemilihan jarak antar pusat gerombol dan ragam setiap peubah mengacu pada Pardede (2002). Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0), korelasi rendah (0,2), korelasi sedang (0,5) dan korelasi tinggi (0,8).

Data simulasi yang dibangkitkan merupakan data himpunan campuran normal ganda, yang dibangkitkan dengan menggunakan fungsi mvnorm pada perangkat lunak program R ver.2.12.1. Kondisi kasus simulasi yang digunakan terbagi dalam empat kondisi jarak antar pusat gerombol yaitu (1) pusat antar gerombol sama, (2) pusat antar gerombol berdekatan, (3) pusat antar gerombol memiliki jarak sedang dan (4) pusat antar gerombol saling terpisah.

Secara garis besar kondisi kasus simulasi yang digunakan dalam penelitian ini terangkum pada Tabel 3. Guna mendukung hasil penelitian ini digunakan data sekunder yang berasal dari paket Mclust yang terdiri atas data pohon dan data diabetes. Tujuan digunakannya data pohon yaitu untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran kecil, hal ini dikarenakan pada data pohon masing-masing peubah terdiri dari 31 pengamatan. Berbeda dengan tujuan digunakannya data pohon sebagai contoh penerapan, tujuan digunakannya data diabetes yaitu untuk melihat efektifitas analisis gerombol berbasis model pada data berukuran besar, dikarenakan masing-masing peubah terdiri dari 145 pengamatan.

Tabel 3 Kondisi setiap kasus simulasi

Jarak Ragam Korelasi Kasus

Simulasi Jarak Ragam Korelasi

Kasus Simulasi Sama 3 Kecil 0 1 Sedang d=7,483 3 7 3 7 3 7 3 Kecil 0 21 0,2 2 0,2 22 0,5 3 0,5 23 0,8 4 0,8 24 Besar 5 0 5 Besar 5 0 25 0,2 6 0,2 26 0,5 7 0,5 27 0,8 8 0,8 28 Berbeda 9 3 5 0 9 Berbeda 9 3 5 0 41 0,2 10 0,2 42 0,5 11 0,5 43 0,8 12 0,8 44 Dekat d=5,099 5 5 3 5 Kecil 0 13 Jauh d=9,899 4 9 4 9 3 9 4 Kecil 0 29 0,2 14 0,2 30 0,5 15 0,5 31 0,8 16 0,8 32 Besar 5 0 17 Besar 5 0 33 0,2 18 0,2 34 0,5 19 0,5 35 0,8 20 0,8 36 Berbeda 9 3 5 0 37 Berbeda 9 3 5 0 45 0,2 38 0,2 46 0,5 39 0,5 47 0,8 40 0,8 48 Metode Penelitian

Pada data simulasi, prosedur yang digunakan terdiri atas tujuh tahap, yaitu: 1. Membangkitkan data simulasi dengan menggunakan paket R

Tahapan yang dilakukan dalam membangkitkan data simulasi dengan menggunakan paket R adalah sebagai berikut:

i. Menentukan banyak gerombol (G=3), banyak peubah (p=3) dan banyak amatan setiap gerombol (n1=n2=n3=50), dan sebaran setiap

gerombol (Gk Normal Ganda)

ii. Menentukan parameter sebaran masing-masing gerombol, yaitu vektor rataan , dan matriks peragam . Matriks peragam tersebut diperoleh dengan cara:

a. Menentukan matriks yang merupakan matriks diagonal dengan elemen diagonalnya adalah standar deviasi masing- masing peubah, berdimensi 3x3

b. Menentukan matriks yang merupakan matriks korelasi antar peubah, k=1,2,3

c. Menghitung matriks peragam

iii. Membangkitkan peubah acak sebanyak untuk gerombol 1,

iv. Membangkitkan peubah acak sebanyak untuk gerombol 2,

v. Membangkitkan peubah acak sebanyak untuk gerombol 1,

vi. Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi

vii. Ulangi tahap ii - vi untuk kondisi penggerombolan yang telah ditentukan

Secara garis besar alur pembangkitan data dapat dilihat pada Gambar 1. 2. Membuat plot dua komponen utama pada setiap kasus simulasi, guna

melihat pola data dan mengidentifikasi penggerombolan objek.

3. Menerapkan metode analisis gerombol berbasis model dengan menggunakan paket Mclust pada program R. Tahapan yang digunakan dalam penggerombolan berbasis model adalah sebagai berikut:

i. Melakukan penggerombolan berhirarki gabungan dengan menggunakan model sehingga diperoleh nilai untuk G=1,2,..M dimana M merupakan jumlah gerombol maksimum.

ii. Melakukan algoritma EM

yang dimulai dengan iterasi saat m=0 Tahap E

Tahap M

- Metode kemungkinan maksimum - Metode Bayes

( ( ( ( ( ( ( ( ( ( (

tergantung model ( tergantung model Lakukan untuk iterasi (m+1) dan seterusnya, hingga diperoleh nilai maksimum loglikelihood atau masksimum posterior yang konvergen. iii. Menghitung nilai BIC

iv. Melakukan tahap i–iii untuk banyak gerombol yang berbeda,

v. Membandingkan nilai BIC untuk setiap solusi gerombol yang terbentuk dan nilai BIC terbesar yang terpilih.

4. Membandingkan dugaan parameter yang dihasilkan pada tahap 3 dengan parameter yang sebenarnya

5. Membandingkan hasil klasifikasi tiap amatan yang dihasilkan dengan hasil klasifikasi yang sebenarnya

6. Menghitung rataan persentase salah pengelompokkan setiap gerombol 7. Rataan persentase salah pengelompokkan yang terkecil menunjukkan bahwa

metode analisis gerombol berbasis model lebih baik.

8. Lakukan tahap 1-7 untuk jumlah amatan tiap gerombol 150.

Prosedur yang digunakan untuk contoh penerapan terdiri atas empat tahap yaitu: 1. Membuat plot dua komponen utama dari data yang digunakan untuk

melihat pola dan mengidentifikasi penggerombolan objek 2. Melakukan uji normal ganda

3. Menerapkan metode analisis gerombol berbasis model dengan menggunakan paket Mclust pada program R

4. Membandingkan nilai BIC yang dihasilkan oleh metode kemungkinan maksimum (MLE) dan metode Bayes (MAP)

Tentukan banyak gerombol (G=3), banyak peubah (p=3), banyak amatan setiap gerombol (n1=n2=n3=50; n1=n2=n3=150), dan sebaran setiap

Tentukan parameter sebaran masing-masing gerombol.

Vektor rataan

Matriks peragam , dengan cara:

a. Menentukan matriks

(matriks diagonal, dengan elemen diagonal standar deviasi masing- masing peubah)

b. Menentukan matriks (matriks korelasi antar peubah)

c. Menghitung matriks peragam

Bangkitkan peubah acak n1 untuk gerombol 1, Bangkitkan peubah acak n2 untuk gerombol 2, Bangkitkan peubah acak n3 untuk gerombol 3,

Menggabungkan ketiga gerombol menjadi sebuah kasus simulasi

SELESAI

Gambar 1 Diagram alur pembangkitan data dengan R MULAI

MULAI

Membangkitkan data simulasi

Jarak antar pusat gerombol sama

Jarak antar pusat gerombol dekat

Jarak antar pusat gerombol sedang

Jarak antar pusat gerombol jauh

Buat plot dua komponen utama

Menerapkan penggerombolan dengan metode berbasis model

Bandingkan dugaan parameter yang

dihasilkan dengan yang sebenarnya Menerapkan penggerombolan dengan metode k-rataan Metode kemungkinan maksimum

Gambar 2 Diagram alur penelitian Bandingkan hasil klasifikasi

tiap amatan yang dihasilkan dengan yang sebenarnya

Hitung persentase salah penggerombolan Metode

Bayes

Bandingkan persentase salah penggerombolan dari masing-masing metode Hitung persentase salah penggerombolan

Bandingkan persentase salah penggerombolan, yang dihasilkan dengan k-rataan dengan evaluasi terbaik dari model based S E L E S A I

MULAI

Masukkan data hasil simulasi

Hitung penggerombolan berhirarki

Lakukan algoritma EM untuk setiap model matriks peragam dan setiap gerombol

Hitung dan plotkan nilai BIC untuk setiap model matriks peragam

Tentukan model terbaik

berdasarkan nilai BIC terbesar

SELESAI

HASIL DAN PEMBAHASAN

Data yang dibangkitkan terdiri dari 96 kasus data simulasi, dengan setiap kasus data simulasi terdiri dari tiga gerombol. Kasus data simulasi tersebut dibedakan atas jarak antar pusat gerombol, ragam setiap peubah pada setiap gerombol, nilai korelasi, dan banyak data.

Berdasarkan plot skor dua komponen utama yang dihasilkan untuk setiap kasus simulasi, dapat diketahui kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan. Terdapat tiga macam kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan, yaitu saling berdekatan, saling berjauhan maupun saling tumpang tindih. Plot skor dua komponen utama untuk n=50 yang dibuat pada salah satu ulangan, secara lengkap dapat dilihat pada Lampiran 1.

Guna melihat efektifitas dari metode analisis gerombol berbasis model, maka metode tersebut diterapkan pada setiap kasus simulasi. Semakin kecil rataan tingkat kesalahan klasifikasi yang dihasilkan, maka metode ini semakin efektif dalam menggerombolkan kasus simulasi sesuai dengan gerombol awal. Rataan tingkat kesalahan klasifikasi yang dihasilkan, secara lengkap dapat dilihat pada Lampiran 2.

Kondisi Jarak Antar Pusat Gerombol Sama

Kondisi jarak antar pusat gerombol sama dapat diartikan bahwa setiap gerombol yang terbentuk memiliki titik pusat gerombol yang sama. Dengan menerapkan metode penggerombolan berbasis model pada kondisi jarak antar pusat gerombol sama, hasil gerombol yang diperoleh dapat diketahui berdasarkan warna yang berbeda pada plot dua komponen utama. Contoh plot dua komponen utama hasil klasifikasi pada tingkat korelasi rendah dan tinggi dengan jumlah amatan tiap gerombol 50, dapat dilihat pada Gambar 4.

Pada kondisi titik pusat setiap gerombol dan ragam setiap peubah sama, akan membentuk satu gerombol. Hal ini disebabkan karena ketiga gerombol memiliki parameter yang identik sehingga tidak dapat dipisahkan. Kondisi gerombol yang terbentuk saling tumpang tindih.

Gambar 4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sama (a) ragam kecil korelasi rendah, (b) ragam kecil korelasi tinggi, (c) ragam besar korelasi rendah, (d) ragam besar korelasi tinggi, (e) ragam berbeda korelasi rendah, (f) ragam berbeda korelasi tinggi.

Jika ragam setiap peubah berbeda dan titik pusat antar gerombol sama, walaupun kondisi gerombol yang terbentuk saling tumpang tindih akan menghasilkan dua gerombol. Hal ini dikarenakan titik pusat gerombol yang bertumpuk pada satu titik, walaupun ragam setiap peubah untuk setiap gerombol berbeda menyebabkan amatan setiap gerombol menyebar disekitar titik pusat.

Hasil klasifikasi gerombol yang telah diperoleh, didukung oleh persentase tingkat kesalahan klasifikasi yang dihasilkan. Jika ragam setiap peubah untuk setiap gerombol sama maka tingkat kesalahan klasifikasi yang dihasilkan lebih dari 60%, sebaliknya jika ragam setiap peubah untuk setiap gerombol berbeda maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 43%. Persentase tingkat kesalahan klasifikasi yang dimaksud dapat dilihat pada Gambar 5.

Ditinjau dari tingkat korelasi antar peubah menunjukkan bahwa pada kondisi ragam setiap peubah sama tidak ada pengaruh tingkat korelasi antar peubah terhadap persentase salah penggerombolan, sedangkan pada kondisi ragam setiap peubah berbeda terjadi penurunan persentase salah penggerombolan pada

-3 -2 -1 0 1 2 3 -2 -1 0 1 2 comp1 co m p 2 -20 -10 0 10 -6 -4 -2 0 2 4 6 comp1 co m p 2 -10 -5 0 5 10 -1 0 -5 0 5 10 comp1 co m p 2 -4 -2 0 2 4 -1 .0 -0 .5 0 .0 0 .5 1 .0 comp1 co m p 2 -20 -10 0 10 -6 -4 -2 0 2 4 6 comp1 co m p 2 -15 -10 -5 0 5 10 15 -4 -2 0 2 4 comp1 co m p 2 (a) (b) (c) (d) (e) (f)

tingkat korelasi tinggi, walaupun penurunan tersebut hampir tidak ada perbedaan yang berarti.

Gambar 5 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak sama. ragam kecil, ragam besar, ragam berbeda

Dengan menggunakan kedua metode pendugaan parameter yang ada pada penggerombolan berbasis model, hasil penggerombolan yang diperoleh

Dokumen terkait