• Tidak ada hasil yang ditemukan

BAB 2 TINJAUAN PUSTAKA

2.4 Model Based - Clustering

Metode pengelompokan objek yang banyak dikenal adalah metode

clustering hirarki (single linkage, complete linkage, average linkage dan Ward’s

linkage) dan clustering non hirarki ( K-means). Namun metode pengelompokan tersebut tidak mempunyai dasar pengelompokan secara statistik. Adapun metode pengelompokan yang memperhatikan model statistik disebut dengan model-based clustering (MBC). Model ini pertama kali digunakan oleh Banfield & Raftery (1993) untuk pengelompokan objek dalam populasi. Asumsi yang digunakan pada

model-based clustering adalah dalam suatu populasi dapat diambil subpopulasi yang mempunyai distribusi peluang tertentu dan masing-masing subpopulasi mempunyai paremeter yang berbeda. Keseluruhan subpopulasi mempunyai distribusi peluang mixture dengan proporsi berbeda untuk setiap subpopulasi. Asumsi ini mengarahkan pada model probabilitas matematika yaitu model finite mixture. Saat ini penggunaan model finite mixture pada clustering telah berkembang sangat cepat dan menjadi salah satu metode clustering yang populer.

Banfield dan Raftery (1993) mengembangkan kerangka model-based clustering menggunakan dekomposisi eigenvalue dari matriks varians kovarians ( ) sebagai berikut :

(2.5)

dengan :

adalah nilai skalar yang menunjukkan volume elips.

adalah matriks ortogonal eigenvector yang merupakan orientasi dari komponen utama .

adalah diagonal matriks dengan elemen-elemen yang proporsional pada eigenvalue dan menunjukkan kontur dari fungsi kepadatannya.

Orientasi, volume dan bentuk dari distribusi dapat diestimasi dari data dan mempunyai bentuk bermacam-macam antar cluster atau dapat saling memotong antar cluster, sebagaimana diilustrasikan pada gambar 2.1.

17 Keterangan :

1. = = λIcluster yang terbentuk adalah spherical (bola) dan mempunyai volume yang sama besar antar cluster.

2. = = semua cluster yang terbentuk mempunyai bentuk, volume dan orientasi yang sama.

3. = cluster yang terbentuk bisa berbeda pada bentuk, volume dan orientasinya.

4. = hanya orientasi dari cluster terbentuk yang berbeda.

( ) = = λI ( ) =

( ) = = ( ) =

Gambar 2.1 Contoh Bentuk Cluster yang Merepresentasikan Struktur Matriks Varians Kovarians pada Model-Based Clustering

Dengan bantuan software R package teigen, mampu diidentifikasi 28 model yang mungkin dengan jumlah kelompok maksimal 9 kelompok untuk pengelompokan menggunakan model-based clusteringt multivariat ( lampiran 1). Sebagai contoh diperoleh model terbaik (nilai ICL terbesar) adalah CUCU dengan jumlah kelompok optimal G=2. Berdasarkan persamaan (2.5) diketahui model CUCU menunjukkan berlabel “C”onstrained yang berarti kedua kelompok memiliki

18

volume elips yang sama. berlabel “U”nconstrained yang berarti orientasi dari kedua kelompok berbeda. berlabel “C”onstrained yang berarti kedua kelompok memiliki kontur yang sama. berlabel “U”nconstrained yang berarti kedua kelompok memiliki derajat bebas yang berbeda. Oleh karena orientasi dan derajat bebas kedua kelompok berbeda, maka kedua kelompok memiliki matrik kovarians ( ) yang berbeda pula (Andrews, dkk (2011). Model CUCU bersesuaian dengan contoh gambar no (4) pada Gambar 2.1 di atas dengan bentuk cluster yang merepresentasikan struktur matriks varians kovarians = .

2.4.1 Model Finite Mixture

Misalkan vektor variabel acak x dengan dimensi berasal dari distribusi finite mixture dengan fungsi kepadatan peluang :

( | ) ∑ ( | )

(2.6)

dengan:

( ) adalah vektor parameter,

( | ) disebut fungsi kepadatan peluang x dengan parameter kelompok , G adalah jumlah kelompok dan adalah bobot atau proporsi campuran (mixing proportion) dari kelompok ke- dengan batasan :

( ) dan ∑

Tabel 2.1 Struktur Data Kelompok ke- pada Model Finite Mixture

Obyek pengamatan Variabel 1 2 ... j ... 1 ( ) ( ) ... ( ) ... ( ) ( ) 2 ( ) ( ) ... ( ) ... ( ) ( ) ... ... ... ... ... ... ... ... i ( ) ( ) ... ( ) ... ( ) ( ) ... ... ... ... ... ... ... ... . / . / ... . / ... . / . /

19 Keterangan:

( ) : Nilai variabel ke - obyek pengamatan ke- keompok ke-

( ) : Vektor nilai data obyek pengamatan ke- kelompok ke-

: Indeks kelompok,

: Indeks variabel,

: Indeks obyek pengamatan, ∑

Sedikitnya ada dua proses utama yang perlu dilakukan pada model finite mixture

yaitu penaksiran parameter dan pemilihan model terbaik yang menggambarkan struktur data. Pembahasan lebih detil tentang model finite mixture dan aplikasinya dibahas oleh Titterington, Smith & Makov (1985) dan McLachlan & Peel (2000). Struktur data kelompok ke- dari sampel acak sebagai nilai obyek pengamatan dari dari sebuah model finite mixture adalah sebagai berikut :

2.4.1 Model Finite Mixture Normal Multivariat

Sampel acak dianggap berasal dari sebuah model finite mixture normal multivariat dengan setiap kelompok ke- pada model diasumsikan berdistribusi normal multivariat maka fungsi kepadatan probabilitasnya berbentuk: ( ) ∑ ( ) (2.7) dengan ∑ dan ( ) ( ) | | { ( ) ( )} (2.8)

Dan adalah vektor mean dan adalah matriks kovarians kelompok ke- dari distribusi normal multivariat dan ( ) adalah fungsi kepadatan probabilitas kelompok ke-

20 2.4.3 Model Finite Mixture t Multivariat

Model finite mixture t multivariat dianggap sebagai sebuah pendekatan yang lebih robust untuk data mengandung outlier. Dengan mengasumsikan setiap kelompok pada model finite mixture berdistribusi t multivariat maka efek adanya

outlier pada penaksiran parameter model finite mixture dapat teratasi (McLachlan, Ng & Bean,(2004). Hal ini karena distribusi t memiliki ekor yang lebih panjang dibanding distribusi normal sehingga data pengamatan yang tidak biasa (atypical) dari sebuah kelompok akan mendapat bobot yang lebih rendah dalam penghitungan nilai penaksir parameternya (Peel & McLachlan, (2000).

Sampel acak dianggap berasal dari sebuah model finite mixture t multivariat dengan setiap kelompok ke- pada model diasumsikan berdistribusi t multivariat maka fungsi kepadatan probabilitasnya berbentuk:

( ) ∑ ( ) (2.9) dengan ∑ dan ( ) ( * | | ( ) ( ) 4 ( ) 5 ( ) (2.10) dan ( ) ( ) ( ) (2.11) adalah jarak Mahalanobis kuadrat antara dan (dengan sebagai matrik kovarians). Dalam hal ini [ ] adalah vektor rata-rata kelompok ke- dengan , - dan

[ ]

adalah matriks varians kovarians pada kelompok ke- dengan ,

-dan [ ] serta adalah derajat bebas kelompok ke-

Ketika maka pendekatan dengan distribusi t ini akan mengarah pada distribusi normal. Sehingga menurut McLachlan & Peel (2000), parameter dapat dianggap sebagai parameter pengontrol robust (robustness tuning).

21

2.5 Penaksiran Parameter pada Model Finite Mixture dengan Metode

Maximum Likelihood

Untuk menaksir parameter finite mixture, banyak metode telah dikembangkan seperti metode momen, metode minimum-distance, maximum likelihood (ML) dan pendekatan Bayesian. Pada penelitian ini akan digunakan metode maximum likelihood untuk mendapatkan penaksir parameter model-based clustering. Metode ML memiliki kelebihan yaitu teknik penaksiran parameternya lebih mudah. Teknik ini hanya dapat digunakan bilamana distribusi populasi diketahui. Selain itu ML sangat sensitif terhadap data ekstrim. Data ekstrim ini sangat berpengaruh terhadap nilai-nilai mean ataupun varians. Fungsi likelihood model finite mixture pada (2.6) adalah:

( | ) ∏ ∑ ( | )

(2.12)

Untuk memudahkan dalam menghitung, seringkali digunakan ( | ) Oleh karena fungsi logaritma merupakan fungsi naik maka fungsi ln likelihoodnya adalah sebagai berikut:

( | ) ∑ ∑ ( | ) (2.13) dengan ( )

̂ adalah maximum likelihood estimator (MLE) atau penaksir parameter dari yang didapatkan dengan meminimumkan fungsi ln likelihood, yaitu

( | ) ( | )

Namun penaksir parameter (MLE) tidak dapat diperoleh secara analitik karena fungsi (2.13) mengandung ln penjumlahan distribusi mixture dan berbentuk multimodal.

Jika data memiliki kategori/label kelompok maka MLE bisa diperoleh dalam bentuk eksplisit. Misalkan adalah data lengkap berlabel yang merupakan pasangan berurut ( ) dimana adalah data nilai obyek pengamatan dan adalah vektor label kelompok.

22

Dikarenakan syarat ∑ , maka bebas dan identik mengikuti distribusi multinomial dengan peluang dengan fungsi kepadatan probabilitas adalah ketika yaitu :

( ) ∏

(2.14)

Jumlah observasi dalam kelompok dapat diperoleh dengan menjumlahkan semua variabel label untuk semua observasi dalam kelompok sehingga :

(2.15) ∑ (2.16)

Fungsi kepadatan probabilitas bersyarat diberikan adalah fungsi ( )

ketika = 1 yaitu

( | ) ∏ ( | )

(2.17)

Fungsi kepadatan probabilitas bersama dari data lengkap adalah :

( ) ( ) ( ) ( | ) ∏ [ ( | )]

(2.18)

Sehingga fungsi likelihood data lengkap untuk ( | ) adalah

( | ) ∏ ( ) (2.19) ∏ ∏ [ ( | )]

Dan fungsi ln likelihood data lengkap untuk ( | ) adalah

( | ) (∏ ∏ [ ( | )] ) (2.20) ∑ ∑ [ ( | )]

Dokumen terkait