• Tidak ada hasil yang ditemukan

ESTIMASI PARAMETER MODEL KELAS LATEN MENGGUNAKAN ALGORITMA EXPECTATION MAXIMIZATION (EM)

N/A
N/A
Protected

Academic year: 2017

Membagikan "ESTIMASI PARAMETER MODEL KELAS LATEN MENGGUNAKAN ALGORITMA EXPECTATION MAXIMIZATION (EM)"

Copied!
57
0
0

Teks penuh

(1)

commit to user

ESTIMASI PARAMETER MODEL KELAS LATEN MENGGUNAKAN

ALGORITMA EXPECTATION- MAXIMIZATION (EM)

oleh

NURNAINI HIDAYATI

M0105014

SKRIPSI

ditulis dan diajukan untuk memenuhi sebagian persyaratan

memperoleh gelar Sarjana Sains Matematika

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

(2)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

(3)

commit to user

ABSTRAK

Nurnaini Hidayati, 2011. ESTIMASI PARAMETER MODEL KELAS

LATEN MENGGUNAKAN ALGORITMA

EXPECTATION-MAXIMIZATION (EM). Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Sebelas Maret.

Klasifikasi adalah pengelompokan objek ke dalam beberapa kelompok berdasarkan ukuran kemiripan atau ciri-ciri umum antar objek. Dalam klasifikasi kadang ditemukan objek yang tidak bisa diukur secara langsung karena tidak mempunyai nilai kuantitatif. Objek tersebut disebut dengan variabel tidak terukur atau tidak terobservasi (variabel laten). Klasifikasi terhadap variabel laten memerlukan data-data ataupun variabel terobservasi yang digunakan sebagai indikator, yang biasa disebut sebagai variabel manifes. Alat statistik yang dapat digunakan untuk klasifikasi terhadap variabel laten berdasarkan variabel manifes yang keduanya bertipe kategorik adalah analisis kelas laten. Adanya variabel laten

mengakibatkan metode estimasi maksimum likelihood tidak bisa digunakan secara

langsung. Tujuan dari penelitian ini adalah mengkaji ulang estimasi parameter

model kelas laten menggunakan algoritma expectation-maximization (EM).

Algoritma EM digunakan untuk menentukan nilai estimasi maksimum

likelihood dari parameter-parameter dalam model dengan menganggap data

terobservasi sebagai data yang tidak lengkap (incomplete data) yang dilakukan

secara iteratif. Setiap iterasi dari algoritma EM terdiri dari dua tahap yaitu tahap

penentuan harga harapan (tahap ekspektasi) untuk menggantikan informasi yang hilang pada permasalahan data yang tidak lengkap dan tahap pemaksimuman (tahap maksimisasi) sebagai upaya optimasi nilai parameter berdasarkan hasil pada tahap ekspektasi.

Hasil dari penelitian ini adalah pada tahap ekspektasi diperoleh fungsi

yaitu ∑ | ∏ ( ) dan pada

tahap maksimisasi diperoleh estimator dengan persamaan

∑ | dan ∑ | |

. Kedua tahap

tersebut dilakukan secara iteratif hingga diperoleh estimator yang dapat

memaksimumkan fungsi likelihood secara konvergen.

Kata kunci : estimasi maksimum likelihood, variabel laten, variabel manifes, data

(4)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iv

ABSTRACT

Nurnaini Hidayati, 2011. PARAMETER ESTIMATION OF LATENT CLASS MODEL USING THE EXPECTATION-MAXIMIZATION (EM) ALGORITHM. Faculty of Mathematics and Natural Sciences. Sebelas Maret University.

Classification is a grouping of the objects into several groups based on similarity measure or the common characteristic among the objects. In the classification sometimes finding the object that can not be measured directly because it does not have a quantitative value. That object is called unmeasured or unobserved variable (latent variable). Classifying latent variable requires data or observed variables used as indicators, commonly referred as manifest variable. Statistic tool used to classify the latent variable based on the manifest variable which both are categorical type is latent class analysis. Maximum likelihood estimation method can not be used directly because of the existence of latent variable. The aim of this research is to review the parameter estimation of latent class model using the Expectation-Maximization (EM) algorithm.

EM algorithm is used to determine the value of maximum likelihood estimation from parameters in the model with regarded the observed data as incomplete data proceeded iteratively. Each iteration of the EM algorithm consists of two steps, they are determination of the expectation value (expectation step) to replace the missing information on the incomplete data problem and maximization step as an effort to optimize the parameter value based on result in the expectations step.

The results of this research are the function,

∑ ∑ | ∏ ∏ ( ) is obtained in

the expectation step and the estimator ∑ | and

| |

is obtained in the maximization step. Both steps are

proceeded iteratively until the estimator that can maximize the likelihood function in a convergent is obtained.

(5)

commit to user

MOTO

“Makasesungguhnyadisampingadakesukaranterdapatpula

kemudahan. Sesungguhnyadisampingadakepayahan (jasmani) itu,

adapulakelapangan”

( Al-insyirah 22 : 5-6)

Orang yang sukses adalah orang yang dapat mengalahkan rasa

(6)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vi

PERSEMBAHAN

Kupersembahkan karyaku ini kepada…

 Bapak dan ibuku tersayang…

Kebahagiaan kalian adalah alasan sekaligus tujuan

hidupku…

Seandainya aku bisa mencintai kalian lebih dari kalian

mencintaiku…

 Kakak dan adikku tersayang…

Terimakasih atas kasih sayang tak berbatas…

 Sahabat-sahabatku…

(7)

commit to user

KATA PENGANTAR

Bismillahirohmanirrohim. Alhamdulillahirobbil’alamin, puji syukur

penulis panjatkan kehadirat Allah SWT, atas rahmat dan hidayah-Nya penulis

dapat menyelesaikan skripsi ini.

Penulis menyadari bahwa dalam menyelesaikan skripsi ini banyak pihak

yang telah membantu. Untuk itu, pada kesempatan ini penulis ingin mengucapkan

terima kasih kepada:

1. Dra. Etik Zukhronah, M.Si sebagai Pembimbing I dan Drs. Pangadi, M.Si

sebagai Pembimbing II yang telah memberikan bimbingan selama

menyelesaikan skripsi.

2. Semua teman-teman Jurusan Matematika angkatan 2005.

3. Semua pihak yang telah membantu penyelesaian skripsi ini.

Penulis berharap semoga skripsi ini dapat bermanfaat bagi seluruh

pembaca.

Surakarta, Maret 2011

(8)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

viii

DAFTAR ISI

Halaman

HALAMAN JUDUL ………...………... i

HALAMAN PENGESAHAN ………...………..….. ii

ABSTRAK………...………... iii

ABSTRACT………...………...…………... iv

MOTO…....………...……….……… v

PERSEMBAHAN……….………. vi

KATA PENGANTAR ………...………... vii

DAFTAR ISI ………...……….………. viii

DAFTAR TABEL………...……….……….. x

DAFTAR NOTASI ………...………..………... xi

BAB I PENDAHULUAN……….. 1

1.1 Latar Belakang Masalah………..……… 1

1.2 Perumusan Masalah………..………... 2

1.3 Tujuan Penelitian………..…..………. 2

1.4 Manfaat Penelitian………..………. 3

BAB II LANDASAN TEORI………...……….. 4

2.1 Tinjauan Pustaka………...………... 4

2.1.1 Probabilitas………... 4

2.1.2 Teorema Bayes………. 5

2.1.3 Metode Estimasi Maksimum Likelihood……….… 6

2.1.4 Model Campuran……….. 7

2.1.5 Ketidaksamaan Jensen.………...………. 8

2.1.6 Algoritma EM……….. 10

2.1.7 Metode Pengali Lagrange……… 15

2.1.8 Kriteria Pemilihan Model………. 16

2.2 Kerangka Pemikiran………...………... 18

BAB III METODE PENELITIAN………...……….. 19

(9)

commit to user

4.1 Model Kelas Laten……….……..………..……….. 20

4.2 Estimasi Parameter Model Kelas Laten………...……… 23

4.2.1 Tahap Ekspektasi………..………..………... 24

4.2.2 Tahap Maksimisasi………..……… 25

4.3 Contoh Kasus………... 28

4.4.1 Hasil Estimasi Parameter………..……... 29

4.4.2 Pemilihan Model Terbaik………...…….. 34

BAB V PENUTUP………. 36

5.1 Kesimpulan………... 36

5.2 Saran……….... 37

DAFTAR PUSTAKA………. 38

(10)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

x

DAFTAR TABEL

Halaman

Tabel 4.1 Analisis struktur laten berdasarkan variabel laten dan variabel

manifes…………...……….……….. 20

Tabel 4.2 Probabilitas individu berada pada kelas 1 dan 2 ( ) …..……..… 30

Tabel 4.3 Probabilitas bersyarat ( ) dengan 2 kelas laten ………...……. 30

Tabel 4.4 Probabilitas individu berada pada kelas 1, 2, dan 3 ( ) …...…… 31

Tabel 4.5 Probabilitas bersyarat ( ) dengan 3 kelas laten …….……..…. 31

Tabel 4.6 Probabilitas individu berada pada kelas 1, 2, 3, dan 4 ( ) …...… 33

Tabel 4.7 Probabilitas bersyarat ( ) dengan 4 kelas laten …..……….…. 33

(11)

commit to user

DAFTAR NOTASI

: variabel laten

: variabel manifes

: banyaknya kelas pada variabel laten

: banyaknya variabel manifes

: kemungkinan outcome variabel manifes

: probabilitas individu berada pada kelas laten

: probabilitas variabel manifes dengan outcome dengan syarat

varibel laten pada kelas

: banyaknya individu

: fungsi likelihood data lengkap

: nilai awal untuk

: nilai awal untuk

: estimator untuk

: estimator untuk

: vektor indikator yang merepresentasikan keanggotaan individu

pada kelas laten

: banyaknya iterasi

: fungsi Lagrange

: pengali Lagrange

: banyaknya sel pada tabel kontingensi

: frekuensi sel

̂ : frekuensi harapan sel

: rasio likelihood

: uji kecocokan Chi-kuadrat

: distribusi Chi-kuadrat dengan dan derajat bebas yang sesuai

(12)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xii

: maksimum log likelihood

(13)

commit to user

BAB I PENDAHULUAN

1.1 Latar Belakang Masalah

Secara umum klasifikasi adalah pengelompokan objek ke dalam beberapa

kelompok berdasarkan ukuran kemiripan atau ciri-ciri umum antar objek. Dengan

klasifikasi diharapkan objek-objek yang ada pada kelompok yang sama memiliki

kemiripan yang lebih besar dibandingkan dengan antar objek pada kelompok yang

berbeda. Objek dalam hal ini dapat berupa responden, brand atau produk, atau

objek pengamatan lainnya.

Dalam usaha pengklasifikasian kadang ditemukan objek yang tidak bisa

diukur secara langsung. Objek tersebut disebut dengan variabel tidak terukur

(variabel laten) karena variabel tersebut tidak mempunyai nilai kuantitatif.

Klasifikasi terhadap variabel laten memerlukan data-data ataupun

variabel-variabel yang digunakan sebagai indikator, yang biasa disebut sebagai variabel-variabel

manifes. Alat statistik yang sering digunakan untuk klasifikasi terhadap variabel

laten adalah analisis faktor.

Dalam analisis faktor variabel yang diukur disyaratkan bertipe kontinu,

padahal dalam kehidupan sehari-hari sering dijumpai data berupa data kategorik,

yaitu data yang memiliki ukuran skala yang berupa kategori dan tidak memiliki

ukuran kuantitatif. Sebagai contoh, filosofi politik diukur dalam 3 kategori yaitu

liberal, moderat dan konservatif. Untuk melakukan klasifikasi pada data kategorik

diperlukan suatu alat statistik yaitu analisis kelas laten atau latent class analysis (LCA).

Dalam analisis kelas laten, estimasi parameter diperlukan untuk mencari

estimator dari parameter populasi yang besarnya tidak diketahui. Metode estimasi

parameter yang sering digunakan adalah metode estimasi maksimum likelihood

karena praktis digunakan untuk mendapatkan estimator yang tidak bias dan

bervariansi minimum. Adanya variabel laten mengakibatkan metode estimasi

maksimum likelihood tidak bisa digunakan secara langsung, sehingga diperlukan

modifikasi atau augmented data agar metode estimasi maksimum likelihood dapat

(14)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

2

Menurut Andersen [1], terdapat dua metode yang dapat digunakan untuk

menyelasaikan estimasi maksimum likelihood pada model kelas laten, yaitu

algoritma EM dan algoritma Newton Raphson. Haberman dalam Demster dkk. [4]

berpendapat bahwa algoritma EM lebih lambat mencapai konvergen dibandingkan

algoritma Newton Raphson, akan tetapi algoritma EM lebih sederhana karena

tidak memerlukan matriks turunan kedua dari fungsi likelihood.

Dalam analisis kelas laten augmented data dilakukan dengan

memasangkan data dari variabel manifes dengan data dari variabel laten. Oleh

karena itu, augmented data disebut sebagai data lengkap dan data terobservasi

disebut data tidak lengkap karena data dari variabel laten sebagai pasangannya

tidak terobservasi. Menurut Demster dkk. [4], algoritma EM digunakan untuk

menentukan nilai estimasi maksimum likelihood dari parameter-parameter jika

dalam model terdapat data yang tidak lengkap (incomplete data).

Menurut Linzer dan Lewis [10], model kelas laten adalah model campuran

dengan distribusi komponennya berupa tabel kontingensi multinomial dengan

semua variabelnya independen. Oleh karena itu, algoritma EM dapat dijalankan

memalui pendekatan model campuran.

Berdasarkan uraian tersebut, penelitian ini mengkaji ulang estimasi

parameter model kelas laten menggunakan algoritma EM melalui pendekatan

model campuran (mixture model).

1.2 Perumusan Masalah

Berdasarkan latar belakang masalah yang telah diuraikan, disusun

perumusan masalah yaitu bagaimana estimasi parameter model kelas laten

menggunakan algoritma EM melalui pendekatan model campuran.

1.3 Tujuan

Tujuan yang ingin dicapai dari penelitian ini adalah mengkaji ulang

estimasi parameter model kelas laten menggunakan algoritma EM melalui

(15)

commit to user

1.4 Manfaat

Manfaat dari penelitian ini diharapkan dapat menambah wawasan

mengenai analisis kelas laten sebagai metode klasifikasi jika dalam sebuah

penelitian terdapat variabel yang tidak terobservasi atau tidak terukur (variabel

laten). Selain itu diharapkan dapat menambah wawasan mengenai metode

estimasi parameter model kelas laten dengan algoritma EM melalui pendekatan

(16)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

4 BAB II

LANDASAN TEORI

Bab ini terdiri dari dua subbab, yaitu tinjauan pustaka dan kerangka

pemikiran.

2.1 Tinjauan Pustaka

Pada tinjauan pustaka diberikan pengertian dasar yang diperlukan pada

pembahasan, yaitu konsep probabilitas, teorema Bayes, metode maksimum

likelihood, model campuran , ketidaksamaan Jensen, algoritma EM, dan metode

pengali Lagrange.

2.1.1 Probabilitas

Dalam suatu eksperimen, S menotasikan ruang sampel dan

menggambarkan kejadian-kejadian yang mungkin terjadi. Suatu fungsi himpunan

yang menghubungkan nilai nyata dengan setiap kejadian disebut

probabilitas fungsi himpunan dan disebut probabilitas dari jika memenuhi

persyaratan

1) untuk setiap

2)

3) ⋃

(Jika adalah kejadian-kejadian yang mutually exlusive).

Berikut diuraikan definisi mengenai konsep probabilitas.

Definisi 2.1 (Krewski dan Biks, [9])

Misalkan suatu ruang sampel S terdiri dari himpunan-himpunan kejadian yang

tidak kosong (nonempty set) Himpunan-himpunan tersebut dikatakan

independen jika untuk sembarang dari kejadian berlaku

(17)

commit to user

Sebuah himpunan dikatakan mutually independent (simply independent) jika himpunan tersebut k x k independen untuk semua nilai k.

Definisi 2.2 (Krewski dan Biks, [9])

Misalkan himpunan bagian dari S dan

maka kejadian disebut exhaustive.

Definisi 2.3 (Bain dan Engelhardt, [2])

Probabilitas kejadian A dengan syarat B didefinisikan sebagai

|

dengan

2.1.2 Teorema Bayes

Teorema 2.1 (Bain dan Engelhardt, [2])

Jika sembarang himpunan bagian dari dan adalah partisi dari

. Untuk dan berlaku

( | ) ( ) ( | ) |

Bukti:

Misalkan merupakan partisi dari ruang sampel ,

dengan yang bersifat

1)

2)

Misalkan adalah sembarang kejadian yang merupakan himpunan bagian dari ,

yang bersifat . Kejadian dapat dipandang sebagai gabungan

kejadian-kejadian yang saling terpisah satu sama lain sebagai

Probabilitas kejadian dapat ditulis sebagai

(18)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

6

∑ |

Berdasarkan Definisi 2.3 diketahui bahwa

( | ) ( )

( ) ( | )

Persamaan (2.1) disubstitusikan ke persamaan (2.2) diperoleh

( | ) ( ) ( | ) ∑ |

Terbukti

2.1.3 Metode Estimasi Maksimum Likelihood

Estimasi titik adalah suatu nilai tunggal yang dihitung berdasarkan

pengukuran dari sampel dan digunakan sebagai estimator dari nilai parameter

populasi yang besarnya tidak diketahui.

Definisi 2.4 (Bain dan Engelhardt, [2]). Fungsi kepadatan bersama dari

variabel random berukuran , yang diestimasi melalui

adalah dan fungsi inilah yang didefinisikan sebagai fungsi

likelihood. Untuk independen, fungsi likelihood adalah fungsi dari

yang dinotasikan dengan yaitu

Nilai yang memaksimumkan disebut sebagai estimator maksimum

likelihood yang dinotasikan dengan ̂ . Nilai ̂ diperoleh dengan cara

mendiferensialkan terhadap dan menyamakannya dengan 0. Untuk

mempermudah perhitungan dalam mencari nilai ̂, dapat dimodifikasi ke

dalam bentuk log karena fungsi log adalah monoton, oleh karena itu persamaan

(19)

commit to user (∏

)

2.1.4 Model Campuran

Fungsi distribusi model campuran merupakan kombinasi linear dari dua

atau lebih fungsi kepadatan probabilitas (fkp). Kegunaan mendasar dari model

campuran adalah dapat menggambarkan fkp yang rumit atau kompleks.

Berikut diberikan dua definisi mengenai fkp model campuran dan fungsi

log likelihood data lengkap yang diambil dari McLachlan dan Peel [12].

Definisi 2.5.

Dimisalkan adalah sampel random berukuran , adalah vektor

random berdimensi p dalam dengan fungsi kepadatan probabilitas

dengan . Dimisalkan adalah sampel random

terobservasi dengan adalah nilai terobservasi dari vektor random .

Diasumsikan diskrit, fungsi kepadatan probabilitas dari dapat ditulis

sebagai

dengan dan ∑ . Parameter proporsi

campuran dan adalah fungsi kepadatan campuran untuk komponen

.

Banyaknya komponen campuran biasanya telah diketahui, tetapi pada

banyak kasus banyaknya komponen campuran tidak diketahui dan harus

ditentukan menggunakan data terobservasi.

Definisi 2.6.

Data lengkap didefinisikan sebagai dengan adalah data dari

variabel tidak terobservasi yang berpasangan satu-satu dengan sebagai data

(20)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

8

dan untuk menentukan keanggotaan setiap

individu dalam komponen model campuran dengan bernilai 1 jika

berasal dari kelas dan bernilai 0 untuk yang lain, fungsi log likelihoodnya

adalah

∑ ∑

2.1.5 Ketidaksamaan Jensen

Ketidaksamaan Jensen merupakan alat statistik yang sangat bermanfaat

dalam perhitungan matematika yang sulit, seperti logaritma penjumlahan dalam

analisis kelas laten. Aplikasi dari ketidaksamaan Jensen meliputi algoritma EM,

metode estimasi Bayesian dan inferensi Bayesian.

Berikut diberikan teorema dan definisi mengenai ketidaksamaan Jensen

untuk fungsi cembung dan cekung yang diambil dari Harpaz dan Haralick [8].

Teorema 2.2.

Ketidaksamaan Jensen menyatakan jika adalah suatu fungsi cembung dan

suatu variabel random, berlaku

Definisi 2.7.

Suatu fungsi dikatakan sebagai fungsi cembung pada interval jika

dan berlaku

Teorema 2.3.

Jika adalah fungsi cembung pada interval dan jika

dan dengan ∑ maka

(∑

(21)

commit to user

Bukti Teorema 2.3:

Teorema 2.3 dibuktikan secara induksi matematika. Persamaan (2.4) benar untuk

dan , diasumsikan benar untuk dan akan dibuktikan benar

untuk ,

(∑

)

( ∑

)

(∑

)

Terbukti

Bukti Teorema 2.2:

Jika adalah variabel random diskrit dengan sebagai probabilitasnya, maka

persamaan (2.4) dapat ditulis kembali sebagai berikut

dan jika benar-benar cembung (strictly convex) maka

Terbukti

Teorema 2.4.

Jika diturunkan dua kali dalam dan maka disebut

fungsi cembung dalam

Bukti :

Untuk membuktikan Teorema 2.4, digunakan deret Taylor orde dua yaitu

Jika maka

Untuk dan diperoleh

(22)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

10

+

Dengan cara yang sama untuk diperoleh maka

( )

Dengan mengalikan terhadap persamaan (2.5) dan terhadap persamaan

(2.6) kemudian dijumlahkan akan menunjukkan ketidaksamaan kecembungan

sebagai berikut

( ) ( )

Terbukti

Definisi 2.8.

Fungsi benar-benar cekung (strictly concave) jika – adalah benar-benar

cembung. Teorema 2.5.

adalah benar-benar cembung dalam . Bukti:

maka ⁄ untuk . Terbukti

Berdasarkan Teorema 2.5 dan Definisi 2.8, diketahui bahwa adalah fungsi

yang benar-benar cekung, sehingga untuk berlaku

2.1.6 Algoritma EM

Metode estimasi maksimum likelihood adalah metode klasik yang dapat

digunakan secara praktis untuk mendapatkan estimator yang tidak bias dan

bervariansi minimum atau uniformly minimum variance unbiased estimator

(UMVUE). Tetapi, dalam kasus statistik dengan permasalahan data yang akan

(23)

commit to user

metode estimasi maksimum likelihood tidak bisa digunakan secara langsung.

Solusi untuk permasalahan tersebut salah satunya adalah dengan algoritma EM.

Dalam algoritma EM digunakan istilah data lengkap dan data tidak lengkap.

Agar metode estimasi maksimum likelihood dapat digunakan secara lebih

sederhana, perlu dilakukan modifikasi atau augmented data. Augmented data

tersebut disebut sebagai data lengkap dan data yang tersedia sebagai data tidak

lengkap.

Suatu karakteristik utama dari algoritma EM adalah melakukan perhitungan

secara iteratif (berulang-ulang) untuk mendapatkan estimator dengan adanya

permasalahan data tidak lengkap. Menurut Demster dkk. [3], setiap iterasi dari

algoritma EM terdiri dari dua tahap.

1) Tahap Ekspektasi atau Expectation Step (E Step)

Pada tahap ekspektasi dicari fungsi yaitu ekspektasi dari fungsi likelihood

data lengkap berdasarkan data terobservasi yang digunakan untuk mengganti

keberadaan atau keanggotaan setiap individu pada setiap kelas laten yang

tidak diketahui. Fungsi dinotasikan sebagai

| |

2) Tahap Maksimisasi atau Maximization Step (M Step)

Pada tahap maksimisasi dicari nilai estimator yang dapat memaksimumkan

fungsi yang telah didefinisikan pada tahap ekspektasi. Nilai estimator

dinotasikan sebagai

dengan adalah estimator untuk parameter pada iterasi ke- .

Kedua tahap tersebut akan dilakukan berulang-ulang hingga didapatkan estimator

yang dapat memaksimumkan fungsi likelihood yang konvergen.

Berikut ini dijelaskan mengenai prosedur algoritma EM menurut Harpaz

dan Haralick [8] dan sifat kekonvergenannya.

1) Prosedur algoritma EM

Dimisalkan adalah variabel manifes dan adalah data

(24)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

12

, . Dimisalkan adalah data lengkap dengan adalah

variabel laten yang berkorespondensi satu-satu dengan dan

adalah vektor data tidak terobservasi. Fungsi kepadatan bersama antara dan

dinotasikan dengan | . Fungsi log likelihood data terobservasi

didefinisikan sebagai

|

∑ |

Permasalahan dalam memaksimumkan persamaan (2.7) adalah adanya

bentuk logaritma penjumlahan dan data variabel yang tidak terobservasi. Ide

dari algoritma EM adalah membangun batas bawah (lower bound) untuk fungsi

likelihood sehingga bentuk penjumlahan logaritma bisa diatasi.

Dimisalkan adalah sembarang fungsi kepadatan probabilitas dari

dengan ∑ , persamaan (2.7) dapat ditulis kembali sebagai

∑ |

∑ |

Berdasarkan ketidaksamaan Jensen untuk fungsi cekung diperoleh

∑ |

∑ | ∑

( )

( ) adalah batas bawah dari fungsi likelihood.

Berikut dicari untuk persamaan (2.8) sehingga ( )

menjadi batas yang optimum (tight bound),

(25)

commit to user |

[ | | ]

| |

| |

( || | )

( || | ) disebut Kullback-Leiber Distance yang memiliki sifat

1. ( || | )

2. ( || | )

( ) menjadi batas yang optimum atau sama dengan jika ( || | ) minimum yaitu ketika ( || | ) .

Berikut ini dicari kondisi ( || | ) minimum,

( || | )

|

kondisi persamaan (2.10) terjadi jika

| Persamaan (2.11) disubstitusikan ke persamaan (2.8) diperoleh

( | ) ∑ | | ∑ | |

dengan

∑ | |

dan

(26)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

14

disebut entropi dari | yang bernilai konstan. Dapat

dibuktikan bahwa

Bukti:

∑ | |

∑ | |

∑ | | |

∑ | ( | | )

[∑ | | | ]

[∑ | ]

Terbukti bahwa maka .

Memaksimumkan ( | ) sama dengan memaksimumkan

Tahap penentuan fungsi inilah yang disebut dengan tahap ekspektasi

yang kemudian akan dicari nilai estimator yang memaksimumkan fungsi Q

tersebut pada tahap maksimisasi.

2) Kekonvergenan algoritma EM

Teorema 2.6 (Dempster dkk. , [4])

Fungsi likelihood berdasarkan data terobservasi tidak mengalami penurunan setelah iterasi EM

Bukti:

(27)

commit to user

( | ) dan

Dari persamaan (2.12) diketahui bahwa . Pada tahap

maksimisasi dicari nilai yang dapat memaksimumkan fungsi sehingga dari

definisi tersebut diperoleh informasi bahwa .

Kekonvergenan algoritma EM dapat dibuktikan sebagai

Persamaan (2.13) menunjukkan bahwa fungsi log likelihood berdasarkan data

terobservasi tidak mengalami penurunan setelah iterasi EM, maka demikian pula

dengan fungsi likelihoodnya.

Terbukti

2.1.7 Metode Pengali Lagrange

Metode pengali Lagrange adalah sebuah teknik dalam menyelesaikan

optimasi dengan kendala persamaan. Inti dari metode pengali Lagrange adalah

mengubah persoalan titik ekstrim terkendala menjadi persoalan ekstrim bebas

kendala. Fungsi yang terbentuk dari transformasi tersebut dinamakan fungsi

Lagrange.

Definisi 2.9 (Gluss dan Wisstein, [5])

Misalkan permasalahan yang dihadapi adalah memaksimumkan dengan

kendala , maka fungsi Lagrangenya adalah

( )

dengan adalah pengali Lagrange.

(28)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

16

atau

Pada kasus variabel, jika fungsi objektifnya mempunyai bentuk

dengan kendala , maka fungsi Lagrangenya adalah

( )

2.1.8 Kriteria Pemilihan Model

Ada beberapa kriteria yang digunakan untuk memilih model terbaik dalam

analisis kelas laten. Diantaranya adalah kriteria parsimony dan kriteria kecocokan

model absolut.

1) Kriteria Parsimony

Sifat parsimony adalah sifat yang menghubungkan antara kecocokan

model (dengan data) dengan banyaknya perameter dalam model yang

bersangkutan. Prinsip dari sifat parsimony adalah kesederhanaan yaitu model

sederhana lebih baik daripada model kompleks. Kesederhanaan dalam sifat

parsimony berarti banyaknya estimasi parameter lebih sedikit.

Dua ukuran parsimony yang digunakan dalam analisis kelas laten adalah

Akaike Information Criteria (AIC) dan Bayesian Information Criteria (BIC) yang

didefinisikan sebagai

dengan adalah maksimum log likelihood dan adalah jumlah parameter yang

diestimasi.

Nilai dan yang lebih kecil merepresentasikan keseimbangan

optimum antara kecocokan model dengan banyaknya parameter, sehingga model

yang lebih baik adalah model dengan nilai dan minimun. Namun

(29)

commit to user

untuk model kelas laten karena kesederhanaannya. Dan menurut Posada dan

Buckley [13], akan memilih model lebih sederhana daripada untuk

.

2) Kriteria Kecocokan Model Absolut

Kriteria kecocokan model absolut mengacu pada apakah model kelas laten

merepresentasikan data dengan cukup baik atau model dapat dikatakan cocok

dengan data tanpa membandingkan dengan model yang lain. Menurut Collins dan

Lanza [2], terdapat dua statistik uji yang dapat digunakan untuk menguji hipotesis

yang menyatakan kecocokan model dengan data yaitu statistik rasio likelihood

( ) dan uji kecocokan Chi-kuadrat( ).

Dimisalkan terdapat variabel terobservasi (variabel manifes)

dan setiap variabel terobservasi mempunyai kemungkinan outcome (kategori)

dan tabel kontingensi yang dibentuk dari tabulasi silang variabel terobservasi

memiliki sel sebanyak dengan ∏ . Frekuensi sel dilambangkan

dengan dan ̂ adalah frekuensi harapan sel yang didefinisikan sebagai

̂ ∑ ∏ ∏( )

rasio likelihood dan uji kecocokan Chi-kuadratnya adalah

̂

∑( ̂ ) ̂

Nilai dan dibandingkan dengan distribusi Chi-kuadrat ( ) yang

sesuai dengan derajat bebas dalam model. Model dapat dikatakan cocok dengan

data jika nilai dan lebih kecil dari . Derajat bebas yang bersesuaian

dengan dan adalah

(30)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

18

dengan adalah jumlah parameter yang diestimasi yaitu jumlah dari kelas laten

dan probabilitas bersyarat ( ) yang diestimasi.

2.2Kerangka Pemikiran

Mengacu pada tinjauan pustaka, dapat disusun suatu kerangka pemikiran

yang mendasari penulisan skripsi ini. Dalam penelitian kadang terdapat variabel

yang tidak dapat diukur secara langsung (unosreved variable) atau variabel

tersebut tidak mempunyai ukuran kuantitatif, variabel tersebut disebut dengan

variabel laten, sehingga diperlukan beberapa variabel terobservasi (observed

variable) yang dapat dijadikan sebagai alat ukur tidak langsung dari variabel

laten. Variabel-variabel tersebut sering dikenal sebagai variabel manifes atau

variabel indikator (indicator variable). Dan alat statistik yang digunakan untuk

klasifikasi terhadap variabel lalen dengan variabel manifes sebagai indikatornya

yang keduanya bertipe kategorik adalah analisis kelas laten atau latent class

analysis (LCA).

Adanya variabel laten menyebabkan metode estimasi maksimum likelihood

tidak bisa digunakan secara langsung untuk estimasi model kelas laten sehingga

diperlukan modifikasi atau augmented data agar metode estimasi maksimum

likelihood dapat digunakan secara lebih sederhana. Metode estimasi yang dapat

digunakan untuk menyelasaikan estimasi maksimum likelihood dalam model

kelas laten adalah algoritma EM dan algoritma Newton Raphson. Algoritma EM

memiliki keunggulan lebih sederhana dan praktis digunakan dibandingkan dengan

algoritma Newton Raphson. Dalam algoritma EM, augmented data disebut

sebagai data lengkap dan data yang tersedia disebut sebagai data tidak lengkap.

Skripsi ini mengkaji ulang estimasi parameter model kelas laten

menggunakan algoritma EM dengan memandang kelas pada variabel laten sebagai

(31)

commit to user

BAB III

METODE PENELITIAN

Metode yang digunakan dalam penulisan skripsi ini adalah studi literatur

yaitu dengan mengumpulkan dan mempelajari referensi yang berupa buku dan

jurnal yang berkaitan dengan materi algoritma EM dan model kelas laten. Berikut

ini adalah langkah-langkah yang dilakukan dalam mengestimasi parameter model

kelas laten.

1. Menentukan fungsi log likelihood data lengkap.

2. Mengestimasi parameter menggunakan algoritma EM dengan

langkah-langkah sebagai berikut.

a. Input : data dari variabel manifes.

b. Menetapkan dan inisialisasi awal yaitu dan .

c. Tahap ekspektasi

Menghitung | dan menentukan .

d. Tahap maksimisasi

Menghitung .

e. Menetapkan .

Ulangi tahap ekspektasi dan maksimisasi hingga konvergen.

f. Output : dan .

3. Memilih model terbaik berdasarkan 2.1.8.

(32)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

20 BAB IV PEMBAHASAN

Pada bab ini dibicarakan tiga pokok bahasan yaitu model kelas laten,

estimasi perameter model kelas laten, dan contoh kasus.

4.1 Model Kelas Laten

Analisis struktur laten dapat diklasifikasikan berdasarkan tipe variabel

[image:32.595.113.506.247.538.2]

manifes dan latennya seperti terdapat pada Tabel 4.1.

Tabel 4.1. Analisis struktur laten berdasarkan variabel laten dan variabel manifes

Variabel manifes

Variabel laten

Kontinu Kategorik

Kontinu Analisis faktor Analisis profil laten

Kategorik Analisis ciri laten Analisis kelas laten

Pada umumnya variabel laten pada analisis faktor dan analisis ciri laten

adalah bertipe kontinu dan diasumsikan berdistribusi normal, sedangkan pada

analisis profil laten dan analisis kelas laten variabel latennya bertipe kategorik dan

diasumsikan berdistribusi multinomial. Variabel manifes pada analisis faktor dan

analisis profil laten bertipe kontinu dan diasumsikan berdistribusi normal. Pada

analisis ciri laten dan analisis kelas laten, variabel manifesnya bertipe kategorik

dan diasumsikan berdistribusi binomial atau multinomial (Vermunt dan

Magidson, [14]).

Menurut Linzer dan Lewis [10], analisis kelas laten pertama kali

diperkenalkan oleh Lazarsfeld pada tahun 1950, dengan nama latents structure

analysis dengan variabel manifes dan variabel laten yang hanya terdiri dari dua

kategori. Goodman memperluas variabel manifes dan variabel laten menjadi

politomi dan suatu model dapat terdapat lebih dari satu variabel laten.

Model dengan satu variabel laten ( ) dan 4 variabel manifes ( )

(33)

commit to user

[image:33.595.113.507.242.511.2]

Gambar 4.1 Diagram path LCA

Dimisalkan terdapat variabel manifes dengan adalah variabel manifes

ke- dan satu variabel laten sebanyak kelas. Probabilitas

individu pada variabel adalah

( )

dan

|

( | )

|

dengan adalah probabilitas kelas laten .

Ide dasar dari kelas laten adalah independensi lokal yaitu variabel manifes

independen dengan syarat variabel laten, sehingga probabilitas variabel manifes

dengan syarat variabel laten adalah

| ∏ ( | )

Persamaan (4.3) disubstitusikan ke parsamaan (4.2) diperoleh

∏ ( | )

(34)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

22

Persamaan (4.4) disubstitusikan ke parsamaan (4.1) diperoleh

∑ ∏ ( | )

dengan

Persamaan (4.1) menyatakan bahwa individu-individu diklasifikasikan dalam

kelas laten yang mutually exclusive dan exhaustive dan persamaan (4.4)

menyatakan variabel manifes mutually independent (Goodman, [5]).

Dimisalkan setiap terdapat kemungkinan outcome. adalah nilai

terobservasi dari variabel manives dengan bernilai 1 jika individu berasal

dari respon variabel manifes dan 0 untuk yang lain. Terdapat variabel laten

sebanyak kelas Menurut Linzer dan Lewis [10] probabilitas individu dengan

variabel manifes berpola berada pada kelas laten

adalah

| ∏ ∏( )

dengan

( | ) dan

Fungsi kepadatan probabilitas untuk semua kelas adalah

∑ ∏ ∏( )

dengan

(35)

commit to user

4.2Estimasi Parameter Model Kelas Laten

Beberapa parameter statistik seperti rata-rata dan standar deviasi dapat

dengan mudah diestimasi dengan menyelesaikan suatu persamaan yang dikenal

dengan solusi close-form. Tetapi untuk model statistik yang kompleks seperti

model kelas laten, penurunan secara close-form tidak bisa dicapai sehingga

diperlukan augmented data untuk mendapatkan nilai parameter yang diinginkan.

Didefinisikan adalah variabel manifes dengan

adalah data terobservasi dari variabel manifes dan adalah variabel laten dengan

adalah vektor data tidak terobservasi. Data lengkap

didefinisikan sebagai dan berpasangan satu-satu dengan dengan

. Data menjadi tidak lengkap karena sebagai pasangan dari tidak tersedia. Adanya permasalahan data tidak lengkap tersebut dapat diatasi

dengan algoritma EM untuk menyelesaikan estimasi maksimum likelihood.

Menurut Collins dan Lanza [3], seluruh data terobservasi adalah campuran

dari beberapa kelas laten. Oleh karena itu, persamaan (4.8) dapat dipandang

sebagai model campuran dengan sebagai proporsi campuran dan

sebagai fungsi kepadatan multinomial dengan satu kali percobaan dengan bentuk

fkp pada persamaan (4.6). Sehingga algoritma EM dapat digunakan melalui

pendekatan model campuran.

Langkah awal yang dilakukan adalah menentukan fungsi likelihood dari

data terobservasi, yaitu

Untuk mempermudah perhitungan digunakan fungsi log likelihood sebagai

∑ ∑

∏ ∏( )

(36)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

24

Terdapat dua masalah dalam penentuan nilai maksimum fungsi log

likelihood pada persamaan (4.10) yaitu adanya bentuk logaritma penjumlahan

sebanyak mengakibatkan penurunan secara close form tidak dapat dicapai dan

jumlah kelas tidak diketahui, sehingga digunakan fungsi log likelihood data

lengkap. Berdasarkan Definisi 2.6 fungsi log likelihood data lengkap adalah

∑ ∑ ∏ ∏( )

dengan adalah vektor indikator yang merepresentasikan keanggotaan

(membership) individu pada kelas laten, bernilai 1 jika individu berasal dari

kelas dan 0 untuk yang lain.

Algoritma EM dimulai dengan pemilihan nilai awal untuk dan yang

diberi nama dan kemudian melalui tahap ekspektasi dan maksimisasi

secara berulang-ulang hingga dicapai dan yang konvergen.

4.2.1 Tahap Ekspektasi

Fungsi diperoleh dengan menentukan ekspektasi dari persamaan (4.11)

berdasarkan variabel dengan syarat variabel . Fungsi ditentukan sebagai

| [ ] | ∑ ∑ ∏ ∏( ) ∑ ∑ | ∏ ∏( )

Karena nilai dari biner yaitu 0 dan 1, maka ekspektasinya adalah hanya

pada saat bernilai 1 yaitu ketika barasal dari kelas sebagai

| | |

Dengan teorema Bayes diperoleh

| |

(37)

commit to user

( | ) ∑ ∏ ( | )

Persamaan (4.7) dan persamaan (4.9) disubstitusikan ke persamaan (4.14)

diperoleh

|

∏ ∏ ( )

∑ ∏ ( )

Substitusi nilai dan pada persamaan (4.15) diperoleh nilai

probabilitas variabel pada kelas laten dengan syarat variabel dengan pola .

Dimisalkan terdapat dua kelas laten, nilai parameter dan

disubstitusikan ke persamaan (4.15), jika | mendekati nilai 1 dan

| mendekati nilai 0 maka dapat disimpulkan data dengan pola berasal dari kelas laten pertama. Jadi pada tahap ekspektasi ditentukan dari mana

asal masing-masing data yang terobservasi, apakah dari kelas pertama, kedua, dan

seterusnya (banyaknya kelas ditentukan oleh peneliti).

Persamaan (4.13) disubstitusikan ke persamaan (4.12) diperoleh fungsi

sebagai

∑ ∑ |

∏ ∏( )

4.2.2 Tahap Maksimisasi

Dari persamaaan (4.5) diketahui ∑ , sehingga

pemaksimumkan fungsi dapat dilakukan menggunakan metode pengali

Lagrange dengan kendala ∑ . Fungsi Lagrangenya adalah

(∑

(38)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

26

∑ ∑ |

∏ ∏( )

(∑

)

dengan adalah pengali Lagrange.

Berikut ini dicari nilai maksimum untuk dengan cara menurunkan

persamaan (4.16) terhadap dan dan menyamakannya dengan 0,

∑ |

Dari persamaan (4.17) diperoleh

∑ |

Persamaan (4.19) disubstitusikan ke persamaan (4.18) diperoleh

∑ ∑ |

Karena ∑ | maka dari persamaan (4.20) diperoleh

– . Dengan mensubstitusikan – ke persamaan (4.19) diperoleh

sebagai estimator dari sebagai

∑ |

sebagai estimator dari diperoleh dengan cara menyelesaikan

fungsi Lagrange dengan kendala ∑ sebagai

(39)

commit to user ∑ ∑ |

∏ ∏( )

Nilai maksimum untuk diperoleh dengan cara menurunkan persamaan

(4.22) terhadap dan dan menyamakannya dengan 0,

∑ |

Dari persamaan (4.23) diperoleh

∑ |

Persamaan (4.25) disubstitusikan ke persamaan (4.24) diperoleh

∑ ∑ |

Karena bernilai 1 jika individu berasal dari respon variabel manifes dan

0 untuk yang lain, maka ∑ . Persamaan (4.26) menjadi

∑ |

Persamaan (4.27) disubstitusikan ke persamaan (4.25) diperoleh estimator

untuk yang diberi label sebagai

∑ | ∑ |

Pemilihan nilai awal dan kompleksitas model kelas laten kadang

menyebabkan fungsi log likelihood hanya mencapai maksimum lokal. Oleh

(40)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

28

yang berbeda untuk memastikan fungsi log likelihood telah mencapai maksimum

global.

4.3Contoh Kasus

Pada subbab ini dibahas mengenai penentuan tipe responden pada General

Social Survey tahun 1982 dengan sampel sebanyak 1202 responden, data diambil

dari McCutcheon [10] dilampirkan di Lampiran 1. General Social Survey

merupakan survei sosiologis yang digunakan untuk mengumpulkan data tentang

karakteristik demografi dan sikap warga Amerika Serikat. Survei tersebut

dilakukan oleh National Opinion Research melalui tatap muka langsung dengan

responden yang dipilih secara random.

Terdapat empat variabel manifes yang digunakan sebagai indikator untuk

menentukan tipe responden. Berikut adalah penjelasan mengenai empat variabel

manifes dengan masing-masing kategorinya.

1) Tujuan

Variabel tujuan merupakan variabel manifes mengenai opini responden

terhadap tujuan dari survei. Responden diberi pertanyaan “Menurut anda,

apakah tujuan dari survei ini baik atau hanya membuang waktu dan uang?”.

Variabel ini terdiri dari tiga kategori yaitu

a) 1 untuk kategori baik

b) 2 untuk kategori percaya

c) 3 untuk kategori pemborosan.

2) Ketepatan

Variabel ketepatan merupakan variabel manifes mengenai opini responden

tentang ketepatan pemilihan responden. Pertanyaan yang diberikan adalah

“Apakah hasil survei dapat dipercaya?”. Variabel ini terdiri dari dua kategori

yaitu

a) 1 untuk kategori tepat

(41)

commit to user

3) Pemahaman

Variabel ini mengenai penilaian petugas survei tehadap tingkat pemahaman

responden terhadap pertanyaan-pertanyaan dalam survei dengan pertanyaan

“Apakah pemahaman responden terhadap pertanyaan baik atau lemah?”.

Variabel ini terdiri dari dua kategori yaitu

a) 1 untuk kategori baik

b) 2 untuk kategori lemah.

4) Kerjasama

Variabel ini mengenai penilaian petugas survei terhadap sikap responden

dalam menjawab pertanyaan. Pertanyaannya untuk petugas survei adalah

“Bagaimana sikap responden saat menjawab pertanyaan?”. Variabel ini

terdiri dari tiga kategori yaitu

a) 1 untuk ketegori tertarik

b) 2 untuk kategori kooperatif

c) 3 untuk ketegori tidak sabar.

Pada kasus ini tipe responden berperan sebagai variabel laten karena penentuan tipe responden dilakukan berdasarkan informasi yang diperoleh dari variabel manifes. Analisis diawali dengan estimasi parameter model dengan dua kelas laten kemudian tiga kelas laten dan empat kelas laten. Kemudian dilanjutkan dengan pemilihan model terbaik.

4.3.1 Hasil Estimasi Parameter

Estimasi parameter dengan algoritma EM dihitung menggunakan bantuan

software R 2.7.2 paket poLCA 1.1. Algoritma diawali tahap ekspektasi yaitu

inisialisasi nilai awal dilanjutkan dengan substitusi dan ke persamaan

(4.15) hingga diperoleh nilai | . Tahap selanjutnya adalah tahap

maksimisasi yaitu substitusi nilai | yang diperoleh pada tahap

ekspektasi ke persamaan (4.21) dan (4.28). Paket poLCA 1.1 secara otomatis

menentukan inisialisasi nilai awal secara random dengan ketentuan bernilai antara

0 dan 1. Hasil keluaran dari R 2.7.2 paket poLCA 1.1dilampirkan di Lampiran 2.

Berikut adalah hasil estimasi parameter dengan dua kelas laten, tiga kelas

(42)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

30

1) Dengan dua kelas laten

Algoritma EM dijalankan dengan 10 nilai awal yang berbeda untuk

masing-masing parameter. Dengan maksimum iterasi sebanyak 500 iterasi

algoritma telah mencapai konvergen. Nilai estimator untuk model dengan dua

[image:42.595.157.466.228.508.2]

kelas laten disajikan pada Tabel 4.2 dan Tabel 4.3.

Tabel 4.2 Probabilitas individu berada pada kelas 1 dan 2 ( )

Kelas 1 0.1923

Kelas 2 0.8077

Tabel 4.3 Probabilitas bersyarat ( ) dengan 2 kelas laten

Variabel

manifes Kategori

Kelas variabel laten

Kelas 1 Kelas 2

TUJUAN

Baik 0.2154 0.8953

Percaya 0.2066 0.0579

Pemborosan 0.5780 0.0468

KETEPATAN Tepat 0.0297 0.6367

Tidak tepat 0.9703 0.3633

PEMAHAMAN Baik 0.7422 0.8327

Lemah 0.2578 0.1673

KERJASAMA

Tertarik 0.6478 0.8840

Kooparatif 0.2498 0.1043

Tidak sabar 0.1024 0.0117

Dari Tabel 4.2 diketahui probabilitas seorang responden berada pada kelas

satu adalah 0.1923 dan probabilitas responden berada pada kelas dua adalah

0.8077. Tipe responden pada kelas satu dan kelas dua dapat ditentukan

berdasarkan Tabel 4.3. Pada kelas satu probabilitas tertinggi untuk variabel tujuan

adalah pemborosan, probabilitas tertinggi untuk variabel ketepatan adalah tidak

tepat, probabilitas tertinggi untuk variabel pemahaman adalah baik, dan

probabilitas tertinggi untuk variabel kerjasama adalah tertarik. Disimpulkan

bahwa responden pada kelas satu menilai survei adalah sesuatu yang sia-sia,

menilai survei tidak tepat sasaran, namun memiliki pemahaman yang baik

terhadap pertanyaan survei, dan menunjukkan kerjasama yang baik saat survei

dilakukan. Dari ciri-ciri tersebut responden pada kelas satu dapat dinamakan

(43)

commit to user

Dengan melihat probabilitas bersyarat tertinggi untuk masing-masing

variabel manifes, disimpulkan bahwa responden pada kelas dua menilai survei

memiliki tujuan yang baik, survei sudah tepat sasaran, memiliki pemahaman yang

baik pada pertanyaan survei, dan menunjukkan kerjasama yang baik saat survei

dilakukan. Dari ciri-ciri tersebut responden kelas dua dapat dinamakan sebagai

responden ideal.

2) Dengan tiga kelas laten

Algoritma EM dijalankan dengan 10 nilai awal yang berbeda untuk

masing-masing parameter. Dengan maksimum iterasi sebanyak 1000 iterasi algoritma

telah mencapai konvergen. Nilai estimator untuk model dengan tiga kelas laten

[image:43.595.116.508.244.666.2]

disajikan pada Tabel 4.4 dan Tabel 4.5.

Tabel 4.4 Probabilitas individu berada pada kelas 1, 2, dan 3 ( )

Kelas 1 0.2070

Kelas 2 0.1723

Kelas 3 0.6208

Tabel 4.5 Probabilitas bersyarat ( ) dengan 3 kelas laten

Variabel

manifes Kategori

Kelas variabel laten

Kelas 1 Kelas 2 Kelas 3

TUJUAN

Baik 0.9117 0.1427 0.8881

Percaya 0.0716 0.2246 0.0532

Pemborosan 0.0167 0.6327 0.0587

KETEPATAN Tepat 0.6478 0.0313 0.6130

Tidak tepat 0.3522 0.9687 0.3870

PEMAHAMAN Baik 0.3131 0.7531 1.0000

Lemah 0.6869 0.2469 0.0000

KERJASAMA

Tertarik 0.6897 0.6410 0.9431

Kooparatif 0.2553 0.2561 0.0569

Tidak sabar 0.0550 0.1030 0.0000

Dari Tabel 4.4 diperoleh informasi bahwa probabilitas responden masuk

ke kelas satu sebesar 0.2070, kelas dua sebesar 0.1723, kelas tiga sebesar 0.6208.

Tabel 4.5 memberikan informasi mengenai tipe responden setiap kelas. Pada kelas

(44)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

32

probabilitas bersyarat tertinggi untuk variabel manifes ketepatan adalah tepat,

probabilitas bersyarat tertinggi untuk variabel manifes pemahaman adalah lemah,

dan probabilitas bersyarat tertinggi untuk variabel manifes kerjasama adalah

tertarik. Dari informasi tersebut dapat dinyatakan responden pada kelas satu

menilai survei mempunyai tujuan yang baik, survei yang dilakukan tepat sasaran,

dan memikili pemahaman yang lemah terhadap pertanyaan survei tetapi bisa

bekerjasama saat survei dilakukan. Berdasarkan ciri-ciri yang dimiliki, responden

pada kelas satu dapat dinamakan responden optimis.

Berdasarkan probabilitas bersyarat variabel manifes tertinggi pada kelas

dua, responden pada kelas dua cenderung melihat tujuan dari survei sebagai

sesuatu yang sia-sia, menilai survei yang dilakukan tidak tepat sasaran, namun

memiliki pemahaman yang baik terhadap survei dan dapat bekerjasama saat

survei dilakukan. Berdasarkan ciri-ciri tersebut responden pada kelas dua

memiliki pandangan yang negatif terhadap survei sehingga dapat dinamakan

responden ragu-ragu atau skeptis.

Berdasarkan probabilitas bersyarat variabel manifes tertinggi kelas tiga,

dapat disimpulkan responden pada kelas tiga memiliki penilaian yang bagus

terhadap tujuan survei dan menganggap survei yang dilakukan tepat sasaran,

memiliki pemahaman yang baik terhadap pertanyaan survei dan menunjukkan

kerjasama yang baik saat survei dilakukan, sehingga responden pada kelas tiga

dapat dinamakan sebagai responden ideal.

3) Dengan empat kelas laten

Algoritma EM dijalankan dengan 10 nilai awal yang berbeda untuk

masing-masing parameter. Dengan maksimum iterasi sebanyak 5000 iterasi

algoritma telah mencapai konvergen. Nilai estimator untuk model dengan empat

(45)

commit to user

Tabel 4.6 Probabilitas individu berada pada kelas 1, 2, 3, dan 4 ( )

Kelas 1 0.5721

Kelas 2 0.1790

Kelas 3 0.2209

[image:45.595.116.508.225.457.2]

Kelas 4 0.0280

Tabel 4.7 Probabilitas bersyarat ( ) dengan 4 kelas laten

Variabel manifes Kategori Kelas variabel laten

Kelas 1 Kelas 2 Kelas 3 Kelas 4

TUJUAN

Baik 0.9120 0.1812 0.9231 0.2305

Percaya 0.0414 0.2431 0.0749 0.0989

Pemborosan 0.0465 0.5758 0.0020 0.6706

KETEPATAN Tepat 0.6258 0.0855 0.6558 0.0626

Tidak tepat 0.3742 0.9145 0.3442 0.9374

PEMAHAMAN Baik 1.0000 0.8508 0.3814 0.2386

Lemah 0.0000 0.1492 0.6186 0.7614

KERJASAMA

Tertarik 0.9510 0.7636 0.7147 0.0000

Kooparatif 0.0490 0.1966 0.2418 0.5585

Tidak sabar 0.0000 0.0398 0.0435 0.4415

Dari Tabel 4.6 diperoleh informasi bahwa probabilitas responden masuk

ke kelas satu sebesar 0.5721, kelas dua sebesar 0.1790, kelas tiga sebesar 0.2209,

dan kelas empat sebasar 0.0241. Tabel 4.7 memberikan informasi mengenai tipe

responden setiap kelas. Pada kelas satu probabilitas bersyarat tertinggi untuk

variabel manifes tujuan adalah baik, probabilitas bersyarat tertinggi untuk variabel

manifes ketepatan adalah tepat, probabilitas bersyarat tertinggi untuk variabel

manifes pemahaman adalah baik, dan probabilitas bersyarat tertinggi untuk

variabel manifes kerjasamaadalah tertarik. Dari informasi tersebut dapat

dinyatakan responden pada kelas satu menilai survei mempunyai tujuan yang

baik, survei yang dilakukan tepat sasaran, memikili pemahaman yang baik

terhadap survei, dan bisa bekerjasama saat survei dilakukan. Berdasarkan ciri-ciri

yang dimiliki, responden pada kelas satu dapat dinamakan responden ideal.

Berdasarkan probabilitas bersyarat variabel manifes tertingginya,

responden pada kelas dua cenderung melihat tujuan dari survei sebagai sesuatu

(46)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

34

pemahaman yang baik terhadap survei dan dapat bekerjasama saat survei

dilakukan. Berdasarkan ciri-ciri tersebut responden pada kelas dua dapat

dinamakan responden ragu-ragu atau skeptis.

Responden pada kelas tiga menilai survei memiliki tujuan yang baik,

survei yang dilakukan tepat sasaran,memiliki pemahaman yang lemah terhadap

pertanyaan survei, dan menunjukan kerjasama yang baik saat survei dilakukan.

Berdasarkan ciri-ciri tersebut responden pada kelas tiga dapat dinamakan

responden optimis.

Responden pada kelas empat menilai survei sebagai sesuatu yang sia-sia,

survei tidak tepat sasaran, mamiliki pemahaman yang lemah terhadap pertanyaan

survei, dan dapat bekerjasama saat survei dilakukan walaupun tidak

tertarik.Berdasarkan ciri-ciri tersebut responden pada kelas empat dapat

dinamakan responden kurang ideal.

4.3.2 Pemilihan Model Terbaik

Pemodelan menggunakan software R 2.7.2 paket poLCA 1.1 diperoleh

[image:46.595.110.514.210.577.2]

informasi kriteria pemilihan model pada Tabel 4.8.

Tabel 4.8 Informasi kriteria pemilihan model

model

2 kelas laten 5592.536 5658.729 79.337 93.253 22 33.924

3 kelas laten 5549.091 5650.926 21.392 23.532 15 24.996

4 kelas laten 5547.242 5681.719 6.043 5.113 8 15.507

Dari Tabel 4.8 diketahui nilai terkecil adalah model dengan empat

kelas laten sedangkan nilai terkecil adalah model dengan tiga kelas laten.

Karena maka lebih tepat digunakan daripada , oleh karena itu

model terpilih adalah model dengan tiga kelas laten. Kemudian digunakan kriteria

kecocokan model absolut untuk menentukan apakah model dengan tiga kelas laten

cocok dengan data. Diketahui dari Tabel 4.8 bahwa model dengan tiga kelas laten

(47)

commit to user

dan sebasar 23.532 lebih kecil dari nilai distribusi Chi-kuadrat dengan derajat

bebas 15 dan sebesar 24.996.

Model dengan tiga kelas laten memenuhi kriteria parsimony dan kriteria

kecocockan model absolut. Oleh karena itu disimpulkan bahwa responden

General Social Survey tahun 1982 diklasifikasikan menjadi tiga tipe responden

(48)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

36 BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil dari pembahasan dapat diambil kesimpulan estimasi

parameter model kelas laten menggunakan algoritma EM diawali dengan

inisialisasi nilai awal yang dinotasikan dengan dan . Tahap

selanjutnya tahap ekspektasi dan tahap maksimisasi sebagai berikut.

a) Tahap Ekspektasi

Pada tahap ekspektasi dilakukan substitusi dan untuk

| sehingga diperoleh fungsi sebagai

∑ ∑ |

∏ ∏( )

b) Tahap Maksimisasi

Pada tahap maksimisasi dicari nilai parameter ( ) dengan

memaksimumkan fungsi yang diperoleh pada tahap ekspektasi

menggunakan metode pengali Lagrange, hingga diperoleh

∑ |

dan

∑ | ∑ |

Kedua tahap tersebut dijalankan secara berulang-ulang sampai diperoleh

(49)

commit to user

5.2 Saran

Berdasarkan batasan masalah, skripsi ini hanya membahas tentang

estimasi parameter model kelas laten menggunakan algoritma EM. Salah satu

kesulitan yang dihadapai dalam penggunaan algoritma EM untuk estimasi

parameter model kelas laten adalah adanya kemungkinan independensi lokal yang

tidak terpenuhi akibatnya tidak ada model yang memenuhi kriteria kecocokan

model absolut. Bagi pembaca yang tertarik pada pemodelan kelas laten, dapat

melakukan penelitian mengenai estimasi parameter model kelas laten dengan

permasalahan independensi lokal yang tidak terpenuhi.

Estimasi parameter model kelas laten dapat pula dilakukan dengan metode

algoritma Newton Raphson melalui pendekatan loglinear. Selain itu masih

terdapat analisis struktur laten yang dapat dikaji seperti analisis ciri laten dan

(50)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

38

DAFTAR PUSTAKA

[1] Andersen, E. B., Latent Structure Analysis: A Survey, Scandinavian Journal

of Statistics, vol. 9, no.1, pp. 1-22, 1982.

[2] Bain, L. J and M. Engelhardt, Introduction to Probability and Mathematical

Statistics, Duxbury Press, California, 1992.

[3] Collins, L. M. and S. T. Lanza, Latent Class and Latent Transition Analysis,

John Wiley and Sons, New Jersey, USA, 2010.

[4] Dempster, A. D., N. M. Laird, and D. B. Rubin, Maximum Likelihood from

Incomplete Data via the EM Algorithm, Journal of the Royal Statistical

Society B, vol. 39, pp. 1-38, 1977.

[5] Gluss, D. and E. W. Weisstein, Lagrange Multiplier,

http://mathworld.world.wolfram.com/LagrangeMultiplier.html, 1999.

[6] Goodman, L. A., Exploratory Latent Structure Analysis Using Both

Identifiable and Unidentifiable Models, American Journal of Biometrica,

vol. 61, no. 2, pp. 215-231, 1974.

[7] Goodman, L. A., The Analysis of Qualitative Variable When Some of the

Variables Are Unobservable, American Journal of Socioligy, vol. 79, no. 5,

pp. 1179-1259, 1974.

[8] Harpaz, R. and R. Haralick, The EM Algorithm as a Lower Bound

Optimization Technique, The Graduate Centre, New York, 2006.

[9] Krewski, D. and M. Bicks, A Note on Independent and Exhaustive Events,

Journal of The American Statistican, vol. 38, no.4, pp. 290-291, 1984.

[10] Linzer, D. A. and J. Lewis, poLCA: Polytomous Variable Latent Class

Analysis Version 1.1, http://userwww.service.emory.edu/~dlinzer/poLCA,

2006.

[11] McCutheon, A., Latent Class Analysis, SAGE Publication, Newbury Park,

(51)

commit to user

[12] McLachlan, G. and D. Peel, Finite Mixture Models, John Wiley and Sons,

New York, USA, 2000.

[13] Posada, D. and T. R. Buckley, Model Selection and Model Averaging in

Phylogenetics: Advantages of Akaike Information Criterion and Bayesian

Approaches Over Likelihood Ratio Test, Oxford Journal: Society of

Sistematic Biologists, vol. 53, no.5, pp. 793-808, 2004.

[14] Vermunt, J. K. and J. Magidson, Latent Variable,

http://www.statisticalinnovations.com/articles/articles.html#articles, 2000.

(52)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

40

LAMPIRAN

Lampiran 1 Data General Social Survey tahun 1982 dengan sampel sebanyak

1202 responden

(53)

commit to user

LAMPIRAN 1

Data General Social Survey tahun 1982 dengan sampel sebanyak 1202 responden

purpose accuracy understa cooperate frekuensi

1 1 1 1 419

1 1 1 2 35

1 1 1 3 2

1 1 2 1 71

1 1 2 2 25

1 1 2 3 5

1 2 1 1 270

1 2 1 2 25

1 2 1 3 4

1 2 2 1 42

1 2 2 2 16

1 2 2 3 5

2 1 1 1 23

2 1 1 2 4

2 1 1 3 1

2 1 2 1 6

2 1 2 2 2

2 1 2 3 0

2 2 1 1 43

2 2 1 2 9

2 2 1 3 2

2 2 2 1 9

2 2 2 2 3

2 2 2 3 2

3 1 1 1 26

3 1 1 2 3

3 1 1 3 0

3 1 2 1 1

3 1 2 2 2

3 1 2 3 0

3 2 1 1 85

3 2 1 2 23

3 2 1 3 6

3 2 2 1 13

3 2 2 2 12

(54)

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

42

LAMPIRAN 2

Output software R 2.7.2 pakage poLCA 1.1

dua kelas laten

> f<-cbind(TUJUAN,KETEPATAN,PEMAHAMAN,KERJASAMA)~1

> gss82.lc2<-poLCA(f,gss82,nclass=2,nrep=10,maxiter=500) Model 1: llik = -2783.268 ... best llik = -2783.268 Model 2: llik = -2783.268 ... best llik = -2783.268 Model 3: llik = -2783.268 ... best llik = -2783.268 Model 4: llik = -2783.268 ... best llik = -2783.268 Model 5: llik = -2783.268 ... best llik = -2783.2

Gambar

Tabel 4.1 Analisis struktur laten berdasarkan variabel laten dan variabel
Tabel 4.1. Analisis struktur laten berdasarkan variabel laten dan variabel manifes
Gambar 4.1 Diagram path LCA
Tabel 4.2 Probabilitas individu berada pada kelas 1 dan 2 (  )
+4

Referensi

Dokumen terkait

Dokumen-dokumen dan informasi teknis yang telah disampaikan sesuai dengan persyaratan dari Persetujuan atau pengaturan, atau kontrak-kontrak yang tercakup dalam

2. 13 Tahun 2006 berbunyi, “dalam melaksanakan pemberian perlindungan dan bantuan LPSK dapat bekerjasama dengan instansi terkait yang berwenang”. Hal ini menjelaskan

Sejalan dengan hasil yang diperoleh penelitian ini yaitu berupa program bimbingan pribadi untuk mengembangka identitas diri mahasiswa, dapat dijadikan pedoman dosen

Penelitian ini bertujuan untuk 1) menganalisis persepsi pemuda desa terhadap pekerjaan sebagai petani, 2) mengidentifikasi faktor-faktor yang mempengaruhi

Supervisor (Kepala Ruangan) memberitahu PP (Perawat Primer) bahwa akan dilakukan supervisi prosedur pemberian obat melalui intravena Kegiatan ini bertujuan untuk mengevaluasi

Harap hubungi penjual persediaan yang telah diisi ulang, diproduksi ulang, atau yang kompatibel untuk informasi yang berlaku, termasuk informasi tentang peralatan pelindung diri,

IFC Corporate Governance (2012) mengatakan pegawai bisnis yang berasal dari keluarga dan sama dengan pemilik perusahaan akan memberikan dedikasi yang tinggi

Pengertian tauhid Asma  (mengesakan Tuhan dengan asma -Nya) yang dimaksud oleh Syaikh Nafis al-Banjari pada intinya menyatakan bahwa semua asma  yang ada di dalam alam