BAB 5 HASIL DAN PEMBAHASAN

(1)

BAB 5

HASIL DAN PEMBAHASAN

Dalam bagian hasil dan pembahasan ini akan ditampilkan proses analisis dan pengolahan data, dalam bentuk deskriptif, tabel-tabel yang digunakan, gambar-gambar beserta hasil dan pembahasannya. Dengan memperhatikan segi efisiensi dalam penelitian ini, maka tidak semua hasil proses penelitian data yang diolah akan ditampilkan tetapi hanya sebagian saja yang dianggap oleh peneliti dapat mewakili keseluruhan proses yang dilakukan. Proses pengolahan yang tidak diuraikan dalam proses dan pembahasan ini akan ditampilkan hasil akhir pengolahannya saja.

5.1 Analisis EM Algorithm untuk mixnormal

Selain digunakan untuk menentukan parameter dari suatu data di mana informasi yang diperoleh tidak lengkap, EM algorithm juga dapat digunakan untuk kasus di mana terdapat gabungan antara dua fungsi persamaan atau lebih. Pada bagian ini akan dibahas salah satu penggunaan EM algorithm dalam menentukan parameter bagi data yang menyebar berdasarkan fungsi persamaan gabungan dari dua fungsi normal. Pembahasan akan diberikan secara teoritis disertai dengan contoh, serta statement dalam R Language. (Introduction to Mathematical Statistics).

Penulis mengambil contoh persamaan gabungan yang terdiri dari persamaan distribusi normal. Y₁ menyebar secara normal dengan distribusi

) , (μ₁ σ₁2

(2)

merupakan variabel acak independen Bernoulli untuk Y₁ dan Y₂, dengan peluang sukses π = WP( =1). Variabel acak yang diamati adalah X =(1−W)Y₁+WY₂. Parameternya antara lain θ′=(μ₁,μ₂,σ₁,σ₂,π). Pdf dari variable acak gabungan X adalah : ), ( ) ( ) 1 ( ) (x f₁ x f₂ x f = −π +π −∞< x<∞, (4.1) di mana f_j(x)=σ_j−1φ((x−μ_j)/σ_j)), j = 1,2 dan φ(z) adalah pdf dari variabel acak standar normal. Sampel acak X′=(X₁,X₂,...,X_n)dari distribusi gabungan dengan pdf f(x). Maka fungsi log likelihood dari fungsi tersebut adalah :

(

)

[

]

∑

= + − = n i i i f x x f x l 1 2 1( ) ( ) 1 log ) | (θ π π (4.2)

Pada kasus ini, data yang tidak diamati adalah variabel acak yang mengidentifikasikan anggota dari distribusi. Untuk i = 1,2,...,n, mengidentifikasikan variabel acak

= i

W 0 jika x memiliki pdf _i f₁(x)

1 jika x memiliki pdf i f2(x) (4.3)

Variabel-variabel ini merupakan sampel acak dari variabel acak Bernoulli W. Dengan mengasumsikan W1,W2,...,Wn adalah variabel acak Bernoulli dengan peluang sukses π . Fungsi lengkap likelihoodnya adalah :

∏

= = = 1 2 0 1( ) ( ) ) , | ( i i W i w i c x f x f w x L θ (4.4)

maka fungsi log likelihood lengkapnya adalah :

∑

= = + = 1 2 0 1( ) log ( ) log ) , | ( i i W i W i c x f x f w x l θ

(3)

∑

[

(

)

]

= + − = n i i i i i f x w f x w 1 2 1( ) log ( ) log 1 (4.5)

Untuk E-step dari EM algorithm, kondisi harapan dari W yang diberikan x i berdasarkan θ₀ perlu ditentukan, yaitu :

[

W x

] [

PW x

]

E _i | ₀, _i 1| ₀,

0 θ θ

θ = = (4.6)

Pendugaan dari E-step merupakan likelihood dari x yang digambarkan dari _i

sebaran :

(

1 ˆ

)

( ) ˆ ( ) ) ( ˆ 0 , 2 0 , 1 0 , 2 i i i i x f x f x f π π π γ + − = (4.7)

di mana subscript 0 menandakan bahwa parameter-paramater pada θ0 juga

dipakai. Dengan mengganti w dengan _i γ_i pada perhitungan (4.5), maka langkah

maximization (M-step) dari EM algorithm adalah untuk memaksimumkan

(

)

[

]

∑

= + − = n i i i i i f x f x x Q 1 2 1 0, ) 1 log ( ) log ( ) | (θ θ γ γ (4.8)

Nilai maksimum dapat diperoleh dengan menghitung turunan dari Q(θ |θ₀,x) berdasarkan parameternya. Contohnya :

0 ) )( 2 )( 2 / 1 )( 1 ( 1 1 2 1 1 = − − − − = ∂ ∂

∑

= n i i i x Q _γ _σ _μ μ 0 ) )( 2 )( 2 / 1 )( 1 ( 1 1 2 1 1 = − − − − = ∂ ∂

∑

= n i i i x Q _γ _σ _μ σ 0 ) )( 2 )( 2 / 1 )( 1 ( 1 1 2 1 2 = − − − − = ∂ ∂

_∑

= n i i i x Q _γ _σ _μ μ 0 ) )( 2 )( 2 / 1 )( 1 ( 1 1 2 1 2 = − − − − = ∂ ∂

_∑

= n i i i x Q _γ _σ _μ σ (4.9)

(4)

Dengan menyatakan turunannya sama dengan nol (0) berarti mendapatkan hasil pendugaan nilaiμ₁. Untuk parameter yang lainnya diperoleh dengan cara yang sama, hasil pendugaan untuk parameter adalah :

(

)

(

)

∑

= = − − = _n i i i n i i x 1 1 1 1 1 ˆ γ γ μ

(

)(

)

(

)

∑

= = − − − = _n i i n i i i x 1 1 2 1 2 1 1 ˆ 1 ˆ γ μ γ σ

∑

= = = _n i i n i i ix 1 1 2 ˆ γ γ μ

(

)

∑

= = − = _n i i n i i i x 1 1 2 2 2 ˆ ˆ γ μ γ σ (4.10)

Karena γi adalah penduga dari P(Wi =1|θ0,x), rata-rata dari

∑

= − n i i n 1 1 γ

merupakan penduga dari π =P

[

Wi =1

]

. Rata-rata ini merupakan penduga untuk πˆ.

Sebagai contoh jika ada data yang diobservasi yang merupakan variabel acak X =(1−W)Y1+WY2 di mana W menyebar secara Bernoulli dengan peluang

(5)

menyebar secara normal dengan fungsi N(120,252). W dan Y1 independent, W

dan Y2 juga independent. Data yang dipakai :

119.0 96.0 146.2 138.6 143.4 98.2 124.5 114.1 136.2 136.4 184.8 79.8 151.9 114.2 145.7 95.9 97.3 136.4 109.2 103.2

Maka dengan bantuan R Language, dapat dibuat sebuah fungsi untuk menyelesaikan persoalan diatas.

> mixnormal = function(x,theta0){ + part1=(1-theta0[5])*dnorm(x,theta0[1],theta0[3]) + part2=theta0[5]*dnorm(x,theta0[2],theta0[4]) + gam=part2/(part1+part2) + denom1=sum(1-gam) + denom2=sum(gam) + mu1=sum((1-gam)*x)/denom1 + sig1=sqrt(sum((1-gam)*((x-mu1)^2))/denom1) + mu2=sum(gam*x)/denom2 + sig2=sqrt(sum(gam*((x-mu2)^2))/denom2) + p=mean(gam) + mixnormal = c(mu1,mu2,sig1,sig2,p) + mixnormal + }

Sintaks untuk memanggil fungsinya adalah:

> mixnormal(c(119.0,96.0,146.2,138.6,143.4,98.2,124.5, + 114.1,136.2,136.4,184.8,79.8,151.9,114.2,

+ 145.7,95.9,97.3,136.4,109.2,103.2),c(100,120,20,25,0.7))

Hasil prediksi parameternya adalah baris pertama merupakan hasil pada proses pertama kali, sedangkan baris kedua adalah hasil setelah iterasi 500 kali.

Tabel 4.1 Hasil Simulasi Perhitungan EM untuk mixnormal

1

μ σ₁ μ₂ σ₂ π

106.94 128.81 17.59 24.37 0.75 98.76 133.96 9.88 21.51 0.70

(6)

5.2 Analisis EM Algorithm untuk Peluang Dua Mata Dadu

Pada bagian ini dijelaskan tentang pemakaian EM algorithm dibidang statistika, yaitu menduga peluang untuk setiap kejadian pada dua buah mata dadu. (http://prescher@science.uva.nl). Pada kasus ini merupakan salah satu contoh kasus data yang tidak lengkap. Data yang tidak lengkap ini akan dijelaskan pada sub bab yaitu proses penginputan dan analisis data.

5.2.1 Proses Penginputan dan Analisis Data

Percobaan yang dipilih oleh penulis adalah dua buah mata dadu yang dilempar, peneliti ingin mengetahui berapa peluang setiap kejadian pada masing-masing mata dadu, misalnya peluang untuk mata dadu pertama keluar angka 1, angka 2, dst. Jika data yang dimiliki lengkap, maka tidak diperlukan teori yang rumit untuk menentukan berapa peluang untuk setiap kejadian. Jika setiap kejadian bisa dilambangkan dengan pasangan angka yaitu (x1,x2), dengan x1

merupakan angka yang keluar pada dadu pertama dan x₂merupakan angka yang keluar pada dadu kedua. Maka ada 36 kemungkinan yang bisa terjadi.

Tabel 4.2 Kemungkinan Kejadian untuk Dua Mata Dadu

) , (x1 x2 x2 = 1 x2 = 2 x2 = 3 x2 = 4 x2 = 5 x2= 6 1 x = 1 _{(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)} 1 x = 2 _{(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)} 1 x = 3 _{(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)} 1 x = 4 _{(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)} 1 x = 5 _{(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)} 1 x = 6 _{(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)}

(7)

Jika kedua dadu dilempar bersamaan sebanyak 10000 kali, maka dapat diperoleh tabel frekuensi seperti berikut :

Tabel 4.3 Kemungkinan Jumlah Kejadian pada Simulasi Dua Mata Dadu

Data diatas merupakan sampel. Jika data yang diperoleh adalah data yang lengkap seperti tabel 4.3, maka peluang kejadian untuk setiap mata dadu dapat langsung dihitung.

Tabel 4.4 Peluang untuk Setiap Kejadian dari Simulasi Dua Mata Dadu (i)

Jika data yang diperoleh berbeda, akan tetapi tetap merupakan data yang lengkap. Sebagai contoh data yang diperoleh merupakan frekuensi untuk masing-masing mata dadu secara terpisah. Maka proses menghitung peluang untuk masing-masing mata dadu dapat dilakukan terlebih dahulu untuk menentukan peluang dari setiap kejadian yang memungkinkan.

) , (x1 x2 f x2 = 1 x2 = 2 x2 = 3 x2 = 4 x2 = 5 x2= 6 1 x = 1 _{2436 4773 2520 2498 3233 3298} 1 x = 2 _{4773 3794 2497 2462 2269 3184} 1 x = 3 _{2520 2497 2969 2035 2883 3010} 1 x = 4 _{2498 2462 2035 1049 2487 2451} 1 x = 5 _{3233 2269 2883 2487 2276 2191} 1 x = 6 _{3298 3184 3010 2451 2191 3673} ) , ( ~ 2 1 x x p x2 = 1 x2 = 2 x2 = 3 x2 = 4 x2 = 5 x2= 6 1 x = 1 _{0.02436 0.04773 0.02520 0.02498 0.03233 0.03298} 1 x = 2 _{0.04773 0.03794 0.02497 0.02462 0.02269 0.03184} 1 x = 3 _{0.02520 0.02497 0.01969 0.02035 0.02883 0.03010} 1 x = 4 _{0.02498 0.02462 0.02035 0.01049 0.02487 0.01451} 1 x = 5 _{0.03233 0.02269 0.02883 0.02487 0.02276 0.02191} 1 x = 6 _{0.03298 0.03184 0.03010 0.02451 0.02191 0.03673}

(8)

Tabel 4.5 Frekuensi dan Peluang untuk Masing-masing Simulasi Mata Dadu

Maka peluang untuk setiap kejadian untuk kedua mata dadu, dengan asumsi kedua mata dadu independen adalah

) ( ). ( ) , (x₁ x₂ p x₁ p x₂ p = (4.11)

Proses perhitungan akan menghasilkan :

Tabel 4.6 Peluang untuk Setiap Kejadian Dari Simulasi Dua Mata Dadu (ii) ) ( ₁ 1 x f x₁ ~p₁(x₁) x₁ 15112 1 0.15112 1 14941 2 0.14941 2 19756 3 0.19756 3 10027 4 0.10027 4 15037 5 0.15037 5 25127 6 0.25127 6 ) ( ₂ 2 x f x₂ ~p₂(x₂) x₂ 25112 1 0.25112 1 25067 2 0.25067 2 10129 3 0.10129 3 10052 4 0.10052 4 14833 5 0.14833 5 14807 6 0.14807 6 ) , ( ~ 2 1 x x p x2 = 1 x2 = 2 x2 = 3 x2 = 4 x2 = 5 x2= 6 1 x = 1 _{0.037949 0.037881 0.015306 0.015190 0.022415 0.022376} 1 x = 2 _{0.037519 0.037452 0.015133 0.015018 0.022162 0.022123} 1 x = 3 _{0.049611 0.049522 0.020010 0.019858 0.029304 0.029252} 1 x = 4 _{0.025179 0.025134 0.010156 0.010079 0.014873 0.014847} 1 x = 5 _{0.037760 0.037693 0.015231 0.015115 0.022304 0.022265} 1 x = 6 _{0.063098 0.062985 0.025451 0.025257 0.037270 0.037205}

(9)

Dapat dilihat bahwa tabel 4.4 dan tabel 4.6 sebenarnya mewakili pendugaan untuk parameter yang sama, akan tetapi terdapat sedikit perbedaan karena data yang diperoleh berbeda. Secara garis besar kedua tabel memberikan nilai yang relatif sama.

Kasus yang terakhir menggunakan data tidak lengkap. Data yang diketahui adalah jumlah penambahan dari kedua angka pada mata dadu pertama dan kedua. Berarti y sebagai kejadian jumlah kedua mata dadu. Maka berdasarkan contoh sampel, y dapat dihitung dengan persamaan :

∑

= + = y x x x x f y f 2 1 ) , ( ) ( 1 2 (4.12)

Jumlah frekuensi dari masing-masing kejadian y adalah :

Tabel 4.7 Frekuensi untuk Setiap Jumlah Simulasi Dua Mata Dadu

Data diatas dihasilkan berdasarkan data sebelumnya, yaitu dengan menjumlahkan data yang ada pada tabel 4.3. Sebagai contoh :

10217f(4)= f(1,3)+ f(2,2)+ f(3,1)=1520+3794+4903= ) ( y f _y 3790 2 7508 3 10217 4 10446 5 12003 6 17732 7 13923 8 8595 9 6237 10 5876 11 3673 12

(10)

Tipe data yang tidak lengkap adalah :

{

2,3,4,5,6,7,8,9,10,11,12

}

= Y

di mana himpunan tipe data yang lengkap adalah X, dengan y∈ Y

{

x x X x x y

}

y

A( )= ( 1, 2)∈ | 1 + 2 = (4.13)

Berdasarkan definisi 4.11, maka dengan EM algorithm dicari nilai peluang sebagai nilai awal. Yang berarti nilai awal peluang p₀(x₁,x₂) untuk data lengkap yang dihasilkan secara acak dari peluang sebaran p01(x1) sebagai angka yang muncul pada dadu pertama dan angka acak dari peluang sebaran p02(x2) sebagai angka yang muncul pada dadu kedua.

) ( ). ( ) , (x1 x2 p01 x1 p02 x2 po = (4.14)

Tabel berikut memberikan nilai acak untuk kedua mata dadu yaitu p₀₁(x₁) dan )

( ₂

02 x

p .

Tabel 4.8 Peluang Acak untuk Masing-masing Simulasi Mata Dadu

Berdasarkan angka acak yang telah dihasilkan pada tabel 4.8 maka dapat dihitung peluang untuk data yang lengkap, berdasarkan definisi 4.11.

) ( 1 01 x p x₁ p02(x2) x2 0.18 1 0.22 1 0.19 2 0.23 2 0.16 3 0.13 3 0.13 4 0.16 4 0.17 5 0.14 5 0.17 6 0.12 6

(11)

Tabel 4.9 Peluang Acak untuk Setiap Kejadian dari Simulasi Dua Mata Dadu

Contoh perhitungannya adalah :

0234p₀(1,3)= p₀₁(1).p₀₂(3)=0.18*0.13=0. 0437p0(2,2)= p01(2).p02(2)=0.19*0.23=0. 0352p₀(3,1)= p₀₁(3).p₀₂(1)=0.16*0.22=0.

Data pada tabel 4.9 dianggap sebagai data dugaan pertama untuk peluang dari setiap kejadian yang mungkin, yang akan dipakai pada proses E-step yang pertama kali. Bagian analisis data ini juga nantinya akan dijadikan sebagai pembanding hasil untuk pendugaan parameter menggunakan EM algorithm untuk data yang tidak lengkap dengan data yang lengkap.

5.2.2 Langkah Expectation (E-step) dari EM algorithm

Pada langkah E (E-step) ini akan dilakukan perhitungan berdasarkan data yang diperoleh sebelumnya. Pertama-tama perhitungan untuk menentukan nilai peluang setiap kejadian y yang merupakan data tidak lengkap berdasarkan data lengkap pada tabel 4.9 dilakukan. Rumusnya adalah :

∑

= + = y x x x x p y p 2 1 ) , ( ) ( ₀ ₁ ₂ 0 (4.15) ) , ( ₁ ₂ 0 x x p x₂ = 1 x2 = 2 x2 = 3 x2 = 4 x2 = 5 x2= 6 1 x = 1 _{0.0396 0.0414 0.0234 0.0288 0.0252 0.0216} 1 x = 2 _{0.0418 0.0437 0.0247 0.0304 0.0266 0.0228} 1 x = 3 _{0.0352 0.0368 0.0208 0.0256 0.0224 0.0192} 1 x = 4 _{0.0286 0.0299 0.0169 0.0208 0.0182 0.0156} 1 x = 5 _{0.0374 0.0391 0.0221 0.0272 0.0238 0.0204} 1 x = 6 _{0.0374 0.0391 0.0221 0.0272 0.0238 0.0204}

(12)

Berdasarkan definisi 4.15 maka akan dihasilkan peluang untuk setiap kejadian y : Tabel 4.10 Peluang Acak Untuk Jumlah Kedua Simulasi Mata Dadu

Contoh perhitungannya :

1023p0(4)= p0(1,3)+ p0(2,2)+ p0(3,1)=0.0234+0.0437+0.0352=0. Berdasarkan data yang diperoleh dari tabel 4.10 maka frekuensi dari setiap kemungkinan dari kedua mata dadu dihitung. Frekuensi dari setiap kemungkinan yang terjadi adalah :

Tabel 4.11 Frekuensi Kejadian Pada Simulasi Dua Mata Dadu ) ( 0 y p _y 0.0396 2 0.0832 3 0.1023 4 0.1189 5 0.1437 6 0.1672 7 0.1272 8 0.0867 9 0.0666 10 0.0442 11 0.0204 12 ) , (x1 x2 fq x₂ = 1 x₂ = 2 x₂ = 3 x₂ = 4 x₂ = 5 x₂= 6 1 x = 1 _{3790 3735.95 2337.03 2530.23 2104.91}_2290.74 1 x = 2 _{3772.05 4364.45 2170.03 2539.26} _{2821 2495.63} 1 x = 3 _{3515.53 3233.08 1737.39 2714.95 2451.85 1903.39} 1 x = 4 _{2512.66 2497.49 1792.29 2276.72 1804.26 1460.92} 1 x = 5 _{3123.95 4146.66 2419.01 2696.47 2228.84 2712} 1 x = 6 _{3966.37 4279.79 2190.88 2547.24} _{3164 3673}

(13)

Contoh perhitungannya : 03 . 2337 1023 . 0 0234 . 0 . 10217 ) 4 ( ) 3 , 1 ( ). 4 ( ) 3 , 1 ( 0 0 = = = p p f fq 45 . 4364 1023 . 0 0437 . 0 . 10217 ) 4 ( ) 2 , 2 ( ). 4 ( ) 2 , 2 ( 0 0 = = = p p f fq 53 . 3515 1023 . 0 0352 . 0 . 10217 ) 4 ( ) 1 , 3 ( ). 4 ( ) 1 , 3 ( 0 0 = = = p p f fq

Hasil yang diperoleh pada tabel 4.11 akan digunakan dalam proses M-step nantinya. Hasil ini digunakan untuk memperoleh peluang untuk masing-masing simulasi mata dadu.

5.2.3 Langkah Maximization (M-step) dari EM Algorithm

Pada langkah maximization ini, akan dihitung berdasarkan MLE. Proses pertama adalah menghitung frekuensi untuk setiap mata dadu menghasilkan suatu angka, yaitu jumlah kejadian keluar pada mata dadu pertama :

∑

= 2 ) , ( ) ( 1 1 2 1 x q q x f x x f , (4.16)

dan jumlah kejadian keluar pada mata dadu kedua :

∑

= 1 ) , ( ) ( ₂ ₁ ₂ 2 x q q x f x x f . (4.17)

Hasil perhitungan untuk frekuensi kedua buah mata dadu berdasarkan tabel 4.11 adalah :

(14)

Tabel 4.12 Frekuensi untuk Masing-masing Simulasi Mata Dadu Contoh perhitungannya : ) 6 , 1 ( ) 5 , 1 ( ) 4 , 1 ( ) 3 , 1 ( ) 2 , 1 ( ) 1 , 1 ( ) 1 ( 1 q q q q q q q f f f f f f f = + + + + + =3790+3735.95+2337.03+2530.23+2104.91+2290.74=16788.86 ) 1 , 6 ( ) 1 , 5 ( ) 1 , 4 ( ) 1 , 3 ( ) 1 , 2 ( ) 1 , 1 ( ) 1 ( 2 q q q q q q q f f f f f f f = + + + + + =3790+3772.05+3515.53+2512.66+3123.95+3966.37=20680.56 Lalu dilakukan proses menghitung peluang untuk setiap kejadian pada masing-masing mata dadu. Jumlah pelemparan mata dadu dilakukan sebanyak 10000 kali maka peluang masing-masing mata dadu adalah :

Tabel 4.13 Peluang untuk Masing-masing Simulasi Mata Dadu ) ( 1 1 x fq x₁ fq2(x2) x₂ 16788.86 1 20680.56 1 18162.42 2 22257.42 2 15556.19 3 12646.63 3 12344.34 4 15304.87 4 17326.93 5 14574.86 5 19821.28 6 14535.68 6 ) ( 1 11 x p x1 p12(x2) x2 0.167889 1 0.206806 1 0.181624 2 0.222574 2 0.155561 3 0.126466 3 0.123443 4 0.153049 4 0.173269 5 0.145749 5 0.198213 6 0.145357 6

(15)

Contoh perhitungannya : 16789 . 0 100000 86 . 16788 100000 ) ( 1 11 11 = = = x f p

Proses selanjutnya adalah menghitung peluang dari setiap kejadian yang muncul dari kedua mata dadu, berdasarkan definisi 4.11.

Tabel 4.14 Peluang untuk Setiap Kejadian Dari Simulasi Dua Mata Dadu (iii)

Contoh perhitungannya : 0347204 . 0 206806 . 0 * 167889 . 0 ) 1 ( ). 1 ( ) 1 , 1 ( 11 12 1 = p p = = p 0373677 . 0 222674 . 0 * 167889 . 0 ) 2 ( ). 1 ( ) 2 , 1 ( 11 12 1 = p p = = p

Maka proses perhitungan EM algorithm yang dilakukan pada iterasi pertama menghasilkan pendugaan nilai peluang untuk masing-masing kombinasi antara dua mata dadu, seperti pada tabel 4.14. Selanjutnya dilakukan kembali proses

EM algorithm untuk iterasi kedua.

5.2.4 Iterasi dan Pembahasan Hasil

Proses EM algorithm merupakan proses yang melakukan iterasi. Semakin banyak iterasi yang dilakukan maka semakin akurat pendugaan parameter yang dihasilkan. Iterasi dapat dihentikan bila nilai parameter yang dihasilkan pada

) , ( ₁ ₂ 1 x x p x₂ = 1 x₂ = 2 x₂ = 3 x₂ = 4 x₂ = 5 x₂= 6 1 x = 1 _{0.034720 0.037367 0.021232 0.025695 0.024469 0.024403} 1 x = 2 _{0.037560 0.040424 0.022969 0.027797 0.026471 0.026400} 1 x = 3 _{0.032171 0.034624 0.019673 0.023808 0.022673 0.022612} 1 x = 4 _{0.025528 0.027475 0.015611 0.018892 0.017991 0.017943} 1 x = 5 _{0.035833 0.038565 0.021912 0.026518 0.025253 0.025185} 1 x = 6 _{0.040991 0.044117 0.025067 0.030336 0.028889 0.028811}

(16)

proses ke-i mendekati nilai parameter pada proses ke-i-1. Pada penelitian ini iterasi dilakukan sebanyak 2000 kali, dan hasilnya adalah :

Tabel 4.15 Peluang untuk Masing-masing Simulasi Mata Dadu Setelah Iterasi

Tabel 4.16 Peluang untuk Setiap Kejadian dari Simulasi Dua Mata Dadu Setelah Iterasi

Tabel 4.16 merupakan hasil dari proses EM algorithm setelah melakukan proses iterasi sebanyak 2000 kali dengan menggunakan bantuan Delphi. Proses iterasi dilakukan sebanyak 2000 kali karena hasil dari proses ke-2001 dengan hasil dari proses ke-2000 tidak jauh berbeda.

Dengan membandingkan hasil pada tabel 4.16 dengan peluang dari dua mata dadu berdasarkan data yang lengkap, yaitu pada tabel 4.6. Maka dapat

) ( ₁ 1 , 2000 x p 1 x p2000,2(x2) x₂ 0.158425 1 0.239230 1 0.141255 2 0.260611 2 0.204329 3 0.103999 3 0.078494 4 0.111984 4 0.172283 5 0.134388 5 0.245213 6 0.149788 6

(17)

disimpukan bahwa EM algorithm merupakan salah satu metode pendugaan yang baik.

5.3 Analisis Pengaplikasian EM algorithm untuk PCFG

Pada sub bab ini, peneliti menjelaskan tentang salah satu pengaplikasian

EM algorithm dalam bidang context free grammars (CFG).

(http://prescher@science.uva.nl). Proses penelitian ini dibagi menjadi beberapa bagian yaitu :

• Analisis penggunaan PCFG dalam menyelesaikan masalah ambiguitas • Penggunaan Maximum Likelihood dalam PCFG

• Proses EM algorithm dalam PCFG

5.3.1 Analisis Penggunaan PCFG dalam Menyelesaikan Ambiguitas

Hal yang umum dalam hal CFG adalah munculnya ambiguitas. Hal ini dikarenakan pada kenyataannya sebuah kalimat dapat mempunyai struktur frase yang lebih dari satu. Yang berarti bisa mengakibatkan lebih dari satu arti. Salah satu jenis ambiguitas antara lain :

(18)

Gambar 4.1 Ambiguitas Frase Preposisi

(19)

Gambar 4.2 Ambiguitas Kata Sambung

Dalam komputasi , beberapa struktur frase ditampilkan dengan disingkat.

Sebagai contoh bentuk yang merupakan bentuk singkat dari

parse tree

.

Dalam contoh, ambiguitas terjadi karena CFG menggunakan prinsip rekursif. Bagian rule NP → NP CONJ NP dan NP → NP PP merupakan bagian dari rekursif karena dapat digunakan untuk menghasilkan frase nominal. Rules VP→ V NP dan PP → P NP, bisa disebut sebagai rekursif tidak langsung, karena dapat menghasilkan verbal dan frase preposisi.

Pada umumnya PCFG dapat menyelesaikan ambiguitas

(i) dengan memproses semua full parse tree yang terdapat dalam suatu kalimat (menggunakan simbol backbone dari CFG),

(20)

(ii) dengan menghitung peluang untuk semua tree (menggunakan aturan peluang dari PCFG),

(iii) memilih parse yang paling cocok sebagai analis dari kalimat yang diberikan.

Proses perhitungan dari full parse tree :

p(S→ NP VP) . ⎟ ⎠ ⎞ ⎜ ⎝ ⎛

Δ

NP Peter p . p(VP→ V NP PP) . p(V→ saw) . ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛

Δ

NP Mary p . _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛

Δ

PP telescope the with p . .

(21)

p(S → NP VP) . ⎟ ⎠ ⎞ ⎜ ⎝ ⎛

Δ

NP Peter p . p(VP→ V NP) . p( NP→ NP PP) . p(V → saw). _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛

Δ

PP telescope a with NP Mary p p . . .

Gambar 4.4 Contoh Perhitungan pada Parse Tree (ii)

Dengan membandingkan peluang untuk kedua analisis diatas, maka dipilih analisis yang pertama, jika :

p(VP → V NP PP) > p(VP → V NP) . p(NP→ NP PP)

Pada prinsipnya, ambiguitas pada CFG dapat diselesaikan dengan model

probabilistic. Ambiguitas pada CFG dapat diselesaikan hanya dengan melihat

dari rule CFG, yang disebabkan oleh penambahan PP.

PCFG juga memiliki keterbatasan dalam menghilangkan ambiguitas. PCFG dapat digunakan untuk memilih kalimat dengan menganalisis kalimat tersebut, namun contoh kedua di mana ambiguitasnya disebabkan oleh kata hubung, tidak dapat diselesaikan dengan PCFG. Walaupun kedua tree memiliki struktur yang berbeda tetapi keduanya memiliki probalistic yang sama.

Beberapa contoh lain tentang penggunaan PCFG adalah pada kalimat “the girl saw a bird on a tree”. Kalimat ini memiliki dua parse tree.

(22)

Gambar 4.5 Full Parse Tree dari “the girl saw a bird on a tree”

Dengan membandingkan peluang dari kedua analisis, dipilih analisis yang pertama jika :

p(VP→ V NP). p(NP→ NP PP) > p(VP→ V NP PP)

Jika hasil yang diperoleh ini dibandingkan dengan hasil yang diperoleh untuk kalimat “John saw Mary with the telescope” pada percobaan pertama, tampak frase proposional ditambahkan pada kedua contoh frase verbal ataupun frase nominal. PP “with the telescope” ditambahkan pada frase verbal, sedang PP “on the tree” ditambahkan pada frase kata benda, maka hanya ada satu solusi untuk masalah diatas, CFG harus ditulis agar model peluang dapat dipakai untuk peluang yang berbeda untuk analisis yang berbeda.

(23)

p(VP → V NP PP-ON) < p(VP→ V NP) . p(NP→ NP PP-ON)

p(VP→ V NP PP-WITH) > p(VP → V NP) . p(NP→ NP PP-WITH) Dalam menghitung besarnya nilai peluang suatu rule maka digunakan

treebank grammars, yang dapat memberikan informasi untuk PCFG yang

terbentuk dari full parse tree (Charniak, 1996).

Ttreebank grammars G,p adalah PCFG didefinisikan sebagai

(i) G adalah context free grammars yang dibaca dari treebank, dan

(ii) p adalah distribusi peluang pada himpunan full parse tree dari G,

dengan peluang distribusi pada fragmen grammar GA :

∑

∈ = A G r r f r f r p ) ( ) ( ) ( untuk semua r∈G_A (4.18)

Dengan f(r) adalah jumlah rule r∈GA muncul pada treebank Berikut merupakan contoh perhitungan PCFG untuk treebank di mana terdapat 210 full parse tree :

1

* 100 t

(24)

2 * 5 t 3 * 100 t 4 * 5 t

Gambar 4.6 Full Parse Tree untuk Contoh Perhitungan PCFG

Berdasarkan aturan dari CFG, treebank grammars akan dihasilkan, dengan frekuensi rule f(r) merupakan jumlah kejadian dari suatu rule terjadi pada

(25)

Tabel 4.17 Contoh Perhitungan PCFG

CFG rule Frekuensi Rule Probability Rule

S → NP VP 100 + 5 + 100 + 5 210 / 210 = 1.000 VP → V NP PP-WITH 100 100 / 210 ≈ 0.476 VP → V NP PP-ON 5 5 / 210 ≈ 0.024 VP → V NP 5 + 100 105 / 210 = 0.500 NP → Peter 100 + 5 105 / 525 = 0.200 NP → Mary 100 + 5 + 100 + 5 210 / 525 = 0.400 NP → a bird 100 + 5 105 / 525 = 0.200 NP → NP PP-WITH 5 5 / 525 ≈ 0.010 NP → NP PP-ON 100 100 / 525 ≈ 0.190 PP-WITH → with a telescope 100 + 5 105/ 105 = 1.000 PP-ON → on a tree 100 + 5 105 / 105 = 1.000 V → saw 100 + 5 + 100 + 5 210 / 210 = 1.000

Full parse tree t1 dari kalimat “Peter saw Mary with the telescope” akan dipilih

jika :

p(VP→ V NP PP-WITH) > p(VP → V NP) . p(NP→ NP PP-WITH) Dengan melihat nilai peluang dari PCFG untuk semua rule, maka dipilih t₁ karena : 0.476 > 0.500 * 0.010

Untuk kalimat yang kedua pada treebank grammar “Mary saw a bird on the tree”, dipilih full parse tree t jika : ₃

(VP → V NP PP-ON) < p(VP→ V NP) . p(NP→ NP PP-ON) Dan peluang dari PCFG memberikan nilai bahwa 0.024 < 0.500 * 0.190.

Hal ini membuktikan bahwa PCFG bisa menyelesaikan ambiguitas dari kalimat-kalimat tersebut.

(26)

5.3.2 Maximum Likelihood Estimation dalam PCFG

Dengan mengasumsikan G sebagai context free grammar, dan X

merupakan himpunan full parse tree dari G. Maka model peluang dari G didefinisikan sebagai: ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = = ∈ =

∏

∑

∈G ∈ r r G x f G p M X p x p r dengan p r M r ! 1 ) ( ) ( ) ( | ) ( ( ) (4.19)

untuk semua pecahan grammar G_A

Dengan mengasumsikan fT :X →R merupakan bagian dari tidak kosong dan full parse tree yang terbatas, dan G,p_T adalah treebank grammar dari f_T, maka p_Tmerupakan MLE dari M pada _G f_T.

) ; ( ) ; (f p

_max

L f p L _T M p T T G ∈ = (4.20)

MLE dari M pada G fTmerupakan penduga yang unik.

5.3.3 Proses EM Algorithm dalam PCFG

Pada bagian ini dijelaskan tentang penggunaan EM algorithm dalam penentukan probability context free grammars (PCFG). Dengan mengasumsikan

p

G, sebuah PCFG, di mana p merupakan starting instance dari model 0

peluang M , G f :Y →R yang merupakan bagian dari kalimat G.

⎭ ⎬ ⎫ ⎩ ⎨ ⎧ _∈ ₌ =

∏

∈G r x f G r r p x p X M p M * ( )| ( ) ( ) ( ) (4.21)

Dengan mengaplikasikan PCFG G, p0 dan kalimat utama f, maka prosedur

(27)

(1) untuk setiap i = 1,2,3 ... do (2) q:= p_i −1

(3) Langkah E (PCFG) : generate treebank f_Tq :X →R yang didefinisikan : ) | ( ). ( : ) (x f y q x y f_Tq = dengan )y= yield(x (4) Langkah M (PCFG) : membuat treebank grammar G,P_Tq

(5) p_i := p_Tqss (6) End

(7) Cetak ,...p0,p1,p2 (4.22)

Pendugaan dari EM algorithm ini menghasilkan nilai peluang dari suatu fungsi f dengan urutan yang secara monoton menaik.

L(f;p₀)≤ L(f;p₁)≤L(f;p₂)≤... (4.23)

5.3.3.1 Analisis Data Awal untuk PCFG

Data yang dipakai merupakan contoh yang sederhana sehingga proses dapat dimengerti dan proses dari EM algorithm yang dilakukan tidak terlalu banyak. Contoh terdiri dari dua kalimat dengan kalimat pertama merupakan kalimat yang ambigu sedangkan kalimat kedua tidak ambigu.

Contoh yang dipakai adalah 15 kalimat berikut :

f(y) y

5 y1

(28)

1

y = “Mary saw a bird on a tree”

2

y = “a bird on the tree saw a worm”

Berdasarkan kedua kalimat tersebut maka dapat dibuat full parse tree nya.

1 x 2 x 3 x

Gambar 4.7 Full Parse Tree untuk Simulasiy1 dan y2

Dengan pendugaan dari EM algorithm maka ditentukan nilai peluang awal acak dari rule yang ada yang mewakili semua parse dari kalimat.

(29)

Tabel 4.18 Peluang Acak untuk Masing-masing Simulasi Rule

Nilai-nilai peluang awal yang tertulis, berdasarkan sebaran uniform untuk fragmen grammar. EM algorithm memberikan kebebasan dalam menentukan nilai awalnya oleh sebab itu nilai pada tabel tidak harus sama.

5.3.3.2 Langkah Expectation (E-step) untuk PCFG

Pada langkah E dari EM algorithm untuk PCFG, nilai untuk treebank f _Tq

akan dihasilkan dari starting intance q: p= ₀. Starting instance untuk full parse

tree x₁,x₂,x₃, dan y₁, y₂adalah :

Tabel 4.19 Peluang untuk Simulasi x1,x2,x3 dan y1, y2

S →NP VP 1.00 VP → V NP 0.5 VP → V NP PP 0.5 NP → NP PP 0.25 NP → Mary 0.25 NP → a bird 0.25 NP → a worm 0.25 PP → on the tree 1.00 V → saw 1.00 ) ( 0 x p _x p₀(y) _y 0.0078125 x1 0.0390625 y1 0.0312500 x2 0.0078125 y2 0.0078125 x 3

(30)

Contoh perhitungannya :

∏

∈ = G r x fr r p x p₀₍ ₁₎ ₍ ₎ ( 1)` = p(S→NP VP) . ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ΔNP Mary p . p(VP→ V NP) . p(V→ saw) . p(NP→ NP PP) . ⎟ ⎠ ⎞ ⎜ ⎝ ⎛

Δ

NP abird p . ⎟ ⎠ ⎞ ⎜ ⎝ ⎛

Δ

NP tree a on p . . = 1.00 * 0.25 * 0.50 * 1.00 * 0.25 * 0.25 * 1.00 = 0.0078125

∑

= = 1 ) ( 0( ) ( ) y x yield x p y p = p(x₁)+ p(x₂) = 0.0078125 + 0.0312500 = 0.0390625

Dengan adanya nilai sebaran peluang q: p= ₀, maka proses selanjutnya adalah menghasilkan treebank f dengan menghitung frekuensi untuk masing-masing Tq

full parse tree.

Tabel 4.20 Frekuensi Simulasix₁,x₂,x₃

Contoh perhitungannya : ))f_Tq(x₁)= f(yield(x₁)).q(x₁| yield(x₁ ) (x f_Tq _x 1 x1 4 x2 10 x 3

(31)

) | ( ). (y₁ q x₁ y₁ f = ) ( ) ( ). ( 1 1 1 y q x q y f = = 0390625 . 0 0078125 . 0 . 5 = 1

Hasil perhitungan pada tabel 4.20 akan digunakan untuk membuat treebank

grammar

.

5.3.3.3 Langkah Maximization (M-step) untuk PCFG

Pada proses maximization dari EM algorithm yang dilakukan adalah membuat treebank grammar G,p_Tq dari treebank f_Tq.

Tabel 4.21 Peluang untuk Masing-masing Simulasi Rule Setelah M-step Pertama S →NP VP 1.00 VP → V NP 15 10 1 733 . 0 ≈ + VP → V NP PP 15 4 267 . 0 ≈ NP → NP PP 41 10 1 268 . 0 ≈ + NP → Mary 41 4 1 122 . 0 ≈ + NP → a bird 41 10 4 1 366 . 0 ≈ + + NP → a worm 41 10 244 . 0 ≈ PP → on the tree 1.00 V → saw 1.00

(32)

Contoh perhitungan untuk tabel 4.21 sama seperti yang dilakukan pada tabel 4.17.

Peluang diatas merupakan hasil dari proses EM algoritm pada iterasi pertama.

Dilanjutkan iterasi kedua dengan data input bagi langkah E adalah data yang telah dihasilkan pada langkah M sebelumnya.

5.3.3.4 Iterasi dan Pembahasan Hasil

Perulangan dilakukan sampai hasil akhir dari suatu proses tidak jauh berbeda dengan proses sebelumnya.

Tabel 4.22 PCFG untuk Simulasi Full Parse Tree

CFG rule p 0 p1 p2 p 3 … p 27 S →NP VP 1.000 1.000 1.000 1.000 1.000 VP → V NP 0.500 0.733 0.808 0.849 0.975 VP → V NP PP 0.500 0.267 0.192 0.151 0.025 NP → NP PP 0.250 0.268 0.288 0.298 0.328 NP → Mary 0.250 0.122 0.119 0.117 0.112 NP → a bird 0.250 0.366 0.356 0.351 0.336 NP → a worm 0.250 0.244 0.237 0.234 0.224 PP → on the tree 1.000 1.000 1.000 1.000 1.000 V → saw 1.000 1.000 1.000 1.000 1.000

Hasil pada table 4.22 merupakan hasil iterasi sebanyak 27 kali. Proses berhenti pada iterasi ke-27, karena pada iterasi ke-28 data yang dihasilkan tidak berbeda dengan sebelumnya. Maka proses EM algorithm dapat dihentikan dan dilakukan

pembahasan hasilnya. Berdasarkan pembahasan PCFG dalam mengatasi ambiguitas, maka dari data yang diperoleh akan dipilih x₁ dibandingkan x₂ karena:

(33)

p(VP→ V NP). p(NP→ NP PP) > p(VP→ V NP PP)

Nilai peluang yang diperhatikan adalah p(VP→ V NP) , p(NP → NP PP), dan

p(VP → V NP PP).

Tabel 4.23 PCFG untuk Simulasi Sebagian Parse Tree p p(VP→ V NP) . p(NP → NP PP) p(VP → V NP PP) 0 p _{0.500 * 0.250 = 0.125} _0.500 1 p _{0.733 * 0.268 = 0.196} _0.267 2 p _{0.808 * 0.288 = 0.233} _0.192 3 p _{0.849 * 0.298 = 0.253} _0.151 … 27 p _{0.975 * 0.328 = 0.320} _0.025

Dilihat dari perhitungan EM algorithm tampak bahwa pernyataan yang

memberikan alasan untuk memilihx₁ dibandingkan x₂ dimulai dari iterasi kedua dari EM algorithm. Terlihat dari tabel 4.23 bahwa nilai dari p(VP→ V NP) . p(NP → NP PP) secara monoton menaik (0.125 sampai 0.320) dan nilai dari p(VP → V NP PP) secara monoton menurun (0.500 sampai 0.025). Hal ini memberikan alasan yang kuat yang menyatakan bahwa PCFG yang dihasilkan