5 BAB II
LANDASAN TEORI 2.1 Tinjauan Pustaka
Pemodelan UMK di Jawa Tengah sudah pernah dilakukan oleh Hildawati dkk.
(2016) berdasarkan faktor-faktor yang mempengaruhi dengan menggunakan regresi ridge. Faktor yang dianggap mempengarui diantaranya inflasi, Produk Domestik Regional Bruto (PDRB), dan Kebutuhan Hidup Layak (KHL) dengan data tahun 1997- 2013. Hasil yang diperoleh dari pemodelan, inflasi tidak mempengaruhi UMK secara signifikan, UMK Kota Semarang dipengaruhi secara signifikan oleh KHL, sedangkan UMK Kota Surakarta dan Kabupaten Banyumas dipengaruhi secara signifikan oleh PDRB dan KHL.
Penelitian tentang model finite mixture dilakukan oleh Susanto dan Handajani (2020) yang memodelkan distribusi pendapatan rumah tangga per kapita di Indonesia.
Model finite mixture diimplementasikan untuk memodelkan distribusi pendapatan rumah tangga per kapita di Indonesia berdasarkan The Fifth Wave dari Survei Kehidupan Keluarga Indonesia (IFLS5) 2014-2015. Komponen mixture dari model finite mixture yang telah dibuat berdasarkan distribusi statistik heavy-tailed, yaitu, distribusi gamma, lognormal, dan Weibull. Estimasi model finite mixture dilakukan dengan menggunakan metode estimasi maximum-likelihood melalui algoritma Expectation Maximization (EM). Penelitian tersebut menghasilkan distribusi pendapatan rumah tangga per kapita di Indonesia dapat dimodelkan oleh empat komponen dengan model mixture lognormal, dimana empat komponen tersebut merupakan empat kelompok pendapatan.
Penelitian yang menerapkan metode pengelompokan berdasarkan Gaussian Mixture Models dengan menggunakan algoritma Expectation Maximization dilakukan oleh Susilawati (2011). Tujuan penelitian tersebut untuk mengoptimalkan kemiripan antar individu menggunakan pendekatan model probabilistik. Algoritma EM digunakan untuk menduga parameter tersebut. Bayesian Information Criterion (BIC)
commit to user
6
digunakan untuk menentukan jumlah kelompok yang terbaik dengan berbagai karakteristik.
Pengelompokan kabupaten atau kota di Jawa Tengah pernah dilakukan oleh Adityarini dkk. (2015) berdasarkan indikator pertumbuhan ekonomi periode 2010- 2012 dengan pendekatan Bayesian melalui Markov Chain Monte Carlo (MCMC).
Tujuan dari penelitian tersebut untuk mengetahui daerah yang mempunyai pertumbuhan ekonomi yang hampir sama. Hasil yang diperoleh dari penelitian tersebut didapatkan ada 16 kabupaten/kota yang perlu diperhatikan pertumbuhan ekonominya.
2.2 Teori Penunjang
Pada bab ini diuraikan beberapa teori penunjang yang digunakan sebagai landasan dalam melakukan penelitian ini seperti Upah Minimum Kabupaten atau Kota (UMK), distribusi lognormal, uji goodness of fit, model finite mixture, metode maximum likelihood estimation, algoritma expectation maximization, uji signifikansi model finite mixture, dan pemilihan model.
2.2.1 Upah Minimum Kabupaten atau Kota
Upah Minimum Kabupaten atau Kota (UMK) merupakan suatu standar pengupahan bagi karyawan atau pekerja dalam lingkungan usaha atau kerja pada kabupaten atau kota masing-masing. UMK ditetapkan oleh gubernur dengan rekomendasi Dewan Pengupahan Provinsi dan Bupati atau Walikota melalui surat keputusan guberbur. Gubernur tidak selalu menetapkan UMK, sehingga ada Upah Minimum Provinsi (UMP) yang berlaku untuk seluruh kabupaten dan kota di satu provinsi yang ditetapkan sebelum penetapan UMK. Penetapan UMK sendiri harus lebih tinggi daripada UMP yang telah ditetapkan.
2.2.2 Distribusi Lognormal
Distribusi lognormal secara sederhana merupakan fungsi densitas dari variabel random dengan logaritma yang mengikuti teori hukum distribusi normal.
Misal terdapat variabel random X yang merupakan bilangan real positif (0 x ) dan jika Y =lnX berdistribusi normal, maka X berdistribusi lognormal
commit to user
7
dengan rata-rata dan variansi , sehingga fungsi kepadatan probabilitasnya 2 sebagai berikut
1 ln( ) 2
2
2 2
1 , 0
( ) 2
0, untuk yang lainnya
x
e x
f x x
x
−
−
=
(Nurfahmi, 2013).
2.2.3 Uji Goodness of Fit
Uji Goodness of Fit digunakan untuk mengetahui data berdistribusi univariat multimodal. Metode Anderson-Darling digunakan untuk mengetahui distribusi dari data. Anderson-Darling merupakan modifikasi dari uji Kolmogorov Smirnov (KS).
Nilai kritis dalam uji KS tidak tergantung pada distribusi tertentu yang sedang diuji, sedangkan uji Anderson-Darling menggunakan distribusi tertentu dalam menghitung nilai kritis. Kelebihan dari Anderson-Darling yaitu lebih sensitif daripada KS Test, namun kelemahannya yaitu nilai kritis harus dihitung dari setiap distribusi data.
Hipotesis dari Anderson-Darling adalah
H : Data mengikuti suatu distribusi tunggal tertentu 0
H : Data tidak mengikuti suatu distribusi tunggal tertentu 1
Tingkat signifikansi =0.05
Statistik uji dengan Anderson-Darling
1 1
1 [2 1][ln( ( )) ln(1 ( ))]
n
i n i
i
A n i F X F X
n = + −
= − −
− + −dengan
A : statistik uji untuk Anderson-Darling n : ukuran sampel
X i : data ke-i yang telah distandarisasi ( i)
F X : nilai fungsi distribusi kumulatif normal baku di X i
commit to user
8
Modifikasi dari metode Anderson-Darling untuk distribusi lognormal, Weibull, dan gamma (t 2) didapatkan rumus (Zoints, 2017):
*
2
0, 75 2, 25
Lognormal 1
A A
n n
= + + (2.1)
* 0, 2
Weibull 1
A A
n
= + (2.2)
* 0, 2 0, 3 /
Gamma 1
A A t
n
+
= + (2.3)
dengan t adalah banyaknya parameter bentuk dalam gamma dan nilai kritis yang diperoleh dari table nilai kritis untuk uji Anderson-Darling (Zoints, 2017) dan nilai kritis untuk lognormal dicari dengan persamaan berikut
1 b d2
c a
n n
= − − dengan nilai a b d, , dilihat pada tabel.
Jika A* c atau p−value maka H ditolak yang berarti pola data tidak 0 berdistribusi univariat multimodal dan jika sebaliknya maka H tidak ditolak yang 0 berarti pola data berdistribusi univariat multimodal.
2.2.4 Model Finite Mixture
Vektor variabel random X=[ ,x x1 2,...,xn]T yang bertipe diskrit maupun kontinu berasal dari distribusi finite mixture, jika fungsi densitas probabilitas f x ( )i dapat didefinisikan sebagai
1
( ) ( )
K
i k k i
k
f x f x
=
=
1
0 1
1
k K k k
=
= denganx i : nilai observasi ke-i dengan i=1, 2,...,n commit to user
9
k( )i
f x : fungsi densitas probabilitas mixture untuk semua k =1, 2,...,K
k : proporsi atau bobot mixture
k : banyaknya komponen dalam mixture
Pada kasus ini, komponen densitas fk( )xi didefinisikan sebagai f x θ , k( ;i k) dimana θ merupakan parameter tidak diketahui dalam komponen mixture. Densitas k mixture dari ( )f x dapat dituliskan sebagai i
1
( ; ) ( ; )
K
i k k i k
k
f x f x
=
=
(2.4)dengan ψ =
,θ T,θ=
θ1,,θk
(McLahlan and Peel, 2000).Untuk model finite mixture lognormal dari persamaan (2.4), f x( ;i k) merupakan distribusi lognormal dengan parameter θ adalah rata-rata dan variansi
2
ln 2
1 2 2
2 2
( ; ) ( ; , ) 1 2
i k
k
x
i k i k k
i k
f x f x e
x
−
−
= =
θ
ln 2
1 2
2 2
1
( ; ) 1
2
i k
k
K x
i k
k i k
f x e
x
−
−
=
=
ψ
2.2.5 Maximum Likelihood Estimation
Misalkan x x1, 2,...,xn merupakan variabel random dari populasi dengan densitas f x ψ( ; )i yang bergantung terhadap ψ , dimana merupakan semesta parameter. Fungsi likelihood dari distribusi finite mixture (2.4) dapat didefinisikan sebagai
1 1
( ) ( ; )
n K
k k i k
k i
L f x
=
=
=
ψ θ (2.5)
Apabila fungsi likelihood terdefinisi dalam ψ maka estimator likelihood adalah ˆψ , sehingga:
commit to user
10 ( )ˆ
ˆ 0
L
= ψ ψ
Untuk membuktikan estimator ˆψ benar-benar dapat memaksimalkan fungsi likelihood L ψ maka harus ditunjukkan bahwa : ( )ˆ
2 2
( )ˆ ˆ 0
L
ψ ψ
Berbagai kasus pada saat diferensi digunakan, dapat lebih mudah dikerjakan dengan logaritma dari L ψ yaitu ( )ˆ ln ( )L ψ . Hal ini memungkinkan karena fungsi ˆ logaritma naik pada (0, ) yang berarti bahwa L ψ mempunyai nilai ekstrem yang ( )ˆ sama (Bain and Engelhardt, 1992).
Estimasi likelihood dari ˆψ ditentukan dengan cara sebagai berikut:
1. Menentukan fungsi likelihood (2.5) 2. Membentuk persamaan loglikelihood
1 1
ln ( ) ln ( ; )
n K
k k i k
i k
L f x
= =
=
ψ θ (2.6)
3. Menentukan turunan dari ln ( )L ψ terhadap ˆˆ ψ ln ( )ˆ
ˆ 0
L
= ψ ψ
Penyelesaian ini merupakan estimator maksimum likelihood untuk ˆψ 4. Menentukan turunan kedua dari ln ( )L ψ terhadap ˆ ˆψ untuk
membuktikan bahwa ˆψ apakah benar memaksimumkan fungsi likelihood. Jika
2 2
( )ˆ ˆ 0
L
ψ
ψ , maka ˆψ benar untuk memaksimumkan fungsi likelihood.
commit to user
11
2.2.6 Algoritma Expectation Maximization (EM)
Didefinisikan bahwa x merupakan observasi data yang dianggap tidak i lengkap karena saat dilakukan identifikasi pola data dan uji signifikansi terdapat pola mixture, maka diberikan variabel alokasi komponen z sebagai pelengkap data yang i tidak terobservasi. Data tidak lengkap disini adalah suatu pertimbangan untuk menentukan analisis pengelompokan, karena data yang diamati tidak dapat menunjukkan observasi masuk ke dalam komponen mana.
Hal tersebut mengartikan bahwa setiap x merupakan salah satu komponen i dari model finite mixture, dengan melihat nilai z jika bernilai satu maka ik x masuk i pada komponen mixture k dan jika bernilai nol maka x tidak masuk pada komponen i mixture k, sehingga memberikan fungsi log-likelihood untuk data lengkap sebagai berikut
1 1
ln ( ) ln ( ; )
n K
c ik k k i k
i k
L z f x
= =
=
ψ θ
Algoritma EM diberi nilai awal ψ dan (0) nilai
(0) (0)
(0) (0)
(0) (0)
1
( ; )
( ) ( 1| )
( ; )
k k i k
ik ik i K
k k i k
k
z p z x f x
f x
=
= = =
θ θ
untuk proses estimasi model finite
mixture ini tesusun dari dua langkah yaitu:
• Langkah Expectation (E-step)
Mencari nilai ekspektasi untuk fungsi likelihood dengan berdasarkan variabel yang diamati. Untuk nilai awal didapatkan sebagai berikut
( 0 )
( ; (0)) [ln c( ); ] Q ψ ψ =Eψ L ψ x
Untuk iterasi ke-s nilai estimasi dapat dihitung dengan cara
commit to user
12
( ) ( )
( ) ( ) ( )
1 1
( ) ( ) ( )
1 1
( ; ) [ln ( ); , ]
ln ( ; )
ln( ) ln{ ( ; )}
s s
l i
n K
s s s
ik k k i k
i k
n K
s s s
ik k k i k
i k
Q E L x
z f x
z f x
= =
= =
=
=
= +
ψ ψ ψ ψ
θ
θ
( ) ( )
(zik)s p z( iks 1|xi)
= = adalah probabilitas dari observasi x , i =1,2, …,n i untuk menjadi anggota komponen mixture k, k =1,2, …,K pada saat iterasi ke- s. Penduga (zik)( )s bisa diperoleh melalui
( ) ( )
( ) ( )
( ) ( )
1
( ; )
( ) ( 1| )
( ; )
s s
s s k k i k
ik ik i K
s s
k k i k
k
z p z x f x
f x
=
= = =
θ θ
Untuk estimasi model finite mixture lognormal pada E-step saat iterasi ke-s diperoleh sebagai berikut
( ) 2 ( )
2
ln 1 ( ) 2
2 ( )2
( ) ( )
(log ) (log )
ln 1 2
2 2
1
1
( ) ( 1| ) 2
1 2
s
i k
s k
i k
k
x s
k s
i k
s s
ik normal ik normal i
K x
k
k i k
e
z p z x x
e x
−
−
−
−
=
= = =
(Susanto dan Handajani, 2020).
• Langkah Maximization (M-Step)
Mencari MLE dari parameter-parameter dengan memaksimumkan ekspektasi likelihood yang dihasilkan dari E-step.
Pada iterasi ke-(s+1), menduga parameter bobot kdengan
( )
( 1) 1
ˆ
n s ik
s i
k
z
+ =
= nUntuk estimasi model finite mixture lognormal penduga parameter bobot saat iterasi ke-(s+1) sebagai berikut
commit to user
13
( )
(log )
( 1) 1
ˆ
n s
zik normal
s i
k
z
+ =
= n Penduga dari ˆ (s 1)i
θ + merupakan penyelesaian dari
( )
1 1
ln ( ; ) 0
n K
s
ik k i k
i k
z f x
= =
=
θ
θ Untuk model finite mixture lognormal dengan parameter rata-rata dan variansi , maka penduga kedua parameter tersebut pada iterasi ke-(s+1) 2 sebagai berikut
( )
(log )
( 1) 1
ln( ) ˆ
n s
zik normal i
s i
k
k
z x
+ =
= n( ) ( 1)
(log )
2( 1) 1
(ln( ) ˆ ) ˆ
n
s s
zik normal i k
s i
k
k
z x
n
+
+ =
−
=
(Susanto dan Handajani, 2020).
E-step dan M-step berjalan secara iteratif terus menerus hingga berhenti pada saat L(ψˆ(s+1))L(ψˆ( )s ) (Dempster, et al., 1977).
2.2.7 Uji Signifikansi Model Finite Mixture
Uji signifikansi yang berdasarkan bootstrap likelihood ratio statistics test digunakan untuk mengetahui model finite mixture yang sesuai dalam memodelkan data (Feng and McCulloch, 1996). Uji bootstrap likelihood ratio statistics dilakukan karena banyaknya komponen yang diusulkan lebih besar dari banyak komponen yang sebenarnya (hipotesis nol). Uji hipotesis yang digunakan untuk menentukan banyaknya jumlah komponen mixture sebagai berikut
0: 0
H K =K (model mixture mempuyai komponen sebanyak K ) 0
1: 1 0 1
H K =K =K + (model mixture mempuyai komponen sebanyak K ) 1 commit to user
14
Proses secara umum uji signifikansi bootsrap likelihood ratio test (Yu, 2018) sebagai berikut:
1) Diketahui observasi x , i=1,2,…,n, i ˆψ sebagai penduga parameter 0 untuk hipotesis null dan ˆψ sebagai penduga parameter untuk hipotesis 1 alternatif. Selanjutnya menghitung fungsi loglikelihood observasi (2.6) berdasarkan penduga parameter ˆψ , 0 ln (L ψˆ0), ˆψ , dan 1 ln (L ψˆ1) yang digunakan untuk membentuk likelihood ratio statistics (lrs berikut: 0)
0 2(ln (ˆ0) ln (ˆ1)) lrs = − L ψ − L ψ
2) Observasi baru x* dibangkitkan dengan menggunakan penduga parameter ˆψ berdasarkan model finite mixture tersebut. Selanjutnya 0 membentuk likelihood ratio statistic (lrs menggunakan x* 1)
1 2(ln (ˆ0; *) ln (ˆ1; *)) lrs = − L ψ x − L ψ x
3) Melakukan bootstrap sebanyak B kali untuk membentuk vektor lrs1(1) ,…,lrs1( )B yang diperlukan untuk perhitungan p-value secara empiris,
( )
1 0
1
1 ( )
B
b b
p I lrs lrs
B =
=
dengan I merupakan fungsi indikator
4) Memberikan tingkat signifikansi α untuk menentukan H ditolak jika 0 p-value < α
2.2.8 Pemilihan Model
Pemilihan model penting dilakukan untuk menentukan banyaknya komponen mixture agar dapat mewakili pola pengelompokan dengan tepat. Metode yang digunakan untuk pemilihan model ini merupakan metode berbasis kriteria informasi.
Metode berbasis kriteria informasi yang sering digunakan yaitu Akaike Information Criterion (AIC) dan Bayesian Information Criterion (BIC) untuk menentukan
commit to user
15
banyaknya komponen mixture dalam model (Celeux dkk, 2018). Model terbaik dipilih berdasarkan nilai AIC dan BIC yang terkecil.
Nilai AIC dan BIC didefinisikan sebagai berikut 2 ln ( ) 2
AIC= − L ψ + p (2.7)
2 ln ( ) ln( )
BIC= − L ψ + p n (2.8)
dengan
p : banyaknya parameter dalam model finite mixture n : banyaknya data observasi
2.3 Kerangka Pemikiran
Data yang digunakan pada penelitian ini adalah UMK tahun 2020 di Pulau Jawa. Data diperoleh dari surat keputusan yang dikeluarkan oleh Gubernur setiap provinsi di Pulau Jawa. Jumlah kabupaten atau kota sebanyak 119 yang terdiri dari 8 dari Provinsi Banten, 6 dari DKI Jakarta, 27 dari Jawa Barat, 35 dari Jawa Tengah, 5 dari DI Yogyakarta dan 38 dari Jawa Timur.
Penelitian ini ingin dilakukan pengelompokan kabupaten atau kota yang ada di Pulau Jawa berdasarkan besaran UMK tahun 2020 dengan menggunakan model finite mixture. Metode MLE dengan algoritma EM digunakan untuk menentukan nilai estimasi parameter. Pengelompokkan dilihat dari jumlah komponen yang terbentuk dari model finite mixture lognormal terbaik yang berdasarkan nilai AIC dan BIC yang terkecil.
commit to user