(M.9) PEMODELAN MELEK HURUF DAN RATA-RATA LAMA STUDI DENGAN PENDEKATAN MODEL BINER BIVARIAT

(1)

176 (M.9)

PEMODELAN MELEK HURUF DAN RATA-RATA LAMA STUDI DENGAN PENDEKATAN MODEL BINER BIVARIAT

1Vita Ratnasari , ²Purhadi, ²Ismaini, ²Suhartono

1 Mahasiswa S3 Jurusan Statistika FMIPA-ITS Surabaya

2 Staf Pengajar Jurusan Statistika FMIPA-ITS Surabaya

Dalam penelitian, seringkali variabel respon menggunakan data kategorikal. Ada kalanya, jumlah variabel respon yang dipengaruhi oleh variabel-variabel prediktor, tidak hanya berjumlah sebuah variabel respon saja, melainkan lebih dari satu. Salah satu model yang mengatasi permasalahan tersebut adalah model probit. Pada paper ini akan mengkaji suatu kasus dengan mempertimbangkan jumlah variabel respon kategorikal. Metode estimasi yang digunakan adalah metode Maximum Likelihood Estimation (MLE) dan metode iterasinya adalah Newton Raphson.

Sedangkan uji signifikansinya menggunakan metode Maximum Likelihood Ratio Test (MLRT).

Kasus yang digunakan pada paper ini tentang Indeks Pembangunan Manusia (IPM) / Human Development Index (HDI). IPM adalah pengukuran terhadap tiga indeks, yaitu indeks kesehatan, indeks pendidikan dan indeks daya beli masyarakat. Dari hasil estimasi dan uji signifikansi akan diketahui faktor-faktor yang mempengaruhi IPM pendidikan, dimana IPM pendidikan mempunyai dua indikator, yaitu melek huruf dan rata-rata lama studi. Variabel prediktor yang diduga mempengaruhi adalah Persentase penduduk yang tinggal di daerah perkotaan, Persentase penduduk yang berpendidikan diatas SLTP, Rata-rata pendapatan perkapita, Rasio ketergantungan penduduk, Persentase peranan masyarakat di sektor industri dalam PDRB dan Persentase penduduk miskin.

Kata kunci: Bivariat, Maximum Likelihood Estimation, Newton Raphson, Maximum Likelihood Ratio Test, Indeks Pembangunan Manusia,

PENDAHULUAN

Salah satu model yang dapat digunakan untuk menjelaskan hubungan antara variabel respon kategorikal (diskrit) dengan variabel prediktor kontinu, diskrit atau campuran diantara keduanya adalah model probit. Probit pertama kali dikembangkan oleh Bliss (1934). Bliss (1934) menjelaskan bahwa istilah “probit” adalah singkatan dari “probability unit”.

Beberapa penelitian sebelumnya yang mengkaji pemodelan probit antara lain oleh Aitchison dan Silvey (1957), McKelvey dan Zavoina (1975), Snapinn dan Small (1986), Ronning dan Kukuk (1996), O’Donnell dan Connor (1996) dan Kockelman dan Kweon (2002).

Beberapa peneliti tersebut menerapkan model probit dengan menggunakan satu variabel respon.

(2)

177

Seringkali kondisi lapangan menunjukkan bahwa beberapa variabel prediktor tidak hanya mempengaruhi sebuah variabel respon saja. Misalnya pada kasus Indeks Pembangunan Manusia (IPM), IPM terdiri dari tiga dimensi yaitu kesehatan, pendidikan dan daya beli masyarakat.

Sehingga variabel respon untuk kasus tersebut adalah tiga variabel. Menurut Diana (2009), IPM dipengaruhi oleh Persentase penduduk yang tinggal di daerah perkotaan, Persentase penduduk yang berpendidikan diatas SLTP, Rata-rata pendapatan perkapita, Rasio ketergantungan penduduk, Persentase peranan masyarakat di sektor industri dalam PDRB dan Persentase penduduk miskin.

Estimasi yang digunakan untuk pemodelan probit adalah metode maximum likelihood estimator (MLE) dan statistik ujinya dengan menggunakan metode maximum likelihood ratio test (MLRT).

MODEL PROBIT BINER BIVARIAT

Green (2008), model probit bivariat adalah pengembangan dari model probit univariat.

Spesifikasi secara umum untuk model tersebut adalah:

*

1 1 1 1

y =β xT +ε , jika y₁^*≤0 maka y₁=0

y₁^* >0 maka y₁=1 (1)

*

2 2 2 2

y =β xT +ε , jika y₂^*≤0 maka y₂ =0

y^*₂ >0 maka y₂=1 (2)

1 1, 2 2 1, 2 0

Eε x x =Eε x x =

1 1, 2 2 1, 2 1

Varε x x =Varε x x =

1, 2 1, 2

Cov^ε ε x x  = ρ

Estimasi yang digunakan pada model probit bivariat adalah maksimum likelihood. Model probit biner bivariat mempertimbangkan dua variabel dependen (y dan ₁ y ), dan mengasumsikan dua ₂ variabel random error ε₁ dan ε₂ saling berkorelasi ρ . Probabilitas distribusi bivariat adalah:

2 1

1 1 2 2 1 2 1 2

( , ) ( , , )

z z

P Z z Z z φ z z ρ d z d z

−∞ −∞

< < =

∫ ∫

= Φ( ,z z1 2)− Φ( )z1 (3)

dimana φ( )⋅ adalah fungsi densitas dan Φ ⋅( ) adalah fungsi distribusi kumulatif normal bivariat.

Fungsi densitasnya adalah:

2 2

1 2 2 2 1 1 2 2

1 1 1

( , , ) exp 2

2 1 2 1

z z z z z z

φ ρ ρ

π ρ ρ

 

  

= − −  −  − + 

(4)

PENAKSIRAN PARAMETER MODEL PROBIT BINER BIVARIAT

(3)

178

Menurut Gujarati (2003) dan Green (2008) parameter yang terdapat pada model probit dapat diduga dengan menggunakan metode kemungkinan maksimum (Maximum Likelihood Estimation / MLE). Untuk mendapatkan penaksir βdengan menggunakan metode MLE adalah dengan langkah-langkah sebagai berikut:

1. Mengambil n sampel random

(Y11_i,Y10_i,Y01_i,Y00_i,X1_i,X2_i,L,X_ki) i=1, 2,...,n

Tabel 1: Struktur Data Biner Bivariat

I Y_11i Y_10i Y_01i Y_00i X₁ X₂ L X_k

1 1 0 0 0 x₁₁ x₂₁ L x_k₁

2 0 0 0 1 x₁₂ x₁₂ L x_k₂

3 0 0 1 0 x13 x₁₃ L x_k₃

M M M M M M M L M

N 0 1 0 0 x_1n x_2n L x_kn

Tabel 1 menunjukkan struktur data biner bivariat, yang mana kejadian pada setiap res-ponden akan berdistribusi Multinomial (Y11,Y10,Y01)~M(1;P11,P10,P01). Y₀₀ dan P₀₀ secara berturut adalah

00 1 11 10 01

Y = −Y −Y −Y dan P₀₀ = −1 P₁₁−P₁₀−P₀₁ serta nilai y₁₁,y₁₀,y₀₁,y₀₀ adalah 0 atau 1. Bentuk distribusi peluangnya adalah:

10 01 00

11

11 10 01 11 10 01 11 10 01 00

( , , , , , ) ^y ^y ^y ^y

f y y y P P P =P P P P

2. Membentuk fungsi likelihood

Pada data biner bivariat, dengan mengambil n sampel random yang saling bebas, maka variabel random bivariat akan berdistribusi multinomial dengan nilai setiap selnya adalah Y₁₁_i,Y₁₀_i, Y _01i dan Y dengan _00i i=1, 2,K,n serta nilai peluangnya adalah P₁₁_i,P₁₀_i,P dan ₀₁_i P . Sehingga _00i fungsi likelihood dari variabel random biner bivariat sebagai berikut:

( )

11 ¹¹ 10 ¹⁰ 01 ⁰¹ 11 10 01 ¹ ¹¹ ¹⁰ ⁰¹ 1

(1 )

i i i

n

y y y y y y

i i i

i

L P P P P P P ⁻ ⁻ ⁻

=

∏

− − −

β (5)

3. Membuat ln fungsi likelihood, fungsi ln likelihood tersebut adalah:

( )

11 ¹¹ 10 ¹⁰ 01 ⁰¹ 11 10 01 ¹ ¹¹ ¹⁰ ⁰¹ 1

ln ln ⁱ ⁱ ⁱ (1 )

n

y y y y y y

i i i

i

L P P P P P P ⁻ ⁻ ⁻

=

 

=  − − − 



∏



β (6)

4. Kemudian memaksimumkan fungsi ln likelihood dengan menderivatifkan ln fungsi likelihood terhadap parameter-parameternya dan kemudian menyamakan dengan nol.

Maka turunan pertama ln( )β terhadap β adalah: ₁

(4)

179

( ) ₀₁ ₁

11 10 01 00 10 00

1 1 1 1

ln ( ) ( )

n

i i

i i i i i i

T T T

i

L P P

a y b y c y d y b y d y

=

 

∂ ⋅ ∂  ∂ 

=  − + + −  + −  

∂

∑

 ∂  ∂ 

β β β

(7)

Sedangkan turunan pertama ln( )β terhadap β adalah: ₂

( ) 2 01

11 10 11 10 01 00

2 1 2 2

ln ( ) ( )

n

i i

i i i i i i

T T T

i

L P P

a y b y a y b y c y d y

=

 

∂ ⋅ ∂  ∂ 

=  −  + − + + −  

∂

∑

 ∂  ∂ 

β β β

(8)

Misal:

2 01

1

i i

a P P

 

=  

 − ,

1 2 01

1

i i i

b P P P

 

=  

− +

  01

1

i

c P

 

=  

 , dan

1 01

1

1 _i _i

d P P

 

= 

− −

 

Karena diperoleh hasil taksiran yang tidak close form, maka salah satu pendekatan numerik yang dapat digunakan adalah metode Newton-Raphson. Melalui proses iterasi Newton-Raphson dapat diperoleh penaksir maksimum likelihood bagi β , dimana β^{( )}^m adalah penaksiran parameter pada iterasi ke m. Algoritma proses iterasi Newton-Raphson untuk mencari suatu penaksir bagi β

, terlebih dahulu menentukan vektor g, yang merupakan turunan pertama dari fungsi likelihood terhadap parameternya. Kemudian menentukan matriks H, yang elemen-elemennya merupakan turunan kedua terhadap parameternya. Komponen vektor g yang berukuran (2 1)× adalah:

1

2 [2( 1) 1]

ln ( ) ( ) ln ( )

T

p

L

+ ×

∂ 

 ∂ 

 

=∂ 

 ∂ 

 

β g β β

β β

(9)

Kemudian membentuk matrik Hessian atau matrik H β( ), matrik ini diperoleh dari turunan parsial kedua ln ( )L ⋅ terhadap β. Sehingga, didapatkan matrik simetris Hessian adalah sebagai berikut:

2 2

1 1 1 2

2

2 2 [2( 1) 2( 1)]

ln ( ) ln ( ) ( )

ln ( )

T T

T

p p

L L

L

+ × +

∂ ∂ 

 

∂ ∂ ∂ ∂

 

=  

 ∂ 

 ∂ ∂ 

 

β β

β β β β

H β

β β β

(10)

PENGUJIAN SIGNIFIKANSI MODEL PROBIT BINER BIVARIAT

Untuk menguji kelayakan model yang diperoleh dari penaksiran parameter, dilakukan pengujian parameter model probit biner bivariat. Hal ini bertujuan untuk mengetahui apakah variabel prediktor yang terdapat dalam model berpengaruh nyata atau tidak. Dalam pengujian

(5)

180

parameter model dilakukan baik secara overall (serentak) maupun parsial. Metode yang digunakan adalah MLRT.

Hipotesa untuk menguji secara serentak, apakah variabel x x₁, ₂,...,x_p mempunyai pengaruh yang signifikan terhadap variabel respon y dan ₁ y , adalah: ₂

0: 11 12 1_p 21 22 2_p 0

H β =β =L=β =β =β =L=β = H1 : paling sedikit ada satu β_rs ≠ 0

dengan r=1, 2 dan s=1, 2,...,p (11) Statistik uji yang digunakan adalah G².

2 2 ln 2 ln ( )ˆ 2 ln ( ) 2 ln ( )ˆ ˆ ( )ˆ

G L L L

L

ω ω

 

= − Λ = −  = Ω −

 Ω 

  (12)

Distribusi G² mendekati distribusi χ² (Agresti, 2002). Keputusan untuk menolak H₀ jika

2 2

,

hitung v

G >χ_α , dimana v adalah banyaknya parameter model dibawah populasi dikurangi banyaknya parameter model dibawah H₀. Kemudian nilai χ_v²_,_α dapat diperoleh pada tabel Chi- Square.

Setelah melakukan pengujian secara serentak, langkah selanjutnya adalah pengujian secara parsial. Pada pengujian ini, ingin diketahui kontribusi setiap variabel prediktor. Pengujian hipotesis secara parsial pada model probit biner bivariat adalah:

H₀ : β_rs =0

H₁ : β_rs ≠0 dengan r=1, 2 dan s=0,1, 2,...,p (13)

Untuk menentukan statistik uji pada uji parsial dilakukan cara yang sama seperti uji serentak, sehingga didapatkan statistik uji t , yaitu

ˆ (ˆ )

rs hitung

rs

t SE

β

= β . (14)

ˆ ˆ

( _rs) ( _rs)

SE β = Var β , dimana Var(β^ˆ_rs) adalah elemen diagonal dari matrik Informasi, ( 1)

I = −E H⁻ . Keputusan untuk menolak H0 jika t_hitung >t_{(1; )}_α .

APLIKASI MODEL PROBIT BINER BIVARIAT

Indeks Pembangunan Manusia (IPM) / Human Development Index (HDI) adalah pengukuran perbandingan dari kesehatan, pendidikan dan daya beli masyarakat. Paper ini memberikan studi kasus nilai IPM yang ditinjau dari sisi pendidikannya. Pendidikan mempunyai dua indikator yaitu melek huruf (y1) dan lamanya studi (y2). Dan variabel prediktor yang diduga mempengaruhi variabel respon adalah Persentase penduduk yang tinggal di daerah perkotaan (x1), Persentase penduduk yang berpendidikan diatas SLTP (x2), Rata-rata pendapatan perkapita (x3), Rasio ketergantungan penduduk (x4), Persentase peranan masyarakat di sektor industri

(6)

181

dalam PDRB (x5) dan Persentase penduduk miskin (x6). Secara lengkap data dapat dilihat pada Tabel 2.

Tabel 2: Data variabel respon dan variabel prediktor Kab

/ kota

X1 X2 X3 X4 X5 X6 Y1 Y2 P11 P10 P01 P00

1 12.9 4

35.1 7

195.1 6

0.5

5 4.18 23.3

1 1 0

0.230 6

0.626 4

0.000 2

0.142 8 2 25.7

2 37.0

3

233.7 6

0.4

8 9.67 18.2

3 0 0

0.076 7

0.574 5

0.000 2

0.348 5 3 24.2

2 32.8

4

224.9 3

0.5

3 8.47 22.7

9 1 0

0.068 3

0.568 1

0.000 2

0.363 4 4 43.0

8 41.4

1

253.3 4

0.5 2

18.0 7

17.8

3 1 1

0.327 9

0.561 5

0.000 5

0.110 0 5 25.4

0 34.9

1

276.4 5

0.5

5 2.45 16.4

7 0 0

0.042 9

0.523 4

0.000 1

0.433 5 6 39.2

2 42.6

8

231.1 4

0.5 2

16.1 2

18.9

8 1 1

0.491 3

0.455 2

0.000 4

0.053 1 7 40.7

5 35.0

7

259.4 5

0.5 2

19.6 5

15.6

6 0 0

0.230 6

0.626 4

0.000 3

0.142 7

: : : : : : : : :

99 37.5 36.0 1

278.6 1

0.5 4

12.0

5 7.86 1 1 0.092 85

0.494 4

0.000 8

0.412 0

Rata-rata persentase penduduk Jawa yang tinggal di perkotaan relatif kurang dari 50 %, yaitu 46.70 %. Hal ini menunjukkan bahwa 53.3 % penduduk Jawa tinggal di luar perkotaan.

Masyarakat di Jawa berpendidikan diatas SLTP relatif sedikit yaitu sebesar 38.44 %. Sedangkan peranan masyarakat di sektor industri dalam PDRB hanya 21.4 %. Jika dilihat lebih jauh, peranan masyarakat di sektor industri Jawa Barat (29.24 %) mempunyai prosentase lebih besar dibanding di Jawa Timur (15.99 %). Dilihat dari persentase penduduk miskin, Jawa Barat mempunyai persentase paling kecil dibanding Jawa Timur dan Jawa Tengah, yaitu sebesar 12.84

%, Jawa Timur dan Jawa Tengah secara berturut adalah 19.64 % dan 19.31 %.

Hubungan antara penduduk yang melek huruf dengan berpendidikan diatas SLTP sebesar 0.783. dengan adanya korelasi yang kuat diantara dua variabel respon, maka model yang dibentuk adalah model bivariat. Persamaan pertama pada model probit bivariat tersebut adalah:

1 9.0428 0.00588 1 0.1666 2 0.00416 3 6.60444 4 0.00596 5 0.0635 6

z = − − x + x − x + x + x + x

(7)

182

Dengan nilai peluang bahwa sebuah kota/kabupaten termasuk kategori nilai IPM melek huruf dibawah rata-rata adalah P₀₁= Φ −( z₁), sedangkan diatas rata-rata adalah P₁₁ = − Φ −1 ( z₁). Sedangkan persamaan kedua adalah:

2 11.855 0.0023 1 0.1862 2 0.0048 3 6.9124 4 0.0063 5 0.07337 6

z = − − x + x − x + x + x + x . Peluang

sebuah kota/kabupaten termasuk kategori nilai IPM lama studi dibawah rata-rata adalah

02 ( 2)

P = Φ −z dan diatas rata-rata adalah P₁₂ = − Φ −1 ( z₂).

Dari uji secara serentak menunjukkan bahwa model tidak signifikan, dengan nilai G² mendekati nol. Hipotesis untuk uji serentak mengacu pada persamaan (16). Sedangkan uji secara parsial menunjukkan bahwa ke enam variabel prediktor diatas, secara langsung tidak signifikan berpengaruh terhadap variabel melek huruf dan variabel lama studi. Nilai t hitung ke enam variabel prediktor dibawah 1.28 (α =0.10). Dimana hipotesis untuk uji secara parsial menggunakan persamaan (20).

Ketidak signifikan variabel prediktor antara lain disebabkan pengelompokkan yang tidak signifikan. Hal ini terlihat pada prediksi pengelompokkan untuk variabel respon terjadi misklasifikasi sebesar 48.5 %. Lebih detailnya dapat dilihat pada Tabel 3.

Tabel 3: Misklasifikasi pemodelan probit biner bivariat PREDIKSI

P₁₁ P10 P01 P₀₀

ACTUAL P11

P10

P₀₁ P₀₀

18 17 0 5

2 15 0 5

1 3 0 10

0 5 0 18

KESIMPULAN DAN SARAN

Dari keenam variabel prediktor [Persentase penduduk yang tinggal di daerah perkotaan (x1), Persentase penduduk yang berpendidikan diatas SLTP (x2), Rata-rata pendapatan perkapita (x3), Rasio ketergantungan penduduk (x4), Persentase peranan sektor industri dalam PDRB (x5) dan Persentase penduduk miskin (x6)], menunjukkan bahwa tidak signifikan terhadap nilai IPM melek huruf maupun nilai IPM lamanya studi. Dengan misklasifikasi yang relatif besar, yaitu sebesar 48.5 %. Disarankan dalam penelitian lanjutan adalah memodifikasi variabel yang telah ada, atau menambah variabel lain.

DAFTAR PUSTAKA

Agresti, A. (2002), Categorical Data Analysis, John Wiley & Sons, Inc., Hoboken, New Jersey.

(8)

183

Aitchison, J. & Silvey, S.D. (1957). The Generalization of Probit Analysis to the Case of Multiple Responses. Biometrika: Vol. 44: No. 2: 131-140.

Bliss, C.I. (1934). The Method of Probits. American Association for the Advancement of Science:

Science, New Series, Vol.79 (2037): 38–39.

Greene, W.H. (2008), Econometrics Analysis, Fourth Edition, Prentice Hall, Englewood Cliffs, New Jersey.

Gujarati, D.N. (2003). Basic Econometric. Fourth Edition. Mc Graw Hill, New York.

McKelvey, R.D. & Zavoina, W. (1975). A Statistical Model for the Analysis of Ordinal Level Dependent Variables. Journal of Mathematical Sociology, Vol. 4: 103-120.

Ronning, G. & Kukuk, M. (1996). Efficient Estimation of Ordered Probit Models. Journal of the American Statistical Association: Vol. 91, No. 435, pp. 1120-1129.

Snapinn, S.M. & Small, R.D. (1986). Test of Significance Using Regression Models for Ordered Categorical Data. Biometrics: Vol. 42: 583-592.