commit to user
ESTIMASI PARAMETER MODEL REGRESI LOGISTIK
ORDINAL TERBOBOTI GEOGRAFIS (RLOTG) DENGAN
METODE FISHER
SCORING
Aulia Nugrahani Putri, Purnami Widyaningsih, dan Dewi Retno Sari Saputro Program Studi Matematika FMIPA UNS
Abstrak. Model RLOTG merupakan gabungan model regresi logistik ordinal dan
model RTG. Pada model RLOTG terdapat variabel respon, variabel prediktor, dan parameter. Variabel respon dan variabel prediktor dapat diketahui berdasarkan sam-pel, sedangkan parameternya tidak dapat diketahui sehingga diperlukan estimasi pa-rameter berdasarkan sampel tersebut. Estimasi papa-rameter model RLOTG dilakukan dengan metode maksimum likelihood. Estimasi parameter dengan metode tersebut ditemui kendala yaitu suatu sistem persamaaan nonlinear yang sulit ditentukan pe-nyelesaiannya. Oleh karena itu penyelesaiannya ditentukan secara numerik dengan metode Fisherscoring. Tujuan penelitian ini adalah menentukan estimasi parameter model RLOTG dengan metode Fisherscoring dan menerapkannya pada data tingkat kerawanan DBD di Kota Semarang. Hasil estimasi parameter model RLOTG dengan metode Fisherscoringadalah ˆV =V(m+1)denganV(m+1)=V(m)+Inf−(m1)S(m)dan
diberikan nilai awal yang diperoleh dari nilai estimasi parameter model regresi logistik ordinal. Pada penerapan diperoleh hasil estimasi parameter untuk kelurahan Kuning-an yaitu ˆV = [−4.704688,−2.829467,0.000042,−0.000048,0.000533,−0.638496,−0.01 7453]T
dan untuk kelurahan Tinjomoyo yaitu ˆV = [−4.835065,−2.821396,−0.000004,
−0.000047,0.000376,−0.746907,−0.018490]T
. Sarana kesehatan memiliki pengaruh yang paling besar terhadap peluang banyaknya penderita DBD di kedua kelurahan tersebut. Berdasarkan banyaknya penderita DBD, dapat ditentukan kategori IR DBD pada kedua kelurahan tersebut.
Kata kunci : estimasi parameter, RLOTG, Fisher scoring.
1.
Pendahuluan
Dalam model-model nondeterministik, untuk mengetahui hubungan antara
dua atau lebih variabel digunakan model regresi. Variabel tersebut adalah
varia-bel prediktor dan variavaria-bel respon. Variavaria-bel respon dapat bertipe kuantitatif atau
kualitatif. Kualitatif atau yang disebut kategorik merupakan hasil pengukuran
dari suatu variabel yang berupa dua atau lebih kemungkinan nilai (kategori).
Ji-ka hanya terdapat dua Ji-kategori variabel respon, maJi-ka variabel respon tersebut
bersifat biner atau dikotomus dan yang memiliki lebih dari dua kategori, maka
variabel respon tersebut bersifat polikotomus (McCullagh dan Nelder [5]).
commit to user
Model regresi yang merepresentasikan hubungan antara variabel respon
de-ngan variabel prediktor yang mempertimbangkan lokasi geografis adalah model
regresi terboboti geografis (RTG). Model regresi logistik telah dikembangkan
un-tuk merepresentasikan hubungan antara variabel respon dengan variabel
predik-tor yang mempertimbangkan lokasi geografis dimana data diamati. Menurut
Atkinson
et al.
[2], model yang dimaksud adalah regresi logistik terboboti
geo-grafis (RLTG). Model RLTG ini dapat dikembangkan untuk variabel respon yang
memiliki skala ordinal oleh Purhadi
et al.
[6], yaitu model regresi logistik
ordi-nal terboboti geografis (RLOTG). Model RLOTG merupakan gabungan model
regresi logistik ordinal dan model RTG.
Pada model RLOTG terdapat variabel respon, variabel prediktor, dan
pa-rameter. Variabel respon dan variabel prediktor dapat diketahui berdasarkan
sampel, sedangkan parameternya tidak dapat diketahui sehingga diperlukan
es-timasi parameter berdasarkan sampel tersebut. Menurut Hosmer dan Lemeshow
[3], metode yang dapat digunakan untuk menentukan estimasi parameter
mo-del RLOTG adalah maksimum
likelihood
. Estimasi parameter dengan metode
tersebut ditemui kendala yaitu suatu sistem persamaan nonlinear yang sulit
di-tentukan penyelesaiannya. Oleh karena itu penyelesaiannya didi-tentukan secara
numerik.
Metode Fisher
scoring
merupakan metode numerik yang menggunakan
vek-tor
score
dan matriks informasi Fisher. Pada tahun 2004, Schworer dan Hovey
[7] membandingkan keunggulan pada dua metode numerik yaitu metode
Newton-Raphson dan Fisher
scoring
dalam perhitungan estimasi maksimum
likelihood
.
Pada penelitian tersebut ditunjukkan bahwa metode Fisher
scoring
lebih baik
daripada metode Newton-Raphson karena metode Fisher
scoring
tetap
konver-gen ketika metode Newton-Raphson tidak konverkonver-gen. Hal itu dikarenakan metode
Fisher
scoring
menggunakan nilai harapan pada setiap iterasi. Pada tahun 2013,
Marius dan Anaene [4] menerapkan estimasi parameter dengan metode Fisher
sco-ring
pada model regresi logistik biner. Keunggulan menggunakan metode Fisher
commit to user
2.
Metode Penelitian
Penelitian ini merupakan kajian teori dengan mempelajari metode Fisher
scoring
yang dipergunakan untuk mengestimasi parameter model RLOTG.
Me-tode tersebut kemudian diterapkan pada data tingkat kerawanan DBD di Kota
Semarang. Data yang dipergunakan diperoleh dari Badan Pusat Statistik (BPS)
dan Dinas Kesehatan Kota Semarang.
Langkah-langkah untuk mencapai tujuan penelitian adalah menentukan
fungsi
likelihood
dari fungsi densitas peluang bersama dan membentuk fungsi
ln-
likelihood
nya. Setelah diperoleh fungsi ln-
likelihood
, ditentukan penyelesaian
yang memaksimumkannya. Pada tahapan tersebut ditemui kendala yaitu sistem
persamaan nonlinear yang sulit ditentukan penyelesaiannya sehingga ditentukan
secara numerik dengan metode Fisher
scoring
. Kemudian hasil estimasi
parame-ternya diterapkan pada data tingkat kerawanan DBD di Kota Semarang dengan
langkah, mengategorikan penderita DBD. Menurut Kementerian Kesehatan
(Ke-menkes), kategori penderita DBD berdasarkan
incidence rate
(IR) yaitu ringan,
sedang, dan berat, kemudian menentukan titik koordinat setiap kelurahan di
Ko-ta Semarang, menentukan jarak anKo-tar kelurahan, menentukan pembobot setiap
kelurahan, dan menentukan estimasi parameter. Pada tahapan tersebut diperoleh
nilai estimasi parameter dan diperoleh model RLOTG.
3.
Hasil dan Pembahasan
3.1.
Model RLOTG.
Model RLOTG adalah model yang merepresentasikan
hubungan antara variabel respon berskala ordinal dengan variabel prediktor yang
masing-masing parameter bergantung pada lokasi (
u
i, v
i). Menurut Purhadi
et.
al
[6], model RLOTG dengan variabel respon
K
kategori dinyatakan sebagai
Logit
(
P
(
Y
i≤
s
|
x
i)) =
α
s(
u
i, v
i) +
x
Tiβ
(
u
i, v
i)
(3.1)
dengan
s
=1,2,. . . ,
K
-1 dan
i
=1,2,. . . ,n. Parameter
α
s(
u
i, v
i) merupakan intersep,
β
(
u
i, v
i) = [
β
1(
u
i, v
i)
, β
2(
u
i, v
i)
, . . . , β
p(
u
i, v
i)]
Tmerupakan vektor koefisien
regre-si untuk lokaregre-si ke-
i
,
x
Ti
= [
x
i1, x
i2, . . . , x
ip] adalah vektor variabel prediktor untuk
lokasi ke-
i
dengan
p
adalah banyaknya variabel prediktor, dan (
u
i, v
i) adalah titik
koordinat (
latitude, longitude
) untuk lokasi ke-
i
.
3.2.
Estimasi Parameter.
Pada penelitian ini, diperhatikan sampel
pengamat-an (variabel respon)
Y
1, Y
2, . . . , Y
nyang memiliki
K
kategori dan memiliki
pelu-ang kategori terhadap
x
adalah
P
k(
x
) dengan
k
= 1
,
2
, . . . , K
,
∑
Kk=1P
k(
x
) = 1.
Karena variabel respon memiliki
K
kategori (berdistribusi multinomial), fungsi
commit to user
f
(
Y
k=
y
k) =
P
k(
x
)
ykk
= 1
,
2
, . . . , K
sehingga diperoleh fungsi
likelihood n
sampel pengamatan yaitu
L
(
u
i, v
i) =
n∏
i=1
f
(
y
i1)f
(
y
i2). . . f
(
y
iK)
=
n
∏
i=1
(
P
1(
x
i)
yi1P
2(x
i)
yi2. . . P
K(
x
i)
yiK)
=
n
∏
i=1
((
exp(
α
1(
u
i, v
i) +
x
Ti
β
(
u
i, v
i))
1 + exp(
α
1(
u
i, v
i) +
x
Tiβ
(
u
i, v
i))
)
yi1(
exp(
α
2(u
i, v
i) +
x
Ti
β
(
u
i, v
i))
1 + exp(
α
2(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
−
exp(
α
1(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
1 + exp(
α
1(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
)
yi2· · ·
(
1
−
exp(
α
K−1(u
i, v
i) +
x
Ti
β
(
u
i, v
i))
1 + exp(
α
K−1(
u
i, v
i) +
x
Tiβ
(
u
i, v
i))
)
yiK)
.
Fungsi
likelihood
merupakan fungsi eksponensial sehingga untuk
memudah-kan perhitungan, fungsi
likelihood
diubah ke dalam fungsi ln
−
likelihood
.
Pa-da analisis spasial, untuk mengetahui kedekatan antara lokasi satu dengan yang
lain diperlukan suatu pembobot sehingga pembobot diberikan pada bentuk
ln-likelihood
. Jika pembobot untuk setiap lokasi (
u
i, v
i) adalah
w
ij(
u
i, v
i), maka
fungsi ln-
likelihood
terboboti dinyatakan sebagai
ln
L
(
u
i, v
i) =
n∑
i=1
(
y
i1ln
(
exp(
α
1(
u
i, v
i) +
x
Ti
β
(
u
i, v
i))
1 + exp(
α
1(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
)
+
(
y
i2ln
exp(
α
2(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
1 + exp(
α
2(
u
i, v
i) +
x
Tiβ
(
u
i, v
i))
−
exp(
α
1(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
1 + exp(
α
1(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
)
+
. . .
+
y
iKln
(
1
−
exp(
α
K−1(
u
i, v
i) +
x
Ti
β
(
u
i, v
i))
1 + exp(
α
K−1(u
i, v
i) +
x
Tiβ
(
u
i, v
i))
))
w
ij(
u
i, v
i)
.
Pembobot
w
ij(
u
i, v
i) adalah pembobot kernel
fixed Gaussian
yang
dinya-takan sebagai
w
ij(
u
i, v
i) = exp
(
−
1
2
(
d
ijh
)
2)
dengan
d
ij=
√
(
u
i−
u
j)
2+ (
v
i−
v
j)
2adalah jarak antara lokasi (
u
i, v
i) dan
lo-kasi (
u
j, v
j), dan
h
adalah
bandwidth
(ukuran kebertetanggaan).
Untuk memperoleh nilai parameter yang memaksimumkan fungsi ln-
likelihood
commit to user
∂
ln
L
(
u
i, v
i)
∂α
1(
u
i, v
i)
=
n
∑
i=1
(
y
i11
1 +
e
1−
y
i2(
e
1(1 +e
2)(1 +
e
1)(
e
2−
e
1)
))
w
ij(
u
i, v
i)
∂
ln
L
(
u
i, v
i)
∂α
2(
u
i, v
i)
=
n
∑
i=1
(
y
i2(
e
2(1 +e
1)
(1 +
e
2)(
e
2−
e
1)
))
w
ij(
u
i, v
i)
...
(3.2)
∂
ln
L
(
u
i, v
i)
∂α
K−1(
u
i, v
i)
=
n∑
i=1(
y
iK(
e
K−11 +
e
K−1))
w
ij(
u
i, v
i)
∂
ln
L
(
u
i, v
i)
∂
β
(
u
i, v
i)
=
n
∑
i=1
(
y
i1(
x
Ti
1 +
e
1)
−
y
i2(
x
Ti
(
u
i, v
i)(
−
1 +
e
1e
2)(1 +
e
1)(1 +
e
2)
)
−
y
iK(
x
Ti
(
e
K−1)
1 +
e
K−1))
w
ij(
u
i, v
i)
dengan
e
1= exp(
α
1(u
i, v
i) +
x
Tiβ
(
u
i, v
i)),
e
2= exp(
α
2(u
i, v
i) +
x
Tiβ
(
u
i, v
i)), dan
e
K−1= exp(
α
K−1(u
i, v
i) +
x
Tiβ
(
u
i, v
i)).
Selain itu ditentukan turunan kedua fungsi ln-
likelihood
terhadap
masing-masing parameter yang bernilai negatif sehingga penyelesaian yang diperoleh
su-dah maksimum.
Nilai parameter model RLOTG dapat ditentukan dari penyelesaian sistem
(3.2). Sistem (3.2) merupakan sistem persamaan nonlinear. Penyelesaian eksak
sistem (3.2) sulit ditentukan sehingga ditentukan secara numerik dengan metode
Fisher
scoring
.
Metode Fisher
scoring
membutuhkan vektor
score
dan matriks informasi
Fisher. Vektor
score
merupakan vektor yang elemennya turunan pertama fungsi
ln-
likelihood
terhadap masing-masing parameter yaitu
S
=
∑
n i=1(
y
i11+1e1−
y
i2(
e1(1+e2)
(1+e1)(e2−e1)
))
w
ij(
u
i, v
i)
∑
ni=1
(
y
i2(
e2(1+e1)
(1+e2)(e2−e1)
))
w
ij(
u
i, v
i)
...
∑
n i=1(
y
iK(
e K−11+eK−1
))
w
ij(
u
i, v
i)
∑
ni=1
(
y
i1(
xTi
1+e1
)
−
y
i2(
xTi(ui,vi)(−1+e1e2)
(1+e1)(1+e2)
)
−
y
iK(
xTi(eK−1)
1+eK−1
))
w
ij(
u
i, v
i)
.
commit to user
Inf
=
E
(
∂∂α2lnL2 (ui,vi)1(ui,vi)
)
E
(
∂2lnL(ui,vi)
∂α1(ui,vi)α2(ui,vi)
)
· · ·
E
(
∂2lnL(ui,vi)
∂α1(ui,vi)∂β(ui,vi)
)
E
(
∂α2∂(2ui,vilnL()αui,vi1(ui,vi) ))
E
(
∂∂α2lnL2 (ui,vi)2(ui,vi)
)
· · ·
E
(
∂α2∂(ui,vi2lnL)(∂ui,viβ(ui,vi) ))
...
...
. ..
...
E
(
∂2lnL(ui,vi)∂β(ui,vi)∂α1(ui,vi)
)
E
(
∂2lnL(u
i,vi)
∂β(ui,vi)∂α2(ui,vi)
)
· · ·
E
(
∂2lnL(u
i,vi) ∂β2(ui,vi)
)
.
Berikut adalah algoritme Fisher
scoring
.
(1) Menentukan nilai awal (
m
=0) vektor parameter
V
0yang diperoleh dari
nilai estimasi parameter model regresi logistik ordinal.
(2) Menghitung nilai parameter
V
m+1=
V
(m)+
Inf
(−m1)S
(m)dengan
m
=
0
,
1
,
2
, . . . .
(3) Menghitung norm
V
(m+1)−
V
(m)=
∥
V
(m+1)−
V
(m)∥
dengan
∥V(m+1)−V(m)∥ =
√
(α1(m+1)(ui, vi)−α1(m)(ui, vi))2+· · ·+ (βp(m+1)(ui, vi)−βp(m)(ui, vi))2.
∥
V
(m+1)−
V
(m)∥
digunakan untuk menghentikan iterasi dengan kriteria
∥
V
(m+1)−
V
(m)∥
<
toleransi eror. Jika kriteria dipenuhi, maka proses
iterasi berhenti dan nilai estimasi parameternya adalah ˆ
V
=
V
(m+1).Sebaliknya, jika
∥
V
(m+1)−
V
(m)∥
>
toleransi eror, maka proses iterasi
diulang ke langkah (2) sampai dengan (3).
Setelah nilai estimasi parameter diperoleh, model RLOTG-nya dinyatakan
seba-gai
Logit
(
P
(
Y
i≤
s
|
x
i)) = ˆ
α
s(
u
i, v
i) +
x
Tiβ
ˆ
(
u
i, v
i)
.
3.3.
Penerapan.
Pada penerapan ini data yang digunakan adalah data
ting-kat kerawanan DBD di Kota Semarang pada tahun 2014. Tingting-kat kerawanan
DBD tersebut terdiri atas tiga kategori (
K
=3) berdasarkan IR, yaitu ringan,
sedang, dan berat yang digunakan sebagai variabel respon dan variabel
predik-tornya adalah kepadatan penduduk (
X
1), banyak penduduk kelompok umur 0-14
tahun (
X
2), banyaknya rumah semi permanen (X
3), adanya sarana kesehatan(
X
4), dan angka bebas jentik nyamuk (X
5), sehinggap
=5. Jadi terdapat tujuh
parameter model, yaitu
V
= [
α
1(u
i, v
i)
, α
2(u
i, v
i)
, β
1(u
i, v
i)
, β
2(u
i, v
i)
, β
3(u
i, v
i)
,
β
4(u
i, v
i)
, β
5(u
i, v
i)].
commit to user
α
1=
−
4
.
843250,
α
2=
−
2
.
804115,
β
1= 2
.
623848
×
10
−6,
β
2
=
−
4
.
601760
×
10
−5,
β
3= 3
.
561353
×
10
−4,
β
4
=
−
7
.
387467
×
10
−1,
β
5=
−
1
.
737042
×
10
−2sehingga
diperoleh
S
0= [
−
0
.
1517446
,
1
.
1334551
, . . . ,
−
74
.
6099972]
Tdan
Inf
0=
−
6
.
034837
−
8
.
043147
×
10
−1· · ·
9
.
195739
×
10
−3−
8
.
043147
×
10
−18
.
136414
×
10
−1· · ·
−
9
.
318322
×
10
−3...
...
. ..
...
9
.
195739
×
10
−3−
9
.
318322
×
10
−3· · ·
−
6
.
150618
×
10
−4
.
[image:7.595.95.533.130.506.2]Hasil estimasi parameter dengan toleransi eror 0.0001 diperoleh iterasi ke-15.
Hasil estimasi parameter untuk kelurahan Kuningan dan Tinjomoyo
ditun-jukkan pada Tabel 1.
Tabel 1. Hasil estimasi parameter model RLOTG
Kel
α
ˆ
1(u
i, v
i)
α
ˆ
2(u
i, v
i)
β
ˆ
1(u
i, v
i)
β
ˆ
2(u
i, v
i)
β
ˆ
3(
u
i, v
i)
β
ˆ
4(u
i, v
i)
β
ˆ
5(u
i, v
i)
Ku -4.704688 -2.829467 0.000042
-0.000048 0.000533 -0.638496 -0.017453
Ti
-4.835065 -2.821396 -0.000004 -0.000047 0.000376 -0.746907 -0.018490
Berdasarkan Tabel 1 diperoleh model RLOTG berikut.
(1) Model RLOTG pada data DBD untuk kelurahan Kuningan yaitu
Logit
(
P
(
Y
1≤
1
|
x
i)) =
−
4
.
704688 + 0
.
000042
x
i1−
0
.
000048
x
i2+ 0
.
000533
x
i3−
0
.
638496
x
i4−
0
.
017453
x
i5Logit
(
P
(
Y
1≤
2
|
x
i)) =
−
2
.
829467 + 0
.
000042
x
i1−
0
.
000048
x
i2+ 0
.
000533
x
i3−
0
.
638496
x
i4−
0
.
017453
x
i5.
(2) Model RLOTG pada data DBD untuk kelurahan Tinjomoyo yaitu
Logit
(
P
(
Y
2≤
1
|
x
i)) =
−
4
.
835065
−
0
.
000004
x
i1−
0
.
000047
x
i2+ 0
.
000376
x
i3−
0
.
746907
x
i4−
0
.
018490
x
i5Logit
(
P
(
Y
2≤
2
|
x
i)) =
−
2
.
821396
−
0
.
000004
x
i1−
0
.
000047
x
i2+ 0
.
000376
x
i3−
0
.
746907
x
i4−
0
.
018490
x
i5.
commit to user
Untuk kelurahan Tinjomoyo, jika setiap bertambahnya satu unit rumah semi
permanen (
X
3), maka peluang banyaknya penderita DBD mengalami kenaikansebesar 0.0376% sehingga kelurahan tersebut masuk dalam kategori IR DBD
sedang atau berat. Jika setiap bertambahnya satu orang penduduk (
X
1), satuorang penduduk umur 0-14 tahun (
X
2), satu unit sarana kesehatan (
X
4), dan
1 % angka bebas jentik nyamuk (
X
5), maka peluang banyaknya penderita DBD
mengalami penurunan sebesar 0.0004%, 0.0047%, 74.6907%, dan 1.849% sehingga
kelurahan tersebut masuk dalam kategori IR DBD ringan atau sedang.
4.
Kesimpulan
(1) Hasil estimasi parameter model RLOTG dengan metode Fisher
scoring
adalah ˆ
V
=
V
(m+1)dengan
V
(m+1)=
V
(m)+
Inf
−(m1)S
(m)dan diberikan
nilai awal yang diperoleh dari nilai estimasi parameter model regresi
logis-tik ordinal sehingga model RLOTG-nya dinyatakan sebagai
Logit
(
P
(
Y
i≤
s
|
x
i)) = ˆ
α
s(
u
i, v
i) +
x
iTβ
ˆ
(
u
i, v
i) dengan
s
= 1
,
2
, . . . , K
−
1.
(2) Pada data tingkat kerawanan DBD di Kota Semarang, diperoleh hasil
esti-masi parameter untuk kelurahan Kuningan yaitu ˆ
V
= [
−
4
.
704688
,
−
2
.
829
467
,
0
.
000042
,
−
0
.
000048
,
0
.
000533
,
−
0
.
638496
,
−
0
.
017453]
Tdan untuk
ke-lurahan Tinjomoyo yaitu ˆ
V
= [
−
4
.
835065
,
−
2
.
821396
,
−
0
.
000004
,
−
0
.
0000
47
,
0
.
000376
,
−
0
.
746907
,
−
0
.
018490]
T. Sarana kesehatan memiliki
penga-ruh yang paling besar terhadap peluang banyaknya penderita DBD di
kedua kelurahan tersebut. Berdasarkan banyaknya penderita DBD,
da-pat ditentukan kategori IR DBD pada kedua kelurahan tersebut.
DAFTAR PUSTAKA
[1] Agresti, A.,Categorical Data Analysis, John Wiley and Sons, Inc., New York, 2002. [2] Atkinson, P. M., S. E. German, D. A. Sear, and M. J. Clark, Exploring the Relations
Between Riverbank Erison and Geomorphological Control Using Geographically Weighted Logistic Regression, Ohio: Ohio State University35(2003), 58-82.
[3] Hosmer, D. W. and S. Lemeshow, Applied Logistic Regression, John Wiley and Sons, Inc., USA, 2000.
[4] Marius, O. U. and O. I. C. Anaene,Estimating the Fisher’s Scoring Matrix Formula from Logistic Model, American Journal of Theoretical and Applied Statistics2(2013), 221-227.
[5] McCullagh, P. and J. A. Nelder,Generalized Linear Models, second ed., Chapman and Hall, 1983.
[6] Purhadi, M. Rifada, and P. Wulandari,Geographically Weighted Ordinal Logistic Regression Model, International Journal of Mathematics and Computation16(2012), 116-216.