Improvisasi Penaksir Model Linier
Mulyana
Jurusan Statistika FMIPA Unpad
1. Pendahuluan
Dalam model linier dengan asumsi kekeliruannya berdistribusi identik independen dengan rata-rata 0 dan varians konstan sama dengan 2, menggabungkan antara penaksir aktual (nilai ramalan) dengan nilai rata-rata merupakan segi (aspect) penting dalam analisis regresi terapan. Misalkan sebuah pabrik farmasi membuat obat dengan formulasi baru dan ingin menelaah daya sembuhnya jika dibandingkan dengan formulasi lama, yang tingkat (lama) kesembuhannya dipengaruhi oleh beberapa variabel pada pasien. Dalam hal ini biasanya yang ditelaah pihak produsen adalah rata-rata tingkat kesembuhan, sedangkan pasien nilai aktualnya, sehingga persoalannya bagaimana menggabungkan kedua telaahan itu secara statistika ?
2. Teori
Perhatikan model linier
e
X
Y
(1)dengan
Y
, vektor variabel respon (variabel tidak bebas) berukuran nx1X, matriks variabelexplanatory(variabel bebas) berukuran nxm , m < n, m > 2 , dengan rank penuh
, vektor parameter model berukuran mx1e
, vektor kekeliruan model berukuran nx1, dengan asumsiE
e
0
, danI
E
E
E
2
, I matriks identitas berukuran nxnDengan menggunakan metode kuadrat terkecil, penaksir untuk adalah
X
X
1X
Y
(2) yang merupakan statistik tak-bias dan bervarians minimum, sehingga penaksir aktual untuk
Y
adalahY
X
.Karena
E
Y
X
, maka berdasarkan sifat kelinieran, penaksir untuk rata-rataY
,
Y
E
adalahE
Y
X
, sehingga dari paparan tersebut tersurat bahwaX
memiliki peran dua penaksir, yaitu sebagai penaksir nilai aktual dan nilai rata-rata untukY
. Persoalannya bagaimana menyajikan statistikX
jika diinginkan perannya lebih dominan sebagai penaksir nilai aktual dari pada sebagai nilai rata-rata atau sebaliknya? Berdasarkan teori Statistika-Matematis, untuk keperluan tersebut diperlukan formulasi dari jumlah kuadrat kekeliruan model, agar bisa dibangun fungsi target beserta fungsi kegagalan (loss function) dan fungsi resikonya (risk function).Jumlah kuadrat kekeliruan model adalah
e
Y
X
Y
X
e
(3)
X
X
X
X
X
Y
X
Y
e
e
(4)Pada Persamaan (4) tersurat, fungsi kegagalan untuk
X
jika digunakan sebagai penaksirX
dibangun atas kombinasi linier yang diboboti dengan persamaan
X
X
X
X
c
1
X
Y
X
Y
c
X
,
X
f
(5) c: skalar nonstokastik, 0 < c < 1Karena suku pertama pada Persamaan (4) merupakan jumlah kuadrat penaksir nilai aktual
Y
dan suku keduanya jumlah kuadrat residuE
Y
, sehingga fungsi target untukY
dapat dibangun berdasarkan persamaan
Y
E
Y
T
1
(6): skalar nonstokastik, 0 << 1
Dapat ditunjukan bahwa
T
1
Y
E
Y
X
danE
T
X
yang berarti
T
X
E
, sehinggaT
identik denganY
. Fungsi kegagalan untukT
jika digunakan sebagai penaksirT
sama dengan
X
X
X
Y
1
2
X
X
X
X
X
Y
X
Y
1
X
T
X
T
T
,
T
f
2 2 (7)Pada Persamaan (7) tersurat, dua suku pertamanya identik dengan Persamaan (5) dan suku ketiganya merupakan kovarian yang diboboti antara residu nilai aktual dengan residu rata-rata hitung
Y
. Sehingga Persamaan (7) merupakan pengembangan sederhana (simple extention) dari Persamaan (5), yang berarti Persamaan (7) merupakan fungsi kegagalan untuk
X
(jika digunakan sebagai penaksirX
) yang sebaiknya digunakan, dengan fungsi resiko sama dengan
X
Y
X
Y
E
1
2
X
X
X
X
E
X
Y
X
Y
E
1
T
T
f
E
2 2)
(
)
(
,
yang sama dengan total dari penaksir rata-rata jumlah kuadrat kekeliruan (total predictive mean square error). Dari paparan ini disimpulkan bahwa formulasi untuk menggabungkan antara penaksir nilai aktual dengan rata-rata hitungnya harus mengikuti Persamaan (6).
Shalabh (1999) mengemukakan, menggunakan fungsi resiko di bawah fungsi kegagalan dengan Persamaan (7) dapat digunakan dua bentuk penaksir untuk
, yaitupenaksir kuadrat terkecil seperti pada Persamaan (2), dan penaksir berdasarkan aturan Stein (Stein-rule estimator), yang persamaannya
Y
H
Y
Y
H
Y
2
m
n
a
1
C S (8)a: a > 0, skalar karakaterisasi penaksir
X
X
X
X
H
1
,H
C
I
H
, I matriks identitas Dapat ditunjukan S
bukan penaksir takbias, dan akan merupakan penaksir takbias jikaY
H
CY
0
, yaitu jikaY
Y
(model regresi sangat cocok sebagai model ramalan),sehingga dalam penggunaannya harus dikombinasi linierkan dengan penaksir kuadrat terkecil, dengan persamaan S
w
w
1
b
(
)
(9) 0<w<1, skalar nonstokastikJadi dalam hal ini penaksir untuk
X
, bisa digunakan
X
X
X
Y
H
Y
X
X
p
1
(9) atauY
H
Y
H
Y
Y
H
Y
2
m
n
a
Y
H
Y
H
Y
Y
H
Y
2
m
n
a
1
X
X
p
S S C
C
(10)atau kombinasi liniernya
Y
H
Y
H
Y
Y
H
Y
2
m
n
a
w
Y
H
Y
H
Y
H
Y
Y
H
Y
2
m
n
a
Y
H
w
Y
H
w
1
p
w
p
w
1
P
C C S
)
(
)
(
(11)yang formulasinya setara dengan Persamaan (10).
Jika
p
danP
digunakan sebagai penaksir untuk fungsi targetT
, maka
0
X
X
X
Y
E
X
X
X
X
X
Y
E
Y
E
1
Y
HE
Y
E
E
Y
E
1
Y
H
Y
E
Y
1
E
p
T
E
1
)
(
)
(
)
(
)}
(
{
)
(
)
(
(12) dan
X
Y
H
Y
Y
H
Y
2
m
n
a
w
Y
HE
Y
H
Y
Y
H
Y
2
m
n
a
w
Y
H
Y
H
Y
Y
H
Y
2
m
n
a
Ew
Y
H
Y
E
Y
1
E
Y
H
Y
H
Y
Y
H
Y
2
m
n
a
w
Y
H
Y
E
Y
1
E
P
T
E
C C C C)
(
)
(
(13)karena
1
Y
H
Y
Y
H
Y
2
m
n
a
w
0
C
, makaE
T
p
E
T
P
Fungsi resiko jika
p
danP
digunakan sebagai penaksir untuk fungsi targetT
, masing-masing sama dengan
T
p
T
p
1
2n
1
2
m
2E
)
p
(
R
(14)
4 2 2wa
2
m
2
Y
H
Y
1
E
2
m
n
m
n
wa
m
2
1
n
1
P
T
P
T
E
P
R
(15)Dari Persamaan (12), (13), (14) dan (15) dapat disimpulkan 1.jika
0
, maka Y T ,R
p
n
m
2,
2 2 2 4Y
H
Y
1
E
2
m
n
m
n
a
w
m
n
P
R
, sehingga
p
R
P
R
. Hal ini berartip
superior dariP
jikap
digunakan sebagai penaksir nilai aktualY
, dan karenap
X
, maka jikaX
digunakan sebagai penaksir nilai aktualY
maka nilai resikonya sama dengan
n
m
2,
2 varians residu2.jika
0
1
, dan jikawa
2
m
2
atau
,
m
2
w
2
m
2
a
maka
2
m
2
wa
0
Y
H
Y
1
E
2
m
n
m
n
wa
sehingga
R
p
R
P
. Hal ini berartiP
superior darip
jikaP
digunakan sebagai penaksir rata-rataY
, yang berartiX
tidak sepenuhnya dapat dijadikan penaksir aktualY
karena terkombinasi dengan sebagai penaksir rata-rata
Dari paparan tersebut, disimpulkan jika
X
digunakan sebagai penaksir nilai aktualY
, maka resikonya
n
m
2,
2 varians residu, dan nilai ini akan cukup kecil jika model regresi cocok digunakan sebagai model ramalan, dan untuk penaksir rata-rataY
, E(Y
), sebaiknya digunakan statistik
X
Y
H
Y
Y
H
Y
2
m
n
a
w
X
P
Ckarena nilai resikonya lebih kecil dari
n
m
2, jika
,
m
2
w
2
m
2
a
.3. Terapan
Untuk menggunakan teori ini diperlukan dua kelompok sampel yang identik, dengan sampel kedua merupakan sampel lanjutan dari sampel pertama, misalnya untuk kasus pabrik farmasi seperti yang dikemukan pada pendahuluan, sampel pertama adalah tingkat penyembuhan obat dengan formulasi lama, dan yang kedua dengan formulasi baru.
Jika model linier sampel pertama disajikan seperti pada Persamaan (1), maka untuk sampel kedua oleh
f f f
X
e
Y
(16)dengan
Y
t vektor berukuran kx1, Xf matriks berukuran kxm dengan rank penuh,n
k
m
.Sudah dikemukakan pada teori, pada sampel pertama penaksir untuk
X
adalah
X
X
X
Y
X
p
1
ataup
Y
H
Y
Y
H
Y
2
m
n
a
w
p
)
w
1
(
P
C
dengan
,
m
2
w
2
m
2
a
,H
X
X
X
1X
,
H
C
I
H
, I matriks identitas berukuranmxm
dan fungsi targetnya
Y
Y
Y
E
Y
E
Y
)
1
(
T
sehingga pada sampel kedua penaksir untuk
X
f
dapat digunakan f f 1 f f f fX
X
X
X
Y
p
atau f f f f f C f f f f(
1
w
)
p
w
k
m
a
2
Y
Y
H
H
Y
Y
p
P
dengan
,
m
2
w
2
m
2
a
,H
f
X
f
X
f
X
f
1X
f
,H
fC
I
f
H
f, If matriks identitas berukuran kxk.dan fungsi targetnya
f f
f
f
f
f
(
1
)
Y
E
Y
Y
Y
E
Y
T
Pada sampel pertama, jika
p
sebagai penaksirT
(atauX
sebagai nilai ramalanY
,
X
Y
) maka nilai resikonya sama dengan
n
m
2,
2varians residu sampel pertama, dan jikaP
sebagai penaksirT
(atauP
sebagai penaksir rata-rataY
,E
Y
P
) maka nilai resikonya lebih kecil dari
n
m
2. Analog untuk sampel kedua, jikaf
p
sebagai penaksirT
f(atau
X
f
sebagai nilai ramalanY
f,Y
f
X
f
) maka nilai resikonya sama dengan
f2
m
k
, f2
varians residu model sampel kedua, dan jikaP
f sebagai penaksirT
f (atauP
fsebagai penaksir rata-rata
Y
f,E
Y
f
P
f) maka nilai resikonya lebih kecil dari
2 fm
k
. Sehingga jika hasil penaksiran pada sampel pertama dan kedua digabungkan, maka penaksir nilai aktual respon sama denganp
p
)
1
(
f
,dan penaksir rata-ratanya sama dengan
P
P
)
1
(
f
.4. Daftar Pustaka
Searle, S. R., 1971, Linear Models, John Wiley & Sons, New York.
Drafer, N. & Smith, H., 1981,Applied Regression Analysis, second edition, John Wiley & Sons, New York.
Shalabh, 1999,Improving The Prediction in Linear Regression Models, Journal of Statistical Research, Vol. 3 No. 1 pp 33 – 39, Bangladesh.
Graybill, F. A. , 1961, An Introduction to Linear Statistical Models, McGraw-Hill Book Co. Inc., New York
Berger, J. O., 1985, Statistical Decision Theory and Bayesian Analysis, second edition, Springer-Verlag, New York.
Ohtani, K., 1998, The Excact Risk of Weighted Average Estimator of OLS and Stein-rule Estimator in Regression under Balanced Loss, Statistics & Decisions, Vol. 16, pp 35–45.
Hogg, R. V. & Craig, A. T., 1978, Introduction to Mathematical Statistics, fourth edition, Macmillan Pub. Co. Inc., New York.