1
ESTIMASI
MISSING
DATA DALAM MULTIVARIAT
BERDASARKAN DATA YANG TERAMATI
Hutrisah S.M Sitohang1, Prof. I Ketut Budayasa, Ph.D2.
1 Jurusan Matematika, Fakultas Martematika dan Ilmu Pengetahuan Alam, UNESA Kampus Ketintang 60231,Surabaya
Email : [email protected],[email protected]
ABSTRAK
Missing data adalah informasi yang tidak tersedia dalam sebuah subyek atau kasus. Fenomena missing
data banyak dijumpai dalam survei. Banyak hal yang menyebabkan terjadinya missing data. Sehingga terkadang beberapa pihak tertentu mengabaikan, menghapus sebagian variabel yang mengandung
missing. Mengingat data sangat mahal dan berharga, maka penelitian ini, menduga parameter yang membuat fungsi likelihood maksimum untuk data yang seluruhnya teramati dan juga diamati sebanyak
n anggota sebagai sampel (dengan n<N), dengan menggunakan data teramati maka nilai harapan bersyarat data tidak teramati
Y
N n juga akan maksimum. Algoritma EM adalah salah satu metode yang menangani kasus missing. Ketika algoritma EM menghasilkan nilai penduga parameter maka penduga parameter tersebut merupakan nilai tunggal yang tetap.Kata kunci : Missing data, Maksimum likelihood, Algoritma ekspektasi maksimum (EM).
1.
PENDAHULUAN
Permasalahan missing data merupakan permasalahan yang sudah muncul sejak lama.
Missing data pertama kali diperkenalkan oleh Orchard dan Woodbury (1972). Missing data merupakan informasi yang tidak tersedia dalam sebuah subyek atau kasus. Dalam Statistical Package for The Sosial Science (SPSS) missing data adalah adanya sel ± sel kosong pada satu atau beberapa variabel. Banyak hal yang menyebabkan terjadi
missing data, seperti peralatan yang tidak berfungsi dengan baik, kesalahan mekanis, penolakan dari responden untuk menjawab kuisioner, dan tidak adanya jawaban dari setiap pertanyaan yang spesifik sehingga tidak mengetahui variabel yang dipermasalahkan. Prinsip missing data telah banyak
diterapkan untuk menyelesaikan berbagai masalah prediksi dan penduga parameter.
Banyak ahli matematika mempelajari tentang perluasan konsep tersebut. Salah satunya pada jurnal statistik yang berjudul A Note On The Missing Value Principle And The EM-Algorithm For Estimation And Prediction In Sampling From Finite Populations With A Multinormal Superpopulation Model yang disusun oleh S. Zacks dari N.Y, USA dan Josemar Rodriguez dari Brazil The University of Sao Paulo.
Berdasar jurnal tersebut skripsi ini membahas mengenai estimasi missing data dalam multivariat berdasarkan data yang teramati. Bertujuan untuk mengestimasi fungsi likelihood untuk seluruh data Y
teramati dan data sebanyak n data sampel teramati sehingga penduga parameternya maksimum.. Model linier
Y
X
E
e
berdistribusi normal untuk fungsi likelihood pada data teramati sebanyak ndengan n < N. Tulisan ini merupakan hasil rangkuman dan kolaborasi dari defenisi dan teorema pada sumber [4]dan [8].
2.
KAJIAN PUSTAKA
Pada bab ini akan dibahas mengenai beberapa defenisi, metode yang akan digunakan sebagai landasan teori pada pembahasan.
2.1
Missing Data
Missing data adalah informasi yang tidak tersedia untuk sebuah subyek (kasus). Dalam
Statistical Package for the Social Science (SPSS)
missing data adalah adanya sel-sel kosong pada satu atau beberapa variabel. Tujuan data missing untuk memprediksi dan mendapatkan cara penggantian suatu nilai konstanta terhadap nilai yang missing .
2.2
Pola missing data
2
pola data missing univariat, pola multivariat nonrespone, pola data missing monoton, pola data missing tanpa strutur khusus, pola matching pattern, pola faktor analisis.2.3
Asumsi mekanisme missing data
Litlle dan Rubin (1987) mengklasifikasi mekanisme missing data dalam tiga hal yaitu:
Missing Completely at Random (MCAR), Missing at Random (MAR), dan Non-ignorable.
2.4 Model regresi linier multivariat
Model regresi linier
1 1
1 u u u
u N p p N
NY X
E
eJika ditulis dalam bentuk matriks :
» » » » » » » » ¼ º « « « « « « « « ¬ ª » » » » » » » » ¼ º « « « « « « « « ¬ ª Np N N p n n n np n n p N n n X X X X X X X X X X X X Y Y Y Y 2 1 2 1 2 1 1 12 11 1 1
»
»
»
»
¼
º
«
«
«
«
¬
ª
»
»
»
»
»
¼
º
«
«
«
«
«
¬
ª
N pe
e
e
2 1 2 1E
E
E
Y ini adalah vektor pengamatan yang terdiri atas N
populasi. Dimana vektor tersebut diamati sebanyak- n
dengan
n
N
berarti yang tidak teramati sebanyakN-n. Sehingga vektor Y dan V dapat dipartisi sebagai berikut : » ¼ º « ¬ ª » » » » » » » » » ¼ º « « « « « « « « « ¬ ª n N n N n n Y y y y y y y Y 1 2 1 dan » ¼ º « ¬ ª 22 21 12 11 V V V V V Dimana : Submatriks
V
11 berordon
u
n
SubmatriksV
12berordon
u
N
n
SubmatrisV
21berordoN
n
u
n
SubmatriksV
22 berordoN
n
u
N
n
2.5
Maksimum
likelihood
estimator
Metode MLE (Maximum Likelihood Estimator) adalah suatu metode penaksiran parameter yang dapat digunakan untuk menaksir parameter suatu model yang diketahui distribusinya. Sebagaimana diketahui bahwa taksiran parameter melalui metode MLE adalah melakukan turunan parsial fungsi
likelihood terhadap parameter yang akan ditaksir. Misal model linier
Y
X
E
e
, diasumsikan berdistribusi normal maka fungsi likelihood pada data teramatiy
n adalah ;» ¼ º « ¬ ª Ec E S E 2 1 11 1 1 2 1 11 2 2 1 ; e y X V y X V y L n n n n
Dimana, estimasi fungsi likelihood (MLE) dari
E
, akan maksimum jikaE
=E
Ö
, dengann
y
V
X
X
V
X
1 111 1 1 1 11 1Ö
»¼
º
«¬
ª c
E
.2.6
Algoritma EM
Algoritma (EM) merupakan metode yang digunakan untuk menemukan parameter-parameter
maximum likelihood dari distribusi himpunan data yang diketahui, jika himpunan data tersebut
incomplete atau mempunyai nilai yang hilang
(missing value). .
Pada beberapa permasalahan data incomplete , distribusi data lengkap (complete) Y dapat dihitung dengan :
E
E
E
|
|
;
|
n N n ny
Y
P
y
P
Y
P
Persamaan diatas dengan nilai
E
dapat dituliskan sebagai berikut :c
y
Y
P
y
l
Y
l
E
|
E
|
nlog
N n|
n,
E
dengan c adalah konstanta sembarang. Johnson dan Wichern (2002) menyatakan bahwa EM algoritma terdiri atas tahap prediksi (prediction step) tahap estimasi (estimation step) dan tahap maksimum
(maximation step).
2.7 Turunan matriks
Jika vektor»
»
»
»
¼
º
«
«
«
«
¬
ª
my
y
y
Y
2 1dan vektor
»
»
»
»
¼
º
«
«
«
«
¬
ª
nx
x
x
X
2 13
Maka didefinisikan :»
»
»
»
»
»
»
»
¼
º
«
«
«
«
«
«
«
«
¬
ª
w
w
w
w
w
w
w
w
w
w
w
w
w
w
w
w
w
w
w
w
n m n m n mx
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
X
Y
2 2 2 2 2 2 1 1 1 2 1 1Beberapa sifat turunan matriks :
1.Jika
y
f
x
Ax
makaA
x
f
c
w
w
danA
x
f
c
w
w
2.Jika A matriks persegi dan
y
f
x
x
c
Ax
sehingga
A
A
x
x
f
c
w
w
danx
A
A
x
f
c
c
w
w
3.Jika A matriks simetri maka
A
A
c
sehinggaAx
x
f
2
w
w
3.
PEMBAHASAN
Pada pembahasan berikut beberapa permasalahan akan dibahas yaitu mengestimasi fungsi likelihood untuk seluruh data Y teramati sehingga penduga parameternya maksimum, mengestimasi fungsi likelihood jika sebanyak n data sampel teramati dan mengestimasi fungsi likelihood
n
N
data yang tidak teramati3.1
Mengestimasi
Fungsi
Likelihood
Untuk Seluruh Data
Y
Teramati.
Pada teorema berikut akan dibuktikan jika data yang digunakan teramati seluruhnya berdistribusi normal ketika suatu populasi Y teramati seluruhnya, dan kemudian dicari penduga parameter E yang membuat fungsi likelihood maksimum .
Teorema 3.1
Jika diberikan fungsi likelihood yang berdistribusi
normal E E
S
E
e Y X V Y X V Y L N c 1 2 1 2 2 1 2 1 ;diamati sebanyak Y, maka penduga parameter akan maksimum jika
E
Ö XcV 1X 1XcV 1Y.Bukti :
Untuk mendapatkan
E
Ö
X
c
V
1X
1X
c
V
1Y
akan dicari fungsi likelihood dengan mengalikan terhadap logaritma natural, diperoleh sebagai berikut :E E
S
E
e
Y X V Y XV
Y
L
N c 1 2 1 2 2 12
1
ln
;
ln
»
¼
º
«
¬
ª
Ec ES
E
e
Y X V Y XV
Y
L
N 1 2 1 2 2 1ln
2
1
ln
;
ln
E E S NV Y X V Y X c 1 2 1 2 1 ln 2 1 2 (3.1.1) Selanjutnya mencari nilai penduga yang memakimumkan fungsi likelihood tersebut. Dilakukan dengan menurunkan parsial terhadap parameterE
, kemudian persamaan hasil turunan disamadengankan nol.Untuk turunan parsial
ln
L
E
;
Y
terhadap parameterE
adalah : E E E S w c w Y X V Y X V N 1 2 1 2 1 ln 2 1 2 E E E E S w c w w w X Y V X Y V N 1 2 1 2 1 ln 2 1 2 E E GE G X Y V X Y c ¸ ¹ · ¨ © § 1 2 1MLE diperoleh jika
ln
;
0
w
w
E
E
Y
L
atau 0 2 1 c 1 ¸ ¹ · ¨ © § E E GE G X Y V X YBerdasar sifat turunan matriks
y
f
x
x
c
Ax
maka
A
A
x
x
f
c
w
w
¸ ¹ · ¨ © § c w w E E E 2 Y X V 1 Y X 1 E X Y V V X ¸ ¹ · ¨ © § c c 1 1 2 1Karena
V
1 matriks simetris makaV
1c
juga simetriV
1V
1c
.JadiV
1V
1c
2
V
1. Dengan demikian , ¸ ¹ · ¨ © § c w w E E E 2 Y X V 1 Y X 14
E X Y V Xc 2 1 2 1 E X Y V Xc 1 E X V X Y V Xc 1 c 1Diperoleh persamaan karateristik : 0 1
1 c
cV Y XV XE
X ini ekivalen dengan :
Y V X X V Xc 1 E c 1 Maka ,
E
XcV 1X cXcV 1Y.Jadi, penduga parameter
E
yang memaksimumkan fungsi likelihood adalah :Y
V
X
X
V
X
1 1Ö
c
c
c
E
.Dengan demikian teorema terbukti.
3.2
Mengestimasi Fungsi
Likelihood
Jika
Sebanyak
N
Data Sampel Teramati
Misalkan dari populasi yang beranggotakan sebanyak N, tidak semuanya teramati. Berarti ada
GDWD \DQJ WLGDN WHUDPDWL DWDX KLODQJ µmissing¶
Misalkan data yang teramati hanya sebanyak n
dengan n < N. Berarti yang tidak teramati sebanyak
n
N
. Sehingga vektor Y dan V dapat dipartisi sebagai berikut :Fungsi likelihood dari
E
, didasarkan atas submatriks pengamatany
n adalah :»
¼
º
«
¬
ª
c
E
E
S
E
1 1 11 1 2 1 11 2 2 12
1
;
e
y
X
V
y
X
V
y
L
n n n nTeorema 3.2
Fungsi
L
E
;
y
n akan maksimum jikaE
E
Ö
dengan ny
V
X
X
V
X
1 111 1 1 1 11 1Ö
¸
c
¹
·
¨
©
§
c
E
. Bukti :Analog dengan bukti teoerma 3.1
Teorema berikut adalah ekspektasi (nilai harapan ) subvektor acak
Y
N n jika diberikan subvektory
ndan
E
.Teorema 3.3
>
Y
y
E
@
Ay
B
E
E
N n|
n,
n , dimanaA
V
21V
111 danB
X
2V
21V
111X
1 Bukti :Fungsi padat peluang Y dalam
y
n danY
N nadalah : » » ¼ º « « ¬ ª » ¼ º « ¬ ª c » » ¼ º « « ¬ ª
»
¼
º
«
¬
ª
2 1 1 22 21 12 11 2 1 2 1 2 1 22 21 12 11 22
,
P P P PS
Nn n n N n Y y V V V V Y y N n N ne
V
V
V
V
Y
y
f
» » ¼ º « « ¬ ª c » » ¼ º « « ¬ ª 2 1 1 2 1 2 1 2 1 2 1 11 2 2 P P P PS
Nn n n N n Y y V Y y N e K V denganK
V
22V
21V
111V
12 » ¼ º « ¬ ª 1 11 21 1 12 1 11 1 11 1 12 1 11 1 11 21 1 1 1 V V K V V V K V V V V K K V 2 1 11 1 2 1 2 1 2 112
,
E
S
P P c n n n y V y ne
V
y
f
sehingga, a y K a y n N n n N n ne
K
y
Y
f
c 1 2 1 2 1 2 /2
,
|
E
S
dengana
P
2V
21V
111y
nP
1 . Dengan demikian,>
@
1 1 11 21 2,
|
nE
P
nP
n Ny
V
V
y
Y
E
X
2E
V
21V
111y
nX
1E
1 1 11 21 2 1 11 21V
y
X
V
V
X
V
nE
KarenaA
V
21V
111 danB
X
2V
21V
111X
1, makaE
>
Y
N n|
y
n,
E
@
Ay
nB
E
Dengan demikian teorema terbukti.
3.3
Mengestimasi
fungsi
likelihood
n
N
data yang tidak teramati jika
diberikan data termati.
Dari penduga
E
pada teorema 3.2 dan nilai harapanY
N n diberikany
n danE
pada teorema 3.3, kita definisikan suku barisanE
p sebagai berikut : 1 pE
1 1 1 11 1)
(
X
c
V
X
X
1V
111»
¼
º
«
¬
ª
p n nB
Ay
y
E
Dimana
E
p matriks yang entrinya sembarang bilangan. Selanjutnya klaim :Jika V 1
¦
» » ¼ º « « ¬ ª¦
¦
¦
¦
22 21 12 11 maka : 1 11 21 1 12 1 11 21 22 12 1 11 1 11 11¦
V V V V V V V V V 1 12 1 11 21 22 12 1 11 12¦
V V V V V V 1 12 1 11 21 22 12 1 11 12¦
V V V V V V (3.1.5)¦
¦
21 12c5
Bukti (3.1.5) telah dibuktikan dalam AppliedMultivariate Statistical Analysis [4, hal. 170] oleh Johnson dan Wichern .
Didefenisikan vektor yang entri ± entrinya adalah fungsi dalam
E
sebagai berikut :»
¼
º
«
¬
ª
¸
¹
·
¨
©
§
c
E
E
B
Ay
y
V
X
X
V
X
H
n n 1 11 1 1 1 1 11 1Jelas bahwa limit dari barisan
E
p untukf
o
p
adalah titik tetap dari fungsiH
E
. Selanjutnya akan ditunjukkan bahwa pendugaE
dari titik tetap fungsiH
E
adalah tunggal yaituE
Ö
.Teorema 3.4
ny
V
X
X
V
X
H
1 111 1 1 1 11 1Ö
¸
¹
·
¨
©
§
c
E
E
adalah tunggal. Bukti: MisalkanQ
X
c
V
1X
Maka,¦
c
¦
c
¦
c
c
2 2 1 21 2 12 1 1 11 1X
X
X
X
X
X
X
Q
Sebuah titik (nilai)
E
merupakan sebuah titik tetap jika dan hanya jika :E E X A X A y X X B Q n ¸ ¹ · ¨ © § c c »¼ º «¬ ª c
¦ ¦
c¦ ¦
¦
¦
22 2 12 1 22 21 2 12 11 1Ini ekivalen dengan :
n y A X A X B X X Q »¼ º «¬ ª c c ¿ ¾ ½ ¯ ® - ¸ ¹ · ¨ © § c
¦
c¦
¦ ¦
¦ ¦
21 22 2 11 12 1 12 2 22 1 ESelanjutnya dari (3.1.5) diperoleh:
n y V X X V X X V X X V X 1 111 1 1 1 11 1 1 1 11 1 1 1 1 11 1 ¨©§ ¸¹· c ¸ ¹ · ¨ © § c ¸ ¹ · ¨ © § c E
Sehingga,
E
Ö
adalah titik tetap yang tunggal dan konvergen keE
. Dengan demikian teorema terbukti.4.
PENUTUP
4.1 Simpulan
Berdasarkan rumusan masalah dan hasil pembahasan sebelumnya, diperoleh beberapa kesimpulan sebagai berikut :
1. Mengestimasi fungsi likelihood untuk seluruh data
Y teramati sehingga penduga parameternya maksimum dapat diperoleh dengan metode maksimum likelihood.
2. Penduga parameter untuk seluruh data teramati dan yang sebagian teramati ternyata berbeda.
3. Untuk mengestimasi nilai harapan bersyarat dibutuhkan data teramati
y
n dan parameter. 4. Limit dari barisanE
p untukp
o
f
adalahtitik tetap dari fungsi
H
E
dan pendugaE
dari titik tetap fungsiH
E
adalah tunggal.4.2 Saran
Dalam penelitian ini penulis hanya membahas tentang mengestiamsi parameter yang membuat fungsi likelihood maksimum dengan menggunakan maximum likelihood dan pendekatan algoritma EM. Bagi para pembaca yang tertarik mengembangkan dapat menggunakan metode lain.
DAFTAR PUSTAKA
[1]
Anderson , T.W. An Introduction To Multivariate Statistical Analysis. Second Edition.[2]
Dempster , A. P., Laird, N.M dan Rubin, D.B. (1977) Maximum Likelihood From Incomplete Data Via The EM Algorithm (with discssion). Journal of the Royal Statistical Society, Series B, 1-38 .249-261.[3]
Howell , David . C. .Pengobatan Data Hilang. (Online),(file:///E:/science%20direc%20missin% 20value/hub/pengobatan%20dt%20hilang.htm) (diakses 31 Maret 2012).[4]
Johnson , Richard. A. dan Wichern , Dean W.Applied Multivariate Statistical Analysis, Sixth Edition. Madison : University of Wisconsin and Texas A & M University.
[5]
Litte , R.J.A and Rubin , D.B (2002) . Statistical Analysis Missing Data. Wiley Series in Probability and Statistic. Wiley-Interscience [Jhon Wiley & Sons], Hoboken , NJ, Second Edition.[6]
Mayann, Hill, Tanpa tahun. SPSS Missing Value Analysis 7.5. (Online),(http://www. spss.com ) (diakses senin, 8 oktober 2012).[7]
Schafer, J.L. (1997) Analysis of IncompleteMultivariate Data. Chapman & Hall, London.Department Of Statistics The Pennsylvania State University USA.
[8]
Zacs, S. Dan Rodriguez, Josemar. (1986) A Note On The Missing Value Principle And The EM-Algorithm For Estimation And Prediction In Sampling From Finite Populations With A Multinormal Superpopulation Model. Journal Of The Royal Statistics & Probability Letters 4 (1986) 35-37 North ± Holland.