DATA KOSONG DAN IMPUTASI GANDA

(1)

(2)

(3)

DATA KOSONG DAN

IMPUTASI GANDA

Johan Harlan

(4)

Data Kosong dan Imputasi Ganda

Penulis : Johan Harlan

ISBN 978-602-9438-53-6

Cetakan Pertama, Januari 2016

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma

Jl. Margonda Raya No. 100, Pondokcina, Depok 16424

Telp. +62-21-78881112 Faks. +62-21-7872829

e-mail : [email protected]

Hak cipta dilindungi undang-undang. Dilarang mengutip

atau memperbanyak dalam bentuk apapun sebagian atau

seluruh isi buku tanpa ijin tertulis dari penerbit.

(5)

v

KATA PENGANTAR

Buku ini membahas mengenai data kosong (missing data) dan metode penanganannya secara kontemporer, yaitu imputasi ganda (multiple imputation). Data kosong merupakan masalah lama bidang penelitian, sama usianya dengan riwayat pengumpulan data sendiri untuk penelitian, sebaliknya imputasi ganda adalah teknik statistik yang praktis baru berkembang dalam tiga dekade terakhir. Perkembangan teknik imputasi ganda dimungkinkan oleh kemajuan mutakhir di bidang Informatika dan Ilmu Komputer, dan perkembangan ini masih diharapkan untuk berlanjut dan mengalami penyempurnaan di masa mendatang.

Teknik imputasi ganda terutama bermanfaat untuk data survei yang berukuran besar, walaupun dapat juga dimanfaatkan dalam studi eksperimental. Data survei biasa dikumpulkan dalam jumlah besar dengan biayanya umumnya lebih rendah daripada studi eksperimental. Pada studi eksperimental dengan biaya yang biasanya lebih besar pengumpulan data umumnya dilakukan secara lebih giat sehingga umumnya jarang didapatkan data kosong.

Pembaca buku ini diharapkan sedikit banyak telah memiliki penguasaan mengenai dasar-dasar model regresi. Penulis mencoba membahas beberapa aspek dasar mengenai kekosongan data dan teknik imputasi ganda dengan menggunakan program statistik Stata secara sederhana, tetapi diharapkan dapat memberi bekal dasar bagi pembaca untuk mendalami mengenai topik tersebut.

Jakarta, Januari 2016

(6)

vi

DAFTAR ISI

Kata Pengantar v Daftar Isi vi Bab I Pendahuluan 1 Data Kosong 1 Imputasi Data 2

Bab II Tipe Kekosongan 7

MCAR 7

MAR 8

MNAR 8

Bab III Solusi Tradisional: Delesi Data 15

Listwise Deletion 15

Pairwise Deletion 17

Bab IV Solusi Tradisional: Imputasi Tunggal 19

Imputasi Rerata 19

Imputasi Regresi 21

Imputasi Regresi Stokastik 24

Last Observation Carried Forward 25

Bab V Imputasi Ganda Univariat 26

Pengertian Imputasi Ganda 26

Tahap-Tahap Imputasi Ganda 27

Pelaksanaan Imputasi Ganda Univariat dengan STATA 28

Bab VI Imputasi Ganda Multivariat: Model Normal Multivariat 36

Imputasi Ganda dengan Model Normal Multivariat 36

Pembentukan File mi 36

Imputasi Data Kosong 40

(7)

vii

Bab VII Imputasi Ganda Multivariat: Metode Persamaan Berantai

43

Tahap Persiapan 43

Pembentukan Dataser mi 44

Imputasi Data Kosong 46

Estimasi Parameter 47

Kepustakaan 49

(8)

(9)

1

BAB I

PENDAHULUAN

Data Kosong

Dalam pemrosesan dan analisis data seringkali didapatkan adanya variabel yang nilainya kosong untuk satu atau beberapa subjek penelitian, yang dikenal sebagai data kosong (missing data).

Data kosong dibedakan menjadi:

a. Data kosong terencana (planned missing data).

Kekosongan data direncanakan dengan sengaja oleh peneliti sesuai desain penelitian (lihat tabel 1.1).

Alasannya antara lain karena jumlah pertanyaan dalam kuesioner terlalu banyak, pengumpulan data tertentu menggunakan pemeriksaan dengan biaya yang sangat mahal, dan sebagainya.

Tabel 1.1 Pola Data Kosong untuk Rancangan Tiga-Form

Set item

Form X A B C

1 √ − √ √

2 √ √ − √

3 √ √ √ −

Catatan: Tanda cek menyatakan data lengkap

b. Data kosong tak terencana (unplanned missing data).

Bentuk ini yang selanjutnya akan dibahas di sini.

Data kosong tak terencana dapat terjadi antara lain karena:

- Ketidakberhasilan mendapatkan data dari subjek penelitian, misalnya isi kuesioner tidak lengkap karena ada item yang dengan sengaja ataupun tak sengaja tak diisi oleh responden.

(10)

2

- Data tercatat mungkin sengaja dihapus karena nilainya berada di luar rentang kewajaran, sedangkan pengecekan ulang terhadap subjek penelitian tidak dapat dilakukan.

- Pada data sekunder, data kosong merupakan hasil kerja pihak lain yang semula mengumpulkannya sebagai data primer, yang umumnya tidak dapat ditelusuri lagi penyebab kekosongannya oleh pengguna data sekunder.

Imputasi Data

Standar umum di waktu lampau ialah menghapus responden (record) dengan data kosong dari dataset. Hand et al (1994) mengumpulkan 510 dataset dari literatur statistik; hanya 13 di antaranya yang menyertakan pedoman yang digunakan untuk menangani data kosong. Pada sebagian besar kasus, masalah data kosong telah “dipecahkan” dengan cara tertentu, tanpa penjelasan seberapa banyak entri kosong yang semula ada.

Jika jumlah responden dengan data kosong yang dihapus dari dataset relatif kecil, misalkan hanya 1% dari keseluruhan responden semula, hasil akhir dapat dikatakan praktis tak terpengaruh, sebaliknya jika jumlah responden yang dihapus besar, misalkan 50% dari keseluruhan responden semula, hasil akhir yang diperoleh dapat bersifat sangat bias. Terbuangnya data pada entri terisi tetapi dihapus akan menurunkan efisiensi penelitian.

Upaya untuk mengatasi data kosong antara lain ialah melakukan imputasi (to

impute = to fill in) entri kosong, sehingga responden dengan entri yang semula kosong tidak perlu dihapus untuk analisis. Untuk analisis regresi, sebagian ahli Statistika berpendapat bahwa imputasi hanya diperlukan untuk variabel independen dan tidak diperlukan untuk variabel dependen, namun sebagian besar ahli lain tidak sepakat dan berpendapat setiap variabel dengan entri kosong memerlukan imputasi.

Contoh 1.1

Dalam contoh ini dilakukan perbandingan hasil analisis regresi terhadap 3

datasets:

(11)

3

- hsb2_mar.dta: Memuat data hsb2 dengan sebagian berupa entri kosong, yang setelah menjalani listwise deletion, menyisakan dataset cc (complete

cases) yang hanya memuat 145 kasus dengan entri lengkap.

- mvn_imputation.dta: Berasal dari data hsb2_mar yang telah menjalani persiapan seperlunya, siap untuk menjalani proses imputasi ganda. Setelah menjalani imputasi diperoleh dataset mi (multiple imputation).

. use D:\Data\hsb2.dta, clear

(highschool and beyond (200 cases))

Perintah STATA untuk membuka (use) file hsb2.dta yang memuat entri lengkap untuk 200 kasus dan membersihkan (clear) memori dari semua hasil analisis terdahulu (jika ada).

. sum

Perintah sum (summarize) adalah untuk menampilkan ringkasan nilai-nilai statistik tiap variabel.

. regress socst write read female math

Perintah STATA ini adalah untuk meregresikan variabel dependen socst

(12)

4

Source | SS df MS Number of obs = 200 ---+--- F( 4, 195) = 44.45 Model | 10938.9795 4 2734.74487 Prob > F = 0.0000 Residual | 11997.2155 195 61.5241822 R-squared = 0.4769 ---+--- Adj R-squared = 0.4662 Total | 22936.195 199 115.257261 Root MSE = 7.8437 --- socst | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+--- write | .3757491 .0852101 4.41 0.000 .2076975 .5438007 read | .3696825 .0775725 4.77 0.000 .2166938 .5226712 female | -.2340534 1.207995 -0.19 0.847 -2.616465 2.148358 math | .1209005 .0861526 1.40 0.162 -.0490101 .2908111 _cons | 7.029076 3.562453 1.97 0.050 .003192 14.05496 ---

. estimates store full

Perintah STATA ini adalah untuk menyimpan hasil estimasi terhadap

datasetfull yang terdiri atas 200 kasus.

. use D:\Data\hsb2_mar, clear

(highschool and beyond (200 cases))

. sum

(13)

5

---+--- socst | 200 52.405 10.73579 26 71

. regress socst write read female math

Source | SS df MS Number of obs = 145 ---+--- F( 4, 140) = 28.10 Model | 6630.7694 4 1657.69235 Prob > F = 0.0000 Residual | 8259.47888 140 58.9962777 R-squared = 0.4453 ---+--- Adj R-squared = 0.4295 Total | 14890.2483 144 103.404502 Root MSE = 7.6809 --- socst | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+--- write | .3212789 .1020247 3.15 0.002 .1195706 .5229871 read | .3047733 .0899709 3.39 0.001 .1268961 .4826505 female | .2233572 1.404163 0.16 0.874 -2.552749 2.999463 math | .1988131 .1016747 1.96 0.053 -.0022031 .3998294 _cons | 9.358279 4.262397 2.20 0.030 .9312916 17.78527 --- . estimates store cc

. use D:\Data\mvn_imputation, clear

. mi estimate, post: reg socst write read female math

Multiple-imputation estimates Imputations = 5 Linear regression Number of obs = 200 Average RVI = 0.0820 Largest FMI = 0.2201 Complete DF = 195 DF adjustment: Small sample DF: min = 59.71 avg = 121.37 max = 181.12 Model F test: Equal FMI F( 4, 163.6) = 38.78 Within VCE type: OLS Prob > F = 0.0000

(14)

6

. estimates table cc full mi, b se p

Perintah untuk menyajikan tabel perbandingan hasil estimasi koefisien regresi b, SE-nya, dan nilai p-nya untuk model cc, full, dan mi.

--- Variable | cc full mi ---+--- write | .32127885 .3757491 .34721159 | .10202467 .08521005 .09562376 | 0.0020 0.0000 0.0004 read | .30477331 .36968249 .36738221 | .08997086 .07757247 .08033285 | 0.0009 0.0000 0.0000 female | .22335724 -.23405342 .52537204 | 1.4041631 1.2079946 1.3751758 | 0.8738 0.8466 0.7028 math | .19881314 .12090052 .15085228 | .10167466 .08615264 .09088836 | 0.0525 0.1621 0.0986 _cons | 9.358279 7.0290761 6.5974704 | 4.2623968 3.5624529 3.7079453 | 0.0298 0.0499 0.0768 --- legend: b/se/p

(15)

7

BAB II

TIPE KEKOSONGAN

Rubin (1976) mengemukakan teori tentang kekosongan data, yaitu setiap

titik data memiliki peluang tertentu untuk kosong.

Berdasarkan teori ini, tipe-tipe kekosongan dibedakan atas MCAR (missing

completely at random), MAR (missing at random), dan MNAR (missing not at

random).

MCAR (missing completely at random)

Data kosong tergolong dalam tipe MCAR (missing completely at random) jika peluang untuk kosong sama pada setiap titik data, yaitu untuk tiap subjek penelitian pada variabel tertentu. Kekosongan tidak memiliki asosiasi dengan salah satu variabel dalam dataset.

Untuk pembahasan selanjutnya mengenai tipe-tipe kekosongan data akan digunakan contoh data pada tabel 2.2 pada contoh 2.2.

Misalkan dimiliki matriks n× p Y yang memuat nilai-nilai data:

n menyatakan jumlah subjek dan

p menyatakan jumlah variabel;

dan misalkan pula R adalah matriks indikator respons biner n×p (lihat contoh 2.4);

ij

r = 1 jika entri terisi dan ij

r = 0 jika entri kosong.

i = 1, 2, . . . , n dan j = 1, 2, . . . , p

Data terisi secara kolektif dinyatakan dengan

obs

Y dan data kosong secara kolektif dinyatakan dengan Y_miss. Secara bersama, Y =

(

Y_obs,Y_miss

)

menyatakan keseluruhan nilai data, maka:

Relasi distribusi R terhadap Y =

(

, _miss

)

obs

Y Y dinyatakan sebagai model

(16)

8

Misalkan ψ adalah parameter model data kosong, maka model tersebut dapat dinyatakan sebagai P R Y

(

| _obs,Y_miss,

ψ

)

.

Jika data MCAR, maka:

(

0| , _miss,

)

obs

P R= Y Y

ψ

= (

P R=0 |ψ

₎

; (2.1)

MAR (missing at random)

Data kosong tergolong dalam tipe MAR (missing at random) jika peluang untuk kosong sama pada tiap anggota dalam suatu kelompok tertentu, tetapi tidak sama antar anggota kelompok berbeda.

Kekosongan di sini memiliki asosiasi dengan satu atau lebih variabel dalam

dataset, yaitu variabel yang menghasilkan pembagian kelompok-kelompok tersebut. Sebagai contoh, pada pengumpulan data dengan kuesioner, pria umumnya memiliki kecenderungan yang lebih besar untuk tidak menjawab dibandingkan dengan wanita (asosiasi dengan variabel gender).

Dengan pemahaman yang sama terhadap matriks indikator R, data terisi kolektif

obs

Y , data kosong kolektif Y_miss, dan parameter model data kosong ψ, jika data MAR maka:

(

0| , _miss,

)

obs

P R= Y Y

ψ

=

(

0 | ,

)

obs

P R= Y

ψ

(2.2)

MNAR (missing not at random)

Pada data kosong tipe MNAR (missing not at random), asumsi MCAR maupun MAR tidak berlaku dan kekosongan tidak terjadi secara acak.

Dengan pemahaman yang sama terhadap matriks indikator R, data terisi kolektif Y_obs, data kosong kolektif Y_miss, dan parameter model data kosong ψ, jika data MNAR maka:

(

0| _obs, _miss,

)

P R= Y Y

ψ

(2.3)

(17)

9

Contoh 2.1:

Dataset pada tabel 2.1 memuat data sejumlah calon karyawan (dan sebagian yang lolos seleksi selanjutnya menjadi karyawan). Variabelnya yaitu nilai tes IQ dan kepuasan psikologis (psychological well-being) pada saat seleksi. Mereka yang nilai IQ lebih daripada 98 diterima menjadi karyawan dan setelah 6 bulan bekerja dinilai kinerjanya (job performance).

Kekosongan data pada psychological well-being disebabkan tak lengkapnya pengisian kuesioner pada saat seleksi yangterjadi secara acak, tak memiliki asosiasi dengan nilai IQ, sehingga kekosongan data ini psychological well-being tergolong dalam MCAR. Sebaliknya, data kosong untuk job performance terjadi karena yang bersangkutan tidak diterima menjadi karyawan karena nilai IQ-nya rendah, sehingga kekosongannya terkait dengan nilai IQ dan kekosongan data job performance ini tergolong dalam MAR.

Tabel 2.1 Dataset Seleksi Karyawan

IQ Psychological

well-being Job performance

78 13 − 84 9 − 84 10 − 85 10 − 87 − − 91 3 − 92 12 − 94 3 − 94 13 − 96 − − 99 6 7 105 12 10 105 14 11 106 10 15 108 − 10 112 10 10 113 14 12 115 14 14

(18)

10

118 12 16

134 11 12

(Enders, 2010)

Contoh 2.2:

Contoh berikutnya adalah data mengenai kelompok responden yang sama, diperlihatkan pada tabel 2.2. Data kinerja (job performance) terdiri atas yang lengkap (complete; diandaikan seluruh calon diterima), MCAR (misalnya sebagian karyawan mengundurkan diri, pengunduran diri tak terkait nilai IQ), MAR (calon karyawan yang diterima hanya yang nilai IQ-nya di atas 90), dan MNAR (misalnya karyawan yang menunjukkan kinerja buruk di bawah 9 telah dikeluarkan, sehingga kekosongan terkait dengan nilai kinerja itu sendiri).

Tabel 2.2 Rating Kinerja dengan Nilai Kosong MCAR, MAR, dan MNAR

Job performance ratings

IQ Complete MCAR MAR MNAR

78 9 − − 9 84 13 13 − 13 84 10 − − 10 85 8 8 − − 87 7 7 − − 91 7 7 7 − 92 9 9 9 9 94 9 9 9 9 94 11 11 11 11 96 7 − 7 − 99 7 7 7 − 105 10 10 10 10 105 11 11 11 11 106 15 15 15 15 108 10 10 10 10 112 10 − 10 10 113 12 12 12 12 115 14 14 14 14 118 16 16 16 16

(19)

11

134 12 − 12 12

(Enders, 2010)

Contoh 2.3:

Lihat data pada tabel 2.2, beberapa nilai statistik untuk dataset lengkap, MCAR, MAR, dan MNAR diperlihatkan pada tabel 2.3.

Tabel 2.3 Beberapa Nilai Statistik Dataset Lengkap, MCAR, MAR, dan MNAR dari Tabel 2.2

Data n Rerata Variansi SD

Lengkap 20 10.35 7.19 2.68

MCAR 15 10.60 8.54 2.92

MAR 15 10.67 7.81 2.79

MNAR 15 11.40 4.97 2.23

Perbandingan karakteristik estimator hasil analisis dataset yang memiliki data kosong dengan listwise deletion (menghapus data seluruh responden yang memiliki entri kosong; complete cases analysis) dan imputasi ganda diperlihatkan pada tabel 2.4 berikut.

Tabel 2.4 Karakteristik estimator menurut tipe kekosongan dan metode solusinya

Tipe kekosongan

No Metode MCAR MAR MNAR

1 Complete cases analysis Tak bias Bias Bias

2 Imputasi ganda Tak bias Tak bias Bias*)

*) Tak bias jika peneliti mampu menginklusikan model mekanisme kekosongan MNAR dalam metode imputasi

(20)

12

Contoh 2.4:

Adakalanya diperlukan indikator untuk menunjukkan keberadaan entri kosong. Contoh untuk itu diperlihatkan pada tabel 2.5, yang menyajikan contoh indikator entri kosong untuk kinerja MAR. Indikator bernilai 0 jika entri kosong dan sama dengan 1 jika entri terisi.

Tabel 2.5 Indikator Data Kosong untuk Rating Kinerja MAR

Job performance

Complete MAR Indicator

9 − 0 13 − 0 10 − 0 8 − 0 7 − 0 7 7 1 9 9 1 9 9 1 11 11 1 7 7 1 7 7 1 10 10 1 11 11 1 15 15 1 10 10 1 10 10 1 12 12 1 14 14 1 16 16 1 12 12 1 (Enders, 2010)

(21)

13

Contoh 2.5 (Uji statistik):

Uji statistik dapat dilakukan untuk menguji apakah kekosongan data yang dimiliki MCAR atau MAR.

Misalkan untuk variabel IQ dan MCAR pada tabel 2.2, subjek dibagi menjadi 2 kategori, yaitu yang entri data MCAR-nya kosong (R = 0) dan yang entri data MCAR-nya terisi (R = 1), lalu dilakukan perbandingan rerata nilai IQ antara kedua kategori tersebut dengan uji t.

Jika rerata IQ antara kedua kategori tidak berbeda, data tersebut adalah MCAR, sebaliknya jika rerata IQ antara kedua kategori berbeda, data itu adalah MAR.

. use “D:\Data\table 2.2”, clear . list in 1/10 +---+ | id iq jp ind | |---| 1. | 1 78 . 0 | 2. | 2 84 13 1 | 3. | 3 84 . 0 | 4. | 4 85 8 1 | 5. | 5 87 7 1 | |---| 6. | 6 91 7 1 | 7. | 7 92 9 1 | 8. | 8 94 9 1 | 9. | 9 94 11 1 | 10. | 11 96 . 0 | +---+

(22)

14

. ttest iq, by(ind)

Two-sample t test with equal variances

--- Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---+--- 0 | 5 100.8 10.13114 22.65392 72.67145 128.9286 1 | 15 99.73333 2.874298 11.13211 93.56858 105.8981 ---+--- combined | 20 100 3.158947 14.12724 93.38825 106.6118 ---+--- diff | 1.066667 7.490966 -14.67127 16.8046 --- diff = mean(0) - mean(1) t = 0.1424 Ho: diff = 0 degrees of freedom = 18 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.5558 Pr(|T| > |t|) = 0.8884 Pr(T > t) = 0.4442

Tampak bahwa antara rerata IQ kedua kategori tidak ditemukan perbedaan yang bermakna (p = 0.89), maka data tersebut adalah MCAR.

Uji statistik tidak dapat dilakukan untuk MNAR, karena yang harus diperbandingkan adalah rerata kinerja MNAR terisi dengan rerata kinerja MNAR kosong, sedangkan data untuk rerata kinerja MNAR itu tidak ada (kosong).

(23)

15

BAB III

SOLUSI TRADISIONAL: DELESI DATA

Listwise Deletion

Setiap subjek (responden) yang entri datanya tidak lengkap dieliminasi dari

dataset, sehingga analisis data hanya akan dilakukan terhadap himpunan kasus yang lengkap entri datanya.

Dalam pembahasan beberapa metode tradisional untuk menangani kekosongan data akan digunakan dataset pada tabel 3.1 dan diagram tebarnya pada gambar 3.1.

Tabel 3.1 Dataset Seleksi Karyawan

Complete data Missing data

Job Job IQ performance performance 78 9 − 84 13 − 84 10 − 85 8 − 87 7 − 91 7 − 92 9 − 94 9 − 94 11 − 96 7 − 99 7 7 105 10 10 105 11 11 106 15 15 108 10 10 112 10 10 113 12 12 115 14 14 118 16 16 134 12 12

(24)

(Enders, 2010)

Gambar 3.

Diagram tebar listwise deletion gambar 3.2.

16

3.1 Diagram tebar data lengkap IQ dan

skor kinerja pada Tabel 5

(25)

Gambar 3.2 Diagram tebar

Beberapa nilai statistik diperlihatkan pada tabel 3.2

Tabel 3.2 Beberapa Nilai Statistik

Data n

Lengkap 20

LD 10

Dengan asumsi data MCAR

rerata, variansi, dan koefisien regresi yang Jika data bukan MCAR,

parah pada estimasi rerata, koefisien regresi, dan korelasi.

Pairwise Deletion

Metode ini terutama

variabel, misalnya nilai korelasi dan kovariansi.

17

Diagram tebar listwise deletion terhadap dataset Beberapa nilai statistik dataset lengkap dan listwise deletion

berikut.

Beberapa Nilai Statistik Dataset Lengkap Tabel 5 dan

Deletion-nya

Rerata Variansi SD

10.35 7.19 2.68

11.70 7.34 2.71

data MCAR, listwise deletion akan menghasilkan estimasi

rerata, variansi, dan koefisien regresi yang tak-bias.

Jika data bukan MCAR, listwise deletion dapat menimbulkan bias yang parah pada estimasi rerata, koefisien regresi, dan korelasi.

terutama digunakan pada estimasi statistik untuk pasangan variabel, misalnya nilai korelasi dan kovariansi.

dataset tabel 5

listwise deletion tabel 3.1

Lengkap Tabel 5 dan Listwise

SD 2.68 2.71

akan menghasilkan estimasi dapat menimbulkan bias yang

(26)

18

Untuk perhitungan korelasi tiap pasangan variabel, digunakan tiap nilai pasangan subjek yang utuh, sehingga setiap nilai pada matriks korelasi yang diperoleh mungkin berasal dari himpunan bagian (subset) data yang berbeda, karena pada perhitungan tiap korelasi antar dua variabel, pasangan subjek yang dieliminasi karena salah satu atau kedua entrinya kosong mungkin berbeda.

Metode ini valid jika asumsi MCAR benar. Sepintas lalu, metode tampak lebih menarik dibandingkan dengan listwise deletion, karena mengurangi jumlah data yang dihapus, namun jika diperlukan untuk mem-pooled sejumlah analisis yang dilakukan akan timbul masalah karena ukuran sampel yang berbeda untuk tiap analisis yang dilakukan. Dalam praktik, pairwise deletion umumnya dihindari dan lebih jarang digunakan dibandingkan dengan listwise deletion.

(27)

19

BAB IV

SOLUSI TRADISIONAL:

IMPUTASI TUNGGAL

Imputasi Rerata (mean imputation)

Pada variabel yang memiliki entri kosong, dihitung rerata untuk semua entri terisi, lalu nilai rerata ini diimputasikan (diisikan) pada setiap entri kosong pada variabel tersebut.

Perintah STATA untuk data terisi pada tabel 3.1:

. use “D:\Data\table 3.1”, clear . list in 1/10 +---+ | iq jp | |---| 1. | 99 7 | 2. | 105 10 | 3. | 105 11 | 4. | 106 15 | 5. | 108 10 | |---| 6. | 112 10 | 7. | 113 12 | 8. | 115 14 | 9. | 118 16 | 10. | 134 12 | +---+

(28)

. mean jp

Mean estimation Number of obs = 10 | Mean Std. Err. [95% Conf. Interval] JP | 11.7 .8569973 9.761337 13.63866 ---Nilai rerata 11.7 diimputasikan ke setiap entri kosong untuk JP. tebar hasil imputasi rerata terhadap

berikut.

Gambar 4.1 Diagram tebar hasil imputasi rerata terhadap

Jika asumsi data MCAR

estimasi rerata yang valid, namun bias pada hampir semua estimasi parameter lainnya.

Jika data bukan MCAR, estimasi rerata bersifat bias. Secara umum,

variansi yang diperoleh selalu

20

Mean estimation Number of obs = 10 ---| Mean Std. Err. [95% Conf. Interval] ---JP | 11.7 .8569973 9.761337 13.63866 ---Nilai rerata 11.7 diimputasikan ke setiap entri kosong untuk JP.

tebar hasil imputasi rerata terhadap dataset tabel 3.1 diperlihatkan pada gambar

Diagram tebar hasil imputasi rerata terhadap dataset

asumsi data MCAR berlaku, dengan imputasi rerata akan diperoleh

, namun bias pada hampir semua estimasi parameter

Jika data bukan MCAR, estimasi rerata bersifat bias. Secara umum, yang diperoleh selalu lebih kecil daripada seharusnya.

Mean estimation Number of obs = 10 --- | Mean Std. Err. [95% Conf. Interval] --- JP | 11.7 .8569973 9.761337 13.63866 ---

Nilai rerata 11.7 diimputasikan ke setiap entri kosong untuk JP. Diagram diperlihatkan pada gambar 4.1

dataset tabel 3.1 berlaku, dengan imputasi rerata akan diperoleh , namun bias pada hampir semua estimasi parameter

(29)

21

Imputasi Regresi

Variabel (-variabel) yang memiliki entri kosong masing-masing diregresikan terhadap seluruh variabel yang entrinya lengkap terisi. Persamaan regresi yang diperoleh digunakan untuk memprediksi nilai-nilai pada entri kosong dan diimputasikan ke situ.

Perintah STATA:

. regress jp iq

Diperoleh persamaan regresi: JP = −2.065 + 0.123 IQ

Selanjutnya persamaan ini digunakan untuk memprediksi entri-entri kosong JP (kolom ke-3 tabel 4.1).

Misalnya: IQ = 78 JP = −2.065 + 0.123 (78) = 7.53

IQ = 84 JP = −2.065 + 0.123 (84) = 8.27

(30)

22

Tabel 4.1 Imputasi Regresi Data Seleksi Karyawan

IQ Job performance Predicted score Random residual Stochastic imputation 78 − 7.53 −2.47 5.06 84 − 8.27 −0.75 7.52 84 − 8.27 2.18 10.45 85 − 8.39 2.22 10.61 87 − 8.64 −3.14 5.50 91 − 9.13 2.44 11.57 92 − 9.25 0.44 9.69 94 − 9.50 −3.43 6.07 94 − 9.50 −2.97 6.53 96 − 9.74 6.49 16.23 99 7 − − − 105 10 − − − 105 11 − − − 106 15 − − − 108 10 − − − 112 10 − − − 113 12 − − − 115 14 − − − 118 16 − − − 134 12 − − −

Catatan. Persamaan regresi untuk menghasilkan nilai prediksi:

i

JP = −2.025 0.123+

( )

IQ_i (Enders, 2010)

Perhatikan kembali bahwa variabel (-variabel) yang memiliki entri kosong masing-masing harus diregresikan terhadap seluruh variabel yang entrinya terisi lengkap. Pada tabel 4.2 diperlihatkan contoh dataset dengan 3 variabel Y1, Y2, dan

Y3, serta model regresi yang harus digunakan, sesuai dengan variabel mana yang

(31)

Tabel 4.2 Pola Data Kosong dan Persamaan yang digunakan untuk Missing variables Y1 Y2 Y3 Y1and Y2 Y1 and Y3 Y2 and Y3 (Enders, 2010)

Diagram tebar hasil imputasi regresi terhadap pada gambar 4.2.

Gambar 4.2

23

Pola Data Kosong dan Persamaan yang digunakan untuk Imputasi Regresi Regression equations 1 ˆy = 0 B + 1 B 2 y + 2 B 3 y 2 ˆy = 0 B + 1 B 1 y + 2 B 3 y 3 ˆy = 0 B + 1 B 1 y + 2 B 2 y 1 ˆy = 0 B + 1 B 3 y 2 ˆy = 1 ˆy = 0 B + 1 B 2 y 3 ˆy = 2 ˆy = 0 B + 1 B 1 y 3 ˆy =

Diagram tebar hasil imputasi regresi terhadap dataset tabel 3.1

.2 Diagram tebar imputasi regresi data IQ

dan kinerja dari tabel 3.1

Pola Data Kosong dan Persamaan yang digunakan untuk

Regression equations 3 y 3 y 2 y = 0 B + 1 B 3 y = 0 B + 1 B 2 y = 0 B + 1 B 1 y 3.1 diperlihatkan

(32)

24

Imputasi Regresi Stokastik

Pada imputasi regresi stokastik, nilai prediksi persamaan regresi tidak langsung diimputasikan pada entri kosong dataset, melainkan ditambahkan dulu dengan estimasi residualnya. Residual diperoleh dari simulasi Monte Carlo dengan asumsi residual berdistribusi normal dengan rerata nol dan variansi diestimasikan oleh variansi residual model regresi.

Misalkan estimasi variansi residual model regresi adalah 6.6499 (lihat nilai MS Residual pada hasil perintah regress di atas), sehingga SD adalah 2.5788, maka perintah STATA adalah:

. clear . set obs 10

obs was 0, now 10

. set seed 12345

Nilai seed boleh sembarang, tetapi perlu dicatat untuk memperoleh hasil yang sama jika analisis perlu diulangi.

. generate z = rnormal(0, 2.5788)

Ini adalah perintah untuk menghasilkan 10 nilai acak (set obs 10) dari distribusi normal (rnormal) dengan rerata 0 dan SD 2.5788.

. list +---+ | z | |---| 1. | -2.470705 | 2. | -.749728 | 3. | 2.179607 | 4. | 2.22218 | 5. | -3.143945 | |---| 6. | 2.438858 | 7. | .4441902 | 8. | -3.429672 | 9. | -2.973124 | 10. | 6.489448 |

(33)

+---Diagram tebar hasil imputasi regresi stokastik terhadap diperlihatkan pada gambar 4.3

Gambar 4.3 Diagram tebar imputasi regresi stokastik data IQ

dan kinerja

Last Observation Carried Forward

Metode ini khusus untuk penggunaannya diperlihatkan pada tabel

Tabel 4.3 Dataset Longitudinal Diimputasikan dengan

Observed data

ID Wave 1 Wave 2 Wave 3

1 50 53 2 47 46 49 3 43 − 4 55 − 56 5 45 45 47 (Enders, 2010) 25 ---+

Diagram tebar hasil imputasi regresi stokastik terhadap dataset

4.3.

Diagram tebar imputasi regresi stokastik data IQ dan kinerja dataset tabel 3.1

Carried Forward

khusus untuk digunakan pada desain longitudinal. Contoh penggunaannya diperlihatkan pada tabel 4.3.

Longitudinal Diimputasikan dengan Last Observation

Carried Forward

Observed data Last observation carried

Wave 3 Wave 4 Wave 1 Wave 2 Wave 3

− − 50 53 53 49 51 47 46 49 − − 43 43 43 56 59 55 55 56 47 46 45 45 47 dataset tabel 3.1

Diagram tebar imputasi regresi stokastik data IQ

digunakan pada desain longitudinal. Contoh

Last Observation

Last observation carried forward Wave 3 Wave 4 53 53 49 51 43 43 56 59 47 46

(34)

26

BAB V

IMPUTASI GANDA UNIVARIAT

Pengertian Imputasi Ganda

Sejumlah ahli Statistika antara lain Rubin berpendapat imputasi satu nilai (imputasi tunggal) secara umum tidak benar, sehingga mereka berusaha mengembangkan metodologi untuk imputasi ganda (van Buuren; 2012). Pengembangan teknologi imputasi ganda yang melibatkan dataset besar sejak 1990-an terutama dimungkinkan dengan kemajuan di bidang teknik komputer.

Dengan imputasi ganda, yang diutamakan bukanlah nilai imputasi tunggal untuk mengisi tiap entri kosong, melainkan model yang dipilih untuk memperoleh beberapa dataset lengkap yang telah terimputasi serta hasil akhir berupa estimasi yang valid. Walaupun imputasi ganda secara teoretis telah dibahas oleh Rubin (1976) sejak empat dekade yang lampau, kemampuan komputer yang ada pada masa itu tidak memadai untuk mengimplementasikannya. Imputasi ganda praktis baru tercakup dalam beberapa program Statistika utama dalam satu dekade terakhir.

Jika persentase kekosongan sangat kecil, imputasi ganda tak dianjurkan, karena listwise deletion yang lebih sederhana akan memberi hasil yang praktis hampir sama, sedangkan imputasi ganda relatif rumit serta memerlukan waktu yang lebih lama. Sebaliknya jika persentase kekosongan sangat besar, perlu diingat bahwa hasil akhir akan lebih ditentukan oleh model imputasi daripada data terisi. Dengan demikian, imputasi ganda terutama bermanfaat jika persentase kekosongan tidak terlalu kecil ataupun terlalu besar.

Imputasi ganda univariat dilakukan jika hanya ada 1 variabel dalam dataset yang memiliki entri kosong. Walaupun dalam praktik keadaan ini sangat jarang ditemukan, pemahaman mengenai imputasi ganda univariat merupakan modal awal yang penting untuk mempelajari imputasi ganda multivariat.

(35)

Tahap-tahap Imputasi Ganda

Imputasi ganda (multiple imputation

menganalisis dataset yang tak lengkap yang memiliki Aplikasi teknik ini mencakup 3 tahap, yaitu

a. Imputasi:

Pada tahap imputasi, dilakukan pada dataset, sehingga diperoleh b. Analisis:

Pada tahap kedua dilakukan analisis terhadap masing tersebut, yang akan menghasilkan

c. Pooling:

Tahap ketiga merupakan pengkombinasian terhadap

yang diperoleh data tahap kedua untuk menghasilkan 1 himpunan hasil inferensi.

Secara skematis, tahap untuk m = 3.

Gambar 5.1 Imputasi ganda untuk

27

tahap Imputasi Ganda

multiple imputation) adalah teknik statistik untuk yang tak lengkap yang memiliki sejumlah

Aplikasi teknik ini mencakup 3 tahap, yaitu imputasi, analisis, dan pooling

Pada tahap imputasi, dilakukan m kali pengisian (to impute , sehingga diperoleh m dataset yang lengkap.

Pada tahap kedua dilakukan analisis terhadap masing-masing dari tersebut, yang akan menghasilkan m himpunan nilai-nilai statistik.

Tahap ketiga merupakan pengkombinasian terhadap m himpunan statistik yang diperoleh data tahap kedua untuk menghasilkan 1 himpunan hasil

Secara skematis, tahap-tahap imputasi ganda diperlihatkan pada gambar

Imputasi ganda untuk m = 3 (van Buuren, 2012)

adalah teknik statistik untuk entri kosong.

pooling.

to impute) entri kosong

masing dari m dataset nilai statistik.

himpunan statistik yang diperoleh data tahap kedua untuk menghasilkan 1 himpunan hasil

tahap imputasi ganda diperlihatkan pada gambar 5.1

(36)

28

Literatur awal menyarankan penggunaan nilai m yang kecil, umumnya dalam kisaran 3−5, namun literatur terbaru menganjurkan nilai m sekurang-kurangnya sama dengan persentase subjek (responden) yang tak lengkap datanya, tetapi tidak melebihi 100 (Molenberghs et al, 2015).

Analisis terhadap dataset lengkap (terimputasi) ke-k; k = 1, 2, . . . , m; akan menghasilkan estimasi terhadap parameter β, yaitu βˆ( )k dan (estimasi) variansinya

( )k

V . “Aturan Rubin” menyatakan estimasi gabungan parameter sebagai rerata m estimasi yang terpisah:

MI ˆ β =

( )

1 1 m _ˆ _k m β

∑

(5.1) dan: VMI = V + 1 1 B m +













(5.2) dengan V =

( )

1 k m _V m

∑

(5.2a) dan B =

( )

(

)

2 MI 1 ˆ ˆ 1 k m m β −β ∑ − (5.2b)

Pelaksanaan Imputasi Ganda Univariat dengan Stata

Sebelum pelaksanaan imputasi ganda, dicobakan dahulu meregresikan

variabel imputasi yang memiliki entri kosong pada himpunan variabel regular, yaitu variabel yang terisi lengkap, yang akan digunakan untuk memprediksi nilai entri kosong pada variabel imputasi.

. regtype impvar regvars

Opsi regtype adalah:

- regress jika variabel imputasi berskala kontinu. - logit jika variabel imputasi biner (dikotomi). - ologit jika variabel imputasi kategorik ordinal. - mlogit jika variabel imputasi kategorik nominal.

(37)

29

- nbreg jika variabel imputasi data cacah dengan overdistensi.

Jika tidak ditemukan hambatan, tahap-tahap imputasi ganda selanjutnya adalah:

1. Mempersiapkan file dataset untuk diimputasi.

. mi set datastyle

Perintah mi set adalah pernyataan pendeklarasian dataset sebagai dataset

mi, yaitu supaya dataset dapat menerima perintah-perintah mi dan menjalani proses imputasi ganda. style adalah tipe basis data yang dipilih.

Opsi untuk style adalah: flong, mlong, wide.

. mi register imputed impvar

Perintah ini merupakan penspesifikasian impvar, yaitu variabel yang akan diimputasi.

. mi register regular regvars

Pernyataan ini merupakan penspesifikasian regvars, yaitu variabel-variabel yang tidak akan diimputasi.

2. Pemeriksaan dataset mi.

. mi describe

Perintah untuk mendeskripsikan data yang dalam file mi.

. mi misstable sum

Perintah untuk mentabulasikan nilai-nilai kosong. 3. Pelaksanaan imputasi.

Metode regresi yang digunakan pada imputasi ganda tergantung pada tipe data variabel dependennya. Beberapa metode regresi yang digunakan dalam Stata untuk imputasi ganda sesuai dengan tipe data variabel dependen yaitu: - Data kontinu: Regresi linear dengan perintah mi impute regress.

- Data kontinu dengan rentang nilai terbatas: Regresi dengan perintah mi impute pmm (predictive mean matching). Regresi pmm hanya dapat dilakukan dalam konteks imputasi ganda.

- Data biner (dikotomi): Regresi logistik dengan perintah mi impute logit. - Data kategorik ordinal: Regresi logistik ordinal dengan perintah mi

impute ologit.

- Data kategorik nominal: Regresi logistik multinomial dengan perintah mi impute mlogit.

(38)

30

- Data cacah dengan ekidistensi: Regresi Poisson dengan perintah mi impute poisson.

- Data cacah dengan overdispersi: Regresi binomial negatif dengan perintah mi impute nbreg.

Secara umum, sintaks untuk imputasi ganda univariat adalah:

. mi impute regtype impvar regvars, add(M) [rseed(#)]

add(M) menyatakan jumlah imputasi yang diinginkan. Nilai M yang dianjurkan dalam Stata sekurang-kurangnya adalah 20.

rseed(#) diperlukan supaya jika hendak dilakukan pengulangan analisis, akan diperoleh hasil yang sama.

4. Pengestimasian parameter.

. mi estimate: regtype depvar indepvars

Perhatikan bahwa regtype di sini ditentukan oleh skala variabel dependen,

regtype belum tentu sama dengan untuk variabel imputasi di atas.

Contoh 5.1:

File dataset yang akan digunakan pada contoh ini adalah mheart0.dta.

. use D:\Data\mheart0, clear

(Fictional heart attack data; bmi missing) Perintah untuk membuka file mheart0.dta.

. sum

(39)

31

Variabel adalah:

attack : Outcome (heart attack)

smokes : Current smoker

age : Age, in years

bmi : Body Mass Index, kg/m2

female : Gender

hsgrad : High school graduate

Tampak bahwa semua variabel memiliki 154 entri, kecuali bmi yang hanya memiliki 132 entri. Berikut diperlihatkan regresi logistik attack terhadap smokes,

age, bmi, female, dan hsgrad. Tanpa imputasi ganda, perintah logit akan dikerjakan dengan listwise deletion, yaitu hanya mengikutsertakan kasus dengan entri terisi lengkap sebanyak 132.

. logit attack smokes age bmi female hsgrad

Iteration 0: log likelihood = -91.359017 Iteration 1: log likelihood = -79.374749 Iteration 2: log likelihood = -79.342218 Iteration 3: log likelihood = -79.34221

Logistic regression Number of obs = 132 LR chi2(5) = 24.03 Prob > chi2 = 0.0002 Log likelihood = -79.34221 Pseudo R2 = 0.1315 --- attack | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---+--- smokes | 1.544053 .3998329 3.86 0.000 .7603945 2.327711 age | .026112 .017042 1.53 0.125 -.0072898 .0595137 bmi .1129938 .0500061 2.26 0.024 .0149837 .211004 female | .2255301 .4527558 0.50 0.618 -.6618549 1.112915 hsgrad | .4048251 .4446019 0.91 0.363 -.4665786 1.276229 _cons |-5.408398 1.810603 -2.99 0.003 -8.957115 -1.85968 ---

(40)

32

Selanjutnya akan dilakukan imputasi ganda variabel bmi, tetapi terlebih dahulu akan dicoba meregresikan bmi terhadap himpunan variabel regularnya.

. regress bmi attack smokes age female hsgrad

Source | SS df MS Number of obs = 132 ---+--- F( 5, 126) = 1.24 Model | 99.5998228 5 19.9199646 Prob > F = 0.2946 Residual | 2024.93667 126 16.070926 R-squared = 0.0469 ---+--- Adj R-squared = 0.0091 Total | 2124.5365 131 16.2178358 Root MSE = 4.0089 --- bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+--- attack | 1.71356 .7515229 2.28 0.024 .2263179 3.200801 smokes | -.5153181 .761685 -0.68 0.500 -2.02267 .9920341 age | -.033553 .0305745 -1.10 0.275 -.0940591 .026953 female | -.3072767 .8074763 -0.38 0.704 -1.905249 1.290695 hsgrad | -.4674308 .8112327 -0.58 0.566 -2.072836 1.137975 _cons | 26.96559 1.884309 14.31 0.000 23.2366 30.69458 ---

Tampak bahwa pada regresi variabel imputasi bmiterhadap seluruh variabel regular tidak ditemukan sesuatu hambatan.

. mi set flong

. mi register imputed bmi

(22 m=0 obs. now marked as incomplete)

. mi register regular attack smokes age female hsgrad . mi describe

Style: mlong

last mi update 05aug2015 07:45:31, 14 seconds ago Obs.: complete 132

incomplete 22 (M = 0 imputations) ---

(41)

33

Vars.: imputed: 1; bmi(22) passive: 0

regular: 5; attack smokes age female hsgrad system: 3; _mi_m _mi_id _mi_miss

(there are no unregistered variables)

. mi misstable sum

Obs<.

+--- | | Unique

Variable | Obs=. Obs>. Obs<. | values Min Max ---+---+--- bmi | 22 132 | 132 17.22643 38.24214 ---

. mi impute pmm bmi attack smokes age female hsgrad, add(50) rseed(1500)

(complete + incomplete = total; imputed is the minimum across m of the number of filled-in observations.)

Note: Predictive mean matching uses the default one nearest neighbor to impute bmi. This default is

(42)

34

arbitrary and may perform poorly depending on your data. You should choose the number of neighbors appropriate for your data and specify it in option knn().

Khusus untuk perintah mi impute pmm sesudah add(M) dapat ditambahkan opsi

knn(#), yang menspesifikasikan # observasi terdekat (nearest neighbors) sebagai sumber pengambilan nilai imputasi. Nilai default adalah knn(1).

. mi estimate: logit attack smokes age bmi female hsgrad

Multiple-imputation estimates Imputations = 50 Logistic regression Number of obs = 154 Average RVI = 0.0295 Largest FMI = 0.1252 DF adjustment: Large sample DF: min = 3155.41 avg = 565967.10 max = 1418245.09 Model F test: Equal FMI F( 5,218097.0) = 3.77 Within VCE type: OIM Prob > F = 0.0020 --- attack | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+--- smokes | 1.21886 .3614422 3.37 0.001 .5104437 1.927276 age | .0358003 .015487 2.31 0.021 .0054463 .0661542 bmi | .1199313 .049222 2.44 0.015 .0234209 .2164418 female | -.1124488 .4190367 -0.27 0.788 -.933747 .7088494 hsgrad | .1668407 .405365 0.41 0.681 -.6276607 .9613422 _cons | -5.871377 1.707841 -3.44 0.001 -9.219208 -2.523546 ---

(43)

35

Tabel 5.1 Perbandingan nilai-nilai estimasi model cc dan mi untuk data mheart0.dta

Model Variabel cc mi smokes 1.544 0.400 0.000 1.219 0.361 0.001 age 0.026 0.017 0.125 0.036 0.015 0.021 bmi 0.113 0.050 0.024 0.120 0.049 0.015 female 0.226 0.453 0.618 −0.112 0.419 0.788 hsgrad 0.405 0.445 0.363 0.167 0.405 0.681 konstante −5.408 1.811 0.003 −5.871 1.708 0.001 Nilai estimasi: b, SE, dan nilai-p

Tampak bahwa sebagian besar hasil untuk kedua model tidak banyak berbeda, kecuali untuk variabel usia (age) yang tak bermakna pada model cc

(44)

36

BAB VI

IMPUTASI GANDA MULTIVARIAT:

MODEL NORMAL MULTIVARIAT

Imputasi Ganda dengan Model Normal Multivariat

Jika variabel yang diimputasi lebih daripada satu, prosedurnya adalah imputasi ganda multivariat. Dikenal dua prosedur utama dalam imputasi ganda multivariat, yaitu imputasi ganda dengan model normal multivariat (mi impute

mvn) dan imputasi ganda menggunakan persamaan berantai (mi impute

chained).

Dalam imputasi ganda dengan model normal multivariat diasumsikan bahwa himpunan seluruh variabel (imputasi dan regular) berdistribusi (atau dapat dianggap berdistribusi) bersama normal multivariat. Dalam kenyataannya mungkin didapatkan satu atau beberapa variabel biner, namun model normal tetap digunakan dan hasil akhirnya pun tidak terlalu menyimpang daripada hasil imputasi ganda menggunakan persamaan berantai.

Sintaks untuk model normal multivariat adalah:

. mi impute mvn impvars = regvars, add(M)

Langkah-langkah di sini terdiri atas pembentukan file mi, imputasi data kosong, dan pengestimasian parameter.

Pembentukan file

mi

Seperti halnya pada imputasi ganda univariat, pembentukan file mi

dilakukan dengan pendeklarasian file sebagai dataset mi, dilanjutkan dengan me-register variabel-variabel imputasi dan variabel regular.

Contoh 6.1:

Sebagai ilustrasi, diberikan contoh imputasi ganda dengan menggunakan program statistik komputer STATA 13. File yang digunakan adalah

chapter13_missing.dta (Acock, 2014).

(45)

37

. sysuse chapter13_missing.dta

(NLS Women 14-26 in 1968)

Tabel 6.1. Variabel-variabel dalam contoh dataset

Variabel Keterangan

ln_wagem Logaritma naturalis gaji

gradem Pendidikan tertinggi yang diselesaikan

agem Usia subjek penelitian

ttl_expm Durasi pengalaman kerja (dalam tahun)

tenurem Durasi di pekerjaan sekarang (dalam tahun

not_smsa Apakah subjek berasal dari area non-SMSA

south Apakah subjek berasal dari wilayah Selatan AS

blackm Apakah subjek tergolong kulit berwarna

Catatan: Variabel yang namanya diakhiri dengan huruf “m” adalah variabel yang memiliki entri kosong (missing values).

. list not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem in 25/30

+---+ | not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem | |---| 25. | 0 0 12 28 4.923077 1.677717 . 4 | 26. | 0 0 12 19 4.5 1.321042 . 1.416667 | 27. | 0 0 15 27 3.461538 2.132606 . 1.5 | 28. | 0 0 12 21 4.711538 1.493794 . 1.25 | 29. | 1 0 15 24 3.115385 2.265503 . 1.833333 | |---| 30. | 0 0 16 28 2.75 1.976338 . 2.416667 | +---+

(46)

38

. sum

Tampak bahwa variabel yang perlu diimputasi adalah ln_wagem, gradem,

agem, ttl_expm, tenurem, dan blackm.

. mi set flong

. mi register imputed ln_wagem gradem agem ttl_expm tenurem blackm

(828 m=0 obs. now marked as incomplete)

. mi register regular not_smsa south

Perintah mi set flong (full and long) memberitahu Stata agar mengatur

dataset ganda. Perintah mi register imputed adalah untuk mendaftarkan

(me-register) seluruh variabel yang memiliki entri kosong yang perlu di-imputasi.

Perintah mi register regular adalah untuk mendaftarkan seluruh variabel yang tidak memiliki entri kosong atau tidak hendak diimputasi.

. misstable summarize ln_wagem gradem agem ttl_expm tenurem not_smsa south blackm

Obs<.

+--- | | Unique

Variable | Obs=. Obs>. Obs<. | values Min Max ---+---+--- ln_wagem | 300 1,393 | 393 .0682788 4.242752

(47)

39 gradem | 148 1,545 | 13 0 18 agem | 165 1,528 | 12 18 30 ttl_expm | 206 1,487 | >500 .0833333 15.53846 tenurem | 200 1,493 | 74 0 15.5 blackm | 99 1,594 | 2 0 1 ---

Perintah misstable adalah untuk mendapatkan ringkasan (summary) entri kosong.

. misstable patterns ln_wagem gradem agem ttl_expm tenurem not_smsa south blackm Missing-value patterns (1 means complete) | Pattern Percent | 1 2 3 4 5 6 ---+--- 51% | 1 1 1 1 1 1 | 8 | 1 1 1 1 1 0 7 | 1 1 0 1 1 1 6 | 1 1 1 0 1 1 5 | 1 1 1 1 0 1 4 | 1 0 1 1 1 1 4 | 0 1 1 1 1 1 3 | 1 1 1 1 0 0 2 | 1 0 1 1 1 0 (output omitted) ---+--- 100% |

Variables are (1) blackm (2) gradem (3) agem (4) tenurem (5) ttl_expm (6) ln_wagem

(48)

40

Imputasi Data Kosong

Setelah dimiliki file dengan dataset mi, imputasi dapat dilakukan. Sintaksnya adalah:

. mi impute mvn impvars = regvars, add(M) [rseed(#)]

Contoh 6.2:

Lihat kembali data pada contoh 6.1.

. mi impute mvn ln_wagem gradem agem ttl_expm tenurem blackm = not_smsa south, add(20) rseed(2121)

Performing EM optimization:

observed log likelihood = -5199.3214 at iteration 12 Performing MCMC data augmentation ...

Multivariate imputation Imputations = 20 Multivariate normal regression added = 20 Imputed: m=1 through m=20 updated = 0 Prior: uniform Iterations = 2000 burn-in = 100 between = 100

--- | Observations per m |--- Variable | Complete Incomplete Imputed | Total ---+---+--- ln_wagem | 1393 300 300 | 1693 gradem | 1545 148 148 | 1693 agem | 1528 165 165 | 1693 ttl_expm | 1487 206 206 | 1693 tenurem | 1493 200 200 | 1693 blackm | 1594 99 99 | 1693 --- (complete + incomplete = total; imputed is the minimum across m of the number of filled-in observations.)

(49)

41

Perintah mi impute mvn menspesifikasikan model normal multivariat yang digunakan untuk mengimputasikan nilai-nilai bagi entri kosong.

Opsi add(20) membentuk 20 datasets sebagai tambahan terhadap dataset awal yang memiliki nilai-nilai entri kosong. Ke-20 datasets ini seluruhnya lengkap terisi tanpa ada entri kosong. Nilai yang diimputasikan berbeda dari satu dataset ke yang lainnya. Opsi rseed(#) menentukan nilai seed # tertentu yang dipilih agar hasil dapat diduplikasi. Setiap nilai dapat dimasukkan ke dalam rseed(#).

Estimasi Parameter

Setelah imputasi data selesai, dataset yang dimiliki dapat digunakan untuk mengestimasi parameter. Sintaksnya adalah:

. mi estimate: regress depvar indepvars

Contoh 6.3:

Lihat kembali data pada Contoh 6.2.

. mi estimate: regress ln_wagem gradem agem ttl_expm tenurem not_smsa south blackm

Multiple-imputation estimates Imputations = 20 Linear regression Number of obs = 1693 Average RVI = 0.4819 Largest FMI = 0.4570 Complete DF = 1685 DF adjustment: Small sample DF: min = 86.89 avg = 181.39 max = 397.74 Model F test: Equal FMI F( 7, 685.4) = 73.38 Within VCE type: OLS Prob > F = 0.0000 --- ln_wagem | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+--- gradem | .0746216 .0064335 11.60 0.000 .061872 .0873712 agem | .02062 .0040349 5.11 0.000 .0126369 .028603 ttl_expm | .0130249 .0102512 1.27 0.207 -.0073508 .0334007

(50)

42 tenurem | .0628405 .0090895 6.91 0.000 .0448499 .0808311 not_smsa | -.1554712 .0244057 -6.37 0.000 -.2035786 -.1073638 south | -.1032382 .0226229 -4.56 0.000 -.1477907 -.0586857 blackm | -.037655 .0239075 -1.58 0.116 -.0846558 .0093459 _cons | .1669442 .1064046 1.57 0.119 -.0434716 .3773601 ---

Prefiks mi estimate di depan perintah regresi menginformasikan Stata

untuk melaksanakan analisis regresi untuk masing-masing dari 20 datasets dan mem-pool hasilnya.

Diperoleh model akhir yaitu:

ln_wage = 0.17 + 0.07(grade) + 0.02(age) + 0.01(ttl_exp) + 0.06(tenure) – 0.16(not_smsa) – 0.10(south) – 0.04(black)

(51)

43

BAB VII

IMPUTASI GANDA MULTIVARIAT:

METODE PERSAMAAN BERANTAI

Tahap persiapan

Metode persamaan berantai untuk imputasi ganda multivariat ini pada hakekatnya merupakan perluasan imputasi ganda univariat yang telah dibahas pada bab V. Karena variabel yang akan diimputasi lebih daripada satu dan tipe data variabel mungkin saling berbeda, sebaiknya dilakukan pemeriksaan dengan meregresikan tiap (bakal) variabel imputasi terhadap seluruh variabel lainnya. Model regresi yang digunakan disesuaikan dengan tipe data masing-masing variabel imputasi.

- Data kontinu:

. regress impvar regvars

- Data biner:

. logit impvar regvars

- Data kategorik ordinal:

. ologit impvar regvars

- Data kategorik nominal

. mlogit impvar regvars

- Data cacah dengan ekidistensi:

. poisson impvar regvars

- Data cacah dengan overdistensi:

. nbreg impvar regvars

Contoh penggunaan masing-masing perintah dapat dilihat pada Lampiran 1. Dengan prosedur regresi ini dapat dilihat antara lain keberadaan kemaknaan prediktif variabel regular, konvergensi pada tipe regresi dengan proses iteratif, dan sebagainya.

Contoh 7.1:

. use “D:\Data\midata”, replace . sum

Variable | Obs Mean Std. Dev. Min Max ---+--- female | 3000 .496 .5000674 0 1 race | 2707 1.018471 .8103808 0 2

(52)

44 urban | 2727 .6622662 .473024 0 1 edu | 2681 2.357702 .912182 1 4 exp | 2707 15.57284 9.656566 0 47.8623 ---+--- wage | 2701 71493.95 38104.3 0 227465.2

Variabel yang ada yaitu: • female (biner)

• race (kategorik, tiga nilai) • urban (biner)

• edu (kategorik ordinal, empat nilai) • exp (kontinu)

• wage (kontinu)

Pemeriksaan dilakukan dengan beberapa prosedur regresi berikut (hasil tidak ditampilkan):

. mlogit race i.urban exp wage i.edu female . logit urban i.race exp wage i.edu female . ologit edu i.urban i.race exp wage female . regress exp i.urban i.race wage i.edu female . regress wage i.urban i.race exp i.edu female

Pembentukan dataset

mi

Seperti pada proses imputasi ganda lainnya, perintah Stata utama di sini adalah:

. mi set style

Opsi untuk style adalah flong, mlong, dan wide.

. mi register imputed impvars . mi register regular regvars

Perintah lain adalah untuk mengevaluasi hasil perintah-perintah di atas:

. misstable sum . misstable pattern

Contoh 7.2:

Lihat kembali data pada Contoh 7.1:

(53)

45

. mi register imputed race urban edu exp wage . mi register regular female

. misstable sum

Obs<.

+--- | | Unique

Variable | Obs=. Obs>. Obs<. | values Min Max ---+---+--- race | 293 2,707 | 3 0 2 urban | 273 2,727 | 2 0 1 edu | 319 2,681 | 4 1 4 exp | 293 2,707 | >500 0 47.8623 wage | 299 2,701 | >500 0 227465.2 --- . misstable pattern Missing-value patterns (1 means complete) | Pattern Percent | 1 2 3 4 5 ---+--- 59% | 1 1 1 1 1 | 7 | 1 1 1 1 0 7 | 1 1 0 1 1 7 | 1 1 1 0 1 6 | 1 0 1 1 1 6 | 0 1 1 1 1 <1 | 0 1 1 1 0 <1 | 1 1 0 1 0 <1 | 1 0 0 1 1 <1 | 1 1 1 0 0 <1 | 1 0 1 0 1 <1 | 0 1 1 0 1 <1 | 1 0 1 1 0 <1 | 0 0 1 1 1 <1 | 1 1 0 0 1

(54)

46 <1 | 0 1 0 1 1 <1 | 1 0 0 0 1 <1 | 0 0 1 0 1 <1 | 1 0 0 1 0 <1 | 1 0 1 0 0 <1 | 0 1 0 0 1 <1 | 0 1 1 0 0 <1 | 0 1 0 1 0 <1 | 0 0 0 1 1 <1 | 0 0 1 1 0 ---+--- 100% |

Variables are (1) urban (2) race (3) exp (4) wage (5) edu

Imputasi Data Kosong

Sintaks untuk melakukan imputasi dengan persamaan berantai adalah:

. mi impute chained (regmethod1) impvar1 (regmethod2) impvar2 . . . =

regvars, add(M) rseed(#)

Contoh 7.3:

Lihat data pada Contoh 7.2.

. mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm, knn(5)) exp wage = female, add(20) rseed(4444)

Conditional models:

urban: logit urban i.race exp wage i.edu female race: mlogit race i.urban exp wage i.edu female

exp: pmm exp i.urban i.race wage i.edu female , knn(5) wage: pmm wage i.urban i.race exp i.edu female , knn(5) edu: ologit edu i.urban i.race exp wage female

Performing chained iterations ...

Multivariate imputation Imputations = 20 Chained equations added = 20 Imputed: m=1 through m=20 updated = 0 Initialization: monotone Iterations = 200

(55)

47

burn-in = 10 urban: logistic regression

race: multinomial logistic regression edu: ordered logistic regression exp: predictive mean matching wage: predictive mean matching

--- | Observations per m |--- Variable | Complete Incomplete Imputed | Total ---+---+--- urban | 2727 273 273 | 3000 race | 2707 293 293 | 3000 edu | 2681 319 319 | 3000 exp | 2707 293 293 | 3000 wage | 2701 299 299 | 3000 --- (complete + incomplete = total; imputed is the minimum across m of the number of filled-in observations.)

Estimasi Parameter

Sintaks:

. mi estimate: regmethod depvar indepvars

Contoh 7.3:

Lihat data pada contoh 7.2.

. mi estimate: regress exp i.urban i.race wage i.edu female

Multiple-imputation estimates Imputations = 20 Linear regression Number of obs = 3000 Average RVI = 0.2367 Largest FMI = 0.2448 Complete DF = 2991 DF adjustment: Small sample DF: min = 287.80 avg = 480.57 max = 799.44 Model F test: Equal FMI F( 8, 1631.5) = 123.83