PEMAKAIAN VARIABEL INDIKATOR DALAM PEMODELAN
Mike Susmikanti*
ABSTRAK
PEMAKAIAN VARIABEL INDIKATOR DALAM PEMODELAN. Pemodelan dalam penelitian berbagai bidang khususnya bidang industri, merupakan kebutuhan mendasar bagi prediksi di masa mendatang dan informasi tambahan. Variabel yang sering digunakan pada pemodelan pada umumnya variabel kuantitatif yaitu variabel yang mempunyai skala ukuran yang umum. Dalam hal ini akan dibahas apabila dalam persamaan regresi tidak hanya terdapat variabel kuantitatif tetapi juga terdapat variabel kualitatif atau variabel kategori sebagai variabel bebas. Pada umumnya suatu variabel kualitatif tidak mempunyai skala ukuran yang umum dan sering dinyatakan dalam kategori. Variabel kualitatif di sini harus didefinisikan dengan suatu himpunan tingkatan dalam perhitungan, yang mungkin mempunyai pengaruh dalam model. Istilah yang akan digunakan untuk variabel kategori pada pembahasan di sini adalah variabel indikator yang merupakan variabel dummy. Pembentukan model regresi yang akan dibahas adalah variabel kualitatif dengan dua tingkatan (level) atau lebih dan model dengan lebih dari satu variabel kualitatif. Pembahasan di sini meliputi pembentukan model regresi dengan satu variabel kualitatif yang terdiri dari dua tingkatan yang dibatasi untuk model linier. Selanjutnya dibahas pendugaan dan pengujian parameter pada pendugaan model serta analisis keragaman dan menarik beberapa kesimpulan statistik untuk mendukung model regresi.
ABSTRACT
THE USE OF INDICATOR VARIABLES IN MODELING. Modeling are important in research or industrial for predictions and required information. Variables employed in regression model and regression analysis are usualy quantitative variables. These variables have a well-defined scale of measurement. Occasionally, it is necessary to use qualitative or categorical variables as independent variables in regression. We must assign a set of levels to a qualitative variable to account for the effect that the variable may have on the response. We called categorical variable as indicator variables or “dummy” variables. We discuss the use of two or more levels of qualitative variable to create the regression model and more than one qualitative variabel. We have done a regression model with one qualitative variable but two levels in linear models, through the parameter estimate and the test parameter, and a analysis of variance and other summary statistics for the model.
*
PENDAHULUAN
Pemodelan dalam kepentingan penelitian berbagai bidang maupun bidang industri, merupakan kebutuhan mendasar bagi prediksi di masa mendatang ataupun informasi tambahan. Data yang sering digunakan untuk pemodelan dalam hal ini pembentukan persamaan regresi dan analisis regresi dinyatakan dalam bentuk variabel kuantitatif. Berarti bahwa variabel tersebut dapat dengan mudah dinyatakan dalam skala ukuran yang umum. Akan tetapi sering pula pada pengamatan, data yang digunakan dinyatakan dalam bentuk variabel kualitatif atau variabel kategori yang merupakan variabel bebas dalam persamaan regresi. Dalam hal ini akan dibahas, apabila persamaan regresi yang dijumpai tidak hanya mengandung variabel kuantitatif sebagai variabel bebas tetapi didalamnya terdapat pula variabel kualitatif. Beberapa contoh dari variabel kategori antara lain tingkatan operator, status pegawai, waktu kerja, jenis kelamin dll. Biasanya suatu variabel kualitatif tidak mempunyai skala ukuran yang umum dan sering dinyatakan dalam kategori. Variabel kualitatif dalam hal ini harus didefinisikan atau ditandai dengan suatu himpunan tingkatan untuk menghitung seberapa besar pengaruhnya dalam pemodelan dan agar informasi pengaruh tersebut tidak hilang. Dalam pembahasan ini, penggunaan variabel kualitatif disebut sebagai variabel indikator dan sering pula dikenal sebagai variabel dummy.
Pembentukan model regresi yang akan dibahas di sini yaitu variabel kualitatif dengan dua atau lebih tingkatan (level) dan model dengan lebih dari satu variabel kualitatif. Dalam penerapannya dibentuk model regresi dengan satu variabel kuantitatif dan satu variabel kualitatif yang terdiri dari dua tingkatan dan dibatasi untuk model linier. Untuk menguji secara statistik dilakukan pendugaan parameter dan pengujian parameter pada pendugaan model dan analisis keragaman serta beberapa kesimpulan statistik untuk model regresi.
METODA
Variabel Indikator dan Pembentukan Model Regresi
Suatu variabel dengan tipe kualitatif dapat dinyatakan sebagai variabel indikator dengan nilai 0 (nol) atau 1 (satu) untuk mendefinisikan tingkatan dari variabel regresi tersebut. Pemilihan nilai 0 atau 1 untuk mengidentifikasi tingkatan atau kelas dari variabel kualitatif tersebut adalah sembarang.
Misalkan model yang dipandang adalah model dengan dua variabel bebas x1
dan x2 dimana x1 merupakan variabel kuantitatif dan x2 merupakan variabel kualitatif
yang terdiri dari dua kelas dan berfungsi sebagai variabel indikator yang didefinisikan berikut:
x2 =
1
0
Bentuk model umum persamaan regresinya adalah y = β0 + β1 x1 + β2 x2 + ε
Untuk menginterpertasikan parameter-parameter pada model, didalam kelas pertama variabel indikator x2 berharga nol (x2 = 0). Bentuk model regresi sebagai berikut:
y = β0 + β1 x1 + β2 (0) + ε
atau
y = β0 + β1 x1 + ε
Secara analitik hubungan diantara variabel x1 (kuantitatif) dan variabel x2 untuk
kelas pertama adalah suatu garis-lurus yang naik sebesar β0 pada sumbu y dengan kemiringan β1. Pada kelas kedua variabel x2 berharga satu (x2 = 1), model regresi
menjadi
y = β0 + β1 x1 + β2 (1) + ε
atau
y = (β0+ β2 ) + β1 x1 + ε
sehingga hubungan diantara variabel x1 dan variabel x2 juga garis lurus dengan
kemiringan β1 dan ketinggian pada sumbu y sebesar (β0+ β2).
Gambar dari pendekatan kedua persamaan regresi tampak pada gambar-1. Kedua persamaan tersebut dinyatakan dalam dua garis regresi yang sejajar dengan
kemiringan yang sama β1 tetapi mempunyai ketinggian berbeda, dinyatakan dengan
nilai β2 yang merupakan hasil dari perubahan kelas pertama ke kelas ke dua.
Gambar 1. Pendekatan dari dua persamaan regresi
β
0y
E ( y | x
2= 1) = (
β
0+
β
2) +
β
1x
1β
0+
β
2β
2E( y | x
2= 0) =
β
0+
β
1x
1x
Pendekatan untuk variabel kualitatif dengan tiga tingkatan atau kelas, dalam hal ini disediakan dua variabel indikator x2 dan x3 kedalam model. Pendefinisian dari
tingkatan atau kelas dari variabel indikator tersebut adalah sebagai berikut:
X2 X3
0 0 Jika termasuk kedalam kelas pertama
1 0 Jika termasuk kedalam kelas kedua
0 1 Jika termasuk kedalam kelas ketiga
Jika pengamatan dipengaruhi oleh satu variabel kuantitatif x1 dan satu variabel
kualitatif dengan tiga tingkatan/kelas. Berarti terdapat 2 variabel indikator yaitu x2 dan
x3. Bentuk umum dari model regresi sebagai berikut:
y = β0 + β1 x1 + β2 x2 + β3 x3 + ε
Model regresi dengan empat tingkatan mempunyai tiga variabel indikator, dengan tingkatan dari variabel indikator tersebut sebagai berikut:
X2 X3 X4
0 0 0 Jika termasuk kedalam kelas pertama
1 0 0 Jika termasuk kedalam kelas kedua
0 1 0 Jika termasuk kedalam kelas ketiga
0 0 1 Jika termasuk kedalam kelas keempat
Misalkan model dipengaruhi satu variabel kuantitatif x1 dan satu variabel
kualitatif dengan empat tingkatan. Model tersebut mempunyai tiga variabel indikator. Bentuk umum model regresinya adalah:
Secara umum, variabel kualitatif dengan a tingkatan/kelas dinyatakan oleh (a – 1) variabel indikator, yang masing-masing mengambil nilai 0 atau 1.
Apabila pengamatan dipengaruhi oleh lebih dari satu variabel kualitatif misalnya dua variabel kualitatif yang masing-masing mempunyai tiga tingkatan dan satu variabel kuantitatif x1. Berarti masing-masing variabel kualitatif mempunyai dua
variabel indikator (masing-masing x2 dan x3 serta x4 dan x5 ) maka bentuk persamaan
regresinya menjadi:
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 +β5 x5 + ε
demikian seterusnya.
Uji Statistik
Apabila pengamatan dipengaruhi oleh dua variabel bebas yang satu diantaranya adalah variabel kuantitatif dan variabel lainnya adalah variabel kualitatif dengan dua tingkatan, berarti terdapat satu variabel indikator yaitu x2. Parameter yang diduga
adalah β0 , β1 dan β2 dengan penduga parameternya masing-masing b0, b1 dan b2.
Selang kepercayaan (1-α) x 100% bagi parameter βk untuk k = 0, 1 dan 2: bk – tα/2 ; ν se(bk) < β k < bk + tα/2 ; ν se(bk)
Derajat bebas untuk distribusi student-t yang digunakan adalah
ν = n - k
(n : banyak observasi dan k : banyak parameter yang ditaksir) Simpangan baku bagi parameter bk, k = 0,1 dan 2 dinyatakan dengan se(bk).
Pengujian untuk masing-masing parameter sebagai berikut: Koefisien
Regresi
Pendugaan Kesalahan baku Statistik Hitung
( t0 )
β0 b0
β1 b1 se(b1) t0(b1)
β2 b2 se(b2) t0(b2)
Matriks dari parameter koefisien regresi b dapat diperoleh dari penyelesaian matriks berikut dengan pendekatan taksiran kuadrat terkecil:
b = [ b0 , b1 , b2 ] = (X T
X)-1 XTy (1)
Simpangan Baku untuk masing-masing penduga parameter β1 dan β2 (b1 dan b2) dapat
se (bj) = √ (s 2
Cjj) ; j = 1 , 2 (2)
Cjj adalah unsur diagonal ke-j dari matriks kebalikan X T
X ( (XTX)-1 ) s2 = SSE /(n-p) merupakan taksiran dari ragam
SSE adalah jumlah kuadrat kesalahan dari penyelesaian matrik berikut;
SSE = y T
y - bT XT y
Hipotesis untuk uji nyata dari masing-masing koefisien regresi βj (j = 1, 2) adalah sebagai berikut:
H0 : βj = 0 ( Hipotesa awal)
H1 : βj ≠ 0 (Hipotesa alternatif)
Jika Hipotesa awal H0 tidak ditolak menunjukkan bahwa variabel xj dapat dihapus
atau tidak digunakan dalam model.
Statistik Hitung untuk parameter penduga b1 dan b2 diperoleh dari
t0(bj) = (bj - βj) / se(bj) ; j = 1 , 2 (3)
Untuk mendiagnosa apakah model memadai digunakan Koefisien Determinasi yang dihitung dari
R2 = SSR/Syy = 1- SSE/Syy ( 0 ≤ R 2≤
1 ) SSR adalah Jumlah kuadrat regresi
Syy adalah Jumlah Kuadrat Total
Jumlah Kuadrat Total: SST = Syy Syy = Σ yi 2 – (Σ yi) 2 /n atau Syy = Σ (yi –
y
) 2Jumlah Kuadrat Regresi: SSR = b
T
XTy - (Σ yi) 2
/n Jumlah Kuadrat Kesalahan:
SSE = Syy - SSR = y T
Kuadrat Tengah Regresi
KTR = SSR /(k-1) ; (k : banyak parameter yang ditaksir/diduga )
KTE = SSE/(n-k) ; (n : banyak pengamatan)
Untuk menguji apakah terdapat hubungan secara linier diantara variabel tidak bebas y dan variabel bebas xj, dilakukan pengujian hipotesa berikut ( sering disebut
dengan Uji nyata regresi).
H0 : Tidak terdapat hubungan secara linier antara variabel tidak bebas y dengan
variabel bebas xj
H1 : Terdapat hubungan secara linier antara variabel tidak bebas y dengan variabel
bebas xj
Digunakan Statistik Hitung: F0 = KTR/KTE
Analisis keragaman yang akan dihitung dinyatakan dalam tabel berikut, secara keseluruhan merupakan kesimpulan statistik untuk model regresi.
Sumber Variasi Jumlah Kuadrat Derajat bebas Kuadrat Tengah Statistik Hitung F0 Regresi SSR k - 1 KTR KTR/KTE Kesalahan SSE n - k KTE Total SST n-1 PEMBAHASAN
Ingin diteliti apakah ada hubungan antara masa hidup (umur efektif) suatu alat pemotong (y) yang digunakan (dalam satuan jam) dengan kecepatan putaran permenit (x1) (dalam satuan rpm) dan tipe alat A dan B (x2). Data yang diperoleh sebagai
Tabel 1. Data pengamatan masa hidup alat pemotong No. pengamatan Yi (jam) X1i (rpm) Tipe alat ( A atau B ) 1 18,73 610 A 2 14,52 950 A 3 17,43 720 A 4 14,54 840 A 5 13,44 980 A 6 24,39 530 A 7 13,34 680 A 8 22,71 540 A 9 12,68 890 A 10 19,32 730 A 11 30,16 670 B 12 27,09 770 B 13 25,40 880 B 14 26,05 1000 B 15 33,49 760 B 16 35,62 590 B 17 26,07 910 B 18 36,78 650 B 19 34,95 810 B 20 43,67 500 B
Model regresi yang dipilih adalah y = β0 + β1 x1 + β2 x2 + ε
Variabel bebas x1 sebagai variabel kuantitatif dan x2 sebagai variabel kualitatif; yang
mana x2 merupakan variabel kualitatif yang terdiri dari dua kelas dan berfungsi
sebagai variabel indikator. Nilai x2 = 0 jika pengamatan adalah tipe A dan x2 = 1 jika
pengamatan dari tipe B. x2 =
1
0
Data variabel bebas dinyatakan dalam matrik X dan hasil pengamatan dalam vektor y dibawah ini untuk pendekatan model.
= 1 500 1 1 810 1 1 650 1 1 910 1 1 590 1 1 760 1 1 1000 1 1 880 1 1 770 1 1 670 1 0 730 1 0 890 1 0 540 1 0 680 1 0 530 1 0 980 1 0 840 1 0 720 1 0 950 1 0 610 1 X = 67 , 43 95 , 34 78 , 36 07 , 26 62 , 35 49 , 33 05 , 26 40 , 25 09 , 27 16 , 30 32 , 19 68 , 12 71 , 22 34 , 13 39 , 24 44 , 13 54 , 14 43 , 17 52 , 14 73 , 18 y
Dari pendekatan taksiran kuadrat terkecil diperoleh b = [b0 , b1 ,b2 ] = (X
T
X)-1 XTy = [ 36,986 ; -0,027 ; 15,004 ] Sehingga persamaan regresi menjadi
Y = 36,986 – 0,027 x1 + 15,004 x2
Dengan kepercayaan 95%, yang berarti tingkat keyakinan atau taraf nyata α = 0,05; pendugaan parameter β2 berada dalam interval atau selang berikut
dari persamaan (2) diperoleh se(b1) = 0,005 dan se(b2) = 1,360
15,004 – (2,110)(1,360) < β2 < 15,004 –+ (2,110)(1,360) 12,135 < β2 < 17,873
parameter β2 menunjukkan besarnya perubahan dari alat tipe A dan tipe B.
Berikut ini hipotesis uji nyata dari koefisien regresi secara individu untuk parameter β1 dan β2;
H0 : βj = 0 ( j = 1, 2)
H1 : βj ≠ 0
Statistik hitung (t-hitung) untuk penduga b1 dan b2 diperoleh dari persamaan (3)
dengan βj = 0 (asumsi awal)
t0(b1) = -0,027/0,005 = -5,887
t0(b2) = 15,004/1,360 = 11,035
dengan tingkat kepercayaan 99% (α = 0,01), dari tabel statistik student-t dengan derajat bebas sama dengan 17 diperoleh t0.01;17 = 2,567. Berarti t hitung baik untuk
penduga b1 dan b2 berada dalam daerah penolakan hipotesa awal. Dapat disimpulkan
bahwa kedua variabel bebas x1 dan x2 mempunyai konstribusi terhadap model.
Pengujian untuk masing-masing parameter tersebut diatas sebagai berikut; Tabel 2. Statistik Hitung
Koefisien Regresi
Pendugaan Kesalahan baku Statistik Hitung
t0
β0 36,986
β1 -0,027 0,005 -5,887
β2 15,004 1,360 11,035
Untuk menguji apakah terdapat hubungan secara linier diantara variabel tidak bebas y dan variabel bebas x1 dan x2 dilakukan pengujian hipotesa berikut (sering
disebut dengan Uji nyata regresi). Pengujian Hipotesa:
H0 : Tidak terdapat hubungan antara umur efektif/masa hidup suatu alat pemotong (y) yang digunakan dengan kecepatan putaran permenit dan tipe alat A atau B. H1 : Terdapat hubungan antara umur efektif / masa hidup suatu alat pemotong (y)
Berikut ini perhitungan yang akan diisikan pada tabel analisis keragaman. Jumlah Kuadrat Total:
Syy = Σ yi 2 – (Σ yi) 2 /n = 1575,089 SST = Syy = 1575,089
Jumlah Kuadrat Regresi: SSR = b
T
XTy - (Σ yi) 2
/n = 1418,034 Jumlah Kuadrat Kesalahan:
SSE = Syy - SSR = 157,055
Kuadrat Tengah Regresi
KTR = 1418,034/2 = 709,017
KTE = 157,055/17 = 9,239
Statistik Hitung
F0 = 709,017/9,239 = 76,75
Tabel 3. Analisis keragaman Sumber Variasi Jumlah Kuadrat Derajat bebas Kuadrat Tengah Statistik Hitung F0 Regresi 1418,034 2 709,017 76,75 Kesalahan 157,055 17 9,239 Total 1575,089 19
Nilai F hitung yaitu F0 = 76,75 melampaui nilai F dari tabel distribusi Fisher dengan
tingkat keyakinan sebesar 99% atau α = 0,01 dan derajat bebas masing-masing untuk
ν1 = 2 dan ν2 = 17. Diperoleh nilai F tabel sebesar F 0,01; 2;17 = 6,11. Sehingga Ho
ditolak, berarti variabel y dipengaruhi oleh variabel x1 dan x2 sebagai variabel
indikator yang berarti umur hidup mesin pemotong dipengaruhi oleh kecepatan putar per menit dan alat tipe A atau B.
Koefisien determinasi diperoleh R2 = 1- SSE/Syy = 0,9003
Koefisien determinasi R2 = 0,9003 mendekati 1 berarti model tersebut diatas yang dipilih adalah memadai.
KESIMPULAN
Penggunaan variabel indikator sangat diperlukan dalam pembentukan model regresi dengan pengamatan yang dipengaruhi oleh variabel bebas kualitatif agar informasi dari pengaruh variabel tersebut tidak hilang. Kita harus mendefinisikan suatu himpunan kelas terhadap variabel kualitatif untuk memperhitungkan pengaruh variabel tersebut. Pembentukan model regresi yang memadai perlu diuji dengan koefisien determinasi, disamping pengujian hubungan antara variabel tidak bebas dengan variabel bebas melalui analisis ragam serta pengujian parameter koefisian regresi untuk mengetahui apakah terdapat variabel bebas yang perlu dihapus dalam model agar lebih efisien.
DAFTAR PUSTAKA
1. DOUGHERTY, EDWARD R.,“ Probability and Statistics for the Engineering, Computing and Physical Sciences”, Prentice Hall Inc., New Jersey, 1990.
2. KINNEY, JOHN J.,“ Statistics for Science and Engineering”, Pearson Education, Inc, 2002.
3. MONTGOMERY, DOUGLAS C.; PECK, ELIZABETH A., “ Introduction to Linear Regression Analysis”, John Wiley & Sons, Inc., The Second Edition, 1992.
DISKUSI
ELFRIDA SARAGI
Apakah data pada penyaji: Adhi Harmoko, bisa digunakan untuk pemodelan dimana variabel indikatornya banyak dan apakah bisa disimpulkan mengenai cacat pada bahan tersebut berdasarkan model?
MIKE SUSMIKANTI
Data pada makalah saudara Adhi Harmoko dapat digunakan untuk pemodelan hanya kurang tepat, lebih tepat apabila menggunakan Principal Component Analysis (PCA), untuk dapat menyimpulkan mengenai cacat pada bahan karena dengan PCA dapat menemukan dan mengidentifikasi pola dalam data tanpa harus kehilangan banyak informasi.
DAFTAR RIWAYAT HIDUP
1. Nama : Dra. Mike Susmikanti, MM
2. Tempat/Tanggal Lahir : Jakarta, 12 November 1956
3. Instansi : BATAN
4. Pekerjaan / Jabatan : Staf P2TIK-BATAN
5. Riwayat Pendidikan :
• S1 Matematika Statistik – FIPIA UI
• S2 Magister Manajemen
6. Pengalaman Kerja :
• 1980-sekarang , BATAN