to
c
N N L O-c
J(c
""?
E
tl
Effi'
i,
6^
t-O m--
H LV a i<-)
O A Elr ,y (E\
-r --6 rn_
o r-( Lr 6-
I l_ .rrl ,y rri 4\, Oo
-_
.!-(--
O \ rri-
.< 6 t_ 6 -ai=6
g 7( .-\J t95n
.--c6
(6E
PP
l-( l< Or,.aft
.r.<lr lr 6 O --._ rrl V j4 . *-t-a t-a)
=
e
a -( -) o 6\/
r*r -ar _ 6 r.< 6_
(\J fl l+i Io
-.1 n -t O*
\J A \Ja
.r< o 6 --r-.-
l_ or!
,4
d
F{d
r.l(
rtl E 0)o-,
(1 -6 G(,h=
n=
rri Fa 6X -
C56
S7 = 4
F\J(\)_
-lF1 (J J |ria6r
o*9
6it!
-R.',-.- L\J ;^ESU
vH.a
, !J 14 Lr =O'_.l tl]rA-.y .= .,.< !it*-(6\Jv J4 lAA b0 .^ -- \IJ :|H,<F
IR
\/ -G-(:
J4.OilEgE
HHAM
,\r\v vq/l l!^a t- r( lJ I< \VR a=-tV=z-6(,
SnSE
Lo,v=n
LV r- t v..=r=X.-r* \g C (Uiy
c
G
(0a
.- r,9 |lr !r (96Ecoio
i-.-!--S-7,hEdx
xg
Lv-LVh6
=?-)l
q9xo=
U -u/ ftl a<3TEg
(6,an
z
-a;
,\.-l< U/ t4 ,< - ir
x
z
l
EEs
,\-t tL/ ^ -aEYn
il-rv tl,) lfl {-- \Y ria6b05
EC,Y
.r-( t* - l?1 l\J L\l L\', lr A-s-a\-'cil-u
t4 .ri fV-.{-A !- t+1. .=Li =.as
Ht-6O
E
=
s
oo
\6
a
ot* =E: G F H o* L W8o
6H
NLJ L( -=OE
-tu VH H.I .A =a I-K-th
sdu
W _H gg
H
#
s
q
f-l
l-l
f-l
1-l
ct
J
ofl
+)
ri
E
o
+f
rt
a
Fr{
rt
H
o
oF{
u,
fil
Z
t{
nl
H
"E
cn
N No
o
(u 6 6 Q 6,@
ESTIMASI MODEL PLSR DALAM KASUS
MULTIKOLINEARITAS PADA DATA AMATAN LEBIH
SEDIKIT DARI BANYAK PEUBAH BEBAS
I Gusti Ayu Made Srinadi1§ dan I Nyoman Widana2
1
Jurusan Matematika, FMIPA, Universitas Udayana
2
Jurusan Matematika, FMIPA, Universitas Udayana [email protected]
§ Penulis Korespondesi
ABSTRACT
Estimation of multiple linear regression model with observations less than independent variables can’t be obtained by the ordinary least squares method (OLS). Only few variables select into model estimation by stepwise methods on multicollinearity cases. This study aims to obtain the estimation of multiple linear regression model of data with multicollinearity cases. Human Development Index (HDI) data in Province of Bali at 2014 with 15 independent variables, only two independent variables included into model estimation by stepwise methods. The alternative method in determining model estimation without removed the independent variables was Partial Least Squares Regression (PLSR). Estimator model of HDI by 15 independent variables at 9 district in Bali has a determination coefficient of 98.58%.
Key words: Ordinary least square, stepwise method, partial least square regression
1. PENDAHULUAN
Model regresi dalam analisis regresi linear berganda dapat digunakan sebagai model prediksi yang bersifat interpolasi. Prediksi bersifat interpolasi dimaksukan adalah menduga nilai suatu peubah respon pada nilai-nilai peubah bebas yang berada dalam interval nilai dari peubah-peubah bebas yang digunakan dalam pembentukan model. Model regresi linier berganda memuat satu peubah respon (Y) dan peubah bebasnya (X) lebih dari satu, misalkan terdapat 𝑘 buah peubah bebas, maka model regresi linear berganda dapat dinyatakan sebagai persamaan :
𝑌 = 𝛽0+ 𝛽1𝑋1+ 𝛽2𝑋2 + ⋯ + 𝛽𝑘𝑋𝑘 dengan Y adalah peubah respon atau peubah terikat (dependent variable), 𝛽𝑖, 𝑖 = 0,1, … 𝑘 adalah koefisien regresi dan adalah peubah galat acak (sisaan) yang diasumsikan berdistribusi normal dengan nilai tengah nol dan ragam konstan 𝜎2 [4]. Berdasarkan asumsi tersebut, pendugaan model regresi identik dengan pendugaan terhadap koefisien-koefisien regresi, dengan menggunakan metode kuadrat terkecil (MKT).
Suatu model regresi dapat digunakan sebagai model prediksi apabila model yang diperoleh sudah cukup bagus dalam menggambarkan keragaman data sesungguhnya, model signifikan, dan tidak melanggar asumsi-asumsi yang mendasari model regresi. Model dikatakan cukup baik menggambarkan keragaman data apabila koefisien determinasi (R2) model tersebut untuk bidang sains ≥ 80%, untuk kasus-kasus sosial nilai 𝑅2 ≥ 65% sudah
I G.A.M. Srinadi dan I N. Widana Estimasi model PLSR dalam kasus Multikolinearitas…
dapat dikatakan cukup baik[3]. Asumsi-asumsi yang mendasari analisis regresi linear meliputi asumsi normalitas, multikolinearitas, autokorelasi, heteroskedastisitas dan asumsi linearitas.
Kasus multikolinearitas dalam analisis regresi linear berganda sering dijumpai pada saat terjadi korelasi yang signifikan antarpeubah bebas. Korelasi signifikan antar peubah bebas mengindikasikan bahwa satu peubah dapat diwakili oleh peubah lainnya, sehingga dengan metode kuadrat terkecil model regresi yang diperoleh bersifat tidak valid, beberapa peubah bebas tidak signifikan dalam model. Bila terjadi kasus multikolinearitas dan estimasi model tetap menggunakan metode kuadrat terkecil, maka melalui pemilihan model terbaik akan diperoleh model regresi dengan peubah yang masuk dalam model jauh lebih sedikit dari banyak peubah yang ada karena peubah-peubah yang saling berkorelasi hanya akan diwakili oleh salah satu peubah saja.Kesimpulan yang diperoleh akibat terjadinya kasus multiko-linearitas adalah hanya beberapa peubah bebas yang signifikan berpengaruh terhadap peubah respon dan memandang peubah-peubah lain yang tidak signifikan tidak berpengaruh terhadap respon. Kesimpulan ini tidak tepat, karena kenyataanya adalah peubah-peubah yang tidak signifikan dalam model, tetap berpengaruh signifikan terhadap respon, hanya saja dalam model regresi sudah diwakili oleh peubah yang berkorelasi dengan peubah tersebut.
Cara lain menangani kasus multikolinearitas dalam analisis regresi adalah dengan menambah data pengamatan. Namun hal ini akan tidak efisien jika data pengamatan yang tersedia sangat terbatas dan tidak memungkinkan untuk memperoleh data pengamatan baru. Sebagai alternatif, dapat digunakan analisis regresi Partial Least Square (PLSR). PLSR sering digunakan dalam estimasi model pada saat data pengamatan yang diperoleh terbatas sedangkan peubah bebas cukup banyak, serta terjadi kasus multikolinearitas.
Regresi Partial least square (PLSR) adalah suatu teknik regresi multivariate yang diperkenalkan oleh Wold (1982) yang digunakan untuk membangun model yang bersifat prediksi[1]. PLS merupakan teknik regresi tidak langsung dimana varians dari peubah respon dikaitkan dengan besarnya peubah bebas melalui satu atau beberapa faktor yang didefinisikan sebagai kombinasi linear dari peubah bebas. PLSR merupakan salah satu metode yang didesain untuk menyelesaikan regresi linear berganda ketika terjadi permasalahan spesifik pada data, seperti ukuran sampel penelitian yang kecil (microarray data), adanya data yang hilang (missing values), terjadi multikolinearitas, dan dapat mengukur dengan tipe data yang berbeda-beda [2]. Untuk melihat kinerja PLSR dalam menangani kasus multikolinearitas, analisis ini diaplikasikan dalam estimasi model tingkat kesejahteraan masyarakat yang dilihat dari indeks pembangunan manusia (IPM) berdasarkan faktor-faktor yang memengaruhinya.
Penelitian ini juga melihat pengaruh faktor kepadatan penduduk, angka melek huruf, rata-rata lama sekolah, angka harapan hidup, pengeluaran perkapita, persentase rata-rata-rata-rata pengeluaran untuk konsumsi, persentase rumah tangga yang memiliki fasilitas air minum sendiri, persentase rumah tangga dengan lantai bukan tanah, persentase rumah tangga dengan luas lantai kurang dari 20 m2, persentase rumah tangga dengan dinding tembok, persentase rumah tangga dengan penerangan PLN, persentase rumah tangga memiliki fasilitas buang air besar sendiri, persentase penduduk miskin, tingkat pengangguran terbuka, dan jumlah
penduduk bekerja terhadap tingkat kesejahteraan masyarakat di Provinsi Bali sebagai set data kecil (banyak data pengamatan lebih kecil dari banyak peubah bebas).
2. DATA DAN METODE
Data dalam penelitian ini adalah data tingkat kesejahteraan masyarakat tiap kabupaten-kota yang diukur berdasarkan Indeks Pembangunan Manusia (IPM) di Provinsi Bali sebagai peubah respon dengan peubah bebas meliputi:(1)kepadatan penduduk 𝑋1 , (2)angka melek huruf 𝑋2 , (3)rata-rata lamasekolah 𝑋3 , (4)angka harapan hidup 𝑋4 , (5)pengeluaran
perka-pita 𝑋5 , (6)prosentase rata-rata pengeluaran untuk konsumsi 𝑋6 , (7)persentase rumah
tangga yang memiliki fasilitas air minum sendiri 𝑋7 , (8) persentase rumah tangga dengan lantai bukan tanah 𝑋8 , (9)persentase rumah tangga dengan luas lantai kurang dari 20
m2 𝑋9 , (10)persentase rumah tangga dengan dinding tembok 𝑋10 , (11)persentase rumah
tangga dengan penerangan PLN 𝑋11 , (12)persentase rumah tangga memiliki fasilitas buang air besar sendiri 𝑋12 , (13)persentase penduduk miskin 𝑋13 , (14)tingkat pengangguran
terbuka 𝑋14 , dan (15)jumlah penduduk bekerja pada tiap kabupaten-kota di provinsi Bali 𝑋15 .
Langkah-langkah dalam analisis data meliputi:
1. Menunjukkan adanya kasus multikolinearitas pada set data, dengan menguji signifikansi korelasi antar peubah bebas, dan melihat nilai Variance Inflated Factor (VIF).
2. Membentuk model regresi dengan metode stepwise.
3. Melakukan diagnostik model, dan interpretasi model estimasi metode stepwise. 4. Membentuk model regresi PLSR
5. Interpretasi model estimasi PLSR 6. Menilai efektivitas kinerja PLSR
3. HASIL DAN PEMBAHASAN
Deskripsi data penelitian untuk set data kecil (banyak data amatan lebih kecil dari banyak peubah bebas) yaitu tingkat kesejahteraan masyarakat (IPM) Provinsi Bali (IPM) tahun 2014 dan faktor-faktor yang memengaruhinya dinyatakan dalam Tabel 1.
Tabel 1 Statistika Deskriptif Indeks Pembangunan Manusia Provinsi Bali
Peubah N Mean StDev Minimum Q1 Median Q3 Maximum
Y 9 74.09 3.15 68.47 72.27 74.29 76.28 79.41 X1 9 1345 2019 318 445 513 1364 6622 X2 9 89.55 5.42 79.15 85.66 90.53 92.47 97.95 X3 9 8.146 1.541 5.900 7.065 7.870 9.205 11.050 X4 9 71.722 2.065 68.320 69.760 72.240 73.010 74.910 X5 9 884746 323641 557906 631232 742914 1145740 1474889 X6 9 45.78 5.61 37.89 39.82 47.65 49.96 54.23
I G.A.M. Srinadi dan I N. Widana Estimasi model PLSR dalam kasus Multikolinearitas… X7 9 52.53 9.02 32.79 48.59 54.91 58.33 64.40 X8 9 97.503 1.880 94.540 95.520 98.310 99.120 99.520 X9 9 11.10 11.61 1.76 4.25 6.61 16.84 36.86 X10 9 95.319 2.680 89.800 94.170 95.490 97.320 99.150 X11 9 99.231 0.854 97.460 98.640 99.590 99.810 100.000 X12 9 66.49 10.40 49.53 56.64 70.84 73.06 80.06 X13 9 5.022 1.782 2.070 3.365 5.450 6.595 7.010 X14 9 1.822 0.949 0.770 0.800 2.080 2.475 3.460 X15 9 249120 109123 99416 137867 262044 335218 429844
Sumber: Data diolah (2016)
Multikolinearitas pada analisis regresi linear berganda salah satunya dapat dideteksi dengan melihat signifikansi korelasi linear antarpeubah bebasnya.
Korelasi linear antarpeubah dikatakan signifikan apabila p-value korelasi antar peubah lebih kecil dari taraf nyata yang ditetapkan, untuk penelitian ini yang termasuk kasus sosial maka ditetapkan taraf nyata 10%. Korelasi linear peubah respon IPM dengan 15 peubah bebas pada taraf nyata 10% terdapat 4 peubah bebas yang tidak signifikan korelasinya yaitu persentase rumah tangga yang memiliki fasilitas air minum sendiri (X7), persentase rumah
tangga dengan dinding tembok (X10), pengangguran terbuka (X14) dan jumlah penduduk
bekerja (X15) pada kabupaten-kota di Provinsi Bali. Antarpeubah bebas terjadi korelasi linear
yang signifikan hampir pada semua peubah bebas, hanya peubah bebas persentase rumah tangga dengan dinding tembok, pengangguran terbuka, dan jumlah penduduk bekerja saja yang korelasinya tidak signifikan pada taraf 10% dengan peubah bebas lainnya. Hal ini mengindikasikan terjadi kasus multikolineraritas pada set data kecil.
Estimasi model regresi linear berganda untuk set data kecil, dengan banyak data 9 kabupaten-kota di Provinsi Bali dengan 15 peubah bebas tidak dapat diperoleh dengan metode kuadrat terkecil biasa (OLS-ordinary least square) karena terjadi kendala dalam derajat bebas galat sehingga analisis tidak bisa dilakukan.Karena terjadinya kasus multiko-linearitas, maka digunakan pemilihan model terbaik dengan menggunakan metode-stepwise, analisis ragam dari estimasi model regresi diuraikan pada Tabel 2.
Tabel 2. Analisis Ragam Metode Stepwise
Source DF Adj SS Adj MS F-Value P-Value Regression 2 78.5127 39.2563 247.51 0.000 X3 1 24.2106 24.2106 152.65 0.000 X4 1 5.6259 5.6259 35.47 0.001 Error 6 0.9516 0.1586 Total 8 79.4643 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.398251 98.80% 98.40% 97.60% Coefficients
Term Coef SE Coef T-Value P-Value VIF Constant 23.51 5.86 4.01 0.007 X3 1.490 0.121 12.36 0.000 1.74 X4 0.5361 0.0900 5.96 0.001 1.74
Estimasi model dengan metode stepwise dinyatakan sebagai:
𝑌 = 23,51 + 1,490 𝑋3+ 0,5361 𝑋4
Analisis ragam metode stepwise memperlihatkan bahwa dari 15 peubah bebas, hanya dua peubah bebas sudah mampu mewakili keseluruhan peubah sebesar 98,4%. Bila hanya memperhatikan estimasi model, terlihat hanya rataan lama sekolah dan angka harapan hidup yang berpengaruh pada tingkat kesejahteraan masyarakat yang dinyatakan dalam indeks pembangunan manusia (IPM). Analisis korelasi menunjukkan bahwa 12 peubah bebas berkorelasi signifikan dengan IPM, namun hanya dua peubah saja yang masuk dalam model, ini diakibatkan karena 10 peubah bebas lainnya berkorelasi signifikan dengan kedua peubah tersebut, maka pengaruh dari peubah bebas yang tidak masuk ke dalam model telah terwakili oleh kedua peubah yang masuk dalam model. Diagnostik model dengan melihat plot kenormalan galat, plot antara nilai dugaan dan galat, histogram galat, dan plot amatan terurut dengan galat ditampilkan pada Gambar 1.
Gambar 1 Diagnostik model regresi OLS-stepwise
Diagnostik model berdasarkan Gambar 1 memperlihatkan model estimasi telah memenuhi asumsi analisis regresi linear berganda sehingga estimasi model dapat dikatakan valid.
Untuk menentukan estimasi model dalam kasus multikolinearitas, tanpa menghilangkan peubah yang berkorelasi signifikan dengan peubah respon namun berkorelasi dengan peubah bebas lain, digunakan analisis regresi partial least square (PLSR) dengan metode
Cross-validation : Leave-one-out dengan 2 komponen yang terpilih dari 7 komponen yang
terhitung. Analisis ragam model PLSR diuraikan dalam Tabel 3.
Tabel 3 Analisis Ragam Model PLSR
Sumber Keragaman Derajat Bebas Jumlah Kuadrat Kuadrat Tengah F-hitung p-value
Regresi 2 78,3383 39,1691 208,72 0,000 Galat 6 1,1260 0,1877
I G.A.M. Srinadi dan I N. Widana Estimasi model PLSR dalam kasus Multikolinearitas…
Model estimasi PLSR set data kecil (tingkat kesejahteraan masyarakat Provinsi Bali adalah :
𝑌 = 1,86246 + 0,00007 𝑋1+ 0,11091 𝑋2 + 0,25319 𝑋3+ 0,35251 𝑋4 − 0,000001 𝑋5– 0,06112 𝑋6+ 0,02846 𝑋7+ 0,08029 𝑋8 + 0,01166 𝑋9 – 0,07660 𝑋10+ 0,33667 𝑋11
+ 0,03419 𝑋12 – 0,17878 𝑋13 + 0,11427 𝑋14− 0,000001𝑋15
Model estimasi PLS-R ini memiliki koefisien determinasi sebesar 98,58%. Visualisasi posisi data respon observasi dan estimasinya, plot nilai estimasi dan galat serta plot kenormalan galat dari estimasi model PLSR ditampilkan pada Gambar 2.
Gambar 2. Plot diagnostik analisis PLSR
Diagnostik model PLSR menunjukkan nilai estimasi model dan nilai observasi hampir berimpit, galat atau sisaan sudah menyebar secara acak (tidak berpola) dan galat berdistribusi normal), mengindikasikan bahwa estimasi model PLSR bersifat valid dengan koefisien determinasi 98, 58%.
4. SIMPULAN
Estimasi model regresi pada data set kecil dengan banyak amatan lebih sedikit dari banyak peubah bebas tidak dapat ditentukan dengan metode kuadrat terkecil (OLS) karena terjadi kendala dalam derajat bebas galat. Penentuan model estimasi pada data tersebut dapat
80.0 77.5 75.0 72.5 70.0 80.0 77.5 75.0 72.5 70.0 Actual Response C al cu la te d R es po ns e Fitted Crossval Variable PLS Response Plot (response is IPM) 2 components
dilakukan melalui metode-stepwise, adanya proses pemilihan peubah bebas yang masuk ke dalam model sehingga tidak dimungkinkan semua peubah masuk ke dalam model. Untuk data Indek pembangunan manusia di kabupaten-kota di Provinsi Bali dengan 15 peubah bebas yang dianalisis diperoleh model estimasi:
𝑌 = 23,51 + 1,490 𝑋3+ 0,5361 𝑋4
dengan koefisien determinasi sebesar 98,4 %.
Estimasi model regresi untuk data yang sama dengan metode partial least square (PLSR) diperoleh model estimasi:
𝑌 = 1,86246 + 0,00007 𝑋1+ 0,11091 𝑋2 + 0,25319 𝑋3+ 0,35251 𝑋4
− 0,000001 𝑋5– 0,06112 𝑋6+ 0,02846 𝑋7+ 0,08029 𝑋8
+ 0,01166 𝑋9 – 0,07660 𝑋10+ 0,33667 𝑋11
+ 0,03419 𝑋12 – 0,17878 𝑋13 + 0,11427 𝑋14− 0,000001𝑋15 dengan koefisien determinasi sebesar 98,58%.
DAFTAR PUSTAKA
[1] Abdi, H, Partial Least Squares Regression (PLSR). University of Texas, 2006.
[2] Esposito, V., Wynee, Henseler, J., and Wang, Huiwen, Handbook of Partial least Squares. Germany: Springer, 2010.
[3] Montgomery, D.C. dan Peck, E.A, Introduction to Linear Regression Analysis, 3rd Ed., New York :John Wiley & Sons, Inc., 2007