MODEL REGRESI SEMI PARAMETRIK DENGAN ESTIMATOR SPLINE PARSIAL
Aplikasi Pada Faktor Yang Mempengaruhi Prestasi Belajar (Nilai Praktek) Mahasiswa Sekolah Tinggi Ilmu Kesehatan William Booth Surabaya
Erika Untari Dewi,SKep,Ns Email : [email protected]
ABSTRACT
Practical value is one indicator of the quality improvement of health education, especially in terms of nursing care competency which is currently the society demands. Variables that affect value practice are theory, IQ value , test entrance scores, income of parent and direction of Senior High School used as predictor variables. Regression analysis can be done through two approaches, the most common approach and is often used was the parametric approach which assumes that the regression function shape was known and if there is no any information about the regression function shape of the approach used a nonparametric approach. If both approaches are combined is formed semiparametric approach. Semiparametric regression estimation technique used Spline, because Spline has the advantage because to overcome that showed pattern behavioral changes in a particular sub with knot points. The purpose of this study was to examine the spline semiparametric estimator multivariable regression model using least squares and choose the best spline regression models with Generalized Cross Validation criterion (GCV) and the Mean Square Error (MSE) and application to Practical value help program S-Plus. The data used are the average data value student practice William Booth Surabaya Collage of health science against the average value of the theory, the IQ value, entrance test scores, parental income and direction of Senior High School The results showed that the best regression model was a spline regression multivariable model spline knot point mixed, with minimum GCV, 4.946838, MSE 4.405518. and determination coefficient (R2) 0.6444852.
Keywords: Generalized Cross Validation (GCV), Least Square, Mean Square
1. Pendahuluan
Analisis Regresi merupakan bentuk analisis
hubungan antara variabel prediktor atau
Independen atau variabel bebas dengan variabel outcome atau dependen atau terikat untuk mengetahui bentuk hubungan variabel-variabel tersebut (Yasril, dkk., 2009). Dalam analisis regresi terdapat tiga pendekatan yang digunakan
untuk mengestimasi kurva regresi, yaitu
pendekatan regresi parametrik, regresi
semiparametrik dan regresi nonparametrik.
Apabila dalam analisis regresi bentuk kurva regresi diketahui maka pendekatan model regresi
tersebut disebut model regresi parametrik
(Hardle,1990 dan Budiantara, 2006). Beberapa kasus, variabel respon dapat memiliki hubungan linear dengan salah satu variabel prediktor, tetapi dengan variabel prediktor yang lain tidak diketahui bentuk pola hubungannya. Dalam keadaan seperti ini, Wahba, (1990) menyarankan penggunaan pendekatan regresi semiparametrik. Apabila bagian parametriknya dapat dipolakan linier, maka regresi semiparametrik ini disebut regresi linier parsial.
Beberapa model regresi semiparametrik yang populer adalah regresi semiparametrik Kernel, Spline, Polinomial Lokal, Deret Fourier, dan yang lainnya. Eubank (1988) menyatakan di
antara model regresi nonparametrik dan
semiparametrik di atas, spline merupakan salah satu model yang mempunyai interpretasi statistik dan interpretasi visual sangat khusus dan sangat
baik. Untuk mengestimasi basis fungsi Spline
dapat digunakan metode least-squares spline.
Estimator spline diperoleh dari suatu optimasi
penalized least square (PLS) dan memiliki
fleksibilitas yang tinggi (Budiantara, 2005). Di
samping spline mampu menangani karakter
data/fungsi yang bersifat mulus (smooth), spline
juga memiliki kemampuan yang sangat baik untuk menangani data yang perilakunya berubah-ubah pada sub-sub interval tertentu (Cox dan O’Sullivan, 1996 dan Budiantara, 2006).
Untuk mengetahui bentuk kurva
regresinya maka dilakukan scatter plot terhadap
variabel-variabel yang diasumsikan
mempengaruhi prestasi belajar dalam hal ini nilai yang digunakan adalah nilai praktek mahasiswa STIKES William Booth Surabaya, dari kelima variabel yang mempengaruhi nilai praktek yaitu nilai IQ, nilai ujian masuk, penghasilan orang tua, penjurusan SMA dan nilai teori tersebut terdapat variabel yang kurva regresinya cenderung membentuk suatu pola tertentu dan terdapat pula variabel lain yang bentuk kurva regresinya tidak diketahui, sehingga untuk mengatasi kasus seperti ini, digunakan pendekatan regresi semiparametrik
yang merupakan gabungan antara regresi
parametrik dan regresi nonparametrik, oleh karena itu, dalam penelitian ini akan dibahas estimator spline parsial dalam regresi semiparametrik dan
terapannya untuk menduga nilai praktek
mahasiswa STIKES William Booth Surabaya.
2 Metode Penelitian
Rancang bangun penelitian ini pemodelan
regresi semiparametrik spline, adalah salah satu
jenis piecewise polynomial, yaitu polynomial
yang memiliki sifat tersegmen. Data yang digunakan adalah data sekunder yang diambil dari data bagian evaluasi STIKES William Booth Surabaya. Variabel yang digunakan dalam
penelitian ini adalah: 1.Variabel Respon y :
rata-rata nilai praktek pada mata ajar Keperawatan Medikal Bedah IV, Keperawatan Jiwa dan
Keperawatan Komunitas pada semester
V.2.Variabel prediktornya adalah merupakan
variabel – variabel yang diasumsikan
mempengaruhi Nilai Praktek, diantaranya sebagai berikut:
a. t1 = Nilai Kecerdasan / Intelligence Quatient (IQ)
b. t2 = Nilai Ujian Masuk STIKES William Booth Surabaya
c. t3 = Penghasilan orang tua d. t4 = Penjurusan SMA.
e.X : rata-rata nilai teori dari mata ajar
Keperawatan Medikal Bedah IV,
Keperawatan Jiwa dan Keperawatan
Komunitas pada semester V.
Pengolahan dan Analisis Data melalui
Mengkaji bentuk estimator model
Semiparametrik dengan menggunakan
pendekatan spline, Membuat perkiraan jumlah dan letak titik knot, tentukan nilai GCV terkecil dan titik knot optimal kemudian mengintrepretasi model.
3. Hasil Penelitian
3.1 Aplikasi model data pada faktor yang mempengaruhi nilai praktek berdasarkan scatter plot data
3.1.1 Intelegensi (IQ) dengan nilai praktek 130 120 110 100 90 80 82 80 78 76 74 72 70 IQ n ila i p ra k te k
Scatterplot of nilai praktek vs IQ
Gambar 3.1 Scatterplot antara IQ dan nilai
praktek
Berdasarkan gambar 3.1 dapat diketahui bahwa scatterplot antara IQ dan nilai praktek tidak menunjukkan kecenderungan pola tertentu
3.1.2 Nilai masuk dengan nilai praktek
70 60 50 40 30 20 10 82 80 78 76 74 72 70 nilai masuk ni la i p ra kt ek
Scatterplot of nilai praktek vs nilai masuk
Gambar 3.2 Scatterplot antara nilai ujian masuk
dan nilai praktek
Berdasarkan gambar 3.2 dapat diketahui bahwa scatterplot antara nilai ujian masuk dan nilai praktek tidak menunjukkan kecenderungan pola tertentu
3.1.3 Penghasilan dengan nilai praktek
4.00 3.75 3.50 3.25 3.00 2.75 2.50 82 80 78 76 74 72 70 penghasilan n ila i p ra kt e k
Scatterplot of nilai praktek vs penghasilan
Gambar 3.3 Scatterplot antara penghasilan orang
tua dan nilai praktek
Berdasarkan gambar 3.3 dapat diketahui bahwa scatterplot antara penghasilan orang tua dan nilai praktek tidak menunjukkan kecenderungan pola tertentu.
3.1.4 Penjurusan SMA dengan nilai praktek
2.0 1.8 1.6 1.4 1.2 1.0 82 80 78 76 74 72 70 penjurusan n ila i p ra kt e k
Scatterplot of nilai praktek vs penjurusan
Gambar 3.4 Scatterplot antara penjurusan SMA
dengan nilai praktek
Berdasarkan gambar 3.4 dapat diketahui bahwa scatterplot antara penjurusan SMA dan nilai praktek tidak menunjukkan kecenderungan pola tertentu
3.1.5 Nilai teori dengan nilai praktek
80 75 70 65 60 82 80 78 76 74 72 70 nilai teori n ila i p ra kt ek
Scatterplot of nilai praktek vs nilai teori
Gambar 3.5 Scatterplot antara nilai teori dan nilai praktek
Berdasarkan gambar 3.5 dapat diketahui bahwa scatterplot antara nilai teori dan nilai praktek polanya cenderung jika nilai teori tinggi maka nilai praktek juga tinggi.
4. Pemilihan Model Terbaik
4.1 Model terbaik nilai praktek dengan nilai teori 80 75 70 65 60 82 80 78 76 74 72 70 nilai teori n ila i p ra kt e k S 2.43438 R-Sq 45.5% R-Sq(adj) 43.4%
Fitted Line Plot
nilai praktek = - 56.18 + 3.438 nilai teori - 0.02172 nilai teori**2
Gambar 4.1 Fitted line plot kuadratik antara nilai teori dan nilai praktek
Berdasarkan diatas plot antara nilai teori dengan nilai praktek menunjukkan hubungan bahwa antara rata-rata nilai teori dan nilai praktek adalah suatu hubungan kuadratik. Dengan menggunakan metode least square diperoleh nilai Estimasi pada tabel berikut
Tabel Estimasi model parametrik
Parameter Estimasi
̂ -56.18
̂ 3.438
̂ – 0.02172
Sehingga Estimasi model tersebut adalah
̂ Pengujian model spline parametrik yang telah diperoleh diatas sebelum digunakan, akan terlebih akan terlebih dahulu dilakukan pengujian terhadap pemenuhan asumsi. Langkah pertama yang dilakukan adalah menguji apakah residual berdistribusi normal, untuk menguji asumsi tersebut digunakan uji Kolmogorov-Smirnov, dengan hipotesis
H0 : Residual berdistribusi normal H1 : Residual tidak berdistribusi normal
Dengan menggunakan α =0,05. Jika p value > α, maka H0 diterima, artinya residual berdistribusi normal, dan jika p value < α, maka H1 diterima artinya residual tidak berdistribusi normal. Berikut ini disajikan nilai plot dari uji kenormalan residual sebagai berikut :
Gambar 4.2 Plot normalitas residual parametrik
nilai teori
Berdasarkan hasil asumsi residual menunjukkan bahwa nilai statistik Kolmogorov Spirnov adalah 0,716, yang berarti lebih besar dari 0,05 maka H0 diterima berarti residual berdistribusi normal.
4.2 Model terbaik Semiparametrik
Berdasarkan hasil analisis sebelumnya, yaitu analisis regresi semiparametrik menggunakan pendekatan spline linier dan kuadratik untuk satu
dan dua knot menunjukkan model yang berbeda-beda dengan nilai GCV yang berberbeda-beda-berbeda-beda pula. Oleh karena itu dilakukan pemilihan model terbaik berdasarkan dari nilai GCV yang paling minimum. Berikut ini hasil rangkuman pemilihan model terbaiknya
Tabel 4.1 Nilai GCV analisis multivariabel
KNOT GCV
Linier Satu Knot 4.946838
Dua Knot 5.150533
Kuadratik Satu Knot 5.682088
Dua Knot 5.873924
Hasil rangkuman nilai GCV untuk masing-masing model menunjukkan bahwa nilai GCV paling minimum terdapat pada model regresi semiparametrik dengan pendekatan spline linier satu titik knot. Nilai GCVnya sebesar 4.946838, sehingga dapat disimpulkan bahwa model terbaik regresi semiparametrik untuk memodelkan variabel rata-rata nilai praktek dengan variabel rata-rata nilai teori, IQ, rata-rata nilai ujian masuk, penghasilan orangtua dan penjurusan SMA adalah seperti berikut.
̂
Model regresi spline multivariable terbaik yang sudah didapat mempunyai koefisien determinan yang lebih besar (64.44%), daripada koefisien determinan model regresi multivariabel yaitu sebesar 59,5%, (hasil pada lampiran). Maka model regresi multivariable dengan koefisien determinan R² 64,44% menunjukkan bahwa
variable-variabel predictor hanya mampu
menjelaskan nilai praktek sebesar 64,44% dan selebihnya dijelaskan oleh variabel-variabel lain.
4.3 Pengujian Model Spline
Model spline multivariable yang telah diperoleh sebelum digunakan, akan terlebih dahulu dilakukan pengujian terhadap pemenuhan asumsi. Langkah pertama yang dilakukan adalah menguji apakah residual berdistribusi normal, untuk menguji asumsi tersebut digunakan uji Kolmogorov-Smirnov, dengan hipotesis :
H0 : Residual berdistribusi normal H1 : Residual tidak berdistribusi normal
Dengan menggunakan α =0,05. Jika p value > α, maka H0 diterima, artinya residual berdistribusi normal, dan jika p value < α, maka H1 diterima
artinya residual tidak berdistribusi normal. Berikut ini disajikan plot dari uji kenormalan residual sebagai berikut :
Gambar 4.3 Plot Normalitas Residual
semiparametrik multivariable
Berdasarkan hasil pemeriksaan asumsi residual menunjukkan bahwa p value > α (α=0,05), nilai statistik Kolmogorov-Smirnov adalah 0,695 maka H0 diterima sehingga dapat disimpulkan bahwa residual berdistribusi normal sehingga model spline multivariabel bisa digunakan.
Langkah selanjutnya adalah menguji apakah residual independent, yaitu dengan melihat plot Autocorrelation Function ACF dari residual hipotesisnya sebagai berikut :
H0 : Tidak ada korelasi antara residual (independent)
H1 : Ada korelasi antara residual (tidak independent)
Gambar 4.4 Plot Autocorrelation Function ACF
semiparametrik multivariable
Berdasarkan gambar 4.4 tampak bahwa tidak ada lag yang keluar batas, sehingga H0 diterima, dan
dapat dikatakan bahwa residual saling
independent sehingga model spline
semiparametrik multivariable bisa digunakan.
5. Pembahasan
Setelah dicobakan dengan beberapa pendekatan regresi semiparametrik multivariabel dengan model spline linier dan kuadratik, sehingga diperoleh estimasi model terbaik adalah :
̂
Melihat arti persamaan-persamaan atau
beberapa model yang terpilih tersebut diatas menuntut kita untuk bijaksana dalam melihat hal ini karena apabila kita cermati untuk model spline yang lain mempuyai kesimpulan yang lebih baik walaupun nilai GCVnya lebih besar. Dalam uji nonparametrik terdapat beberapa kelemahan
dibandingkan pengujian parametrik yang
membutuhkan data atau sampel lebih banyak dibandingkan uji parametrik lainnya, untuk mengurangi probabilitas kesalahan jenis yang sama. Dengan demikian, bila data telah memenuhi semua asumsi model statistik parameternya, maka sebaiknya memakai uji parametrik daripada uji nonparametrik karena di samping lebih efisien, uji parametrik dapat mengetahui suatu perbedaan yang tidak diketahui dalam uji nonparametrik. Bentuk estimator spline sangat dipengaruhi oleh nilai parameter penghalus (Budihantara, 2000). Oleh karena itu, pemilihan titik knot optimal mutlak diperlukan untuk memperoleh estimator spline yang sesuai dengan data. Bentuk estimator spline juga dipengaruhi oleh lokasi dan banyaknya titik-titik knot. Eubank (1988) menyimpulkan bahwa pemilihan fungsi optimal dalam regresi spline pada hakekatnya merupakan pemilihan lokasi titik knot. Untuk nilai fungsi yang sangat besar akan menghasilkan bentuk kurva regresi yang sangat halus. Sebaliknya untuk nilai fungsi yang kecil akan memberikan bentuk kurva regresi yang sangat kasar (Wahba, 1990; Eubank, 1988; Budiantara, 1998). Analisis titik knot yang penulis sajikan sampai dengan titik knot kedua saja
ternyata memberikan model yang kurang
sempurna sehingga sebenarnya diperlukan analisis lebih dari dua titik knot sehingga mempunyai hasil pemodelan yang lebih baik. Model regresi
spline multivariable terbaik yang sudah
didapatkan mempunyai koefisien determinan yang
lebih besar (64,44%), daripada koefisien
determinan model regresi multivariable yaitu sebesar 59,5% ( pada lampiran ), maka model regresi spline multivariable terbaik dengan koefisien determinan R² 64,44% menunjukkan bahwa variable-variabel prediktor hanya mampu menjelaskan nilai praktek sebesar 64,44% danselebihnya dijelaskan oleh variabel-variabel lain, hanya saja dalam menentukan model regresi spline multivariabel memerlukan penghitungan
dan cara yang lebih rumit disbanding regresi multivariabel.
6. Kesimpulan dan Saran
Estimasi model terbaik adalah :
̂
Pengujian model menerangkan bahwa dengan tingkat signifikansi 5% rata nilai teori, rata-rata nilai IQ, rata-rata-rata-rata nilai Ujian masuk, rata-rata-rata-rata penghasilan orang tua dan penjurusan SMA memberikan pengaruh yang berarti terhadap rata-rata nilai praktek mahasiswa Sekolah Tingi Ilmu Kesehatan William Booth Surabaya
Saran
1 Penelitian selanjutnya perlu dikembangkan jumlah sampel yang lebih banyak sehingga dapat diketahui pengaruhnya terhadap pola perubahan nilai MSE dan GCV dan perubahannya pada nilai R-Square model lebih baik dan menhasilkan pemodelan spline regresi semiparametrik yang lebih baik pula.
2 Pada penelitian selanjutnya perlu dikembangkan model spline kubik dan analisis titik knot lebih banyak sehingga memberikan analisis yang lebih rinci dan akan menghasilkan pemodelan yang lebih baik.
3 Penambahan data base seperti motivasi, kebiasaan belajar, dukungan orang tua dan lingkungan di awal mahasiswa masuk untuk dapat memprediksi pemodelan terkait dengan faktor yang mempengaruhi prestasi belajar sehingga dapat dilakukan pembinaan pada mahasiswa yang dirasa kurang.
AFTAR PUSTAKA
Baharudin dan Esa Nur Wahyuni. (2007). Teori
Belajar dan pembelajaran, Ar- Ruzz Media,Yogyakarta.
Budiantara, I N. (2009). “Spline Dalam Regresi
Nonparametrik Dan Semiparametrik:
Sebuah Pemodelan Statistika Masa Kini dan
Masa Mendatang”, Pidato Pengukuhan
Untuk Jabatan Guru Besar Dalam Bidang Ilmu Matematika Statistika dan Probabilitas,
Pada Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, ITS Press, Surabaya.
Budiantara, I. N. (2006a), “Regresi
Nonparametrik Dalam Statistika”, Makalah
Pembicara Utama pada Seminar Nasional Matematika, Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Negeri Makasar (UNM),
Makasar.
Budiantara, I. N. (2005), “Model Keluarga Spline
Polinomial Truncated Dalam Regresi
Semiparametrik”, Makalah Seminar
Nasional Matematika, Jurusan Matematika
Universitas Diponegoro, Semarang.
Budiantara, I. N., (2001a),” Regresi
Nonparametrik dan Semiparametrik Serta
Perkembangannya”, Makalah Pembicara
Utama pada Seminar Nasional Alumni Pasca Sarjana Matematika Universitas Gadjah Mada, Yogyakarta.
Budiantara, I. N., (2001b), “Estimasi Parametrik dan Nonparametrik untuk Pendekatan Kurva
Regresi”, Makalah Pembicara Utama pada
Seminar Nasional Statistika V, Jurusan
Statistika, Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Teknologi
Sepuluh Nopember (ITS), Surabaya.
Budiantara, I. N. (2000b),” Optimasi dan Proyeksi Dalam Regresi Nonparametrik
Spline”, Majalah Berkala Matematika dan
Ilmu Pengetahuan Alam (BMIPA),
Universitas Gadjah Mada, 10, 35-44.
Enggle, R.F., Grangger, C.W.J., Rice, J. and Weiss, A., (1986), Semiparametric Estimates of Relation Between Weather and Electric
Sales, Journal of the American Statistical
Association., 81, 310-320.
Eubank, R.L. (1999), Nonparametric Regression
and Spline Smoothing Second
Edition, Marcel Deker, New York.
Lestari, B., (2008a). Spline estimator of
biresponse nonparametric regression model
with unequal variances of errors. J.
Penelitian Math., 15: 85-93.
Lestari, B., (2008b). Penalized weighted
least-squares estimator for bivariate
correlated errors. Proceeding of the National Seminar on Mathematics and Statistics, (MS’08), Airlangga University, Surabaya, pp: 83-95.
Lestari, B., I.N. Budiantara, S. Sunaryo and M.
Mashuri, (2010), Spline estimator in
homoscedastic Multiresponse nonparametric regression model. Proceeding of the Indo
MS International Conference on
Mathematics and Its Application, Oct. 12-13, Yogyakarta, Indonesia, pp: 845-854.
Notoatmodjo, S. (1997). Pengantar pendidikan
Kesehatan dan Ilmu Perilaku Kesehatan, Andi Offset, Yogyakarta
Sunaryo, S., dan Purwahyuningsih, W. (2010), “Pendekatan Regresi Semiparametrik Spline (Pada data nilai Ujian Nasional siswa SMKN
1 Nguling Pasuruan”), Surabaya, Seminar