FUNGSI GOODNESS OF FIT DALAM KRITERIA
PENALIZED SPLINE PADA ESTIMASI REGRESI
NONPARAMETRIK BIRESPON UNTUK DATA
LONGITUDINAL
Anna Islamiyati1), Fatmawati2), Nur Chamidah3)
1)
Program Studi Statistika Departemen Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Hasanuddin
Jl. Perintis Kemerdekaan KM. 10 Tamalanrea, Makassar
1)
annaislamiyati701@gmail.com
1)
Mahasiswa Program S3 Departemen Matematika Fakultas Sains dan Teknologi Universitas Airlangga Kampus C Mulyorejo, Surabaya, Surabaya
1)annaislamiyati701@gmail.com
2)3)
Departemen Matematika Fakultas Sains dan Teknologi Universitas Airlangga Kampus C Mulyorejo, Surabaya, Surabaya
2)
fatmawati@fst.unair.ac.id
3)
nur-c@fst.unair.ac.id
Abstract— Kriteria regresi penalized spline terdiri atas dua fungsi yaitu fungsi goodness of fit yang memuat titik knot dan fungsi penalti yang memuat parameter smoothing. Fungsi goodness of fit menyatakan ketepatan kurva regresi dengan mempertimbangkan nilai mean square error. Artikel ini menguraikan fungsi goodness of fit dari estimator
penalized spline yang digunakan dalam estimasi
model regresi nonparametrik dengan melibatkan dua respon pada data longitudinal.Berdasarkan studi simulasi, diperoleh estimasi kurva regresi dengan beberapa pola perubahan data berdasarkan titik knot. Pola perubahan yang terjadi pada data terlihat secara visual, sehingga memudahkan peneliti dalam menginterpretasikan data.
Keywords— bi-respon, data longitudinal, fungsi
goodness of fit, knot, penalized spline, regresi
nonparametrik
I. PENDAHULUAN
Data longitudinal adalah data yang diukur berulang kali berdasarkan waktu pengukuran. Data longitudinal diasumsikan bahwa setiap subyek yang diukur tidak saling berkorelasi, tetapi antar data pengamatan di dalam subyek yang sama saling berkorelasi. Wang (2003) merekomendasikan penggunaan regresi nonparametrik untuk data longitudinal. Regresi nonparametrik digunakan ketika pola data tidak mengikuti fungsi parametrik, atau terdapat informasi-informasi awal penelitian mengenai kondisi data yang diteliti.
Penelitian regresi nonparametrik pada data longitudinal telah dibahas oleh Wu dan Zhang (2002) menggunakan estimator polinomial lokal,Cardot, Crambes, Kneip dan Sarda (2007)
menggunakan estimator splinesmoothing.Yao danLee (2006),Liang dan Xiao (2006), Chen dan Wang (2011), Heckman, Lockhart dan Nielsen
(2013) menggunakan estimator
penalizedsplinedalam model efek acak campuran. Namun, penelitian tersebut hanya melibatkan satu respon dalam model regresi. Sementara dalam beberapa kasus, sering melibatkan respon lebih dari satu. Seperti dalam penelitian data cross section yang dilakukan olehChamidah, Budiantara, Sunaryo dan Ismaini (2012) dengan estimator polinomial lokal. Chamidah dan Saifuddin (2013) menggunakan estimator kernel. Chamidah dan Eridani (2015) menggunakan model regresi semiparametrik dengan estimator P-spline. Lestari, Budiantara, Sunaryo dan Mashuri (2010) menggunakan estimator splinesmoothing. Adapun kasus birespon pada data longitudinal telah diteliti oleh Wang, Guo dan Brown (2000) dan Fernandez, Budiantara dan Otok (2014) yang memodelkan data longitudinal birespon dengan spline smoothing. Estimator spline smoothinghanya melibatkan parameter smoothing dalam mengontrol kemulusan kurva regresi. Biasanya dalam analisis data riil, selain kurva yang smooth juga sangat dibutuhkan kurva regresi yang dapat diinterpretasikan secara visual. Oleh sebab itu, untuk kebutuhan tersebut, artikel ini memaparkan penggunaan estimator penalized spline dalam kasus data longitudinal birespon.
Sejauh ini, penelitian tentang estimator penalized spline masih sebatas pada penggunaan satu respon dengan data cross section. Ruppert (1997, 2002), Claeskens, Kribovokova dan Opsomer (2007), dan Montoya, Ulloa dan Miller
estimatorpenalizedsplinedengan mengambil bentuk truncated sebagai dasar pembentukan fungsi penalizedspline dalam goodness of fit, serta matriks roughness dalam fungsi roughnessnya. Jadi, penalizedspline selain menggunakan titik knot dalam estimasi fungsi spline, juga menggunakan parameter smoothing. Hal ini yang menjadi keunggulan dari penalizedspline, karena memperhitungkan titik knot dan parameter penghalus secara bersamaan, sehingga menghasilkan ketepatan dan kehalusan bentuk kurva secara simultan.
Artikel ini menguraikan fungsi goodness of fit dalam kriteria penalized spline pada kasus data longitudinal birespon. Fungsi goodness of fit terkait dengan ketepatan kurva regresi yang mempertimbangkan nilai mean square error. Keunggulan metode ditunjukkan melalui studi simulasi dari fungsi respon linear dan kuadrat.
II. TINJAUANPUSTAKA
Permasalahan dalam data longitudinal sama halnya dengan kasus data cross section, bahwa terdapat kasus riil yang melibatkan beberapa variabel respon yang saling berkorelasi. Fernandez dkk, (2014) telah meneliti kasus dua respon yang saling berkorelasi pada data longitudinal, yang disebut model regresi nonparametrik birespon dan diestimasi dengan smoothing spline. Model regresi nonparametrik birespon untuk data longitudinal dinyatakan sebagai berikut:
. ( ) . ,
r ij r ij r ij
y f t (1)
dengan r1, 2;i1, 2,, ;n j1, 2,,mi. yr ij.
menunjukkan variabel respon r pada subjek ke-i dalam waktu ke-j, f adalah fungsi regresi yang r bersesuaian dengan respon r pada subjek ke-i, dan
.
r ij
adalah variabel error respon r pada subjek ke-i.
Model regresi nonparametrik birespon pada data longitudinal seperti pada persamaan (1), dapat dinyatakan dalam bentuk vektor yaitu:
y f , (2) dengan
1 1 1 2 1 1.11 1.12 1.1 1. 1 1. 2 1. 2 2.11 2.12 2.1 2. 1 2. 2 2. , , , , , , , , , , , , , , , , , , , . n n T m n n nm T m n n nm y y y y y y y y y y y y y y y y y
1 1 1 2 1 1.11 1.12 1.1 1. 1 1. 2 1. 2 2.11 2.12 2.1 2. 1 2. 2 2. , , , , , , , , , , , , , , , , , , , . n n T m n n nm T m n n nm f f f f f f f f f f f f f f f f f
1 1 1 2 1 1.11 1.12 1.1 1. 1 1. 2 1. 2 2.11 2.12 2.1 2. 1 2. 2 2. , , , , , , , , , , , , , , , , , , , . n n T m n n nm T m n n nm , dan adalah vektor error yang diasumsikan berdistribusi normal, dengan mean 0
dan matriks variansi-kovariansi W.
Claeskens, dkk (2009) membuat kriteria penalized spline dalam model regresi nonparametrik untuk data cross section adalah sebagai berikut:
2 2 ( ) 1 1 PLS . n d i i q v i v y f t
(3) PLS adalah penalized least square, dengan adalah parameter smoothing dan β adalah koefisien regresi spline.Kriteria GCV pada model regresi nonparametrik untuk data longitudinal adalah sebagai berikut:
2 1 ˆ ˆ GCV . trace T y f t y f t N I A (4) ( ) A adalah matriks hat yang berukuran NN, dengan N n m (Wu & Zhang, 2006).
III. METODEPENELITIAN
Penelitian ini merupakan pengembangan teori dari regresi nonparametrik birespon yang digunakan dalam menganalisis data longitudinal. Estimator yang digunakan adalah penalized spline yang memuat fungsi goodness of fit dan fungsi penalti. Estimasi fungsi regresi nonparametrik f
dilakukan dengan estimator smoothingspline melalui optimasi penalized weighted least square (PWLS) yang melibatkan pembobot dalam bentuk matriks variansi-kovariansi W.Kriteria PWLS tersebut adalah sebagai berikut:
. 2 2 1 1 PWLS r h . b c T r r r a f t dt W
Kemampuan fungsi goodness of fit dalam estimasi kurva regresi nonparametrik birespon pada data longitudinal ditunjukkan melalui studi simulasi dalam bentuk linear dan kuadratik. Diasumsikan bahwa orde dan jumlah knot pada setiap fungsi spline adalah sama.
IV. HASILDANPEMBAHASAN Fungsi f
dalam persamaan (2) dapat dinyatakan sebagai fr
tij . fr
tij adalah fungsi yang tidak diketahui bentuknya pada data longitudinal dan diestimasi dengan estimator penalized spline. Apabila f
t diasumsikansetiap respon 1 dan respon 2, maka fungsi spline birespon dapat dinyatakan sebagai berikut:
.
.( )
0 1 . q d u q r ij r u ij r q v ij v u v f t t t K
(6)Bila persamaan (6) dinyatakan dalam bentuk matriks, maka diperoleh:
f t X
. (7)
Berdasarkan persamaan (7), model regresi nonparametrik birespon pada data longitudinal berdasarkan estimator penalized spline seperti persamaan (1) dapat dinyatakan dalam bentuk matriks sebagai berikut:
yX
. (8)
y
adalah vektor respon yang memuat dua variabel respon yaitu
1, 2
,T
y y y
dengan vektor respon
pertama adalah
1
1 1.11, 1.12, , 1.1 , , 1. 1, 1. 2, , 1. n T m n n nm y y y y y y y dan vektor respon kedua adalah
1
2 2.11, 2.12, , 2.1 , , 2. 1, 2. 2, , 2. n T m n n nm y y y y y y y . adalah vektor koefisien regresi spline pada respon ke-1 dan respon 2 yaitu
1 2
T ,
1
adalah koefisien regresi spline pada respon ke-1,
1 1.0, 1.1, 1.2, , 1. , 1.( 1), , 1.( ) T q q q d , 2 adalah koefisien regresi spline pada respon 2,
2 2.0, 2.1, 2.2, , 2. , 2.( 1), , 2.( ) . T q q q d Selanjutnya X dinyatakan sebagai matriks X pada respon 1 dan matriks X pada respon 2, yaitu
1 2 . X 0 X 0 X 1 1 1 1 1 2 2 2 1 2 1 1 1 ( ) ( ) 1 ( ) ( ) , 1 ( ) ( ) q q q d q q q d q q q n n n n d t t t K t K t t t K t K t t t K t K X 1 1 1 1 1 2 2 2 1 2 2 1 1 ( ) ( ) 1 ( ) ( ) . 1 ( ) ( ) q q q d q q q d q q q n n n n d t t t K t K t t t K t K t t t K t K X Selanjutnya
1, 2
T adalah error random pada respon ke-1 dan respon ke-2
1
1 1.11, 1.12, , 1.1 , , 1. 1, 1. 2, , 1. n T m n n nm ,
1
2 2.11, 2.12, , 2.1 , , 2. 1, 2. 2, , 2. n T m n n nm .Model regresi nonparametrik birespon pada data longitudinal dalam persamaan (8) diestimasi melalui kriteria PWLS. Kriteria PWLS memuat fungsi goodness of fit dan fungsi penalti, yaitu:
. 2 2 1 1 PWLS r h b c T r r r a f t dt W
. (9)Fungsi goodness of fit dinyatakan oleh
1
T
W
yang menyatakan nilai mean square error dari model regresi nonparametrik birespon. Misalkan G T 1
W
, fungsi goodness of fit dapat diuraikan berdasarkan persamaan (8), yaitu:
1 1 G T T y y W X W X . (10)Apabila persamaan (10) diuraikan maka diperoleh:
1 1 1 G T 2 T T T T y y y W X W X W X .(11)
W adalah matriks variansi kovariansi yang
dinyatakan sebagai : 11 12 21 22 Σ Σ W Σ Σ , (12)
dengan Σ11adalah matriks variansi pada respon 1, 21 12
Σ Σ adalah matriks kovariansi antara respon 1 dengan respon 2 dan Σ22adalah matriks variansi
pada respon 2.
Titik knot yang termuat dalam matriks X menunjukkan titik atau lokasi terjadinya perubahan pola data. Pada estimator penalized spline, perubahan pola data terlihat secara visual sehingga lebih mudah dalam kepentingan interpretasi hasil analisis data.
Selanjutnya dalam artikel ini, fungsi penalti yang digunakan berdasarkan fungsi penalti yang diusulkan oleh Ruppert dan Carrol (2000) pada data cross section unirespon yaitu :
2 . b c T a f t dt
D (13)Berdasarkan persamaan (11) dan (13), kriteria PWLS dalam model regresi nonparametrik bi-respon data longitudinal adalah:
PWLS G T
D
. (14)
G adalah fungsi goodness of fit seperti pada persamaan (11), parameter
adalah koefisien regresi spline yang memuat koefisien regresi pada respon 1 dan respon 2, adalah parameter smoothing.Ddiag
D D1, 2
, D1adalah matriksdiagonal (0,1) pada respon ke-1 atau
1diag a1.0,a1.1, ,a1.q,a1.(q1),a1.(q2), ,a1.(q d ) D 1.0, 1.1, , 1.q 0 a a a ,a1.(q1),a1.(q2),,a1.(q d )1.
2diag a2.0,a2.1, ,a2.q,a2.(q1),a2.(q2), ,a2.(q d ) D adalah matriks diagonal (0,1) pada respon ke-2 ,
2.0, 2.1, , 2.q 0
a a a a2.(q1),a2.(q2),,a2.(q d )1.
Selanjutnya melalui persamaan (14), estimasi koefisien regresi diperoleh :
1
1 1 ˆ T T y X W X D X W . (15)Berdasarkan persamaan (15), estimasi fungsi regresi nonparametrik bi-respon pada data longitudinal berdasarkan estimator penalized spline adalah sebagai berikut.
1
1 1 ˆ ˆ T T f t y X X X W X D X W .(16)Selanjutnya matriks smoothing dari model regresi nonparametrik birespon dinyatakan oleh
A yaitu :
T 1
1 T 1 A X X W X D X W . (19)Matriks parameter smoothing terkait dengan nilai GCV, dan GCV dari model regresi nonparametrik birespon pada data longitudinal berdasarkan estimator penalized spline adalah sebagai berikut:
1 2 1 GCV 2 T T n i i y y m tr
I A I A I A , (20)denganA
adalah matriks parameter smoothing seperti pada persamaan (19),
1, 2
T
y y y
, mi adalah jumlah pengukuran berulang pada subyek ke-i.
Selanjutnya, studi simulasi dilakukan dalam artikel ini untuk menunjukkan keunggulan titik knot dalam fungsi goodness of fit pada kriteria PWLS. Simulasi fungsi dibuat pada fungsi linear dan fungsi kuadratik. Fungsi linear dari setiap respon, dinyatakan sebagai berikut:
1 1 1 1 1 2 3.5 2.1 2.2 2 2 4 6.5 1.5 1.5 2 1.5 4 ij ij ij ij ij ij f t t t f t t t Bentuk fungsi linear seperti pada Gambar 1 dan 2
linear menunjukkan hasil estimasi kurva regresi tidak tepat dalam menggambarkan kondisi perubahan data. Hal ini ditunjukkan oleh nilai R2 sangat kecil dan banyaknya data yang jauh dari garis taksiran regresi.
Gambar 1. Kurva linear dari fungsi respon pertama (f1)
Gambar 2. Kurva linear dari fungsi respon kedua (f2)
Selanjutnya data dianalisis dengan menggunakan regresi nonparametrik birespon melalui penalized spline linear. Ditentukan titik knot yang digunakan adalah 2 dengan melibatkan pembobot matriks variansi kovariansi.
Gambar 3. Estimasi kurva regresi nonparametrik birespon melalui penalized spline linear 2 titik knot pada respon pertama
Gambar 4. Estimasi kurva regresi nonparametrik birespon melalui penalized spline linear 2 titik knot pada respon kedua
9 8 7 6 5 4 3 2 1 0 7.5 7.0 6.5 6.0 5.5 5.0 4.5 4.0 3.5 S 1.06732 R-Sq 1.4% R-Sq(adj) 0.0% tij y1
Fitted Line Plot y1 = 5.156 + 0.05707 tij 9 8 7 6 5 4 3 2 1 0 13 12 11 10 9 8 7 S 1.31299 R-Sq 1.1% R-Sq(adj) 0.0% tij y2
Fitted Line Plot
Berdasarkan Gambar 3 dan 4, terlihat pola perubahan data secara visual berdasarkan titik knot yang terpilih. Pola data kadang meningkat, kadang pula mengalami penurunan drastis. Ada perbedaan pola yang terjadi pada respon 1 dengan respon 2, akan tetapi kecenderungan data untuk naik turun dalam interval tertentu terlihat hampir sama. Pola tersebut sangat berbeda dengan Gambar 1 dan 2 yang terlihat kedua fungsi meningkat secara linear.
Selanjutnya simulasi kedua dilakukan pada fungsi kuadratik, yaitu sebagai berikut:
2 2 2 1 2 2 2 2 3.5 2.1 1.5 2.2 3 2 5 6.5 1.5 2.1 1.5 3 1.5 5 ij ij ij ij ij ij ij ij f t t t t f t t t t Bentuk fungsi kuadratik pada respon pertama dan respon kedua ditunjukkan pada Gambar 5 dan 6. Pada fungsi respon pertama dan kedua, data cenderung meningkat secara kuadratik.Namun, hasil taksiran kurva tersebut memberikan nilai R2 yang kecil. Hal ini menyebabkan, hasil taksiran kurva regresi tersebut tidak dapat digunakan untuk menjelaskan kondisi data.
Gambar 5. Kurva kuadrat dari fungsi respon pertama (f1)
Gambar 6. Kurva kuadrat dari fungsi respon kedua (f2)
Selanjutnya data dianalisis dengan menggunakan regresi nonparametrik birespon melalui penalized spline kuadrat, seperti pada Gambar 7 dan 8.
Gambar 7.Estimasi kurva regresi nonparametrik birespon melalui penalized splinekuadratik 2 titik knot pada respon pertama
Gambar 8.Estimasi kurva regresi nonparametrik birespon melalui penalized splinekuadratik 2 titik knotpada respon kedua
Gambar 7 dan 8 menunjukkan pola perubahan pada fungsi respon pertama dan respon kedua tidak monoton naik secara kuadrat, tapi terlihat tiga pola data yang berbeda pada setiap interval waktu pengamatan.
Hasil estimasi kurva regresi bi-respon pada data simulasi menunjukkan bahwa titik knot yang terlibat dalam fungsi goodness of fit memberikan estimasi kurva yang lebih tepat dalam menjelaskan pola perubahan data. Kemampuan estimator penalized spline dalam estimasi model regresi nonparametrik birespon ditunjukkan dengan plot residual yang menyebar secara acak seperti yang ditunjukkan pada Gambar 9 dan 10.
Gambar 9. Plot residual dari regresi nonparametrik birespon melalui penalized spline linear 2 titik knot
7 6 5 4 3 2 1 0 8 7 6 5 4 3 S 1.19313 R-Sq 3.2% R-Sq(adj) 0.0% tij y1
Fitted Line Plot
y1 = 5.279 - 0.0894 tij + 0.02660 tij^2 7 6 5 4 3 2 1 0 13 12 11 10 9 8 7 S 1.50863 R-Sq 0.6% R-Sq(adj) 0.0% tij y2
Fitted Line Plot
y2 = 9.631 - 0.0697 tij + 0.01706 tij^2
Gambar 10. Plot residual dari regresi nonparametrik birespon melalui penalized splinekuadrat 2 titik knot
V. KESIMPULANDANSARAN Fungsi goodness of fit dalam kriteria penalized spline mampu menghasilkan estimasi kurva yang lebih akurat. Selain itu, estimasi kurva mampu menjelaskan pola perubahan yang terjadi pada data berdasarkan waktu pengukuran.
Pada penelitian selanjutnya, perlu diteliti fungsi penalti yang terdapat dalam kriteria penalized spline. Fungsi penalti dalam penalized spline melibatkan parameter smoothing dan titik knot secara simultan dalam mengontrol kemulusan kurva.
DAFTAR PUSTAKA
Cardot, H., Crambes, C., Kneip, A.,dan Sarda., P., 2007,“Smoothing Splines Estimators in Functional Linear Regression with Errors in Variables”,Comput. Stat. Data Anal., 51, 4832-4848.
Chamidah, N., Budiantara, I.N., Sunaryo, S., dan Ismaini, Z., 2012,“Designing of Child Growth Chart Based on Multi Response Local Polynomial Modeling”,Journal of
Mathematics and Statistics, 8 (3), 342-347.
Chamidah, N., dan Saifudin, T., 2013,“Estimation of
Children Growth Based on Kernel
Smoothing in Multi response
Nonparametrik Regression”,Applied
Mathematical Sciences, 7 (37), 1839-1847.
Chamidah, N. dan Eridani., 2015,“Designing of Growth Reference Chart by Using Bi-Response
Semiparametrik Regression Approach
Based on P-Spline Estimator”, Internat. J.
Appl. Math. Statist, 53(3), 150-158.
Chen, H., dan Wang, Y., 2011,“A Penalized Spline Approach to Functional Mixed Effects Model Analysis”,Biometrics, 67, 861-870. Claeskens, G., Kribovokova, T., dan Opsomer, J.D. ,
2009,“Asymptotic Properties of Penalized
Spline Estimators”,Biometrik, 96(3), 529-544.
Fernandes, A.A.R., Budiantara, I.N., Otok, B.W., dan Suhartono, 2014. “Spline Estimators for
Bi-Responses Nonparametrik Regression
Model for Longitudinal Data”,Applied
Mathematical Sciences, 8 (114), 5653 –
5665.
Lestari, B., Budiantara, I.N., Sunaryo. S., dan Mashuri,
M., 2010,“Spline Estimator in
Multiresponse Nonparametrik Regression Model”. J. Basic Sci., 11: 17-22.
Liang, H., dan Xiao, Y., 2006,“Penalized for Longitudinal Data with an Application in AIDS Studies”,Journal of Modern Applied
Statistical Methods, 73, 13 – 22.
Heckman, N., Lockhart R., dan Nielsen J.D., 2013,“Penalized Regression, Mixed Effect
Models and Appropriate
Modelling”,Electronic Journal of Statistics, 7, 1517-1552.
Montoya, L.E., Ulloa, N., dan Miller, V., 2014,“A
Simulation Study Comparing Knot
Selection Methods with Equally Spaced
Knot in a Penalized Regression
Spline”,International Journal of Statistic
and Probability, 3(3), 96-110.
Ruppert, D., 1997,“Penalized Spline”,Australian and
New Zealand Journal of Statistics, 42(2),
205-223.
Ruppert, D., dan Carrol, R.J., 2000,“Spatially-Adaptive Penalties for Spline Fitting”,Australian and
New Zealand Journal of Statistics, 42(2),
205-223.
Ruppert, D., 2002,“Selecting The Number of Knot for Penalized Spline”,Journal of Computational
and Graphical Statistics,11(4), 735-757.
Wang, Y., Guo, W., dan Brown, M.B., 2000,“Spline
Smoothing for Bivariate Data with
Application to Association Between
Hormones”,Statistica Sinica. 10 : 377-397. Wang, Y., 2003, Nonparametrik Regression Analysis of
Longitudinal Data. Technical Report.
Department of Statistics, University Of California, Davis, USA.
Wu, H., & Zhang, J.T., 2002,“Local Polynomial Mixed Effects Models for Longitudinal Data”.
Journal of America Statistical Association,
97, 883-897.
Wu, H., dan Zhang, J.T., 2006,Nonparametrik Regression Methods for Longitudinal Data Analysis, John Wiley & Sons, New Jersey.
Yao dan Lee., 2006,“Penalized Spline Models for
Functional Principal Component
Analysis”,Journal Royal Statistical Society,