Sebuah Perbandingan Regresi Nonparametrik Model menggunakan Smoothing Spline dan Kernel
regresi
Abstrak- makalah
Penelitian ini membahas tentang penggunaan model nonparametrik
untuk data Produk Nasional Bruto di Turki dan Stanford jantung
Data transplantasi. Hal ini Dibahas dua teknik nonparametrik yang disebut
smoothing spline dan regresi kernel. Tujuan utama adalah untuk membandingkan
teknik yang digunakan untuk prediksi regresi nonparametrik
model. Menurut dari hasil penelitian numerik, itu Menyimpulkan
melakukan smoothing estimator regresi spline lebih baik daripada Bagi
regresi kernel
Kata kunci regresi kernel, model nonparametrik, Prediksi, Smoothing spline.
yang Dianggap regresi nonparametrik Mengikuti Model
yi=f(xi)+ei, a<x1<...<xn<b
dimana adalah fungsi halus yang tidak diketahui,
adalah nilai-nilai observasi dari variabel respon y, adalah nilai pengamatan
variabel prediktor x dan adalah terdistribusi normal kesalahan acak dengan mean nol dan umum varians σ2 .
Tujuan dasar dari regresi nonparametrik adalah untuk memperkirakan fungsi yang tidak diketahui (Dari semua fungsi f dengan terus menerus turunan pertama dan kedua) dalam model (1). dalam regresi parametrik bentuk dimana f beberapa DIKETAHUI, fungsi halus, pemodel harus tambang deterministik bentuk yang tepat dari f. Dalam regresi nonparametrik, f adalah beberapa tidak diketahui, fungsi halus dan tidak
ditentukan oleh model. Sebuah teknik data-driven tambang deterministik bentuk kurva. Bab ini Menjelaskan dua estimasi yang berbeda teknik model regresi nonparametrik: Smoothing regresi spline dan regresi kernel.
Perkiraan model (1) menggunakan smoothing spline regresi dan regresi kernel yang Dibahas bagian 2 dan 3 Bagian 4 menunjukkan beberapa kriteria kinerja terkait dengan model. Studi numerik Dilakukan di bagian 5 untuk dua data yang nyata, Sedangkan kesimpulan yang Ditawarkan dalam
Bagian keenam.
II. smoothing SPLINE REGRESI
Smoothing estimasi spline fungsi f Timbul sebagai solusi untuk masalah minimisasi Berikut:
untuk pra-ditentukan nilai λ> 0 Istilah pertama dalam persamaan (2) Menunjukkan jumlah sisa kotak dan menghukum para kurangnya fit. Istilah kedua yang diberi bobot oleh Menandakan λ
hukuman kekasaran dan membebankan denda kekasaran. Dengan kata lain, itu menghukum kelengkungan fungsi f.
The λ dalam (2) Dikenal sebagai parameter smoothing. sebagai λ Bervariasi dari 0 sampai + ∞, solusi Bervariasi dari interpolasi ke model linier. Sbg yang mendominasi penalti kekasaran
di (2) dan estimasi spline dipaksa untuk menjadi konstan. Sbg hukuman kekasaran Hilang di (2) dan spline memperkirakan polates antar data. Ran
demikian, smoothing yang parameter λ memainkan peran kunci dalam
mengendalikan trade-off di antara goodness of fit Diwakili oleh dan
smoothnees estimasi Terukur
Dalam tulisan ini, digunakan R dan S - Ditambah program pilihan parameter smoothing. Mereka memilih smoothing parameter, menggunakan Entah biasa atau umum lintas validasi (lihat [1], atau pasokan argumen alternatif, df, yang menentukan derajat kebebasan untuk halus.
Solusi berdasarkan smoothing spline untuk minimum masalah dalam persamaan (2) Dikenal sebagai "alami kubik spline "dengan knot pada x1,....xn Dari sudut pandang ini, sebuah interpolasi spline terstruktur khusus yang tergantung pada memilih nilai λ Menjadi pendekatan Cocok fungsi f di
Model pertama. Biarkan menjadi vektor nilai fungsi f pada titik-titik simpul x1,....xn. penghalusan spline estimasi ftopiλ vektor ini atau nilai pas
untuk data diberikan oleh :
Dimana ftopi λ adalah spline kubik alami dengan knot pada x1,....xn untuk pemulusan parameter λ tetap> 0, dan Sλ adalah baik-dikenal positif-pasti (simetris) matriks halus yang tergantung pada λ dan titik-titik simpul x1,...xn, tetapi tidak pada y. Untuk referensi umum tentang smoothing spline, lihat [2], [3] dan [4].
Filosofi utama regresi nonparametrik adalah untuk memperkirakan fungsi regresi f menggunakan rata-rata tertimbang dari data mentah dimana bobot adalah fungsi dari jarak dalam x -space. Secara khusus, bobot adalah penurunan fungsi jarak. Sebuah skema pembobotan jenis ini adalah
diusulkan oleh Nadaraya -Watson (1964) di mana berat terkait dengan pengamatan jy, untuk prediksi di ix diberikan oleh:
dimana K (u) adalah fungsi penurunan u, dan h> 0 adalah disebut bandwidth atau parameter smoothing. K (u), yang fungsi kernel, dapat diambil sebagai kepadatan probabilitas fungsi seperti Gaussian. Fungsi kernel harus simetris (lihat [7] dan [8]). Perkiraan kernel dari Fungsi f dalam model (1) pada setiap titik xi dinyatakan sebagai
Masing-masing titik data n diberikan bobot yang berbeda Wij, j =1,2,...n utk setiap untuk setiap titik fit xi Dalam notasi matriks, Persamaan (5) diberikan oleh
Dimana
Dan Matriks W dilambangkan sebagai kernel hat matriks atau kernel halus matriks. Demikian pula untuk biasa least square (OLS) di mana matriks topi digunakan untuk
mengubah Yj’ s to the Ytopii ‘ s . prediksi kernel pada setiap titik xi, dapat diperoleh dengan menggunakan persamaan (5), mengganti "i" dengan "1". Kemudian kernel prediksi pada setiap titik
Sebagaimana disebutkan di atas, mirip dengan smoothing spline estimasi pada persamaan (3), estimasi kernel dari regresi nonparametrik yang dinyatakan dalam (1) diberikan oleh
A. Pemilihan Kernel Fungsi Prediksi dari regession kernel berasal dari kenyataan bahwa fungsi regresi diperkirakan ix diperoleh dengan
mengambil rata-rata tertimbang dari nilai Yj mana bobot ji w diproduksi oleh fungsi kernel, K (u). Hal ini menyimpulkan bahwa pemilihan
parameter smoothing
(bandwidth) jauh lebih penting daripada pemilihan fungsi kernel untuk kinerja regresi kernel
estimator (lihat [9] dan [1]). Fungsi kernel, K (u) adalah biasanya dipilih menjadi nonnegatif, simetris sekitar nol, kontinyu dan dua kali
terdiferensiasi. Beberapa alternatif yang populer fungsi kernel diberikan dalam Tabel I.
Sejak pemilihan fungsi kernel tidak penting untuk kinerja estimator regresi kernel, akan digunakan kernel Gaussian disederhanakan. Kernel disebutkan di sini adalah diberikan oleh.
Seperti disebutkan bagian 2, digunakan R dan S - Ditambah program untuk melakukan regresi kernel. Mereka menggunakan
"ksmooth" fungsi. Beberapa kernel yang tersedia di "ksmooth" ditunjukkan pada Tabel I. Disarankan bahwa "Kernel normal" karena sederhana untuk menghitung. Dalam prakteknya, pemilihan h (bandwidth) biasanya dilakukan dengan cara trial and error, atau prosedur ini dapat dilakukan dengan kriteria seleksi seperti validasi silang dan lintas umum validasi [10].
IV. KRITERIA KINERJA MODEL
Kinerja model terkait dengan seberapa dekat nilai prediksi untuk data uji dan nilai-nilai yang diamati. Tiga kriteria konsistensi prediksi berbeda yang digunakan dalam
untuk membandingkan kinerja diperoleh smoothing spline dan regresi kernel. Ini adalah mean square error (MSE) (atau root mean square error (RMSE)), berarti mutlak
error (MAE) dan rata-rata persentase kesalahan mutlak (MAPE) masing-masing. Kriteria ini didefinisikan sebagai berikut:
V. NUMERIK STUDIES
Pada bagian ini disajikan dua contoh, satu produk kotor nasional di Tetap (1987) Harga di Turki (Quarterly, YTL Ribu) (lihat, www.tcmb.gov.tr). Data yang terkait dengan variabel yang digunakan dalam penelitian ini terdiri dari time series Triwulanan .
yang dimulai Januari 1987 dan berakhir Desember 2005, terdiri dari n = 76 observasi. Yang lain adalah hati Data transplantasi. Data ini diambil dari [11], dan mengandung kali kelangsungan hidup pasien pada daftar tunggu untuk Stanford Program transplantasi jantung. Variabel yang disebutkan
di sini didefinisikan sebagai berikut:
gsyh: Produk Nasional Bruto (YTL Ribu)
Usia: Usia pasien
SurvivalTime: Survival Times hari pasien
A.hasil empiris
Gambar. 1 Plot kovariat untuk data produk nasional bruto.
TABEL II
NILAI KINERJA MODEL UNTUK PRODUK NASIONAL BRUTO DATA
Menurut Tabel II, terlihat bahwa kriteria kinerja nilai yang diperoleh dengan menghaluskan regresi spline lebih kecil dari hasil regresi Kernel. Oleh karena itu, dapat dikatakan bahwa smoothing regresi spline lebih baik daripada regresi kernel untuk prediksi model ini.
Gambar. 1 (a) dan (b) menunjukkan perkiraan (padat) dan pengamatan untuk menghaluskan spline dan kernel regresi, masing-masing untuk data produk nasional bruto di Turki. The variabel waktu dalam model nonparametrik hanya dapat ditampilkan grafis, karena tidak dapat dinyatakan sebagai
parametrik. sebagai Gambar yang ditampilkan. 1 (a) dan (b), bentuk efek waktu pada gsyh yaitu muncul sebagai kurva. Setiap kurva diplot (kurva regresi) di angka-angka ini (ab) merupakan kontribusi dari istilah untuk nonparametrik prediktor. Kurva ini erat mengikuti nyata pengamatan. Situasi ini menunjukkan bahwa nilai-nilai estimasi yang sangat baik. Namun, taksiran nilai pada Gambar. 1 (a) lebih baik dari Gambar. 1 (b), karena kurva pada Gambar. 1 (a) sangat erat setelah pengamatan nyata.
Kedua, Hal ini dibahas bahwa prediksi nonparametrik model regresi
menggunakan teknik yang sama untuk Stanford jantung Data transplantasi. Hasil Prediksi diperoleh dengan model ini
diberikan pada Gambar. 2 dan beberapa mereka kriteria kinerja Nilai-nilai juga diberi Tabel III.
TABEL III
NILAI KINERJA MODEL UNTUK STANFORD HATI TRANSPLANT DATA
Menurut Tabel III, terlihat bahwa sebagian besar nilai kriteria kinerja yang diperoleh dengan menghaluskan spline regresi yang lagi lebih kecil dari hasil Kernel regresi. Oleh karena itu, dapat dikatakan bahwa smoothing spline regresi lebih baik daripada regresi kernel untuk prediksi
Waktu Kelangsungan Hidup hari pasien.
Model yang disebutkan di sini berkaitan Waktu Kelangsungan Hidup di hari ke umur.
Seperti ditunjukkan plot yang dihasilkan oleh spline dan regresi kernel model, Gambar. 2 menunjukkan kelengkungan dalam hubungan antara Umur dan waktu hidup. Efek pada waktu kelangsungan hidup di hari usia di spline fit agak moderat, sedangkan efek di kernel fit agak bergelombang. Untuk alasan ini, disarankan untuk menggunakan regresi spline smoothing.
VI. KESIMPULAN
Dalam tulisan ini, telah dibahas empat nonparametrik model berdasarkan smoothing spline dan kernel regresi. Hal ini menyimpulkan bahwa prediksi dari dua data real oleh model ini.
Hasil yang diperoleh dengan menghaluskan model spline telah dibandingkan dengan kernel model regresi. Singkatnya, dari dekat pemeriksaan hasil empiris, observasi berikut dibuat:
• Menurut MSE, RMSE, MAE dan MAPE nilai untuk Data produk nasional bruto, model nonparametrik berdasarkan smoothing spline telah menunjukkan baik kinerja;
• Perkiraan diperoleh dengan menghaluskan spline juga telah
menunjukkan hasil yang baik dari segi grafis untuk gross Data produk nasional;
• Model non parametrik berdasarkan smoothing spline memiliki juga menunjukkan kinerja yang baik sesuai dengan RMSE, Nilai RMSE dan MAE untuk Stanford transplantasi jantung
data;
• Model nonparametrik berdasarkan regresi kernel memiliki menunjukkan kinerja yang baik sesuai dengan hanya MAPE nilai Stanford Data
transplantasi jantung;
Hasil ini menekankan bahwa perkiraan berdasarkan smoothing Teknik spline lebih baik daripada regresi kernel.
REFERENCES
[1] Hastie, T.J. and Tibshirani, R.J., Generalized Additive Models, Chapman & Hall /CRC, 1999.
[2] Wahba, G., Spline Model For Observational Data, Siam, Philadelphia Pa., 1990.
[3] Green, P. J. and Silverman, B. W., Nonparametric Regression and Generalized Linear Models, Chapman & Hall, 1994.
[4] Eubank, R. L., Nonparametric Regression and Smoothing Spline, Marcel Dekker Inc., 1999.
[5] Nadarya, E.A., On Estimating Regression, Theory Pb. Appl., Vol.10, 1964, pp. 186-190.
[6] Watson, G. S., Smooth Regression Analysis, Sankhya, Series A, Vol.26, 1964, pp.359-372.
[7] Yatchew, A., Semiparametric Regression for the Applied Econometrician, Cambridge University Pres, 2003.
[8] Wand, M,. P. Ve M. C. Jones, Kernel Smoothing, New York: Chapman and Hall, 1995.
[9] Hardle, W., Applied Nonparametric Regression, Cambridge University Press, Cambridge ,1991.
[10] Schimek, M. G., Smoothing and Regression, Jhon. Willy. & Sons, 2000. [11] John Crowley, Marie Hu, Covariance Analysis of Heart Transplant Survival Data, Journal of the American Statistical Association, Vol. 72,
Dursun Aydin lahir pada tahun 1969 di Ardahan, Turki. Dia lulus dari Universitas Anadolu
Fakultas Ilmu Statistik pada tahun 1992 di Eskişehir, Turki. Kemudian ia lulus dari Marmara
University Graduate School of Social Sciences di 2001 İstanbul, Turki. Akhirnya ia lulus
Anadolu University Graduate School of Natural dan Ilmu Pengetahuan Terapan Ilmu pada tahun 2005. Dia telah bekerja selama 12 tahun di Anadolu Universitas sebagai asisten dosen, tetapi sekarang dia adalah Dokter instruktur di universitas yang sama. dia memiliki menerbitkan banyak makalah dalam jurnal dari berbagai universitas Turki dan beberapa makalah internasional. Daerah penelitian Nya meliputi: Multivarian