• Tidak ada hasil yang ditemukan

DINA ARIEK P (M0113013) (1)

N/A
N/A
Protected

Academic year: 2017

Membagikan "DINA ARIEK P (M0113013) (1)"

Copied!
8
0
0

Teks penuh

(1)

MODEL REGRESI MULTIVARIAT BAYESIAN

DENGAN DISTRIBUSI PRIOR INFORMATIF

Dina Ariek Prasdika, Dewi Retno Sari Saputro, Purnami Widyaningsih Program Studi Matematika Fakultas Matematika dan Ilmu pengetahuan Alam

Abstrak. Model regresi multivariat merupakan model regresi dengan lebih dari satu

variabel dependen yang saling berkorelasi. Nilai parameter model tersebut tidak dike-tahui sehingga dilakukan estimasi. Estimasi parameter model regresi multivariat pada penelitian ini menggunakan metode Bayesian. Metode Bayesian mempunyai dua distri-busi yaitu distridistri-busi prior dan distribusi posterior. Jika informasi parameter diketahui, maka digunakan prior informatif. Tujuan penelitian ini untuk menentukan estimasi parameter model regresi multivariat menggunakan metode Bayesian dengan distribusi prior informatif. Berdasarkan hasil dan pembahasan disimpulkan bahwa estimasi para-meter ditentukan melalui ekspektasi variabel random dari distribusiposterior marginal. Ekspektasi variabel random tersebut tidak dapat ditentukan secara analitik sehingga di-lakukan pembangkitan sampel yang mendekati distribusiposterior yang disebut metode MarkovchainMonte Carlo (MCMC) algoritme Gibbssampling. Nilai estimasi parameter model regresi multivariat diperoleh dari rata- rata sampel hasil pembangkitan.

Kata kunci: model regresi multivariat, distribusi prior, distribusi posterior, Gibbs sam-pling

1. PENDAHULUAN

Menurut Walpole et al. [15], model regresi digunakan untuk mengetahui pola hubungan antara variabel dependen dan variabel independen. Model regresi mul-tivariat merupakan bentuk model regresi yang mempunyai lebih dari satu variabel dependen yang saling berkorelasi dan beberapa variabel independen (Johnson and Wichern [12]). Pada model regresi terdapat parameter yang dapat merepresenta-sikan populasi sebuah penelitian. Populasi tersebut diukur melalui sampel random yang diambil untuk penelitian. Nilai parameter tidak diketahui sehingga diperlukan estimasi parameter berdasarkan sampel tersebut.

Menurut Bolstad [4], estimasi parameter dapat ditentukan dengan pendekatan klasik dan pendekatan Bayesian. Pendekatan klasik menggunakan data sampel yang diambil dari populasi sebagai objek penelitian dan mengabaikan informasi awal sam-pel. Informasi awal sampel adalah distribusi awal sampel yang bersumber dari pene-litian sebelumnya atau pendapat ahli. Apabila data penepene-litian merupakan gabungan antara data sampel dan distribusi awal sampel maka teknik ini disebut pendekatan Bayesian selanjutnya disebut metode Bayesian. Metode Bayesian didasarkan pada teorema Bayes yang menyatakan bahwa perkalian distribusi prior dengan informasi sampel (data sampel) hasilnya proporsional dengan distribusi posterior. Distribusi prior merupakan informasi tentang distribusi awal sampel.

(2)

prior noninformatif. Sebaliknya jika informasi parameter diketahui, maka dapat

di-gunakan prior informatif. Distribusi prior informatif digunakan oleh Bolstald [4], Evans [9], dan Prasdika dkk. [13] untuk menentukan estimasi parameter model regresi univariat. Sementara itu, Arashiet al. [1] membuktikan distribusiprior nor-mal multivariat dan invers Wishart konjugat dengan distribusi posterior. Namun Arashi et al. [1] tidak menggunakan distribusi prior tersebut untuk mengestimasi parameter model regresi multivariat. Kemudian distribusi tersebut digunakan oleh Prasdika et al. [14] untuk menentukan estimasi parameter model regresi multivariat namun tidak dilakukan penerapannya. Pada penelitian ini dilakukan estimasi para-meter model regresi multivariat Bayesian dengan distribusi normal multivariat dan invers Wishart sebagai prior informatif dan penerapannya.

2. MODEL REGRESI MULTIVARIAT

Menurut Johnson and Wichern [12], model regresi multivariat adalah

Y1 =β01+β11X1+. . .+βr1Xr+ε1

Y2 =β02+β12X1+. . .+βr2Xr+ε2

...

Ym =β0m+β1mX1+. . .+βrmXr+εm.

(2.1)

Model (2.1) merupakan sistem persamaan yang memuat variabel dependen sebanyak

m yaitu Y1, Y2, . . . , Ym; variabel independen sebanyak r yaitu X1, X2, . . . , Xr; dan

eror ε = (ε1, ε2, . . . , εm)T. Eror tersebut diasumsikan E(ε) = 0 dan V ar(ε) = Σ, matriks Σ berukuran m×m. Model (2.1) dapat pula dinyatakan dalam bentuk matriks yaitu

Y =Xβ+ε (2.2)

untuk j = 1,2, . . . , n; Y = (Y1, Y2, . . . , Yj) T

untuk setiap Yj = (Yj1, Yj2, . . . , Yjm);

X = (1, Xj1, Xj2, . . . , Xjr)T; dan β merupakan matriks koefisien regresi berukuran

((r+ 1) ×m). Variabel random Yj diasumsikan berdistribusi normal multivariat

Yj ∼Nm(Xjβ,Σ) sehingga fungsi kepadatan probabilitasnya adalah

f(Yj) =

1 (2π)m2|Σ|

1 2

e(−1

2(Yj−Xjβ)TΣ−1(Yj−Xjβ)).

3. METODE BAYESIAN

Menurut Congdon [8], inferensi metode Bayesian didasarkan pada distribusi posterior. Menurut Gelman et al. [10], fungsi distribusi posterior f(θ|Y) adalah

fungsi kepadatan probabilitas bersyarat parameterθ dengan nilai observasi variabel random Y telah diketahui dan didefinisikan sebagai

f(θ|Y) = f(θ, Y)

f(Y) =

f(Y|θ)f(θ)

(3)

dengan f(Y) = ∑

θf(θ)f(Y|θ), untuk θ diskrit dan f(Y) = ∫

f(θ)f(Y|θ)dθ untuk

θ kontinu. Persamaan (3.1) dapat pula dinyatakan sebagai

f(θ|Y)∝f(Y|θ)f(θ) (3.2)

denganf(Y|θ) adalah fungsi likelihood dan f(θ) adalah fungsi distribusiprior. Me-nurut Casellaand Berger [6], estimasi parameter ditentukan dari ekspektasi variabel posterior marginal.

4. HASIL DAN PEMBAHASAN

Berikut merupakan fungsilikelihood, distribusi prior, distribusiposterior, esti-masi parameter model regresi multivariat, dan penerapan kasus.

4.1. Fungsi Likelihood. Fungsilikelihood pada model regresi multivariat

merupa-kan fungsi kepadatan bersama darij variabel random Yj yang berdistribusi normal multivariat dengan syarat parameternya telah diberikan. Parameter model regresi multivariat yaitu β dan Σ sehingga fungsilikelihood untuk model tersebut adalah

f(Y|β,Σ) = Πn

j=1f(Yj|β,Σ) = Πnj=1(2π)

−m

2|Σ|− 1 2e−

1

2tr(Σ−1(Yj−Xjβ)T(Yj−Xjβ))

∝ |Σ|−n

2e− 1

2tr(Σ−1(Y−Xβ)T(Y−Xβ)) (4.1)

dengan 2π−nm

2 ∑n

i=1(Yi−Y¯)T(Yi−Y¯) merupakan konstanta.

4.2. Distribusi Prior. Distribusi prior informatif mengacu pada parameter dari

distribusi prior dengan pola distribusiprior konjugat maupun tidak konjugat (Box and Tiao [5]). Distribusi prior konjugat merupakan distribusiprior yang konjugat

dengan distribusi posterior. Pada inferensi Bayesian, parameter dianggap sebagai variabel random yang mengikuti distribusi tertentu. Fungsi distribusi prior untuk parameter model regresi multivariatβdanΣmerupakan perkalian fungsi kepadatan probabilitas Σdengan fungsi kepadatan probabilitas β|Σdan didefinisikan sebagai

f(β,Σ) = f(Σ)f(β|Σ). (4.2) Variabel randomΣberdistribusi invers Wishart yang dinotasikan sebagaiΣ∼ IWm(f0, G0) dengan f0 adalah derajat bebas dan G0 adalah matriks berukuran

m×m. Fungsi kepadatan probabilitas Σadalah

f(Σ)∝ |Σ|−f0+m+1

2 e−12tr(Σ−1G −1

0 ). (4.3)

Variabel random β|Σ berdistribusi normal multivariat yang dinotasikan sebagai

β|Σ∼Nm(U0,V0) dengan U0 adalah mean dan V0 adalah variansi. Fungsi kepa-datan probabilitas β|Σ adalah

f(β|Σ)∝ |V0|

−m

2e− 1

2tr(Σ−1(β−U0)TV− 1

(4)

Dengan demikian fungsi distribusi prior untuk parameter model regresi multivariat

4.3. Distribusi Posterior. Fungsi distribusi posterior model regresi multivariat

merupakan fungsi kepadatan probabilitas dari parameter model regresi multivariat

β,Σ dengan syarat nilai observasi variabel Y telah diketahui dan dinyatakan se-bagai f(β,Σ|Y). Fungsi distribusi posterior proporsional dengan perkalian fungsi likelihood (4.1) dan fungsi distribusi prior (4.5). Fungsi distribusi posterior untuk

parameter model regresi multivariat adalah

f(β,Σ|Y) ∝ f(Y|β,Σ)f(β,Σ) posterior (4.6), nampak bahwa distribusi posterior marginal Σ|Y adalah invers Wishart yang dinotasikan sebagai Σ|Y ∼ IWm(fn,Gn) dan distribusi posterior marginalβ|Σ,Y adalah normal mutivariat dengan parameter meanUndan variansi

Vn yang dinotasikan sebagai β|Σ,Y ∼Nm(Un,Vn).

4.4. Estimasi Parameter. Estimasi parameter model regresi multivariat ditentu-kan melalui ekspektasi variabel dari distribusiposterior marginal. Ekspektasi untuk masing- masing parameter model regresi multivariat adalah

(5)

Nilai integral fungsi pada persamaan (4.7) dan (4.8) secara analitik sulit di-tentukan. Fungsi tersebut merupakan fungsi distribusi populasi. Oleh karena itu fungsi distribusi tersebut didekati dengan sampel yang diperoleh dari hasil pem-bangkitan. Sampel tersebut dibangkitkan menggunakan metode MCMC algoritme Gibbs sampling yang mendekati distribusiposterior.

Menurut Casella and George [7], Gibbssampling merupakan teknik pembang-kitan variabel random yang menggunakan sampel sebelumnya untuk membangkit-kan sampel berikutnya secara random sehingga didapatmembangkit-kan suatu rantai Markov. Berikut adalah algoritme Gibbs sampling.

(1) Menginisialisasi nilai β(0) dan Σ(0).

(2) Membangkitkan Y(0)jm ∼Nm(Xβ(0),Σ(0)) sehingga diperoleh Y(0)jm.

(3) Membangkitkan Σ(1)|Y(0)jm ∼ IWm(f0,G0) dengan f0 = n−1 yaitu jumlah

observasi dikurangi 1 dan matriks G0 = ∑nj=1(Yj −Y¯j)T(Yj −Y¯j) pada langkah ini diperoleh Σ(1).

(4) Membangkitkan β(1)|Σ(1),Y(0) ∼ Nm(U0,V0) dengan U0 = 1

n ∑n

j=1Y (0)

j dan V0 =Σ(1) pada langkah ini diperoleh β(1).

(5) Mengulangi kembali langkah (2) sampai dengan (4) sebanyak M pengu-langan hingga diperoleh sampel bangkitan ΣM ∼ IW(fn,Gn) dan βM ∼

Nm(Un,Vn).

Hasil algoritme Gibbs sampling adalah rantai markov yang terdiri atas barisan ma-triks Σ(1),β(1),Σ(2),β(2), . . . ,Σ(M),β(M).Selanjutnya menurut Johnsonand Albert [11], estimasi parameter ditentukan dari rata-rata sampel hasil pembangkitan yaitu

ˆ

β = 1

M ∑M

k=1β

(k) dan ˆΣ= 1

M ∑M

k=1Σ (k).

4.5. Penerapan. Pada penelitian ini, estimasi parameter model regresi multivari-at Bayesian diterapkan pada dmultivari-ata kurs tengah Great Britain Poundsterling (GBP) dan United States Dollar (USD) tahun 2010-2016. Data tersebut merupakan data kuartalan yang diperoleh dari Bank Indonesia [3]. Variabel dependen dalam peneli-tian ini terdiri atas kurs tengah GBP sebagai Y1 dan kurs tengah USD sebagai Y2.

Sedangkan variabel independen dalam penelitian ini terdiri atas produk domestik bruto (PDB) sebagai X1 dan laju inflasi sebagai X2.

Sebelum variabel dependen dan independen digunakan untuk estimasi parame-ter model regresi multivariat, dilakukan pengujian asumsi regresi multivariat yaitu uji kelinieran antara variabel dependen dan independen, uji Bartlett Sphericity dan Mahalonobis distance. Berikut adalah uji asumsi regresi multivariat.

(1) Uji keliniearan antara variabel dependen dan independen.

(6)

data dari variabel dependen dan independen. Berdasarkan plotscatter pola hubunganY1 dengan masing-masingX1danX2 memiliki kecenderungan

me-nyebar di sekitar garis lurus. Sama halnya dengan pola hubunganY2 dengan

masing-masing X1 dan X2 sehingga hubungan antar variabel dependen dan

variabel independen adalah linier. (2) Uji Bartlett Sphericity.

Uji Bartlett Sphericity digunakan untuk mengetahui hubungan antar variabel dependen saling bebas. Hipotesis yang digunakan adalah H0: antar variabel

dependen saling bebas dan H1: antar variabel dependen tidak saling bebas.

Pada pengujian ini nilai Bartlett Sphericity dibandingkan denganχ20.05,1yaitu sebesar 3.84. Jika nilai nilai Bartlett Sphericity ≥ χ2

0.05,1, maka H0 ditolak.

Pada data ini diperoleh nilai Bartlett Sphericity sebesar 43.306 sehingga dapat disimpulkan bahwa hubungan antar variabel dependen adalah tidak saling bebas.

(3) Uji Mahalonobis Distance.

Uji Mahalonobis distance digunakan untuk mengetahui distribusi variabel dependen. Hipotesis yang digunakan adalah H0: data berdistribusi normal multivariat dan H1: data tidak berdistribusi normal multivariat. Pada pe-ngujian ini nilai d2i dibandingkan dengan χ22,0.5 yaitu sebesar 1.386. Jika diperoleh kondisi dimana nilai d2i ≤ χ22,0.5 kurang setengah jumlah sampel, maka H0 ditolak. Pada data ini diperoleh kondisi d2i ≤χ22,0.5 yaitu 9 dari 28

observasi atau sebesar 67.858% dari jumlah sampel sehingga dapat disim-pulkan bahwa data berdistribusi normal multivariat.

Dengan demikian variabel dependen dan independen memenuhi ketiga asumsi regre-si multivariat sehingga data variabel kurs tengah GDP dan USD tahun 2010 sampai dengan 2016 dapat dimodelkan menggunakan model regresi multivariat.

Setelah asumsi regresi multivariat terpenuhi selanjutnya ditentukan nilai es-timasi parameternya menggunakan algoritme Gibbs sampling. Langkah pertama, data variabel dependen dan independen digunakan untuk menentukan nilai awal parameter model regresi multivariat dengan metode kuadrat terkecil dan diperoleh

nilai β(0) = 

  

11460 7452

−393 −342.4 1391.2 993.97

  

dan Σ(0) = (

6928577 4965519 4965519 3656303

)

. Kemudian

Σ(1)|Y dibangkitkan dari distribusi invers Wishart dengan parameternya (f0,G0)

(7)

bangkitan.

Setelah diperoleh nilai estimasi parameter model regresi, selanjutnya dilaku-kan pengujian parameter untuk mengetahui pengaruh variabel independen terhadap variabel dependen. Nilai estimasi parameter model tersebut diuji menggunakan in-terval kepercayaan pada tingkat kepercayaan 95% yang ditandai dengan persentil 2.5% dan 97.5%. Parameter dikatakan signifikan jika selang interval pada tingkat kepercayaan 95% parameter tidak memuat nilai nol. Parameter yang signifikan menunjukkan variabel independen berpengaruh terhadap variabel dependen. Nilai estimasi dan interval kepercayaan dari parameter model regresi multivariat ditun-jukkan pada Tabel 1.

Tabel 1. Nilai estimasi parameter dan interval kepercayaan β dan Σ

Parameter Estimasi Interval Kepercayaan Kesimpulan Persentil 2.5 Persentil 97.5

ˆ

β01 11459.96 11457.98 11461.94 signifikan

ˆ

β02 7451.98 7450.04 7453.91 signifikan

ˆ

β11 −392.96 −394.90 −391.07 signifikan

ˆ

β12 −342.36 −342.38 −344.28 signifikan ˆ

β21 1391.25 1389.33 1393.18 signifikan

ˆ

β22 993.97 992.04 995.92 signifikan

ˆ

Σ11 292765.8 200082.7 428742.6 signifikan

ˆ

Σ12 168374.8 109552.1 254252.2 signifikan

ˆ

Σ21 168374.8 109552.1 254252.2 signifikan

ˆ

Σ22 142686.6 98046.92 206419.1 signifikan

Berdasarkan Tabel 1 kolom kedua diperoleh nilai estimasi parameter model regresi

multivariat yaitu ˆβ = 

  

11459.96 7451.98

−392.96 −342.36 1391.25 993.97

  

dan ˆΣ = (

292765.8 168374.8 168374.8 142686.6

)

.

Berdasarkan Tabel 1 kolom ketiga dan keempat nampak bahwa semua parameter tidak memuat nilai nol sehingga dapat dikatakan bahwa semua parameter signifikan yang artinya bahwa laju inflasi dan PDB memengaruhi kurs tengah GBP dan USD. Model regresi multivariat yang diterapkan pada data kurs tengah GBP dan USD tahun 2010- 2016 adalah

ˆ

Y1 = 11459.96−392.96X1+ 1391.25X2 (4.9)

ˆ

Y2 = 7451.98−342.36X1+ 993.97X2. (4.10)

(8)

5. Kesimpulan

Berdasarkan hasil dan pembahasan disimpulkan bahwa estimasi parameter model regresi multivariat Bayesian dengan distribusi prior informatif ditentukan melalui ekspektasi variabel random dari distribusi posterior marginal. Ekspek-tasi variabel random tersebut sulit ditentukan sehingga dilakukan pembangkitan sampel yang mendekati distribusi posterior dengan metode MCMC algoritme Gi-bbs sampling. Hasil algoritme tersebut adalah barisan sampel terdiri atas matriks

Σ(1),β(1),Σ(2),β(2), . . . ,Σ(M),β(M) yang mendekati distribusi posterior. Estimasi masing-masing parameter model regresi multivariat adalah ˆβ = 1

M ∑M

k=1β

(k) dan

ˆ

Σ= 1

M ∑M

k=1Σ (k).

DAFTAR PUSTAKA

[1] Arashi, M., A. Iranmaneshb, M. Norouziradb, and H.S. Jenatabadic, Bayesian Analysis in Multivariate Regression Models with Conjugate Priors, Journal of Theoretical and Applied Statistics,48 (2014), no. 6, pp 1324-1334.

[2] Bain, L. J. and M. Engelhardt,Introduction to Probability and Mathematical Statistics, 2nd

ed., Buxbury Press, California, 1992.

[3] Bank Indonesia, [Bank Indonesia], Statistik Ekonomi dan Keuangan Indonesia, Jakarta, 2017.

[4] Bolstad, W.M.,Introduction to Bayesian Statistics, 2nd

ed., A John Wiley and Sons, Ame-rica, 2007.

[5] Box, G. E. P and G.C. Tiao,Bayesian Inference in Statistics, 2nd

ed., Wiley, New Jersey, 2007.

[6] Casella G and R.L. Berger, Statistical Inference, Boston, Duxbury Press, 2002.

[7] Casella, G. and E. I. George,Explaining the Gibbs Sampler, The American Statistisian46 (1992), no. 3, pp 167-174.

[8] Congdon, P.,Bayesian Statistical Modeling, John Wiley, Chinchester, 2003.

[9] Evans, S.,Bayesian Regression Analysis, A Theses , Department of Mathematics, Univer-sity of Louisville, Louisville, 2012.

[10] Gelman, A., J.B. Carlin, D.B. Dunson, A. Vehtari, and D.B.Rubin,Bayesian Data Analysis, 3th

ed., Chapman and Hall, New York, 2004.

[11] Johnson, V. E. and J. H. Albert,Ordinal Data Modeling, Springer-Verlag Inc.,New York, 1998.

[12] Johnson, R.A. and D. Wichern, Applied Multivariate Statistical Analysis, Prentice Hall, New Jersey, 2007.

[13] Prasdika, D.A., D.R.S. Saputro, dan T.J. Parmaningsih,Estimasi Parameter Model Regresi Linier Sederhana Bayesian dengan Distribusi Prior Informatif, Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2016, Universitas Sebelas Maret, 2016.

[14] Prasdika, D. A., D.R.S. Saputro, P. Widyaningsih, and K.R. Demu, Parameter Estima-tion of Multivariate Regression Model using Bayesian with Normal Multivariate and Inver-se Distribution, First International Conference on Science Mathematics Environment and Education, Universitas Sebelas Maret, 2017.

[15] Walpole,R.E., R.H. Myers, S.L. Myers, and K. Ye,Probability and Statistics for Engineers and Scientists, 8th

Gambar

Tabel 1. Nilai estimasi parameter dan interval kepercayaan β dan Σ

Referensi

Dokumen terkait

Informan DI (layanan pemustaka) dari hasil wawancara mengatakan bahwa “sistem WFH menyulitkan karyawan dalam melakukan pekerjaan, karena pekerjaan yang dilakukan dirumah itu

Uji t dalam penelitian ini bertujuan untuk mengetahui pengaruh masing-masing variabel bebas yaitu faktor-faktor yang mempengaruhi sikap petani padi (pendidikan

Penelitian ini menggunakan ekstrak kulit buah manggis yang digunakan sebagai bahan alternatif medikamen saluran akar dapat menyebabkan kematian sel dari bakteri

Namun di sela-sela itu Imre Lakatos hadir dengan Methodology of Scientific Reseacrh Programmes yang mengandung beberapa elemen penting, pertama, Inti Program (hard-core), ini

Tujuan penelitian ini adalah untuk mengetahui apakah terdapat perbedaan aktivitas dan hasil belajar antara siswa kelas V yang memperoleh pembelajaran dengan

Primary Dysmenorrhea biasanya terjadi dalam '-5% bulan pertama setelah menarche +haid  pertama segera setelah siklus o!ulasi teratur +regular o!ulatory cycle

Kita bisa bersaing dengan produk yang sama dengan harga sama, atau bahkan harga lebih mahal selama kita bisa menetapkan BENEFIT bagi pembeli kita.. BENEFIT ini dengan

Bahwa sehubungan dengan itu, demi terlaksananya sidang secara tertib, lancar, berdaya guna dan berhasil guna, dipandang perlu untuk adanya keputusan tentang agenda