1. Uji rata-rata untuk mengetahui apakah benar rata-rata umur karyawan 20 tahun??(beserta desktiptive nya)
Silahkangunakan tools yang sudah tersedia pada R dengan cara ketikan
t.test(UmurKaryawan,mu20)
Analisa Output (Akan dijelaskan oleh instruktur ) 2. Membuat Script Analisis korelasi
Langkah awal pilih File|New Script
Dari rumusan korelasi sebelumnya dapat kita buat suatu syntax seperti berikut (silahkan di coba di ketik)
analisis_korelasi=function(X,Y) { n=length(X) sum_xy=t(X)%*%Y sum_x=sum(X) sum_y=sum(Y) sum_xkuadrat=t(X)%*%X sum_kuadratx=sum_x^2 sum_ykuadrat=t(Y)%*%Y sum_kuadraty=sum_y^2 r=(n*sum_xy-sum_x*sum_y)/(sqrt(n*sum_xkuadrat- sum_xkuadrat)*sqrt(n*sum_ykuadrat-sum_kuadraty)) R_square=r^2 cat("nilai korelasi=",r,"\n") cat("nilai determinasi =",r^2,"\n")
cat("nilai R-square dapat diartikan bahwa kira-kira",R_square*100,” persen variasi harga-harga Y disebabkan karena hubungannya dengan variabel X\n") }
Jika Script diatas telah selsai di ketik maka klik File |Save as lalu beri nama analisis_korelasi lalu tutup jendela script
Untuk menjalankan script yang telah kita buat klik File|Source Code|pilih file analisis_korelasi lalu pada jendela console ketikan
> analisis_korelasi(X,Y)
Maka dengan data X dan Y yang telah di input pada studi kasus 1.4 akan didapatkan output analisis korelasi <Silahkan di coba>
! 3
o Untuk Materi sesi pertama ini dalam penggunaanya akan bersifat ekuivalen dalam Console Windows maupun Console LINUX namun pada materi sesi dua nanti akan kita gunakan fitur tambahan pada paket installasi di windows dengan GUI yang relatif memudahkan
o Untuk sesi pertama mungkin akan terasa berat bagi yang belum mengenal dasar(dasar komputasi di dalam bidangnya, namun pada sesi kedua bagi peserta yang telah terbiasa menggunakan paket program statistika seperti SPSS dan Minitab akan mudah untuk memahami karena kita akan mulai menggunakan fasilitas Rcommander dengan GUI yang relatif mudah, dan hanya tinggal meng klik menu seperti pada paket program pengolahan data komersial lainnya.
Restart Komputer dan gunalan OS Linux kerjakan studi kasus 1.4 1.6 dan cari deskriptif data UmurKaryawan
Terdapat File script analisis regresi sederhana multivariat dan logistik yang terdapat didalam direktori kerja anda silahkan di lihat dan di coba jika perlu namun nanti pada akhir sesi 2 akan di demo
kan penggunaannya (silahkan coba di buka)
STUDI KASUS Tambahan
& " 8 #!++ * 9
Disini akan kita coba gunakan salah satu paket program yang telah kita install sebelumya yaitu Rcommander sebagai alat untuk melakukan analisa regresi sederhana, multivariat, logit dan probit.
Pada prisipnya cara kerja pada R comander relatif sama dengan paket program analisis data satatistika komersial lainnya, namun pada R Commander tedapat sedikit perbedaan tampilan data. Pada paket program komersial, biasanya data yang di input dapat dilihat langsung , namun pada R comander data yang telah selesai di input tidak diperlihatkan, namun ke aktifan dari data dapat dilihat pada yang ada. Pada yang ada jika terdapat data yang aktif maka akan tedapat tanda bertuliskan nama file data yang digunakan. Namun jika tidak terdapat data yang aktif maka
akan terdapat tanda ) # *.
Berikut beberapa cara menggunakan paket Rcommander 1. Mengaktifkan Rcommander dari R console
# 6 ! * # 6 ' ) #+* 6
Maka akan muncul kotak dialog sebagai berikut:
+ Menggunakan Menu ,
Untuk me load script ' 6 ! * #
Untuk Save Output Work space dan lain sebagainya Untuk keluar dari paket Commander ' 6 /
- Menggunakan menu!
Menginput data baru dengan cara 6 % *
Import data dari file pakat program lain 6 + !
6 ' ) E *
. Menggunakan menu
Melihat deskriptif korealasi frekwensi dan tabel dengan
# 6 "++ 6 ' ) ' > *
Menggunakan tabel kontingensi /tabulasi silang # 6
Melakukan uji rata(rata seperti uji z t(test ANOVA dengan vara
# 6 6 ' ) ' > *
Uji proporsi dengan cara # 6 ! ! !
Uji kesamaan variansi seperti Lavene dan Barlet dengan cara
# 6 ? #
Analisa Non parametrik # 6 ! + #
Pemodelan seperti pemodelan linier regresi sederhana multivariat logit dan probit dengan cara # 6 +!* '
6 ' ) +!* ' > *
Analisis Multivariat seperti Reabilitas, PCA, dan analisis Faktor dapat dilakukan dengan # 6 * + ! ' ' 6
' ) ' > *
/ Menggunakan menu
Untuk analisa statistika secara geafis seprti bar chart qq plot dan sebagainya dapat dilakukan dengan cara ) 6 ' )
+ " $ > *
6. Menggunakan menu$
Untuk melakukan uji kelayakan model 0 Menggunakan menu!
Untuk pengerjaan yang berkaitan dengan distribusi peluang
& & ' ! ' * , !++ *
& & ' ! '
Analisa korelasi bertujuan untuk mengamati apakah diantara dua variabel terdapat hubungan, dan jika ada hubungan, bagaimanakah arah hubungan dan seberapa besar hubungan tersebut. Data yang dianalisa dapat berupa data kualitatif ataupun kuantitatif.
"* " & & Untuk ilustrasi kapabilitas R, dalam latihan ini, kita akan mencoba membandingkan hasil analisa paket SPSS dan R. Dimiliki data Karyawan.sav (Santoso, 2004). Ingin diamati bagaimanakah hubungan antara Gaji, Usia dan Pengalaman Kerja seorang karyawan (yang disimpan kedalam variabel GAJI, USIA, KERJA).
& & & ' ! ' '
Analisa korelasi parsial bertujuan untuk melihat hubungan antara dua variabel, dengan memasukkan variabel lain sebagai pengontrol.
"* " & &.&. Dari data karyawan diatas, amatilah hubungan diantara dua variabel GAJI, USIA dengan variabel pengalaman KERJA sebagai faktor pengontrol.
& & . ! ' " " * ! * '
Korelasi ini bertujuan untuk mengamati hubungan antara dua atau lebih variabel ordinal (berjenjang, misal sangat baik, baik, tidak baik dst). Perhitungannya dilakukan dengan menggunakan koefisien korelasi Spearman
"* " & & . Dimiliki data nilai_karyawan.sav (Santoso, 2004). Ingin diamati bagaimanakah hubungan antara prestasi kerja, IQ para karyawan dan loyalitasnya (yang disimpan kedalam variabel PRESTASI, IQ, LOYAL).
& . ' +!* ' * ) *
"' - ' +
Analisis regresi digunakan untuk menjelaskan atau menggambarkan suatu variabel response(output, dependen) 1 dan satu atau lebih variabel input (prediktor, independen atau explanatory variable) X1,...,Xp. Jika p=1, maka regresi yang terbentuk disebut regresi sederhana, sedangkan jika p>1
maka regresi yang terbentuk disebut atau regresi
# . Jika terdapat lebih dari satu Y, maka regresi tersebut disebut
# yang tidak dipelajari dalam workshop ini.
Pada bagian ini, akan dipelajari metode regresi pada keadaan variabel dependen merupakan variabel kontinu, sedangkan variabel input dapat bernilai kontinu, diskrit atau kategorik.
Analisa regresi memiliki beberapa tujuan penting, seperti:
1. Untuk melakukan/membuat prediksi terhadap Y dimasa yang akan datang 2. Untuk menganalisa efek atau hubungan diantara variabel input dan dependen
3. Untuk mendapatkan deskripsi dari struktur data.
Beberapa perluasan dari model regresi yang dibicarakan disini misalnya seperti model regresi untuk variabel respon multivariat, model respon biner (yakni regresi logistic) dan model respon counting (poisson regression).
+ ' ' !
Dengan model regresi linear sederhana, akan diamati hubungan dari pasangan variabel dependen dan satu variabel independen (xi,yi) dengan persamaanya
i i
i x
y =
β
0 +β
1 +ε
Nilai dari
β
0,β
1 tidak diketahui dan akan diestimasi dari data. Nilaiεiadalah komponen error yakni besarnya perbedaan dari nilai y terhadap model linear. Estimasi dariβ
0,β
1 dibawah asumsi komponen errorεiadalah iid normal dengan mean µ dan variansiσ2 dapat dilakukan dengan menggunakan metode least square. Nilai estimasi dari parameterβ
0,β
1 adalahx b y b x x y y x x b i i i 1 0 2 1 , ) ( ) )( ( − = − − − =
∑
∑
"* " & . Nilai maksimum detak jantung dari seseorang terhadap
umur (dalam tahun) dapat digambarkan dengan persamaan Max=220(umur
Misalkan pernyataan ini akan dibuktikan secara empiris, dengan mengamati 15 orang dan diperoleh data berikut:
Umur 18 23 25 35 65 54 34 56 72 19 23 42 18 39 37
Max detak
202 186 187 180 156 169 174 172 153 199 193 174 198 183 178
Langkah(langkah analisa regresi sederhana dengan menggunakan R( Commander
1. Data entry
Data entry dapat dilakukan dengan memilih menu 2 % *
Pada jendela dialog yang muncul, isikan nama variabel* E " . Maka jendela data editing akan dibuka. Isikan data diatas, dengan membuat
variabel baru bernama " (bertipe numerik), dan + / (bertipe numerik). Isikan data diatas, kemudian tutup jendela data editor. Maka sekarang objek data bernama detakjantung sedang aktif di R(commander 2. Mengamati hubungan antar usia dan maxrate
Untuk mengamati apakah terdapat hubungan linear antara variabel usia dan maxrate, akan dibuat scatter plot dari data. Pilih menu ) 2 #
'! Pilih variabel usia sebagai variabel x dan variabel maxrate sebagai variabel respon. Selanjutnya hanya pilih ' F" ' dalam pilihan plot. Klik OK untuk menampilkan grafik. Grafik ini dapat disimpan dengan
menu ) 2 - ) ! $ ' .
Terlihat adanya hubungan linear antara variabel independen dan variabel dependen
3. Estimasi dari model
Untuk melakukan estimasi dari model, pilih menu # 2
kolom Enter name for model, dan pilih maxrate sebagai respon variabel dan usia sebagai explanatory variabel. Klik OK, maka diperoleh output berikut pada layar output
> summary(modeldetakjantung) Call:
lm(formula = maxrate ~ usia, data = detakjantung) Residuals:
Min 1Q Median 3Q Max (15.8544 (2.9478 (0.8013 5.0522 9.8380 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 204.1910 3.7960 53.791 < 2e(16 *** usia (0.6683 0.0938 (7.125 7.76e(06 *** (((
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 6.856 on 13 degrees of freedom Multiple R(Squared: 0.7961, Adjusted R(squared: 0.7804 F(statistic: 50.76 on 1 and 13 DF, p(value: 7.764e(06
Terlihat disini komponen b0 dan b1 signifikan padaα=5%. Model hasil estimasi adalah yˆ=210.05- 0.79773*x.
4. Diagnostic check
Validitas dari model dapat di amati secara grafis menggunakan beberapa metode standar. Asumsi bahwa komponen error dari model iid normal dapat diamati dari residual yang berdistribusi normal. Akan tetapi, asumsi
independensi dari residual pasti tidak berlaku karena diketahui bahwa jumlahan residual akan bernilai 0 akan tetapi jika model sesuai, maka tidak akan terdapat korelasi serial dalam residual.
a. Test for normality Bentuk Uji :
Ho: residual berdistribusi Normal Ha: residual tidak berdistribusi Normal
Terdapat banyak metode untuk melakukan uji normalitas terhadap residual. Akan tetapi, disini akan dilakukan pengamatan menggunakan qq plot
b. Uji untuk serial korelasi Bentuk Uji :
Ho:Tidak terdapat serial korelasi pada residual Ha : Terdapat serial korelasi pada residual
Uji untuk serial korelasi dapat dilakukan dengan menggunakan uji durbin watson. Kemudian, asumsi bahwa komponen error memiliki variansi yang tetap dalam waktu (homokedastik) dapat diamati dengan melihat plot residual vs fitted value.
Uji normalitas dan homokedastik dapat dilakukan dengan menggunakan
menu !* ' 2 )20 # * ! # '!
'!
*" ' - $ *3Plot ini membuat plot dari fitted value vs residual. Amati penyebaran residual disekitar garis y=0. Tampak disini tidak terlihat adanya trend, sehingga dapat disimpulkan bahwa residual homokedastik. Demikian pula tampak data menyebar cukup random disekitar garis y=0, sehingga disimpulkan model linear cukup baik untuk memodelkan hubungan y dan x
! + ' FF '! 3 Tampak residual berada disekitar garis lurus, yakni dapat
disimpulkan bahwa residual mengikuti distribusi normal
# ' ,'!# ! '! : plot ini menampilkan nilai dari standardized residual.
Kesimpulan ekuivalen dengan plot residual vs fitted diatas. Nilai tertinggi menunjukkan residual terbesar
!! * # '! : menampilkan titik yang memiliki pengaruh terbesar terhadap estimasi garis regresi. Seringkali didalam analisa regresi, data yang memiliki cook distance relatif sangat besar, walaupun mungkin bukan merupakan residual, pengaruhnya terhadap hasil fitting model dianalisa dengan dibuang dari data.
Lebih lanjut tentang diagnostic check ini akan diberikan pada bagian regresi multivariat.
Uji durbin watson dapat dilakukan dengan memilih menu
!* ' 2 "+ # ' * ! # 2 " ( ! $!
" !#! ' ! . Pilih untuk alternative hypothesis rho !=0. Diperoleh
output berikut
Durbin(Watson test data: maxrate ~ usia
DW = 2.4856, p(value = 0.367
alternative hypothesis: true autocorelation is not 0
Diperoleh kesimpulan bahwa hipotesa nol tidak ditolak pada α=5% (Ho di tolak jika p(value <5% untuk α=5%)
5. Untuk mendapatkan nilai(nilai dari fitted value yˆ dari modeldetakjantung diatas, dapat digunakan perintah fitted(modeldetakjantung). Untuk menampilkan plot dari fitted value yˆ dan nilai y original, dapat digunakan perintah berikut (ketikkan pada jendela perintah R(Commander dan blok perintah ini, lalu klik kanan kemudian submit)
plot(usia,fitted(modeldetakjantung)) points(usia,maxrate,col="red")
Pada grafik yang dibuat, titik hitam menyatakan fitted value, sedangkan titik(titik warna merah nilai y.
6. Prediksi dari nilai y menggunakan modeldetakjantung hasil estimasi diatas untuk diberikan suatu nilai x tertentu, dapat di hitung menggunakan perintah predict. Misalkan ingin dihitung nilai prediksi max rate untuk usia 50 dan 60, maka dapat digunakan perintah
predict(modeldetakjantung,data.frame(usia=c(50,60)))
7. Kita dapat juga menampilkan plot dari fitted value dan interval konfidensi dari nilai fitted value. Misalkan saja, untuk contoh diplot nilai interval konfidensi 95% dari fitted value, dapat digunakan perintah berikut
plot(usia,fitted(modeldetakjantung)) abline(modeldetakjantung) IKbawah= predict(modeldetakjantung,data.frame(usia=sort(usia)),level=0.95,interval="confidence")[,2] points(sort(usia),IKbawah,type="l") IKatas= predict(modeldetakjantung,data.frame(usia=sort(usia)),level=0.95,interval="confidence")[,3] points(sort(usia),IKatas,type="l") points(usia,maxrate,col="red") ' +"'
-Model regresi multivariat dengan k variabel prediktor secara umum dapat diberikan sebagai berikut:
Yi= β0 + β1Xi1 + β2Xi2+ … + βkXik+ εi Dengan asumsi standar:
Yi adalah nilai variabel respon dalam observasi ke-i
β0,β1, …, βk adalah parameter
Xik adalah nilai nilai variabel independen yang ke-k dalam observasi ke-i
εi adalah nilai random error dengan mean E{εi}= 0 dan variansi σ2 {εi} = σ2 diasumsikan berdistribusi normal
εi dan εj tidak berkorelasi sehingga nilai covariansinya σ {εi,εj} = 0 untuk semua i dan j;
Secara umum, langkah(langkah analisa regresi dapat dilakukan dengan cara sebagai berikut:
1. Menentukan variabel dependen dan variabel independen dari model
2. Membangun model dan melakukan seleksi terhadap variabel independen yang signifikan dalam model
3. Melakukan diagnostic checking, yakni mengecek asumsi konstant variansi (homoskedasticity), normality residual, serial korelasi dan multikolinearitas 4. Melakukan transformasi terhadap variabel respon dan/atau variabel independen
Langkah 2, 3 dan 4 diatas dapat juga dibalik, yakni pertama tama melakukan diagnostic checking, kemudian melakukan transformasi, kemudian melakukan seleksi variabel, dan kemudian diagnostic check.
' ),' ) +!* '
) &3 + ' ) ? ( ' * !# *" %
!* ' + 0 # % *
Metode eliminasi ini dilakukan dengan langkah(langkah berikut:
1. Mulai dengan model terlengkap, yakni mengandung semua variabel prediktor
2. Hapus prediktor yang memiliki nilai p(value terbesar lebih besar dari nilai kriteria α
3. Ulangi fitting model, kemudian kembali ke langkah 2 4. Berhenti jika semua nilai p(value kurang dari kriteria α
Nilai kriteria α sering disebut sebagai ”p(to remove” dan tidakselalu harus bernilai α=5%. Jika performansi dari prediksi, sering diguakan nilai α yang lebih besar, seperti 15(20%
0 !* ! % * ' # !
Langkah –langkahnya merupakan kebalikan dari metode backward, yakni sbb:
1. Mulai dengan tidak ada variabel dalam model (model dengan konstanta) 2. Untuk semua variabel prediktor tidak dalam model, pilih satu variabel dengan nilai p(value terkecil kurang dari nilai kriteria α
3. Lanjutkan, sampai tidak terdapat variabel prediktor yang dapat ditambahkan kedalam model
!* %
Metode ini merupakan kombinasi dari metode bacward dan forward, yakni metode ini dilakukan pada situasi dimana kita ingin menambahkan atau membuang variabel prediktor yang telah dibuang atau ditambahkan pada langkah(langkah pemilihan terdahulu.
Analisa pemilihan variabel dengan metode diatas ini pada R dilakukan secara manual. Metode pemilihan variabel dapat juga dilakukan dengan menggunakan metode information criterion seperti Akaike Information Criterion (AIC), Bayes Information Criterion (BIC) (tidak dibahas pada workshop ini).
) .3 ! # #) #
Pada bagian analisa regresi sederhana (simple regression), telah dibahas beberapa metode diagnostic check. Berikut beberapa keterangan singkat tentang uji diagnostic check dari model regresi
1. Normalitas residual (telah dibahas secara singkat didepan) 2. Multikolinearitas
Pada uji multikolinearitas, akan diuji apakah pada model regresi ditemukan adanya korelasi antar variabel independen. Jika terjadi korelasi, maka dinamakan terdapat problem multikolinearitas. Model regresi yang baik seharusnya tidak terdapat korelasi antar variabel independen. Jika terjadi kolinearitas, maka hasil estimasi dari koefisien menjadi tidak valid, dan analisa dapat dilakukan dengan dua cara
• Mengeluarkan salah satu variabel yang memiliki hubungan korelasi yang kuat
• Melakukan analisa regresi bayesian atau regresi ridge (tidak dibahas disini)
Uji multikolinearitas ini secara singkat dapat dinyatakan dengan hipotesa berikut:
Ho:Tidak Terjadi multikolinearitas dalam model Ha: terjadi multikolinearitas dalam model
Uji dapat dilakukan dengan menggunakan Variance Inflation factor (VIF) atau tolerance (1/VIF). Regresi yang bebas multikolinearitas biasanya memiliki VIF disekitar satu, atau tolerance mendekati satu.
3. Heteroskedastisitas
Uji ini bertujuan untuk menganalisa apakah variansi dari residual tetap sepanjang waktu (homokedastik) atau berubah oleh waktu (heteroskedastik). Bentuk uji ini dapat dituliskan sbb:
Ho: Asumsi homokedastisitas terpenuhi Ha: Asumsi homokedastisitas tidak terpenuhi
Apabila terjadi heteroskedastisitas, dapat dilakukan beberapa hal (tidak dibahas di workshop):
• Melakukan analisa 2 3 terhadap model, atau
• Melakukan transformasi terhadap data response. Transformasi dapat dilakukan dengan menggunakan metode Box Cox power transformation. 4. Autokorelasi
Telah dibahas didepan (dengan menggunakan uji durbin watson)
) =3 $! + - ( ' 8 * * ( ) * %! )! 9
Transformasi terhadap variabel dependen dapat dilakukan dengan
menggunakan metode box cox power. Transformasi juga dapat dilakukan terhadap variabel independen, seperti dengan melakukan analisa broken stick regression (regresi dengan memecah variabel independen), atau melakukan analisa regresi multivariat dengan memasukkan komponen polynomial dari variabel independen.
STUDI KASUS 2.3.2. (Regresi berganda). Untuk ilustrasi kapabilitas R, dalam latihan ini, kita akan mencoba membandingkan hasil analisa regresi multivariat dengan paket
SPSS dan R. Dimiliki data penjualan (variabel sales), biaya iklan koran (variabel
iklan_ko), biaya iklan di radio (variabel iklan_ra), jumlah outlet diseluruh daerah (variabel outlet) dan jumlah salesman (variabel salesman). Data tersimpan dalam file
regresimultivariat.sav (Santoso, 2004). Lakukan analisa regresi dengan sales sebagai variabel dependen dan iklan_ko, iklan_ra, outlet dan salesman sebagai variabel independe. Lakukan juga analisa pemilihan variabel terbaik.
+!* ' 3
• Lakukan analisa yang sama dengan diatas menggunakan SPSS. Bandingkan hasilnya dengan output dari R. Apakah anda menemukan perbedaan?
• Seorang pembuat model mungkin memperoleh kesimpulan model yang berbeda dibandingkan dengan pembuat model yang lain. Ini mungkin terjadi karena adanya perbedaan metode pemilihan variabel, ataupun perbedaan urutan langkah pemodelan. Ini sejalan dengan pepatah terkenal dalam statistical modeling: ”All models are wrong but some models are useful”.
& = ' +!* ' ! ' +
!* '
Pada bagian ini pembahasan akan kita lanjutkan untuk Pemodelan logit dan probit. Secara sederhana perbedaan antara regresi biasa dengan pemodelan logit ialah haya pada variabel dependent atau responsenya. Pada regresi biasa, data dependent merupakan data kontinyu namun pada regresi logistik data dari variabel dependennya berupa kategorik baik biner (seperti Ya atau Tidak) yang sering disebut dikotomus atau bisa juga polycotomus seperti ( sangat tidak setuju, tidak setuju, biasa saja, setuju, sangat setuju). Namun pada workshop ini, yang akan kita bahas hanya untuk variabel dependent yang dicotomus.
Model logit sebenarnya berdasar dari ide Linier Probability Model (LPM) yang secara sederhana dapat di ilustrasikan sebagai berikut:
Yi= β0 + β1Xi1+ i
Misalkan variabel X merupakan pendapatan suatu keluarga dan variabel Y merupakan keadaan dimana suatu keluarga memiliki rumah (Y=1) dan tidak memiliki rumah (Y=0), dalam hal ini baik analisa regresi baik sederhana maupun multivariat tidak dapat memodelkan permasalahan diatas. LPM dapat menyelesaikan permasalahan ini dengan ide bahwa ekspektasi kondisional Y dari Xi dapat di interpretasikan sebagai probabilitas kondisional saat suatu event Yi akan muncul oleh karena Xi atau dituliskan E(Y|xi). Ini dapat diperoleh sebagai berikut. Definisikan πi=P(Yi)=P(Yi=1|X=xi). Maka E(Y|xi)= πi.1+(1(πi)*0= πi.
Beberapa asumsi LPM
o i iid normalitas
o YiBerdistribusi Bernoulli
Namun pada kenyataannya model jarang digunakan karena memiliki beberapa kelemahan yaitu (Gujarati 2004) :
1. inonnormal (yakni karena Yidikotomi, maka uijuga dikotomi) 2. Asumsi heteroskedastisitas tidak terpenuhi
3. Terkadang nilai dari Pi berada diluar range 0(1 4. Nilai R2 yang umumnya kecil
Sebenarnya dengan menaikan jumlah data dan menggunakan tekhnik estimasi parameter WLS dapat mengatasi maslah(maslalah diats namun tetap saja pemodelan LPM pada kenyataanya tidak dapat diterima walau secara fundamental atau secara logis , karena sebagian besar kejadian dalam pemodelan dengan nilai dependent berupa data diskrit atau dengan asumsi output merupakan suatu probabilitas tidak dapat serta merta di modelkan secara linier (gujarati 2004 ::hal 593 ). Oleh karena itu kita memerlukan model alternatif yang dapat digunakan relatif memenuhi asumsi –asumsi diatas dan logis atau dapat di interpretasikan secara fundamental yaitu dengan pemodelan Logit
$! + π3 !* ' ! * !(
Untuk membuat harga πiselalu berada diantar 0 dan 1, maka kita
memerlukan suatu fungsi monoton positif (non decreasing) yang memetakan linear prediktor η = α+βX ke unit interval. Transformasi tipe ini diharapkan akan mempertahankan struktur linear dari model, dan menghindari nilai peluang berada diluar interval [0,1]. Sembarang fungsi distribusi kumulatif (CDF) akan memenuhi kriteria diatas
πi= P(Yi=1|X=xi)= P (ηi) = P (α+ βXi)
Dimana fungsi CDF P () dipilih sebelumya dan α, β adalah parameter( parameter yang akan diestimasi. Fungsi P () diasumsikan smooth dan simetris, dan mendekati nilai symmetric π=0 dan 1 secara asimtotis. Jika fungsi P() diasumsikan % ,maka model dapat ditulis ulang sebagai
P(1(πi)= ηi= α+ βXi
Untuk transformasi P(), sering digunakan CDF dari distribusi normal standar
∫
∞ = ze x dx z 2 2 1 2 1 ) (π
φ
atau, lebih umum, fungsi logistik
Z Z Z e e e z + = + = Λ − 1 1 1 ) (
Disini konstantaπ ≈3.141 dan e ≈2.718.
Dengan menggunakan CDF normal
φ
(z)diperoleh linear probit model∫
∞+ = + = i xi x i x α β e dxπ
β
α
φ
π
2 2 1 2 1 ) (Sementara itu, dengan menggunakan fungsi logistik, diperoleh atau
i i i x x x i i e e e x α β β α β α
β
α
π
+ + + − + = + = + Λ = 1 1 1 ) (Secara umum, harga transformasi fungsi logit dan fungsi probit ekuivalen nilainya, kecuali pada nilai ekstrem dari
π
i. Akan tetapi, ada dua kelebihan dari fungsi logit dibandingkan dengan model probit1. Simplicity
Persamaan dari fungsi logistic relatif sederhana, sedangkan fungsi normal lebih kompleks. Perbedaan ini bersifat trivial untuk data dikotomi, tetapi untuk data polythomus, dimana diperlukan model multivariat logistic atau multivariat normal, terlihat bahwa model logistic akan jauh lebih sederhana 2. Interpretability
Transformasi invers dari logit model Λ−1(
π
i)dapat diinterpretasikan langsung sebagai , sedangkan transformasi inversφ
−1(π
i) tidak memiliki interpretasi lansung.– Untuk logit model, pandang nilai rasio odds i x i i eα β
π
π
+ = − 1 Maka diperoleh i i i Xβ
α
π
π
+ = − 1 log . GTransformasi i i i Pπ
π
− = Λ− 1 log ) (1 disebut logit dari π, yakni nilai log dari odds ratio kejadian Y bernilai 1 (kejadian sukses) dibandingkan dengan dengan kemungkinan bernilai 0 .
GFungsi logit bersifat simetrik disekitar 0 dan terbatas diatas dan dibawah. Model logit dan probit diatas dapat secara langsung diperluas untuk model dengan beberapa variabel prediktor. Sementara model dengan variabel response polythomus tidak dibahas pada workshop ini .
!* ' ! * !(
! !) !* ' !
Misal disini kita akan memodelkan masalah efek metode pengajaran yang berbeda. Dimiliki data berikut:
Y= 1 jika nilai akhir A
0 jika nilai akhir B atau C X1= nilai awal test
X2= 1 metode pembelajaran A 0 metode pembelajaran B
X3= IPK
Misalkan dari output program didapatkan hasil sebagai berikut: Dependen :Nilai
Metode:Logit
variabel Koefisien p-value Constant -11.011 0.010 X1 0.08761 0.000 X2 2.13211 0.021 X3 1.9971 0.040
Maka model logitnya telah kita dapatkan yaitu 3 2 1 2.13 1.998 088 . 0 001 . 11 X X X i =− + + +
π
Interpretasi hasil disini bukan lah nilai kuantitatif dari response melainkan probabilitas /pelung terjadinya suatu event dalam hal ini mendapatkan nilai A Dengan persamaan distribusi komulatif
) ( 1 2 1 1 ) | 1 ( I X i i e X Y E β β
π
− + + = = = ) | 1 (Y XE = dibaca harga harapan/peluang terjadinya suatu event dengan nilai kuantitatif 1 dalam hal ini mendapatkan nilai A didalam response dengan input /prediktor X
Maka jika terdapat seseorang dengan kriteria X1= (Nilai awal test) 20
X2=(medapatkan kriteria metode pembelajaran A ) 1 Berapakah kemungkinan ia mendapatkan nilai A ialah ???? Kita gunakan model
0.8671 ) 4 ( 998 . 1 ) 1 ( 13 . 2 ) 20 ( 088 . 0 001 . 11 998 . 1 13 . 2 088 . 0 001 . 11 1 2 3 = + + + − = + + + − = X X X Zi 0.703018 1 1 ) | 1 ( (0.8671) = + = = = − e X Y E i
π
Atau dengan kata lain orang tersebut memiliki peluang sebesar 70% untuk mendapatkan nilai A dengan kondisi demikian
Misalkan dimiliki data tentang kepemilikan rumah, dengan variabel Y= 1 jika memiliki rumah
0 jika tidak memiliki rumah X1= pendapatan (dalam juta)
Misalkan hasil estimasi diperoleh sebagai berikut