Analisis Data Kategorik
Analisis Data Kategorik
GENERALIZED LINEAR MODEL, REGRESI
GENERALIZED LINEAR MODEL, REGRESI
LOGISTIK, DAN MODEL LOGIT
LOGISTIK, DAN MODEL LOGIT
MARLIANI
MARLIANI RARA
RARA RAHAYU
RAHAYU H12112010
H12112010
NURKAMILA JAFAR
NURKAMILA JAFAR
H12112014
H12112014
INDAH
H12112106
INDAH
H12112106
CHRISTIAN
CHRISTIAN BEREN
BEREN
H12112276
H12112276
PROGRAM STUDI STATISTIKA
PROGRAM STUDI STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
PENGETAHUAN
ALAM UNIVERSITAS HASANUDDIN
ALAM UNIVERSITAS HASANUDDIN
2014
GENERALIZED LINEAR MODEL (GLM)
GLM pertama kali diperkenalkan oleh Nelder dan Wedderburn pada tahun 1972. GLM secara spesifik terbagi menjadi 3 bagian penting yaitu komponen acak, komponen sistematik, dan fungsi penghubung.
1. Komponen Acak
Komponen acak dari sebuah GLM terdiri atas peubah respon Y1, Y2, …,
Yn yang merupakan contoh acak dimana Yi ~ (µi, σ2) dan termasuk dalam
keluarga sebaran eksponensial 2. Komponen Sistematik
Komponen Sistematik merupakan fungsi dari peubah penjelas yang membentuk model η = Xβ
Misalkan ηi = β1x1i + β2x2i + β3x3i+ … + β px pi
3. Fungsi Penghubung
Komponen ketiga dari GLM adalah penghubung antara komponen acak dan komponen sistematik. Misalkan µi = E(yi) , i= 1,…,N. lalu µi
dihubungkan ke ηi dengan ηi = g(µi) dimana g adalah sebuah fungsi
diferensial monoton.
Model Linear Umum/GLM terbagi atas: 1. Analisis Regresi Linear
Analisis Regresi Linear adalah hubungan fungsional antara variabel independen dengan variabel dependen
2. Analisis Varians (ANOVA)
Analisis Varians (ANOVA) merupakan suatu model analisis statistika yang termasuk ke dalam cabang statistika inferensi. ANOVA adalah prosedur statistika untuk mengkaji apakah rata-rata hitung (mean) dari beberapa populasi sama atau tidak. ANOVA terdiri atas ANOVA satu arah (one way anova), ANOVA dua arah tanpa interaksi (anova two way without interaction), dan ANOVA dua arah dengan interaksi (anova two way with interaction).
Analisis Covarians (ANACOVA) merupakan model linear dengan satu variabel dependen kontinu dan satu atau lebih variabel independen. ANACOVA merupakan penggabungan antara ANOVA dan regresi linear yang lazimnya mengunakan variabel kontinu (kuantitatif).
4. Analisis Regresi Logistik
Analisis Regresi Logistik merupakan teknik statistik yang digunakan untuk mengetahui pengaruh satu variable independen atau lebih (X) terhadap satu variable dependen (Y), dengan syarat:
Variabel dependent harus merupakan variable dummy yang hanya punya dua alternatif. Misalnya Puas atau tidak puas, dimana jika responden menjawab puas maka kita beri skor 1 dan jika menjawab tidak puas kita beri skor 0.
Variabel independent mempunyai skala data interval atau rasio.
REGRESI LOGISTIK
Regresi logistik adalah bagian dari analisis regresi yang digunakan ketika variabel dependen (respon) merupakan variabel dikotomi. Variabel dikotomi biasanya hanya terdiri atas dua nilai, yang mewakili kemunculan atau tidak
adanya suatu kejadian yang biasanya diberi angka 0 atau 1.
Tidak seperti regresi linier biasa, regresi logistik tidak mengasumsikan hubungan antara variabel independen dan dependen secara linier. Regresi logistik merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva seperti gambar di bawah ini:
Asumsi-asumsi dalam regresi logistik:
Tidak mengasumsikan hubungan linier antar variabel dependen dan
independent
Variabel dependen harus bersifat dikotomi (2 variabel)
Variabel independent tidak harus memiliki keragaman yang sama antar
kelompok variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau
bersifat eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan
hingga 50 sampel data untuk sebuah variabel prediktor (bebas).
Regresi logistik terdiri atas 1. Regresi Logistik Biner
Regresi Logistik Biner atau dikotomi adalah regresi logistik dimana variabel dependennya hanya mempunyai dua kategori saja, yang menyatakan kejadian sukses (Y=1) dan kejadian gagal (Y=0). Sebagai contoh, ingin diketahui apakah konsumen akan membeli makanan di rumah makan berdasarkan penilaian konsumen terhadap lokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Dalam kasus ini hanya ada 2
kemungkinan respon konsumen yaitu konsumen membeli (Y=1) dan tidak membeli (Y=0)
2. Regresi Logistik Multinomial
Regresi Logistik Multinomial adalah regresi logistik dimana variabel dependennya lebih dari dua kategori.
MODEL LOGIT
Model logit adalah model regresi non-linear yang menghasilkan sebuah persamaan dimana variabel dependen bersifat kategorikal. Kategori paling darsar dari model tersebut menghasilkan binary values seperti angka 0 dan 1. Model logit adalah model yang digunakan pada regresi logistik. Bentuk dasar probabilitas pada model logit dapat dijelaskan pada tabel berikut:
Yi Probabilitas 0 1 1-Pi Pi Total 1
Contoh penggunaan data tersebut seperti dalam kategori kepemilikan rumah, dimana nilai 0 memiliki arti tidak memiliki rumah, dan nilai 1 memiliki arti memiliki rumah.
Persamaan regresi logit diperoleh dari penurunan persamaan probabilitas dari kategori-kategori yang akan diestimasi. Persamaan probabilitas tersebut adalah:
( )
()
Persamaan tersebut dapat disederhanakan dengan mengasumsikan ( ) adalah , sehingga menghasilkan persamaan berikut:
CONTOH SOAL DAN PENERAPAN DALAM SOFTWARE
Contoh kasus analisis regresi logistik biner:
Dilakukan simulasi untuk melihat pengaruh antara variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan terhadap ketepatan penyampaian laporan keuangan tahunan perusahaan. Profitabilitas diukur dengan ROA; variabel kompleksitas terdiri atas 2 kategorik yaitu diberi angka 2 jika mempunyai anak perusahaan dan 1 jika perusahaan tidak mempunyai anak perusahaan; opini auditor diukur dengan 2 jika mendapatkan opini wajar tanpa pengecualian dan 1 untuk opini yang lain; likuiditas diukur dengan Current Ratio; dan ukuran perusahaan diukur dengan logaritma natural market value. Variabel terikatnya adalah ketepatan penyampaian laporan keuangan, dengan kode 1 untuk perusahaan yang tepat waktu dan 0 untuk perusahaan yang terlambat. Datanya adalah sebagai berikut:
1 0 0 1 1 1 0 1 1 1 1 1 0 0 1 0 1,73 0,83 2,04 4,09 0,85 2,29 0,50 0,17 3,21 2,52 1,30 1,57 2,26 2,54 1,64 1,25 1 1 2 2 1 1 2 1 1 2 1 2 2 2 2 1 1 1 2 2 2 2 2 2 2 1 2 2 2 2 2 1 4,01 0,50 3,47 1,22 39,00 2,80 9,21 4,12 0,80 4,44 5,74 3,23 3,49 5,01 7,75 0,96 15,22 13,62 17,41 16,87 11,62 15,98 14,27 11,12 17,12 17,46 12,05 14,41 17,45 15,09 14,57 11,61
1 0 1 0 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 0 1 0 0 1 0 1 0 1 1 1 1 3,58 1,59 5,77 1,96 1,57 2,06 2,40 0,57 2,96 1,48 0,25 0,59 1,42 0,23 4,30 0,14 2,35 1,60 1,29 0,89 1,70 1,01 0,35 0,99 0,16 5,37 1,16 1,20 0,56 2,82 3,55 2 2 1 1 1 1 1 1 2 1 2 1 1 2 2 1 1 1 1 1 2 1 2 2 1 1 2 1 1 1 1 1 2 2 2 1 1 1 1 2 2 1 2 1 2 2 1 2 2 2 1 2 1 2 2 2 2 2 1 1 1 2 3,25 4,50 6,37 4,60 0,06 4,06 3,38 12,70 1,18 2,64 8,91 7,38 1,07 4,18 6,89 0,15 5,60 5,91 1,16 4,30 7,88 0,43 1,17 9,75 2,60 5,38 2,90 6,46 2,19 7,94 9,16 14,90 15,05 17,33 11,72 11,60 15,51 17,54 14,15 16,95 15,82 14,22 12,20 17,87 17,30 15,22 17,46 11,61 14,59 18,21 15,09 15,98 10,36 9,99 13,63 11,01 12,98 13,04 17,41 16,03 17,54 15,98
0 0 0 1 0 0 1 0 1 1 0 0 1 0 0 0 1 1 0 1 0 0 0 1,90 1,50 0,12 2,26 1,48 0,96 2,96 1,15 1,21 3,50 0,42 1,98 2,21 3,14 1,87 0,19 1,12 5,60 0,28 3,77 2,26 2,01 0,16 1 1 2 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 2 1 1 1 1 2 2 2 1 2 2 1 1 2 2 2 1 1 2 2 1 1 2 1 2 2 1 3,49 0,50 2,16 4,11 1,84 2,22 4,60 5,01 4,18 3,37 0,98 0,46 3,90 1,12 2,85 3,01 4,50 5,25 1,44 8,98 0,30 2,07 3,11 13,62 17,41 16,87 11,62 15,98 14,27 11,12 17,12 17,46 12,05 10,96 9,83 14,01 12,36 10,55 10,01 17,53 16,94 9,92 11,19 11,05 14,07 10,55 Keterangan:
= ketepatan penyampaian laporan keuangan tahunan perusahaan, bernilai 1 apabila penyampaiannya tepat, dan bernilai 0 apabila penyampaiannya tidak tepat
= profitabilitas
= kompleksitas perusahaan, diberi angka 2 jika mempunyai anak perusahaan dan 1 jika perusahaan tidak mempunyai anak perusahaan
= opini auditor, diberi angka 2 jika mendapatkan opini wajar tanpa pengecualian dan 1 untuk opini yang lain
= likuiditas
= ukuran perusahaan
Jawab:
Setelah data di atas diinput di SPSS, maka akan diperoleh ouput data yang nantinya dapat digunakan untuk membentuk persamaan regresi logistik, juga dari output yang diperoleh dapat ditarik kesimpulan mengenai apakah terdapat pengaruh variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan terhadap ketepatan penyampaian laporan keuangan tahunan perusahaan melalui uji hipotesis. Berikut adalah hasil analisis ouput SPSS:
Identifikasi Data yang Hilang
Case Processing Summary
Unweighted Casesa N Percent
Selected Cases Included in Analysis 70 100,0
Missing Cases 0 ,0
Total 70 100,0
Unselected Cases 0 ,0
Total 70 100,0
a. If weight is in effect, see classification table for the total number of cases.
Pada tabel di atas, dapat dilihat tidak ada data yang hilang (missing cases).
Pemberian kode variabel respon oleh SPSS
Menurut pengkodean SPSS, yang termasuk kategori sukses adalah penyampaian laporan keuangan tahunan yang tepat.
Pemberian kode untuk variabel penjelas yang kategorik
Pengkodean variabel penjelas hanya dilakukan untuk variabel penjelas yang kategorik karena akan dibentuk dummy variabel. Penelitian ini menggunakan dua variabel penjelas yang kategorik yaitu variabel Opini dan variabel Kompleksitas. Untuk variabel Opini, nantinya yang akan digunakan sebagai reference code (kode pembanding) adalah Wajar Tanpa Pengecualian (lihat pada tabel di atas bagian parameter codings yang berkode nol). Sementara untuk variabel Kompleksitas, yang menjadi kode pembanding adalah punya anak perusahaan. Kode pembanding ini akan digunakan untuk interpretasi Odds Rati o.
Uji Kelayakan Model (Goodness of Fit)
Uji Goodness of Fit digunakan untuk melihat apakah data empiris cocok atau tidak dengan model atau dengan kata lain diharapkan tidak ada perbedaan antara data empiris dengan model.
Apakah model sudah fit? Perhatikan nilai statistik-2 Log Likelihood.
Untuk bagian Beginning, yaitu nilai -2 Log likelihood yang masih hanya menggunakan konstanta (c) adalah 96,983 sedangkan saat kita sudah melibatkan lima variabel bebasnya, nilai -2 Log Likelihood adalah 63,789 (iterasi maksimum 6). Hal ini sudah menunjukkan ada penurunan nilai saat variabel bebas sudah ikut dalam perhitungan yakni sebesar 96,983-63,789 = 33,194 (Lebih jelasnya, dapat lihat pada bagian Omnibus Tests of Coefficients)
Untuk Beginning, ternyata dihasilkan koefisien dari -2 Log Likelihood 0,057 yang lebih besar dibanding alpha 5% sehingga dengan demikian kita menerima hipotesis nol yakni model sudah fit.
Kalau dalam regresi biasa, nilai R square digunakan untuk menunjukkan pengaruh bersama. Pada regresi logistik digunakan Cox & Snell dan Nagelkerke R Square. Secara bersama, variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan yang dipakai dalam penelitian sudah mampu menjelaskan keragaman data sebesar 50,4% (misal dengan Nagelkerke)
sedangkan sisanya sebesar 49,6% dijelaskan oleh variabel lain di luar model penelitian
Selanjutnya dilakukan uji hipotesis dengan Hosmer and Lemeshow Test. Hasilnya, nilai Sig 0,389 lebih besar daripada alpha 5% sehingga hipotesis nol diterima (secara statistik tidak terdapat perbedaan yang signifikan antara model dengan nilai observasi) sehingga model sudah fit dengan data.
Uji Signifikansi Model Overall Test
Dari hasil SPSS dapat digunakan tabel “Omni bus Tests of M odel Coef fi cients ”
untuk melihat hasil pengujian secara simultan pengaruh variabel bebas ini.
: tidak ada variabel X yang signifikan mempengaruhi variabel Y nya.
: minimal ada satu variabel X yang signifikan mempengaruhi variabel Y nya. Kriteria uji : Tolak jika nilai Sig. < 0,05
Berdasarkan tabel di atas diperoleh nilai Sig.Model sebesar 0.000. Karena nilai ini lebih kecil dari 5% maka kita menolak Ho pada tingkat signifikansi 5% sehingga disimpulkan bahwa variabel bebas yang digunakan, secara bersama-sama berpengaruh terhadap ketepatan penyampaian laporan keuangan suatu perusahaan.
Partial Test
Pada uji diharapkan akan ditolak sehingga variabel yang sedang diuji masuk ke dalam model. Dengan bantuan tabel “Variables in The Equation” dapat dilihat variabel mana saja yang berpengaruh signifikan sehingga bisa dimasukkan ke model.
: (variabel Profitabilitas () tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Profitabilitas () signifikan mempengaruhi variabel Tepat
())
Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Tolak karena Sig. = 0,004 < 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Profitabilitas () signifikan mempengaruhi variabel Tepat ()
: (variabel Kompleksitas () tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Kompleksitas () signifikan mempengaruhi variabel Tepat
())
Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Terima karena Sig. = 0,150 > 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Kompleksitas () tidak signifikan mempengaruhi variabel Tepat
: (variabel Opini () tidak signifikan mempengaruhi variabel Tepat
())
: (variabel Opini () signifikan mempengaruhi variabel Tepat ()) Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Terima karena Sig. = 0,811 > 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Opini () tidak signifikan mempengaruhi variabel Tepat ()
: (variabel Likuiditas () tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Likuiditas () signifikan mempengaruhi variabel Tepat
())
Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Tolak karena Sig. = 0,000 < 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Likuiditas () signifikan mempengaruhi variabel Tepat ()
: (variabel Ukuran Perusahaan () tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Ukuran Perusahaan () signifikan mempengaruhi variabel Tepat ())
Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Terima karena Sig. = 0,410 > 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Ukuran Perusahaan () tidak signifikan mempengaruhi variabel Tepat ()
Persentase Ketepatan Klasifikasi (Percentage Correct)
Persentase ketepatan model dalam mengkasifikasikan observasi adalah 78.6 persen. Artinya dari 70 observasi, ada 55 observasi yang tepat pengklasifikasiannya oleh model regresi logistik. Jumlah observasi yang tepat pengklasifikasiannya dapat dilihat pada diagonal utama.
Pembentukan Model
Berdasarkan hasil di atas diketahui bahwa terdapat 2 variabel bebas yang signifikan berpengaruh terhadap ketepatan penyampaian laporan keuangan perusahaan karena masing-masing variabel tersebut memiliki nilai signifikansi
yang lebih kecil dari a=5%. Variabel-variabel tersebut adalah Profitabilitas (Sig.=0.004) dan Likuiditas (Sig.=0.000). Model regresi logistik yang terbentuk adalah:
() ( ) ( )
( ) ( )
dimana: :
= Profitabilitas
= Likuiditas
Interpretasi Odds Ratio
Nilai Odds ratio ini juga disediakan oleh tabel “Variables in The Equation” pada kolom Exp(B) :
Berdasarkan hasil di atas kita dapat menginterpretasikan Odds ratio sebagai berikut :
1. Jika jumlah profitabilitas perusahaan bertambah 1 unit maka kecendrungan perusahaan tersebut untuk tepat waktu menyampaikan laporan keuangan
menjadi 2.780 kali lipat.
2. Sebuah perusahaan yang tidak mempunyai anak perusahaan akan memiliki kecenderungan untuk menyampaikan laporan keuangan secara tepat waktu sebesar 3.057 kali dibanding perusahaan yang memiliki anak perusahaan (merujuk pada reference code).
3. Perusahaan dengan opini auditor adalah opini lain cenderung 0.848 kali (lebih rendah) untuk tepat waktu dalam menyampaikan laporan keuangan dibanding dengan perusahaan yang Wajar tanpa Pengecualian.
4. Jika Current ratio pada likuiditas bertambah 1 persen maka perusahaan akan cenderung 1.708 kali untuk tepat waktu menyampaikan laporan keuangannya.
5. Ketika ukuran perusahaan bertambah 1 unit maka perusahaan tersebut cenderung 1.123 kali untuk tepat waktu dalam menyampaikan laporan keuangannya.