REGRESI LOGISTIK DENGAN METODE ROBUST LOGISTIC DIAGNOSTIC
Azzakiy Fiddarain
Mahasiswa Program Studi S1 Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Riau Kampus Bina Widya Pekanbaru 28293, Indonesia
ABSTRACT
This article discusses the robust logistic diagnostic method for the identification of high leverage points in logistic regression model which is a review of article from Syaiba and Habshah [Journal of Applied Sciences, 10 (2010), 3042-3050]. On first stage, robust estimator used to identify suspect high leverage points by computing the robust Mahalanobis distance based on minimum covariance determinant and minimum volume ellipsoid. On the second stage, the group deleted based on the distance from the mean for logistic regression model is computed. Then the effectiveness of this method is investigated through the simulation of data using software R version 3.1.2.
Keywords: Logistic regression model, outlier, high leverage, robust Mahalanobis distance, minimum covariance determinants, minimum volume ellipsoid
ABSTRAK
Artikel ini membahas metode robust logistic diagnostic untuk mengidentifikasi titik
high leverage pada model regresi logistik yang merupakan kajian ulang dari artikel
Syaiba dan Habshah [Journal of Applied Sciences, 10 (2010), 3042-3050]. Pada tahap pertama penaksir robust digunakan untuk mengidentifikasi pengamatan yang diduga sebagai titik high leverage dengan menghitung jarak Mahalanobis robust berdasarkan determinan kovarian minimum dan elipsoid volume minimum. Pada tahap kedua, hitung kelompok dihapus berdasarkan metode jarak dari rata-rata pada model regresi logistik. Kemudian keefektifitasan metode ini diselidiki melalui simulasi data menggunakan software R versi 3.1.2.
Kata kunci: Model regresi logistik, outlier, high leverage, jarak Mahalanobis robust, determinan kovarian minimum, elipsoid volume minimum
1. PENDAHULUAN
Regresi logistik digunakan untuk menganalisis kasus-kasus penelitian dengan tujuan mendapatkan model terbaik dan sederhana untuk menjelaskan hubungan di antara variabel respon (Y ) dengan variabe-variabel prediktor (X) [6, h. 63]. Agresti [1, h.188] menyatakan bahwa variabel respon dalam regresi logistik dapat berupa kategori atau kualitatif.
Masalah yang sering muncul dalam analisis regresi adalah ditemukannya satu atau beberapa titik data berada jauh dari pola data pada umumnya atau yang biasa disebut sebagai outlier. Diagnosa outlier leverage pada regresi logistik merupakan bagian penting ketika menganalisis data karena outlier leverage dapat menyebabkan penaksir parameter menjadi bias. Rousseeuw [10] menyatakan bahwa titik high leverage tidak sesuai dengan model sama sekali dan titik ini lebih berbahaya dari outlier karena memiliki pengaruh paling besar pada regresi linear klasik. Imon [7] menunjukkan bahwa titik high leverage tidak hanya menyebabkan penaksir parameter menjadi salah, tetapi juga membentuk efek masking dan
swamping. Efek masking terjadi pada saat pengamatan outlier tidak terdeteksi
karena adanya pengamatan outlier lain yang berdekatan sedangkan efek swamping terjadi saat pengamatan baik teridentifikasi sebagai outlier.
Dalam artikel ini untuk mengidentifikasi titik high leverage dalam model regresi logistik digunakan metode Robust Logistic Diagnostic (RLGD). Metode RLGD menggabungkan metode DM teknik yang diusulkan oleh Imon [7] dengan metode
Diagnostic-Robust Generalized Potential (DRGP) yang diusulkan oleh Habsah et
al. [4]. Pada tahap pertama, titik high leverage diidentifikasi dengan penaksir
robust Minimum Covariance Determinant (MCD) atau Minimum Volume Ellipsoid
(MVE) yang diperkenalkan oleh Rousseeuw [9]. Kemudian, pendekatan diagnostik digunakan untuk mengkonfirmasi high leverage.
2. PENAKSIRAN PARAMETER REGRESI LOGISTIK, OUTLIER, HIGH LEVERAGE
Pada bagian ini dibahas mengenai model regresi logistik, penaksiran parameter model regresi logistik dengan metode maximum likelihood dan metode Newton-Raphson, outlier dan titik high leverage.
Model Regresi Logistik
Regresi logistik merupakan salah satu bagian dari analisis regresi. Regresi logistik digunakan untuk menganalisis kasus-kasus penelitian dengan tujuan untuk mencari pola hubungan antara sekumpulan variabel prediktor dengan suatu variabel respon bertipe katagorik atau kualitatif secara simultan. Variabel Y pada model regresi logistik merupakan variabel biner yang mempunyai dua nilai (0 atau 1).
prediktor dapat diformulasikan sebagai berikut:
π(xi) =
exp (β0+ β1xi1+ β2xi2+· · · + βkxik)
1 + exp (β0+ β1xi1+ β2xi2+· · · + βkxik)
. (1)
Hosmer dan Lemewshow [6, h. 6] menyebutkan bahwa untuk memudahkan dalam menaksir parameter pada persamaan regresi logistik dapat digunakan transformasi logit. Bentuk logit π(xi) dinyatakan sebagai g(xi), yaitu:
g(xi) = k
∑
p=0
βpxip. (2)
β0 = konstanta, yang lazim disebut intercept
β1, β2, . . . , βk = koefesien regresi variabel prediktor
xi0, xi1, . . . , xik = variabel prediktor yang pengaruhnya akan diteliti
dengan xi0 = 1.
Metode yang biasa dipakai untuk menaksir parameter dalam model regresi logistik adalah metode maximum likelihood. Pada dasarnya metode Maximum
likelihood memberikan nilai estimasi β untuk memaksimumkan fungsi likelihood.
secara sistematis fungsi likelihood untuk model regresi logistik dikotomus dapat ditulis sebagai berikut
f (y; β) = ( ni yi ) πyi i (1− πi)ni−yi, (3)
dan fungsi log-likelihood untuk model regresi logistik adalah ln L(β) = N ∑ i=1 ( ( yiexp ( k ∑ p=0 βpxip) )) − niln ( 1 + exp ( k ∑ p=0 βpxip )) + log ( ni yi )) . (4)
Untuk memperoleh nilai taksiran ˆβp, p = 0, 1, , k yang memaksimumkan nilai
fungsi ln L(β) adalah dengan mendifferensialkan ln L(β) terhadap βp dan hasilnya
disamakan dengan nol. Differensial pertama adalah
∂ ln L(β) ∂βp = N ∑ i=1 ( yixip− niπixip ) , (5)
sedangkan differensial kedua bentuk umumnya adalah
∂2ln L(β) ∂βp∂βp′ =− N ∑ i=1 nixipπi(1− πi) xip′. (6)
Fungsi log-likelihood untuk model regresi logistik adalah cepat mencapai konvergen dan ada nilai taksiran untuk parameter. Akan tetapi fungsi tersebut adalah fungsi yang non-linear untuk menaksir β dengan menggunakan metode
maximum likelihood, sehingga dibutuhkan penyelesaian iterasi Newton-Raphson,
yaitu suatu metode yang digunakan untuk menyelesaikan persamaan-persamaan non-linear [1, h. 143]. Bentuk persamaan dari metode Newton-Raphson untuk menetukan maximum likelihood yang berasal dari differensial pertama dan kedua dari fungsi log-likelihood untuk mendapatkan nilai taksiran parameter yang optimal adalah
β(t+1)=β(t)+[(XTV X)]−1XT(y− ˆµ), (7)
proses iterasi ini berjalan sampai tidak ada perubahan secara esensial di antara elemen-elemen β dari satu iterasi ke iterasi lain. Pada tahap ini, penaksir maksimum likelihood sudah dapat dikatakan konvergen.
Outlier pada Model Regresi Logistik
Draper dan Smith [3, h. 75] mendefinisikan outlier sebagai sisaan dimana nilai mutlaknya jauh lebih besar daripada sisaan-sisaan lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari sisaan lainnya.
Pengaruh outlier dalam analisis data yang dideteksi pada artikel ini adalah
outlier yang berasal dari peubah prediktornya (x-outlier ; titik leverage). Untuk
tiap kasus, leverage menginformasikan seberapa jauh kasus tersebut dari nilai rata-rata himpunan data variabel independen.
Outlier dalam regresi linear dideteksi menggunakan hat matriks. Elemen
diagonal dari hat matriks memberikan informasi tentang data observasi yang mempunyai nilai leverage yang besar. Menggunakan metode weighted least square pada regresi linear sebagai model, Pregibon [8] mendefenisikan hat matriks pada regresi logistik adalah
H = V1/2X(XTV X)−1XTV1/2, (8)
V adalah matrik diagonal berukuran n×n dengan elemen vj = mjπˆj(1− ˆπj). Elemen
diagonal dari H berisi nilai-nilai leverage yang didefinisikan sebagai:
hj = mjπˆj(1− ˆπj)xTj(X
TV X)−1x
j. (9)
Nilai rata-rata dari hj adalah (p + 1)/n, dengan n merupakan banyaknya data,
dan p merupakan jumlah koefesien (βp) variabel independen ditambah 1 sebagai
konstanta (β0). Titik yang memiliki nilai hj besar pada umumnya dianggap sebagai
titik high leverage. Pada tahun 1978 Hoaglin dan Welsch (lihat Imon [7]) menganggap observasi menjadi tidak biasa ketika hj melebihi 2(p + 1)/n yang
umumnya dikenal sebagai aturan dua kali rata-rata (2M : twice the mean). Pada tahun 1981 Vellman dan Welsch (lihat Imon [7]) menganjurkan mempertimbangkan aturan tiga kali rata-rata (3M ) dimana hj dianggap sebagai high leverage ketika
agar membagi interval hj, (0 ≤ hj ≤ 1), menjadi 3 interval. Nilai hj ≤ 0, 2 nilai
yang aman, nilai antara 0, 2 dan 0, 5 beresiko, dan nilai di atas 0, 5 harus dihindari. Meskipun metode di atas dirancang untuk mendeteksi titik high leverage pada regresi linear, namun dapat juga digunakan pada regresi logistik.
3. IDENTIFIKASI TITIK HIGH LEVERAGE PADA MODEL REGRESI LOGISTIK DENGAN METODE ROBUST LOGISTIC
DIAGNOSTIC Metode Jarak dari Rata-rata
Menggunakan defenisi hat matriks pada persamaan (8), nilai leverage ke−j didefinisikan sebagai hj = mjπˆj(1− ˆπj)xjT(XTV X)−1xj = vjbj. Jika kovariat ke−j
adalah titik yang ektrim, nilai xTj yang bersesuaian akan menjadi sangat dekat dengan 0 atau 1, yang menghasilkan nilai mjπˆj(1− ˆπj) yang sangat kecil. Oleh
karena itu titik yang paling ektrim dalam ruang kovariat mungkin memiliki nilai
leverage paling kecil. Namun, kuantitas yang meningkat dengan jarak dari rata-rata
adalah
bj = xTj(X
TV X)−1x
j. (10)
Kuantitas dari jarak rata-rata inilah yang selanjutnya digunakan untuk pengidentifikasian titik high leverage yang dalam artikel ini disebut sebagai metode DM. Hosmer & Lemeshow [6, h. 172] menganjurkan agar fokus pada bj untuk
pengukuran jarak tersebut. bj dianggap pengamatan yang lebih besar apabila: bj > median(bj) + cMAD(bj), (11)
dengan
MAD(bj) = median{|bj − median(bj)|} /0.6745, (12) c adalah konstanta 2 atau 3. Bentuk ini sama dengan kepercayaan untuk parameter
lokasi dan dispersi, dimana rata-rata dan standar deviasi yang tidak robust diganti dengan median dan median absolute deviation (MAD).
Metode Robust Logistic Diagnostic
Pendeteksian titik high leverage pada metode Robust Logistic Diagnostic (RLGD) menggabungkan pendekatan diagnostik dan penaksir robust. Pendekatan diagnostik dapat dilakukan melalui uji statistik formal, tetapi lebih sering juga menyangkut evaluasi yang kurang formal mengenai tabel dari nilai statistik tertentu atau melalui gambaran secara grafik atau plot dari nilai-nilai tersebut.
Tahapan pertama pendeteksian titik high leverage adalah dengan menggunakan jarak Mahalanobis robust (robust Mahalanobis distance). Bentuk dari persamaan jarak Mahalanobis robust adalah
RMDi =
√
(xi− T (X)) T
Pada dasarnya tujuan dari penaksiran robust adalah mengkontruksi secara penuh efisiensi penyesuaian taksiran. Suatu pendekatan untuk mengidentifikasi outlier yaitu menggunakan penaksir yang robust pada T (X) dan S(X). Sehingga metode ini meminimumkan pengaruh outlier dalam penaksiran kecocokan model.
Rousseeuw [9] menganjurkan metode Minimum Covariance Determinant (MCD) dan Minimum Volume Ellipsoid (MVE) untuk memperoleh penaksir yang robust pada T (X) dan S(X). Setelah menghitung robust multivariat dan parameter scale dengan metode MCD atau MVE, selanjutnya hitung RMD dengan menggunakan persamaan (13). RMDi dianggap high leverage apabila
RMDi > median (RMDi) + cMAD (RMDi) (14)
dengan
MAD(RMDi) = median{|RMDi− median(RMDi)|} /0.6745, (15) Metode Robust Logistic Diagnostic
Tahapan selanjutnya dari metode RLGD adalah menggunakan konsep group-deleted. Diasumsikan pengamatan d diantara himpunan pengamatan n akan dihapus. Akan ditunjukkan R menjadi himpunan kasus yang tersisa dalam penganalisaan dan D menjadi himpunan kasus yang dihapus. Oleh karena itu, R berisi kasus (n− d) setelah kasus d dihapus. Dengan mengasumsikan bahwa pengamatan ini adalah baris d terakhir dari X, Y dan V sehingga:
X = [ XR XD ] , Y = [ YR YD ] , dan V = [ VR 0 0 VD ] .
Misalkan ˆβ(−D)vektor yang sesuai pada keofesien penaksir setelah kasus D dihapus. Nilai kecocokan untuk seluruh data didefinisiskan dengan:
ˆ πi(−D)= exp ( x(T )i βˆ(−D) ) 1 + exp ( x(T )i βˆ(−D)), i = 1, 2, . . . , n (16)
dengan variansi dan pola kovariatnya:
v(j−D)= mjπˆi(−D)
(
1− ˆπi(−D)
)
. j = 1, 2, . . . , J (17) Selanjutnya, berdasarkan persamaan (10), misalkan:
ˆ
X = V(1/2)X (18)
maka bisa ditunjukkan
bj = xTj( ˆX
TX)ˆ −1x
j. (19)
Dengan demikian, jarak dari rata-rata untuk kelompok dihapus kasus D adalah
oleh Hadi [5] dan persamaan (20) yaitu:
b(j−D+j) = xTj( ˆXRTXˆR+ xjxTj)−1xj =
b(j−D)
1 + b(j−D). (21)
Berdasarkan index kelompok dihapus kasus pada D, dengan mengadopsi jarak dari rata-rata, kelompok dihapus potensial dinotasikan dengan:
p∗(−D)jj = { b(j−D)/ ( 1 + b(j−D) ) ; j ∈ R b(j−D) ; j ∈ D. (22)
Karena distribusi p∗(−D)jj tidak diketahui, titik cutoff yaitu pembatasan suatu ruang distribusi mayoritas data dari suatu pengamatan outlier ditetapkan berdasarkan median dan MAD untuk p∗(−D)jj seperti yang disarankan oleh Hadi [5]. Untuk setiap pengamatan yang lebih besar dari nilai titik cutoff
p∗(−D)jj > median ( p∗(−D)jj ) + cMAD ( p∗(−D)jj ) (23) dengan
MAD(p∗(−D)jj ) = median{p∗(−D)jj − median(p∗(−D)jj ) }
/0.6745, (24) dinyatakan sebagai high leverage. Langkah identifikasi titik high leverage dengan metode robust logistic diagnostic diringkas sebagai berikut:
1. Untuk setiap titik ke-i, hitung RMDi menggunakan metode penaksir robust
MCD atau MVE,
2. Untuk setiap titik ke-i dengan RMDi > Median(RMDi) + cMAD(RMDi)
terdeteksi sebagai titik high leverage kelompokan pada kelompok dihapus D. Titik-titik lainnya pada kelompok R,
3. Hitung p∗(−D)jj , 4. Nilai p∗(−D)jj > median ( p∗(−D)jj ) + cMAD ( p∗(−D)jj )
dinyatakan sebagai titik
high leverage. 4. Simulasi Data
Data penelitian ini berupa data simulasi yang dibangkitkan dengan bantuan program R versi 3.1.2 untuk 100 data pengamatan. Nilai variabel dependen (Y ) dibangkitkan dari data berdistribusi binomial, variabel X1 dibangkitkan dari data berdistribusi Uniform dan variabel X2 dibangkitkan dari data berdistribusi Normal sebanyak 90% ditambah 10% data berdistribusi Uniform.
Untuk melihat karakteristik sebaran data dilakukan plot data pada variabel Y , variabel X1 dan variabel X2. Hasil plot sebaran data ditampilkan pada Gambar (1). Gambar (2), Gambar (3) dan Gambar (4) merupakan index plot metode hat matriks, Metode DM dan metode RLGD.
Gambar 1: Scatter Plot X1 dan X2
Gambar 2: Index Plot Hat Matriks
Hasil plot data Gambar (1) menunjukkan pengamatan 5,87,99,6,34,42,57,93, diduga sebagai titik high leverage karena letaknya yang tidak berada pada kumpulan data. Berdasarkan nilai hat matriks pada Gambar (2) megidentifikasi pengamatan ke-5,34,42,57,87,93 sebagai titik high leverage tetapi mengalami efek masking yaitu pengamatan yang merupakan outlier tidak terdeteksi sebagai
outlier pada pengamatan 6 dan 99. Dari Gambar (2) terlihat pengamatan ke-6
dan 99 berada dekat dengan nilai cutoff yang ditentukan. Berdasarkan Metode DM Gambar (3) mengidentifikasi pengamatan 5,34,42,57,87,93,99 sebagai titik
high leverage. Hasil tersebut mengidentifikasi seluruh pengamatan berdasarkan nilai hat matriks dan pengamatan ke-99 yang sebelumnya tidak terdeteksi berdasarkan
nilai hat matriks dengan metode DM pengamatan tersebut terdeteksi sebagai titik high leverage tetapi tidak fokus pada pengamatan ke-6. Dari Gambar (3) pengamatan ke-6 berada sangat dekat dengan nilai cutoff. Berdasarkan metode RLGD(MCD) Gambar (4) mengidentifikasi pengamatan ke-5,6,34,42,57,87, 93,99. Dari Gambar (4) terlihat bahwa dengan metode RLGD plot data tergambar lebih baik dari kedua metode sebelumnya, dimana data yang merupakan high leverage berada jauh di atas nilai cutoff -nya, dan tidak ada pengamatan yang berada di sekitar nilai cutoff.
5. KESIMPULAN
Berdasarkan pembahasan yang telah dikemukakan sebelumnya, titik high leverage tidak hanya menyebabkan penaksir parameter menjadi salah, tetapi juga dapat membentuk efek masking dan swamping. Berdasarkan simulasi data pendeteksian titik high leverage berdasarkan hat matriks dan metode DM mengalami efek
masking dimana data yang merupakan titik high leverage tidak terdeteksi oleh
kedua metode tersebut. Sedangkan metode RLGD lebih efektif dalam mendeteksi titik high leverage dan tidak terjadi efek masking maupun efek swamping. secara umum dapat disimpulkan metode RLGD lebih efisien dalam mendeteksi titik high
Ucapan Terima Kasih
Ucapan terima kasih diberikan kepada Bapak Dr. M. D. H Gamal, M.Sc yang telah membimbing dan memberikan arahan dalam penulisan artikel ini.
DAFTAR PUSTAKA
[1] A. Agresti, Categorical Data Analysis. Wiley, New York, 2002.
[2] L. J. Bain dan M. Engelhardt, Introduction To Probability and Mathematical
Statistics, Second Edition, Duxbury Press, California, 2000.
[3] N. R. Draper dan H. Smith, Applied Regression Analiysis, Third Edition, Wiley, New York, 1998.
[4] M. Habshah, M. R. Norazan dan A. H. M. R. Imon, The Performance of
Diagnostic-Robust Generalized Potential for the Identification of Multiple High Leverage Points in Linear Regression. Journal Applied Statistics, 36 (2009),
507-520.
[5] A. S. Hadi, A New Measure of Overall Potential Influence in Linear
Regression, Journal Computational Statistics and Data Analysis, 14 (1992),
1-27.
[6] D. W. Hosmer dan S. Lemeshow. Applied Logistic Regression, Second Edition, Wiley, New York, 2000.
[7] A. H. M. R. Imon, Identification of High Leverage Points in Logistic
Regression, Pakistan Journal of Statistics, 22 (2006), 147-156.
[8] D. Pregibon, Logistic Regression Diagnostic, The Annals of Statistics, 9 (1981), 705-724.
[9] P. J. Rousseeuw, Least Median of Squares Regression, Journal of American Statistical Association, 79 (1984), 871-880.
[10] P. J. Rousseeuw, A Diagnostic Plot for Regression Outlier and Leverage
Points, Journal Computational Statistics and Data Analysis, 11 (1991),
127-129.
[11] B. A. Syaiba dan M. Habshah, Robust Logistic Diagnostic for the Identification of High Leverage Points in Logistic Regression Model, Journal