Azzakiy Fiddarain ABSTRACT

(1)

REGRESI LOGISTIK DENGAN METODE ROBUST LOGISTIC DIAGNOSTIC

Azzakiy Fiddarain

Mahasiswa Program Studi S1 Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Riau Kampus Bina Widya Pekanbaru 28293, Indonesia

ABSTRACT

This article discusses the robust logistic diagnostic method for the identification of high leverage points in logistic regression model which is a review of article from Syaiba and Habshah [Journal of Applied Sciences, 10 (2010), 3042-3050]. On first stage, robust estimator used to identify suspect high leverage points by computing the robust Mahalanobis distance based on minimum covariance determinant and minimum volume ellipsoid. On the second stage, the group deleted based on the distance from the mean for logistic regression model is computed. Then the effectiveness of this method is investigated through the simulation of data using software R version 3.1.2.

Keywords: Logistic regression model, outlier, high leverage, robust Mahalanobis distance, minimum covariance determinants, minimum volume ellipsoid

ABSTRAK

Artikel ini membahas metode robust logistic diagnostic untuk mengidentiﬁkasi titik

high leverage pada model regresi logistik yang merupakan kajian ulang dari artikel

Syaiba dan Habshah [Journal of Applied Sciences, 10 (2010), 3042-3050]. Pada tahap pertama penaksir robust digunakan untuk mengidentiﬁkasi pengamatan yang diduga sebagai titik high leverage dengan menghitung jarak Mahalanobis robust berdasarkan determinan kovarian minimum dan elipsoid volume minimum. Pada tahap kedua, hitung kelompok dihapus berdasarkan metode jarak dari rata-rata pada model regresi logistik. Kemudian keefektiﬁtasan metode ini diselidiki melalui simulasi data menggunakan software R versi 3.1.2.

Kata kunci: Model regresi logistik, outlier, high leverage, jarak Mahalanobis robust, determinan kovarian minimum, elipsoid volume minimum

(2)

1. PENDAHULUAN

Regresi logistik digunakan untuk menganalisis kasus-kasus penelitian dengan tujuan mendapatkan model terbaik dan sederhana untuk menjelaskan hubungan di antara variabel respon (Y ) dengan variabe-variabel prediktor (X) [6, h. 63]. Agresti [1, h.188] menyatakan bahwa variabel respon dalam regresi logistik dapat berupa kategori atau kualitatif.

Masalah yang sering muncul dalam analisis regresi adalah ditemukannya satu atau beberapa titik data berada jauh dari pola data pada umumnya atau yang biasa disebut sebagai outlier. Diagnosa outlier leverage pada regresi logistik merupakan bagian penting ketika menganalisis data karena outlier leverage dapat menyebabkan penaksir parameter menjadi bias. Rousseeuw [10] menyatakan bahwa titik high leverage tidak sesuai dengan model sama sekali dan titik ini lebih berbahaya dari outlier karena memiliki pengaruh paling besar pada regresi linear klasik. Imon [7] menunjukkan bahwa titik high leverage tidak hanya menyebabkan penaksir parameter menjadi salah, tetapi juga membentuk efek masking dan

swamping. Efek masking terjadi pada saat pengamatan outlier tidak terdeteksi

karena adanya pengamatan outlier lain yang berdekatan sedangkan efek swamping terjadi saat pengamatan baik teridentiﬁkasi sebagai outlier.

Dalam artikel ini untuk mengidentiﬁkasi titik high leverage dalam model regresi logistik digunakan metode Robust Logistic Diagnostic (RLGD). Metode RLGD menggabungkan metode DM teknik yang diusulkan oleh Imon [7] dengan metode

Diagnostic-Robust Generalized Potential (DRGP) yang diusulkan oleh Habsah et

al. [4]. Pada tahap pertama, titik high leverage diidentiﬁkasi dengan penaksir

robust Minimum Covariance Determinant (MCD) atau Minimum Volume Ellipsoid

(MVE) yang diperkenalkan oleh Rousseeuw [9]. Kemudian, pendekatan diagnostik digunakan untuk mengkonﬁrmasi high leverage.

2. PENAKSIRAN PARAMETER REGRESI LOGISTIK, OUTLIER, HIGH LEVERAGE

Pada bagian ini dibahas mengenai model regresi logistik, penaksiran parameter model regresi logistik dengan metode maximum likelihood dan metode Newton-Raphson, outlier dan titik high leverage.

Model Regresi Logistik

Regresi logistik merupakan salah satu bagian dari analisis regresi. Regresi logistik digunakan untuk menganalisis kasus-kasus penelitian dengan tujuan untuk mencari pola hubungan antara sekumpulan variabel prediktor dengan suatu variabel respon bertipe katagorik atau kualitatif secara simultan. Variabel Y pada model regresi logistik merupakan variabel biner yang mempunyai dua nilai (0 atau 1).

(3)

prediktor dapat diformulasikan sebagai berikut:

π(xi) =

exp (β0+ β1xi1+ β2xi2+· · · + βkxik)

1 + exp (β0+ β1xi1+ β2xi2+· · · + βkxik)

. (1)

Hosmer dan Lemewshow [6, h. 6] menyebutkan bahwa untuk memudahkan dalam menaksir parameter pada persamaan regresi logistik dapat digunakan transformasi logit. Bentuk logit π(xi) dinyatakan sebagai g(xi), yaitu:

g(xi) = k

∑

p=0

βpxip. (2)

β0 = konstanta, yang lazim disebut intercept

β1, β2, . . . , βk = koefesien regresi variabel prediktor

xi0, xi1, . . . , xik = variabel prediktor yang pengaruhnya akan diteliti

dengan xi0 = 1.

Metode yang biasa dipakai untuk menaksir parameter dalam model regresi logistik adalah metode maximum likelihood. Pada dasarnya metode Maximum

likelihood memberikan nilai estimasi β untuk memaksimumkan fungsi likelihood.

secara sistematis fungsi likelihood untuk model regresi logistik dikotomus dapat ditulis sebagai berikut

f (y; β) = ( ni yi ) πyi i (1− πi)ni−yi, (3)

dan fungsi log-likelihood untuk model regresi logistik adalah ln L(β) = N ∑ i=1 ( ( yiexp ( _k ∑ p=0 βpxip) )) − niln ( 1 + exp ( _k ∑ p=0 βpxip )) + log ( ni yi )) . (4)

Untuk memperoleh nilai taksiran ˆβp, p = 0, 1, , k yang memaksimumkan nilai

fungsi ln L(β) adalah dengan mendiﬀerensialkan ln L(β) terhadap βp dan hasilnya

disamakan dengan nol. Diﬀerensial pertama adalah

∂ ln L(β) ∂βp = N ∑ i=1 ( yixip− niπixip ) , (5)

sedangkan diﬀerensial kedua bentuk umumnya adalah

∂2_{ln L(β)} ∂βp∂βp′ =− N ∑ i=1 nixipπi(1− πi) xip′. (6)

(4)

Fungsi log-likelihood untuk model regresi logistik adalah cepat mencapai konvergen dan ada nilai taksiran untuk parameter. Akan tetapi fungsi tersebut adalah fungsi yang non-linear untuk menaksir β dengan menggunakan metode

maximum likelihood, sehingga dibutuhkan penyelesaian iterasi Newton-Raphson,

yaitu suatu metode yang digunakan untuk menyelesaikan persamaan-persamaan non-linear [1, h. 143]. Bentuk persamaan dari metode Newton-Raphson untuk menetukan maximum likelihood yang berasal dari diﬀerensial pertama dan kedua dari fungsi log-likelihood untuk mendapatkan nilai taksiran parameter yang optimal adalah

β(t+1)=β(t)+[(XTV X)]−1XT(y− ˆµ), (7)

proses iterasi ini berjalan sampai tidak ada perubahan secara esensial di antara elemen-elemen β dari satu iterasi ke iterasi lain. Pada tahap ini, penaksir maksimum likelihood sudah dapat dikatakan konvergen.

Outlier pada Model Regresi Logistik

Draper dan Smith [3, h. 75] mendeﬁnisikan outlier sebagai sisaan dimana nilai mutlaknya jauh lebih besar daripada sisaan-sisaan lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari sisaan lainnya.

Pengaruh outlier dalam analisis data yang dideteksi pada artikel ini adalah

outlier yang berasal dari peubah prediktornya (x-outlier ; titik leverage). Untuk

tiap kasus, leverage menginformasikan seberapa jauh kasus tersebut dari nilai rata-rata himpunan data variabel independen.

Outlier dalam regresi linear dideteksi menggunakan hat matriks. Elemen

diagonal dari hat matriks memberikan informasi tentang data observasi yang mempunyai nilai leverage yang besar. Menggunakan metode weighted least square pada regresi linear sebagai model, Pregibon [8] mendefenisikan hat matriks pada regresi logistik adalah

H = V1/2X(XTV X)−1XTV1/2, (8)

V adalah matrik diagonal berukuran n×n dengan elemen vj = mjπˆj(1− ˆπj). Elemen

diagonal dari H berisi nilai-nilai leverage yang dideﬁnisikan sebagai:

hj = mjπˆj(1− ˆπj)xTj(X

T_{V X)}−1_x

j. (9)

Nilai rata-rata dari hj adalah (p + 1)/n, dengan n merupakan banyaknya data,

dan p merupakan jumlah koefesien (βp) variabel independen ditambah 1 sebagai

konstanta (β0). Titik yang memiliki nilai hj besar pada umumnya dianggap sebagai

titik high leverage. Pada tahun 1978 Hoaglin dan Welsch (lihat Imon [7]) menganggap observasi menjadi tidak biasa ketika hj melebihi 2(p + 1)/n yang

umumnya dikenal sebagai aturan dua kali rata-rata (2M : twice the mean). Pada tahun 1981 Vellman dan Welsch (lihat Imon [7]) menganjurkan mempertimbangkan aturan tiga kali rata-rata (3M ) dimana hj dianggap sebagai high leverage ketika

(5)

agar membagi interval hj, (0 ≤ hj ≤ 1), menjadi 3 interval. Nilai hj ≤ 0, 2 nilai

yang aman, nilai antara 0, 2 dan 0, 5 beresiko, dan nilai di atas 0, 5 harus dihindari. Meskipun metode di atas dirancang untuk mendeteksi titik high leverage pada regresi linear, namun dapat juga digunakan pada regresi logistik.

3. IDENTIFIKASI TITIK HIGH LEVERAGE PADA MODEL REGRESI LOGISTIK DENGAN METODE ROBUST LOGISTIC

DIAGNOSTIC Metode Jarak dari Rata-rata

Menggunakan defenisi hat matriks pada persamaan (8), nilai leverage ke−j dideﬁnisikan sebagai hj = mjπˆj(1− ˆπj)xjT(XTV X)−1xj = vjbj. Jika kovariat ke−j

adalah titik yang ektrim, nilai xT_j yang bersesuaian akan menjadi sangat dekat dengan 0 atau 1, yang menghasilkan nilai mjπˆj(1− ˆπj) yang sangat kecil. Oleh

karena itu titik yang paling ektrim dalam ruang kovariat mungkin memiliki nilai

leverage paling kecil. Namun, kuantitas yang meningkat dengan jarak dari rata-rata

adalah

bj = xTj(X

T_{V X)}−1_x

j. (10)

Kuantitas dari jarak rata-rata inilah yang selanjutnya digunakan untuk pengidentiﬁkasian titik high leverage yang dalam artikel ini disebut sebagai metode DM. Hosmer & Lemeshow [6, h. 172] menganjurkan agar fokus pada bj untuk

pengukuran jarak tersebut. bj dianggap pengamatan yang lebih besar apabila: bj > median(bj) + cMAD(bj), (11)

dengan

MAD(bj) = median{|bj − median(bj)|} /0.6745, (12) c adalah konstanta 2 atau 3. Bentuk ini sama dengan kepercayaan untuk parameter

lokasi dan dispersi, dimana rata-rata dan standar deviasi yang tidak robust diganti dengan median dan median absolute deviation (MAD).

Metode Robust Logistic Diagnostic

Pendeteksian titik high leverage pada metode Robust Logistic Diagnostic (RLGD) menggabungkan pendekatan diagnostik dan penaksir robust. Pendekatan diagnostik dapat dilakukan melalui uji statistik formal, tetapi lebih sering juga menyangkut evaluasi yang kurang formal mengenai tabel dari nilai statistik tertentu atau melalui gambaran secara graﬁk atau plot dari nilai-nilai tersebut.

Tahapan pertama pendeteksian titik high leverage adalah dengan menggunakan jarak Mahalanobis robust (robust Mahalanobis distance). Bentuk dari persamaan jarak Mahalanobis robust adalah

RMDi =

√

(xi− T (X)) T

(6)

Pada dasarnya tujuan dari penaksiran robust adalah mengkontruksi secara penuh eﬁsiensi penyesuaian taksiran. Suatu pendekatan untuk mengidentiﬁkasi outlier yaitu menggunakan penaksir yang robust pada T (X) dan S(X). Sehingga metode ini meminimumkan pengaruh outlier dalam penaksiran kecocokan model.

Rousseeuw [9] menganjurkan metode Minimum Covariance Determinant (MCD) dan Minimum Volume Ellipsoid (MVE) untuk memperoleh penaksir yang robust pada T (X) dan S(X). Setelah menghitung robust multivariat dan parameter scale dengan metode MCD atau MVE, selanjutnya hitung RMD dengan menggunakan persamaan (13). RMDi dianggap high leverage apabila

RMDi > median (RMDi) + cMAD (RMDi) (14)

dengan

MAD(RMDi) = median{|RMDi− median(RMDi)|} /0.6745, (15) Metode Robust Logistic Diagnostic

Tahapan selanjutnya dari metode RLGD adalah menggunakan konsep group-deleted. Diasumsikan pengamatan d diantara himpunan pengamatan n akan dihapus. Akan ditunjukkan R menjadi himpunan kasus yang tersisa dalam penganalisaan dan D menjadi himpunan kasus yang dihapus. Oleh karena itu, R berisi kasus (n− d) setelah kasus d dihapus. Dengan mengasumsikan bahwa pengamatan ini adalah baris d terakhir dari X, Y dan V sehingga:

X = [ XR XD ] , Y = [ YR YD ] , dan V = [ VR 0 0 VD ] .

Misalkan ˆβ(−D)_{vektor yang sesuai pada keofesien penaksir setelah kasus D dihapus.} Nilai kecocokan untuk seluruh data dideﬁnisiskan dengan:

ˆ πi(−D)= exp ( x(T )_i βˆ(−D) ) 1 + exp ( x(T )_i βˆ(−D)), i = 1, 2, . . . , n (16)

dengan variansi dan pola kovariatnya:

v(_j−D)= mjπˆi(−D)

(

1− ˆπi(−D)

)

. j = 1, 2, . . . , J (17) Selanjutnya, berdasarkan persamaan (10), misalkan:

ˆ

X = V(1/2)X (18)

maka bisa ditunjukkan

bj = xTj( ˆX

T_X)_ˆ −1_x

j. (19)

Dengan demikian, jarak dari rata-rata untuk kelompok dihapus kasus D adalah

(7)

oleh Hadi [5] dan persamaan (20) yaitu:

b(_j−D+j) = xT_j( ˆX_RTXˆR+ xjxTj)−1xj =

b(_j−D)

1 + b(_j−D). (21)

Berdasarkan index kelompok dihapus kasus pada D, dengan mengadopsi jarak dari rata-rata, kelompok dihapus potensial dinotasikan dengan:

p∗(−D)_jj = { b(_j−D)/ ( 1 + b(_j−D) ) ; j ∈ R b(_j−D) ; j ∈ D. (22)

Karena distribusi p∗(−D)_jj tidak diketahui, titik cutoﬀ yaitu pembatasan suatu ruang distribusi mayoritas data dari suatu pengamatan outlier ditetapkan berdasarkan median dan MAD untuk p∗(−D)_jj seperti yang disarankan oleh Hadi [5]. Untuk setiap pengamatan yang lebih besar dari nilai titik cutoﬀ

p∗(−D)_jj > median ( p∗(−D)_jj ) + cMAD ( p∗(−D)_jj ) (23) dengan

MAD(p∗(−D)_jj ) = median{p∗(−D)_jj − median(p∗(−D)_jj ) }

/0.6745, (24) dinyatakan sebagai high leverage. Langkah identiﬁkasi titik high leverage dengan metode robust logistic diagnostic diringkas sebagai berikut:

1. Untuk setiap titik ke-i, hitung RMDi menggunakan metode penaksir robust

MCD atau MVE,

2. Untuk setiap titik ke-i dengan RMDi > Median(RMDi) + cMAD(RMDi)

terdeteksi sebagai titik high leverage kelompokan pada kelompok dihapus D. Titik-titik lainnya pada kelompok R,

3. Hitung p∗(−D)_jj , 4. Nilai p∗(−D)_jj > median ( p∗(−D)_jj ) + cMAD ( p∗(−D)_jj )

dinyatakan sebagai titik

high leverage. 4. Simulasi Data

Data penelitian ini berupa data simulasi yang dibangkitkan dengan bantuan program R versi 3.1.2 untuk 100 data pengamatan. Nilai variabel dependen (Y ) dibangkitkan dari data berdistribusi binomial, variabel X1 dibangkitkan dari data berdistribusi Uniform dan variabel X2 dibangkitkan dari data berdistribusi Normal sebanyak 90% ditambah 10% data berdistribusi Uniform.

Untuk melihat karakteristik sebaran data dilakukan plot data pada variabel Y , variabel X1 dan variabel X2. Hasil plot sebaran data ditampilkan pada Gambar (1). Gambar (2), Gambar (3) dan Gambar (4) merupakan index plot metode hat matriks, Metode DM dan metode RLGD.

(8)

Gambar 1: Scatter Plot X1 dan X2

Gambar 2: Index Plot Hat Matriks

(9)

Hasil plot data Gambar (1) menunjukkan pengamatan 5,87,99,6,34,42,57,93, diduga sebagai titik high leverage karena letaknya yang tidak berada pada kumpulan data. Berdasarkan nilai hat matriks pada Gambar (2) megidentiﬁkasi pengamatan ke-5,34,42,57,87,93 sebagai titik high leverage tetapi mengalami efek masking yaitu pengamatan yang merupakan outlier tidak terdeteksi sebagai

outlier pada pengamatan 6 dan 99. Dari Gambar (2) terlihat pengamatan ke-6

dan 99 berada dekat dengan nilai cutoﬀ yang ditentukan. Berdasarkan Metode DM Gambar (3) mengidentiﬁkasi pengamatan 5,34,42,57,87,93,99 sebagai titik

high leverage. Hasil tersebut mengidentiﬁkasi seluruh pengamatan berdasarkan nilai hat matriks dan pengamatan ke-99 yang sebelumnya tidak terdeteksi berdasarkan

nilai hat matriks dengan metode DM pengamatan tersebut terdeteksi sebagai titik high leverage tetapi tidak fokus pada pengamatan ke-6. Dari Gambar (3) pengamatan ke-6 berada sangat dekat dengan nilai cutoff. Berdasarkan metode RLGD(MCD) Gambar (4) mengidentifikasi pengamatan ke-5,6,34,42,57,87, 93,99. Dari Gambar (4) terlihat bahwa dengan metode RLGD plot data tergambar lebih baik dari kedua metode sebelumnya, dimana data yang merupakan high leverage berada jauh di atas nilai cutoff -nya, dan tidak ada pengamatan yang berada di sekitar nilai cutoff.

5. KESIMPULAN

Berdasarkan pembahasan yang telah dikemukakan sebelumnya, titik high leverage tidak hanya menyebabkan penaksir parameter menjadi salah, tetapi juga dapat membentuk efek masking dan swamping. Berdasarkan simulasi data pendeteksian titik high leverage berdasarkan hat matriks dan metode DM mengalami efek

masking dimana data yang merupakan titik high leverage tidak terdeteksi oleh

kedua metode tersebut. Sedangkan metode RLGD lebih efektif dalam mendeteksi titik high leverage dan tidak terjadi efek masking maupun efek swamping. secara umum dapat disimpulkan metode RLGD lebih eﬁsien dalam mendeteksi titik high

(10)

Ucapan Terima Kasih

Ucapan terima kasih diberikan kepada Bapak Dr. M. D. H Gamal, M.Sc yang telah membimbing dan memberikan arahan dalam penulisan artikel ini.

DAFTAR PUSTAKA

[1] A. Agresti, Categorical Data Analysis. Wiley, New York, 2002.

[2] L. J. Bain dan M. Engelhardt, Introduction To Probability and Mathematical

Statistics, Second Edition, Duxbury Press, California, 2000.

[3] N. R. Draper dan H. Smith, Applied Regression Analiysis, Third Edition, Wiley, New York, 1998.

[4] M. Habshah, M. R. Norazan dan A. H. M. R. Imon, The Performance of

Diagnostic-Robust Generalized Potential for the Identiﬁcation of Multiple High Leverage Points in Linear Regression. Journal Applied Statistics, 36 (2009),

507-520.

[5] A. S. Hadi, A New Measure of Overall Potential Inﬂuence in Linear

Regression, Journal Computational Statistics and Data Analysis, 14 (1992),

1-27.

[6] D. W. Hosmer dan S. Lemeshow. Applied Logistic Regression, Second Edition, Wiley, New York, 2000.

[7] A. H. M. R. Imon, Identiﬁcation of High Leverage Points in Logistic

Regression, Pakistan Journal of Statistics, 22 (2006), 147-156.

[8] D. Pregibon, Logistic Regression Diagnostic, The Annals of Statistics, 9 (1981), 705-724.

[9] P. J. Rousseeuw, Least Median of Squares Regression, Journal of American Statistical Association, 79 (1984), 871-880.

[10] P. J. Rousseeuw, A Diagnostic Plot for Regression Outlier and Leverage

Points, Journal Computational Statistics and Data Analysis, 11 (1991),

127-129.

[11] B. A. Syaiba dan M. Habshah, Robust Logistic Diagnostic for the Identiﬁcation of High Leverage Points in Logistic Regression Model, Journal