MULTINOMIAL MENGGUNAKAN MAKSIMUM LIKELIHOOD
SKRIPSI
BHISTOK JAYA BOY MARTAHAN SITINJAK 160803079
S1-MATEMATIKA
DEPARTEMENMATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2021
MULTINOMIAL MENGGUNAKAN MAKSIMUM LIKELIHOOD
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains
BHISTOK JAYA BOY MARTAHAN SITINJAK 160803079
S1-MATEMATIKA
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2021
ESTIMASI PARAMETER REGRESI LOGISTIK MULTINOMIAL MENGGUNAKAN
MAKSIMUM LIKELIHOOD
SKRIPSI
Saya menyatakan bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, 11 Februari 2021
Bhistok Jaya Boy Martahan Sitinjak 160803079
ESTIMASI PARAMETER REGRESI LOGISTIK MULTINOMIAL MENGGUNAKAN
MAKSIMUM LIKELIHOOD
ABSTRAK
Skripsi ini membahas penaksiran parameter pada regresi logistik multinomial.
Regresi logistik multinomial atau disebut juga model logit politomus adalah model regresi yang digunakan untuk menyelesaikan kasus regresi dengan variabel terikat berbentuk multinomial (lebih dari dua kategori) dengan satu atau lebih variabel bebas. Pada regresi logistik multinomial estimasi parameter yang digunakan adalah estimasi maksimum likelihood ( maximum likelihood estimation). Transformasi logit dilakukan untuk mendapat model regresi logistik multinomial. Uji parameter yang digunakan adalah uji simultan atau secara keseluruhan variabel dan uji parsial atau secara sebagian.
Kata Kunci : Estimasi Maksimum Likelihood, Regresi Logistik Multinomial
ESTIMASI PARAMETER REGRESI LOGISTIK MULTINOMIAL MENGGUNAKAN
MAKSIMUM LIKELIHOOD
ABSTRACT
This thesis discusses parameter estimation in multinomial logistic regression.
Multinomial logistic regression or also called polytomial logit model is a regression model used to solve regression cases with the dependent variable in the form of multinomial (more than two categories) with one or more independent variables. In multinomial logistic regression, the parameter estimation used is the maximum likelihood estimation. Logit transformation was performed to obtain a multinomial logistic regression model. The parameter test used is the simultaneous test or the whole variable and partial or partial test.
Keywords: Maximum Likelihood Estimation, Multinomial Logistic Regression
PENGHARGAAN
Puji syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan penyusunan skripsi ini dengan judul “Estimasi Parameter Regresi Logistik Multinomial Menggunakan Maksimum Likelihood”.
Dalam penyusunan skripsi ini tidak terlepas dukungan dari berbagai pihak.
Penulis secra khusus mengucapkan terima kasih yang sebesar-besarnya kepada semua pihak yang telah membantu. Penulis banyak menerima bimbingan, petunjuk dan bantuan serta dorongan dari berbagai pihak baik yang bersifat moral maupun material. Oleh karena itu pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
1. Bapak Dr. Muryanto Amin, S.Sos, M.Si selaku Rektor Universitas Sumatera Utara (USU) beserta jajarannya.
2. Bapak Prof. Dr. Kerista Sebayang, M.S selaku Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara (FMIPA USU) beserta jajarannya.
3. Bapak Dr. Suyanto, M.Kom dan Bapak Drs. Rosman Siregar, M.Si selaku Ketua dan Sekertaris Departemen Matematika FMIPA USU.
4. Bapak Dr. Sutarman, M.Sc selaku Dosen Pembimbing dan Pembimbing Akademik penulis, yang telah memberikan arahan, saran dan motivasi kepada penulis serta telah meluangkan waktu dalam pengerjaan skripsi ini.
5. Ibu Dr. Elly Rosmaini, M.Si dan Ibu Dr. Dra. Rahmawati Pane, M.Si selaku Dosen Pembanding yang telah memberikan arahan, kritik dan saran yang membangun kepada penulis dalam pengerjaan skripsi ini.
6. Ayahanda Polmer Sitinjak dan Ibunda Suharni Sinaga yang telah memberikan dukungan baik secara material dan moral serta Saudara penulis, Adhit Sitinjak dan Gamaliel Sitinjak yang telah memberikan semangat, motivasi, nasihat dan doa kepada penulis.
7. Orang-orang yang saya kasihi teman semasa SMA dan kuliah Miranda Simbolon, BPH HMM Periode 2019/2020 dan semua rekan-rekan Mahasiswa/i angkatan 2016 yang telah memotivasi dan memberikan semangat kepada penulis dalam penyelesaian skripsi ini.
Penulis menyadari bahwa dalam proses penulisan skripsi ini masih jauh dari kesempurnaan baik materi maupun cara penulisannya. Oleh karena itu, penulis mengharapkan kritik dan saran yang membangun demi penyempurnaan skripsi ini.
Akhir kata, penulis mengucapkan terimakasih dan semoga penelitian ini dapat bermanfaat.
Medan, 11 Februari 2021 Penulis,
Bhistok Jaya Boy M Sitinjak
DAFTAR ISI
Halaman
PENGESAHAN SKRIPSI i
ABSTRAK ii
ABSTRACT iii
PENGHARGAAN iv
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR LAMPIRAN ix
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Perumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
BAB 2 TINJAUAN PUSTAKA
2.1 Analisis Regresi 5
2.1.1 Model Regresi Linear 6
2.1.2
Model Regresi Non Linear 7
2.2 Regresi Logistik 8
2.3 Regresi Logistik Multinomial 8
2.3.1 Estimasi Parameter 10
2.4 Pengujian Parameter 13
2.4.1 Pengujian Parameter dengan Uji Simultan (Uji G)
13 2.4.2 Pengujian Parameter dengan Uji Wald
(Uji Parsial)
14
2.5 Uji Kebaikan Model 14
2.6 Koefisien Determinasi 15
2.7 Odd Ratio 16
BAB 3 METODE PENELITIAN
3.1 Studi Literatur 18
3.2 Metode Pengumpulan Data 18
3.3 Metode Pengolahan Data 19
3.4 Kerangka Penelitian 20
BAB 4 HASIL DAN PEMBAHASAN
4.1 Regresi Logistik Multinomial 21
4.2 Transformasi Logit pada Model Regresi Multinomial 23
4.3 Metode Maksimum Likelihood 24
4.3.1 Iterasi Pertama 27
4.3.3 Iterasi Ketiga 31
4.4 Uji Parameter 33
4.4.1 Uji Simultan 35
4.4.2 Uji Parsial 35
4.5 Uji Kebaikan Model (gooodness of fit) 37
4.6 Koefisien Determinasi 37
4.7 Pemodelan Regresi Logistik Multinomial 38
4.8 Interpretasi Model 39
BAB 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan 42
5.2 Saran 42
DAFTAR PUSTAKA 43
LAMPIRAN 45
DAFTAR TABEL
Nomor
Tabel Judul Halaman
3.1 Variabel dependen 18
3.2 Variabel independen 19
4.1 Hasil Penduga Parameter 34
4.2 Uji Simultan 35
4.3 Hasil Uji Parsial untuk semua variabel 35
4.4 Hasil Uji Parsial untuk variabel yang berpengaruh 36
4.5 Hasil Uji Kebaikan Model 37
4.6 Hasil Koefisien Determinasi 38
4.7 Uji Koefisien Determinasi untuk variabel yang berpengaruh 38
4.8 Hasil Uji Odds Ratio 40
DAFTAR LAMPIRAN
Nomor
Lampiran Judul Halaman
1 Metode Newton Raphson 45
2 Data Pasien Penyakit Diabetes Mellitus 54
3 Output SPSS untuk Pendugaan Parameter 59
4 Output SPSS untuk Uji Simultan 60
5 Output SPSS untuk Uji Parsial (Wald) 61
6 Output SPSS untuk Uji Kebaikan Model 62
7 Output SPSS untuk Uji Koefisien Determinasi 63
8 Output SPSS untuk Uji Odd Ratio 64
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Statistika adalah ilmu pengetahuan yang membahas tentang cara-cara pengumpulan fakta, pengolahan serta analisis pembuatan keputusan dan penarikan kesimpulan yang cukup beralasan berdasarkan fakta dan pengolahan data yang dilakukan. Salah satu analisis pada statistika adalah analisi regresi.
Analisis regresi adalah salah satu penelitian terapan kuantitatif yang memberikan keleluasaan kepada peneliti untuk menyusun model hubungan atau pengaruh beberapa variabel independen terhadap variabel dependent.
Analisis regresi digunakan untuk mempelajari hubungan antara dua variabel atau lebih, dengan maksud bahwa dari hubungan tersebut dapat memperkirakan besarnya dampak kuantitatif yang terjadi dari perubahan suatu kejadian terhadap kejadian lainnya. Berdasarkan pola hubungannya analisis regresi dibagi menjadi 2 yaitu analisis regresi linear dan analisi regresi non- linear.
Pada model regresi linear diasumsikan bahwa peluang variabel independen X dalam contoh acak bersifat tetap dan bukan nilai peubah acak dan peluang variabel dependen Y merupakan peluang acak kontinu yang diasumsikan saling bebas dan menyebar normal. Adakalanya peluang variabel dependen berupa peluang dikotomi. Peluang dikotomi adalah peluang indikator yang terdiri atas data biner, bernilai 1 atau 0. Data tersebut dibangkitkan dari pemetaan numerik dari satu tindakan atau percobaan yang menghasilkan hanya dua kemungkinan kejadian.
Data yang mengandung peluang respon biner tidak dapat dianalisis regresi linear biasa, karena penduga parameter pada regresi linear mengguakan metode kuadrat terkecil yang mengasumsikan data menyebar normal dengan ragam homogen. Asumsi-asumsi ini tidak dipenuhi oleh data biner, jika asumsi- asumsi ini diabaikan maka model yang diperoleh tidak sesuai dengan keadaan sebenarnya. Oleh karena itu model yang tepat untuk menyelidiki hubungan
antara peluang respon biner dengan peluang penjelasnya adalah menggunakan analisis regresi logistik.
Regresi logistik adalah salah satu bentuk regresi non-linear yang mempunyai variabel dependen yang diskrit dan mempunyai sebaran binomial, sedangkan variable independennya dapat terdiri dari variabel yang continu, diskrit, dikotomus, ataupun gabungannya. Regresi logistik terbagi menjadi dua yaitu regresi logistik biner dan logistik multinomial.
Regresi logistik biner adalah suatu analisis regresi yang digunakan untuk menggambarkan hubungan antara variabel independen dengan sekumpulan variabel dependen, dimana variabel dependen bersifat biner atau dikotomus.
Variabel dikotomus adalah variabel yang hanya mempunyai dua kemungkinan nilai, misalnya sukses dan gagal. Sedangkan variabel independen sering disebut juga dengan covariate. Hasil pengukuran suatu variabel seringkali mempunyai ciri berupa dua atau lebih kemungkinan nilai yang dikenal sebagai variabel kategorik. Variabel kategorik yang tidak memiliki urutan disebut sebagai variabel nominal sedangkan yang memiliki urutan disebut variabel ordinal. Kedua jenis variabel ini, baik nominal maupun ordinal sering disebut juga sebagai variabel multinomial. Regresi logistik multinomial, yang tidak mempertimbangkan sifat ordinal data, juga dapat diterapkan untuk meneliti sebuah variabel ordinal maupun memanfaatkan sifat ordinal data dapat meningkatkan keserderhanaan dan kekuatan model (Agresti, 2002). Model regresi logistik multinomial efektif digunakan pada variabel terikat yang terdiri atas banyak kategori (Zulfikri, 2014).
Regresi logistik dan regresi linear mempunyai tujuan yang sama yaitu menyelidiki variabel dependen dengan satu atau lebih variabel independen.
Keduanya mengestimasi parameter model yang diharapkan. Analisis regresi menggunakan variabel dependen kontinu, sedangkan analisi regresi logistik menggunakan variabel dependen kategorik.
Metode yang dapat digunakan untuk mengestimasi parameter model regresi logistik, yaitu metode moment, noniterative weighted least square methods, dan maximum likelihood methods. Metode momen adalah metode
tertua yang paling lama digunakan. Metode ini memiliki prosedur yang paling mudah dalam memperoleh estimator atau penduga dari satu atau lebih parameter populasi dan dasar metode momen yaitu mendapatkan estimasi parameter populasi dengan menyamakan momen-momen populasi dengan momen-momen sample. Metode noniterative weighted least square methods dapat digunakan dalam kasus multivariable, meskipun penerapan pendekatan noniterative weighted least square methods dibatasi oleh perkiran 𝜋(𝑥) bukan nol atau 1 untuk sebagian besar nilai X dalam kumpulan data. . Dengan jumlah variabel independen yang besar, atau bahkan beberapa variable kontinu, kondisi ini yang tidak akan bertahan.
Salah satu metode yang lebih umum dan digunakan pada sebagian besar paket program komputer adalah Maximum likelihood . Maximum likelihood merupakan dasar pendekatan dalam menaksirkan parameter pada model regresi logistik. Pada dasarnya metode maksimum likelihood memberikan nilai taksiran parameter dengan memaksimalkan fungsi likelihood. Untuk itu digunakan uji dan hipotesis statistik untuk menentukan apakah variabel independen dalam model signifikan atau berpengaruh secara nyata terhadap variabel dependen.
1.2 Rumusan Masalah
Berdasarkan uraian di latar belakang didapati terdapat beberapa metode untuk menaksir parameter regresi logistik multinomial yaitu, metode moment, noniterative weighted least square methods, dan maximum likelihood. Metode moment umum digunakan untuk menaksir parameter pada analisi regresi, tetapi tidak dapat digunakan dalam kasus multivariable. Sedangkan metode noniterative weighted least square methods dapat digunakan dalam kasus multivariable, tetapi metode tersebut memiliki batasan dalam pengumpulan data. Oleh karena itu, metode estimasi parameter yang cocok untuk menaksir parameter adalah metode maksimum likelihood karena dapat digunakan pada data multivariabel dan tidak memiliki batasan dalam pengumpulan data.
1.3 Batasan Masalah
Agar penelitian yang dilakukan dapat menghasilkan penelitian yang fokus dan akurat, maka diberikan batasan masalah dalam penelitian ini yaitu :
1. Model regresi logistik yang akan diestimasi adalah model regresi logistik multinomial.
2. Metode maksimum likelihood digunakan sebagai metode untuk mengestimasi model regresi logistik multinomial.
1.4 Tujuan Penelitian
Penelitian ini bertujuan untuk mengestimasi parameter regresi logistik multinomial dengan menggunakan estimasi maksimum likelihood.
1.5 Manfaat Penelitian
Manfaat dari penelitian ini adalah:
1. Bagi penulis mengetahui tentang proses dan hasil dari menentukan model regresi logistik multinomial dengan penaksiran parameter menggunakan metode maksimum likelihood.
2. Bagi pembaca dapat memberikan pengetahuan dan gambaran mengenai langkah serta hasil dari model regresi logistik multinomial dengan penaksiran parameter menggunakan metode maksimum likelihood.
BAB 2
TINJAUAN PUSTAKA
Pada bab ini akan disampaikan teori dan konsep yang berkaitan dengan pemodelan regresi logistik multinomial dan penduga parameter dengan metode maksimum likelihood. Akan diuraikan tata cara uji parameter, uji kebaikan model dan odd ratio untuk mendapatkan model logit terbaik. Semua materi yang dijelaskan berguna untuk mengolah data regresi logistik multinomial.
2.1 Analisis Regresi
Analisis regresi merupakan alat analisis statistik yang mempelajari pola dan mengukur hubungan antara dua atau lebih variabel. Tujuannya adalah untuk membuat perkiraan (prediksi) yang dapat dipercaya untuk nilai suatu variabel dependen, jika nilai variabel independen yang berhubungan dengannya diketahui.
Dalam analisis regresi, suatu persamaan regresi digunakan untuk menggambarkan pola atau fungsi hubungan yang terdapat antar variabel.
Variabel yang akan diestimasi nilainya disebut variabel dependen dan biasanya di plot pada sumbu tegak (sumbu 𝑌), sedangkan variabel yang diasumsikan memberikan pengaruh terhadap variasi variabel dependen disebut variabel independen dan biasanya di plot pada sumbu datar (sumbu 𝑋). Variabel independen dinotasikan denganm𝑋1, 𝑋2, … , 𝑋𝑘(k ≥ 1) sedangkan variabel dependen dinotasikan dengan 𝑌. Hubungan fungsional antara kedua variabel tersebut akan dituliskan dalam persamaan matematik (persamaan regresi) yang akan bergantung pada parameter-parameter.
Berdasarkan pola hubungannya, analisis regresi terbagi menjadi dua, yaitu regresi linear dan regresi non linear. Hal ini bergantung pada data variabel 𝑋 dan 𝑌 yang ditebarkan pada scatter plot. Jika data tersebut membentuk sebuah garis lurus, maka disebut regresi linear, sedangkan jika data yang ditebarkan tidak mengikuti garis lurus tetapi mengikuti suatu bentuk kurva tertentu, maka disebut regresi non linear.
2.1.1 Model Regresi Linear
Regresi linear terbagi menjadi dua, yaitu regresi linear sederhana dan regresi linear berganda. Regresi linear sederhana digunakan untuk mengamati pengaruh satu variabel independen terhadap variabel dependen. Regresi linear berganda mengamati pengaruh beberapa (minimal dua) variabel independen terhadap variabel dependen. Secara matematis, regresi linear berganda dengan 𝑘 variabel independen (𝑋) dan satu variabel dependen (𝑌) dapat dituliskan dalam persamaan berikut:
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖1 + 𝛽2𝑋𝑖2 + ⋯ + 𝛽𝑘𝑋𝑖𝑘 + 𝜀𝑖; i = 1,2, …, n (2.2) di mana:
𝑌𝑖 = variabel dependen (Y) ke-i yang dapat diamati
𝑋𝑖𝑗 = variabel independen 𝑋𝑗 ke-i yang dapat diamati (j = 1,2, …, k) 𝛽𝑘 = parameter-parameter yang tidak diketahui dari model
𝜀𝑖 = galat (error term) dalam pengamatan i (diasumsikan berdistribusi normal dengan rata-rata nol dan varians 𝜎2 )
Bila dirinci untuk setiap pengamatan:
𝑌1 = 𝛽0+𝛽1𝑋11+𝛽2𝑋12+⋯+𝛽𝑘𝑋1𝑘+𝜀1 𝑌2 = 𝛽0+𝛽1𝑋21+𝛽2𝑋22+⋯+𝛽𝑘𝑋2𝑘+𝜀2
⋮ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮ 𝑌𝑛 = 𝛽0+𝛽1𝑋𝑛1+𝛽2𝑋𝑛2+⋯+𝛽𝑘𝑋𝑛𝑘+𝜀𝑛 Dengan cara matriks dapat distulis sebagai berikut:
[ 𝑌1 𝑌2 𝑌⋮𝑛
] = [
1 𝑋11 𝑋12 ⋯ 𝑋1𝑘 1 𝑋21 𝑋22 ⋯ 𝑋2𝑘
⋮ 1
⋮ 𝑋𝑛1
⋮ 𝑋𝑛2
⋯
⋯
⋮ 𝑋𝑛𝑘
] + [
𝛽0 𝛽1 𝛽2
⋮ 𝛽𝑘]
+[
𝜀1 𝜀2 𝜀⋮𝑘
]
Jika Y, X, β, dan ε didefinisikan sebagai notasi matriks masing-masing dalam urutan 𝑛 ×1, 𝑛 × (𝑘 + 1), (𝑘 + 1) × 1, dan 𝑛 ×1. Maka, persamaan (2.2) dapat disederhanakan menjadi:
Y = Xβ + ε (2.3)
di mana ε adalah sisa (error) berdistribusi normal yang saling bebas dengan ekspektasi E(ε) = 0 dan dispersi (kovarians) Cov(ε) = 𝜎2I,
dengan I adalah matriks identitas 𝑛 × 𝑛 dan X biasanya ditetapkan sebagai matriks desai model.
Asumsikan bahwa persamaan (2.3) adalah model yang tetap. Prinsip dari metode kuadrat terkecil (ordinary least square) adalah menentukan (mengestimasi) 𝛽̂ yang meminimumkan jumlah kuadrat error 𝜀𝑇 ε, di mana 𝑇 melambangkan matriks transpose. Jumlah kuadrat dapat ditulis sebagai fungsi dari β, dalam persamaan berikut:
S(β) = (𝐘 − 𝐗𝛃)𝐓(𝐘 − 𝐗𝛃) (2.4) S(β) adalah bilangan asli non negative dari fungsi kuadratik, sehingga dapat dipastikan terdapat nilai minimum berhingga dari S(β).
Solusi untuk β, yang dinotasikan dengan 𝛽̂ diminimalkan oleh S(β) sebagai hasil dari solusi persamaan normal. Solusi tersebut adalah estimator kuadrat terkecil dari β dalam persamaan berikut:
𝛃̂ = (𝐗𝐓𝐗)−𝟏(𝐗𝐓𝐘) (2.5) 2.1.2 Model Regresi Non Linear
Model regresi linear memberikan kerangka kerja yang luas dan fleksibel sesuai dengan kebutuhan banyak analisis, namun model ini tidak sesuai untuk semua situasi. Hubungan antara variabel dependen dan variabel independen dapat berupa persamaan diferensial atau solusi untuk persamaan diferensial.
Hal ini akan mengarah pada bentuk non linear.
Menurut Montgomery et al. (1992) model regresi non linear dalam parameter adalah suatu model yang apabila didiferensialkan hasilnya masih merupakan fungsi dalam parameter tersebut. Macam-macam model regresi non linear diantaranya adalah model parabola kuadratik, model parabola kubik, model eksponen, model geometrik, model gompertz, model hiperbola, dan model logistik. Model regresi non linear dalam parameter 𝜃 dapat dituliskan sebagai berikut:
𝑦𝑖 = f(𝑥𝑖, 𝜃) + 𝜀𝑖, i = 1, 2, … , n. (2.6) di mana :
𝑦𝑖 = variabel terikat ke- i 𝑥𝑖 = variabel bebas ke- i
𝜃 = parameter yang tidak diketahui
𝜀𝑖 = error, dimana 𝜀 ~N(0, 𝜎2)
2.2 Regresi Logistik
Regresi logistik adalah bagaimana satu variabel yaitu variabel dependen dipengaruhi oleh satu atau lebih variabel lain yaitu variabel independen dengan tujuan untuk memprediksi nilai rata-rata variabel dependen yang didasarkan pada nilai variabel independen (Widarjono, 2010).
Menurut Hosmer dan Lemeshow (2000), tujuan melakukan analisis data menggunakan regresi logistik adalah untuk mendapatkan model terbaik dan sederhana, tetapi model tersebut sejalan dengan tinjauan dari ilmu biologi untuk menjelaskan hubungan antara hasil variabel dependen dengan variabel independen.
2.3 Regresi Logistik Multinomial
Regresi logistik multinomial (nominal dan ordinal) merupakan salah satu pendekatan pemodelan yang dapat digunakan untuk mendeskripsikan hubungan beberapa variabel independen dengan suatu variabel dependen multinomial(polytomous).
Data berskala nominal merupakan data dengan angka yang diberikan kepada objek mempunyai arti sebagai label dan tidak menunjukkan tingkatan apapun. Sedangkan data ordinal merupakan data yang menunjukkan suatu tingkatan pada variabel dependennya. Apabila terdapat k yang berarti banyaknya kategori pada variabel independen maka model logistik yang terbentuk sebanyak k - 1. Menurut Agresti (1990), model umum regresi logistik multinomial untuk p banyaknya variabel dependen yang dinyatakan dalam vektor 𝑥𝑖 seta probabilitas kategori independen ke-k sebagai berikut:
𝜋𝑘(𝑥𝑖) = 𝑃(𝑦 = 𝑘|𝑥𝑖) = exp(𝑔𝑘(𝑥𝑖))
∑𝑘−1𝑗=0 exp (𝑔𝑗(𝑥𝑖)) (2.7) Jika ada urutan pada kategori dependen (respon ordinal) maka model yang digunakan regresi logistik ordinal. Misalkan z adalah variabel kontinu yang dapat dipotong-potong dengan titik-titik 𝐶1, … , 𝐶𝑗−1 untuk mendefinisikan j kategori ordinal yang masing-masing dengan peluang 𝜋1, … , 𝜋𝑗 dimana ∑𝑗𝑖=1𝜋𝑖 = 1. Ada beberapa model yang dapat digunakan
untuk regresi logistik ordinal ini, antara lain model logit kumulatif, proportionalodds, adjacent categories logit, dan continuation ratio logit.
Cumulative odds untuk kategori ke-j adalah 𝑃(𝑧 ≤ 𝐶𝑗)
𝑃(𝑧 > 𝐶𝑗)= 𝑥1+ ⋯ + 𝑥𝑗 𝑥𝑗+ 1 + ⋯ + 𝑥𝑗 Sehingga model kumulatif logit adalah
log ( 𝑥1+⋯+𝑥𝑗
𝑥𝑗+1+⋯+𝑥𝑗) = 𝑥𝑗𝑇𝛽𝑗 (2.8) Jika penduga linier 𝑥𝑗𝑇𝛽𝑗 pada persamaan (2.8) memiliki intercept 𝛽0𝑗 untuk kategori ke-j tetapi variabel kovariat tidak tergantung pada j, maka digunakan model proportional odds, yaitu
log ( 𝑥1+⋯+𝑥𝑗
𝑥𝑗+1+⋯+𝑥𝑗) = 𝛽0𝑗+ 𝛽1𝑥1+ ⋯ + 𝛽𝑝−1𝑥𝑝−1 (2.9) Alternatif lainnya dari model kumulatif odd adalah rasio dari peluang sukses untuk kategori yang bersebelaha, yaitu
𝜋1 𝜋2 ,𝜋2
𝜋3 , … ,𝜋𝑗−1
𝜋𝑗 Sehingga model adjacent logit menjadi
log ( 𝜋𝑗
𝜋𝑗+1) = 𝑥𝑗𝑇𝛽𝑗 (2.10) Model rasio peluang lainnya adalah
𝜋1
𝜋2 ,𝜋1+ 𝑝𝑖2
𝜋3 , … ,𝜋𝑖+ ⋯ + 𝜋𝑗−1 𝜋𝑗 Atau
𝜋1
𝜋2+ ⋯ + 𝜋𝑗 , 𝑝𝑖2
𝜋3+ ⋯ + 𝜋𝑗 , … ,𝜋𝑗−1 𝜋𝑗 Sehingga model logit rasio menjadi
log 𝜋𝑗
𝜋𝑗+1+⋯+𝜋𝑗 = 𝑥𝑗𝑇𝛽𝑗 (2.11) 2.3.1 Estimasi Parameter
Metode estimasi yang mengarah pada metode least squares dalam model regresi linear disebut maximum likelihood estimation (Hosmer dan Lemeshow, 1989). Metode tersebut mengestimasi parameter β dengan cara memaksimumkan dengan mensyaratkan data harus mengikuti distribusi tertentu. Pada regresi logistik, setiap pengamatan dapat ditentukan fungsi likelihood-nya.
Jika 𝑥𝑖 dan 𝑦𝑖 adalah variabel independen dan variabel dependen yang saling independensi, i = 1,2, …, n maka fungsi probabilitas untuk setiap pasangan (𝑥𝑖, 𝑦𝑖) adalah sebagai berikut:
𝑓(𝑥) = 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖; 𝑦𝑖 = 0,1 (2.12 ) dengan:
𝜋(𝑥𝑖) = 𝑒(∑𝑝𝑗=0𝛽𝑗𝑥𝑗) 1 + 𝑒(∑ 𝛽𝑗𝑥𝑗
𝑝
𝑗=0 ) (2.13) di mana ketika j = 0 maka nilai 𝑥𝑖𝑗 = 𝑥𝑖0= 1. Setiap pasangan pengamatan diasumsikan bebas sehingga fungsi likelihood-nya merupakan gabungan dari fungsi distribusi masing-masing pasangan , sebagai berikut:
𝑙(𝛽) = ∏ 𝑓(𝑥𝑖) = ∏ 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖
𝑛
𝑖=1 𝑛
𝑖=1
(2.14)
Berdasarkan persamaan (2.14) akan dicari log likelihood untuk mempermudah proses perhitungan selanjutnya, karena akan mencapai maksimum pada 𝛽 yang sama. Persamaan tersebut dapat diubah menjadi:
𝐿(𝛽) = ln 𝑙(𝛽)
= ln ∏ 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))1−𝑦𝑖
𝑛
𝑖=1
= ∑ ln 𝜋(𝑥𝑖)𝑦𝑖(1 − 𝜋(𝑥𝑖))𝑛𝑖−𝑦𝑖
𝑛
𝑖=1
= ∑ ln [( 𝜋(𝑥𝑖) 1 − 𝜋(𝑥𝑖))
𝑦𝑖
(1 − 𝜋(𝑥𝑖))𝑛𝑖]
𝑛
𝑖=1
= ∑ [𝑦𝑖ln ( 𝜋(𝑥𝑖)
1 − 𝜋(𝑥𝑖)) + 𝑛𝑖 ln(1 − 𝜋(𝑥𝑖))]
𝑛
𝑖=1
Dengan melakukan substitusi persamaan (2.14) diperoleh:
𝐿(𝛽) = [𝑦𝑖∑ 𝛽𝑗𝑥𝑖𝑗 + 𝑛𝑖 ln 1 1 + 𝑒∑ 𝛽𝑗𝑥𝑖𝑗
𝑝 𝑗=0 𝑝
𝑗=0
]
= [𝑦𝑖∑ 𝛽𝑗𝑥𝑖𝑗 + 𝑛𝑖 ln (1 + 𝑒∑𝑝𝑗=0𝛽𝑗𝑥𝑖𝑗)−1
𝑝
𝑗=0
]
= [𝑦𝑖∑ 𝛽𝑗𝑥𝑖𝑗
𝑝
𝑗=0
− 𝑛𝑖 ln (1 + 𝑒∑𝑝𝑗=0𝛽𝑗𝑥𝑖𝑗)]
sehingga,
𝐿(𝛽) = ∑ [∑ 𝑦𝑖𝑥𝑖𝑗
𝑛
𝑖=1
] 𝛽𝑗− ∑ 𝑛𝑖 ln [1 + 𝑒∑𝑝𝑗=0𝛽𝑗𝑥𝑖𝑗] (2.15)
𝑛
𝑖=1 𝑝
𝑗=0
Persamaan (2.15) dideferensialkan terhadap β untuk memperoleh nilai estimator 𝛽̂0, 𝛽̂1, … , 𝛽̂𝑘 yang memaksimumkan 𝐿(𝛽).
𝜕𝐿(𝛽)
𝜕𝛽𝑗 = ∑ ∑ 𝜕
𝜕𝛽𝑗(𝑥𝑖𝑗𝑦𝑖𝛽𝑗) − ∑ 𝑛𝑖 𝜕
𝜕𝛽𝑗
𝑛
𝑖=1 𝑛
𝑖=0 𝑝
𝑗=0
[ln (1 + 𝑒∑ 𝛽𝑗𝑥𝑖𝑗
𝑝
𝑗=0 )]
= ∑ ∑ 𝑥𝑖𝑗𝑦𝑖+ ∑ 𝑛𝑖(∑𝑝𝑗=0𝑥𝑖𝑗𝑒∑𝑝𝑗=0𝛽𝑗𝑥𝑖𝑗 1 + 𝑒∑ 𝛽𝑗𝑥𝑖𝑗
𝑝 𝑗=0
)
𝑛
𝑖=1 𝑛
𝑖=1 𝑝
𝑗=0
= ∑ ∑ 𝑥𝑖𝑗𝑦𝑖+ ∑ ∑ 𝑛𝑖𝑥𝑖𝑗( 𝑒(∑𝑝𝑗=0𝛽𝑗𝑥𝑗) 1 + 𝑒(∑ 𝛽𝑗𝑥𝑗
𝑝
𝑗=0 ))
𝑝
𝑗=0 𝑛
𝑖=1 𝑛
𝑖=1 𝑝
𝑗=0
Menurut definisi model regresi logistik pada persamaan 2.13, maka persamaa yang didapat sebagai berikut:
𝜕𝐿(𝛽)
𝜕𝛽𝑗 = ∑ 𝑦𝑖𝑥𝑖𝑗− ∑ 𝑛𝑖𝑥𝑖𝑗𝜋(𝑥𝑖)
𝑛
𝑖=1
(2.16)
𝑛
𝑖=1
Selanjutnya persamaan (2.16) disamakan dengan nol, namun sering kali diperoleh hasil yang eksplisit, sehingga dilakukan metode numerik untuk memperoleh estimasi parameternya, yaitu metode iterasi Newton Raphson untuk memaksimumkan fungsi likelihood. Metode Newton Raphson adalah metode iterasi untuk menyelesaikan persamaan non linear (Agresti, 2007). Langkah- langkah iterasi Newton Raphson diberikan sebagai berikut:
1. Menentukan nilai taksiran awal estimasi parameter 𝛽̂(0). Taksiran yang digunakan sama seperti pada regresi linear pada persamaan (2.5) dengan
𝑋 = [
1 𝑥11 𝑥12 ⋯ 𝑥1𝑝 1 𝑥21 𝑥22 ⋯ 𝑥2𝑝
⋮ 1
⋮ 𝑥𝑛1
⋮ 𝑥𝑛2
⋯
⋯
⋮ 𝑥𝑛𝑝
]; Y = [ 𝑦1 𝑦2 𝑦⋮𝑛 ]
2. Membentuk vector gradien 𝑔(𝑡)(𝑔(𝑡)) = (𝜕𝑙(𝛽)
𝜕𝛽0 ), (𝜕𝑙(𝛽)
𝜕𝛽1), … , (𝜕𝑙(𝛽)
𝜕𝛽𝑃) Dengan p adalah banyaknya variabel independen.
3. Membentuk Matriks Hessian H
𝐻(𝑡)(𝛽(𝑡))
=
[
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽02
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽0𝜕𝛽1 … 𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽0𝜕𝛽𝑝
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽0𝜕𝛽1
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽12 … 𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽1𝜕𝛽𝑝
…
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽0𝜕𝛽𝑝
…
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽1𝜕𝛽𝑝
…
…
…
𝜕2𝑙𝑛𝐿(𝛽)
𝜕𝛽𝑝2 ]
4. Memasukan nilai 𝛽̂(0) ke dalam elemen vector g dan matriks H sehingga diperoleh vektor 𝑔(𝑡)(𝛽(𝑡)) dan matriks 𝐻(𝑡)(𝛽(𝑡))
5. Iterasi dimulai dari t = 0 dilakukan iterasi pada persamaan berikut:
𝛽(𝑡+1)= 𝛽(𝑡)− (𝐻(𝑡)(𝛽(𝑡)))−1𝑔(𝑡)(𝛽(𝑡))
Nilai 𝛽(𝑡) merupakan sekumpulan estimator parameter yang konvergen pada iterasi ke-t.
6. Apabila belum diperoleh estimator parameter yang konvergen, maka kembali pada langkah sebelumnya hingga iterasi ke t = t + 1. Iterasi akan berhenti jika |𝛽(𝑡+1)− 𝛽(𝑡)| < 𝜀 . Hasil estimasi yang diperoleh adalah 𝛽(𝑡+1) pada iterasi terakhir.
2.4 Pengujian Parameter
Menurut Hosmer dan Lemeshow (2000) pengujian terhadap parameter model dilakukan sebagai upaya memeriksa peranan variabel bebas terhadap model. Uji yang dilakukan ada dua yaitu:
2.4.1 Pengujian Parameter dengan Uji Simultan atau Uji G
Statistik uji G yaitu uji yang digunakan untuk menguji peranan variabel bebas dalam model secara bersama-sama. Adapun pengujian hipotesis yang dilakukan adalah:
𝐻0: 𝛽𝑗 = 0
𝐻1: 𝛽𝑗 ≠ 0 , 𝑗 = 1,2, . . , 𝑝 Digunakan uji statistik G, yaitu
𝐺 = 𝐷(𝑢𝑛𝑡𝑢𝑘 𝑚𝑜𝑑𝑒𝑙 𝑡𝑎𝑛𝑝𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑦𝑎𝑛𝑔 𝑑𝑖𝑎𝑚𝑎𝑡𝑖) 𝐷(𝑢𝑛𝑡𝑢𝑘 𝑚𝑜𝑑𝑒𝑙 𝑑𝑒𝑛𝑔𝑎𝑛 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑦𝑎𝑛𝑔 𝑑𝑖𝑎𝑚𝑎𝑡𝑖)
= −2 ln [𝑙0 𝑙𝑘]
𝐺 = −2ln(𝑙0) − (−2 ln(𝑙𝑘))
dengan 𝑙0 adalah likelihood tanpa variabel independen dan 𝑙𝑘 adalah likelihood dengan variabel independen.
Jika hipotesis nol benar, statistik uji G akan berdistribusi Chi-Square dengan derajat bebas k, dengan k adalah banyaknya variabel independen dalam model. Dengan demikian kriteria penolakan 𝐻0 adalah 𝐺 > 𝑋𝑘,⍺2
Untuk mengetahui 𝛽𝑗 mana yang berpengaruh signifikan, dapat dilakukan uji parameter 𝛽𝑗 secara parsial dengan Uji Wald.
2.4.2 Pengujian Parameter dengan Uji Wald (Uji Parsial)
Pengujian variabel dilakukan satu per satu menggunakan statistik Uji Wald (Hosmer dan Lemeshow, 2000). Hipotesis yang akan diuji adalah sebagai beriut:
𝐻0: 𝛽𝑗 = 0
𝐻1: 𝛽𝑗 ≠ 0 , 𝑗 = 1, 2, 3, … , 𝑝 Statistik uji:
𝑊 = [𝑆𝐸(𝛽𝛽̂𝑗
̂)𝑗 ]
2
; 𝑗 = 1, 2, … , 𝑝 (2.12)
Dengan 𝛽̂𝑗 adalah penduga dari 𝛽̂𝑗 dan 𝑆𝐸(𝛽̂ ) adalah standart error 𝑗 dari 𝛽𝑗 (penduga galat baku dari 𝛽𝑗). W diasumsikan mengikuti distribusi Chi-Square dengan derajat bebas 1. Menurut Utomo (2009) 𝐻0 akan ditolak jika nilai 𝑊 > 𝑋(1;⍺)2 atau (p – value) < ⍺. Jika 𝐻0 ditolak maka dapat disimpulkan bahwa 𝛽𝑗 signifikan. Dengan kata lain, variael independen X secara parsial berpengaruh signifikan terhadap variabel dependen.
2.5 Uji kebaikan Model
Uji kebaikan model (goodness of fit) penting dilakukan untuk mengetahui apakah model yang diperoleh sesuai atau tidak. Statistik uji yang digunakan adalah Pearson dengan hipotesis:
𝐻0: model regresi logistik sesuai (tidak ada perbedaan yang nyata antara hasil observasi dengan prediksi model)
𝐻1: model regresi logistik tidak sesuai (ada perbedaan yang nyata antara hasil observasi dengan prediksi model)
Statistik uji yang digunakan adalah statisik uji Pearson dengan rumus:
𝐶̂ = ∑(𝑜𝑘− 𝑛𝑘𝜋̅𝑘)2
𝑛𝑘𝜋̅𝑘(1 − 𝜋̅𝑘) (2.13)
𝑔
𝑘=1
di mana,
𝑜𝑘 : jumlah kejadian yang diamati di kelompok- k 𝑛𝑘 : jumlah observasi kelompok di kelompok- k 𝜋̅𝑘 : rata-rata kejadian kelompok- k
Statistik uji 𝐶̂ berdistribusi Chi-Square dengan derajat bebas g. 𝐻0 diterima apabila nilai (𝑝 − 𝑣𝑎𝑙𝑢𝑒) > ⍺ atau nilai 𝐶̂ ≤ 𝑋2 (Hosmer dan Lemeshow, 2000).
2.6 Koefisien Determinasi
Koefisien determinasi (R-Square) adalah ukuran yang menunjukkan seberapa besar viariasi dalam data kadar gula darah penderita diabetes mellitus dapat dijelaskan oleh model regresi yang dibangun. Koefisien seterminasi merujuk kepada kemampuan dari variabel independen dalam menerangkan variabel dependennya. Besarnya nilai koefisien determinasi pada model regresi logistik ditunjukkan oleh nilai Mc Fadden, CoxanandSnell, dan Nagelkerke R-Square.
Pengujian koefisien determinasi dilakukan untuk melihat seberapa besar variabel-variabel independen mempengaruhi nilai variabel dependen.
Suatu model dikatakan baik bila koefisien Nagelkerke lebih dari 70% yang artinya bahwa variabel independen yang dibuat model mempengaruhi 70%
terhadap variabel dependen.
𝑅𝑀𝐹2 = 1 − [𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑚𝑜𝑑𝑒𝑙 𝐵 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑚𝑜𝑑𝑒𝑙 𝐴]
Dengan 𝑅𝑀𝐹2 merupakan koefisien determinasi McFadden. Berikut adalah rumus untuk mencari koefisien determinasi Cox and Snell.
𝑅𝐶𝑆2 = 1 − exp [−2
𝑛[𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑(𝑚𝑜𝑑𝑒𝑙 𝐵) − 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑(𝑚𝑜𝑑𝑒𝑙 𝐴)]]
Dengan 𝑅𝐶𝑆2 merupakan koefisien determinasi Cox and Snell.
𝑅𝑀𝐴𝑋2 = 1 − exp [−2
𝑛 x 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑(𝑚𝑜𝑑𝑒𝑙 𝐴)]
𝑅𝑁2 = [ 𝑅𝐶𝑆2 𝑅𝑀𝐴𝑋2 ]
Dengan 𝑅𝑁2 merupakan koefisien determinasi Nagelkerke.
2.7 Odd Ratio
Menurut (Hosmer dan Lemeshow, 2000) rasio kecenderungan adalah ukuran yang memperkirakan berapa besar kecenderungan variabel- variabel independen terhadap variabel dependen. Odd Ratio berfungsi untuk menginterpretasikan hubungan antara variabel independen dan variabel dependen. Jika OR = 1 menunjukkan bahwa tidak ada hubungan antara variabel independen dan variabel dependen. Jika OR > 1 menunjukkan bahwa nilai peluang sukses lebih tinggi dari nilai yang dijadikan pembanding. Sedangkan jika nilai OR < 1, maka peluang sukses lebih kecil dari nilai yang dijadikan pembanding. Sebagai contoh model regresi logistik multinomial dengan variabel dependen (Y) yang dari tiga kategori 1, 2 dan 3 dan dua variabel independen (X) yaitu 𝑋1 dan 𝑋2. Jika variabel independen 𝑋1 berskala kategori yang terdiri dari dua kategori, yaitu 0 dan 1, sedangkan variabel terikat 𝑋2 kontinu, maka rumus Odd Ratio variabel 𝑋1 pada fungsi logit 1 adalah
𝜓 = 𝑃(𝑌 = 1|𝑥 =, 𝑋2)/𝑃(𝑌=𝑘|𝑥=1,𝑋2)
𝑃(𝑌 = 1|𝑥 = 0, 𝑋2)/𝑃(𝑌=𝑘|𝑥=0,𝑋2)= exp[𝛽1] (2.14)
Untuk 𝜓 = 0 berarti bahwa 𝑥 = 1 memiliki kecenderungan yang sama dengan 𝑥 = 0 untuk menghasilkan 𝑌 = 1. Jika 1 < 𝜓 < ∞ berarti 𝑥 = 1 memiliki kecenderungan lebih besar 𝜓 kali dibandingkan 𝑥 = 0 untuk menghasilkan 𝑌 = 1 dan sebaliknya untuk 0 < 𝜓 < 1
BAB III
METODE PENELITIAN
Pada bab ini akan disampaikan studi literatur, metode pengumpulan data, metode pengolahan data dan kerangkan penelitian mengenai ”Estimasi Parameter Regresi Logistik Multinomial Menggunakan Metode Maksimum Likelihood”.
3.1 Studi Literatur
Penelitian ini bersifat literatur dan melakukan studi kepustakaan untuk mengkaji dan menelaah berbagai buku, jurnal, karya ilmiah, laporan dan berbagai tulisan lainnya yang berkaitan dengan pokok permasalahan yang dibahas dalam penelitian ini.
3.2 Metode Pengumpulan Data
Data yang digunakan pada penulisan skripsi ini adalah diperoleh dari peneliatian Universitas Standford tentang penyakit Diabetes Mellitus tahun 2004 (https://web.stanford.edu/~hastie/Papers/LARS/diabetes.data). Pada skripsi ini data dikelompokkan sesuai dengan kategori yang ditentukan dengan mengambil sampel sebanyak 100 pasien. Faktor usia, jenis kelamin, indeks massa tubuh, tekanan darah, dan 5 ukuran serum darah merupakan variabel independen dari variabel dependenkadar gula darah penyakit diabete mellitus. Tabel 3.1 menunjukkan variabel independen dan variabel dependen.
Tabel 3.1 Variabel dependen
Variabel Nama Variabel Kode Keterangan
Dependen Kadar Gula Darah Y 1 = Rendah (<100 mg/dl) 2 = Normal (100-140 mg/dl)
3 = Tinggi (>140 mg/dl)