BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)

(1)

BAHAN AJAR

BIOSTATISTIKA DAN EPIDEMIOLOGI

(MMS-4411)

Disusun oleh: Dr. Danardono, MPH.

PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA

(2)

Daftar Isi

1 Pendahuluan 2

1.1 Tujuan Pembelajaran . . . 2

1.2 Biostatistika dan Epidemiologi . . . 2

1.3 Profesi Biostatistisi dan Epidemiolog . . . 3

1.4 Metode dan Proses Pembelajaran . . . 3

1.5 Latihan dan Tugas . . . 4

2 Desain Penelitian 5 2.1 Tujuan Pembelajaran . . . 5

2.2 Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 5 2.3 Penelitian observasional . . . 7

2.4 Penelitian Cross-sectional dan Longitudinal . . . . 7

2.5 Penelitian Follow-up . . . . 8

2.6 Penelitian Case-control . . . . 8

2.7 Penelitian Klinis . . . 8

2.8 Model Statistik dan Kausalitas . . . 9

2.9 Latihan dan Tugas . . . 10

3 Statistik dan Ukuran dalam Epidemiologi 15 3.1 Tujuan Pembelajaran . . . 15

3.2 Prevalensi dan insidensi . . . 15

3.2.1 Model untuk Prevalensi . . . 17

3.2.2 Model untuk Insidensi . . . 20

3.3 Faktor Resiko . . . 23

3.4 Inferensi untuk RD, RR dan OR . . . 25

3.5 Latihan . . . 29

4 Perancuan dan Interaksi 31 4.1 Tujuan Pembelajaran . . . 31

4.2 Konsep dan Identifikasi Perancuan . . . 31

(3)

Daftar Isi iii

4.3 Metode Standarisasi dan Mantel-Haenszel . . . 34

4.3.1 Standarisasi Langsung . . . 34

4.3.2 Standarisasi Tidak Langsung . . . 35

4.3.3 Mantel-Haenszel . . . 36

4.4 Interaksi . . . 37

4.5 Latihan . . . 39

5 Model Linear Tergeneralisasi 41 5.1 Tujuan Pembelajaran . . . 41

5.2 Generalisasi Model Linear . . . 41

5.3 Regresi Logistik . . . 43

5.3.1 Model dan Estimasi Parameter . . . 43

5.3.2 Interpretasi Parameter Model . . . 44

5.4 Regresi Poisson . . . 48

5.4.1 Model dan Estimasi Parameter . . . 48

5.4.2 Interpretasi Parameter Model . . . 49

5.5 Latihan . . . 55

6 Uji Diagnostik 58 6.1 Tujuan Pembelajaran . . . 58

6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi . . . 58

6.3 Kurva ROC . . . 61

6.4 Latihan . . . 63

7 Analisis Data Longitudinal 65 7.1 Tujuan Pembelajaran . . . 65

7.2 Deskripsi Data longitudinal . . . 65

7.3 Model Regresi Data longitudinal . . . 70

7.3.1 Naive Model . . . . 72

7.3.2 Model Linear Umum untuk Data Longitudinal . . . 73

7.4 Latihan . . . 75

8 Analisis Data Survival 77 8.1 Tujuan Pembelajaran . . . 77

8.2 Fungsi Survival dan Hazard . . . 77

8.3 Kaplan-Meier dan Life Table . . . . 81

8.4 Membandingkan Distribusi Survival . . . 84

8.5 Model Regresi Data Survival . . . 86

(4)

Daftar Isi 1

9 Konsultasi Statistika 91

9.1 Tujuan Pembelajaran . . . 91 9.2 Konsultan Statistik . . . 91 9.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi . 92 9.4 Ringkasan Metode dan Topik Lanjut . . . 94 9.5 Latihan . . . 94

(5)

1 Pendahuluan

1.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat:

1. Menjelaskan pengertian biostatistika dan epidemiologi dan penekanan matakuliah ini

2. Memberi contoh profesi yang berkaitan dengan biostatistika dan epidemio-logi

3. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tu-juan umum pembelajaran, metode dan proses pembelajaran, penilaian dan sumber referensi

1.2 Biostatistika dan Epidemiologi

Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran dan epidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebih sempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, atau dikenal juga sebagai medical statistics. Sedangkan ilmu statistika dalam bidang biologi, lingkungan dan pertanian sering disebut sebagai biometrika (biometrics).

Definisi Epidemiologi menurut (Last, 1995) adalah

The study of distribution and determinants of health-related states or events in specified population, and the application of this study to control of health problems.

(6)

1.3. Profesi Biostatistisi dan Epidemiolog 3

MMS-4411 mempunyai penekanan agar lulusan bisa bertindak seperti layaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikan tidak hanya berupa metode saja namun juga aspek komunikasi, konsultasi dan pengetahuan terkait seperti epidemiologi dan terminologi dalam bidang kese-hatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswa karena banyak pengembangan teori statistika yang berawal dari permasalahan dalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah ini mahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagai statistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengan sudut pandang yang berbeda dari seorang statistisi.

Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami dasar serta teknik metode statistik secara umum dan mampu melakukan analisis statistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkan dapat mendukung kompetensi lulusan program studi statistika, khususnya untuk lulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika.

1.3 Profesi Biostatistisi dan Epidemiolog

Profesi biostatistisi dan epidemiolog banyak diperlukan di bidang-bidang seperti tersebut di bawah ini,

• Lembaga penelitian

• Akademik atau lembaga pendidikan

• Lembaga pemerintah bidang kesehatan atau rumah sakit

• Industri obat dan farmasi

• Konsultan

Di Indonesia profesi seperti tersebut belum sepopuler profesi seperti dokter, apoteker atau dosen, namun di negara maju dan di negara ASEAN seperti Singa-pura profesi ini sudah cukup dikenal. Lembaga penelitian asing yang melakukan penelitian di bidang penyakit tropis biasanya juga membutuhkan tenaga biostatis-tisi dan epidemiolog lokal. Perencanaan aspek kesehatan, termasuk di dalamnya asuransi kesehatan dan kematian, yang baik dan terukur akan sangat memerlukan ahli di bidang biostatistik dan epidemiologi.

1.4 Metode dan Proses Pembelajaran

Metode dan proses pembelajaran untuk matakuliah ini dapat dilihat pada RPKPS (Rencana Program Kegiatan Pembelajaran Semester) MMS-4411.

(7)

1.5. Latihan dan Tugas 4

1.5 Latihan dan Tugas

1.1. Sebutkan matakuliah apa saja di program studi Statistika UGM yang terkait matakuliah MMS-4411.

1.2. Carilah kuliah (course) sejenis MMS-4411 di internet atau sumber lain yang mudah diakses (misalnya handbook suatu program studi) baik yang berba-hasa Indonesia maupun Inggris. Tuliskan alamat situs internet kuliah terse-but terseterse-but atau dapatkan hardcopy/softcopy dari handbook suatu program studi, kemudian tuliskan materi atau kompetensi yang diajarkan serta meto-de pembelajarannya.

1.3. Sebutkan metode apa saja yang pernah saudara pelajari sebelum mengam-bil matakuliah ini. Berilah satu contoh analisis data terkait penelitian di bidang epidemiologi, kesehatan atau ilmu hayati untuk masing-masing me-tode yang telah saudara pelajari tersebut.

1.4. Lewat jejaring sosial yang mungkin saudara punyai, carilah lulusan atau alumnus program studi Statistika (dari perguruan tinggi manapun di Indone-sia) yang mempunyai profesi terkait konsultan biostatistika, epidemiologi atau pekerjaan lain yang memerlukan kompetensi seorang biostatistisi atau epidemiolog.

(8)

2 Desain Penelitian

2.1 Tujuan Pembelajaran

1. Menjelaskan tujuan penelitian dalam bidang epidemiologi 2. Menjelaskan tipe-tipe penelitian

3. Mengidentifikasi desain penelitian yang digunakan dalam suatu penelitian 4. Mengusulkan desain penelitian yang tepat untuk suatu permasalahan 5. Menjelaskan peran statistika dalam penelitian di bidang ilmu hayati,

kedok-teran dan epidemiologi

6. Menjelaskan proses pembangkitan data dikaitkan dengan desain dan model statistik

7. Menyebutkan matakuliah lain yang terkait dengan topik desain penelitian

2.2 Penelitian dalam Bidang Ilmu Hayati,

Kedok-teran, dan Epidemiologi

Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuan penelitian di bidang epidemiologi, yaitu: describe, explain, predict dan control. Selengkapnya dapat dijelaskan sebagai berikut:

(9)

2.2. Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 6

populasi

A

B

sampel data

Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian popu-lasi dan unit popupopu-lasi, tahap A: pengambilan unit sampel dari popupopu-lasi; tahap B: pengambilan informasi dari sampel.

1. Mendeskripsikan status kesehatan populasi dengan cara melakukan enu-merasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan ke-cenderungan atau trend penyakit;

2. Menjelaskan penyebab penyakit dengan cara menentukan faktor yang men-jadi sebab dari suatu penyakit tertentu dan cara transmisinya;

3. Melakukan prediksi kejadian sakit dan distribusi status kesehatan dalam populasi;

4. Melakukan pengendalian penyebaran penyakit dalam populasi dengan pencegahan kejadian sakit, penyembuhan kasus sakit, menambah lama hidup bersama dengan suatu penyakit, atau meningkatkan status kesehatan-nya

Penelitian dalam bidang kedokteran dan epidemiologi secara garis besar sama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmu rekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia seba-gai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidang lain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Mi-salnya, tidak mungkin akan diberikan suatu jenis perlakuan yang membahayakan atau merugikan subyek penelitian.

Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu peneli-tian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil

(10)

2.3. Penelitian observasional 7

dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel peneli-tian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakter-istik atau informasi yang ingin diperoleh dari unit tersebut.

Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyam-pelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang repre-sentatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota pop-ulasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random. Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan pengambilan sampel random. Namun, pengambilan random menjamin obyek-tivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengam-bilan sampel random yang pada hakekatnya bertujuan untuk mengatasi hetero-genitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster, sistematik, dan lainnya.

Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan penguku-ran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenis-jenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah bagian ini.

2.3 Penelitian observasional

Dalam penelitian jenis ini tidak dilakukan manipulasi atau perlakuan pada faktor-faktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian ini, tidak dilakukan manipulasi, perlakuan ataupun intervensi pada tahap B (Gambar 2.1).

2.4 Penelitian Cross-sectional dan Longitudinal

Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik wak-tu tertenwak-tu saja. Jenis penelitian ini dikontraskan dengan penelitian longiwak-tudinal, yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya peneli-tian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau

(11)

ob-2.5. Penelitian Follow-up 8

servasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan de-ngan satu pengukuran atau observasi untuk satu unit.

2.5 Penelitian Follow-up

Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti se-lama jangka waktu tertentu atau sampai suatu kejadian (event), nilai pengukuran atau end-point tertentu diperoleh. Penelitian Follow-up dapat berupa observasion-al maupun eksperimentobservasion-al.

2.6 Penelitian Case-control

Penelitian case-control merupakan salah satu contoh penelitian retrospektif. Penelitian retrospektif yaitu jenis penelitian yang berawal dari suatu event atau

end-point. Unit sampel yang memiliki event atau end-point tersebut kemudian

diteliti. Penelitian case-control dimulai dari unit yang mendapatkan kasus (pe-nyakit misalnya), kemudian dipilih sekelompok pembanding atau kontrol (yaitu unit yang tidak mendapatkan atau mempunyai kasus). Faktor atau variabel penje-las yang lain juga dikumpulkan untuk masing-masing kasus dan kontrol.

2.7 Penelitian Klinis

Penelitian klinis (clinical trial) menurut (Chow, 2000, hal 110) adalah ” ... an experiment performed by a health care organization or profes-sional to evaluate the effect of an intervention or treatment against a control in a clinical environment. It is a prospective study to identify outcome measures that are influenced by the intervention. A clini-cal trial is designed to maintain health, prevent diseases, or treat dis-eased subjects. The safety, efficacy, pharmacological, pharmacokinet-ic, quality-of-life, health economics, or biochemical effects are mea-sured in a clinical trial.”

Dalam penelitian ini dilakukan manipulasi, pemberian perlakuan (treatment) atau intervensi pada tahap B (Gambar 2.1)

Tahapan penelitian klinis (Le, 2003):

• Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba pertama obat pada manusia setelah sukses dengan uji coba pada binatang

(12)

2.8. Model Statistik dan Kausalitas 9

• Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus kepada keamanannya

• Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelum didaftarkan pada pihak yang berwenang

• Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasi yang lebih detail tentang efektivitas obat dan keamanannya

2.8 Model Statistik dan Kausalitas

Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan huruf X untuk variabel penjelas, variabel independen, faktor; danY untuk variabel de-penden atau variabel respon. Dalam Epidemiologi dikenal juga istilah variabel paparan (exposure) dan perancu (confounder) yang termasuk dalam kelompokX, dan outcome yang termasuk dalam kelompokY.

Umumnya setiap penelitian bertujuan untuk mencari tahu apakahX menye-babkan Y, atau seberapa besar pengaruhX terhadapY. Model statistik, seperti misalnya model regresi sederhana

E(Y |X) =β0+β1X (2.1)

merupakan representasi untuk mencapai tujuan itu.

Statistisi memikirkan model seperti (2.1) sebagai suatu ”pembangkit data” (data generating-process). Realisasi dari model itu adalah data yang diperoleh (sering dituliskan sebagai huruf kecil x dany). Apabila model dan estimasi pa-rameternya dinyatakan cukup tepat untuk menjelaskan data, dapat dilakukan infe-rensi atau pengambilan kesimpulan dari model tersebut. Termasuk dalam inferen-si itu adalah penggunaan model untuk predikinferen-si dan kausalitas.

Perlu diperhatikan bahwa sangat mungkin terdapat lebih dari satu model yang cukup tepat untuk menjelaskan suatu set data. Untuk itu harus diingat pendap-at yang mengpendap-atakan bahwa ada banyak model yang baik tapi pilihlah spendap-atu yang berguna. Dikaitkan dengan penelitian di bidang Epidemiologi dan kedokteran, model yang berguna di sini adalah model yang terdiri dari variabel yang ni-lainya dapat atau mudah dimodifikasi dalam praktek dan model yang sesederhana mungkin.

Desain penelitian, atau cara memperoleh data penelitian, sangat mempen-garuhi asumsi model statistik yang pada akhirnya mempenmempen-garuhi penjelasan dan interpretasi dari hubungan X dengan Y. Ambil contoh model sederhana seperti (2.1). Misalkan untuk mendapatkan x(realisasi dari variabelX) digunakan cara

(13)

observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka mo-del ini kurang kuat untuk menjelaskan kausalitas X terhadapY. Namun bilax diperoleh dengan kaidah desain eksperimental maka model dapat digunakan un-tuk menjelaskan hubungan kausal

Dalam penelitian epidemiologi dikenal prinsip-prinsip untuk mendapatkan bukti adanya kausalitas yang dikenal sebagai Hill’s Criteria for Causality (Armitage and Colton, 1998; Kleinbaum et al., 1982) sebagai berikut:

1. Hubungan (association) yang kuat antaraX(variabel independen,faktor re-siko atau paparan) denganY (variabel dependen, respon atau outcome). 2. Hubungan yang diperoleh harus spesifik dalam arti suatu faktor atau

pa-paran hanya berhubungan dengan satu jenis penyakit saja.

3. Paparan atau faktor (X) harus mendahului respon (Y), atau sebab harus mendahului akibat.

4. Harus ada penjelasan secara biologis mengapa suatu paparan atau faktor resiko menyebabkan suatu penyakit.

5. Harus dapat ditunjukkan adanya dose-response effect atau biologic gradient yaitu semakin besar tingkat paparan semakin besar kemungkinan terjadinya penyakit

6. Terkait kriteria 5, jika paparan dihilangkan, penyakit juga seharusnya tidak muncul

7. Adanya konsistensi hasil atau kesimpulan yang diperoleh dari beberapa stu-di.

2.9 Latihan dan Tugas

Untuk soal pilihan ganda, pilihlah satu jawaban yang tepat (a, b, c atau d); untuk soal esai tuliskan jawabannya dengan singkat dan jelas!

2.1. Keuntungan desain penelitian case-control terhadap desain penelitian co-hort salah satunya adalah:

a. dengan desain case-control dapat dihitung OR

b. case-control dapat mengatasi masalah etik penelitian terhadap

manusia yang mungkin terjadi pada desain cohort

c. ukuran sampel untuk case-control relatif lebih kecil dibandingkan

cohort

d. dapat digunakan untuk menunjukkan hubungan sebab-akibat (cause-effect)

(14)

2.2. Keuntungan desain penelitian longitudinal terhadap cross-sectional salah satunya adalah:

a. lebih mudah dilaksanakan

b. ada variabel kontrol yang dapat digunakan sebagai perbandingan c. ukuran sampel relatif lebih kecil

d. dapat digunakan untuk menunjukkan hubungan sebab-akibat (cause-effect)

2.3. Suatu penelitian yang bertujuan untuk membandingkan dua perlakuan A dan B dilakukan dengan cara sebagai berikut: subyek secara random diberi perlakuan A atau B; setelah periode waktu tertentu subyek berganti men-dapat perlakuan yang lain, untuk subyek yang pada awalnya menmen-dapat per-lakuan A kemudian mendapat B, dan sebaliknya. Desain yang digunakan disebut:

a. cross-over trial b. cross-sectional c. cohort d. randomized block

2.4. Desain penelitian yang sesuai dan layak (dapat dilaksanakan) untuk menge-tahui faktor resiko suatu penyakit dengan insidensi yang sangat rendah (seperti misalnya kanker) adalah:

a. cross-sectional b. cohort

c. case-control d. clinical-trial

2.5. Dalam penelitian tentang program atau kebijakan yang berkaitan dengan kesehatan masyarakat, randomisasi pada unit penelitian biasanya sulit untuk dilakukan, meskipun demikian pengaruh faktor (pemberian program atau penerapan kebijakan) tetap dapat diteliti efeknya. Desain penelitian yang tepat untuk permasalahan ini adalah:

a. cross-sectional b. cohort

c. observational d. quasi-experimental

2.6. Misalkan dari teori dan penelitian sebelumnya dapat diasumsikan bahwa perlakuan A, B dan C akan menghasilkan respon individual seperti pada gambar di bawah ini.

A B C waktuT re sp o n Y

(15)

Untuk meneliti fenomena tersebut di atas desain yang paling tepat adalah: a. longitudinal b. cross-sectional c. multiple cross-sectional d. survival 2.7. Pada tahun 1985 dilakukan penelitian di Inggris untuk mengetahui apakah

wanita yang minum pil kontrasepsi akan mengalami menopause (tidak mengalami siklus menstruasi lagi) lebih awal atau lebih akhir dibandingkan wanita yang tidak minum pil kontrasepsi. Untuk itu diambil satu kelompok wanita yang lahir pada tahun 1930, dengan alasan pada tahun 1985 mereka sudah cukup tua untuk mendapatkan menopause. Berdasarkan catatan di sebuah klinik umum diperoleh 132 wanita. Sebanyak 101 wanita tidak diambil sebagai subyek karena alasan tidak dapat dihubungi, menolak sebagai subyek, belum menopause dan alasan kesehatan. Diperoleh data sebagai berikut:

Umur saat menopause (tahun)

n Mean SD

minum pil 12 47,2 2,1

tdk. minum 19 47,5 2,1

(a) Apa desain studi ini? Jelaskan!

(b) Apakah ada kesalahan fatal dalam studi ini? Jelaskan!

2.8. Sebuah penelitian dilakukan untuk mengetahui keefektivan helm dalam mencegah kerusakan di kepala akibat kecelakaan kendaraan bermotor. Diperoleh data 793 kecelakaan dalam periode 3 bulan sebagai berikut:

Menggunakan helm

kerusakan di kepala Ya Tidak Total

Ya 17 218 235

Tidak 130 428 558

Total 147 646 793

Apa desain studi ini? Jelaskan!

2.9. Jelaskan perbedaan utama antara penelitian prospektif dengan retrospektif dan keuntungan kerugian masing-masing!

2.10. Jelaskan perbedaan utama antara penelitian observasional dengan dengan eksperimental dan keuntungan kerugian masing-masing!

2.11. Sebuah lembaga riset kesehatan akan melakukan penelitian tentang program atau aktivitas yang dapat menghentikan kebiasaan merokok.

(a) Ajukan satu pertanyaan ilmiah (research question) yang relevan menu-rut saudara.

(16)

2.9. Latihan dan Tugas 13 10 20 30 40 50 60 1 2 3 4 5 6

konsumsi gula (kg/orang/tahun)

DMFT

Gambar 2.2: Plot antara banyaknya gigi yang rusak dengan konsumsi gula

(b) Apa variabel independen atau paparan (exposure) utama penelitian ter-sebut?

(c) Desain penelitian apa yang sesuai dengan tujuan penelitian di atas? Jelaskan!

(d) Bagaimana seharusnya saudara memilih subyek dan mengukur (mengambil informasi) dari mereka sehingga tidak terjadi bias? 2.12. Gambar 2.2 menunjukkan hasil penelitian epidemiologi hubungan antara

banyaknya gigi yang rusak dengan konsumsi gula pada 20 negara. Gigi yang rusak dinyatakan dengan skor DMFT (decayed, missing and filled

teeth) yang diperoleh dari mean dari survei di masing-masing negara

de-ngan responden anak usia 12 tahun. konsumsi gula diperoleh dari laporan tahunan pemerintah dibagi estimasi total populasi berdasarkan sensus.

(a) Apakah dapat ditunjukkan dari gambar bahwa konsumsi gula meng-akibatkan tingginya DMFT? Jelaskan!

(b) Apa kelemahan studi seperti di atas dan berikan alternatif desain yang lebih tepat

2.13. Dalam suatu studi tentang faktor resiko untuk angina (terkait penyakit jan-tung) subyek diminta menjawab pertanyaan,’Apakah anda merokok’.

(17)

Jawa-2.9. Latihan dan Tugas 14

ban diklasifikasikan untuk setiap responden sebagai prokok dan bukan pe-rokok. Kemudian subyek diklasifikasikan apakah pernah mengalami angi-na atau tidak. Setelah data diaangi-nalisis, tidak diperoleh hubungan antara merokok dengan pernah tidaknya mengalami angina.

(a) Dari banyak studi yang telah dilakukan sebelumnya dapat ditunjukkan adanya bukti bahwa resiko mendapatkan angina meningkat seiring dengan naiknya konsumsi rokok seseorang. Jelaskan apa saja yang mungkin menyebabkan studi di atas gagal menunjukkan hubungan an-tara angina dengan merokok?

(b) Apa alternatif desain studi yang lebih tepat? Jelaskan!

2.14. Untuk meneliti suatu permasalahan epidemiologi sering dilakukan lebih dari satu studi yang mana variabel utamanya sama namun populasi dan set-ting studinya mungkin berbeda. Apakah ada keuntungan yang diperoleh dari banyak studi tersebut untuk menjawab satu permasalahan yang sama dalam epidemiologi? Jelaskan!

(18)

3 Statistik dan Ukuran dalam

Epidemiologi

3.1 Tujuan Pembelajaran

1. Menggunakan ukuran statistik yang tepat untuk suatu permasalahan dalam epidemiologi

2. Menginterpretasikan hasil hitungan ukuran statistik

3. Menjelaskan model yang mendasari prevalensi dan insidensi

4. Menggunakan likelihood ratio test sebagai alternatif inferensi untuk model prevalensi dan insidensi

5. Menggunakan ukuran faktor yang tepat untuk suatu permasalahan dengan datanya

6. Menginterpretasikan hasil hitungan ukuran faktor

3.2 Prevalensi dan insidensi

Definisi sehat menurut WHO adalah: health is a state of complete physical,

mental, and social well-being and not merely the absence of disease or infir-mity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran

(19)

3.2. Prevalensi dan insidensi 16

well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog

adalah ”ada” atau ”tidak ada” penyakit1_.

Statistik atau ukuran paling dasar yang sering digunakan untuk melihat be-sarnya permasalahan dalam epidemiologi adalah banyaknya kejadian atau fre-kuensi kejadian (sakit, meninggal, dsb.). Namun ukuran ini sangat bergantung pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergan-tung pada besar populasi dan lama periode pengamatan yang banyak digunakan adalah prevalensi (prevalence) dan insidensi (incidence)

Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau

menderita penyakit tertentu pada suatu waktu tertentu. Prevalensi dirumuskan sebagai:

P = d

N, (3.1)

denganP adalah prevalensi;dadalah banyaknya subyek yang mengalami kejadi-an tertentu atau menderita penyakit tertentu pada suatu waktu tertentu;N adalah banyaknya subyek pada suatu waktu tersebut.

Insidensi adalah banyaknya subyek yang mengalami kejadian baru atau

men-dapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insi-densi yang sering dipakai adalah insiinsi-densi kumulatif IK dan tingkat insidensi (incidence rate)I.

IK dirumuskan sebagai:

IK = d

N0

, (3.2)

denganIKadalah insidensi kumulatif;dadalah banyaknya subyek yang mengala-mi kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N0 adalah banyaknya subyek yang belum mengalami kejadian tertentu

atau menderita penyakit tertentu pada awal interval waktu tersebut.

Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu ba-nyaknya perubahan kuantitatif yang terjadi yang terkait dengan waktu.

Insidensi (Incidence rate) dirumuskan sebagai: I = d

N T, (3.3)

denganI adalah insidensi;dadalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu;N T

1_{Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah} pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan

(20)

naik karena turun karena

durasi penyakit yg panjang pasien hidup lama

insidensi meningkat in-migrasi kasus

out-migrasi penduduk sehat in-migrasi orang yg rentan meningkatnya diagnosis

durasi penyakit yg pendek pasien hidup singkat insidensi menurun in-migrasi penduduk sehat out-migrasi kasus

out-migrasi orang yg rentan meningkatnya kesembuhan

Gambar 3.1: Faktor-faktor yang mempengaruhi estimasi prevalensi (Beaglehole et al., 2000).

adalah total waktu subyek yang belum mengalami kejadian tertentu atau menderi-ta penyakit tertentu dalam interval waktu tersebut (sering juga disebut sebagai

person-time atau risk-time)

Istilah lain yang sering digunakan untuk insidensi adalah person-time

inci-dence rate, instantaneous inciinci-dence rate, force of morbidity, inciinci-dence-density, hazard).

Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak di-anjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk menunjukkan besarnya masalah kesehatan.

Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat ditunjukkan seperti persamaan (3.4), asalkan prevalensi kecil dan tidak berubah menurut waktu.

prevalensi≈insidensi×durasi (3.4)

3.2.1 Model untuk Prevalensi

Dasar analisis untuk prevalensi adalah Model Bernoulli (Lihat Gambar 3.2) yang mempunyai asumsi sebagai berikut :

(21)

S

G π

1−π

Gambar 3.2: Model Bernoulli.

• tiap usaha (trial) menghasilkan satu dari dua hasil yang mungkin, dina-makan sukses (S) dan gagal (G);

• peluang sukses,P(S) =πdan peluang gagalP(G) = 1−π

• usaha-usaha tersebut independen Fungsi probabilitas Bernoulli adalah

P(X =x;π) =πx(1−π)1−x_, _(3.5) denganπadalah probabilitas sukses danx= 0,1(gagal, sukses). Dalam konteks Epidemiologi, definisi sukses misalnya terkena penyakit tertentu atau meninggal. Untuk melakukan inferensi berdasarkan model ini dapat digunakan fungsi

likeli-hood berdasarkan data yang diperoleh. Contoh 3.1

Darin= 10orang diketahui outcome sukses (S) dan gagal (G) SSGSGGGSGG (misalnya sukses adalah terkena penyakit tertentu dan gagal adalah tidak terkena penyakit tertentu). Seberapa mungkin data ini berasal dari model binomial dengan (i)π =0,1; (ii)π =0,5?

Jawab: (i) π =0,1: L(π |data) = ππ(1−π)π(1−π)(1−π)(1−π)π(1−π)(1−π) = 0,14×0,96 = 5,31×10−5 (ii) π =0,5 L(π |data) = ππ(1−π)π(1−π)(1−π)(1−π)π(1−π)(1−π) = 0,54×0,56 = 9,77×10−4

(22)

3.2. Prevalensi dan insidensi 19 0.0 0.2 0.4 0.6 0.8 1.0 0.0000 0.0004 0.0008 0.0012 π Likelihood L(0.1) L(0.5)

Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG denganπ =0,1 danπ=0,5.

Terlihat bahwa likelihood untuk π = 0,5 lebih besar daripadaπ = 0,1 sehingga dapat disimpulkan bahwa data lebih mungkin berasal dari model Bernoulli dengan π = 0,5 daripadaπ=0,1 (Lihat Gambar 3.3).

Nilai maksimum likelihood untuk data ini diperoleh pada π = 0,4 (Gambar 3.4). Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenal dalam Statistika sebagai cara untuk mencari estimator dengan Metode Maximum

Like-lihood.

Inferensi untuk prevalensi dapat dilakukan berdasarkan tiga prinsip yaitu in-terval konfidensi (confidence inin-terval), menurut teori frequentist; supported range untuk parameter berdasarkan likelihood ratio menurut teori likelihood; dan

cred-ible interval menurut teori Bayesian (Clayton and Hills, 1993). Metode yang

paling sering digunakan dan diterima di komunitas peneliti di bidang epidemio-logi adalah interval konfidensi menggunakan pendekatan Teorema Limit Sentral. Dalam perkembangannya kedua metode yang lain mulai berkembang dan menda-patkan perhatian.

(23)

3.2. Prevalensi dan insidensi 20 0.0 0.2 0.4 0.6 0.8 1.0 0.0000 0.0004 0.0008 0.0012 π Likelihood 0.00119

Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada π =0,4.

3.2.2 Model untuk Insidensi

Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaitu berdasarkan pada model Bernoulli. Di sini akan dibahas model untuk insidensi, khususnya incidence rate (3.3).

Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimen Bernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakit dan lainnya. Model ini dapat dikembangkan untuk insidensi. Dalam insiden-si, khususnya incidence rate (3.3), seorang individu diamati dalam suatu periode waktu tertentu. yang dapat dibagi dalam beberapa interval. Misalnya, seseorang yang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahun interval waktu pengamatan.

Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yang juga meru-pakan titik akhir (end-point) pengamatan, selama 3 tahun. Apabila dalam 3 tahun tersebut probabilitas meninggal sama, misalnyaπ, maka model yang dapat digu-nakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalam setiap interval waktu probabilitas meninggal berbeda, misalnyaπ1, π2,π3 seperti

terlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbeda dan merupakan probabilitas bersyarat.

(24)

3.2. Prevalensi dan insidensi 21 1 3 5 π1 M H 1₋ π₁ π2 M H 1₋ π₂ π3 M H 1₋ π₃

Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, de-ngan sukses M (mati) dan gagal H (hidup).

meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pa-da akhir tahun kedua individu ini harus hidup papa-da akhir tahun pertama, sehing-ga probabilitasnya adalah 0,7 × 0,2 = 0,14. Demikian pula untuk probabilitas meninggal pada akhir tahun ketiga, 0,7×0,8×0,1= 0,056.

Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional (untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate (force of

mortality)

λ = lim

h→0

P(t≤T < t+h|T ≥t)

h (3.6)

Likelihood untuk λ dapat diturunkan dari likelihood binomial dengan men-ganggap bahwa probabilitas sukses adalahλhdenganhkecil,

L(λ) = λDexp(−λY) (3.7)

denganDadalah banyaknya kejadian,Y adalah total waktu observasi. Log-likelihood untukλ

ℓ(λ) = Dlog(λ)−λY (3.8)

Persamaan (3.7) dan (3.8) adalah fungsi likelihood dan log-likelihood untuk distribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untuk λ adalah

ˆ

λ= D

(25)

3.2. Prevalensi dan insidensi 22 1 3 5 0,3 M H 0,7 0,2 M H 0,8 0,1 M H 0,9

Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghi-tungan probabilitas bersyarat).

Contoh 3.2

Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (person-years). Log-likelihood untukλ

ℓ(λ) = 7 log(λ)−500λ

Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada λ = 0,014 (Gambar 3.7) 0.005 0.010 0.015 0.020 0.025 0.030 −39.5 −38.5 −37.5 λ log likelihood

(26)

3.3. Faktor Resiko 23

Contoh 3.3

Sebuah studi tentang akibat buruk merokok bagi kesehatan dilakukan di Inggris pada tahun 1951. Diperoleh data berupa kematian akibat penyakit jantung koroner dikate-gorikan menurut umur dan status merokok (Tabel 3.1).

Tabel 3.1: Kematian akibat jantung koroner menurut umur dan status merokok Kel. perokok bukan perokok

Umur kematian person-years kematian person-years

35 – 44 32 52407 2 18790 45 – 54 104 43248 12 10673 55 – 64 206 28612 28 5710 65 – 74 186 12663 28 2585 75 – 84 102 5317 31 1462

Insidensi untuk kematian akibat penyakit jantung koroner dapat dihitung menggu-nakan rumus (3.9). Insidensi keseluruhan tanpa melihat status merokok dan usia adalah

ˆ

λ = 32 + 104 + 206 +. . .+ 31 52407 + 43248 + 28612 +. . .+ 1462 = 731

181467 = 0,004

karena bilangan insidensi biasanya kecil, nilai estimasinya dikalikan bilangan yang agak besar misalnya 1000. Jadi insidensi kematian di atas adalah 4 kematian per 1000 orang.

Dengan cara yang sama insidensi untuk tiap tingkat faktor resiko dapat dihitung. Mi-salnya insidensi dalam kelompok perokok adalah

ˆ λ1 = 32 + 104 + 206 + 186 + 102 52407 + 43248 + 28612 + 12663 + 5317 = 630 142247 = 4,43 per 1000 orang,

dan untuk kelompok bukan perokok λˆ0 =101/39220= 2,58 per 1000 orang. Kematian

dalam kelompok perokok terlihat lebih tinggi.

3.3 Faktor Resiko

Bagian di muka membahas statistik dan ukuran tanpa memandang adanya fak-tor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan kata lain dalam notasi statistika di muka, sementara hanya dilihat variabelY saja tan-pa melihat adanya X (variabel independen, penjelas, paparan). Dalam bagian ini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran

(27)

3.3. Faktor Resiko 24

ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desain penelitian yang digunakan.

Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko di-antaranya:

• Selisih resiko (risk difference)

• Rasio resiko (risk ratio)

• Odds ratio

Misalkan π1 adalah probabilitas atau resiko untuk subyek yang terpapar dan π2

untuk subyek yang tidak terpapar. Sebagai contoh, π1adalah probabilitas subyek

terkena kanker paru jika diketahui subyek merokok, dan π1 adalah probabilitas

subyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko, rasio resiko dan odds ratio akan dijelaskan berdasarkanπ1 danπ2 di atas.

Selisih resiko didefinisikan sebagai

RD =π1−π2. (3.10)

yaitu selisih antara dua probabilitas π1 dan π2. Karena π1 = RD +π2, selisih

resiko mengukur perubahan pada skala aditif. Jika RD > 0, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. Sebaliknya jikaRD <0, paparan berkaitan dengan penurunan probabilitas terkena penyakit; dan jika RD = 0, paparan tidak berkaitan dengan penyakit tersebut.

Rasio resiko didefinisikan sebagai rasio antara dua probabilitas, yaitu

RR=π1/π2. (3.11)

Karena π1 = RRπ2, rasio resiko mengukur perubahan pada skala multiplikatif.

Jika RR > 1, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. JikaRR <1, paparan berkaitan dengan penurunan probabilitas terkena penyakit; dan jikaRR= 1, paparan tidak berkaitan dengan penyakit tersebut.

Odds merupakan representasi alternatif untuk probabilitas. Untuk probabilitas π 6= 1, oddsωdidefinisikan sebagai

ω= π

1−π. (3.12)

Pernyataan odds dalam penggunaan sehari-hari biasanya digunakan untuk mengekspresikan kebolehjadian, misalnya dalam suatu pertandingan olahra-ga: ”peluang saya menang melawan dia 60:40”, artinya peluang saya menang adalah 0,6.

Meskipun probabilitas dan odds merepresentasikan informasi yang sama, ni-lai rentang ω tidak sama dengan π, yaitu 0 ≤ π ≤ 1 sedangkan ω > 0. Bila

(28)

3.4. Inferensi untuk RD, RR dan OR 25

Tabel 3.2: Data dan Model Probabilitas untuk Desain Cohort (a) Data pada tabel2×2

D E 1 2 1 n11 n12 N1 2 n21 n22 N2 (b) Model probabilitas D E 1 2 1 π1 1−π1 1 2 π2 1−π2 1

didefinisikanω1 = π1/(1−π1) danω2 = π2/(1−π2), Odds ratio adalah rasio

antara dua oddsω1 danω2

OR = ω1

ω2

= π1(1−π2)

π2(1−π1)

. (3.13)

Odds ratio mirip dengan rasio resikoRRdalam hal perubahannya yang diukur secara multiplikatif. Interpretasi nilaiORjuga ekivalen denganRR.

3.4 Inferensi untuk RD, RR dan OR

Untuk desain cohort, semua ukuran faktor resiko RD, RR dan OR dapat diesti-masi dari data dan dapat diinterpretasikan. Data dan model probabilitasnya dapat digambarkan seperti pada Table 3.2.

Pada tabel tersebut E adalah variabel paparan (exposure) atau faktor resiko yang diteliti dan D adalah outcome. NilaiE = 1menunjukkan adanya paparan (exposed) dan E = 2 menunjukkan tidak adanya paparan (non-exposed). Mi-salkan variabel paparan yang akan diteliti adalah status merokok, E = 1adalah merokok dan E = 2 tidak merokok. NilaiD = 1menunjukkan adanya disease atau outcome yang menjadi perhatian, dan D = 2 menunjukkan tidak adanya

disease. Misalnya D = 1 adalah terdiagnosis kanker paru, dan D = 2 tidak terdiagnosis kanker paru.

Untuk desain cohortπ1adalah probabilitas mendapatkan disease untuk

kelom-pok yang diketahui sebelumnya sudah mendapatkan paparan, atau dengan notasi probabilitas π1 = P(E = 1 | D = 1). Sedangkanπ2 adalah probabilitas

men-dapatkan disease untuk kelompok yang diketahui sebelumnya tidak menmen-dapatkan paparan, atau π2 = P(E = 1 | D = 2). Total baris untuk model probabilitas

adalah satu karena kelompok paparan diambil dari dua populasi yang berbeda, yaitu kelompok exposedE = 1, dan kelompok non-exposedE = 2.

Estimasi titik untukπ1danπ2adalah

ˆ

π1 =n11/N1 (3.14)

ˆ

(29)

Estimasi titik untukRD,RRdanOR dapat diperoleh dengan menggantiπ1 dan π2 pada persamaan (3.10), (3.11) dan (3.13) denganπˆ1danπˆ2.

Selisih resikoRD pada dasarnya adalah selisih dua sampel independen yang berdistribusi Binomial. Proporsi sampelπˆi mempunyai harga harapanπi dan va-riansiπi(1−πi)/Ni, dengani= 1,2. Sehingga estimasi titik untukRDadalah

d

RD= ˆπ1−πˆ2 (3.16)

yang mempunyai galat standar (standard error) σRDd= π1(1−π1) N1 + π2(1−π2) N2 1/2 (3.17) Interval konfidensi(1−α)100%untukRDdapat dihitung dengan menggunakan pendekatan Normal sebagai berikut:

d

RD±Zα/2σˆ

d

RD, (3.18)

denganσˆRDdadalahσRDdnamun denganπi digantiπˆi.

Estimasi titik untukRRdapat diturunkan dari (3.11), (3.14) dan (3.15) yaitu d

RR= ˆπ1 ˆ

π2

Distribusi untuk dRR sangat menceng (skewed), sehingga pendekatan Nor-mal lebih baik jika menggunakan transformasi log daridRR. Galat standar untuk

logRRdadalah σlogdRR= 1−π1 π1N1 + 1−π2 π2N2 1/2 (3.19) Diperoleh interval konfidensi(1−α)100%untuklogRR

logRRd±Zα/2σ

logRRd (3.20)

Karena interval ini pada skala transformasi log, untuk interpretasinya harus dikembalikan pada skala asal dariRRdengan mengambil eksponensial, baik un-tuk batas interval bawah maupun atas.

Seperti halnya RR, estimasi titik untuk OR dapat diturunkan dari (3.13), (3.14) dan (3.15) yaitu d OR = πˆ1(1−ˆπ2) ˆ π2(1−ˆπ1) = n11n22 n12n21 , (3.21)

(30)

Untuk menghindari masalah bila ada nij = 0 dapat digunakan allternatif untuk (3.21),

d

OR= (n11+0,5)(n22+0,5) (n12+0,5)(n21+0,5)

(3.22) Distribusi untukORdini juga sangat menceng sepertidRR, sehingga diperlukan transformasilog untuk membentuk interval konfidensiOR.

Estimasi galat standar untuklogORdadalah

ˆ σlogORd= 1 n11 + 1 n12 + 1 n21 + 1 n22 1/2 , (3.23)

Sehingga interval konfidensi(1−α)100%untuklogOR adalahc

logORd±Zα/2σˆ

logORd (3.24)

Interpretasinya harus dikembalikan pada skala asal dari OR dengan mengambil eksponensial baik untuk batas bawah maupun batas atas dari interval konfidensi OR.

Contoh 3.4

Diperoleh data tentang hubungan antara penyakit jantung koroner dengan tekanan peker-jaan seperti pada Tabel 3.3.

Tabel 3.3: Data studi tentang hubungan penyakit jantung koroner dengan tekanan pekerjaan

Tertekan krn. Penyakit jantung koroner

Pekerjaan Ya Tidak Total

Ya 97 307 404

Tidak 200 1409 1609

Estimasi titik resiko terkena penyakit jantung koroner untuk masing-masing kelompok orang yang tertekan karena pekerjaan dan yang tidak tertekan adalah

ˆ

π1 = 97/404 = 0,240 dan πˆ2 = 200/1609 = 0,124

Estimasi titik untukRRdan standard error darilogRRddapat dihitung menggunakanπˆ1

danπˆ2, yaitu: d RR = ˆπ1/πˆ2 = 0,240/0,124 = 1,932 σlogRRd = 1−π1 π1N1 + 1−π2 π2N2 1/2 = 1−0,240 0,240(404) + 1−0,124 0,124(1609) 1/2 = 0,1105

(31)

Batas bawah interval konfidensi 95% adalah expnlog(dRR)−1,96×σlogRRdo = 1,555; dan batas atas intervalexpnlog(RRd) + 1,96×σlogdRRo= 2,399. Diperoleh estimasiRRdan interval konfidensinya adalah : 1,932 (1,555 — 2,399 ).

Estimasi titik untukORdanσlogORd:

d OR = πˆ1/(1−πˆ1) ˆ π2/(1−πˆ2) = 0,316/0,142 = 2,225 ˆ σlogORd = 1 n11 + 1 n12 + 1 n21 + 1 n22 1/2 = 1 97 + 1 307+ 1 200+ 1 1409 1/2 = 0,1388

Batas bawah interval konfidensi 95% adalah expnlog(ORd)−1,96×σlogORdo = 1,696; dan batas atas intervalexpnlog(dOR) + 1,96×σlogORdo= 2,922. Diperoleh estimasiORdan interval konfidensinya adalah : 2,225 (1,696 — 2,922 ).

Estimasi titik untukRDadalah

d RD = ˆπ1−πˆ2 = 0,240−0,124 = 0,116 σRDd = π1(1−π1) N1 +π2(1−π2) N2 1/2 = 0,0228

Batas bawah interval konfidensi 95%(ˆπ1−πˆ2)−1,96×σ

d

RD= 0,071; dan batas atas intervalnya(ˆπ1−πˆ2) + 1,96×σ

d

RD = 0,161. Diperoleh estimasiRDdan interval konfidensinya adalah : 0,116 (0,071 — 0,161 ).

Pada desain case-control, Data dan model probabilitasnya dapat digambarkan seperti pada Tabel 3.4. Dalam tabel iniM1danM2adalah banyaknya sampel yang

diperoleh dari kelompok sampel yang mendapatkan disease (D = 1) dan dari kelompok yang tidak mendapatkan disease (D = 2). Dari masing-masing kelom-pok diambil informasi secara retrospektif apakah sampel telah terpapar (E = 1

atau tidakE = 2. Model probabilitasnya juga berbeda dengan desain Cohort kare-na probabilitas kondisiokare-nalnya adalah terhadap diseaseDbukan terhadap paparan E, yaitu probabilitasφ1 =P(E = 1|D= 1)danφ2 =P(E = 1|D= 2).

Berdasarkan model ini, tidak mungkin diperoleh estimasi untukπi, i = 1,2 seperti pada desain Cohort. Sehingga estimasi untuk RD dan RR tidak dapat diperoleh. Bagaimana dengan OR? Apabila estimasiOR dihitung untuk odds paparan dalam kelompok diseased dibagi odds paparan dalam kelompok

(32)

non-3.5. Latihan 29

Tabel 3.4: Data dan Model Probabilitas untuk Desain Case-Control. (a) Data pada tabel2×2

D E 1 2 1 n11 n12 2 n21 n22 M1 M2 (b) Model probabilitas D E 1 2 1 φ1 φ2 2 1−φ1 1−φ2 1 1

diseased maka dapat diperoleh

g OR = φˆ1(1−φˆ2) ˆ φ2(1−φˆ1) = n11n22 n12n21 , (3.25)

denganφˆ1 =n11/M1danφˆ2 =n12/M2. TernyataORg =ORd, yang implikasinya

adalahORdapat diestimasi untuk desain Case-Control.

Pada desain cross-sectional statistik yang dapat diinterpretasikan dengan valid hanyalah prevalensi, oleh karena itu desain cross-sectional sering disebut studi prevalensi. Meskipun RD, RR danOR dapat dihitung dari data yang diperoleh dari studi cross-sectional, kesimpulan atau interpretasi yang diperoleh kemung-kinan akan tidak valid.

3.5 Latihan

3.1. Hitunglah odds S (Sukses) terhadap G (Gagal), dengan sukses misalnya adalah terkena suatu penyakit dan gagal adalah tidak terkena suatu penya-kit), bila probabilitas S diketahui adalah:

(a) 0,75 (b) 0,50 (c) 0,25

3.2. Hitunglah probabilitas sukses S bila diketahui odds S terhadap gagal G adalah:

(a) 0,3 (b) 3,0

3.3. Diketahui dari 8 orang pasien kanker rahim, 2 pasien meninggal dunia. Bila kita tertarik pada parameter π, yaitu probabilitas pasien meninggal, nilai manakah yang lebih didukung oleh data,π = 0,2 atauπ = 0,6? Jelaskan! Carilah estimator untuk parameterπ!

(33)

3.5. Latihan 30

Paparan banyaknya siswa banyaknya siswa yang diperiksa yang posisif tb

tinggi 129 63

rendah 325 36

Hitung risk difference, risk ratio dan odds ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpretasikan hasilnya.

3.5. Merujuk soal no 2.8 (halaman 12), hitung risk difference, risk ratio dan odds

ratio untuk paparan tinggi beserta interval interval konfidensinya.

Interpre-tasikan hasilnya.

3.6. Suatu studi dilakukan untuk menguji hipotesis yang menyatakan bahwa ada hubungan antara konsumsi teh dan sindroma pra-menstruasi. Satu grup yang terdiri dari 120 pelajar dan 80 pekerja pabrik menjadi subyek peneli-tian dan mengisi kuesioner tentang sindroma pra-menstruasi. Prevalensi sindroma pra-menstruasi di antara pelajar adalah 40% dan di antara pekerja pabrik adalah 75%. Berapa subyek dalam studi ini yang mengalami sindro-ma pra-menstruasi?

(34)

4 Perancuan dan Interaksi

4.1 Tujuan Pembelajaran

1. Menjelaskan pengertian perancuan (confounder) dan interaksi dan menye-butkan contohnya dalam penelitian epidemiologi

2. Mengidentifikasi adanya perancuan dalam suatu permasalahan atau data penelitian epidemiologi

3. Mengidentifikasi adanya interaksi dalam suatu permasalahan atau data penelitian epidemiologi

4.2 Konsep dan Identifikasi Perancuan

Variable perancu adalah variabel yang memenuhi dua kondisi:

• merupakan faktor resiko

• mempunyai hubungan dengan variabel paparan tapi bukan merupakan kon-sekuensi dari variabel paparan

Secara konseptual perancuan dapat digambarkan seperti pada Gambar 4.1 dan 4.2. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E, sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus.

Contoh 4.1

Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak dapat ban-gun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka

(35)

4.2. Konsep dan Identifikasi Perancuan 32

Tabel 4.1: Data Bedsores study Meninggal hidup Total

Bedsore 79 745 824 tidak Bedsore 286 8.290 8.576 Total 365 9.035 9.400 F E D F E D F E D

Gambar 4.1: Variabel F adalah perancu antara D (variabel respon) dengan E (vari-abel paparan). Tanda→pengaruh satu arah;↔pengaruh dua arah

F E D F E D F E D F E D

Gambar 4.2: Variabel F bukan perancu antara D dengan E (variabel respon) de-ngan E (variabel paparan). Tanda→pengaruh satu arah;↔pengaruh dua arah

(36)

4.2. Konsep dan Identifikasi Perancuan 33

Tabel 4.2: Data Bedsores study distratifikasi menurut tingkat keparahan Tingkat keparahan tinggi akibat penyakit lain:

Meninggal hidup Total

Bedsore 55 51 106

tidak Bedsore 5 5 10

Total 60 56 116

Tingkat keparahan rendah akibat penyakit lain: Meninggal hidup Total

Bedsore 24 694 718

tidak Bedsore 281 8.285 8.566

Total 305 8.979 9.284

pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibat fatal. Diperoleh data seperti pada Tabel 4.1. Rasio resiko dari data ini adalah

RR= 79/824

286/8576 =2,9

Nilai RR tersebut cukup tinggi menunjukkan bahwa bedsore mungkin dapat meng-akibatkan kematian. Untuk melihat apakah ada variabel perancu pada data ini diperoleh data seperti pada Tabel 4.2. Data distratifikasi menurut tingkat keparahan penyakit lain.

Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah

RR= 55/106

5/10 =1,04

untuk tingkat keparahan tinggi dan

RR= 24/718

281/8566 =1,02

untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore tidak terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinya bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore dengan kematian.

Contoh 4.2

Contoh ini berkebalikan dengan contoh sebelumnya. Ketika tidak ada confounder, ter-lihat tidak ada pengaruh faktor resiko (Tabel 4.3). Namun ketika di-stratifikasi menurut confounder, terlihat ada pengaruh faktor resiko terhadap disease.

(37)

4.3. Metode Standarisasi dan Mantel-Haenszel 34

Tabel 4.3: Data faktor resiko dengan disease D+ _D− _Total E+ ₂₄₀ ₄₂₀ ₆₆₀ _π_ˆ 1 = 0,3636 E− ₂₀₀ ₃₅₀ ₅₅₀ _π_ˆ 2 = 0,3636 RR= ˆπ1/πˆ2 = 1

Tabel 4.4: Data faktor resiko dengan disease distratifikasi menurut variabel lain (confounder) VariabelF = 0: D+ _D− Total E+ ₁₃₅ ₄₁₅ ₅₅₀ _π_ˆ 1 = 0,2455 E− 5 45 50πˆ2 = 0,1000 RR= ˆπ1/πˆ2 = 2,45 VariabelF = 1: D+ _D− _Total E+ ₁₀₅ ₅ ₁₁₀ _π_ˆ 1 = 0,9545 E− ₁₉₅ ₃₀₅ ₅₀₀ _π_ˆ 2 = 0,3900 RR= ˆπ1/πˆ2 = 2,45

4.3 Metode Standarisasi dan Mantel-Haenszel

Metode standarisasi digunakan untuk mengatasi confounding dengan cara mem-bandingkan atau melakukan standarisasi dengan suatu populasi pembanding (standar). Metode ini biasa digunakan dalam Demografi. Variabel atau faktor yang biasanya digunakan dalam standarisasi adalah usia dan jenis kelamin. Dike-nal dua jenis standarisasi yaitu (1) standarisasi langsung (direct standardization); dan (2) standarisasi tidak langsung (indirect standardization)

4.3.1 Standarisasi Langsung

Standarisasi langsung dibentuk dari hasil estimasi banyaknya kejadian (event) yang diperoleh dari model (distribusi) populasi studi (study population), dike-nakan pada populasi standar (standard/reference population). Variabel yang biasa digunakan untuk standarisasi adalah kelompok umur. Data yang diperlukan untuk penghitungan standarisasi dapat disusun seperti pada Tabel 4.5, denganniadalah banyaknya kejadian (misalnya kematian) dalam interval (kelompok umur)iuntuk populasi studi;Niadalah ukuran (banyaknya) populasi studi dalam intervalidan

Mi :ukuran populasi pembanding.

(38)

Tabel 4.5: Data untuk Standarisasi Kel. Populasi Populasi umur studi pembanding

1 n1 N1 M1 2 n2 N2 M2 .. . ... ... i ni Ni Mi .. . ... ... k nk Nk Mk r=C Pk i=1 ni NiMi Pk i=1Mi , (4.1)

dengan C suatu konstanta yang digunakan agar bilangan yang diperoleh tidak terlalu kecil. Biasanya C = 1000, sehingga satuan untuk r adalah banyaknya kejadian per 1000 orang.

Deviasi standar untukradalah

SE(r) = _P_kC i=1Mi    k X i=1 s ni Mi Ni 2  (4.2)

yang dapat digunakan untuk menghitung interval konfidensi 95%, yaitu:r±1,96×

SE(r).

4.3.2 Standarisasi Tidak Langsung

Metode ini menggunakan dua tahapan proses. Pertama model dari populasi pem-banding yang biasanya berupa ASDR (Age Specific Deaths Rate) dikenakan pada studi populasi. Untuk penghitungan ini diperlukan informasi banyaknya kejadi-an (kematikejadi-an) di populasi pembkejadi-anding (dinotasikkejadi-an sebagai mi) karena ASDR = mi/Mi. Harga harapan banyaknya kematian dalam populasi studi berdasarkan model populasi pembanding adalahE =Pk_i₌₁Ni(mi/Mi). Diperoleh

standard-ized event ratio (ser) atau standardstandard-ized mortality ratio (smr) jika event yang

men-jadi perhatian adalah mortalitas sebagai berikut, smr=

Pk

i=1ni

(39)

Tabel 4.6: Data Tabel2×2untuk strata ke-i Status Sakit/Event Total

D+ _D− E+ _a i bi ai+bi E− _c i di ci+di Total ai+ci bi +di ni

dengan standard error

SE(smr) =

q

(Pk_i₌₁ni)

E (4.4)

Pada tahapan kedua dapat dihitung standarisasi tidak langsung sebagai berikut rindirect=C×smr× Pk i=1mi Pk i=1M i , (4.5)

dengan standard error

SE(rindirect) =C× q (Pk_i₌₁ni) E × Pk i=1mi Pk i=1M i (4.6)

4.3.3 Mantel-Haenszel

Untuk data yang distratifikasi menurut variabel perancu, dapat dihitung odds ratio gabungan dari masing-masing strata. Estimator ini disebut Mantel-Haenszel odds

ratio yang ˆ ΨMH = Pk i=1aidi/ni Pk i=1bici/ni ! (4.7) dengan standar error untuklog( ˆΨMH)adalah

SE(log( ˆΨMH)) = s P PiRi 2(PRi)2 + P PiSi+PQiRi 2PRiPSi + P QiSi 2(PSi)2 (4.8)

untuk setiap stratumi,

Pi = (ai+di)/ni, Qi = (bi +ci)/ni,

(40)

4.4. Interaksi 37

(a) tidak ada interaksi

p el u an g d is ea se A=E− A=E+ B=E − B=E + (b) interaksi unilateral p el u an g d is ea se A=E− A=E+ B =E− B=E + (c) interaksi sinergis p el u an g d is ea se A=E− _A₌_E+ B=E− B= E+ (d) interaksi antagonis p el u an g d is ea se A=E− _A₌_E+ B₌ E− B= E+

Gambar 4.3: Jenis Interaksi untuk Dua Faktor ResikoAdanB

Interval konfidensi 95% untuklog( ˆΨMH)adalah

log( ˆΨMH)±1,96SE(log( ˆΨMH)), (4.9)

Interval konfidensi 95% untukΨˆMH sendiri dapat dihitung dengan mengambil

ni-lai eksponensial dari masing-masing batas interval tersebut.

4.4 Interaksi

Dua faktor dikatakan berinteraksi bila efek satu faktor terhadap suatu kejadian penyakit berbeda tingkatnya untuk beberapa strata atau nilai yang berbeda dari faktor yang lain. Istilah lain untuk interaksi yang lebih dikenal dalam epidemio-logi adalah modifikasi efek (effect modification). Bila tidak ada interaksi, seti-ap faktor resiko akan mempunyai efek yang tetseti-ap (homogen) pada tingkat yang berbeda-beda dari faktor yang lain.

Interaksi dan jenisnya dapat digambarkan seperti pada Gambar 4.3. Misalkan ada dua faktorA danB yang menjadi perhatian dan masing-masing mempunyai dua tingkat faktor yaitu terpapar (exposed E+_{) dan tidak terpapar (non-exposed} E−

).

Bila tidak ada interaksi antara faktor A dan B, peluang terjadinya disease (efek dari faktor) dari non-exposed ke exposed akan sama tingkat kenaikannya (Gambar 4.3 (a)). Untuk faktor B tidak terpapar (B = E−

), pengaruh faktor A akan naik dari ketikaA =E− _ke_A ₌ _E+_{yang mana tingkat kenaikannya sama}

(41)

4.4. Interaksi 38

(kemiringannya) untuk faktorB terpapar (B = E+_{). Untuk interaksi unilateral}

(Gambar 4.3 (b)), efek dari faktorAada jika faktorBterpapar (B =E+_{). Namun}

bilaB tidak terpapar faktorAtidak berpengaruh. Interaksi sinergis terjadi bila pengaruh faktor A searah atau sama-sama naik dari A = E−

ke A = E+_{, tapi}

kenaikan akan makin besar bila ada B terpapar (B = E+_{). Interaksi} antago-nis berlawanan dengan interaksi sinergis. Jeantago-nis interaksi variabel ini terjadi bila

pengaruh faktorAmenjadi berkebalikan ketikaB berubah. JikaB tidak terpapar (B = E−_{), pengaruh} _A _{akan menurun dari ketika tidak terpapar (}_A ₌ _E−_{) ke}

terpapar (A = E+_{). Sebaliknya jika} _B _{terpapar (}_B ₌ _E+_{), pengaruh} _A _akan

naik.

Untuk mengidentifikasi adanya interaksi, perlu dilakukan analisis baik secara deskriptif berupa diagram interaksi maupun dengan uji statistik. Pengetahuan ten-tang substansi variabel atau faktor yang diteliti sudah tentu diperlukan untuk iden-tifikasi awal variabel atau faktor apa saja yang mungkin berinteraksi.

Untuk menguji interaksi dapat digunakan statistik berdasarkan risk rasio (RR), risk difference (RD) maupun odds ratio (OR). Misalkan ada dua faktor AdanB seperti digunakan di atas. Untuk menyederhanakan notasi, terpapar oleh faktor A atau A = E+ _{dituliskan sebagai} _A

1, tidak terpapar oleh faktor A atau A = E−

dituliskan sebagaiA0, demikian pula untuk faktorB. Kemudian

dide-finisikan kombinasi dari faktorA danB sebagai berikutA1B1, A1B0,A0B1 dan A0B0. Notasi A1B1 adalah terpapar baik oleh faktor A maupun B, kombinasi

yang lain dapat diartikan dengan cara yang sama.

Didefinisikan pula probabilitas kondisional mendapatkan penyakit (D+₎

de-ngan diberikan kombinasi faktorAdanB sebagai berikut:

π11=P(D+|A1B1) π10=P(D+ |A1B0) π01=P(D+|A0B1) π00=P(D+ |A0B0)

Empat macam resiko terkena penyakit dinyatakan sebagai probabilitas bersyarat terhadap kombinasi antara faktorAdanB ini dapat dilihat seperti pada Tabel 4.7 (a).

MenggunakanRR(Tabel 4.7 (b)), faktorAdanBdikatakan tidak ada

inter-aksi bila

RRAB =RRARRB, (4.10)

denganRRAB adalah risk ratio antara resiko mendapatkan penyakit jika terpapar olehAdan terpaparB, dengan resiko mendapat penyakit jika tidak terpapar oleh A maupunB; atauRRAB =π11/π00. Dengan interpretasi yang sama

didefinisi-kan pula RRA = π10/π00 danRRB = π01/π00. Pernyataan (??) dinamakan

in-teraksi pada skala multiplikatif (interaction on multiplicative scale). Berdasarkan skala multiplikatif, tidak ada interaksi berarti rasio resiko paparan bersamaAdan B sama dengan hasil kali rasio resiko masing-masing faktor.

(42)

4.5. Latihan 39

Tabel 4.7: Interaksi menurut RR, OR dan RD (a) Resiko, diketahui faktorAdanB

faktor B faktorA B =E− _B ₌_E+ A =E− _π 00 π01 A =E+ _π 10 π11 (b) MenggunakanRR faktor B faktorA B =E− _B ₌_E+ A=E− ₁ _RR B A=E+ _RR A RRAB tdk ada interaksi:RRAB=RRARRB (c) MenggunakanOR faktor B faktorA B =E− _B ₌_E+ A=E− ₁ _OR B A=E+ _OR A ORAB tdk ada interaksi:ORAB=ORAORB (c) MenggunakanRD faktor B faktorA B =E− _B ₌_E+ A=E− ₀ _RD B A=E+ _RD A RDAB tdk ada interaksi:RDAB=RDA+RDB

Pengujian interaksi secara multiplikatif dapat pula dilakukan menggunakan OR(Tabel 4.7 (c)) sebagai berikut

ORAB =ORAORB, (4.11)

denganORAB,ORAdanORB didefinisikan dan diinterpretasikan serupa seperti

RR di atas. MisalnyaORA = [π10/(1−π10)]/[π00/(1−π00)]adalah odds ra-tio antara odds mendapatkan penyakit jika terpapar oleh Adan tidak terpaparB, dengan odds mendapatkan penyakit jika tidak terpapar olehAmaupunB.

Interaksi dapat pula terjadi pada skala aditif (interaction on additive scale) dengan menggunakan RD (Tabel 4.7 (d)). Dengan cara ini, faktor A dan B dikatakan tidak ada interaksi bila

RDAB = RDA+RDB (4.12)

(π11−π00) = (π10−π00) + (π01−π00)

yaitu selisih resiko antara paparan bersama A dan B sama dengan total selisih resiko antara masing-masing faktor.

Apabila faktor yang menjadi perhatian lebih dari dua maka diperlukan model-model regresi yang akan dibahas pada Bab-Bab selanjutnya.

4.5 Latihan

1. Diberikan tabel2×2seperti di bawah yang diperoleh dari studi prospektif dengan variabel paparanE dan variabel penyakitD.

(43)

4.5. Latihan 40

D+ _D−

E+ ₂₀₅ ₇₆ E− ₆₅ ₁₁₆

(a) Stratifikasilah tabel di atas menjadi dua buah tabel2×2sedemikian sehingga variabel ketiga yang men-stratifikasi tabel di atas merupakan variabel confounder (berikan nama variabelnyaF dan kategorinyaF0

danF1)

(b) Hitunglah OR Mantel-Haenszel dari data tabel yang saudara buat di atas

2. Dalam suatu studi tentang faktor resiko suatu penyakit, variabel status merokok dan konsumsi lemak menjadi perhatian. Misalkan diperoleh da-ta resiko relatif (RR) untuk kombinasi sda-tatus merokok dan tingkat konsumsi lemak adalah sebagai berikut:

konsumi status merokok

lemak tidak pernah mantan ringan berat

rendah 1 1.5 2.0 3.0

medium 1.2 1.8 2.4 3.6

tinggi 1.5 2.3 3.0 4.5

sangat tinggi 2.0 3.5 4.0 6.0

Dalam penelitian ini yang dianggap sebagai tingkat paparan yang terendah adalah tidak pernah merokok dan mengkonsumsi makanan rendah lemak, dan yang tertinggi adalah perokok berat dan menkonsumsi lemak sangat tinggi. Terlihat bahwa resiko semakin naik seiring dengan kenaikan tingkat paparan. Apakah data ini menunjukkan adanya perancuan (confounding)? Apakah data ini menunjukkan adanya interaksi antara konsumsi lemak de-ngan merokok kaitannya dalam mengakibatkan penyakit?

(44)

5 Model Linear Tergeneralisasi

5.1 Tujuan Pembelajaran

1. Menjelaskan konsep Model Linear Tergeneralisasi (Generalized Linear

Mo-del) dan kaitannya dengan model statistika lain seperti Regresi Linear,

ANAVA, Regresi Logistik dan Regresi Poisson. 2. Melakukan inferensi Regresi Logistik.

3. Melakukan inferensi Regresi Poisson.

4. Mengidentifikasi model yang tepat untuk permasalahan dalam epidemiologi dan penelitian kesehatan.

5. Memberi contoh model GLM yang lain selain Regresi Linear, ANAVA, Re-gresi Logistik dan ReRe-gresi Poisson.

5.2 Generalisasi Model Linear

Model Linear yang sudah dikenal seperi Regresi Linear dan ANAVA juga bebe-rapa metode regresi lain yang cukup populer seperti regresi logistik sebenarnya merupakan satu keluarga model regresi yang lebih luas yang dinamakan Model Linear Terumumkan (GLM :Generalized Linear Model).

Ada tiga komponen utama yang membentuk GLM yaitu

• Variabel random Y1, Y2, . . . , Yn denganE(Yi) = µi dengan fungsi densitas dari keluarga eksponensial (exponential family)

(45)

5.2. Generalisasi Model Linear 42

• Prediktor linear

ηi =x_iβ =β₀+β₁x_i₁+. . .+β_px_ip

• Fungsi penghubung (link function), yang menghubungkan E(Yi) = µi de-nganx_iβ

g(µi) = x_iβ

• Fungsi variansiVi

Fungsi densitas f(y;θ) disebut sebagai Keluarga eksponensial (exponential

family) bila:

f(y;θ) = s(y)t(θ)ea(y)b(θ)

= exp(a(y)b(θ) +c(θ) +d(y))

dengans(y) = exp(d(y))dant(θ) = exp(c(θ)).

• jikaa(y) =y,f(y;θ)disebut bentuk standar (canonical, standard form)

• b(θ)sering disebut parameter natural Beberapa contoh keluarga eksponensial

Distribusi parameter natural c d

Poisson logθ −θ −logy!

Normal _σµ2 − µ2 2σ2 − 1 2 log(2πσ2) − y2 2σ2 Binomial log( π 1−π) nlog(1−π) log n y Beberapa contoh GLM:

Model Jenis responY distribusi fungsi penghubung Model linear Normal kontinu Normal identitas:g(µ) = µ Regresi Logistik proporsi binomial logit:g(µ) = log₁₋µ_µ

Regresi Poisson cacah Poisson log : g(µ) = logµ Model Gamma kontinu, positif Gamma log:g(µ) = logµ Beberapa contoh fungsi penghubung:

• identitas : g(µ) = µ

• logit: g(µ) = log₁₋µ_µ

• probit: g(µ) = Φ−1₍_µ₎_,_Φ_{distribusi kumulatif Normal standar}

• power: g(µ) =

(

µλ _jika_λ_{6= 0} log(µ) jikaλ= 0 • log: g(µ) = logµ

(46)

5.3. Regresi Logistik 43

5.3 Regresi Logistik

Pada Bagian 3.3 dipelajari analisis untuk tabel 2 × 2. Dalam tabel 2× 2 ini baik respon Y maupun variabel penjelas atau faktor X hanya terdiri atas dua je-nis kategori. Penelitian dalam bidang kesehatan maupun epidemiologi biasanya mempunyai lebih dari satu variabel penjelas atau faktorX. Untuk data penelitian semacam ini dapat digunakan regresi logistik.

5.3.1 Model dan Estimasi Parameter

MisalkanYi adalah variabel random Bernoulli untuk individui, distribusi proba-bilitasYI adalah

P(Yi =yi) =πy

i

i (1−πi)1−yi, yi = 0,1 (5.1) Setiap individuimempunyai karakteristik berupa variabelxiyang mempengaruhi

πi dalam bentuk

πi =

1

1 + exp(−(β0+β1xi))

(5.2) Fungsi seperti πi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk vari-abel independen atau faktor yang lebih dari satu, fungsi untukπi dapat diperluas menjadi πi = 1 1 +e−Z , atau πi = eZ 1 +eZ (5.3)

dengan Z = β0 +β1x1 +β1x1 +· · ·+βp adalah fungsi linear dari p variabel penjelas.

Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel indepen-den seperti halnya pada model linear sebagai berikut

log πi 1−πi

=β0+β1x1i+β2x2i+· · ·+βpxpi (5.4)

atau

logit(πi) =β0+β1x1i+β2x2i+· · ·+βpxpi (5.5) dengan x1i, x2i, . . . , xpi adalah variabel independen, faktor atau kovariat; dan

(47)

5.3. Regresi Logistik 44

Estimasi untuk β = (β0, β1, . . . , βp) dapat diperoleh dengan MLE untuk fungsi likelihood berikut ini

L(β) = n Y i=1 P(Yi =yi) = [exp(β0+β1x1i+β2x2i+· · ·+βpi)] yi 1 + exp(β0+β1x1i+β2x2i+· · ·+βpi) (5.6) Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untuk estimasiβˆ dan kesalahan standarnya SE( ˆβ).

5.3.2 Interpretasi Parameter Model

Untuk model regresi logistik sederhana

logit(πi) = β0+β1xi (5.7) dengan xi = ( 0 itdk terpapar 1 iterpapar dapat dituliskan log πi 1−πi = β0+β1xi πi 1−πi = exp [β0+β1xi] atau oddsxi = exp [β0+β1xi],

yang diinterpretasikan sebagai odds seseorang yang mempunyai karakteristik xi. Untuk orang yang terpapar (exposed), nilaixi = 1 dan odds-nya ditulis sebagai

oddsxi=1. Demikian juga untuk orang yang tidak terpapar, odds-nya ditulis

seba-gai oddsxi=0.

Sehingga odds ratio antara orang yang terpapar (xi = 1) dengan yang tidak terpapar (xi = 0) adalah OR = oddsxi=1 oddsxi=0 = e β0+β1×1 eβ0+β1×0 = eβ0+β1 eβ0 = eβ1 . (5.8)