• Tidak ada hasil yang ditemukan

Model Based Clustering Dalam Analisis Regresi Poisson Untuk Pemetaan Penyakit Menular

N/A
N/A
Protected

Academic year: 2021

Membagikan "Model Based Clustering Dalam Analisis Regresi Poisson Untuk Pemetaan Penyakit Menular"

Copied!
6
0
0

Teks penuh

(1)

Model Based Clustering Dalam Analisis Regresi Poisson

Untuk Pemetaan Penyakit Menular

I Gede Nyoman Mindra Jaya

1

, Zulhanif

2

, Bertho Tanular

3

1,2,3Departemen Statistika FMIPA Universitas Padjadjaran

Email: [email protected]

Abstrak—Karakteristik geograpis, kondisi lingkungan, fenomena sosial, perekomonomian, serta kondisi-kondisi lain yang berbeda pada setiap wilayah menjadi tantangan berat dalam mendapatkan model yang valid dan reliabel untuk dapat digunakan pada upaya memetakan angka resiko di setiap wilayah. Perbedaan yang terjadi harus dapat diakomodasi dalam pemodelan angka resiko penyakit menular. Salah satu upaya untuk mendapatkan model yang valid dan reliabel adalah membangun model pada kelompok data yang memiliki tingkat homogenitas yang tinggi. Upaya tersebut dapat dijembatani melalui penggabungan metode clustering/pengelompokkan dengan pemodelan pemetaan penyakit. Model based clustering adalah teknik analisis pengelompokkan yang memperhatikan distribusi probabilitas dari data yang memungkinkan melakukan pengelompokkan data dengan distribusi arah dan bentuk yang berbeda. Tidak seperti teknik clusteirng standar seperti K-means clustering. Teknik analisis regresi poisson adalah analisis regresi yang umumnya digunakan dalam upaya pemetaan penyakit. Melalui tenik ini dapat diprediksikan angka resiko penyakit untuk setiap lokasi. Penggabungan teknik ini diharapkan mampu memberikan model regresi yang lebih baik karena dibangun didasarkan pada data yang lebih homogen. Metode ini merupakan metode baru yang belum pernah ditulis sebelumnya. Metode ini akan diterapkan pada kasus penyakit Demam Berdarah di Kota Bandung.

Kata kunci: Model Based Clustering, Poisson Regression, Mixture Model

I. PENDAHULUAN

Pemetaan penyakit menular menjadi satu studi dalam epidemiologi yang sangat penting dan senantiasa dinanti pengembangan metodologinya untuk dapat memberikan taksiran resiko relative terbaik [1]. Permasalahan umum yang dihadapi dalam pemodelan dan penaksiran resiko relative pada penyakit menular adalah adanya ketergantungan spatial dan heteroskedastistias spatial [2][3]. Munculnya kedua struktur ini dalam data akan menyulitkan untuk mendapatkan model yang sederhana.

Karakteristik geograpis, kondisi lingkungan, fenomena sosial, perekomonomian, serta kondisi-kondisi lain yang berbeda pada setiap wilayah menjadi tantangan berat dalam mendapatkan model yang valid dan reliabel untuk dapat digunakan pada upaya memetakan angka resiko di setiap wilayah. Perbedaan yang terjadi harus dapat diakomodasi dalam pemodelan angka resiko penyakit menular.

Pemaksaan penggunaan model sederhana akan menimbulkan masalah overdispersi yaitu kasus dimana varians data cacah lebi besar dibandingkan dengan rata-rata yang mana dalam distribusi Poisson kedua parameter ini seharusnya memiliki nilai yang sama.

Model yang paling sederhana yang umumnya digunakan untuk melakukan penaksiran resiko relativeadalah Standardized Morbidity/Mortality Ratio (SMR) [4]. Metode ini memiliki banyak kelemaan diantaranya sangat sensitive terhadap overdispersi dan tidak memungkinkan memasukkan variable kovariate dalam model dimana adanya variabel kovaraite atau penjelas akan dapat memimumkan mean square error estimasi (MSE) [5].

Salah satu upaya untuk mendapatkan model yang valid dan reliabel adalah membangun model pada kelompok data yang memiliki tingkat homogenitas yang tinggi. Upaya tersebut dapat dijembatani melalui penggabungan metode clustering/pengelompokkan dengan pemodelan pemetaan penyakit. Model based clustering adalah teknik analisis pengelompokkan yang memperhatikan distribusi probabilitas dari data yang memungkinkan melakukan pengelompokkan data dengan distribusi arah dan bentuk yang berbeda. Tidak seperti teknik clusteirng standar seperti K-means clustering [6]. Teknik analisis regresi poisson adalah analisis regresi yang umumnya digunakan dalam upaya pemetaan penyakit. Melalui tenik ini dapat diprediksikan angka resiko penyakit untuk setiap lokasi [7]. Penggabungan teknik ini diharapkan mampu

(2)

memberikan model regresi yang lebih baik karena dibangun didasarkan pada data yang lebih homogen. Metode ini merupakan metode baru yang belum pernah ditulis sebelumnya. Metode ini akan diterapkan pada kasus penyakit DBD di Kota Bandung.

II. METODEPENELITIAN

A. Data Penelitian

Data yang digunakan dalam penelitian ini adalah data Demam Berdarah di Kota Bandung Tahun 2015. Data ini meliputi angka kasus DBD dan angka bebas jentik (AJB). Data ini diperoleh dari dinas kesehatan kota Bandung.

B. Model Poisson untuk data cacah

Model regresi Poisson merupakan pilihan yang tepat untuk analisis model hubungan dengan variabel dependen, , merupakan variabel cacah atau counting [7]. Pada studi pemetaan penyakit, analisis regresi Poisson digunakan untuk menaksir resiko relative penyakit untuk masing-masing lokasi. Nilai taksiran resiko relative, , ini yang kemudian dipetakan untuk memberikan visualisasi yang lebi jelas mengenai peta sebarang penyakit, khususya penyakit menular.

Model regresi Paling sederhana dengan asumsi bahwa tidak ada struktur ketergantungan spatial tanpa melibatkan variabel exogenous, dapat dimodelkan dengan Standardized Morbidity/Mortality Ration (SMR) [8].

SMR secara sederhana dapat dinyatakan sebagai rasio antara angka kasus, , terhadap harapan angka kasus, , pada lokasi yang diamati.

Distribusi peluang dari variabel acak , pada lokasi ke-idengan resiko relative dapat dinyatakan sebagai berikut:

Dengan menggunakan metode maximum likelihood (ML) dapat diperoleh taksiran resiko relative yang dinyatakan dalam SMR sebagai berikut (Mindrab et al. 2016):

Pemodelan resiko relative memberikan taksiran yang lebih presisi jika memasukkan factor-faktor yang mempengaruhi tinggi rendah angka kasus . Sehingga model SMR dapat dikembangkan dengan memasukkan informasi yang relevan ke dalam model melalui pemodelan regresi poisson dengan covariate [5]. Model umum regresi Poisson dengan p-covariate adalah sebagai berikut :

Model (3) juga dapat dituliskan dalam bentuk eksponensial sebagai berikut :

Estimasi parameter model menggunakan metode maximum likelihood dengan solusinya diperoleh melalui metode numeric dengan mengambil asumsi dan bentuk fungsi likelihoodnya adalah : Selanjutnya untuk mendapatkan solusi dari digunakan Kernel log Likelihood.

Karena tidak mengandung parameter maka tidak dilibatkan dalam Kernel Log Likelihood

(3)

Untuk mendapatkan solusi dari persamaan ini digunakan metode numerikNewton Rapson.

C. Model Based Clustering

Permasalahan klasik yang umumnya dihadapi dalam analisis regresi Poisson adalah adanya overdispersi yaitu rata-rata lebih besar dibandingkan dengan varians dari datanya. Kondisi ini disebabkan oleh adanya ketergantungan spatial dan adanya spatial heteroskedastisitas (spatial clustering) Beberapa solusi dapat digunakan untuk menanggulangi terjadinya overdispersi diantaranya adalah menggunakan pendekatan model regresi binomial negative, metode Bayesian dan model regresi spatial Geographical Weighted Regression [4]. Pada prinsipnya, dua metode pertama digunakan untuk memuluskan taksiran resiko relative yang bersifat kasar jika terjadi overdisversi.

Pada penelitian ini, dikembangkan metode alternative yaitu penggabungan metode clustering dengan metode regresi Poisson. Ide dasar dari metode ini adalah mendapatkan lokasi-lokasi yang memiliki tingkat homogenitas yang tinggi dalam suatu kluster kemudian melakukan pemodelan regresi Poisson dari kelompok yang terbentuk. Melalui metode ini akan diperoleh taksiran resiko relative yang lebih

smooth dibandingkan tanpa melakukan pengelompokkan terlebih dahulu. Metode pengklusteran yang

digunakan dalam penelitian ini adalah model based clustering. Metode ini dinilai sebagai metode yang paling baik dikarenakan penentuan ukuran kluster dilakukan secara objektif [9]

Model-based clustering mengasumsikan bahwa data dibangkitkan oleh model dari distribusi peluang campuran dengan setiap komponen menunjukkan sebuah kluster. Misalkan diberikan observasi y= (y1,…,yn), kemudian fk(yi|k) merupakan fungsi densitas observasi yi dari komponen (kluster) ke-k

dengan parameter k dan G menyatakan banyaknya komponen dalam model distribusi peluang campuran tersebut. dari suatu model peluang dan berusaha mendapatkan model yang fit dengan data. Model yang ditemukan dari data merupakan refresentasi dari suatu klaster [10].

Model-based clustering umumnya menggunakan asumsi bahwa data mengikuti sebaran normal multivariate dengan k =(k,k) dan fungsi densitasnya adalah [11]:

2 1 2| | ) 2 ( )} ( ) ( exp{ ) , | ( 1 2 1 k k i k k i k k i k p y y f              y (9)

Berbeda dengan k-Mean, model based clustering memungkinkan menghasilkan kluster dengan bentuk yang berbeda beda begantung pada rataannya k dan matrik kovariasny

k . Pendekatan mixture

kemungkinan maksimum yang umumnya digunakan dalam model based clustering dalam kerangka mendapatkan parameter clusternya. Mixture kemungkinan maksimum dapat dituliskan sebagai berikut:

,

)

|

(

)

|

,...,

;

,..,

(

1 1 1 1



 

n i G k k i k k G G M

y

f

y

L

(10)

dengan

k adalah peluang bahwa sebuah observasi masuk ke dalam komponen ke-k (0≤

k ≤0;

1

1 

G

kk ). Metode Expectation Maximization (EM) algorithm umumnya digunaian untuk mendapatkan taksiran parmeter model k.

III. HASIL DAN PEMBAHASAN

Pada Tahun 2015 total kasus Demam Berdarah (DB) yang tercatat sebanyak 3.640 kasus dengan rata-rata 121 kasus di setiap kecamatan di Kota Bandung. Angka terendah sebesar 32 kasus di Kecamatan Cinambo dan angka tertinggi sebesar 283 di Kecamatan Coblong. Angka bebas jentik (ABJ) tercatat di kota bandung sebesar 92.58%, dengan angka terendah sebesar 82.26% (Kecamatan Gede Bage) dan angka tertinggi sebesar 98.41% (Coblong). Walaupun Coblong dengan angka bebas jentik paling tinggi namun angka kasus di Kecamatan Coblong juga paling tinggi. Seharusnya kondisinya terbalik. Ini menunjukkan bahwa seorang yang terkena DB belum tentu terinfeksi di kecamatan asal namun bisa terinfeksi di kecamatan tengga karena adanya mobilitas penduduk.

(4)

Tahap awal sebelum dilakukan penaksiran resiko relave DB yaitu melakukan pegelompokkan kecamatan di Kota Bandung yang terdiri dari 30 kecamatan menggunakan metode Model Based Clustering dengan dua variabel kluster yaitu angka kasus dan angka bebas jentik

(a) BIC (b) Klasifikasi

(c) Kontur (d) Kelompok Lokasi

GAMBAR 1. KARAKTERISTIK PENKLUSTERAN DENGAN MODEL BASED CLUSTERING

Ukuran kluster yang paling tepat berdasarkan data DB Tahun 2015 dalah Tiga Kluster menurut nilai BIC terbesar (-509,1505) seperti yang bisa diperhatikan pada GAMBAR 1a dan TABEL 1. GAMBAR 1b-1c menunjukkan secara lebih jelas tiga kluster yang terbentuk sedangkan GAMBAR 1d meunjukkan kluster kecamatan di Kota Bandung yang terbagi menjadi tiga kluster. Karakteristik kluster secara jelas dapat dilihat pada Tabel berikut:

TABEL 1. KARAKTERIK KLUSTER

log,likelihood ndf BIC ICL

-235,8687 30 11 -509,1505 -509,4094

Clustering Table 1 2 3

21 6 3

Kecamtan kota Bandung berdasarkan angka kasus dan angka bebas jentik terbagi menjadi tiga kluster dengan anggota kluster masing-masing yaitu 21, 6 dan 3.

TABEL 2.DESKRIPSI KLUSTER Parameter Kluster 1 (n=21) Kluster 2 (n=6) Kluster 3 (n=3) Global (n=30) Rata-Rata Kasus 112,10 87,33 254,0 121,3 Rata-Rata ABJ 93,91 85,83 96,79 92,58 -6 2 0 -6 0 0 -5 8 0 -5 6 0 -5 4 0 -5 2 0 Number of components B IC 1 2 3 4 5 6 7 8 9 EII VII EEI VEI EVI VVI EEE EVE VEE VVE EEV VEV EVV VVV 50 100 150 200 250 85 90 95 DATA.Kasus D A T A .A B J Classification DATA.Kasus D A T A .A B J -22 -20 -18 -16 -14 -12 -10 -10 -10 -10 -8 -8 50 100 150 200 250 85 90 95

log Density Contour Plot

Gedebage Ujungberung Cinambo Bandung Kulon Andir Babakan Ciparay Bojongloa Kaler Sukajadi Cidadap Coblong Cicendo Bandung Wetan Sumurbandung Batununggal Cibeunying Kidul Regol Bandung Kidul Astanaanyar Kiaracondong Buahbatu Mandalajati Cibiru Bojongloa Kidul Cibeunying Kaler Panyileukan Antapani Lengkong Sukasari Rancasari Arcamanik

(5)

Berdasarkan TABEL 2 di atas diperoleh informasi bahwa kluster 3 adalah kluster dengan angka kasus paling tinggi dan juga angka bebas jentik paling tinggi. Sedangkan kluster dua adalah sebaliknya, merupakan kluster dengan angka kasus paling rendah begitu juga dengan angka bebas jentik. Jika dilihat secara sepintas, maka angka bebas jentik tidak berhubungan negative dengan angka kasus, dimana secara teori seharusnya semakin tinggi angka bebas jentik maka angka kasus semakin rendah. Namun demikian, model secara umum tidak dapat dilihat dari hanya nilai rata-rata semata. Pola hubungan ini harus dicermati dari model regresi Poisson yang disajikan pada TABEL 3.

TABEL 3.PARAMETER REGRESI POISSON UNTUK SETIAP KLUSTER DAN SECARA GLOBAL Parameter Kluster 1 (n=21) Kluster 2 (n=6) Kluster 3 (n=3) Global (n=30) Intersep 3,09975** 11,09084** 5,02198** -0,631858 Slop -0,03307** -0,12972** -0,05186** 0,006791

**) Siginifikan pada level alpha 5%

Berdasarkan TABEL 3 di atas, diperoleh informasi bahwa secara local (kluster) setiap kluster (1-3) menginformasikan bahwa ada hubugan negative antara angka bebas jentik dengan angka kasus. Jika angka bebas jentik semakin tinggi maka angka kasus juga semakin rendah. Hubungan kedua variabel ini juga signifikan pada level signifikansi 5%. Berbeda halnya untuk model regresi global. Hasil yang diperoleh berbanding terbaik dimana angka bebas jentik yang semakin tinggi menyebabkan angka kasus semakin tinggi. Hal ini dikarenakan adanya akibat dari overdispersi dalam data.

Tahap selanjutnya adalah melakukan estimasi dari resiko relative berdasaran model yang telah diperoleh. Estimasi didasarkan pada tiga metode yaitu metode SMR, Model Regresi Poisson dengan kovariate ABJ melalui pengklusteran (RRGroup) dan tanpa pengklusteran (RRGlobal).

(a) Boxplot Resiko Relative

(b) Pemetaan Resiko Relative

GAMBAR2.POLA PENYEBARAN PENYAKIT DB BERDASARKAN SMR, RRGroupdanRRGLobal

Hasil yang jelas tampak sangat berbeda untuk Resiko Relatif dari ketiga metode. SMR memberikan taksiran resiko relative dengan variansi yang sangat besar sedangkan Model Regresi Poisson dengan kovariate ABJ tanpa pengklusteran (RRGlobal) memberikan taksiran resiko relative yang sangat rendah. Rendahnya variansi dari resiko relative untuk setiap kecamatan di Kota Bandung melalui metode regresi Poisson dikarenakan adanya kovaraite angka bebas jentik yang dimasukkan ke dalam model sehingga memperkecil variasi resiko relative antar lokasi. Namun kondisi ini secara fenomena tidaklah wajar melihat

SMR RRGroup RRGlobal 0 .5 1 .0 1 .5 2 .0 SMR RRGroup RRGlobal 0.6 0.8 1.0 1.2 1.4 1.6 1.8

(6)

nilai angka kasus yang sangat bervariasi dari satu lokasi dengan lokasi yang lain ( 32 – 283). Selain alas an tersebut, model yang diguakan untuk menaksir resiko relative juga keliru seperti yag disampaikan bahwa seharusnya koefisien hubungan antara angka bebas jentik dan angka kasus DB bertanda negative. Namun pada model Global bertanda positif.

Model yang paling logis dari hasil penelitian ini adala model Regresi Poisson dengan kovariate ABJ melalui pengklusteran (RRGroup). Model ini menujukkan adanya pemulusan dari taksiran resiko relative yang diperoleh dari SMR dengan nilai variansi antara lokasi tidak terlalu besar dan juga tidak terlalu rendah seperti pada model Global.

IV. SIMPULAN DAN SARAN

Peneting memperhatikan adanya heterogenitas spatial dalam data ketika menaksir resiko relative penyakit menular. Sehingga dalam pemodelan dan penaksiran resiko relative diperlukan suatu metode alternative untuk menanggulangi kasus overdispersi. Salah satu metode yang dapat digunakan adalah menggabungkan teknik pengklusteran dengan model Poisson.

Penelitian ini masih memerlukan serangkaian tahapan penyempuranaan yaitu melakukan kajian simulasi unutk membuktikan seara empiris model ini memberikan hasil taksiran yang memilki tingkat presisi yang lebih tinggi dibandingkan model alternative lain seperti metode Bayeisan taupun GWR.

DAFTAR PUSTAKA

[1] Lawson AB. “Statistical methods methods in spatial epidemiology”. John Wiley & Sons, England Chris F and Adrian E. 2006 [2] Lawson AB. “Bayesian disease mapping, hierarchical modeling in spatial epidemiology 2nd ed.” CRC Press Taylor & Francis

Group, USA. 2013

[3] Anselin L, Lozano N, Koschinsky, J “Rate transformations and smoothing”. University of Illinois, Urbana. 2006

[4] Mindra Jaya, I. G. et al. “Bayesian Spatial Modeling and Mapping of Dengue Fever: A Case Study of Dengue Fever in The City of Bandung, Indonesia”. International Journal of Applied Mathematics and Statistics, 2016, 54 (3), 94-103

[5] Wakefiled, J. “Disease mapping and spatial regression with count data”. Biostatistics. 2007.pp 158–183

[6] Mindra J, et. al. “Model Based Clustering Versus Traditional Clustering Methods: A Comparison Based On Internal and External Validation Measure”. Proceeding International Conference of Mathematic‟s Statistics Application. Bali 19-21 November. 2012

[7] Shaddick, G., &Zidek, J. V. “Spatio-Temporal Methods in Environmental Epidemiology”. New York: CRC Press Taylor & Francis Group. 2016

[8] Mindrab Jaya, I. G., Nurani R, B. et.a “Modeling and mapping of infectious diseases: a core research topic for the next hundred

years”. Submit to Regional Risearch Science. Springer. 2016

[9] Mindra J, et. al. “Analysis of The Spatial Distribution of Dengue Hemorrhagic Fever by Means of Model Based Clustering: The Case of Bogor”, Indonesia.The 11th Indonesian Regional Science Association (IRSA) International Conference was held in Banjarmasin, Kalimantan on 9-11 July 2012

[10] Raftery, “MCLUST Version 3 for R: Normal Mixture Modeling and Model-Based Clustering”. Technical Report. 2006. No. 504. Department of Statistics University of Washington

Gambar

GAMBAR 1. KARAKTERISTIK PENKLUSTERAN DENGAN MODEL BASED CLUSTERING
TABEL 3.PARAMETER REGRESI POISSON UNTUK SETIAP KLUSTER DAN SECARA GLOBAL

Referensi

Dokumen terkait

Analisis variansi dengan variabel bebas bersifat kualitatif, dapat diselesaikan melalui pendekatan regresi yang variabel bebasnya bersifat kuantitatif, dengan menambahkan variabel

MODEL REGRESI POISSON TERGENERALISASI UNTUK JUMLAH. KEMATIAN IBU HAMIL DAN MELAHIRKAN

Analisis variansi dengan variabel bebas bersifat kualitatif, dapat diselesaikan melalui pendekatan regresi yang variabel bebasnya bersifat kuantitatif, dengan menambahkan variabel

Dari model regresi poisson tergeneralisasi yang diperoleh dapat dilihat bahwa faktor yang mempengaruhi jumlah angka kematian bayi di Jawa Tengah adalah jumlah

Analisis variansi dengan variabel bebas bersifat kualitatif, dapat diselesaikan melalui pendekatan regresi yang variabel bebasnya bersifat kuantitatif, dengan menambahkan variabel

Pemilihan model terbaik dilakukan untuk mendapatkan model terbaik dari kedua model regresi yang dibandingkan untuk mengatasi kasus overdispersi pada model regresi

Pola hubungan terbaik dalam analisis regresi Binomial Negatif untuk mengatasi overdispersion regresi Poisson Kasus Demam Berdarah Dengue pada Balita Menurut Kabupaten/Kota di

Variabel-variabel yang digunakan dinyatakan sebagai berikut y = Jumlah kasus DBD x1= Presentase rumah tangga yang memiliki rumah tidak bebas jentik nyamuk Aedes x2 = Presentase