Abstrak—Penyakit Diabetes secara perlahan dan diam-diam menimbulkan masalah yang dikenal dengan the silent killer. Penyakit Diabetes disebabkan oleh kerusakan pada hormon insulin Tipe penyakit Diabetes ada tiga jenis, yaitu Diabetes tipe I (disebabkan oleh kurangnya produksi insulin), tipe II (disebabkan oleh produksi hormon insulin yang berlebihan), dan Gestasional (hiperglekemia yang terjadi selama kehamilan). Metode CHAID (Chi Squared Automatic Interaction Detection) dan CART (Classification and Regression Tree) merupakan metode yang digunakan dalam pengklasifikasian. CHAID merupakan metode yang digunakan pada skala data nominal atau ordinal (non metrik), CART dapat digunakan pada skala data kontinu maupun rasio. Data yang digunakan pada penelitian ini adalah data skunder dari penderita Diabetes Melitus tipe II dan bukan Tipe II. Variabel respon yaitu penderita Diabetes tipe II dan bukan tipe II, dengan variabel prediktor riwayat keluarga, usia, jenis kelamin, obesitas, pola makan, dan aktivitas fisik (olahraga). Klasifikasi penderita Diabetes Melitus menurut metode CHAID adalah faktor riwayat keluarga, obesitas, dan jenis kelamin, sedangkan pada CART faktor penderita Diabetes Melitus yaitu riwayat keluarga, obesitas, usia, dan jenis kelamin.
Kata Kunci—CHAID, CART, Diabetes Melitus
I. PENDAHULUAN
ENYAKIT Diabetes Melitus merupakan salah satu penyakit tidak menular (PTM) utama dan jumlah penderitanya mengalami peningkatan. Diabetes Melitus (DM) disebut juga “the silent killer” karena secara perlahan dan diam-diam menimbulkan masalah yang serius dan menyebab-kan kematian. Indonesia menempati urutan ke-4 terbesar jumlah penderita penyakit ini dan terus meningkat tajam setiap tahunnya [1]. Hal ini disebabkan minimnya pengetahuan masyarakat mengenai gejala-gejalanya. Jenis diabetes menurut ada tiga jenis Diabetes Melitus yaitu Diabetes tipe I, Diabetes tipe II, dan Diabetes Gastasional [2].
Beberapa metode yang digunakan untuk menggolongkan Diabetes Melitus berdasarkan faktor yang mempengaruhi CHAID (Chi Squared Automatic Interaction Detection Analysis) dan Classification and Regression Trees (CART). Kedua metode ini merupakan metode yang bisa diterapkan untuk data dalam jumlah besar, variabel yang sangat banyak dan melalui prosedur pemilah biner [3]. Pada penelitian ini mengklasifikasikan penderita Diabetes Melitus yang dilakukan degan menerapkan metode CHAID dan CART. Data yang digunakan dalam penelitian data sekunder mengenai DM yang berasal dari RSUD Dr. M.M Dunda Limboto Kabupaten
Gorontalo. Mengingat adanya kultur/budaya pernikaan sedarah di provinsi Gorontalo, tingkat pendidikan yang rendah, kondisi ekonomi yang rendah, dan minimnya sarana kesehatan seperti rumah sakit sehingga angka Diabetes Melitus di provinsi tersebut meningkat setiap tahunnya [4]. Berdasarkan latar belakang yang telah dipaparkan penelitian ini membahas mengenai klasifikasi perdasarkan faktor yang mempengaruhi penderita Diabetes Melitus dengan metode CHAID dan CART serta membandingkan hasil dari metode ini.
II. TINJAUAN PUSTAKA A. Diabetes Melitus
Diabetes melitus atau diabetes adalah penyakit kronis, yang terjadi ketika pankreas tidak menghasilkan insulin yang cukup, atau ketika tubuh tidak dapat secara efektif menggunakan insulin yang dihasilkan. Sehingga menyebabkan peningkatan konsentrasi glukosa dalam darah (hiperglikemia). Beberapa jenis diabetes yang terjadi [2].
1. Diabetes tipe 1 (sebelumnya dikenal sebagai diabetes insulin-dependent atau anak-onset) ditandai oleh kurangnya produksi insulin.
2. Diabetes tipe 2 (sebelumnya disebut non-insulin-dependent atau diabetes onset dewasa) disebabkan oleh penggunaan efektif tubuh insulin. Hal ini sering terjadi karena kelebihan berat badan dan kurangnya aktivitas fisik.
3. Gestational diabetes adalah hiperglikemia yang ditemukan pertama kali selama kehamilan.
Ruang lingkup diabetes dibagi atas dua faktor, yaitu
1. Faktor risiko yang tidak dapat dimodifikasi (unmodiable risk factors), terdiri dari
a. Ras dan Etnik b. Umur
Kategori umur dalam ini hal ini adalah semua masyrakat yang berumur 20 tahun ke atas.
c. Riwayat keluarga dengan diabetes melitus.
d. Riwayat melahirkan bayi dengan berat (BB) lahir > 4.000 gram atau riwayat riwayat pernah menderita diabetes gestasional/kehamilan dengan diabetes melitus.
e. Riwayat lahir dengan berat badan lahir rendah (BBLR) (< 2.500 gram)
2. Faktor risiko yang dapat dimodifikasi (modifiable risk factors)
a. Berat Badan Lebih
Klasifikasi Penderita Diabetes Melitus dengan Metode CHAID
(Chi-Squared Automatic Interaction Detection) dan CART
(Classification and Regression Tree)
Ria Dhea Layla N.K (1), Brodjol Sutijo Suprih U. (2), dan Bambang Widjanarko Otok (3)
(1)
Mahasiswa (2,3) Dosen Jurusan Statistika
(1,2,3)
Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail: (1) [email protected] (2) [email protected] (3) [email protected]
Berat badan lebih atau sering disebut dengan obesitas didefinisikan sebagai akumulasi lemak yang berlebih yang memiiki resiko bagi kesehatan. Ukuran seseorang mengalami obesitas adalah indeks masa tubuh (IMT). Berikut klasifikasi berdasarkan IMT.
Tabel 1. Klasifikasi Indeks Massa Tubuh (IMT)
Klasifikasi IMT Kg/m2
Kurus Kekurangan berat badan tingkat berat < 17,0 Kekurangan berat badan tingkat ringan 17,0 – 18,4
Normal 18,5 – 25,0
Kegemukan Kelebihan berat badan tingkat ringan > 25,0 – 27,0 Kelebihan berat badan tingkat ringan > 27,0
b. Obesitas Abdominal/Sentral (Lingkar perut untuk pria > 90 cm, wanita > 80 cm).
c. Kurangnya Aktivitas Fisik
d. Diet Tak Seimbang, dengan Tinggi Gula dan Rendah Serat
e. Merokok
B. Chi Squared Automatic Interaction Detection Analysis
(CHAID)
CHAID bagian dari metode terdahulu yang dikenal dengan Automatic Interaction Detector (AID), dan menggunakan statistik chi square sebagai alat utamanya. Pada jurnal [5] mengutip dari Galagher CHAID secara keseluruhan bekerja untuk menduga sebuah variabel tunggal, disebut sebagai variabel dependen, yang didasarkan pada sejumlah variabel-variabel independen.
Beberapa definisi CHAID di atas menunjukkan bahwa CHAID adalah sebuah metode untuk mengklasifikasi data kategori dimana tujuan dari prosedurnya adalah untuk membagi rangkaian data menjadi subgrup-subgrup berdasarkan pada variabel dependennya [6]. Analisis CHAID dapat diringkas menjadi 3 kunci, yaitu:
a. Uji signifikan chi square, uji ini dilakukan untuk mengidentifikasi variabel independen yang paling signifikan dalam data.
b. Koreksi Bonferroni.
c. Sebuah algoritma yang digunakan untuk menggabungkan kategori-kategori variabel.
1. Variabel-Variabel dalam Analisis CHAID
Mengutip [5] Gallagher menunjukkan bahwa CHAID akan membedakan variabel-variabel independennya menjadi tiga bentuk berbeda, yaitu :
a. Monotonik: untuk variabel yang kategorinya mengikuti urutan aslinya (data ordinal). Contohnya usia dan pendapatan.
(1)
b. Bebas: untuk kategori variabel yang memilikiskala data nominal. Contohnya pekerjaan, etnik, dan area geografis.
(2)
c. Floating: Kategori-kategori pada variabel ini akan diperlakukan seperti monotonik kecuali untuk
kategori missing value, yang dapat berkombinasi dengan kategori manapun
(3) dimana
M : penggali Bonferroni c : kategori variabel dependen r : kategori variabel independen 2. Bagian-Bagian Utama dari Analisis CHAID
a. Uji Chi – square (Tabel Kontingensi)
Tabel kontingensi adalah analisis data untuk melihat hubungan antara beberapa variabel dalam satu tabel. Variabel yang dianalisis merupakan variabel kategorikal, yang memiliki skala nominal atau ordinal. Hipotesis:
H0: Tidak terdapat hubungan antar dua variabel
H1: Terdapat hubungan antar dua variabel
Statistik uji yang digunakan adalah Chi-Square sebagai berikut [7].
(4)
dengan derajat bebas yaitu , dimana
: nilai observasi baris ke-i dan kolom ke-j : frekuensi harapan baris ke-i dan kolom ke-j
untuk menghitung nilai frekuensi harapan masing-masing sel menggunakan rumus sebagai berikut:
(5)
dimana, ri. : baris ke-i
c.j : kolom ke-j
n : pengamatan Daerah penolakan jika
Statistik chi square digunakan untuk menen-tukan variabel independen mana yang paling signifikan untuk membagi atau membedakan kategori-kategori dalam variabel dependen.
b. Bonferroni Correction adalah proses koreksi yang digunakan ketika beberapa uji statistik untuk kebebasan atau ketidakbebasan dilakukan secara bersamaan [8]. Bonferroni Correction dalam CHAID digunakan untuk mengkoreksi split yang terbentuk [9].
(6)
dimana,
M : penggali Bonferroni : kesalahan tipe I
c. Diagram pohon CHAID mengikuti aturan “dari atas ke bawah” (Top – down stopping rule), dimana diagram pohon disusun mulai dari kelompok induk, berlanjut di bawahnya sub kelompok yang berturut-turut dari hasil pembagian kelompok induk berdasarkan kriteria tertentu [10].
C. Classification and Regression Trees (CART)
CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu [11]. CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik, dan menghasilkan
pohon regresi jika variabel responnya kontinu. Tujuan utama CART adalah mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Metode CART merupakan metode yang bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilahan biner.
Langkah-langkah penerapan Algoritma CART adalah sebagai berikut
1. Pembentukan pohon klasifikasi
Proses pembentukan pohon klasifikasi terdiri atas 3 tahapan, yaitu
a. Pemilihan Pemilah (Classifier)
Pemilihan pemilah tergantung pada jenis pohon atau tergantung pada jenis variabel responnya. Mengukur tingkat keheterogenan suatu kelas dari suatu simpul tertentu dalam pohon klasifikasi disebut impurity measure i (t). Ukuran ini akan membantu menemukan fungsi pemilah yang optimal. Fungsi keheterogenan i(t) adalah sebagai berikut
i. Indeks Gini : (7) ii. Indeks Informasi :
(8) iii. Indeks Twoing:
(9) iv. Indeks Entropi : (10)
p(j|t) adalah peluang j pada simpul t. Goodness of Split didefinisikan sebagai penurunan kehete-rogenan.
(11) Pemilah yang menghasilkan nilai
i s t
( , )
lebih tinggi merupakan pemilah yang lebih baik dan , merupakan partisi dari simpul t menjadi dua himpunan bagian saling lepas dimana dan adalah proporsi masing-masing peluang simpul. Karena maka nilai merepresentasikan perubahan dari keheterogenan dalam simpul t yang semata-mata disebabkan oleh pemilah s. Jika simpul yang diperoleh merupakan kelas yang tidak homogen, prosedur yang sama diulangi sampai pohon klasifikasi menjadi suatu konfigurasi tertentu, dan memenuhi(12)
b. Penentuan Simpul Terminal
Suatu simpul t akan menjadi simpul terminal atau tidak, akan dipilah kembali bila pada simpul t tidak terdapat penurunan keheterogenan dengan adanya batasan minimum n seperti hanya terdapat satu pengamatan pada tiap simpul anak.
c. Penandaan Label Kelas
Penandaan label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak, yaitu
(13) dengan adalah proporsi kelas j pada simpul t, adalah jumlah pengamatan kelas j pada simpul t dan adalah jumlah pengamatan pada simpul t. Label kelas simpul terminal t adalah yang memberi nilai dugaan kesalahan pengklasifikasian simpul t terbesar.
Proses pembentukan pohon klasifikasi berhenti saat terdapat hanya satu pengamatan dalam tiap tiap simpul anak atau adanya batasan minimum n, semua peng-amatan dalam tiap simpul anak identik, dan adanya batasan jumlah level/kedalaman pohon maksimal.
2. Pemangkasan pohon klasifikasi
Pemangkasan dilakukan dengan jalan memangkas bagian pohon yang kurang penting sehingga didapatkan pohon optimal. Ukuran pemangkasan yang digunakan untuk memperoleh ukuran pohon yang layak adalah Cost complexity minimum [3]. Sub pohon dari pohon terbesar Tmax (T < Tmax) ukuran cost complexity yaitu
(10)
dimana
R(T)= Resubtitusion Estimate (Proporsi kesalahan pada sub pohon)
= kompleksitas parameter (complexity parameter) = ukuran banyaknya simpul terminal pohon T
merupakan kombinasi linear biaya dan kompleksitas pohon yang dibentuk dengan menambahkan cost penalty bagi kompleksitas terhadap biaya kesalahan klasifikasi pohon. Cost complexity prunning menentukan suatu pohon bagian T(α) yang meminimumkan pada seluruh pohon bagian. Atau untuk setiap nilai α, dicari pohon bagian T() < Tmax yang meminimumkan yaitu
(11)
Jika R(T) digunakan sebagai kriteria penentuan pohon optimal maka akan cenderung pohon terbesar adalah T1, sebab semakin besar pohon, maka semakin kecil
nilai R(T) nya.
3. Penentuan Pohon Klasifikasi Optimal
Pohon klasifikasi yang berukuran besar memberikan nilai penduga pengganti paling kecil, sehingga pohon ini cenderung dipilih untuk menduga nilai respon. Ukuran pohon yang besar akan menyebabkan nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung kompleks, sehingga perlu dipilih pohon optimal yang berukuran sederhana tetapi memberikan nilai penduga pengganti cukup kecil.
III. METODOLOGI PENELITIAN A. Sumber Data
Data yang digunakan dalam penelitian ini merupakan data skunder yang berasal dari data pasien rawat inap penderita DM di RSUD Kabupaten Gorontalo tahun 2011.
B. Identifikasi Variabel
Tabel 2. Variabel Penelitian
No Variabel Skala Keterangan
1 Status (Y) Nominal 0: Bukan penderita DM tipe II 1: Penderita DM tipe II
2 Riwayat
Keluarga (X1)
Nominal
0: Tidak memiliki keturunan diabetes
1: Memiliki keturunan diabetes
3 Umur (X2) Ratio
4 Jenis kelamin
(X3) Nominal
0: jenis kelamin laki-laki 1: perempuan
5 Obesitas (X4) Nominal
0: tidak menderita obesitas 1: menderita obesitas 6 Pola makan
(X5) Nominal
0: pola diet untuk mencegah diabetes
1: tidak memenuhi kriteria sehat
7 Olah raga (X6) Nominal
Olahraga teratur 3-4 kali/minggu, setidaknya 20 sampai 30 menit (misalnya jalan kaki, senam) [5]. 0: aktif berolahraga
1: kurang aktif berolahraga
C. Metode Analisis Data
1. Analisis CHAID menggunakan langkah-langkah sebagai berikut.
a. Uji signifikan chi square pada tiap varabel independen
b. Koreksi Bonfferoni c. Pohon klasifikasi CHAID
2. Analisis CART menggunakan langkah-langkah sebagai berikut
a. Kombinasi yang digunakan data learning dan data testing, yaitu (95% : 5%), (90% : 10%), (85% : 15%), (80% : 20%), dan (75% : 25%).
b. Pembentukan (growing) pohon klasifikasi maksimal, c. Pemangkasan pohon klasifikasi yang paling kecil dengan kriteria kompleksitas kesalahan (cost complexity) yang minimum
d. Memilih pohon terbaik
IV. PEMBAHASAN
H
ASIL penelitian yang dilakukan beserta analisisnya adalah sebagai berikut.A. Statistika Deskriptif
Menurut status penderita Diabetes Melitus. Penderita pasien tipe II merupakan penderita paling banyak yaitu 516 orang. Penderita yang memiliki riwayat keluarga menderita DM, yaitu 468 penderita. Usia yang paling banyak menderita Diabetes Melitus yaitu usia 43 sampai 64 tahun yaitu 368 pasien. Penderita Diabetes Melitus yang paling banyak adalah kelamin perempuan, yaitu 307 penderita. Penderita Diabetes Melitus paling banyak menderita obesitas atau kelebihan berat badan yaitu 487 orang. Penderita dengan pola diet lebih banyak menderita Diabetes Melitus tipe II yaitu 440 penderita. Aktif fisik yaitu berolahraga lebih banyak menderita DM yaitu 456 pasien.
B. Analisis CHAID (Chisquare Squared Automatic Interaction Detection)
Penentuan Parent Node I
Variabel independen yang paling signifikan memiliki nilai statistik chi-squared yang paling besar.
Tabel 3 Nilai Chi-squared Variabel yang Signifikan Parent Node I
Variabel Nilai P value Keputusan
Riwayat 242,921 0,000 Tolak H0
Usia 1,936 0,380 Gagal Tolak H0
Jenis Kelamin 3,732 0,053 Tolak H0
Obesitas 98,381 0,000 Tolak H0
Pola Makan 53,561 0,000 Tolak H0
Aktifitas Fisik 64,128 0,000 Tolak H0
Variabel Riwayat variabel yang memiliki nilai
terbesar yaitu 242,921, oleh sebab itu variabel tersebut merupakan parent node I.
Penentuan Parent Node II
Penentuan Node 2 pada Kategori Tidak Memiliki Keturunan DM (0)
Tabel 4. Nilai Chi squred Variabel Independen yang Signifikan (II) Variabel Nilai P value Keputusan
Usia 1,059 0,589 Gagal Tolak H0
Jenis Kelamin 0,456 0,499 Gagal Tolak H0
Obesitas 17,502 0,000 Tolak H0
Pola Makan 14,107 0,000 Tolak H0
Aktifitas Fisik 15,587 0,000 Tolak H0
Variabel obesitas memiliki nilai terbesar dibandingkan dengan variabel lain. Oleh karena itu variabel obesitas dapat menjadi parent node II.
Penentuan Parent Node III
a. Penentuan Node 3 pada Kategori Tidak Menderita Obesitas (1)
Tabel 5. Penentuan Node 3 pada Kategori Menderita Obesitas (1) Variabel Nilai P value Keputusan
Usia 2,866 0,239 Gagal Tolak H0
Jenis Kelamin 1,421 0,233 Gagal Tolak H0
Pola Makan 0,13 0,908 Gagal Tolak H0
Aktifitas Fisik 0,13 0,908 Gagal Tolak H0
Variabel usia jenis kelamin, pola makan, dan aktifitas fisik sudah homogen dan tidak perlu dilakukan pemilahan.
b. Penentuan Node 4 pada Kategori Menderita Obesitas (0)
Tabel 6 Penentuan Node 4 pada Kategori Menderita Obesitas (0) Variabel Nilai P value Keputusan
Usia 1,975 0,372 Gagal Tolak H0
Jenis Kelamin 12,000 0,001 Tolak H0
Pola Makan 0,121 0,728 Gagal Tolak H0
Variabel jenis kelamin simpul induk ke-3. Variabel aktifitas fisik tidak memiliki anggota pada pada status penderita dengan variabel obesitas (kategori tidak menderita obesitas).
c. Penentuan Node 5 pada Kategori Jenis Kelamin (1)
Tabel 7. Penentuan Node 5 pada Kategori Jenis Kelamin (1) Variabel Nilai P value Keputusan
Usia 1,067 0,587 Gagal Tolak H0
Jenis Kelamin 1,059 0,303 Gagal Tolak H0
Variabel usia dan jenis kelamin sudah homogen sehingga tidak dapat dipilah lagi. Oleh sebab itu dilakukan proses pengehentian.
d. Penentuan Node 6 pada Kategori Jenis Kelamin (0) Hasil penentuan dari node 6 pada kategori tidak memiliki riwayat keluarga menderita Diabetes Melitus, tidak menderita obesitas, dan jenis kelamin laki-laki terhadap status penderita yaitu variabel independen jenis kelamin kategori 0 tidak memiliki anggota pada variabel status penderita kategori DM II. Sehingga sudah tidak dapat dilakukan pemilihan lagi atau proses berhenti.
Diagram Pohon CHAID
Riwayat keluarga pasien merupakan variabel independen yang paling signifikan, dimana variabel tersebut merupakan parent node I. Variabel Obesitas merupakan parent node II dan variabel jenis kelamin merupakan parent node III. Tahap pemisahan, variabel yang mempunyai asosiasi paling kuat adalah Riwayat Keluarga, Obesitas, dan Jenis Kelamin
Koreksi Bonferroni
Tabel 8. Nilai Koreksi Bonferroni Variabel Bonferroni Correction
Riwayat 0,1
Obesitas 0,1
Jenis Kelamin 0,1
Tabel 8 menunjukkan variabel riwayat, obesitas, dan jenis kelamin memiliki nilai bonferroni correction yang sama yaitu 0,1. Sehingga split dalam analisis CHAID telah sesuai.
Tabel 9. Ketepatan Klasifikasi Analisis CHAID
Observasi Prediksi Terkoreksi (%) Persen
Selain DM II DM II
Selain DM II 18 26 40,9
DM II 0 516 100
Total Terkoreksi 96,8
Tabel 9 menunjukkan bahwa ketepatan klasifikasi pada CHAID sebesar 96,8%, artinya model pohon yang telah terbentuk memiliki keakuratan hasil prediksi sebesar 96,8%. C. Analisis CART (Classification and Regression Trees)
Data learning digunakan untuk permodelan sedangkan data testing digunakan untuk validasi model.
No
Kombinasi Data (%)
Ketepatan Klasifikasi (%)
Learning Testing Learning Testing
1 95 5 91,50 89,3
2 90 10 91,30 92,90
3 85 15 91,80 89,30
4 80 20 91,30 92,00
5 75 25 91,90 90,00
Kombinasi data learning dan testing tertinggi dicapai data learning 90% dan testing 10%. Sehingga kombinasi data learning dan testing inilah yang digunakan pada analisis selanjutnya
Pohon Klasifikasi Maksimal
Pohon klasifikasi maksimal adalah pohon klasifikasi dengan jumlah simpul terminal terbanyak. Metode pemilih pada penelitian ini menggunakan Indeks Gini. Pemilah pertama terjadi pada variabel Riwayat.
Gambar 2. Pohon Klasifikasi Maksimal CART
Variabel prediktor yang masuk dalam klasifikasi pohon maksimal yang terbentuk adalah varabel Riwayat, Usia, Jenis Kelamin, dan Obesitas. Variabel Riwayat merupakan pemilah yang memiliki peranan utama dalam pembentukan pohon maksimal dan merupakan variabel yang sangat dominan dalam pengelompokan.
Tabel 11. Skor Variabel Prediktor dalam Pohon Klaifikasi Maksimal
Variabel Skor Riwayat 100% Aktivitas Fisik 36.595% Pola Makan 36.595% Obesitas 36.595% Umur 9.316% Jenis Kelamin 3.096%
Tabel 10. Perbandingan Ketepatan Klasifikasi Antar Kombinasi Data
Pemangkasan Pohon Klasifikasi Maksimal (Pruning) Pemangkasan dilakukan berdasarkan aturan cost complexty minimum dan menggunakan penduga sampel uji (test sample estimate).
Gambar 3. Pemangkasan Pohon Maksimal (Prunning)
Pohon klasifikasi maksimal menghasilkan penduga pengganti (resubstitution relative cost) yang kecil yaitu sebesar 0,056 dengan biaya kesalahan sebesar (relative cost) 0,077 0,037 atau antara 0,114-0,04. Nilai relative cost pada pohon maksimal (warna merah) memiliki nilai yang sama dengan nilai relative cost pada pohon optimal (warna hijau). Sehingga sudah tidak perlu dilakukan pemangkasan.
Pohon Klasifikasi
Pohon klasifikasi optimal diperoleh melalui langkah pemangkasan yang telah dilakukan sebelumnya. Karena nilai relative cost pada pohon maksimal memiliki nilai yang sama dengan nilai relative cost pada pohon optimal maka tidak perlu pemangkasan. Sehingga klasifikasi pohon maksimal yang digunakan dalam pengklasifikasian. Simpul terminal yang terbentuk adalah 9 simpul terminal, sebanyak 5 simpul terminal diprediksi sebagai kategori bukan penderita DM II dan 4 simpul terminal diprediksi sebagai kategori penderita DM tipe II
Tabel 12. Ketepatan Klasifikasi Data Learning Kelas Aktual Prediksi Kelas Ketepatan Klasifikasi
(%)
0 1
0 40 0 40
1 26 438 464
Ketepatan Klasifikasi Keseluruhan 94,8%
Pohon klasifikasi yang terbentuk mampu memprediksi dengan tepat pengamatan sebesar 94,8%. Penderita bukan DM tipe II yang salah diklasifikasikan ke dalam kelompok penderita DM II yaitu 0 pengamatan, atau tidak ada penderita bukan DM tipe II yang salah diklasifikasikan ke dalam kelompok penderita DM tipe II. Sedangkan, 26 penderita DM tipe II yang salah diklasifikasikan ke dalam kelompok penderita bukan DM tipe II.
Validasi Pohon Klasifikasi
Ketepatan pohon klasifikasi sebesar 94,8%, Validasi dilakukan dengan memasukkan data testing sebanyak 56 data ke dalam model pohon klasifikasi yang terbentuk sebelumnya dari data learning. Data testing yang digunakan adalah 10%
Tabel 13. Ketepatan Klasifikasi Data Testing Kelas
Aktual
Prediksi Kelas Ketepatan Klasifikasi (%) 0 1 0 4 0 100 1 4 48 92,3 Ketepatan Klasifikasi Keseluruhan 92,9
Tabel 13 menunjukkan bahwa sebanyak ketepatan klasifikasi pohon memiliki ketepatan klasifikasi sebesar 92,9%, artinya model pohon yang telah terbentuk memiliki keakuratan hasil prediksi sebesar 92,9%.
V. KESIMPULAN DAN SARAN
Faktor yang mempengaruhi penderita Diabetes Melitus dengan pendekatan metode CHAID yaitu variabel riwayat keluarga, obesitas, dan jenis kelamin. Faktor yang mempenga-ruhi penderita Diabetes Melitus dengan menggunakan CART yaitu riwayat keluarga, obesitas usia, dan jenis kelamin. Pada penelitian selanjutnya sebaiknya melakukan konsultasi dengan dokter ahli untuk melakukan riset ulang melalui survei terbuka kepada pasien yang menderita Diabetes Melitus. Guna memperoleh variabel-variabel prediktor baru sebagai faktor resiko Diabetes Melitus.
DAFTAR PUSTAKA
[1] Dinas Kesehatan. (2008). [Online]. Avaible: (http://www.depkes. go.id /downloads/ BULETIN%20PTM.pdf, diakses tanggal 8 Maret 2013) [2] WHO (World Health Organitation). 2012. [Online]. Avaible:
(http://www.who.int/ ,diakses tanggal 9 Oktober 2012)
[3] Lewis, M.D dan Roger, J. (2000). An Introduction to Classification and Regression Tree (CART) Analysis. Presented at the 2000 Anual Meeting of Society For Academy Emergency Medicine in San Fransisco, California [Online]. Avaible:
(http://www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&c d=1&cad=rja&ved=0CC8QFjAA&url=hkdiakses tanggal 4 Maret 2013)
[4] Kompas. (2001). [Online] Avaible:
(http://kesehatan.kompasiana.com/seksologi/2011/08/08/rendahnya-
tingkat-pendidikan-dan-pengetahuan-seks-mempengaruhi-meningkatnya-kasus-inses-384853.html,diakses tanggal 27 Mei 2013) [5] Khunto, Yohanes S. dan Hasana, Siti N. (2006). Analisis Chaid Sebagai
Alat Bantu Statistika Untuk Segmentasi Pasar (Studi Kasus Pada Koperasi Syari’ah Al-Hidayah). [Online]. Avaible:
(http://fportfolio.petra.ac.id/user_files/05-011/MAR06010205.pdf, diakses tanggal 20 Maret 2013)
[6] Lehmann, T. dan Eherler, D. (2001). Responder Profiling with CHAID and Dependency Analysis. California. [Online]. Avaible:
(www.informatik.uni-freiburg.de/~ml/
ecmlpkdd/WSProceedings/w10/lehmann.pdf., diakses tanggal 21 Maret 2013)
[7] Agresti, A.(2007). An Introduction to Categorical Data Analysis second edition. New Jersey : Jon Wiley & Sons, Inc
[8] Sharp, A., J. Romaniuk dan S. Cierpicki. (2002). The Performance Of Segmentation Variables: A Comparative Study. [Online] Avaible: (http://130.195.95.71:8081/www/ANZMAC1998/Cd_rom/Sharp222.p df., diakses tanggal 21Maret 2013
[9] Bagozzi, R.P. (1994). Advanced Methods of Marketing Research. Blackwell Publishers Ltd., Oxford.
[10] Myers, J.H. 1996. Segmentation and Positioning for Strategic Marketing Decisions. American Marketing Association. Chicago.
[11] Breiman L., Friedman J.H Olshen R.A & Stone C.J. (1993). Classification And Regression Tree. New York, NY: Chapman And Hall