PENDAHULUAN TINJAUAN PUSTAKA

(1)

PENDAHULUAN

Latar Belakang

Hasil survey Organisasi Kesehatan Dunia (WHO) menyatakan jumlah penderita kencing manis (diabetes melitus) di Indonesia sekitar 17 juta orang (8,6% dari jumlah penduduk) atau menduduki urutan terbesar ke-4 setelah India, Cina dan Amerika Serikat. Berdasarkan hal tersebut, perlu kiranya dilakukan penelitian yang mengarah pada pembuatan aplikasi yang dapat mendeteksi timbulnya penyakit diabetes, sehingga dapat menurunkan jumlah penderita diabetes. Salah satu teknik yang dapat digunakan untuk melakukan penelusuran pada data historis untuk mengidentifikasi pola dan memprediksi trend yaitu data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar. (Han & Kamber 2001). Teknik data mining yang digunakan, yaitu klasifikasi.

Klasifikasi merupakan salah satu metode dalam data mining untuk memprediksi label kelas yang tidak diketahui. Konsep fuzzy yang diterapkan dalam klasifikasi dapat lebih baik dalam menangani nilai numerik, karena himpunan fuzzy ”memperhalus” batasan yang tegas.

Data diabetes bersifat numerik sehingga dapat diterapkan teknik data mining dengan konsep fuzzy. Teknik klasifikasi yang digunakan, yaitu klasifikasi dengan metode derajat keanggotaan dalam fuzzy. Prinsip dasar dari metode derajat keanggotaan dalam fuzzy yaitu menghitung nilai kemenarikan antara dua atau lebih linguistic term. Perhitungan nilai kemenarikan dilakukan dengan menggunakan analisis residual. Dengan menerapkan data mining diharapkan dapat ditemukan aturan atau fungsi klasifikasi untuk memprediksi potensi seseorang terserang penyakit diabetes.

Tujuan Penelitian

Tujuan dari penelitian ini adalah :

1. Menerapkan salah satu metode data

mining, yaitu teknik klasifikasi

menggunakan metode derajat keanggotaan dalam fuzzy.

2. Menemukan aturan-aturan klasifikasi pada data diabetes untuk memprediksi apakah seseorang dinyatakan positif atau negatif diabetes berdasarkan data hasil pemeriksaan laboratorium.

Ruang Lingkup Penelitian

Penelitian ini mencakup penerapan teknik klasifikasi dengan menggunakan derajat keanggotaan dalam fuzzy pada data hasil pemeriksaan laboratorium dan data catatan medis rawat inap dari tahun 2004 sampai 2005. Jumlah atribut dalam penelitian ini yaitu lima buah atribut yang terdiri dari empat atribut kuantitatif dan satu atribut kategorikal sebagai atribut kelas target.

Manfaat Penelitian

Dengan adanya suatu aplikasi yang dapat digunakan untuk memprediksi potensi penyakit diabetes, maka terjadinya penyakit ini pada seseorang dapat diprediksi sedini mungkin sehingga dapat dilakukan tindakan antisipasi.

TINJAUAN PUSTAKA

Knowledge Data Discovery (KDD)

Knowledge discovery in databases (KDD)

adalah proses menemukan informasi yang berguna dan pola-pola yang ada dalam data (Goharian & Grossmann 2003). KDD merupakan sebuah proses yang terdiri dari serangkaian proses iteratif yang terurut dan

data mining merupakan salah satu langkah

dalam KDD (Han & Kamber 2001). Pada Gambar 1 dapat dilihat tahapan proses KDD secara berurut. Tahapan proses KDD menurut Han & Kamber (2001), yaitu :

1. Pembersihan data

Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten dan data yang mengandung

noise.

2. Integrasi data

Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber.

3. Seleksi data

Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 4. Transformasi data

Proses menransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk di-mining.

5. Data mining

Data mining merupakan proses yang penting dimana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dalam data.

(2)

6. Evaluasi pola

Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola-pola yang menarik yang merepresentasikan pengetahuan.

7. Representasi pengetahuan

Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil penggalian gunung data kepada pengguna.

Gambar 1 Tahapan Proses KDD (Han & Kamber 2001)

Data mining

Data mining merupakan proses ekstraksi

informasi data berukuran besar (Han & Kamber 2001). Menurut Kantardzic (2003),

data mining merupakan keseluruhan proses

mengaplikasikan komputer dan bermacam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang analisis data, data mining dapat diklasifikasi menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data

mining menjelaskan sekumpulan data dalam

cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat-sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data yang baru.

Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisa pasar dan manajemen, analisis perusahaan dan manajemen resiko, telekomunikasi, asuransi dan keuangan.

Klasifikasi

Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat

digunakan untuk memprediksikan kelas atau objek yang memiliki label kelas yang tidak diketahui. Klasifikasi termasuk ke dalam kategori predictive data mining. Model yang diturunkan didasarkan pada analisis dari

training data. Teknik klasifikasi adalah

pendekatan sistematis untuk pembuatan model klasifikasi (classifier) dari sebuah data set

input.

Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan testing (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.

Himpunan Fuzzy

Konsep logika fuzzy pertama kali diperkenalkan oleh Prof. Lotfi A Zadeh dari Universitas California pada bulan Juni 1965. Logika fuzzy merupakan generalisasi dari logika klasik yang hanya memiliki dua nilai keanggotaan 0 dan 1. Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah. Inti dari himpunan fuzzy yaitu fungsi keanggotaan yang menggambarkan hubungan antara domain himpunan fuzzy dengan nilai derajat keanggotaan. Derajat keanggotaan menunjukkan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisar antara 0 sampai 1. Dengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan (Cox 2005).

Peubah Linguistik

Peubah linguistik merupakan peubah yang mempunyai nilai linguistik berupa kumpulan kata (linguistic term) yang bersesuaian dengan derajat keanggotaan dalam suatu himpunan. Peubah linguistik dikarakterisasi oleh

quintaple

(

x,T(x),X,G,M

)

dengan x adalah nama peubah, T(x) adalah kumpulan dari

linguistic term, X menunjukkan nilai interval

x, G adalah aturan sintak yang

membangkitkan term dalam T(x), M adalah aturan semantik yang bersesuaian dengan nilai linguistik M(A), dengan M(A) menunjukkan

Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data

Selection and Transformation Data

mining Pattern Evaluation

(3)

fungsi keanggotaan untuk himpunan fuzzy dalam X. Sebagai contoh, jika umur diinterpretasikan sebagai peubah linguistik, maka himpunan dari linguistic term T(umur) menjadi :

T(umur) = {sangat muda, muda, tua}

Setiap term dalam T(umur) dikarakterisasi oleh himpunan fuzzy dalam X. Aturan sintak membangkitkan term dalam T(x), sedangkan aturan semantik menunjukkan fungsi keanggotaan dari setiap nilai pada himpunan

linguistic term (Kantardzic 2003).

Linguistic term

Linguistic term didefinisikan sebagai kumpulan himpunan fuzzy yang didasarkan pada fungsi keanggotaan yang bersesuaian dengan peubah linguistik (Au & Chan 2001).

D kumpulan dari record yang terdiri dari

kumpulan atribut I={I₁,...,I_n}, dengan

n v

Iv, =1,..., . Atribut I dapat berupa atribut numerik atau kategorikal. Untuk setiap record

d elemen D, d

[ ]

Iv menotasikan nilai i dalam

record d untuk atribut I_v.

Kumpulan linguistic term dapat

didefinisikan pada seluruh domain dari atribut kuantitatif. Himpunan fuzzy dapat didefinisikan untuk setiap L_vr dengan L , vr

v

s

r=1,..., menotasikan linguistic term yang berasosiasi dengan atribut I . Himpunan _v fuzzy, Lvr, r = 1,..., sv didefinisikan sebagai :

⎪ ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎪ ⎨ ⎧ = ∫ ∑ kontinu jika diskret jika ) ( ) ( ) ( ) ( v I v I v i v i vr L v I dom v i v i vr L v I dom vr L µ µ

untuk semua iv∈dom(Iv), dengan

}

{

v vmv

v i i

I

dom( )= 1,..., .

Derajat keanggotaan dari nilai iv∈dom(Iv)

dengan beberapa linguistic term Lvr dinotasikan oleh

vr L

µ . Untuk atribut kategorikal, linguistic term L_vr, r=1,...,m_v

direpresentasikan oleh himpunan fuzzy vr

L

sebagai : vr i vr L = 1

Secara umum untuk atribut numerik dan kategorikal, himpunan linguistic term dinotasikan oleh

{

_vr|v=1,...,n,r=1,...,s_v

}

= L L

dengan s_v =m_v, selama linguistic term

digambarkan sebagai himpunan fuzzy, maka himpunan linguistic term dapat dinyatakan sebagai himpunan fuzzy.

Diberikan record d∈ D , linguistic term

vr L

∈

L dan himpunan fuzzy Lvr∈L, nilai derajat

keanggotaan dalam d dengan linguistic term vr

L , dinotasikan oleh µLvr(d

[ ]

Iv).

d dikarakterisasi oleh term L_vrdengan derajat keanggotaan _L (d

[ ]

I_v) vr µ . Jika

[ ]

) 1 ( v = LvrdI

µ , d secara utuh dikarakterisasi

oleh term

L

_vr. Jika µLvr(d

[ ]

Iv )=0, d tidak dikarakterisasi oleh term

L

_vr. Jika

[ ]

) 1 (

0<µLvr d Iv < , secara parsial d

dikarakterisasi oleh term

L

_vr.

d dapat dikarakterisasi oleh lebih dari satu

term

L

_vr. Diberikan Iϕ, dengan

{

| ϕ

}

ϕ = I_v v∈

I , berasosiasi oleh

linguistic term L , r = 1,..., s_ϕ_r φ dengan ∏

=

∈ϕ ϕ

v sv

s . Notasi ϕ menotasikan subset dari bilangan integer, ϕ=

{

v ,....,₁ v_m

}

, dengan

{

n

}

m v v,..., 1,...., 1 ∈ ,v1≠ ....≠vmdan ϕ ≥ | |=h 1.

Setiap Lϕr didefinisikan oleh kumpulan

linguistic term L_v_r ,....,L_v_m_r_m∈L

1

1 . Nilai

derajat dengan d dikarakterisasi oleh term r ϕ L

(

( )

d

)

r ϕ

λ

_L , didefinisikan oleh :

[ ]

( )

(

[ ]

)

_⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = m m ,..., 1 1 L min _L_v _r dI_v_m 1 v I d r v r µ µ ϕ λL

D dapat direpresentasikan oleh kumpulan data fuzzy F yang dikarakterisasi oleh kumpulan

atribut linguistik, L =

(

L₁,....,L_n

)

.

Untuk setiap atribut linguistik

L ∈

v

L

nilai

(4)

[ ]

v

{

(

v₁

,

v₁

) (

,....,

,

vs_v

)

}

t

µ

v vs

L

L =

dengan Lvk sebagai linguistic term dan µvk sebagai derajat keanggotaan, dengan

{

sϕ

}

k∈ 1,..., . Untuk t

∈

F, o_{L L}_pq _ϕ_k

menotasikan nilai derajat dengan t dikarakterisasi oleh linguistic term Lpq dan

k

ϕ

L , p ∉ φ yang didefinisikan oleh :

k pq

o_L _L_ψ = min

(

µ

_L_pq

,

µ

_L_ϕ_k

)

(1)

Jumlah dari derajat suatu record dalam F yang dikarakterisasi oleh linguistic term Lpq dan

k ϕ L didefinisikan oleh : = ∑ ∈F L L L L_pq _k _t

o

_pq _k deg ϕ ϕ (2)

Dengan menggunakan linguistic term, dapat ditemukan suatu aturan fuzzy dari sejumlah data fuzzy dan merepresentasikannya dengan cara yang mudah dipahami oleh manusia (Au & Chan 2001).

Algoritma Derajat Keanggotaan dalam Fuzzy

Prinsip dari algoritma data mining fuzzy yaitu menyajikan aturan fuzzy dengan beberapa orde. Orde pertama dari aturan fuzzy didefinisikan oleh aturan yang hanya melibatkan sebuah linguistic term dalam anteseden, orde kedua melibatkan dua buah

linguistic term, orde ketiga melibatkan tiga

buah linguistic term, dan selanjutnya. Algoritma data mining fuzzy dapat dilihat pada Gambar 2.

Untuk mencari nilai kemenarikan (interestingness) dari orde pertama digunakan ukuran kemenarikan objektif. Setelah ditemukan nilai kemenarikan maka disimpan pada peubah R1. Aturan di R1 digunakan untuk

membangkitkan orde kedua yang tersimpan dalam R2. R2 akan digunakan untuk

membangkitkan aturan orde ketiga yang tersimpan pada R3 dan begitu seterusnya.

Fungsi interesting (Lpq, Lϕk) menghitung nilai hubungan kemenarikan antara Lpq dengan Lϕk. Jika fungsi interesting (Lpq, Lϕk) menghasilkan nilai benar maka aturan fuzzy tersebut dibangkitkan oleh fungsi rulegen, kemudian dihitung nilai bobot bukti. Semua aturan fuzzy yang dibangkitkan oleh rulegen disimpan dalam R dan akan digunakan untuk proses prediksi.

Gambar 2 Algoritma data mining fuzzy (Au & Chan 2001)

Aturan Kemenarikan dalam Data Fuzzy Hubungan antara Lpq dengan Lϕk, dikatakan menarik, jika nilai

(

)

k record k pq record k pq r P ϕ ϕ ϕ L L L L L oleh isasi dikarakter yang dari derajat jml dan oleh isasi dikarakter yang dari derajat jml | =

berbeda dengan nilai

( )

M Pr pq record pq oleh isasi dikarakter yang dari derajat jml L L = dengan =∑ ∑ = = p s u s i pu i deg M 1 1 ϕ ϕ L L . Nilai

perbedaan tersebut, secara objektif dapat dievaluasi menggunakan nilai adjusted

residual yang didefinisikan oleh :

_pq pq k k pq k z d = ϕ ϕ ϕ γ L L L L L L (3) dengan _pq k

z_L _L_ϕ adalah nilai standardized

residual, yang didefinisikan oleh :

ϕ ϕ ϕ ϕ pq k pq k pq k pq k deg e z e − = L L L L L L L L (4)

1) R_{1 =}{first-order fuzzy rules} 2) for

(

m=2;Rm−1≠φ ;m++

)

do 3) begin

4)C = {each condition in the antecedent of r | r ∈ R m-1}

5) forall ϕ composed of m elements in C do 6) begin 7) forall t∈F do 8) forall

(

L_pq,µ_pq

)

∈t

[ ]

L_p ,

(

L_ϕ_k,µ_ϕ_k

)

∈t

[ ]

L_ϕ ,p∈ϕ do 9) min( _pq, _k) k L pq L _ϕ += µ µϕ deg ; 10) forall

(

L_pq,µ_pq

)

∈t

[ ]

L_p ,

(

L_ϕ_k,µ_ϕ_k

)

∈t

[ ]

L_ϕ ,p∈ϕ do 11) if interesting

(

L_pq,L_ϕ_k

)

then 12) Rm=Rm∪rulegen

(

Lpq,Lϕk

)

; 13) end 14) end 15) _U ; mRm R=

(5)

dengan e_pq _k

ϕ

L L adalah jumlah derajat dari

record yang diduga dikarakterisasi oleh Lpq dengan L_ϕ_k yang didefinisikan oleh :

M deg deg e s i p s u pu k i pq k pq

∑

= = = ϕ ϕ ϕ ϕ 1 L L 1 L L L L (5) dan _pq k ϕ

γ

_{L L} adalah nilai maximum likelihood

estimate dari ragam _pq

k z_L _L_ϕ , yang didefiniskan oleh : 1 1 1 1 ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡

∑

= = ₋ − = M M L L L L L L p s u s i k pq k pu i pq deg deg ϕ ϕ ϕ ϕ γ (6)

Jika dL L_pq _ϕ_k > 1.96 (nilai persentil dari distribusi normal), dapat disimpulkan bahwa nilai antara P_r(L_pq |L_ϕ_k) dan P (r Lpq) secara signifikan berbeda sehingga hubungan antara

Lpq dengan Lϕk menarik (interesting). Perhitungan Nilai Bobot Bukti

Diberikan linguistic term L_ϕ_k yang berasosiasi dengan linguistic term Lpq , dapat dibentuk suatu aturan fuzzy

] [ k pq w pq k ϕ ϕ L L L L ⇒ dengan w_{L L}_pq _ϕ_k adalah nilai bobot bukti.

Selama hubungan antara Lpq dengan L_ϕ_k menarik, maka terdapat bukti berupa record yang dikarakterisasi oleh Lpq mempunyai

k

ϕ

L . Perhitungan nilai bobot bukti dikenal sebagai informasi mutual. Informasi mutual menghitung nilai ketidakpastian dari Lpq pada suatu record yang mempunyai L_ϕ_k, yang didefinisikan oleh :

( )

( : ) ( : ) log r pq k pq k r pq P I P = L L L L L ϕ ϕ (7)

dengan berdasarkan nilai informasi mutual, perhitungan bobot bukti, didefinisikan sebagai:

(

)

(

)

(

)

⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ≠ ≠

U

q i pi k r pq q i k pi k pq P I I w _pq _k L L L L L L L L L L | | P log | : k r ϕ ϕ ϕ ϕ ϕ (8) pq k

w_{L L}_ϕ dapat diinterpretasikan secara intuitif sebagai perhitungan perbedaan dari record

k

ϕ

L yang dikarakterisasi oleh Lpq dan Lpi ,

i≠q. Diberikan L_ϕ_k yang didefinisikan oleh kumpulan linguistic term,

L L

Lv ,....,1r1 v_mr_m∈ dapat dibentuk aturan fuzzy

pada tingkat yang lebih tinggi (high-order) sebagai : ] [ ,...., 1 1r vr w _pq _k v L m m Lpq L L_ϕ L ⇒

dengan v ,....,1 v_m∈ϕ

(Au & Chan 2001).

Prediksi Nilai Yang Tidak Diketahui Menggunakan Aturan Fuzzy

Diberikan suatu record,

( )

I dom

( )

I_p dom

( )

I_n dom

d∈ ₁ ×....× ×....× ,

d dikarakterisasi oleh n atribut, n

p α

α

α₁,..., ,...., dengan α adalah nilai p yang akan diprediksi.

ϕ

s p p, =1,....,

L adalah linguistic term

dari atribut kelas Ip. lplinguistic term dengan domain dom

( )

I_p =

{

L_p₁,...,L_ps_p

}

. Nilai dari α didefinisikan oleh nilai lp p. Untuk memprediksi nilai lp digunakan pendekatan aturan fuzzy dengan L_{pq ∈}dom

( )

I_p sebagai konsekuen.

Kombinasi dari nilai atribut

α

ϕ,p∉

ϕ

dari d dikarakterisasi oleh linguistic term L_ϕ_k dengan derajat λ_L_ϕ_k( )d untuk setiap

{

sϕ

}

k∈ 1,..., . Nilai bobot bukti dari

] [ ,...., 1 1r vr w _pq _k v L m m Lpq L L_ϕ L ⇒ , untuk

semua k∈ζ ⊆

{

1,....,s_ϕ

}

, didefinisikan oleh :

( )

d w w k k pq pq k ϕ ϕ ϕ

λ

ζ α L L L L

∑

. ∈ = (9)

Misalkan, n-1 atribut (tanpa α ), p [ ] α[ ] α[ ]β

(6)

[ ]j =

{

αi|i∈

(

1,...,n

)

−{p}

}

α

ditemukan untuk menyamakan satu atau lebih aturan, maka bobot bukti untuk nilai lp diberikan oleh :

∑

= = β _α 1 [] j q w pq j w _L (10) Nilai α didefinisikan oleh p

(

) (

)

(

)

{

Lp1,w1 ,...,Lpq,wq ,...,Lpsp,wsp

}

.

Jika Ip kategorikal, lp diberikan ke Lpc jika

c g p s g g w c w > , =1,..., ' dan ≠ (11) dengan s'_p(≤s_p) adalah linguistic term

yang tercantum dalam aturan, dan α p diberikan ke ipc∈dom

( )

I_p .

Jika Ip kuantitatif, diberikan linguistic term

p s p L p L ,...., 1 , bobot bukti w ,....,1 wpsp,

( )

p Lpu i '

µ bobot derajat keanggotaan dari ip

( )

Ip dom

∈ dengan himpunan fuzzy L , pu

{

1,....,s_p

}

u∈ . ⎜_⎝⎛i_p⎟_⎠⎞ pu L ' µ didefinisikan oleh : µ'_L_pu

( )

i_p =w_u.µ_L_pu

( )

i_p (12)

dengan ip∈dom

( )

Ip dan u∈

{

1,....,sp

}

. Nilai defuzifikasi ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = = −

U

p s u pu L F 1 1 _untuk p α didefinisikan sebagai :

( )

∫

∪ ∪ ∪ ∪ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = = − p p ps L p p p ps L p p I dom p p L I dom p p p L s u pu di i di i i L F . ' . ' ... 1 ... 1 1 1 µ µ

U

(13) dengan µ_X_∪_Y

( )

i =max

(

µ'_X

( )

i,µ'_Y

( )

i

)

untuk himpunan fuzzy X dan Y. Untuk

mengevaluasi hasil perhitungan digunakan

root-mean-squared error. Nilai root-mean squared error (rms) didefinsikan oleh :

∑

∈ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − − − = D r l r r l u o u t n rms 2 1 1 1

₍₁₄₎

dengan D sekumpulan test record, n sebagai

jumlah test record dalam D, untuk record

D

r∈ dan

[ ]

l,u ⊂ℜ sebagai atribut kelas, t r sebagai nilai target dari atribut kelas dalam r dan or nilai yang diprediksi (Au & Chan 2001).

K-Fold Cross Validation

K-Fold Cross Validation dilakukan untuk

membagi training set dan test set. K-Fold Cross Validation mengulang k-kali untuk

membagi seluruh himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold“ yang

saling bebas secara acak, yaitu S1,S2,…,Sk,

dengan ukuran setiap subset kira-kira sama.

Pelatihan dan pengujian dilakukan k kali.

Pada iterasi ke-i, subset Si diperlakukan

sebagai data pelatihan. Pada iterasi pertama S2,…,Sk menjadi data pelatihan dan S1 menjadi

data pengujian, pada iterasi kedua S1,S3,…,Sk,

menjadi data pelatihan dan S2 menjadi data

pengujian, dan seterusnya.

METODE PENELITIAN

Proses Dasar Sistem

Data yang digunakan dalam penelitian ini adalah data hasil pemeriksaan laboratorium dan data catatan medis rawat inap dari tahun 2004 sampai 2005. Tahapan proses dasar sistem dapat dilihat pada Lampiran 1.

Proses tersebut dapat diuraikan sebagai berikut :

a. Pembersihan data, dilakukan jika ditemukan data yang mengandung noise, nilai hilang dan data yang duplikat.

b. Transformasi data, proses transformasi data ke bentuk yang dapat di-mining. Sebelum di-mining, data diabetes diubah ke dalam bentuk data fuzzy.

c. Aplikasi teknik data mining, merupakan

tahap yang penting karena pada tahap ini teknik data mining diaplikasikan terhadap

data. Teknik data mining yang digunakan

yaitu klasifikasi. Klasifikasi dilakukan melalui dua tahapan proses, yaitu :

1. Membangun model untuk menemukan aturan klasifikasi (training). Tahap pembangunan model memerlukan