PENDAHULUAN
Latar Belakang
Hasil survey Organisasi Kesehatan Dunia (WHO) menyatakan jumlah penderita kencing manis (diabetes melitus) di Indonesia sekitar 17 juta orang (8,6% dari jumlah penduduk) atau menduduki urutan terbesar ke-4 setelah India, Cina dan Amerika Serikat. Berdasarkan hal tersebut, perlu kiranya dilakukan penelitian yang mengarah pada pembuatan aplikasi yang dapat mendeteksi timbulnya penyakit diabetes, sehingga dapat menurunkan jumlah penderita diabetes. Salah satu teknik yang dapat digunakan untuk melakukan penelusuran pada data historis untuk mengidentifikasi pola dan memprediksi trend yaitu data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar. (Han & Kamber 2001). Teknik data mining yang digunakan, yaitu klasifikasi.
Klasifikasi merupakan salah satu metode dalam data mining untuk memprediksi label kelas yang tidak diketahui. Konsep fuzzy yang diterapkan dalam klasifikasi dapat lebih baik dalam menangani nilai numerik, karena himpunan fuzzy ”memperhalus” batasan yang tegas.
Data diabetes bersifat numerik sehingga dapat diterapkan teknik data mining dengan konsep fuzzy. Teknik klasifikasi yang digunakan, yaitu klasifikasi dengan metode derajat keanggotaan dalam fuzzy. Prinsip dasar dari metode derajat keanggotaan dalam fuzzy yaitu menghitung nilai kemenarikan antara dua atau lebih linguistic term. Perhitungan nilai kemenarikan dilakukan dengan menggunakan analisis residual. Dengan menerapkan data mining diharapkan dapat ditemukan aturan atau fungsi klasifikasi untuk memprediksi potensi seseorang terserang penyakit diabetes.
Tujuan Penelitian
Tujuan dari penelitian ini adalah :
1. Menerapkan salah satu metode data
mining, yaitu teknik klasifikasi
menggunakan metode derajat keanggotaan dalam fuzzy.
2. Menemukan aturan-aturan klasifikasi pada data diabetes untuk memprediksi apakah seseorang dinyatakan positif atau negatif diabetes berdasarkan data hasil pemeriksaan laboratorium.
Ruang Lingkup Penelitian
Penelitian ini mencakup penerapan teknik klasifikasi dengan menggunakan derajat keanggotaan dalam fuzzy pada data hasil pemeriksaan laboratorium dan data catatan medis rawat inap dari tahun 2004 sampai 2005. Jumlah atribut dalam penelitian ini yaitu lima buah atribut yang terdiri dari empat atribut kuantitatif dan satu atribut kategorikal sebagai atribut kelas target.
Manfaat Penelitian
Dengan adanya suatu aplikasi yang dapat digunakan untuk memprediksi potensi penyakit diabetes, maka terjadinya penyakit ini pada seseorang dapat diprediksi sedini mungkin sehingga dapat dilakukan tindakan antisipasi.
TINJAUAN PUSTAKA
Knowledge Data Discovery (KDD)
Knowledge discovery in databases (KDD)
adalah proses menemukan informasi yang berguna dan pola-pola yang ada dalam data (Goharian & Grossmann 2003). KDD merupakan sebuah proses yang terdiri dari serangkaian proses iteratif yang terurut dan
data mining merupakan salah satu langkah
dalam KDD (Han & Kamber 2001). Pada Gambar 1 dapat dilihat tahapan proses KDD secara berurut. Tahapan proses KDD menurut Han & Kamber (2001), yaitu :
1. Pembersihan data
Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten dan data yang mengandung
noise.
2. Integrasi data
Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber.
3. Seleksi data
Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 4. Transformasi data
Proses menransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk di-mining.
5. Data mining
Data mining merupakan proses yang penting dimana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dalam data.
6. Evaluasi pola
Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola-pola yang menarik yang merepresentasikan pengetahuan.
7. Representasi pengetahuan
Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil penggalian gunung data kepada pengguna.
Gambar 1 Tahapan Proses KDD (Han & Kamber 2001)
Data mining
Data mining merupakan proses ekstraksi
informasi data berukuran besar (Han & Kamber 2001). Menurut Kantardzic (2003),
data mining merupakan keseluruhan proses
mengaplikasikan komputer dan bermacam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang analisis data, data mining dapat diklasifikasi menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data
mining menjelaskan sekumpulan data dalam
cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat-sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data yang baru.
Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisa pasar dan manajemen, analisis perusahaan dan manajemen resiko, telekomunikasi, asuransi dan keuangan.
Klasifikasi
Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat
digunakan untuk memprediksikan kelas atau objek yang memiliki label kelas yang tidak diketahui. Klasifikasi termasuk ke dalam kategori predictive data mining. Model yang diturunkan didasarkan pada analisis dari
training data. Teknik klasifikasi adalah
pendekatan sistematis untuk pembuatan model klasifikasi (classifier) dari sebuah data set
input.
Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan testing (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.
Himpunan Fuzzy
Konsep logika fuzzy pertama kali diperkenalkan oleh Prof. Lotfi A Zadeh dari Universitas California pada bulan Juni 1965. Logika fuzzy merupakan generalisasi dari logika klasik yang hanya memiliki dua nilai keanggotaan 0 dan 1. Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah. Inti dari himpunan fuzzy yaitu fungsi keanggotaan yang menggambarkan hubungan antara domain himpunan fuzzy dengan nilai derajat keanggotaan. Derajat keanggotaan menunjukkan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisar antara 0 sampai 1. Dengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan (Cox 2005).
Peubah Linguistik
Peubah linguistik merupakan peubah yang mempunyai nilai linguistik berupa kumpulan kata (linguistic term) yang bersesuaian dengan derajat keanggotaan dalam suatu himpunan. Peubah linguistik dikarakterisasi oleh
quintaple
(
x,T(x),X,G,M)
dengan x adalah nama peubah, T(x) adalah kumpulan darilinguistic term, X menunjukkan nilai interval
x, G adalah aturan sintak yang
membangkitkan term dalam T(x), M adalah aturan semantik yang bersesuaian dengan nilai linguistik M(A), dengan M(A) menunjukkan
Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data
Selection and Transformation Data
mining Pattern Evaluation
fungsi keanggotaan untuk himpunan fuzzy dalam X. Sebagai contoh, jika umur diinterpretasikan sebagai peubah linguistik, maka himpunan dari linguistic term T(umur) menjadi :
T(umur) = {sangat muda, muda, tua}
Setiap term dalam T(umur) dikarakterisasi oleh himpunan fuzzy dalam X. Aturan sintak membangkitkan term dalam T(x), sedangkan aturan semantik menunjukkan fungsi keanggotaan dari setiap nilai pada himpunan
linguistic term (Kantardzic 2003).
Linguistic term
Linguistic term didefinisikan sebagai kumpulan himpunan fuzzy yang didasarkan pada fungsi keanggotaan yang bersesuaian dengan peubah linguistik (Au & Chan 2001).
D kumpulan dari record yang terdiri dari
kumpulan atribut I={I1,...,In}, dengan
n v
Iv, =1,..., . Atribut I dapat berupa atribut numerik atau kategorikal. Untuk setiap record
d elemen D, d
[ ]
Iv menotasikan nilai i dalamrecord d untuk atribut Iv.
Kumpulan linguistic term dapat
didefinisikan pada seluruh domain dari atribut kuantitatif. Himpunan fuzzy dapat didefinisikan untuk setiap Lvr dengan L , vr
v
s
r=1,..., menotasikan linguistic term yang berasosiasi dengan atribut I . Himpunan v fuzzy, Lvr, r = 1,..., sv didefinisikan sebagai :
⎪ ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎪ ⎨ ⎧ = ∫ ∑ kontinu jika diskret jika ) ( ) ( ) ( ) ( v I v I v i v i vr L v I dom v i v i vr L v I dom vr L µ µ
untuk semua iv∈dom(Iv), dengan
}
{
v vmvv i i
I
dom( )= 1,..., .
Derajat keanggotaan dari nilai iv∈dom(Iv)
dengan beberapa linguistic term Lvr dinotasikan oleh
vr L
µ . Untuk atribut kategorikal, linguistic term Lvr, r=1,...,mv
direpresentasikan oleh himpunan fuzzy vr
L
sebagai : vr i vr L = 1Secara umum untuk atribut numerik dan kategorikal, himpunan linguistic term dinotasikan oleh
{
vr|v=1,...,n,r=1,...,sv}
= L L
dengan sv =mv, selama linguistic term
digambarkan sebagai himpunan fuzzy, maka himpunan linguistic term dapat dinyatakan sebagai himpunan fuzzy.
Diberikan record d∈ D , linguistic term
vr L
∈
L dan himpunan fuzzy Lvr∈L, nilai derajatkeanggotaan dalam d dengan linguistic term vr
L , dinotasikan oleh µLvr(d
[ ]
Iv).d dikarakterisasi oleh term Lvrdengan derajat keanggotaan L (d
[ ]
Iv) vr µ . Jika[ ]
) 1 ( v = LvrdIµ , d secara utuh dikarakterisasi
oleh term
L
vr. Jika µLvr(d[ ]
Iv )=0, d tidak dikarakterisasi oleh termL
vr. Jika[ ]
) 1 (0<µLvr d Iv < , secara parsial d
dikarakterisasi oleh term
L
vr.d dapat dikarakterisasi oleh lebih dari satu
term
L
vr. Diberikan Iϕ, dengan{
| ϕ}
ϕ = Iv v∈
I , berasosiasi oleh
linguistic term L , r = 1,..., sϕr φ dengan ∏
=
∈ϕ ϕ
v sv
s . Notasi ϕ menotasikan subset dari bilangan integer, ϕ=
{
v ,....,1 vm}
, dengan{
n}
m v v,..., 1,...., 1 ∈ ,v1≠ ....≠vmdan ϕ ≥ | |=h 1.Setiap Lϕr didefinisikan oleh kumpulan
linguistic term Lvr ,....,Lvmrm∈L
1
1 . Nilai
derajat dengan d dikarakterisasi oleh term r ϕ L
(
( )
d)
r ϕλ
L , didefinisikan oleh :[ ]
( )
(
[ ]
)
⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = m m ,..., 1 1 L min Lv r dIvm 1 v I d r v r µ µ ϕ λLD dapat direpresentasikan oleh kumpulan data fuzzy F yang dikarakterisasi oleh kumpulan
atribut linguistik, L =
(
L1,....,Ln)
.Untuk setiap atribut linguistik
L ∈
vL
nilai[ ]
v{
(
v1,
v1) (
,....,
,
vsv)
}
t
µ
µ
v vsL
L
L =
dengan Lvk sebagai linguistic term dan µvk sebagai derajat keanggotaan, dengan
{
sϕ}
k∈ 1,..., . Untuk t
∈
F, oL Lpq ϕkmenotasikan nilai derajat dengan t dikarakterisasi oleh linguistic term Lpq dan
k
ϕ
L , p ∉ φ yang didefinisikan oleh :
k pq
oL Lψ = min
(
µ
Lpq,
µ
Lϕk)
(1)Jumlah dari derajat suatu record dalam F yang dikarakterisasi oleh linguistic term Lpq dan
k ϕ L didefinisikan oleh : = ∑ ∈F L L L Lpq k t
o
pq k deg ϕ ϕ (2)Dengan menggunakan linguistic term, dapat ditemukan suatu aturan fuzzy dari sejumlah data fuzzy dan merepresentasikannya dengan cara yang mudah dipahami oleh manusia (Au & Chan 2001).
Algoritma Derajat Keanggotaan dalam Fuzzy
Prinsip dari algoritma data mining fuzzy yaitu menyajikan aturan fuzzy dengan beberapa orde. Orde pertama dari aturan fuzzy didefinisikan oleh aturan yang hanya melibatkan sebuah linguistic term dalam anteseden, orde kedua melibatkan dua buah
linguistic term, orde ketiga melibatkan tiga
buah linguistic term, dan selanjutnya. Algoritma data mining fuzzy dapat dilihat pada Gambar 2.
Untuk mencari nilai kemenarikan (interestingness) dari orde pertama digunakan ukuran kemenarikan objektif. Setelah ditemukan nilai kemenarikan maka disimpan pada peubah R1. Aturan di R1 digunakan untuk
membangkitkan orde kedua yang tersimpan dalam R2. R2 akan digunakan untuk
membangkitkan aturan orde ketiga yang tersimpan pada R3 dan begitu seterusnya.
Fungsi interesting (Lpq, Lϕk) menghitung nilai hubungan kemenarikan antara Lpq dengan Lϕk. Jika fungsi interesting (Lpq, Lϕk) menghasilkan nilai benar maka aturan fuzzy tersebut dibangkitkan oleh fungsi rulegen, kemudian dihitung nilai bobot bukti. Semua aturan fuzzy yang dibangkitkan oleh rulegen disimpan dalam R dan akan digunakan untuk proses prediksi.
Gambar 2 Algoritma data mining fuzzy (Au & Chan 2001)
Aturan Kemenarikan dalam Data Fuzzy Hubungan antara Lpq dengan Lϕk, dikatakan menarik, jika nilai
(
)
k record k pq record k pq r P ϕ ϕ ϕ L L L L L oleh isasi dikarakter yang dari derajat jml dan oleh isasi dikarakter yang dari derajat jml | =berbeda dengan nilai
( )
M Pr pq record pq oleh isasi dikarakter yang dari derajat jml L L = dengan =∑ ∑ = = p s u s i pu i deg M 1 1 ϕ ϕ L L . Nilaiperbedaan tersebut, secara objektif dapat dievaluasi menggunakan nilai adjusted
residual yang didefinisikan oleh :
pq pq k k pq k z d = ϕ ϕ ϕ γ L L L L L L (3) dengan pq k
zL Lϕ adalah nilai standardized
residual, yang didefinisikan oleh :
ϕ ϕ ϕ ϕ pq k pq k pq k pq k deg e z e − = L L L L L L L L (4)
1) R1 ={first-order fuzzy rules} 2) for
(
m=2;Rm−1≠φ ;m++)
do 3) begin4)C = {each condition in the antecedent of r | r ∈ R m-1}
5) forall ϕ composed of m elements in C do 6) begin 7) forall t∈F do 8) forall
(
Lpq,µpq)
∈t[ ]
Lp ,(
Lϕk,µϕk)
∈t[ ]
Lϕ ,p∈ϕ do 9) min( pq, k) k L pq L ϕ += µ µϕ deg ; 10) forall(
Lpq,µpq)
∈t[ ]
Lp ,(
Lϕk,µϕk)
∈t[ ]
Lϕ ,p∈ϕ do 11) if interesting(
Lpq,Lϕk)
then 12) Rm=Rm∪rulegen(
Lpq,Lϕk)
; 13) end 14) end 15) U ; mRm R=dengan epq k
ϕ
L L adalah jumlah derajat dari
record yang diduga dikarakterisasi oleh Lpq dengan Lϕk yang didefinisikan oleh :
M deg deg e s i p s u pu k i pq k pq
∑
∑
= = = ϕ ϕ ϕ ϕ 1 L L 1 L L L L (5) dan pq k ϕγ
L L adalah nilai maximum likelihoodestimate dari ragam pq
k zL Lϕ , yang didefiniskan oleh : 1 1 1 1 ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡
∑
∑
= = − − = M M L L L L L L p s u s i k pq k pu i pq deg deg ϕ ϕ ϕ ϕ γ (6)Jika dL Lpq ϕk > 1.96 (nilai persentil dari distribusi normal), dapat disimpulkan bahwa nilai antara Pr(Lpq |Lϕk) dan P (r Lpq) secara signifikan berbeda sehingga hubungan antara
Lpq dengan Lϕk menarik (interesting). Perhitungan Nilai Bobot Bukti
Diberikan linguistic term Lϕk yang berasosiasi dengan linguistic term Lpq , dapat dibentuk suatu aturan fuzzy
] [ k pq w pq k ϕ ϕ L L L L ⇒ dengan wL Lpq ϕk adalah nilai bobot bukti.
Selama hubungan antara Lpq dengan Lϕk menarik, maka terdapat bukti berupa record yang dikarakterisasi oleh Lpq mempunyai
k
ϕ
L . Perhitungan nilai bobot bukti dikenal sebagai informasi mutual. Informasi mutual menghitung nilai ketidakpastian dari Lpq pada suatu record yang mempunyai Lϕk, yang didefinisikan oleh :
( )
( : ) ( : ) log r pq k pq k r pq P I P = L L L L L ϕ ϕ (7)dengan berdasarkan nilai informasi mutual, perhitungan bobot bukti, didefinisikan sebagai:
(
)
(
)
(
)
⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ≠ ≠U
U
q i pi k r pq q i k pi k pq P I I w pq k L L L L L L L L L L | | P log | : k r ϕ ϕ ϕ ϕ ϕ (8) pq kwL Lϕ dapat diinterpretasikan secara intuitif sebagai perhitungan perbedaan dari record
k
ϕ
L yang dikarakterisasi oleh Lpq dan Lpi ,
i≠q. Diberikan Lϕk yang didefinisikan oleh kumpulan linguistic term,
L L
Lv ,....,1r1 vmrm∈ dapat dibentuk aturan fuzzy
pada tingkat yang lebih tinggi (high-order) sebagai : ] [ ,...., 1 1r vr w pq k v L m m Lpq L Lϕ L ⇒
dengan v ,....,1 vm∈ϕ
(Au & Chan 2001).
Prediksi Nilai Yang Tidak Diketahui Menggunakan Aturan Fuzzy
Diberikan suatu record,
( )
I dom( )
Ip dom( )
In domd∈ 1 ×....× ×....× ,
d dikarakterisasi oleh n atribut, n
p α
α
α1,..., ,...., dengan α adalah nilai p yang akan diprediksi.
ϕ
s p p, =1,....,
L adalah linguistic term
dari atribut kelas Ip. lplinguistic term dengan domain dom
( )
Ip ={
Lp1,...,Lpsp}
. Nilai dari α didefinisikan oleh nilai lp p. Untuk memprediksi nilai lp digunakan pendekatan aturan fuzzy dengan Lpq ∈dom( )
Ip sebagai konsekuen.Kombinasi dari nilai atribut
α
ϕ,p∉ϕ
dari d dikarakterisasi oleh linguistic term Lϕk dengan derajat λLϕk( )d untuk setiap
{
sϕ}
k∈ 1,..., . Nilai bobot bukti dari
] [ ,...., 1 1r vr w pq k v L m m Lpq L Lϕ L ⇒ , untuk
semua k∈ζ ⊆
{
1,....,sϕ}
, didefinisikan oleh :( )
d w w k k pq pq k ϕ ϕ ϕλ
ζ α L L L L∑
. ∈ = (9)Misalkan, n-1 atribut (tanpa α ), p [ ] α[ ] α[ ]β
[ ]j =
{
αi|i∈(
1,...,n)
−{p}}
αditemukan untuk menyamakan satu atau lebih aturan, maka bobot bukti untuk nilai lp diberikan oleh :
∑
= = β α 1 [] j q w pq j w L (10) Nilai α didefinisikan oleh p(
) (
)
(
)
{
Lp1,w1 ,...,Lpq,wq ,...,Lpsp,wsp}
.Jika Ip kategorikal, lp diberikan ke Lpc jika
c g p s g g w c w > , =1,..., ' dan ≠ (11) dengan s'p(≤sp) adalah linguistic term
yang tercantum dalam aturan, dan α p diberikan ke ipc∈dom
( )
Ip .Jika Ip kuantitatif, diberikan linguistic term
p s p L p L ,...., 1 , bobot bukti w ,....,1 wpsp,
( )
p Lpu i 'µ bobot derajat keanggotaan dari ip
( )
Ip dom∈ dengan himpunan fuzzy L , pu
{
1,....,sp}
u∈ . ⎜⎝⎛ip⎟⎠⎞ pu L ' µ didefinisikan oleh : µ'Lpu( )
ip =wu.µLpu( )
ip (12)dengan ip∈dom
( )
Ip dan u∈{
1,....,sp}
. Nilai defuzifikasi ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = = −U
p s u pu L F 1 1 untuk p α didefinisikan sebagai :( )
( )
( )
( )
∫
∫
∪ ∪ ∪ ∪ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = = − p p ps L p p p ps L p p I dom p p L I dom p p p L s u pu di i di i i L F . ' . ' ... 1 ... 1 1 1 µ µU
(13) dengan µX∪Y( )
i =max(
µ'X( )
i,µ'Y( )
i)
untuk himpunan fuzzy X dan Y. Untuk
mengevaluasi hasil perhitungan digunakan
root-mean-squared error. Nilai root-mean squared error (rms) didefinsikan oleh :
∑
∈ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − − − = D r l r r l u o u t n rms 2 1 1 1(14)
dengan D sekumpulan test record, n sebagai
jumlah test record dalam D, untuk record
D
r∈ dan
[ ]
l,u ⊂ℜ sebagai atribut kelas, t r sebagai nilai target dari atribut kelas dalam r dan or nilai yang diprediksi (Au & Chan 2001).K-Fold Cross Validation
K-Fold Cross Validation dilakukan untuk
membagi training set dan test set. K-Fold Cross Validation mengulang k-kali untuk
membagi seluruh himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold“ yang
saling bebas secara acak, yaitu S1,S2,…,Sk,
dengan ukuran setiap subset kira-kira sama.
Pelatihan dan pengujian dilakukan k kali.
Pada iterasi ke-i, subset Si diperlakukan
sebagai data pelatihan. Pada iterasi pertama S2,…,Sk menjadi data pelatihan dan S1 menjadi
data pengujian, pada iterasi kedua S1,S3,…,Sk,
menjadi data pelatihan dan S2 menjadi data
pengujian, dan seterusnya.
METODE PENELITIAN
Proses Dasar Sistem
Data yang digunakan dalam penelitian ini adalah data hasil pemeriksaan laboratorium dan data catatan medis rawat inap dari tahun 2004 sampai 2005. Tahapan proses dasar sistem dapat dilihat pada Lampiran 1.
Proses tersebut dapat diuraikan sebagai berikut :
a. Pembersihan data, dilakukan jika ditemukan data yang mengandung noise, nilai hilang dan data yang duplikat.
b. Transformasi data, proses transformasi data ke bentuk yang dapat di-mining. Sebelum di-mining, data diabetes diubah ke dalam bentuk data fuzzy.
c. Aplikasi teknik data mining, merupakan
tahap yang penting karena pada tahap ini teknik data mining diaplikasikan terhadap
data. Teknik data mining yang digunakan
yaitu klasifikasi. Klasifikasi dilakukan melalui dua tahapan proses, yaitu :
1. Membangun model untuk menemukan aturan klasifikasi (training). Tahap pembangunan model memerlukan