Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree Dengan Algoritma ID3 Pada Data Diabetes

(1)

NURDIATI.

Teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk mengumpulkan data berukuran besar, salah satu contohnya adalah basis data untuk sebuah rumah sakit. Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data pasien yang berkaitan dengan penyakit diabetes, akan tetapi data tersebut banyak yang belum dimanfaatkan secara optimal. Diperlukan suatu sistem data mining yang bisa memanfaatkan data tersebut menjadi suatu informasi yang berguna. Dalam penelitian ini dipelajari bagaimana data bisa digunakan untuk membantu mengetahui potensi suatu penyakit, khususnya penyakit diabetes. Salah satu teknik data mining yang dapat digunakan untuk mengetahui label kelas dari suatu record dalam data adalah klasifikasi.

Decision tree adalah salah satu metode yang umum digunakan untuk melakukan klasifikasi. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan. Pada penelitian ini dilakukan salah satu teknik data mining yaitu klasifikasi menggunakan metode fuzzy decision tree pada data diabetes agar diperoleh suatu aturan klasifikasi yang dapat dipergunakan untuk mengetahui label kelas data yang baru. Algoritma sederhana untuk membangun sebuah fuzzy decision tree dengan akurasi yang cukup tinggi adalah fuzzy ID3 (fuzzy Iterative Dichotomiser 3).

Dari penelitian yang telah dilakukan jumlah aturan yang diperoleh adalah 30 buah aturan dengan akurasi 90.69%, pada nilai fuzziness control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Aturan klasifikasi yang mengandung kelas target negatif diabetes sebanyak 29 aturan, sedangkan untuk kelas target positif diabetes sebanyak 1 aturan. Klasifikasi dengan 30 aturan tersebut dapat digunakan untuk mengetahui potensi seseorang terserang diabetes.

(2)

FIRAT ROMANSYAH

G64103006

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

FIRAT ROMANSYAH

G64103006

(4)

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

FIRAT ROMANSYAH

G64103006

(5)

NURDIATI.

Teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk mengumpulkan data berukuran besar, salah satu contohnya adalah basis data untuk sebuah rumah sakit. Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data pasien yang berkaitan dengan penyakit diabetes, akan tetapi data tersebut banyak yang belum dimanfaatkan secara optimal. Diperlukan suatu sistem data mining yang bisa memanfaatkan data tersebut menjadi suatu informasi yang berguna. Dalam penelitian ini dipelajari bagaimana data bisa digunakan untuk membantu mengetahui potensi suatu penyakit, khususnya penyakit diabetes. Salah satu teknik data mining yang dapat digunakan untuk mengetahui label kelas dari suatu record dalam data adalah klasifikasi.

Decision tree adalah salah satu metode yang umum digunakan untuk melakukan klasifikasi. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan. Pada penelitian ini dilakukan salah satu teknik data mining yaitu klasifikasi menggunakan metode fuzzy decision tree pada data diabetes agar diperoleh suatu aturan klasifikasi yang dapat dipergunakan untuk mengetahui label kelas data yang baru. Algoritma sederhana untuk membangun sebuah fuzzy decision tree dengan akurasi yang cukup tinggi adalah fuzzy ID3 (fuzzy Iterative Dichotomiser 3).

Dari penelitian yang telah dilakukan jumlah aturan yang diperoleh adalah 30 buah aturan dengan akurasi 90.69%, pada nilai fuzziness control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Aturan klasifikasi yang mengandung kelas target negatif diabetes sebanyak 29 aturan, sedangkan untuk kelas target positif diabetes sebanyak 1 aturan. Klasifikasi dengan 30 aturan tersebut dapat digunakan untuk mengetahui potensi seseorang terserang diabetes.

(6)

NRP :

G64103006

Menyetujui:

Pembimbing I,

Pembimbing II

Imas S. Sitanggang, S.Si., M.Kom.

Dr. Ir. Sri Nurdiati, M.Sc.

NIP 132 206 235

NIP 131 578 805

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP 131 473 999

(7)

menengah atas di SMUN 1 Sumbawa Besar dan lulus pada tahun 2003.

(8)

senantiasa tercurah kepada nabi besar Muhammad SAW, keluarganya, para sahabat, serta para pengikutnya yang tetap istiqomah mengemban risalah-Nya.

Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada semua pihak atas bantuan, dorongan, saran, kritik, serta koreksi selama penulisan karya ilmiah ini. Ucapan terima kasih penulis ucapkan kepada:

1. Ibu, Abah, ka’ Maya, ka’ Rian, Robi, ade’ Mala, dan seluruh keluargaku atas doa, kasih sayang, dan pengorbanan yang telah diberikan selama ini.

2. Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Ibu Dr. Ir. Sri Nurdiati, M.Sc. selaku pembimbing II dan Bapak Hari Agung A., S.Kom. selaku dosen penguji. 3. Pandi, Meynar, dan Arum yang telah bersedia menjadi pembahas.

4. Ratih sebagai teman senasib seperjuangan dalam melakukan penelitian dan Sofi yang banyak membantu peneliti di awal-awal penelitian.

5. Bapak Herwanto yang telah bersedia memberikan data sebagai bahan penelitian. 6. Meynar selaku “Emak” yang selalu memberi dukungan pada peneliti selama di IPB. 7. Jemi, Pandi, PIS, Dhiku, dan anggota “Geng Cinta” lainnya yang telah banyak memberi

inspirasi dan kegembiraan pada peneliti.

8. Gibtha sekeluarga atas dukungan dan bantuannya pada peneliti selama di IPB. 9. Yayan yang telah meminjamkan installer Matlab 7.0.

10. Seluruh staf pengajar yang telah memberikan bekal ilmu dan wawasan selama penulis menuntut ilmu di Departemen Ilmu Komputer.

11. Seluruh staf administrasi dan perpustakaan Departemen Ilmu Komputer atas bantuannya.

12. Rekan-rekan Departemen Ilmu Komputer angkatan 40.

Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat bagi siapapun yang membacanya.

Bogor, Mei 2007

(9)

DAFTAR ISI

Halaman

DAFTAR TABEL...vi

DAFTAR GAMBAR ...vi

DAFTAR LAMPIRAN...vi

PENDAHULUAN ... 1

Latar Belakang ...1

Tujuan Penelitian ...1

Ruang Lingkup Penelitian ...1

Manfaat Penelitian...1

TINJAUAN PUSTAKA... 1

Knowledge Data Discovery (KDD) ...1

Data Mining...2

Klasifikasi ...2

Himpunan Fuzzy...2

Linguistic Variable (Peubah Linguistik) ...3

Linguistic Term...3

Fuzzy Decision Tree (FDT)...3

Fuzzy ID3 Decision Tree...4

Fuzzy Entropy dan Information Gain...4

Threshold...5

K-fold Cross Validation...5

Sistem Inferensi Fuzzy...5

METODE PENELITIAN... 5

Lingkungan Pengembangan ...6

HASIL DAN PEMBAHASAN... 6

Pembersihan Data...7

Transformasi Data ...7

Data Mining...9

Training...9

Testing...12

Representasi Pengetahuan ...13

Evaluasi Kinerja FID3...13

KESIMPULAN DAN SARAN... 14

Kesimpulan ...14

Saran...14

DAFTAR PUSTAKA ... 14

(10)

DAFTAR TABEL

Halaman

1 Nilai referensi hasil laboratorium...7

2 Aturan klasifikasi contoh training set...10

3 Rata-rata jumlah aturan ...11

4 Rata-rata waktu eksekusi dalam satuan detik ...11

5 Model untuk training set pertama dengan θr (75%) dan θn (3%) ...12

6 Model untuk training set pertama dengan θr (85%) dan θn (3%) ...12

7 Evaluasi kinerja FID3...13

DAFTAR GAMBAR

Halaman 1 Tahapan proses KDD (Han & Kamber 2001) ...2

2 Diagram alur proses klasifikasi ...6

3 Himpunan fuzzy atribut GLUN ...7

4 Himpunan fuzzy atribut GPOST ...8

5 Himpunan fuzzy atribut HDL ...8

6 Himpunan fuzzy atribut TG ...8

7 Hasil ekspansi training set berdasarkan atribut GPOST ...9

8 Fuzzy decision tree untuk contoh training set...10

9 Perbandingan rata-rata jumlah aturan...11

10 Perbandingan rata-rata waktu eksekusi proses training...12

11 Evaluasi kinerja FID3...14

12 Antarmuka grafis aplikasi untuk proses training...14

DAFTAR LAMPIRAN

Halaman 1 Contoh data hasil proses pembersihan data...17

2 Contoh data hasil fuzzifikasi pada proses transformasi data ...18

3 Contoh data untuk proses training...19

4 Jumlah aturan yang dihasilkan oleh masing-masing training set...20

5 Waktu eksekusi algoritma FID3 untuk masing-masing training set dalam satuan detik...21

(11)

PENDAHULUAN Latar Belakang

Organisasi Kesehatan Dunia (WHO) memperkirakan, bahwa 177 juta penduduk dunia mengidap penyakit diabetes melitus atau biasa disingkat diabetes. Jumlah ini akan terus meningkat hingga melebihi 300 juta pada tahun 2025. Dr Paul Zimmet, direktur dari International Diabetes Institute (IDI) di Victoria, Australia, meramalkan bahwa diabetes akan menjadi epidemi yang paling dahsyat dalam sejarah manusia. Hasil survey Organisasi Kesehatan Dunia (WHO) juga menyatakan bahwa jumlah penderita kencing manis (diabetes mellitus) di Indonesia sekitar 17 juta orang (8,6% dari jumlah penduduk) atau menduduki urutan terbesar ke-4 setelah India, Cina dan Amerika Serikat.

Perkembangan yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk mengumpulkan sejumlah data berukuran besar. Kondisi ini terjadi pada sebuah rumah sakit yang mempunyai beribu-ribu record data pasien dan jenis penyakitnya, misalnya kumpulan data diabetes yang terkait dengan hasil pemeriksaan laboratorium dari pasien rumah sakit. Data berukuran besar tersebut seringkali dibiarkan menggunung tanpa digunakan secara maksimal. Hal ini disebabkan keterbatasan pengguna komputer untuk mengolah data tersebut menjadi sebuah informasi yang berguna. Padahal jika dianalisis lebih dalam akan menghasilkan informasi atau pengetahuan yang penting dan berharga sebagai penunjang pengambilan keputusan.

Data mining merupakan proses ekstraksi informasi atau pola penting dalam basis data berukuran besar (Han & Kamber 2001). Pada penelitian ini akan diterapkan salah satu teknik dalam data mining, yaitu klasifikasi terhadap data diabetes. Klasifikasi merupakan salah satu metode dalam data mining untuk mengetahui label kelas dari suatu record dalam data. Metode yang digunakan dalam penelitian ini yaitu metode klasifikasi dengan fuzzy decision tree. Penggunaan teknik fuzzy memungkinkan dilakukan penentuan suatu objek yang dimiliki oleh lebih dari satu kelas. Dengan menerapkan teknik data mining pada data diabetes diharapkan dapat ditemukan aturan klasifikasi yang dapat digunakan untuk mengetahui potensi seseorang terserang penyakit diabetes.

Tujuan Penelitian

Tujuan dari penelitian ini adalah :

1. Menerapkan salah satu teknik data mining yaitu klasifikasi menggunakan metode fuzzy decision tree.

2. Menemukan aturan klasifikasi pada data diabetes yang menjelaskan dan membedakan kelas-kelas atau konsep sehingga dapat digunakan untuk mengetahui potensi penyakit diabetes berdasarkan nilai dari atribut lain yang diketahui.

3. Membangun aplikasi sederhana untuk membuat model atau aturan-aturan klasifikasi.

Ruang Lingkup Penelitian

Ruang lingkup penelitian dibatasi pada: 1. Membangun sebuah model untuk

mengetahui potensi pasien terserang diabetes menggunakan data pemeriksaan lab pasien dari sebuah rumah sakit yang meliputi pemeriksaan GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam Pasca Puasa), Tg (Trigliserida), HDL (Kolesterol HDL), serta diagnosa pasien berdasarkan nilai GLUN, GPOST, HDL, dan TG.

2. Teknik yang digunakan adalah salah satu teknik dalam data mining yaitu teknik klasifikasi dengan menggunakan metode decision tree. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan.

3. Penelitian dilakukan dengan mengimplementasikan salah satu teknik fuzzy decision tree yaitu Fuzzy ID3 (Iterative Dichotomiser 3) Decision Tree pada data hasil pemeriksaan lab pasien.

Manfaat Penelitian

Model yang dihasilkan pada penelitian ini diharapkan dapat digunakan oleh pihak yang berkepentingan untuk mengetahui potensi seseorang atau pasien terserang penyakit diabetes, sehingga terjadinya penyakit ini pada seseorang dapat diketahui sedini mungkin dan dapat dilakukan tindakan antisipasi.

TINJAUAN PUSTAKA

Knowledge Data Discovery (KDD)

(12)

merupakan sebuah proses yang terdiri dari serangkaian proses iteratif yang terurut dan data mining merupakan salah satu langkah dalam KDD (Han & Kamber 2001). Pada Gambar 1 dapat dilihat tahapan proses KDD secara berurut. Tahapan proses KDD menurut Han & Kamber (2001), yaitu :

1. Pembersihan data

Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten atau data yang mengandung noise.

2. Integrasi data

Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber.

3. Seleksi data

Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 4. Transformasi data

Proses mentransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk dimining.

5. Data mining

Data mining merupakan proses yang penting dimana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dalam data.

6. Evaluasi pola

Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola-pola yang menarik yang merepresentasikan pengetahuan.

7. Presentasi pengetahuan

Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil peggalian gunung data kepada pengguna.

Gambar 1 Tahapan proses KDD (Han & Kamber 2001)

Data Mining

Data mining merupakan proses ekstraksi informasi data berukuran besar (Han dan Kamber 2001). Data mining merupakan

keseluruhan proses mengaplikasikan komputer dan bermacam-macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang analisis data, data mining dapat diklasifikasi menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat-sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data yang baru. Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen, analisis perusahaan dan manajemen resiko, telekomunikasi, asuransi dan keuangan.

Klasifikasi

Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui. Klasifikasi termasuk ke dalam kategori predictive data mining. Model yang diturunkan didasarkan pada analisis dari training data. Teknik klasifikasi adalah pendekatan sistematis untuk pembuatan model klasifikasi (classifier) dari sebuah data set input.

Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan testing (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.

Himpunan Fuzzy

Konsep logika fuzzy pertama kali diperkenalkan oleh Prof. Lotfi A. Zadeh dari Universitas California pada bulan Juni 1965. Logika fuzzy merupakan generalisasi dari logika klasik yang hanya memiliki dua nilai keanggotaan 0 dan 1. Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah. Inti dari himpunan fuzzy yaitu fungsi keanggotaan yang menggambarkan hubungan antara

Data Cleaning

Data Integration

Databases Data

Warehouse

Task-relevant Data

Selection and Transformation

Data mining

(13)

domain himpunan fuzzy dengan nilai derajat keanggotaan. Dengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan. Derajat keanggotaan menunjukkan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisar antara 0 sampai 1 (Cox 2005).

Linguistic Variable (Peubah Linguistik) Linguistic variable merupakan peubah verbal yang dapat digunakan untuk memodelkan pemikiran manusia yang diekspresikan dalam bentuk himpunan fuzzy. Peubah linguistik dikarakterisasi oleh quintaple (x, T(x), X, G, M) dengan x adalah nama peubah, T(x) adalah kumpulan dari linguistic term, G adalah aturan sintaks, M adalah aturan semantik yang bersesuaian dengan setiap nilai peubah linguistik. Sebagai contoh, jika umur diinterpretasikan sebagai peubah linguistik, maka himpunan dari linguistic term T(umur) menjadi :

T(umur) = {sangat muda, muda, tua}

Setiap term dalam T(umur) dikarakterisasi oleh himpunan fuzzy, X menunjukkan nilai interval x. Aturan semantik menunjukkan fungsi keanggotaan dari setiap nilai pada himpunan linguistic term (Cox 2005).

Linguistic Term

Linguistic term didefinisikan sebagai kumpulan himpunan fuzzy yang didasarkan pada fungsi keanggotaan yang bersesuaian dengan peubah linguistik (Au & Chan 2001).

Jika D_{kumpulan dari record yang terdiri}

dari kumpulan atribut , dengan . Atribut I dapat berupa atribut numerik atau kategorikal. Untuk setiap record d elemen D_, _{menotasikan nilai i}

dalam record d untuk atribut . Kumpulan linguistic term dapat didefinisikan pada seluruh domain dari atribut kuantitatif. ,

menotasikan linguistic term yang berasosiasi dengan atribut , sehingga himpunan fuzzy dapat didefinisikan untuk setiap .

}

,...,

{

I

₁

I

_n

I

=

n

v I_v, =1,...,

[ ]

Iv d v I vr L v s r=1,...,

v

I

vr

L

Himpunan fuzzy, , didefinisikan sebagai :

vr

L

v s r=1,...,

⎪

⎩

⎪⎪

⎨

⎧

=

∫ ∑ kontinu jika ) ( ) ( diskret jika ) ( ) ( v I v i v i vr L v I dom v I v i v i vr L v I dom vr

L

_µ µ

untuk semua iv∈dom(Iv), dengan

}

{

v vn

v i i

I

dom( )= ₁,..., .

Derajat keanggotaan dari nilai

dengan beberapa linguistic term L_vr

dinotasikan oleh

) ( v

v domI

i ∈

vr

L

µ

.

Fuzzy Decision Tree (FDT)

Decision tree merupakan suatu pendekatan yang sangat populer dan praktis dalam machine learning untuk menyelesaikan permasalahan klasifikasi. Metode ini digunakan untuk memperkirakan nilai diskret dari fungsi target, yang mana fungsi pembelajaran direpresentasikan oleh sebuah decision tree (Liang 2005).

Decision tree sama dengan satu himpunan aturan IF…THEN. Setiap path dalam tree dihubungkan dengan sebuah aturan, yang mana premis terdiri dari sekumpulan node-node yang ditemui, dan kesimpulan dari aturan terdiri dari kelas yang terhubung dengan leaf dari path (Marsala 1998).

Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari root dan internal node lainnya, mengandung kondisi-kondisi uji atribut untuk memisahkan record yang memiliki karakteristik yang berbeda. Edge-edge dapat dilabelkan dengan nilai-nilai symbolic. Sebuah atribut numeric-symbolic adalah sebuah atribut yang dapat bernilai numeric ataupun symbolic yang dihubungkan dengan sebuah variabel kuantitatif. Sebagai contoh, ukuran seseorang dapat dituliskan sebagai atribut numeric-symbolic: dengan nilai kuantitatif, dituliskan dengan “1,72 meter”, ataupun sebagai nilai numeric-symbolic seperti “tinggi” yang berkaitan dengan suatu ukuran (size). Nilai-nilai seperti inilah yang menyebabkan perluasan dari decision tree menjadi fuzzy decision tree (Yuan dan Shaw 1995). Penggunaan teknik fuzzy memungkinkan untuk mengetahui suatu objek yang dimiliki oleh lebih dari satu kelas.

(14)

dari teori himpunan fuzzy dalam decision tree ialah meningkatkan kemampuan dalam memahami decision tree ketika digunakan atribut-atribut kuantitatif. Bahkan, penggunaan teknik fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi kasus-kasus baru (Marsala 1998).

Fuzzy ID3 Decision Tree

Algoritma ID3 (Iterative Dichotomiser 3) pertama kali diperkenalkan oleh Quinlan. Algoritma ini menggunakan teori informasi untuk menentukan atribut mana yang paling informatif, namun ID3 sangat tidak stabil dalam melakukan penggolongan berkenaan dengan gangguan kecil pada data pelatihan. Logika fuzzy dapat memberikan suatu peningkatan dalam melakukan penggolongan pada saat pelatihan (Liang 2005).

Algoritma fuzzy ID3 merupakan algoritma yang efisien untuk membuat suatu fuzzy decision tree. Algoritma fuzzy ID3 adalah sebagai berikut (Liang 2005):

1. Create a Root node that has a set of fuzzy data with membership value 1.

2. If a node t with a fuzzy set of data D satisfies the following conditions, then it is a leaf node and assigned by the class name.

• The proportion of class Ck is

greater than or equal to θr,

r Ci D D _θ ≥ | | | |

• the number of a data set is less than θn

• there are no attributes for more classifications

3. If a node D does no satisfy the above conditions, then it is not a leaf-node. And an new sub-node is generated as follow:

• For Ai’s (i=1,…,L) calculate

the information gain, and select the test attribute Amax

that maximizes them.

• Devide D into fuzzy subset

D1,…,Dm according to Amax, where

the membership value of the data in Dj is the product of

the membership value in D and the value of Fmax,j of the value

of Amax in D.

• Generate new node ti,…,tm for

fuzzy subsets D1,…,Dm and label

the fuzzy sets Fmax,j to edges

that connect between the nodes tjand t.

• Replace D by Dj (j=1,2,…,m) and

repeat from 2 recursively.

FuzzyEntropy dan Information Gain

Information gain adalah suatu nilai statistik yang digunakan untuk memilih atribut yang akan mengekspansi tree dan menghasilkan node baru pada algoritma ID3. Suatu entropy dipergunakan untuk mendefinisikan nilai information gain. Entropy dirumuskan sebagai berikut:

) ( log * )

( 2 i

N

i i

s S P P

H =

∑

− (1)

dengan Pi adalah rasio dari kelas Ci pada

himpunan contoh S = {x1,x2,…,xk}.

S C x P

k

j j i

i

∑

= ∈

= 1

(2)

Terdapat 2 kasus kasus khusus yang terjadi pada klasifikasi boolean, yang pertama adalah jika semua anggota dari himpunan S memiliki tipe yang sama, maka nilai entropy adalah 0 (nol). Hal ini berarti tidak terjadi ketidakpastian klasifikasi. 0 ) 0 ( log * 0 ) 1 ( log * 1 )

(S =− 2 − 2 = H_s

Kedua, jika jumlah contoh positif sama dengan jumlah contoh negatif, maka nilai entropy adalah 1 (satu), hal ini menandakan terjadi ketidakpastian klasifikasi maksimum.

1 ) 5 . 0 ( log * 5 . 0 ) 5 . 0 ( log * 5 . 0 )

(S =− ₂ − ₂ =

Hs

Untuk melakukan perluasan atribut, yang didasarkan pada data dari himpunan contoh, terlebih dahulu harus didefinisikan ukuran standar information gain. Information gain digunakan sebagai ukuran seleksi atribut, yang merupakan hasil pengurangan entropy dari himpunan contoh setelah membagi ukuran himpunan contoh dengan jumlah atributnya. Information gain untuk atribut A didefinisikan sebagai berikut:

∑

∈ − = ) ( ) ( | | | | ) ( ) , ( A Values v v v S H S S S H A S

G (3)

dengan bobot Wi =

|

S

_v

adalah rasio dari

data dengan atribut v pada himpunan contoh.

(15)

entropy untuk atribut dan information gain karena adanya ekspresi data fuzzy. Berikut adalah persamaan untuk mencari nilai fuzzy entropy dari keseluruhan data:

) ( log * ) ( )

( ₂ i

N

i i

s

f S H S P P

H = =

∑

− (4)

Untuk menentukan fuzzy entropy dan information gain dari suatu atribut A pada algoritma fuzzy ID3 (FID3) digunakan persamaan sebagai berikut:

S S A S H N j ij C i N j ij f

∑

=

∑

−

= 1 µ log2 µ

) ,

( (5)

) , ( * | | | | ) ( )

( H S A

S S S

H S

G f v

N A v

v f

f = −

∑

_⊆ (6)

dengan µij adalah nilai keanggotaan dari pola

ke-j untuk kelas ke-i. Hf(S) menunjukkan

entropy dari himpunan S dari data pelatihan pada node. |Sv| adalah ukuran dari subset Sv

S dari data pelatihan xj dengan atribut v. |S|

menunjukkan ukuran dari himpunan S (Liang 2005).

⊆

Threshold

Jika proses learning dari FDT dihentikan sampai semua data contoh pada masing-masing leaf-node menjadi anggota sebuah kelas, akan dihasilkan akurasi yang rendah. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemangkasan tree secara umum (Liang 2005). Untuk itu diberikan 2 (dua) buah threshold yang harus terpenuhi jika tree akan diekspansi, yaitu: • Fuzziness control threshold (FCT) / θr

Jika proporsi himpunan data dari kelas Ck

lebih besar atau sama dengan nilai threshold θr, maka ekspansi tree

dihentikan. Sebagai contoh: jika diberikan θr adalah 85%, pada sebuah

sub-dataset rasio dari kelas 1 adalah 90% dan kelas 2 adalah 10%, maka ekspansi tree dihentikan.

• Leaf decision threshold (LDT) / θn

Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari threshold θn, maka ekspansi tree dihentikan.

Sebagai contoh: sebuah himpunan data memiliki 600 contoh dengan θn adalah

2%. Jika jumlah data contoh pada sebuah node lebih kecil dari 12 (2% dari 600), maka ekspansi tree dihentikan.

K-fold Cross Validation

K-fold cross validation dilakukan untuk membagi training set dan test set. K-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold” yang saling bebas secara acak, yaitu S1,S2,…,Sk,

dengan ukuran setiap subset kira-kira sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subset Si diperlukan

sebagai data pengujian dan subset lainnya diperlukan sebagai data pelatihan. Pada iterasi pertama S2,...,Sk menjadi data pelatihan dan S1

menjadi data pengujian; pada iterasi kedua S1,S3,...,Sk menjadi data pelatihan dan S2

menjadi data pengujian dan seterusnya.

Sistem Inferensi Fuzzy

Sistem inferensi fuzzy adalah suatu framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning. FIS dapat menerima input berupa bilangan crisp atau bilangan fuzzy, tapi outputnya hampir semua berupa himpunan fuzzy. Pada sistem inferensi fuzzy yang outputnya berupa nilai crisp dibutuhkan metode defuzzifikasi untuk menghasilkan nilai crisp dari suatu himpunan fuzzy. Salah satu metode inferensi fuzzy yang paling umum digunakan adalah metode inferensi Mamdani (Ormos 2004).

METODE PENELITIAN

Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database (KDD). Proses tersebut dapat diuraikan sebagai berikut :

a. Pembersihan data, membuang data dengan nilai yang hilang dan data yang duplikat.

b. Transformasi data, proses transformasi data ke bentuk yang dapat di-mining. Sebelum di-mining, data diabetes diubah ke dalam bentuk data fuzzy.

c. Data dibagi menjadi training set dan test set dengan menggunakan metode k-fold cross validation

(16)

Langkah-langkah pada metode tersebut yaitu:

1. Menentukan atribut yang akan digunakan.

2. Menentukan banyaknya fuzzy set untuk masing-masing atribut.

3. Menentukan banyaknya training set yang akan digunakan.

4. Menghitung membership value.

5. Memilih besarnya threshold yang akan digunakan.

6. Membangun fuzzy decision tree dengan algoritma Fuzzy ID3.

e. Presentasi pengetahuan, merupakan tahap akhir dimana pada tahap ini pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika untuk selanjutnya dievaluasi hasil pengetahuan yang didapatkan.

Alur proses untuk membangun sebuah classifier dapat dilihat pada Gambar 2.

Data Diabetes

Pembersihan Data

Transformasi Data

Fuzzy Data

Pembagian Data (k-fold cross

validation)

Training

set Test set

Pemilihan nilai

threshold

Training

(FID3)

Model (kumpulan aturan)

Testing (FIS Mamdani)

Akurasi > 90 Tidak

Ya Representasi

Pengetahuan

Gambar 2 Diagram alur proses klasifikasi

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut :

a. Perangkat keras berupa komputer personal dengan spesifikasi:

• Prosesor AMD Athlon 64 2800+ • Memori DDR 512 MB

• Harddisk 80 GB • Keyboard dan mouse • Monitor

b. Perangkat Lunak

• Sistem operasi Windows XP Profesional

• Matlab 7.0.1 untuk membangun aplikasi

• Microsoft Excel 2003 sebagai media penyimpanan data

HASIL DAN PEMBAHASAN

Sebelum masuk pada proses data mining data diabetes akan melalui tahap praproses. Yang pertama dilakukan adalah menggabungkan 2 (dua) buah file dengan format spreadsheet excel yang masing-masing berisi data catatan medis pasien rawat inap antara lain: KEY_id, TGL_Periksa, MRN (medical record number), tensi, nadi, suhu, tinggi, berat dan diagutama, serta data hasil pemeriksaan laboratorium antara lain: key_transaksi, no.RM (nomor rekam medis/MRN), tgl.proses, ordertest_code, test_name, result, unit, flag, ref_range, status.

Sebelum data digabungkan, terlebih dahulu dilakukan pemilihan atribut yang ada pada data hasil pemeriksaan laboratorium. Atribut yang dipilih untuk membuat aturan atau model dalam melakukan klasifikasi potensi seseorang terserang diabetes pada penelitian ini adalah GLUN, GPOST, HDL, dan TG (Herwanto 2006).

Atribut GLUN, GPOST, HDL, dan TG yang pada awalnya merupakan item dari kolom ordertest_code, masing-masing akan dijadikan sebagai kolom baru, sedangkan item yang lain dari kolom ordertest_code tidak digunakan. Kolom result yang berisi hasil laboratorium dari pemeriksaan GLUN, GPOST, HDL, dan TG akan dijadikan item dari masing-masing atribut tersebut. Setelah pemilihan atribut dilakukan, diperoleh tabel baru yang terdiri dari 5 kolom yaitu MRN, GLUN, GPOST, HDL, dan TG.

(17)

Penggabungan data catatan medis rawat inap dan hasil pemeriksaan laboratorium dilakukan berdasarkan kesamaan nilai MRN dari masing-masing record pada kedua tabel tersebut. Hasil akhir dari proses integrasi data berupa tabel baru yang terdiri dari 6 (enam) buah kolom yaitu MRN, GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam Pasca Puasa), HDL (Kolesterol HDL), TG (Trigliserida) dan diagutama. Tabel hasil penggabungan ini terdiri dari 300 record dan disimpan dalam format spreadsheet excel.

Pembersihan Data

Pembersihan data dilakukan terhadap data yang memiliki nilai kosong dan duplikat. Setelah dilakukan penghapusan record yang mengandung nilai kosong dan atau duplikat diperoleh data bersih sebanyak 290 record. Beberapa contoh data setelah proses pembersihan dapat dilihat pada Lampiran 1.

Transformasi Data

Pada penelitian ini, teknik data mining yang digunakan adalah fuzzy decision tree (FDT), oleh karena itu data yang digunakan harus direpresentasikan ke dalam bentuk fuzzy. Dari 5 (lima) atribut yang digunakan pada penelitian ini 4 di antaranya merupakan atribut yang kontinu, yaitu GLUN, GPOST, HDL, dan TG. Lain halnya dengan atribut diagutama yang merupakan atribut kategorik.

Berdasarkan referensi hasil laboraturium, range normal untuk atribut GLUN, GPOST, HDL, dan TG diperlihatkan pada Tabel 1.

Tabel 1 Nilai referensi hasil laboratorium

Kode

Pemeriksaan Satuan

Nilai Normal

GLUN Mg/DL 70 ~ 100

GPOST Mg/DL 100 ~ 140

HDL Mg/DL 40 ~ 60

TG Mg/DL 50 ~ 150

Atribut yang telah ditransformasi ke dalam bentuk fuzzy antara lain:

• Atribut GLUN

Atribut GLUN dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah (GLUN < 70 mg/DL), sedang (70 mg/DL <= GLUN < 110 mg/DL), tinggi (110 mg/DL <= GLUN < 140 mg/DL), dan sangat tinggi (GLUN >= 140 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut GLUN secara terpisah yaitu:

⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − − < = 75 ; 0 75 65 ; 10 75 65 ; 1 ) ( x x x x x rendah µ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ >= < <= −

− <= < < <= − < = 115 ; 0 115 105 ; 10 115 105 75 ; 1 75 65 ; 10 65 65 ; 0 ) ( x x x x x x x x sedang µ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ >= < <= −

− <= < < <= − < = 145 ; 0 145 135 ; 10 145 135 115 ; 1 115 105 ; 10 105 105 ; 0 ) ( x x x x x x x x tinggi µ ⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − < = 145 ; 1 145 135 ; 10 135 135 ; 0 ) ( x x x x x gi sangatTing µ

Himpunan fuzzy untuk setiap linguistic term menggunakan kurva dengan bentuk trapesium seperti pada Gambar 3.

M F GLUN

0 0,2 0,4 0,6 0,8 1

1 18 35 52 69 86 103 120 137

GLUN MF µ_rendah µ_s edang µ_tinggi µ_s angatTinggi

Gambar 3 Himpunan fuzzy atribut GLUN

•

Atribut GPOST

Atribut GPOST dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah (GPOST < 100 mg/DL), sedang (100 mg/DL <= GPOST < 140 mg/DL), tinggi (140 mg/DL <= GPOST < 200 mg/DL), dan sangat tinggi (GPOST >= 200 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut GPOST secara terpisah yaitu:

(18)

⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ >= < <= −

− <= < < <= − < = 145 ; 0 145 135 ; 10 145 135 105 ; 1 105 95 ; 10 95 95 ; 0 ) ( x x x x x x x x sedang µ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ >= < <= −

− <= < < <= − < = 205 ; 0 205 195 ; 10 205 195 145 ; 1 145 135 ; 10 135 135 ; 0 ) ( x x x x x x x x tinggi µ ⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − < = 205 ; 1 205 195 ; 10 195 195 ; 0 ) ( x x x x x gi sangatTing µ

MF GPOST 0 0,2 0,4 0,6 0,8 1

1 22 43 64 85 106 127 148 169 190 211

GPOST MF µ_rendah µ_sedang µ_tinggi µ_sangatTinggi

Gambar 4 Himpunan fuzzy atribut GPOST

•

Atribut HDL

Atribut HDL dibagi menjadi 3 kelompok atau linguistic term, yaitu rendah (HDL < 40 mg/DL), sedang (40 mg/DL <= HDL < 60 mg/DL), dan tinggi (HDL >= 60 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut HDL secara terpisah yaitu: ⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − − < = 455 ; 0 45 35 ; 10 45 35 ; 1 ) ( x x x x x rendah µ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ >= < <= −

− <= < < <= − < = 65 ; 0 65 55 ; 10 65 55 45 ; 1 45 35 ; 10 35 35 ; 0 ) ( x x x x x x x x sedang µ ⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − < = 65 ; 1 65 55 ; 10 55 55 ; 0 ) ( x x x x x tinggi µ

MF HDL 0 0,2 0,4 0,6 0,8 1

1 611 16 21 26 31 36 41 46 51 56 61 66 71 HDL M F µ_rendah µ_sedang µ_tinggi

Gambar 5 Himpunan fuzzy atribut HDL

•

Atribut TG

Atribut TG dibagi menjadi 3 kelompok atau linguistic term, yaitu rendah (TG < 50 mg/DL), sedang (50 mg/DL <= TG < 150 mg/DL), dan tinggi (TG >= 150 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut TG secara terpisah yaitu: ⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − − < = 55 ; 0 55 45 ; 10 55 45 ; 1 ) ( x x x x x rendah µ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ >= < <= −

− <= < < <= − < = 155 ; 0 155 145 ; 10 155 145 55 ; 1 55 45 ; 10 45 45 ; 0 ) ( x x x x x x x x sedang µ ⎪ ⎩ ⎪ ⎨ ⎧ >= < <= − < = 155 ; 1 155 145 ; 10 145 145 ; 0 ) ( x x x x x tinggi µ

MF TG 0 0,2 0,4 0,6 0,8 1

1 16 31 46 61 76 91 106 121 136 151 166 TG

MF

µ_rendah µ_sedang µ_tinggi

(19)

•

Atribut Diagnosis

Atribut Diagnosis selanjutnya akan disebut sebagai CLASS, direpresentasikan oleh dua buah peubah linguistik yaitu ”negatif diabetes” dan ”positif diabetes”. Kedua linguistic termnya tersebut didefinisikan sebagai berikut:

”negatif diabetes” = 0

”positif diabetes” = 1

Data dari atribut GLUN, GPOST, HDL, dan TG kemudian akan ditransformasi ke dalam bentuk fuzzy dengan menghitung derajat keanggotaan fuzzy pada tiap-tiap himpunan dari domain setiap atribut linguistik.

Nilai-nilai dari atribut CLASS yang awalnya berisi hasil diagnosis laboratorium akan ditransformasi menjadi 2 (dua) kategori saja, yaitu negatif diabetes yang di representasikan dengan angka 1, dan positif diabetes yang direpresentasikan dengan angka 2. Nilai atribut CLASS yang akan dikategorikan sebagai positif diabetes adalah diagnosis dengan label E10 (Insulin-dependent diabetes mellitus), E11 (Non-insulin-dependet diabetes mellitus), E12 (Malnutrition-related diabetes mellitus), dan E13 (Unspecified diabetes mellitus), selainnya dikategorikan sebagai negatif diabetes. Contoh hasil dari proses transformasi dapat dilihat pada Lampiran 2.

Untuk kolom MRN akan diubah menjadi kolom No. dan nilainya diubah dari text menjadi angka. Hal ini dilakukan untuk mempermudah pembuatan aplikasi dengan menggunakan Matlab.

Data Mining

Pada tahap ini dilakukan teknik data mining menggunakan algoritma FID3 untuk membangun fuzzy decision tree (FDT). Data yang telah ditransformasi akan dibagi menjadi training set dan test set. Pembagian data ini menggunakan metode 10-fold cross validation. Data akan dibagi menjadi 10 subset (S1,....,S10) yang berbeda dengan jumlah

yang sama besar. Setiap kali sebuah subset digunakan sebagai test set maka 9 buah partisi lainnya akan dijadikan sebagai training set.

• Training

Fase training dilakukan untuk membangun FDT dengan menggunakan algoritma FID3. Proses training harus melalui berbagai tahapan, sebagai contoh

akan dijelaskan pembentukan FDT dengan menggunakan contoh training set yang terdiri dari 15 data atau record. Contoh data untuk proses training dapat dilihat pada pada Lampiran 3.

Pada contoh training set tersebut akan diterapkan algoritma fuzzy ID3 untuk menemukan model atau aturan klasifikasi. Langkah-langkah pembentukan aturan klasifikasi dengan algoritma FID3, yaitu:

1. Membuat root node dari semua data training yang ada dengan memberi nilai derajat keanggotaan untuk semua record sama dengan 1.

2. Menghitung fuzzy entropy dari training set yang ada. Dari hasil perhitungan diperoleh nilai fuzzy entropy sebesar 0.9968. Nilai ini akan digunakan untuk menghitung nilai information gain dari masing-masing atribut.

3. Menghitung information gain dari atribut GLUN, GPOST, HDL, dan TG, masing-masing diperoleh nilai 0.2064, 0.3330, 0.0304, dan 0.0050. Dari hasil tersebut dipilih atribut dengan nilai information gain terbesar yaitu GPOST. Atribut GPOST selanjutnya digunakan untuk mengekspansi tree atau menjadi root-node, tapi pada sub-node selanjutnya atribut GPOST tidak dapat digunakan untuk mengekspansi tree.

4. Data training diekspansi berdasarkan atribut GPOST sehingga diperoleh hasil seperti pada Gambar 7.

Gambar 7 Hasil ekspansi training set berdasarkan atribut GPOST

(20)

keanggotaan dari data no.38 pada root node µold = 1, maka nilai derajat

keanggotaannya pada sub-node µnew

adalah:

1 . 0 1 . 0 1⊗ = =

⊗ = l old

new µ µ

µ

5. Menghitung proporsi dari tiap kelas yang ada pada tiap-tiap node. Misalkan, untuk sub-node dengan nilai keanggotaan atribut rendah, proporsi kelasnya adalah:

C1 = 0.1 + 1 + 1 = 2.1

C2 = 1

Proporsi kelas 1 (negatif diabetes)

% 74 . 67 % 100 *

2 1

1 =

+ =

C C

C

Proporsi kelas 2 (positif diabetes)

% 26 . 32 % 100 *

2 1

2 =

+ =

C C

C

6. Pada contoh ini digunakan fuzziness control threshold (θr ) sebesar 80% dan

leaf decision threshold (θn) sebesar

20%*15 = 3. Kedua threshold tersebut akan menentukan apakah sub-node akan terus diekspansi atau tidak. Misalkan sub-node dengan nilai atribut rendah yang memiliki data sebanyak 4, berdasarkan nilai proporsi kelas 1 (67.74%) dan kelas 2 (32.26%) yang lebih kecil dari θr (80%)

dan banyaknya data atau record pada sub-node tersebut lebih besar dari θn, maka

sub-node tersebut akan terus diekspansi. Lain halnya jika θr yang digunakan

adalah 65%, maka sub-node tersebut tidak akan diekspansi.

7. Ekspansi sub-node terus dilakukan sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree yaitu ketika tree yang terbentuk sudah mencapai kedalaman maksimum atau sub-node tidak memenuhi syarat dari threshold yang diberikan. Jika sub-node sudah tidak dapat diekspansi maka nilai proporsi kelas terbesar merupakan kesimpulan dari sekumpulan aturan yang diperoleh dengan menghubungkan setiap node yang dilewati dari root node hingga leaf node.

Berdasarkan langkah-langkah algoritma FID3 di atas, diperoleh fuzzy decision tree seperti pada Gambar 8 dan sebuah model yang terdiri dari 9 buah aturan dengan menggunakan contoh training set. Model

atau aturan klasifikasi yang diperoleh dapat dilihat pada Tabel 2.

Gambar 8 Fuzzy decision tree untuk contoh training set

Tabel 2 Aturan klasifikasi contoh training set

No. Aturan

1 IF GPOSTrendah ANDHDL rendah THEN

Negatif Diabetes

2 IF GPOSTrendah ANDHDL sedang THEN

Negatif Diabetes

3 IF GPOSTrendah ANDHDL tinggi THEN

Positif Diabetes

4 IF GPOSTsedang THEN THEN Negatif

Diabetes

5 IF GPOSTtinggi ANDGLUN rendah THEN

Negatif Diabetes

6 IF GPOST tinggi ANDGLUN sedang THEN

Negatif Diabetes

7 IF GPOST tinggi ANDGLUN tinggi THEN

Negatif Diabetes

8 IF GPOST tinggi ANDGLUN sangat tinggi

THEN Positif Diabetes

9 IF GPOSTsangat tinggi THEN Positif

Diabetes

Data hasil transformasi yang telah dibagi menggunakan metode 10-fold cross validation, dikenakan perlakuan yang sama berdasarkan algoritma FID3 untuk melakukan proses training. Proses training dilakukan sebanyak 240 kali. Untuk tiap-tiap training set, proses training dilakukan sebanyak 24 kali, dengan mengubah nilai θr

sebanyak 6 kali yaitu 75%, 80%, 85%, 90%, 95%, dan 98%, dan untuk masing-masing nilai θr yang sama diberikan nilai θn yang

(21)

Tabel 3 Rata-rata jumlah aturan

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 7 7 7 6

85% 11 10 10 8

90% 12 11 10 8

95% 20 18 15 11

98% 27 24 20 16

Nilai-nilai θr dan θn yang digunakan

dipilih berdasarkan hasil percobaan, karena dengan nilai-nilai tersebut jumlah model atau aturan yang dihasilkan mengalami perubahan yang cukup signifikan. Dengan nilai θr 70%, aturan yang diperoleh tidak

berbeda dengan nilai θr 75% sehingga nilai

θr hanya dipilih sampai 75%.

Tabel 4 Rata-rata waktu eksekusi dalam satuan detik

θn

θr

3% 5% 8% 10%

75% 0,125 0,128 0,120 0,127

80% 0,239 0,227 0,214 0,183

85% 0,344 0,334 0,308 0,244

90% 0,404 0,361 0,328 0,264

95% 0,717 0,594 0,492 0,356

98% 0,955 0,842 0,712 0,544

Berdasarkan hasil percobaan, semakin tinggi nilai θr semakin banyak pula aturan

yang dihasilkan. Hal ini terjadi karena sebelum suatu node didominasi oleh sebuah kelas dan proporsi untuk kelas tersebut di atas atau sama dengan nilai θr maka tree

akan terus diekspansi. Pada Tabel 3 terlihat bahwa peningkatan yang paling signifikan terjadi pada saat nilai θr dinaikkan dari 90%

menjadi 95% dan dari 95% menjadi 98%. Kondisi semacam ini disebabkan pada saat ekspansi training set yang pertama kali dilakukan banyak sub-node yang proporsi salah satu kelasnya sudah mencapai nilai di atas 90%, sehingga sub-node tersebut tidak perlu diekspansi lagi. Ketika nilai θr

ditingkatkan sampai 95%, baru terjadi ekspansi pada beberapa sub-node yang lain dan hasil proporsi kelas pada node di bawahnya pun ternyata banyak yang lebih rendah dari nilai θr yang mengakibatkan

training set akan terus diekspansi sampai seluruh atribut terpakai.

Jika diamati dengan seksama pada Tabel 3, walaupun nilai θn ditingkatkan, jumlah

aturan yang dihasilkan tidak mengalami penurunan secara signifikan. Berdasarkan pengamatan yang dilakukan, ternyata karakteristik data pada training set yang digunakan tidak terlalu berbeda, pada saat terjadi ekspansi tree data tidak akan terlalu menyebar, karenanya jumlah himpunan data yang ada pada sub-node tidak berbeda jauh dengan jumlah himpunan data yang ada pada root-node. Dengan adanya situasi yang demikian, syarat untuk menghentikan ekspansi tree yaitu jumlah data atau record pada sub-node harus lebih kecil dari nilai θn

sulit untuk tercapai.

Nilai θr yang terlalu rendah dan atau θn

yang terlalu tinggi akan menghasilkan tree dengan ukuran yang kecil sehingga jumlah aturan yang dihasilkan juga sangat sedikit. Hal ini terjadi karena tree yang sedang dibangun mengalami pemangkasan (pruning) pada saat model masih mempelajari struktur dari training set. Sebaliknya, nilai θr yang terlalu tinggi dan

atau θn yang terlalu rendah kadang kala

akan menyebabkan fuzzy decision tree berperilaku seperti decision tree biasa yang tidak memerlukan adanya threshold sehingga menghasilkan tree dengan ukuran sangat besar dan jumlah aturan yang juga sangat banyak, karena tree akan terus diekspansi sampai leaf-node terdalam.

0 5 10 15 20 25 30

75% 80% 85% 90% 95% 98% θr

Ju

m

la

h

A

tu

ran

θn=3% θn=5% θn=8% θn=10%

Gambar 9 Perbandingan rata-rata jumlah aturan

Gambar 9 menunjukkan perbandingan rata-rata jumlah aturan yang dihasilkan pada proses training. Dapat terlihat bahwa semakin tinggi nilai θr akan menyebabkan

jumlah aturan yang dihasilkan juga meningkat. Hal sebaliknya terjadi jika nilai θn semakin tinggi maka aturan yang

(22)

0,000 0,200 0,400 0,600 0,800 1,000 1,200

75% 80% 85% 90% 95% 98%

θr

W

a

kt

u

(

d

et

ik

)

θn=3% θn=5% θn=8% θn=10%

Gambar 10 Perbandingan rata-rata waktu eksekusi proses training

Dengan melihat Gambar 9 dan Gambar 10, dapat disimpulkan bahwa, semakin tinggi nilai θr yang digunakan akan

menghasilkan jumlah aturan yang semakin banyak sehingga waktu yang dibutuhkan untuk menghasilkan aturan-aturan tersebut juga meningkat. Hal ini terjadi karena proses yang harus dilakukan untuk membangun tree semakin banyak.

• Testing

Untuk mengukur tingkat akurasi dari model yang dihasilkan pada fase training, proses testing dilakukan sebanyak 240 kali. Proses testing dilakukan dengan cara memasukkan aturan yang diperoleh dari proses training ke dalam sebuah FIS Mamdani untuk menentukan kelas dari masing-masing record pada test set. Untuk satu kali proses training dilakukan satu kali proses testing. Hasil proses testing secara keseluruhan dapat dilihat pada Lampiran 6.

Dengan melihat hasil testing, mengubah nilai θr dan θn tidak menyebabkan adanya

perubahan pada nilai akurasi dari model yang ada, walaupun jumlah aturan yang dihasilkan proses training mengalami peningkatan. Hal ini terjadi karena secara kebetulan semua aturan pada kedua model tersebut memiliki kelas target yang sama yaitu negatif diabetes dan test set yang digunakan juga berasal dari kelas target yang sama sehingga hasil testing dari kedua buah model dengan test set yang sama tidak mengalami perubahan. Namun model dengan aturan yang seragam seperti ini tidak dapat dipakai untuk mengetahui label kelas suatu objek karena berapapun nilai atribut yang diberikan hasilnya akan selalu negatif diabetes. Hasil testing akan berbeda jika aturan-aturan pada model yang dihasilkan memiliki kelas target yang

berbeda. Sebagai contoh lihat Tabel 5 dan Tabel 6.

Tabel 5 Model untuk training set pertama dengan θr (75%) dan θn (3%)

No. Aturan

1 _{IF GPOST}_{rendah THEN Negatif Diabetes}

2 _{IF GPOST}_{sedang THEN Negatif Diabetes}

3 _{IF GPOST}_{tinggi THEN Negatif Diabetes}

4 IF GPOSTsangat tinggi THEN Negatif

Diabetes

Tabel 6 Model untuk training set pertama dengan θr (85%) dan θn (3%)

No. Aturan

1 _{IF GPOST}_{rendah THEN Negatif Diabetes}

2 _{IF GPOST}_{sedang THEN Negatif Diabetes}

3 _{IF GPOST}_{tinggi THEN Negatif Diabetes}

4 IF GPOSTsangat tinggi AND GLUN rendah

THEN Negatif Diabetes

5 IF GPOSTsangat tinggi AND GLUN sedang

AND TG sedang THEN Negatif Diabetes

6 IF GPOSTsangat tinggi AND GLUN sedang

AND TG tinggi THEN Negatif Diabetes

7 IF GPOSTsangat tinggi AND GLUN tinggi

8 IF GPOSTsangat tinggi AND GLUN sangat

tinggi AND HDL rendah AND TG sedang THEN Negatif Diabetes

tinggi AND HDL rendah AND TG tinggi THEN Negatif Diabetes

tinggi AND HDL sedang AND TG sedang THEN Negatif Diabetes

tinggi AND HDL sedang AND TG tinggi THEN Negatif Diabetes

tinggi AND HDL tinggi THEN Negatif Diabetes

Aturan-aturan yang terdapat pada Tabel 5 dan Tabel 6 semuanya memiliki kelas target yang sama yaitu negatif diabetes. Hal ini terjadi karena training set yang digunakan pada saat proses training mayoritas (90%) memiliki label kelas negatif diabetes sehingga aturan-aturan yang dihasilkan juga cenderung memiliki kelas target negatif diabetes.

Pada test set ketujuh dan kedelapan, nilai akurasi mengalami penurunan saat θr

ditingkatkan menjadi 80%. Berdasarkan pengamatan yang dilakukan, keadaan seperti ini dinamakan overfitting karena terlalu tingginya θr untuk training set

(23)

tidak sengaja sesuai dengan beberapa titik noise (data yang mengalami kesalahan klasifikasi) pada training set.

Representasi Pengetahuan

Model hasil proses training digunakan untuk mengetahui label kelas pada data yang baru. Model tersebut dipilih berdasarkan 3 (tiga) kriteria berikut yang diurutkan berdasarkan prioritas:

1. Model yang mencakup semua kelas target yang mungkin muncul dalam test set, dalam penelitian ini kelas target yang mungkin muncul yaitu kelas target 1 (negatif diabetes) dan kelas target 2 (positif diabetes).

2. Model dengan akurasi yang tinggi, semakin tinggi akurasinya maka semakin baik model tersebut.

3. Model dengan jumlah aturan yang paling banyak.

Berdasarkan kriteria tersebut maka model yang dipilih adalah hasil training dengan nilai θr dan θn masing-masing 98% dan 3% dari

pasangan training set dan test set kesepuluh dengan jumlah aturan sebanyak 30. Dari 30 aturan tersebut hanya 1 aturan yang mengandung kelas target positif diabetes. Model yang dihasilkan adalah sebagai berikut:

1. IF GPOST rendah AND HDL rendah THEN

Negatif Diabetes

2. IF GPOSTrendah ANDHDL sedang AND TG

rendah THEN Negatif Diabetes

sedang AND GLUN rendah THEN Negatif Diabetes

sedang AND GLUN sedang THEN Negatif Diabetes

sedang AND GLUN tinggi THEN Negatif Diabetes

tinggi THEN Negatif Diabetes

7. IF GPOSTrendah ANDHDL tinggi AND GLUN

rendah AND TG sedang THEN Negatif Diabetes

8. IF GPOSTrendah ANDHDL tinggi AND GLUN

rendah AND TG tinggi THEN Negatif Diabetes

9. F GPOSTrendah ANDHDL tinggi AND GLUN

sedang THEN Negatif Diabetes

10. IF GPOSTsedang THEN Negatif Diabetes

11. IF GPOST tinggi AND GLUN rendah THEN

Negatif Diabetes

12. IF GPOSTtinggi AND GLUN sedang THEN

Negatif Diabetes

13. IF GPOSTtinggi AND GLUN tinggi AND HDL

rendah AND TG sedang THEN Negatif Diabetes

rendah AND TG tinggi THEN Negatif Diabetes

sedang THEN Negatif Diabetes

tinggi THEN Negatif Diabetes

17. IF GPOST tinggi AND GLUN sangat tinggi

AND TG sedang THEN Negatif Diabetes

18. IF GPOST tinggi AND GLUN sangat tinggi

AND TG tinggi THEN Positif Diabetes

19. IF GPOST sangat tinggi AND GLUN rendah

20. IF GPOST sangat tinggi AND GLUN sedang

21. IF GPOST sangat tinggi AND GLUN tinggi AND

TG sedang THEN Negatif Diabetes

TG tinggi AND HDL rendah THEN Negatif Diabetes

TG tinggi AND HDL sedang THEN Negatif Diabetes

TG tinggi AND HDL tinggi THEN Negatif Diabetes

25. IF GPOST sangat tinggi AND GLUN sangat

tinggi AND TG sedang AND HDL rendah THEN Negatif Diabetes

tinggi AND TG sedang AND HDL sedang THEN Negatif Diabetes

tinggi AND TG sedang AND HDL tinggi THEN Negatif Diabetes

tinggi AND TG tinggi AND HDL rendah THEN Negatif Diabetes

tinggi AND TG tinggi AND HDL sedang THEN Negatif Diabetes

tinggi AND TG tinggi AND HDL tinggi THEN Negatif Diabetes

Evaluasi Kinerja FID3

Evaluasi kinerja algoritma FID3 dapat diketahui dengan cara menghitung rata-rata akurasi dari seluruh proses testing pada 10 test set yang berbeda. Evaluasi kinerja dari algoritma FID3 pada nilai θr dan θn yang

berbeda dapat dilihat pada Tabel 7 dan Gambar 11.

Tabel 7 Evaluasi kinerja FID3

θn

θr

3% 5% 8% 10%

75% 94,14 94,14 94,15 94,15

80% 92,07 92,07 93,45 93,45

85% 92,07 92,07 93,45 93,45

90% 92,07 92,07 93,45 93,45

95% 90,69 91,73 93,10 93,45

(24)

88,00 89,00 90,00 91,00 92,00 93,00 94,00 95,00

75% 80% 85% 90% 95% 98% θr

Aku

ras

i

θn=3% θn=5% θn=8% θn=10%

Gambar 11 Evaluasi kinerja FID3

Dari Tabel 7 dan Gambar 11 dapat dilihat bahwa kinerja algoritma FID3 mengalami penurunan jika nilai θr semakin besar dan atau

nilai θn semakin kecil, walaupun penurunan

yang terjadi tidaklah signifikan sehingga masih dapat ditoleransi. Seperti telah dijelaskan sebelumnya kondisi ini disebabkan karena terjadinya fenomena overfitting.

Untuk melakukan proses training dan testing pada saat percobaan telah dibangun sebuah aplikasi sederhana dengan menggunakan Matlab 7.0.1. Pada proses training algoritma yang digunakan adalah FID3, sedangkan pada proses testing digunakan FIS Mamdani. Salah satu antarmuka grafis dari aplikasi tersebut dapat dilihat pada Gambar 12.

Gambar 12 Antarmuka grafis aplikasi untuk proses training

KESIMPULAN DAN SARAN

Kesimpulan

Dari berbagai percobaan yang dilakukan terhadap data Diabetes didapat kesimpulan sebagai berikut :

1. Algoritma FID3 dapat digunakan untuk membuat classifier pada data diabetes.

2. Jumlah aturan yang diperoleh sebanyak 30 buah aturan dengan akurasi sebesar

90,69% pada nilai θr sebesar 98% dan θn

sebesar 3%.

3. Penelitian ini menghasilkan aplikasi sederhana yang dapat digunakan untuk membuat classifier berdasarkan algoritma FID3 dengan menggunakan Matlab 7.0.1.

Saran

Pada penelitian ini masih terdapat beberapa kekurangan yang dapat diperbaiki pada penelitian selanjutnya. Beberapa saran yang dapat dilakukan antara lain:

1. Pada penelitian selanjutnya proses pembentukan decision tree dapat menggunakan algoritma probabilistic fuzzy ID3 sebagai upaya untuk meningkatkan akurasi dari model yang diperoleh.

2. Pada penelitian ini, data yang digunakan kurang representatif karena jumlah data untuk positif diabetes hanya 17 record, sedangkan untuk negatif diabetes sebanyak 273 record. Penelitian selanjutnya diharapkan menggunakan data yang lebih representatif dengan perbandingan jumlah data positif dan negatif diabetes yang sama besar, sehingga aturan klasifikasi yang dihasilkan memiliki akurasi yang lebih baik lagi.

3. Penggunaan kelas target berupa atribut kuantitatif sehingga hasil diagnosis untuk positif dan negatif diabetes didukung oleh nilai derajat keanggotaan yang berkisar dari 0 sampai 1.

DAFTAR PUSTAKA

Cox, E. 2005. Fuzzy Modeling and Algorithms for Data mining and Exploration. USA: Academic Press.

Fu L. 1994. Neural Network In Computer Intelligence. Singapura: McGraw Hill. Han J dan Micheline K. 2001. Data mining

Concepts and Techniques. USA: Academic Press.

(25)

Liang, G. 2005. A Comparative Study of Three Decision Tree algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy ID3. Informatics & Economics Erasmus University Rotterdam. Rotterdam, the Netherlands.

Marsala, C. 1998. Application of Fuzzy Rule Induction to Data Mining. France: University Pierre et Marie Curie.

Ormos L. 2004. Soft Computing Method On Thom’s Catastrophe Theory For Controlling Of Large-Scale Systems. Hungary. University of Miskolc, Department of Automation.

Tan S, Kumar P, Steinbach M. 2005. Introduction To Data mining. Addison-Wesley.

(26)

(27)

Lampiran 1 Contoh data hasil proses pembersihan data

No.

GLUN (mg/DL)

GPOST (mg/DL)

HDL (mg/DL)

TG

(mg/DL) CLASS 1 115 159 32 117 1

2 0 0 91 91 1

3 90 145 28 86 1

4 84 90 64 46 1

5 78 149 41 52 1

6 115 138 46 186 1 7 118 181 43 183 1

8 88 83 28 139 1

9 119 116 29 173 1 10 61 63 65 72 1

11 0 0 85 85 1

(28)

Lampiran 2 Contoh data hasil fuzzifikasi pada proses transformasi data

No.

GLUN

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi

MF_

Sangat Tinggi

GPOST

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi MF_

HDL

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi TG

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi

CLASS

1 115 0 0 1 0 159 0 0 1 0 32 1 0 0 117 0 1 0 1

2 0 1 0 0 0 0 1 0 0 0 91 0 0 1 91 0 1 0 1

3 90 0 1 0 0 145 0 0 1 0 28 1 0 0 86 0 1 0 1

4 84 0 1 0 0 90 1 0 0 0 64 0 0,1 0,9 46 0,9 0,1 0 1

5 78 0 1 0 0 149 0 0 1 0 41 0,4 0,6 0 52 0,3 0,7 0 1

6 115 0 0 1 0 138 0 0,7 0,3 0 46 0 1 0 186 0 0 1 1

7 118 0 0 1 0 181 0 0 1 0 43 0,2 0,8 0 183 0 0 1 1

8 88 0 1 0 0 83 1 0 0 0 28 1 0 0 139 0 1 0 1

9 119 0 0 1 0 116 0 1 0 0 29 1 0 0 173 0 0 1 1

10 61 1 0 0 0 63 1 0 0 0 65 0 0 1 72 0 1 0 1

11 0 1 0 0 0 0 1 0 0 0 85 0 0 1 85 0 1 0 1

12 158 0 0 0 1 196 0 0 0,9 0,1 68 0 0 1 85 0 1 0 1

13 134 0 0 1 0 135 0 1 0 0 55 0 1 0 155 0 0 1 1

14 172 0 0 0 1 278 0 0 0 1 54 0 1 0 126 0 1 0 1

(29)

Lampiran 3 Contoh data untuk proses training

No.

GLUN

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi

MF_

GPOST

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi MF_

HDL

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi TG

(mg/ DL)

MF _

Ren dah

MF _

Sed ang

MF_

Tinggi

CLASS

38 107 0 0,8 0,2 0 104 0,1 0,9 0 0 28 1 0 0 164 0 0 1 1

39 87 0 1 0 0 150 0 0 1 0 30 1 0 0 177 0 0 1 1

40 151 0 0 0 1 212 0 0 0 1 40 0,5 0,5 0 235 0 0 1 1

41 63 1 0 0 0 147 0 0 1 0 26 1 0 0 94 0 1 0 1

42 68 0,7 0,3 0 0 90 1 0 0 0 56 0 0,9 0,1 77 0 1 0 1

43 68 0,7 0,3 0 0 70 1 0 0 0 43 0,2 0,8 0 139 0 1 0 1

44 120 0 0 1 0 151 0 0 1 0 51 0 1 0 126 0 1 0 1

45 71 0,4 0,6 0 0 112 0 1 0 0 68 0 0 1 78 0 1 0 1

46 0 1 0 0 0 0 1 0 0 0 147 0 0 1 147 0 0,8 0,2 2

47 164 0 0 0 1 176 0 0 1 0 51 0 1 0 184 0 0 1 2

48 129 0 0 1 0 246 0 0 0 1 31 1 0 0 535 0 0 1 2

49 187 0 0 0 1 225 0 0 0 1 65 0 0 1 96 0 1 0 2

50 108 0 0,7 0,3 0 259 0 0 0 1 38 0,7 0,3 0 167 0 0 1 2

51 208 0 0 0 1 232 0 0 0 1 40 0,5 0,5 0 58 0 1 0 2

(30)

Lampiran 4 Jumlah aturan yang dihasilkan oleh masing-masing training set

Training set pertama

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 4 4 4 4

85% 12 11 11 10

90% 12 11 11 10

95% 21 18 16 12

98% 29 26 23 18

Training set kedua

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 4 4 4 4

85% 4 4 4 4

90% 4 4 4 4

95% 9 9 7 7

98% 9 9 7 7

Training set ketiga

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 4 4 4 4

85% 4 4 4 4

90% 13 11 11 9

95% 23 18 16 12

98% 23 18 16 12

Training set keempat

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 4 4 4 4

85% 12 11 11 10

90% 15 12 11 10

95% 21 16 15 12

98% 29 24 22 19

Training set kelima

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 4 4 4 4

85% 12 12 12 8

90% 15 13 12 8

95% 22 19 17 11

98% 30 27 24 18

Training set keenam

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 4 4 4 4

85% 13 12 10 8

90% 13 12 11 8

95% 23 22 16 11

98% 31 31 23 18

Training set ketujuh

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 10 10 8 8

85% 13 12 10 8

90% 13 12 10 8

95% 21 17 14 10

98% 29 25 22 17

Training set kedelapan LDT

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 11 11 11 9

85% 11 11 11 9

90% 11 11 11 9

95% 21 21 15 12

(31)

Lampiran 4 Lanjutan

Training set kesembilan

θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 12 12 12 8

85% 12 12 12 8

90% 12 12 12 8

95% 21 19 16 10

98% 29 27 23 17

Training set kesepuluh θn

θr

3% 5% 8% 10%

75% 4 4 4 4

80% 12 12 10 8