Manfaat Penelitian - Pembangunan Sistem Data Mining Untuk Diagnosis Penyakit Diabetes Menggunak

I. PENDAHULUAN

1.4. Manfaat Penelitian

Dengan adanya suatu sistem yang dapat digunakan untuk memprediksi penyakit diabetes, maka terjadinya penyakit ini pada seseorang sedini mungkin dapat diprediksi sehingga dapat dilakukan tindakan antisipasi. Sistem ini nantinya juga bisa digunakan untuk memonitor perkembangan kesehatan penderita diabetes dan efektifitas pengobatan yang telah dilakukan pada pasien diabetes melitus. Sehingga hasil akhir dari penelitian ini diharapkan bisa digunakan baik oleh dokter mapun edukator diabetes melitus dalam mengantisipasi peningkatan jumlah pasien diabetes.

BAB II

TINJAUAN PUSTAKA

2.1. Diabetes Melitus

Diabetes adalah suatu penyakit, dimana tubuh penderitanya tidak secara otomatis mengendalikan tingkat gula (glukosa) dalam darahnya. Pada tubuh yang sehat, pankreas melepas hormon insulin yang bertugas mengangkut gula melalui darah ke otot-otot dan jaringan lain untuk memasok energi. Penderita diabetes tidak bisa memproduksi insulin dalam jumlah yang cukup, atau tubuh tidak mampu menggunakan insulin secara efektif, sehingga terjadilah kelebihan gula di dalam darah. Kelebihan gula yang kronis didalam darah (hiperglikemia) ini menjadi racun bagi tubuh.

Menurut ADA (Americant Diabetes Assosiation) 1998, (Soegondo et al, 2002), diabetes merupakan suatu kelompok penyakit metabolik dengan karakteristik hiperglikemia yang terjadi karena kelainan sekresi in sulin, kerja insulin atau kedua-duanya. Sedang sebelumnya WHO 1980 berkata bahwa diabetes merupakan suatu yang tidak dapat dituangkan dalam satu jawaban yang jelas dan singkat tetapi secara umum dapat dikatakan sebagai suatu kumpulan problema anatomik dan kimiawi yang merupakan akibat dari sejumlah faktor dimana didapat defesiensi insulin absolut atau relatif dan gangguan fungsi insulin

Diabetes dapat digolongkan ke dalam dua tipe, yaitu tipe 1 dan tipe 2. Diabetes tipe 1 adalah bila tubuh perlu pasokan insulin dari luar. Diabetes tipe 1 ini biasanya ditemukan pada penderita yang mulai mengalami diabetes sejak anak-anak atau remaja. Diabetes tipe 2 terjadi jika insulin hasil produksi pankreas tidak cukup, sehingga terjadi gangguan pengiriman gula ke sel tubuh.

Gejala diabetes tipe 1 muncul secara tiba-tiba pada saat usia anak -anak sebagai akibat dari kelainan genetika, sehingga tubuh tidak memproduksi insulin dengan baik. Sedangkan gejala diabetes tipe 2 muncul secara perlahan-lahan sampai menjadi gangguan yang jelas. Gejala -gejala umum pada kedua tipe

haus, cepat lelah, kehilangan tenaga, luka yang lama sembuh, penglihatan kabur. Dikarenakan munculnya gejala-gejala tersebut pada penderita diabetes tipe 2 adalah perlahan-lahan, maka sering terabaikan dan dianggap sebagai keletihan biasa. Orang yang mempunyai resiko tinggi menderita diabetes melitus adalah 1. Orang dengan riwayat keluarga dengan diabetes

2. Orang obeis ( > 20% berat badan ideal)

3. Umur di atas 40 tahun dengan faktor tersebut di atas 4. Orang dengan tekanan darah tinggi

5. Orang dengan dislipidemia (kolesterol HDL < 35 md/dl dan/atau trigliserida > 250 mg/dl)

6. Semua wanita hamil 24-28 minggu

7. Wanita yang melahirkan bayi > 4.000 gram.

Diabetes melitus jika tidak dikelola dengan baik akan dapat mengakibatkan terjadinya berbagai penyulit menahun, seperti penyakit jantung koroner, penyulit pada mata, ginjal dan syaraf. Jika kadar glukosa darah dapat selalu dikendalikan dengan baik, diharapkan semua penyulit menahun tersebut dapat dicegah, paling sedikit dihambat.

2.2. Data Warehouse

Basis data rumah sakit yang dihasilkan dari sistem informasi rumah sakit umumnya berisi data dalam jumlah besar. Penyaringan serta penyajian informasi-informasi yang relevan dalam basis data yang besar ini adalah pekerjaan yang rumit. Sehingga perlu teknik -teknik tertentu agar proses penyaringan informasi bisa dilakukan secara efesien dan efektif, antara lain dengan membangun data warehouse yang akan berfungsi sebagai pusat penyimpanan data yang terintegrasi sebagai hasil penyaringan data operasional, dan menerapkan data mining yang akan menelusuri pola -pola data untuk tujuan analisis.

Data warehouse bukan prasyarat untuk data mining, tetapi dalam prakteknya tugas data mining dibuat lebih mudah dengan mengakses dari data warehouse. Data warehouse dapat dipandang sebagai tempat penampungan data untuk mendukung pembuatan keputusan strategis. Fungsi dari data warehouse adalah untuk menyimpan data historis yang terintegrasi untuk merefleksikan berbagai

sudut pandang organisasi. Data mining adalah salah satu aplikasi utama bagi data warehouse, dimana fungsi data warehouse adalah untuk menyediakan informasi pada end user untuk mendukung pembuatan keputusan, sedangkan tool data mining menyediakan kemampuan kepada end user untuk menyaring informasi yang tersembunyi.

Data warehouse adalah kumpulan data yang subject oriented, integrated, nonvolatile dan time variant untuk membantu membuat keputusan manajemen (Inmon, 1996). Subject oriented berarti data warehouse diarahkan kepada subyek utama yang akan didefinisikan dalam data model. Subyek-subyek utama ini pada akhirnya akan diimplementasikan secara fisik sebagai sekumpulan tabel-tabel yang saling berelasi dalam data warehouse.

Karakteristik yang kedua pada data warehouse adalah integrasi. Data warehouse bisa bersumber dari banyak aplikasi yang biasanya tidak konsisten baik dalam pemrograman, pembuatan tata nama, pembuatan atribut fisik maupun pembuatan atribut pengukuran. Pada data warehouse keragaman tersebut harus dikonversi dengan memodifikasinya agar didapat format atau struktur data yang sesuai. Karakteristik ketiga dari data warehouse adalah non -volatile. Data yang ada pada data warehouse adalah data historis yang umumnya hanya bisa dibaca, tetapi data tersebut tidak dapat di update. Karakteristik keempat pada data warehouse adalah time variant, dimana key struktur data warehouse selalu mengandung komponen waktu. Komponen waktu merupakan hal yang sangat penting pada data warehouse.

Salah satu aspek yang sangat penting saat merancang data warehouse adalah yang berkaitan dengan granularity. Granularity menunjukkan tingkatan detil yang ditampung dalam unit data dalam data warehouse. Semakin detil tingkatan yang ditampung dalam unit data, semakin rendah tingkat granularity-nya. Sebaliknya semakin kurang detil, tingkat granularity-nya semakin tinggi. Granularity akan berdampak pada volume data yang menempati data warehouse, dan pada saat yang sama juga berdampak pada jenis kueri yang bisa dilakukan. Dengan volume data yang besar membutuhkan kapasitas penyimpanan yang juga besar.

Masalah kedua yang juga penting saat merancang data warehouse adalah partitioning. Partitioning menunjukkan pembagian data ke dalam beberapa unit

yang secara fisik berbeda, yang masing-masing bisa ditangani sendiri-sendiri. Hal ini menjadi penting, karena jika data berada dalam unit yang besar, maka data tersebut akan sulit untuk dikelola. Sedangkan salah satu esensi dari pembentukan data warehouse adalah kemudahan dalam mengakses data.

2.2.1 Metodologi Perancangan Data Warehouse

Ada banyak pilihan yang bisa dilakukan ketika merancang data warehouse. Tetapi pendekatan yang paling banyak digunakan adalah dengan menggunakan empat data store dan tiga data flow (Corey et al, 2001), seperti pada Gambar 1.

Data store 1 adalah source system yaitu berbagai sistem aplikasi yang akan menyediakan data bagi data warehouse. Source system ini bisa juga berasal dari

Store 1 Source 1 (Transaction System) Store 1 Source 4 (Transaction System) Store 1 Source 3 (Transaction System) Store 1 Source 2 (Transaction System) Store 2 Integration Layer (Data Warehouse) Store 3 HPQS (DataMart) Store 3 HPQS (DataMart) Store 4 Reporting application 1 Store 4 Reporting application 2 Store 4 Reporting application 3 Flow 1 Flow 2 Flow 3 Flow 3

Gambar 1 Arsitektur data warehouse dengan menggunakan empat data store dan tiga data flow.

luar organisasi. Masing -masing sistem ini mempunyai basis data yang diperlukan oleh end user untuk mengaksesnya.

Flow 1 adalah aliran data dari sumber data ke integration layer. Setelah mengetahui dari mana sumber data berasal, berikutnya perlu mengembangkan mekanisme untuk mendapatkan data tersebut, yaitu dengan melakukan penyaringan data. Tahapan ini disebut juga tahap ekstraksi data. Data yang berasal dari berbagai sumb er diintegrasikan dan/atau ditransformasikan sebelum diletakkan ke dalam data warehouse.

Data store 2 – Integration Layer atau data warehouse adalah basis data yang dinormalisasikan yang berasal dari berbagai sumber yang diletakkan dalam satu tempat. Adapun alasan membangun integration layer antara lain adalah untuk menghindari pengulangan ekstraksi. Beberapa data mart memerlukan data dari sistem yang sama. Jika tidak ada data warehouse, maka setiap data mart harus mengakses setiap sumber. Dengan membangun data warehouse, setiap data mart hanya membaca dari satu sumber yaitu integration layer yang sudah berisi data yang terintegrasi.

Flow 2 merupakan aliran dari dari integration layer ke High Performance Query Structure (HPQS). Pada flow ini data diekstrak dari integration layer dan disisipkan ke data mart. Pada tahapan ini hanya diperlukan Extract, Tranform dan Load (ETL) untuk mempopulasikan data ke data mart.

Data store 3 – HPQS atau data mart adalah basis data dan struktur data yang dibentuk secara khusus untuk mendukung kueri yang diperlukan oleh end user. Basis data ini dikelola oleh engine relational database atau engine multidimensional database. Jika disimpan dalam relational database, maka perancangan basis data data mart umumnya menggunakan star schema

Data Flow 3 merupakan aliran data dari HPQS ke aplikasi. Untuk mendapatkan data dari data mart diperlukan tool kueri. Tool ini umumnya memerlukan SQL untuk memanggil relational database.

Data store 4 menyajikan report yang disimpan dalam basis data.

Star schema adalah jenis perancangan basis data yang digunakan untuk mendukung analytical processing. Star schema berisi dua jenis tabel yaitu tabel fakta dan tabel dimensi. Tabel fakta atau disebut juga major table berisi data kuantitatif atau data transaksi sesungguhnya yang ada pada organisasi dimana informasi yang ada didalamnya akan dianalisa. Informasi ini biasanya berupa pengukuran numerikal dan bisa terdiri dari banyak kolom dan jutaan baris. Tabel dimensi atau disebut juga minor table, berisi deskripsi data yang merefleksikan dimensi organisasi.

Perancangan basis data dengan menggunakan star schema ini paling banyak digunakan untuk membangun struktur data pada data mart dalam lingkungan relasional (Corey et al, 2001). Dalam star schema akan dilakukan normalisasi yang minimal untuk tujuan mendapatkan unjuk kerja yang baik.

Untuk merancang tabel fakta dan tabel dimensi terlebih dahulu harus mengetahui transaksi apa yang akan dimodelkan. Setiap record dalam tabel fakta berisi primary key yang dibentuk dari satu atau lebih foreign key; foreign key adalah kolom yang ada dalam satu tabel yang nilainya ditentukan oleh primary key pada tabel lain. Tabel fakta adalah tabel yang sudah dinormalisasikan. Setiap record berisi sejumlah atribut yang semua atributnya hanya mempunyai satu primary key, sehingga dikatakan sudah memenuhi bentuk normal pertama (1NF). Tidak ada grup yang berulang, seluruh atribut hanya bergantung penuh pada primary key (2NF). Tidak ada satupun atribut yang bergantung pada atribut non key (3NF). Contoh relasi antartabel dimensi dan tabel fakta bisa dilihat pada Gambar 2.

Tabel dimensi mempunyai ciri yaitu :

1. Denormalized. Tabel dimensi dibentuk dengan menggabungkan beberapa tabel yang berasal dari berbagai sumber untuk dimasukkan dalam satu tabel denormalized. Tujuannya adalah untuk mengurangi jumlah join yang harus diproses pada kueri, sehingga hal ini akan meningkatkan kinerja basis data. 2. Lebar. Tabel dimensi umumnya lebih lebar dibandingkan dengan tabel dalam

aplikasi basis data. Hal ini berarti tabel dimensi memiliki banyak kolom

3. Pendek. Tabel dimensi umumnya jumlah row-nya lebih sedikit jika dibandingkan tabel fakta

4. Menggunakan surrogate key, yaitu key yang dibuat sendiri dalam data warehouse.

5. Berisi hubungan ke baris-baris tertentu dalam tabel master. Tabel dimensi berisi referensi ke key yang ada pada tabel master untuk mendapatkan record yang diinginkan.

6. Berisi kolom tanggal atau flag tambahan

2.3. Data mining

Data mining merupakan proses pencarian pola dan relasi-relasi yang tersembunyi dalam sejumlah data yang besar dengan tujuan untuk melakukan klasifikasi, estimasi, prediksi, association rule, clustering, deskripsi dan visualisasi. Berdasarkan aktifitasnya data mining dikelompokkan menjadi dua jenis, yaitu directed data mining dan undirected data mining. Directed data mining digunakan jika sudah diketahui secara pasti apa yang akan diprediksi, sehingga bisa secara langsung menambang data untuk diarahkan pada tujuan tertentu. Misalnya model prediktif yang digunakan untuk membuat prediksi tentang diagnosa penyakit yang belum diketahui. Model prediktif menggunakan pengalaman untuk menentukan bobot dan tingkat kepercayaan. Salah satu kunci Tabel Dimensi Key 1 Atribut Attribut . . . .. . . . Attribute Tabel Fakta Key 1 Key 2 Key 3 Kolom data Data Column . . . Data Column Tabel Dimensi Key 2 Attribute Attribut . . . .. . . . Attribute Tabel Dimensi Key 3 Attribute Attribut . . . .. . . . Attribute

keberhasilan model prediktif adalah adanya data yang cukup dengan hasil yang sudah diketahui untuk mengarahkan/melatih model.

Undirected data mining berkaitan dengan menelusuri pola-pola baru dalam data. Tidak seperti directed data mining, yang sudah mengetahui apa yang akan diprediksi. Pada undirected data mining, ingin diketahui bagaimana model mengusulkan jawaban. Dalam prakteknya data mining sering berisi kombinasi dari keduanya. Misalnya saat membangun predictive model, sering berguna untuk mencari pola dalam data menggunakan teknik undirected.

Secara sederhana data mining bisa dikatakan sebagai proses menyaring atau “menambang” pengetahuan dari sejumlah data yang besar. Istilah lain untuk data mining adalah Knowledge Discovery in Database atau KDD. Walaupun sebenarnya data mining sendiri adalah bagian dari tahapan proses dalam KDD, seperti yang terlihat pada Gambar 3 (Han & Kamber, 2001).

Gambar 3 Data mining sebagai salah satu tahapan dalam proses Databases Flat files

Cleaning and Integration Selection and Transformation Data mining Pattern Evaluation and Presentation

Knowledge Discovery

Sumber: Han & Kamber (2001) Tahapan dalam KDD adalah sebagai berikut:

1. Pembersihan data; untuk mengidentifikasi, merubah, membersihkan data yang tidak konsisten atau tidak akurat.

2. Integrasi data; dimana data dari berbagai sumber digabungkan

3. Pemilihan data; dimana data yang relevan untuk melakukan analisis dipilih dari basis data.

4. Transformasi data; dimana data ditransformasikan atau dikonsolidasi ke dalam bentuk yang sesuai untuk mining misalnya dengan melakukan operasi summary atau agregasi.

5. Data mining ; proses yang penting dimana metoda cerdas diterapkan untuk menyaring pola-pola dari data.

6. Evaluasi pola; mengidentifikasikan pola -pola yang benar-benar menarik yang menggambarkan pengetahuan didasarkan pada pengukuran tertentu.

7. Penyajian pengetahuan; dimana teknik -teknik penyajian serta representasi pengetahuan digunakan untuk menyajikan pengetahuan yang dihasilkan dari mining ke user.

Berdasarkan tahapan dalam KDD, arsitektur sistem data mining umumnya mempunyai komponen utama sebagai berikut :

1. Basis data, data warehouse, atau tempat penyimpanan informasi lainnya. Teknik data cleaning dan data integration umumnya diperlukan dalam pembentukan komponen-komponen tersebut.

2. Basis data atau data warehouse server. Basis data atau data warehouse server bertanggungjawab untuk mengambil data yang relevan.

3. Basis pengetahuan. Komponen ini merupakan domain pengetahuan yang digunakan untuk mengarahkan pencarian, atau mengevaluasi kemenarikan pola-pola yang dihasilkan. Pengetahu an tersebut bisa berisi konsep hirarki, yang digunakan untuk menyusun atribut atau nilai-nilai atribut ke dalam tingkatan abstraksi yang berbeda-beda. Pengetahuan seperti keyakinan user, yang bisa digunakan untuk menguji ketertarikan pola -pola didasarkan pada

4. Data mining engine. Bagian ini adalah yang paling penting bagi sistem data mining dan idealnya berisi sekumpulan modul-modul fungsional untuk melakukan tugas seperti karakterisasi, asosiasi, klasifikasi, analisis cluster, evaluasi dan analisis deviasi.

5. Modul evaluasi pola. Komponen ini berinteraksi dengan modul-modul data mining sedemikian sehingga menfokuskan pencarian ke arah pola-pola yang menarik. Untuk meng -efisienkan data mining, sangat dianjurkan untuk menekankan evaluasi dari pola-pola yang menarik sedalam mungkin ke dalam proses mining sedemikian sehingga memfokuskan pencarian hanya pada pola -pola yang menarik saja.

6. Antarmuka pengguna. Modul ini berkomunikasi antara user dan sistem data mining, memungkinkan user untuk berinteraksi dengan sistem dengan menulis kueri, menyediakan informasi untuk membantu memfokuskan pencarian, dan melakukan eksplorasi data mining didasarkan pada hasil antara data mining. Selain itu komponen ini memungkinkan user untuk menelusuri basis data dan skema data warehouse atau struktur data, mengevaluasi pola-pola yang dihasilkan dari proses mining, dan menyajikan pola-pola dalam bentuk yang berbeda-beda.

2.3.1. Klasifikasi dan Prediksi

Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediks i trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk kategori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Misalnya model klasifikasi bisa dibuat untuk mengelompokkan aplikasi peminjaman pada bank apakah beresiko atau aman, sedangkan model prediksi bisa dibuat untuk memprediksi pengeluaran untuk membeli peralatan komputer dari pelanggan potensial berdasarkan pendapatan dan lokasi tinggalnya.

Klasifikasi data dilakukan dengan dua tahapan. Pada tahap pertama, model dibentuk dengan menentukan kelas-kelas data. Model dibentuk dengan menganalisa database tuples yang dinyatakan dengan atribut. Setiap tuple p memiliki kelas tertentu, yang d inyatakan oleh salah satu atributnya yang disebut

class label atribute. Dalam konteks klasifikasi data tuples disebut juga sample. Data tuples ini membentuk training data set yang selanjutnya dianalisa untuk membangun model. Setiap tuple yang membentuk training set disebut training sample dan secara acak dipilih dari sample population. Karena label kelas dari setiap training sample telah diketahui, maka tahapan ini disebut juga supervised learning. Supervised learning ini kebalikan dari unsupervised learning, dimana pada unsupervised learning label kelas dari setiap training sample tidak diketahui. Pada tahap kedua, model digunakan untuk klasifikasi. Pertama, akurasi model prediksi (atau classifier) ditentukan menggunakan data test. Sample ini secara acak dipilih, independent dengan training sample. Akurasi dari model pada test set adalah prosentase dari sample test set yang diklasifikasikan oleh model dengan benar. Untuk setiap sample test, label kelas yang telah diketehui dibandingkan dengan model kelas prediksi yang telah dilatih untuk sample tersebut. Jika akurasi dari model bisa diterima, maka model bisa digunakan untuk mengklasifikasikan data tuples dimana label kelasnya tidak diketahui. Misalnya, classification rule yang telah dihasilkan dari analisis data dari pelanggan yang ada dapat digunakan untuk memprediksi credit rating dari pelanggan baru.

Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sample yang tidak berlabel, atau untuk menguji nilai atau rentang nilai dari suatu atribut. Dalam pandangan ini, klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai-nilai diskrit atau nominal, sedangkan regresi digunakan untuk memprediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction (Han & Kamber, 2001).

2.3.2 Metodologi Data mining

Ada beberapa konsep yang penting pada data mining. Konsep pertama berkaitan dengan mencari pola di dalam data. Biasanya berupa kumpulan data yang sering muncul. Tetapi secara umum berupa suatu daftar atau pola data yang muncul lebih sering dari yang diharapkan saat dilakukan secara acak. Konsep

yang kedua adalah sampling, yang bertujuan untuk memperoleh keterangan mengenai populasi dengan mengamati hanya sebahagian saja dari populasi itu.

Hal lain yang juga penting yang berhubungan dengan data mining adalah validasi model prediksi yang muncul dari algoritme data mining. Khususnya, jika menemukan pola dalam data, model yang dibangun untuk memprediksi pola tersebut harus juga bisa digunakan untuk memprediksi pola ditempat lain. Akhirnya jika menemukan pola, dan yakin bahwa model tersebut bisa diproduksi, maka seluruh turunan untuk mencari pola atau model tersebut adalah yang terbaik. Model digunakan untuk membuat prediksi tentang suatu record yang menggambarkan keadaan nyata yang baru, dan model terbatas hanya merefleksikan basis data histori dimana model tersebut dibuat, seperti yang ditunjukkan pada Gambar 4.

Model adalah deskripsi dari data historis dimana model tersebut dibangun untuk bisa diterapkan ke data baru dengan tujuan membuat prediksi tentang nilai-nilai yang terputus atau untuk membuat pernyataan tentang nilai-nilai yang diharapkan. Pola adalah suatu kejadian atau kombinasi kejadian dalam suatu basis data yang terjadi atau muncul lebih sering dari yang diharapkan (Berson et al., 2001).

Data Historis Model Pembuatan Model Record Prediksi 1 4 3

Gambar 4 Model proses pembuatan data mining Sumber: Berson et al., 2001.

2.3.3. Teknik Data mining

Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data, dan model data. Teknik adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing -masing cara mempunyai algoritmenya sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritme menunjukkan detil tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik.

Dalam dokumen Pembangunan Sistem Data Mining Untuk Diagnosis Penyakit Diabetes Menggunakan Algoritme Classification Based Association (Halaman 25-109)