Analisis Kinerja Metode Rough Set dan Algoritma Apriori Dalam Identifikasi Pola Penyakit Demam Tifoid

(1)

BAB 2

TINJAUAN PUSTAKA

2.1. Data Mining (DM)

Data mining adalah proses menambang (mining) pengetahuan dari sekumpulan data yang sangat besar (Han & Kamber 2006). Menurut Connolly dan Begg, 2005. Data mining adalah proses pengolahan informasi dari sebuah database yang besar, meliputi proses ekstraksi, pengenalan, komprehensif, dan penyajian informasi sehingga dapat digunakan dalam pengambilan keputusan bisnis yang krusial”. Sedangkan Menurut Berry dan Linoff (2004), “Data mining adalah mengeksplorasi dan menganalisis data dalam jumlah besar untuk menemukan pola dan rule yang berarti”. Data mining merupakan suatu langkah dalam knowledge discovery in database (KDD).

Alasan-alasan utama dalam penggunaan data mining adalah :

1. Banyaknya jumlah data yang ada dan akan terus meningkatnya jumlah

data.

2. Kebutuhan untuk menginterpretasikan data.

Data mining tidak hanya berhubungan dengan masalah basis data, tetapi merupakan suatu “titik temu” dari berbagai macam ilmu pengetahuan yang dapat digunakan untuk membangun suatu informasi dalam memperoleh pengetahuan yang baru

ataupun penting. Disiplin ilmu tersebut dapat meliputi basis data, statistik,

probabilistik, jaringan saraf tiruan, data visual, dan sebagainya.

2.1.1. Data Cleaning

Data cleaning adalah suatu teknik yang digunakan untuk menangani data yang tidak lengkap. Proses data cleaning ini juga mencakup antara lain membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data,

(2)

Pada proses ini juga dilakukan proses enrichment, yaitu proses memperkaya data yang

sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD,

seperti data atau informasi eksternal.

Untuk melakukan proses data cleaning dapat menggunakan teknik remove incomplete data. Pada teknik remove incomplete data, data yang tidak lengkap dihilangkan (remove) di record/baris data pada masing-masing variabel sampel data

tersebut.

Dalam teknik remove incomplete data dilakukan pemilahan atau penentuan data yang tidak lengkap / komplit untuk dihilangkan dalam satu record / baris data

pada masing-masing variabel data yang ada, seperti pada tabel 2.1 :

Tabel 2.1. Data Tidak Lengkap

Dari Tabel 2.1 diatas dapat dilihat bahwa terdapat data tidak lengkap yaitu

pada record 3 dan 7. Untuk menjadikannya sebagai data lengkap, dengan teknik

remove incomplete data maka nama peserta 003 dan 007 akan dihapus dari database. Dari hasil yang didapat maka tabel data lengkapnya adalah seperti pada tabel 2.2

Tabel 2.2. Data Lengkap

Pasien Gejala

001 Demam, sakit perut, muntah, sakit kepala

002 Demam, keringat malam hari, sakit kepala, muntah, sakit perut

003 -

004 Demam, sakit kepala, muntah, sakit perut

006 Demam, sakit perut, sakit kepala, muntah

007 -

Pasien Gejala

001 Demam, sakit perut, muntah, sakit kepala

002 Keringat malam hari, sakit kepala, muntah, badan lemas

(3)

2.1.2. Data Transformation

Data transformation adalah suatu teknik yang digunakan untuk mentransformasikan data mentah ke dalam data yang ditransformasikan. Untuk melakukan data

transformasi, dapat digunakan dengan berbagai macam cara, salah satunya adalah

Algoritma Fungsi Interval.

Algoritma data transformation dengan cara algoritma fungsi interval ini, adalah dengan langkah-langkah seperti yang dijelaskan pada algoritma berikut ini:

Algoritma

Input : Data lengkap

Output : Data yang ditransformasikan

Berdasarkan nilai diatas, maka tabel 3.3 dapat ditransformasikan ke dalam

tabel 2.3.

Tabel 2.3. Data Transformasi

Atribut Nilai

Demam 0 = Tidak, 1 = Ya

Sakit kepala 0 = Tidak, 1 = Ya

Sakit perut 0 = Tidak, 1 = Ya

Muntah 0 = Tidak, 1 = Ya

Diagnosa 1 = Positif, 2 = Negatif

Tabel 2.4. Hasil Data Transformasi

2.2. Teori Rough Set

Teknik Rough Set merupakan sebuah teknik matematik yang dikembangkan oleh

Pawlack pada tahun 1982 dan digunakan untuk analisis klasifikasi data dalam bentuk

tabel (Thangavel, et al. 2006). Data yang digunakan biasanya data diskret. Tujuan dari

Pasien Demam Sakit kepala Sakit perut Muntah

001 1 1 1 1

002 0 1 0 1

004 1 1 1 1

005 1 1 1 1

(4)

analisis Rough Set adalah untuk mendapatkan perkiraan rule yang singkat dari suatu

tabel. Hasil dari analis Rough Set dapat digunakan dalam proses data mining dan knowledge discovery. Teknik ini digunakan untuk menangani masalah uncertainly, missing data, uncompleted, inconsistency data, imprecision, dan vagueness (tidak pasti, data hilang, tidak lengkap, tidak selaras, ketidaktepatan, ketidakjelasan).

Teori ini memberikan pendekatan matematika baru untuk permasalahan dengan

tingkat ketidakpastian yang tinggi. Teori ini menjadi dasar penting untuk kecerdasan

buatan, pembelajaran mesin, perolehan informasi, analisis keputusan, data mining, sistem pakar, hingga pengenalan pola. Kelebihan teori ini adalah tidak diperlukannya

preliminary dan juga informasi tambahan mengenai data dalam melakukan analisis suatu data. Tetapi teori rough set ini tidak dapat menyelesaikan permasalahan dengan

atribut yang bernilai kontinu. Sedangkan yang ada dalam kasus di dunia nyata selalu

mengandung variabel – variabel yang bernilai kontinu.

Filosofi rough set didirikan pada asumsi bahwa dengan setiap objek wacana alam semesta kita mengasosiasikan beberapa informasi (data, pengetahuan). Sebagai

contoh, jika objek adalah pasien yang menderita penyakit tertentu, gejala dari penyakit

tersebut merupakan informasi tentang pasien. Objek ditandai oleh informasi yang

sama yang indiscernible (similar) mengingat informasi yang tersedia pada objek tersebut. Hubungan indiscernibility yang dihasilkan dengan cara ini adalah dasar matematika teori rough set. Himpunan dari seluruh obyek indiscernible (similar) yang

disebut elementary set, dan membentuk granul dasar (atom) dari pengetahuan tentang

alam semesta. serikat pekerja dari beberapa elementary set dirujuk sebagai satu set crisp (tepat) dengan kata lain set tersebut rough. Setiap rough set memiliki masalah garis batas (boundary-line), yaitu objek yang tidak dapat diklasifikasikan dengan

pasti, dengan menggunakan pengetahuan yang ada, karena member dari set tersebut

atau objek complement. Tentunya rough set, berbeda dengan precise set, tidak dapat dicirikan dalam hal informasi tentang elemen mereka. Dengan rough set, sepasang precise set menyebutkan aproksimasi bawah dan atas dari rough set berasosiasi. Aproksimasi bawah (lower approximation) terdiri dari semua objek yang tentu saja

termasuk set dan upper approximation berisi semua objek yang mungkin termasuk set.

Perbedaan antara aproksimasi atas dan bawah membentuk daerah batas (boundary

(5)

Pendekatan rough set tampaknya menjadi dasar yang penting untuk AI dan ilmu

kognitif, khususnya pada area machine learning, akuisisi pengetahuan, decision analysis, penemuan pengetahuan dari database, sistem pakar, penalaran induktif dan pengenalan pola. Teori rough set telah berhasil diterapkan dalam banyak masalah kehidupan nyata dalam kedokteran, farmakologi, teknik, perbankan, keuangan,

analisis pasar, pengelolaan lingkungan dan lain-lain.

Pendekatan rough set untuk analisis data memiliki banyak kelebihan utama. diantaranya adalah:

1. Menyediakan algoritma efisien untuk menemukan pola yang tersembunyi

dalam data.

2. Menemukan set minimal data (reduksi data).

3. Mengevaluasi signifikansi data.

4. Menghasilkan set decision rule dari data.

5. Menawarkan interpretasi langsung dari hasil yang diperoleh.

6. Sebagian besar algoritma didasarkan pada teori rough set sangat cocok untuk

pemrosesan paralel.

7. Mudah untuk dipahami.

Rough Set merupakan teknik yang efisien untuk knowledge discovery in database (KDD) proses dan data mining. Secara umum teori Rough Set telah digunakan dalam banyak aplikasi seperti medicine, pharmacology, business, banking,

engineering design, image processing dan decision analysis.

Beberapa konsep dasar yang harus dilakukan untuk melakukan knowledge discovery in database (KDD) dengan teknik rough set, antara lain:

1. Information system dan Decision system, representasikan data atau objek. 2. Indicernibility Relation, menghubungankan antar atribut yang tidak dapat

dipisahkan.

3. Equivalence Class, mengelompokkan objek-objek yang memiliki atribut kondisi yang sama.

4. Discernibility Matrix / discernibility matrix modulo, sekumpulan atribut yang berbeda antara objek.

(6)

6. Generating Rules, membangkitkan aturan-aturan (rules) dari pengetahuan yang didapat dalam proses ekstrak data.

Dalam sebuah pengambilan keputusan, teknik Artificial Intelligence (AI) Rough Set merupakan salah satu teknik yang tepat digunakan, dengan teknik ini nantinya akan didapat suatu hasil knowledge / pattern yang dapat digunakan dalam mengambil suatu keputusan, yaitu dengan melakukan tahapan-tahapan dalam

knowledge discovery in database (KDD), yang terdiri dari data cleaning, data integration, data selection, data transformation, data mining, evaluation dan knowledge presentation (Han & Kamber 2006).

2.2.1. Information System dan Decision System

Rough Set menawarkan dua bentuk representasi data yaitu Information Systems (IS) dan Decision System (DS). Information System adalah sebuah Informating System (IS) yang terdiri dari : IS = {U, A}, dimana U = {e1, e2, …, en} dan A = {a1, a2, …, an} yang merupakan sekumpulan example dan attribute kondisi secara berurutan.

Definisi di atas memperlihatkan bahwa sebuah Information System terdiri dari sekumpulan example, seperti {e1, e2, …, en} dan attribute kondisi, seperti {a1, a2, …, an}. Sebuah Information System yang sederhana dapat dicontohkan seperti tabel 2.5

Tabel 2.5. Information System

Tabel 2.5 memperlihatkan sebuah Information System yang sederhana. Dalam

Information System, tiap-tiap baris mempresentasikan objek sedangkan tiap-tiap kolom mempresentasikan atribut kondisi (A). Tabel 2.4 terdiri dari 5 objek yaitu 001,

002, 004, 005, dan 006, sedangkan atribut kondisinya terdiri dari 4 yaitu demam, sakit

kepala, sakit perut, muntah.

Pasien Demam Sakit kepala Sakit perut Muntah

001 1 1 1 1

002 0 1 0 1

004 1 1 1 1

005 1 1 1 1

(7)

Dalam banyak aplikasi, sebuah Information System (IS) juga direpresentasikan

dengan sebuah Decision Attribute (atribut keputusan), C = {C1, C2, …, Cn }. Sehingga Information System (IS) menjadi IS = (U, {A,C}). Pada tabel 2.5 dapat dilihat sebuah contoh Information System (IS) yang didalamnya terdapat objek (U), atribut kondisi (A) dan atribut keputusan (C).

Tabel 2.6. Information System Dengan Atribut Keputusan

Tabel 2.6 memperlihatkan sebuah Decision System yang sederhana yang terdiri

dari 5 objek yaitu, 001, 002, 004, 005, dan 006, 4 atribut kondisi yaitu demam, sakit

kepala, sakit perut, muntah, serta 1 atribut keputusan.

2.2.2. Indiscernibility Relation

Dalam decision system, sebuah objek dapat memiliki nilai yang sama untuk sebuah atribut kondisionalnya, hubungan tersebut disebut dengan indiscernibility (tidak dapat

dipisahkan (Listiana et al, 2011).

Berdasarkan tabel 2.6 maka didapatkan Indicernibility Relation sebagai berikut:

IND (Demam) = {001, 004, 005, 006} IND (Sakit Kepala) = {001, 002, 004, 005, 006} IND (Sakit Perut) = {001, 004, 005, 006} IND (Muntah) = {001, 002, 004, 005, 006}

Kelas-kelas yang telah dikelompokkan disebut dengan equivalence class.

Pasien Demam Sakit kepala Sakit perut Muntah Keputusan

001 1 1 1 1 1

002 0 1 0 1 2

004 1 1 1 1 1

005 1 1 1 1 1

(8)

2.2.3. Equivalence Class

Equivalence Class adalah mengelompokkan objek-objek yang mempunyai nilai atribut yang sama menjadi satu bagian. Seperti dapat dilihat pada tabel 2.6 bahwa

beberapa objek mempunyai atribut yang sama sehingga dapat disatukan. Setelah objek

yang mempunyai atribut yang sama disatukan, maka akan menghasilkan suatu

Equivalence Class (EC1-EC2), seperti digambarkan pada tabel 2.7.

Tabel 2.7. Equivalence Class

2.2.4. Discernibility Matrix

Discernibility Matrix terdiri dari sekumpulan atribut yang berbeda antara object Xi (Kolom Equivalence Class) dan Xj (Baris Equivalence Class). Pada discernibility matrix ini akan dibandingkan isi sebuah atribut antara suatu objek dengan objek lainnya. Dalam proses membandingkan ini, yang diperhatikan hanya atribut

kondisinya saja, jika nilai atributnya sama maka tidak akan menghasilkan suatu nilai,

tetapi akan memberi suatu nilai jika nilai atribut yang dibandingkan berbeda, seperti

dapat dilihat pada tabel 2.8 berikut:

Tabel 2.8. Discernibility Matrix

2.2.5. Discernibility Matrix Modulo D

Sama seperti Discernibility Matrix, pada Discernibility Matrix Modulo D juga terdiri dari sekumpulan atribut yang berbeda antara objek Xi (Kolom Equivalence Class) dan

(9)

membandingkannya, yang diperhatikan tidak hanya atribut kondisinya saja, tetapi juga

atribut keputusannya. Jika nilai atributnya sama maka tidak menghasilkan suatu nilai,

tetapi jika nilai atribut yang dibandingkan berbeda maka akan menghasilkan suatu

nilai, seperti dapat dilihat pada tabel 2.9 yang merupakan Discernibility Matrix Modulo D.

Tabel 2.9 Discernibility Matrix Modulo D

2.2.6. Reduct

Teknik yang dapat diterapkan untuk mendapatkan representasi volume data set yang

jauh lebih kecil disebut dengan Reduct, namun tetap mempertahankan integritas data

asli. Artinya pertambangan data set berkurang harus lebih efisien atau sama dengan

dengan hasil analisis (Han, et al. 2012)

Discernibility matrix modulo D pada tabel 2.9 dapat ditulis sebagai formula CNF (Conjunctive Normal Form) seperti diperlihatkan pada tabel 2.10.

Tabel 2.10. Reduct

2.2.7. Generating Rule

Generating Rules adalah suatu metode rough set untuk menghasilkan rules/knowledge berdasarkan equivalence class dan reduct. Generating Rules dapat juga dikatakan sebagai suatu algoritma dari Data Mining, yang nantinya dari proses Generating Rules

ini akan dihasilkan suatu rules / knowledge yang dapat digunakan dalam sebuah pengambilan keputusan.

Dari hasil reduct yang diperoleh maka didapatkan suatu rules / knowledge. Seperti contoh di atas, rules yang didapatnya adalah :

EC1 _EC2

EC1 - AC

EC2 - AC

Class CNF of Boolean Function Prime Implicant Reducts

EC1 A ^ C (A), (C) {A}, {C}

(10)

Rules :

A. EC 1 Menghasilkan reduct {A}, {C}, rulenya adalah:

Jika demam = 1 dan sakit perut = 1, maka diagnosa = 1

B. EC 2 Menghasilkan reduct {A}, {C}, maka rulenya adalah:

Jika demam = 0 dan sakit perut = 0, maka diagnosa = 2

2.3. Algoritma Apriori

Algoritma apriori menghitung seringnya itemset muncul dalam basis data

melalui beberapa iterasi. Setiap iterasi mempunyai dua tahapan menentukan

kandidat dan memilih serta menghitung kandidat (Ashok & Sandeep, 2014). Ide

dasar dari algoritma ini adalah dengan mengembangkan frequent itemset. Dengan menggunakan satu item dan secara rekursif mengembangkan frequent itemset dengan dua item, tiga item dan seterusnya hingga frequent itemset dengan semua ukuran.

Untuk mengembangkan frequent set dengan dua item, dapat menggunakan frequent set item. Alasannya adalah bila set satu item tidak melebihi support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara umum, mengembangkan set dengan frecuent – item menggunakan frequent set dengan k – 1 item yang dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali pemeriksaan ke seluruh isi database.

Dalam asosiasi terdapat istilah antecedent dan consequent, antecedent untuk mewakili bagian “jika” dan consequent untuk mewakili bagian “maka”. Dalam analisis ini, antecedent dan consequent adalah sekelompok item yang tidak punya hubungan secara bersama. Dari jumlah besar aturan yang mungkin dikembangkan,

perlu memiliki aturan-aturan yang cukup kuat tingkat ketergantungan antar item

dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan ukuran support dan confidence. Support adalah rasio antara jumlah transaksi yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang meliputi semua item dalam antecedent dan consequent dengan jumlah transaksi yang meliputi semua item dalam antecedent.

(11)

=

� _�� _� � �_{� �} � _�� _� � X 100% ... [2.6]

Langkah pertama algoritma apriori adalah, support dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support lebih besar dari minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set yang

terdiri dari k item.

Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item.

Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap

kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2. Untuk

selanjutnya iterasi iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :

1. Pembentukan kandidat itemset

Kandidat k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dari

iterasi sebelumnya. Satu ciri dari algoritma apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak

termasuk dalam pola frekuensi tinggi dengan panjang k-1.

2. Penghitungan support dari tiap kandidat k-itemset

Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang memuat semua item di dalam

kandidat k-itemset tersebut. Ini adalah juga ciri dari algoritma apriori yaitu diperlukan penghitungan dengan scan seluruh database sebanyak k-itemset

terpanjang.

3. Tetapkan pola frekuensi tinggi

Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari

kandidat k-itemset yang support-nya lebih besar dari minimum support. Kemudian dihitung confidence masing-masing kombinasi item.

Iterasi berhenti ketika semua item telah dihitung sampai tidak ada kombinasi item

(12)

Create L1 = set of supported itemsets of cardinality one Set k to 2

while (Lk−1 _= ∅) {

Create Ck from Lk−1

Prune all the itemsets in Ck that are not supported, to create Lk

Increase k by 1 }

The set of all supported itemsets is L1 ∪ L2 ∪ · · · ∪ Lk

2.3.1. Classification-Based Association

Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan

menerapkan konsep association rule mining dalam masalah klasifikasi. Ada

beberapa metode yang bisa digunakan, antara lain association rule clustering system (ARCS) dan associative classification (Han, et al. 2012). Metode ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan

association rule mining dalam bentuk Aquant1  Aquant2  Acat, dimana bentuk Aquant1

dan Aquant2 adalah data test yang atributnya punya rentang nilai, Acat menunjukkan

label kelas untuk atribut kategori yang diberikan dari training data .

Metode associative classification mining menghasilkan aturan dalam bentuk condset (y), dimana condset adalah sekumpulan item dan (y) adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule mempunyai support (s) jika (s %) dari sample dalam data set yang mengandung condset dan memiliki kelas (y). Aturan yang sesuai dengan minimum confidence disebut accurate. Aturan mempunyai confidence (c) jika (c %) dari sample dalam data

set yang mengandung condset memiliki kelas (y). Jika beberapa rule mempunyai

(13)

classification masih kurang efisien karena seringkali menghasilkan aturan dalam jumlah yang besar (Yin & Han 2003).

2.4. Penelitian Terdahulu

Pada penelitian ini, peneliti menggunakan beberapa penelitian terdahulu yang

digunakan sebagai bahan kajian selama proses penelitian, yaitu penelitian yang

dilakukan (Adeyemo, et al. 2015), melakukan penelitian tentang diagnosa demam

tifoid menggunakan tiga metode yaitu ID3, C45 dan Multilayer Perceptron (MLP),

dari hasil penelitian tersebut MLP memiliki tinggi akurasi terbaik dibandingkan

dengan kedua metode lainnya, akan tetapi dalam hal kecepatan algoritma C45

ditemukan menjadi yang terbaik dalam data training; (Oguntimilehin, et al. 2013),

melakukan sebuah pendekatan untuk diagnosa demam tifoid menggunakan teknik

machine learning yang dikembangkan dalam penelitian ini dan kinerja sistem diukur

pada kedua set pelatihan dan pengujian; (Budiono, et al. 2014) dalam penelitiannya

melakukan identifikasi dan pencarian informasi mengenai pola penyakit radang sendi

dengan teknik data mining association rule menggunakan algoritma apriori, penelitian

ini menampilkan informasi berupa nilai support dan confidence hubungan antara pola

penyakit radang sendi dengan atribut umur, jenis kelamin, pekerjaan dan gejala;

(Widiastuti & Sofi, 2014) melakukan analisis perbandingan antara algoritma apriori

dan fp-growth dalam penelitian ini ditemukan kekurangan pada algoritma apriori

terkait dengan kecepatan dalam pencarian frequent itemset karena harus melakukan

scanning database berulang kali untuk setiap kombinasi item, selain itu juga

dibutuhkan generate candidate yang besar untuk mendapatkan kombinasi item dari

database sedangkan pada fp-growth menggunakan pembangunan tree dalam pencarian

fruquent item hal tersebut yang menyebabkan algoritma fp-growth lebih cepat. Hasil

(14)

Tabel 2.11. Penelitian Terdahulu 3. Widiastuti & Sofi. 2014) Algoritma

(15)

2.5. Perbedaan dengan Penelitian Sebelumnya

Perbedaan penelitian yang peneliti lakukan pada saat ini berdasarkan penelitian yang

telah dilakukan sebelumnya, peneliti melakukan Analisis kinerja metode rough set dan

algoritma apriori untuk mendapatkan akurasi yang optimal dalam identifikasi pola