Klasifikasi Metode Data Mining - : TINJAUAN PUSTAKA dan DASAR TEORI

BAB II : TINJAUAN PUSTAKA dan DASAR TEORI

2.4 Klasifikasi Metode Data Mining

Ada beberapa contoh metode yang bisa digunakan dalam data mining, diantaranya :

1. Decesion Tree (Pohon Kputusan)

Pohon Keputusan merupakan salah satu teknik terkenal dalam data mining dan merupakan salah satu metode yang populer dalam menentukan keputusan sautu kasus. Hal ini karena metode ini tidak memerlukan proses pengelolaan pengetahuan terlebih dahulu dan dapat menyelesaikan dengan sederhana kasus-kasus yang memiliki dimensi yang besar. Akurasinya sangat baik asalkan data yang akan dijadikan patokan merupakan data yang akurat. Metode ini banyak diterapkan dalam dalam berbagai bidang antara lain: kesehatan dan pengobatan, finansial, produksi, astronomi, hingga biologi molekuler. Tugas paling umum yang diserahkan kepada

pohon keputusan adalah klasifikasi. Dari set database kita bisa mengetahui apakah suatu nasabah merupakan nasabah yang baik atau tidak dari riwayatnya, seseorang berpeluang terkena suatu penyakit tertentu berdasarkan riwayat dan lain-lain.

Pohon keputusan merupakan teknik yang paling efisien. Ibaratnya, kita menyaring sesuatu lewat pohon keputusan, apakah suatu data lolos atau tidak terhadap saringan kita dengan proses yang cukup cepat. Teknik regresi sangat banyak, tetapi yang paling terkenal adalah algoritma yang diperkenalkan oleh Prof. Briemann dengan istilah The Classification and Regression Tree (CART).

Masalah pertama pada pembuatan pohon keputusan adalah, variabel manakah yang menjadi akar dari pohon tersebut. Akar disini adalah pemisah pertama dari pohon keputusan. Dikenal istilah Bayesian Score yang menilai suatu variabel, atau dalam Pohon Keputusan terkenal dengan sebutan Entropi. Entropi dihitung dengan rumusan sebagai berikut :

Entropy (p1, p2, ..., pn) = - p1log2p1 – p2log2P2 ... – pnlog2pn (2.1)

Dimana p1, p2, ..., pn adalah probabilitas tiap kondisi pada atribut yang diprediksi dan : p1 + p2 + ... + pn = 1 (2.2) Algoritma pohon keputusan yang terkenal adalah C4.5. Pada akhir tahun 1970 sampai awal tahun 1980 J. Ross Quinlan, seorang peneliti di bidang mechine learning, membuat sebuah algoritma decision tree yang terkenal dengan ID3 (Iterative Dichotomiser). Quinlan kemudian membuat algoritma C4.5 (sering disebut dengan pohon keputusan) yang merupakan pengembangan dari algoritma ID3 (Han, 2006). Algoritma ini memiliki kelebihan, yaitu mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar (pohon keputusan). Algoritma C4.5 merupakan struktur pohon dimana terdapat simpul yang mendeskripsikan atribut-atribut, setiap cabang menggambarkan hasil atribut yang diuji, dan setiap daun menggambarkan kelas. Algoritma C4.5 secara rekursif mengunjungi setiap simpul keputusan, memilih pembagian yang optimal, sampai tidak bisa dibagi lagi. Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk

memilih pembagian yang optimal. Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5, yaitu :

1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas tertentu.

2. Menentukan akar dari pohon. Akar dari pohon dimbil dari atribut yang terpilih, dengan cara mengitung nilai gain dari masing-masing atribut, nilai gain yang paling tinngi akan menjadi akar yang pertama. Sebelum menghitung nilai gain dari atribut, hitung dulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus : Entropy(S) =

∑

- pi . log2 pi (2.3) Keteragan : S = Himpunan Kasus n = Jumlah Partisi S pi = Proporsi Si terhadap S

3. Kemudian hitung nilai gain menggunakan rumus :

Gain (S,A) = Entropy(S) -

∑

* Entropy (Si) (2.4)

Keterangan :

S = Himpunan Kasus A = Fitur

n = Jumlah Partisi atribut A | Si | = Proporsi Si terhadap S | S | = Jumlah Kasus dalam S

4. Ulangi langkah ke-2 hingga semua record terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat :

a. Semua record dalam simpul N mendapat kelas yang sama. b. Tidak ada atribut di dalam record yang dipartisi lagi. c. Tidak ada record di dalam cabang yang kosong.

i=1

i=1 | Si | | S |

Tabel 2.2 dibawah ini adalah contoh data training apakah seseorang nasabah bermasalah dalam kredit atau tidak.

Tabel 2.2 Data untuk klasifikasi resiko kredit

Pelanggan Simpanan Aset Pendapatan Resiko Kredit

1 Medium High 75 Good

2 Low Low 50 Bad

3 High Medium 25 Bad

4 Medium Medium 50 Good

5 Low Medium 100 Good

6 High High 25 Good

7 Low Low 25 Bad

8 Medium Medium 75 Good

Data training pada Tabel 2.2 adalah untuk menentukan apakah seseorang nasabah bermasalah atau tidak, ditentukan oleh kolom predictor saving, asset, dan pendapatan. Kolom Resiko Kredit adalah kelas dari masing-masing record.

Berikut akan dibahas prediksi apakah nasabah bermasalah atau tidak, menggunakan metode klasifikasi. Langkah untuk membuat pohon keputusan, yaitu :

1. Tabel 2.2 adalah data training beserta kelasnya. Untuk atribut pendapatan yang bernilai angka, dibuat dalam bentuk kategori, yaitu pendapatan <=25, pendapatan >25, pendapatan <=50, pendapatan >50, pendapatan <=75, pendapatan >75.

2. Hitung entropy. Dari data training diketahui jumlah kasus ada 8, yang beresiko kredit good 5 record dan Bad 3 record sehingga didapat entropy :

Entropy = ∑𝑛 − 𝑝𝑖. 𝑙𝑜𝑔2 𝑝𝑖

𝑖=0 (2.5)

= (-5/8 . log2 (5/8)) + (-3/8 . log (3/8)) = 0.9544

3. Hitung nilai Gain untuk setiap atribut, lalu ditentukan nilai gain tertinggi. Yang mempunyai nilai gain tertinggi itulah yang akan dijadikan akar dari pohon. Misalkan atribut saving dengan nilai low didapat nilai gain :

Gain (S,A) = Entropy(S) - ∑^𝑛_𝑖=0|𝑆𝑖| * Entropy (𝑆𝑖) (2.6)

Gain (S,A) = 0.9544 – ( 2/8(1) + 3/8(0) + 3/8(0.9183) = 0.3601 )

Hasil perhitungan gain untuk setiap atribut terlihat pada Tabel 2.3. Nilai gain tertinggi akan menjadi akar pohon.

Terlihat dari Tabel 2.3 Atribut, asset mempunyai nilai low, medium, dan high. Nilai low dan high masing-masing sudah menjadi satu klasifikasi karena pada data training, semua asset menghasilkan keputusan yang sama yaitu bad untuk nilai low dan good untuk nilai high. Sedangkan untuk simpul dengan nilai medium perlu dipartisi lagi.

Asset X Good Bad Low Medium High

Gambar 2.2 Pohon Keputusan dengan Simpul Akar Asset

Gambar 2.2 adalah hasil pembentukan pohon keputusan berdasarkan perhitungan yang terdapat pada Tabel 2.2. Dari hasil perhitungan didapat gain tertinggi untuk atribut asset, maka asset menjadi akar dari pohon keputusan. Untuk menentukan akar dari atribut medium, dilakukan lagi perhitungan nilai gain (Prabowo Pudjo Widodo, Ramadya Trias Handayanto, Herlawati (2013).

Tabel 2.3 Nilai Entropy dan Gain untuk menentukan Simpul Akar

Simpul Data Good Bad Entropy Gain

Akar Total 8 5 3 0.9544 Saving 0.3601 Low 3 1 2 0.9183 Medium 3 3 0 0 High 2 1 1 1 Asset 0.5488 Low 2 0 2 0 Medium 4 3 1 0.8113 High 2 2 0 0 Pendapatan 0.1589 <=25 3 1 2 0.9183 >25 5 4 1 0.7219 0.3476 <=50 5 2 3 0.9710 >50 3 3 0 0 0.0924 <=75 7 4 3 0.9852 >75 1 1 0 0

2. Support Vector Machine (SVM)

Support Vector Machine merupakan metode klasifikasi jenis terpandu (supervised) karena ketika proses pelatihan, diperlukan target pembelajaran tertentu, berbeda dengan FCM yang dalam proses klasifikasi tidak membutuhkan target pelatihan.

Support Vector Machine merupakan algoritma yang bekerja menggunakan pemetaan nonlinier untuk mengubah data pelatihan asli ke dimensi yang lebih tinggi. Dalam hal ini dimensi baru, akan mencari hyperplane untuk memisahkan secara linier dan dengan pemetaan nonlinier yang tepat ke dimensi yang cukup tinggi, data dari dua kelas selalu dapat dipisahkan dengan hyperplane tersebut. Support Vector Machine menemukan hyperplane ini menggunakan support vector dan margin.

Support Vector Machine muncul pertama kali pada tahun 1992 oleh Vladimir Vapnik berama rekannya Bernhard Boser dan Isabelle Guyon. Dasar untuk SVM sudah ada sejak tahun 1960-an (termasuk karya awal oleh Vapnik dan Alexei Chervonenkis pada teori belajar statistik).

Meskipun waktu pelatihan SVM kebanyakan lambat, tetapi metode ini sangat akurat karena kemampuannya untuk menangani model-model nonlinier yang kompleks. SVM kurang rentan terhadap overfitting dibandingkan metode lainnya. SVM dapat digunakan untuk prediksi dan klasifikasi. Contoh penerapannya antara lain deteksi tulisan tangan, pengenalan obyek, identifikasi suara, dan lain-lain (Prabowo Pudjo Widodo, Ramadya Trias Handayanto, Herlawati (2013).

3. Adaptive Neuro – Fuzzy Inference System (ANFIS)

berbeda dengan Fuzzy Inference System (FIS) atau yang lebih dikenal dengan fuzzy saja, ANFIS membuat rule berdasarkan data yang di training lewat mekanisme mirip jaringan syaraf tiruan (JST). Jenis rule yang bia dilayani hanyalah yang bertipe Takagi-Sugeno-Kang (TSK), atau dikenal dengan istilah Sugeno saja. Jenis mamdani tidak dapat diterapkan pada ANFIS. Untuk mengenal lebih dekat dengan fuzzy TSK tersebut ini ringkasannya.

Metode TSK diprakasai oleh Takagi, Sugeno, dan Kang pada tahun 1985. Tujuannya untuk memperoleh rule yang berasal dari hubungan masukan dan keluaran suatu sistem. Prinsipnya antara lain :

If x is A and y is B then z = f(x,y) (2.7)

Dimana A dan B merupakan set Fuzzy sedangkan z merupakan fungsi dalam bentuk crisp (bukan fuzzy). Jadi perbedaan mencolok antara TSK dengan Mamdani terletak sisi kanan setelah “then” karena pada metode mamdani, setelah “then” masih berupa fungsi fuzzy, bukan crisp (Prabowo Pudjo Widodo, Ramadya Trias Handayanto, Herlawati (2013).

4. Interactive Dychotomizer Three(ID3)

ID3 (Iterative Dichotomiser Three) atau yang disebut juga dengan Induction of Decision Tree adalah suatu algoritma matematika yang digunakan untuk menghasilkan suatu pohon keputusan yang mampu mengklasifikasi suatu obyek. Pengertian laindari ID3 yaitu ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan.

ID3 diperkenalkan pertama kali oleh Ross Quinlan (1979). ID3 merepresentasi konsep-konsep dalam bentuk pohon keputusan. Aturan-aturan yang dihasilkan oleh ID3 mempunyai relasi yang hirarkis seperti suatu pohon (mempunyai akar, titik, cabang, dan daun). Beberapa peneliti menyebut struktur model yang dihasilkan ID3 sebagai pohon keputusan (decision tree) sementara peneliti yang lain menyebutnya pohon aturan (rule tree).

Algoritma pada ID3 berbasis pada Occam’s razor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu occam’s razor bersifat heuristik. Occam’s razor diformalisasi menggunakan konsep dari entropi informasi.

Dalam dokumen Implementasi Metode ID3 untuk memprediks (Halaman 26-34)