• Tidak ada hasil yang ditemukan

Algoritma Data Mining (2) Tugas Klasifikasi

N/A
N/A
Protected

Academic year: 2021

Membagikan "Algoritma Data Mining (2) Tugas Klasifikasi"

Copied!
28
0
0

Teks penuh

(1)

Algoritma  Data  Mining  (2)  

Tugas  Klasifikasi  

(2)

Kompentensi  

• 

Mahasiswa  mengetahui  algoritma  data  

mining  pada  tugas  klasifikasi  

(3)

Pokok  Bahasan  

(4)

Supervised  Learning  à  Klasifikasi  

Nasabah     Tabungan   Aset   Pendapatan   Risiko     Kredit  

A   Sedang   Tinggi   75   Baik   B   Rendah   Rendah   50   Buruk   C   Tinggi   Sedang   25   Buruk   D   Sedang   Sedang   50   Baik   E   Rendah   Sedang   100   Baik   F   Tinggi   TInggi   25   Baik   G   Rendah   Rendah   25   Buruk   H   Sedang   Sedang   75   Baik  

I   Tinggi   Rendah   50   ?  

K l a s i fi k a s i   d i g u n a k a n   u n t u k  

mengetahui   variabel   target   jika  

diketahui   hubungan   tersembunyi  

antara  variabel  input.  

Tabel   di   samping   contoh   dari   masalah  

yang   dapat   diselesaikan   dengan   tugas  

data  mining  klasifikasi.  

 

Variabel  target  dari  masalah  ini  adalah  

resiko  kredit.  

Sedangkan   variabel   inputnya   adalah  

tabungan,  aset,  dan  pendapatan.  

(5)

Algoritma  C4.5  (1)  

• 

Algoritma  C4.5  merupakan  algoritma  yang  digunakan  untuk  membentuk  

pohon  keputusan.  

• 

Dapat  diekspresikan  dalam  bentuk  bahasa  basis  data  seperti  SQL  untuk  

mencari  record  pada  kategori  tertentu.  

• 

Berguna  untuk  mengeksplorasi  data,  menemukan  hubungan  tersembunyi  

antara  sejumlah  calon  variabel  input  dengan  sebuah  variabel  target.  

• 

Proses  pada  pohon  keputusan  adalah  mengubah  bentuk  data  (tabel)  

menjadi  model  pohon,  mengubah  model  pohon  menjadi  rule,  dan  

menyederhanakan  rule  (Basuki  &  Syarif,  2003)  

(6)

Algoritma  C.45  (2)  

Langkah-­‐langkah  secara  umum:  

1.  Pilih  atribut  sebagai  akar  (root)  

2.  Buat  cabang  untuk  tiap-­‐tiap  nilai  

3.  Bagi  kasus  dalam  cabang  

4.  Ulangi  proses  untuk  setiap  cabang  (langkah  1,  2,  dan  

3)  sampai  semua  kasus  pada  cabang  memiliki  kelas  

(7)

Contoh  Kasus  (1)  

• 

Diberikan  beberapa  data  tentang  keputusan  

bermain  tenis.  

• 

Buatlah  pohon  keputusan  dengan  algoritma  

c4.5  agar  kelak  kita  dapat  memutuskan  

bermain  atau  tidak  jika  diketahui  informasi  

lainnya.  

(8)
(9)

Penyelesaian    

1.  Tentukan  mana  variabel  tujuan,  mana  

variabel  input.  

2.  Lakukan  tahap-­‐tahap  algoritma  C4.5  pada  

variabel  input  untuk  menentukan  variabel  

tujuan.  

(10)

Penentuan  Variabel  Tujuan  dan    

Variabel  Input  

• 

Berdasar  tabel  dan  pertanyaan,  maka  dapat  

dituliskan  bahwa:  

– 

Variabel  tujuan  adalah  kolom  “play”  

– 

Variabel  input  adalah  kolom  “outlook”,  

(11)

Langkah  1:  Pilih  atribut  sebagai  akar  (1)    

• 

Untuk  memilih  atribut  sebagai  akar,  didasarkan  pada  nilai  

gain  tertinggi  dari  variabel  input.  Rumusnya:  

Keterangan:  

S  =  himpunan  kasus  

A  =  atribut  

n  =  jumlah  partisi  atribut  A  

|S

i

|  =  jumlah  kasus  pada  partisi  ke-­‐1  

|S|  =  jumlah  kasus  dalam  S  

(12)

Langkah  1:  Pilih  atribut  sebagai  akar  (2)    

• 

Sedangkan  untuk  mencari  nilai  entrophy,  digunakan  rumus  

berikut  ini:  

Keterangan:  

S  =  himpunan  kasus  

n  =  jumlah  partisi  S  

(13)

Langkah  1:  Pilih  atribut  sebagai  akar  (3)    

• 

Hasil  perhitungan  gain  pada  masing-­‐masing  atribut  adalah  seperti  tertera  

pada  tabel  perhitungan  node  1  berikut  ini:  

Tips  mengitung  nilai  

entrophy:  

 

Jika  salah  satu  nilai  

dari  kolom  “ya”  dan  

“tidak”  ada  yang  

nilainya  “0”,  maka  

dipastikan  nilai  

entrophy  juga  “0”  

 

Jika  nilai  kolom  “ya”  

dan  “tidak”  bernilai  

sama,  maka  

(14)

Langkah  1:  Pilih  atribut  sebagai  akar  (4)    

• 

Pada  tabel  tersebut  dapat  dilihat  bahwa  nilai  gain  tertinggi  

adalah  pada  artibut  “humidity”,  yaitu  0,3705065.  

• 

Maka  atribut  “humidity”  ini  adalah  akar  dari  pohon  

keputusan.  

(15)

Langkah  2:  buat  cabang  untuk  masing-­‐

masing  nilai  

Keterangan:  

Pengisian  cabang  

berdasar  pada  nilai  

yang  ada  di  kolom  

humidity,  yaitu  high  

dan  normal  (lihat  

soal).  

(16)

Langkah  3:  Bagi  kasus  dalam  cabang  

Keterangan:  

Humidity  memiliki  dua  nilai,  high  dan  normal.  Pada  perhitungan  node  1,  untuk  nilai  

normal  menghasilkan  7  keputusan  yes  dan  0  keputusan  no.  Artinya  untuk  semua  nilai  

humidity  normal  keputusannya  adalah  yes,  maka  anak  cabang  dari  normal  adalah  yes.  

 

(17)

Langkah  4:  ulangi  langkah  1,  2,  dan  3  sampai  

tidak  ada  percabangan  lagi  (1).  

(18)

Langkah  4:  ulangi  langkah  1,  2,  dan  3  sampai  

tidak  ada  percabangan  lagi  (2)  

• 

Pada  tabel  tersebut  dapat  dilihat  bahwa  nilai  gain  tertinggi  

adalah  pada  artibut  “outlook”,  yaitu  0,69951385.  

• 

Maka  atribut  “outlook”  ini  adalah  anak  cabang  dari  

humidity  “high”.  

(19)

Langkah  4:  ulangi  langkah  1,  2,  dan  3  sampai  

tidak  ada  percabangan  lagi  (3)  

Keterangan:  

Outlook  memiliki  tiga  nilai  yaitu:  sunny,  cloudy,  dan  rainny.  Pada  perhitungan  node  2,  

dapat  dilihat  untuk  semua  nilai  outlook  sunny  keputusannya  adalah  no.  Untuk  semua  

nilai  cloudy  keputusannya  adalah  yes.      

 

Sedangkan  untuk  rainny  belum  jelas  keputusannya,  maka  anak  cabang  dari  rainny  perlu  

dicari  kembali  (perhitungan  node  3)    

(20)

Langkah  4:  ulangi  langkah  1,  2,  dan  3  sampai  

tidak  ada  percabangan  lagi  (4).  

(21)

Langkah  4:  ulangi  langkah  1,  2,  dan  3  sampai  

tidak  ada  percabangan  lagi  (5)  

• 

Pada  tabel  tersebut  dapat  dilihat  bahwa  nilai  gain  tertinggi  adalah  pada  

artibut  “windy”,  yaitu  1.  

(22)

Langkah  4:  ulangi  langkah  1,  2,  dan  3  sampai  

tidak  ada  percabangan  lagi  (6)  

Keterangan:  

Windy  memiliki  dua  nilai  yaitu:  true  dan  false.  Pada  perhitungan  node  3,  dapat  dilihat  

untuk  semua  nilai  windy  true  keputusannya  adalah  no.  Untuk  semua  nilai  false  

(23)
(24)

Hasil  Akhir  Klasifikasi  (2)  

• 

Dari  pohon  keputusan  tersebut  dapat  dibuat  suatu  

rumusan:  

– 

Humidity:  Normal  à  main  tenis  

– 

Humidity:  High,  Outlook:  Cloudy  à  main  tenis  

– 

Humidity:  High,  Outlook:  Sunny  à  tidak  main  tenis  

– 

Humidity:  High,  Outlook:  Rainny,  Windy:  false  à  main  tenis  

– 

Humidity:  High,  Outlook:  Rainny,  Windy:  trueà  tidak  main  

(25)

Implementasi  

Data  mining  tugas  klasifikasi  (algoritma  c4.5)  

(26)
(27)

Kuis  (1)  

(28)

Kuis  (2)  

• 

Buatlah  pohon  keputusan  yang  dapat  

mengklasifikasikan  rekomendasi  lensa  

berdasar  atribut  yang  lain!  

Gambar

Tabel	
   di	
   samping	
   contoh	
   dari	
   masalah	
   yang	
   dapat	
   diselesaikan	
   dengan	
   tugas	
   data	
  mining	
  klasifikasi.	
  

Referensi

Dokumen terkait

Berdasarkan analisis data kinerja mahasiswa pada mata kuliah pendukung proyek akhir mereka menggunakan algoritma ID3, CHAID dan Naïve Bayes berdasarkan literatur

Abstrak: Kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan dengan itu, berdasarkan persetujuan pinjam meminjam antara bank dengan pihak lain yang

Tahap ini juga dapat disebut tahap learning karena pada tahap ini data training diklasifikasikan oleh model dan kemudian menghasilkan sejumlah aturan. Untuk membuat pohon

Kesimpulan yang dapat diambil dari penelitian ini adalah Hubungan antara kesiapan skripsi dengan kinerja akademik mahasiswa dilihat dari durasi tahapan skripsinya,

Prediksi Laris dengan true Laris sebanyak 75 data adapun produk sebagai berikut Banana Chips Keju, Banana Chips Original, Bolu Ketan Vanila, Bolu Pandan, Brownies

Pada penelitian ini pencarian nilai euclidean dari keterkaitan level kelulusan mahasiswa dengan data induk dari mahasiswa, yaitu dari nilai Indek Prestasi dari semester

Pada penelitian ini akan dilakukan penerapan algoritma Decision Tree, Naive Bayes, KNN dan SVM untuk prediksi penyakit kulit dan diaplikasikan pada dataset penyakit kulit

Berdasarkan analisis data kinerja mahasiswa pada mata kuliah pendukung proyek akhir mereka menggunakan algoritma ID3, CHAID dan Naïve Bayes berdasarkan literatur