Klasifikasi & Prediksi
Elsen Ronando, S.Si.,M.Si.,M.Sc.
Teknik Informatika Fakultas Teknik
Universitas 17 Agustus 1945 Surabaya
2017
Rencana Presentasi
1
Pendahuluan
Apa Proses Klasifikasi & Prediksi ? Langkah-Langkah Proses Klasifikasi Tantangan Klasifikasi & Prediksi
2
Metode Klasifikasi Pohon Keputusan
3
Catatan
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 2 / 24
Pendahuluan
Apa Proses Klasifikasi ?
Teknik untuk memprediksi kategori kelas label dari sekumpulan data.
Proses pengelompokan data (membangun model) berdasarkan pelatihan data dan kelas labelnya dalam klasifikasi atribut dan menggunakan pemodelan untuk mengklasfikasian data baru.
Termasuk pembelajaran terawasi → Supervised Learning (terdapat target kelas label untuk masing-masing atribut data).
Apa Proses Prediksi ?
Fungsi model kontinu untuk meramalkan nilai yang belum diketahui atau missing.
Aplikasi :
Aplikasi kredit.
Aplikasi pemasaran.
Aplikasi diagnosa medis.
dan lain-lain
Pendahuluan
Langkah-Langkah Proses Klasifikasi
Membangun Model : menjelaskan kumpulan kelas yang telah ditetapkan.
Setiap sampel data diasumsikan kedalam kelas yang telah ditetapkan sesuai dengan atribut label kelasnya.
Sampel data digunakan untuk membangun model → proses pelatihan.
Model yang dibangun dapat direpresentasikan dalam aturan klasifikasi, pohon keputusan, maupun rumus matematika.
Menggunakan model: mengklasifikasikan data selanjutnya atau yang belum diketahui.
Mengestimasi akurasi dari model tersebut.
Perbandingan hasil klafikasi model dengan data awal/uji.
Tingkat akurasi dalam prosentase berdasarkan kesesuaian kebenaran.
Data uji terpisah dari data pelatihan → untuk mengetahui over-fitting.
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 4 / 24
Pendahuluan
Langkah-Langkah Proses Klasifikasi
Membangun Model :
Pendahuluan
Langkah-Langkah Proses Klasifikasi Menggunakan Model : Prediksi
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 6 / 24
Pendahuluan
Tantangan Klasifikasi & Prediksi Persiapan Data
Pembersihan data → mereduksi noise dan mengontrol nilai missing.
Analisa Relevan (Seleksi Fitur) → menghapus atribut tidak relevan atau redudansi.
Transformasi data → normalisasi data.
Evaluasi Metode Klasifikasi Akurasi.
Kecepatan dan skalabilitas → waktu untuk membangun dan menggunakan model.
Kekuatan → mengontrol noise dan nilai missing.
Skalabilitas → efisiensi dalam basis data.
Pemahaman → wawasan yang disediakan oleh model.
Aturan → ukuran pohon keputusan & keterkaitan aturan klasifikasi.
Metode Klasifikasi
Pohon Keputusan (Decision Tree) Konsep Dasar :
Proses yang memerlukan satu atau kumpulan keputusan dalam penyelesaiannya.
Berkaitan erat dengan konsep hirarki maupun pohon.
Proses pengambilan keputusan melalui pendekatan statistik dalam kondisi uncertainty.
Contoh Pohon Keputusan
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 8 / 24
Metode Klasifikasi
Permasalahan
Investor memiliki sejumlah dana untuk diinvestasikan pada dua alternati proyek, yaitu proyek A dan B. Peluang proyek A akan memberikan
keuntungan adalah 20% dengan nilai keuntungan 50 juta. Peluang proyek B akan memberikan keuntungan adalah 45% dengan nilai keuntungan 10 juta. Tentukan pohon keputusan untuk membantu investor dalam berinvestasi !
Penyelesaian :
Metode Klasifikasi
Permasalahan
Pengambilan Keputusan : Nilai Ekspektasi Ekonomi
Nilai Ekspektasi Ekonomi Proyek A = P (probabilitas × nilai payoff)
= (0.20 × 50juta)+(0.8 × 0)= 10 juta.
Nilai Ekspektasi Ekonomi Proyek B = P (probabilitas × nilai payoff)
= (0.45 × 10juta)+(0.55 × 0)= 4.5 juta.
Jadi, investor tersebut harus memilih proyek A.
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 10 / 24
Metode Klasifikasi
Permasalahan
Tabel 1. Set Data Pengambil Keputusan
cuaca temperatur kelembapan angin Bermain
mendung dingin normal ya ya
mendung panas tinggi tidak ya
mendung panas normal tidak ya
mendung sedang tinggi ya ya
hujan dingin normal ya tidak
hujan sedang tinggi ya tidak
hujan dingin normal tidak ya
hujan sedang tinggi tidak ya
hujan sedang normal tidak ya
terang panas tinggi tidak tidak
terang panas tinggi ya tidak
terang sedang tinggi tidak tidak
terang dingin normal tidak ya
terang sedang normal ya ya
Metode Klasifikasi
Permasalahan
Bagaimana hasil keputusan dalam memprediksi data baru ? cuaca temperatur kelembapan angin Bermain
hujan dingin tinggi tidak ?
Apa yang perlu dilakukan untuk menyelesaikan permasalahan prediksi diatas ?
Solusi
Bangun sebuah model → Pohon Keputusan.
Salah satu teknik pohon keputusan ID3 dapat diterapkan → nilai entropi dan informasi gain.
Uji data baru (data prediksi) kedalam model → keputusan baru diperoleh.
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 12 / 24
Metode Klasifikasi
Pohon Keputusan ID3
Perhitungan Nilai Entropi
Pohon keputusan → akar pohon dan anak pohon.
Algoritma ID3 → menghitung kehomogenan sampel.
Jika sampel adalah homogen, maka entropinya adalah nol. Jika sampel adalah seimbang, maka entropinya adalah satu.
Entropi = −p log
2p − q log
2q Entropi menggunakan tabel frekuensi dari satu atribut:
E (S ) =
c
X
i =1
−p
ilog
2p
iEntropi menggunakan tabel frekuensi dari dua atribut:
E (T , X ) = X
P(c)E (c)
Metode Klasifikasi
Pohon Keputusan ID3
Perhitungan Informasi Gain
berkaitan dengan penurunan entropi setelah set data dibagi pada sebuah atribut.
Gain (T , X ) = Entropi(T ) − Entropi(T , X )
Cari nilai gain terbesar untuk mencari atribut dalam pohon keputusan.
Step 1
Hitunng nilai entropi target :
Entropi(target) = Entropi(ya, tidak) = Entropi(9, 5)
= −( 9
14 log
29 14 + 5
14 log
25 14 )
= 0.94
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 14 / 24
Metode Klasifikasi
Step 2
Setdata dibagi pada atribut yang berbeda. Entropi setiap pohon dihitung.
Secara proporsional, dapatkan total entropi untuk pembagi.
Hasil entropi disubstrak dari entropi sebelum dibagi.
Hitung informasi gain.
Analisa Atribut Cuaca:
Mendung → Entropi(4,0)
Entropi(4, 0) = −(4 4log24
4+0 4log20
4) = 0 Hujan → Entropi(3,2)
Entropi(3, 2) = −(3 5log23
5+2 5log22
5) = 0.97 Terang → Entropi(2,3)
Entropi(2, 3) = −(2 log 2
+3 log 3
) = 0.97
Metode Klasifikasi
Step 2
Analisa Atribut Cuaca (Lanjutan):
Nilai entropi Cuaca
Entropi(Cuaca) = 4
14 (0) + 5
14 (0.97) + 5
14 (0.97) = 0.69 Nilai Informasi Gain Cuaca
Gain(Cuaca) = Entropi(target) − Entropi(cuaca) = 0.94 − 0.69 = 0.25 Dengan cara yang sama pada atribut Cuaca, nilai gain untuk atribut lainya:
Nilai Informasi Gain Temperatur
Gain(Temperatur) = Entropi(target) − Entropi(temperatur)
= 0.94 − 0.91 = 0.03
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 16 / 24
Metode Klasifikasi
Step 2
Dengan cara yang sama pada atribut Cuaca, nilai gain untuk atribut lainya (Lanjutan):
Nilai Informasi Gain Kelembapan
Gain(Kelembapan) = Entropi(target) − Entropi(kelembapan)
= 0.94 − 0.79 = 0.15 Nilai Informasi Gain Angin
Gain(Angin) = Entropi(target) − Entropi(angin)
= 0.94 − 0.892 = 0.048
Nilai Informasi Gain Terbesar adalah atribut Cuaca → menjadi akar
pohon
Metode Klasifikasi
Pohon Keputusan Awal
Step 3
Lakukan algoritma ID3 secara berulang hingga tidak ada anak pohon yang dibentuk atau seluruh klasifikasi set data telah dicek seluruhnya. Analisa Atribut Temperatur, Kelembapan, dan Angin, ketika cuaca terang :
cuaca temperatur kelembapan angin Bermain
terang panas tinggi tidak tidak
terang panas tinggi ya tidak
terang sedang tinggi tidak tidak
terang dingin normal tidak ya
terang sedang normal ya ya
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 18 / 24
Metode Klasifikasi
Analisa Atribut Temperatur:
Panas → Entropi(0,2)
Entropi(0, 2) = −( 0 2 log
20
2 + 2 2 log
22
2 ) = 0 Dingin → Entropi(1,0)
Entropi(1, 0) = −( 1 1 log
21
1 + 0 1 log
20
1 ) = 0 Sedang → Entropi(1,1)
Entropi(1, 1) = −( 1 2 log
21
2 + 1 2 log
21
2 ) = 1 Nilai entropi Temperatur
Entropi(Temperatur) = 2 5 (0) + 1
5 (0) + 2
5 (1) = 0.4 Nilai Informasi Gain Temperatur
Gain(Temperatur) = Entropi(terang) − Entropi(temperatur) = 0.97 − 0.4 = 0.57
Metode Klasifikasi
Analisa Atribut Kelembapan:
Tinggi → Entropi(0,3)
Entropi(0, 3) = −( 0 3 log
20
3 + 3 3 log
23
3 ) = 0 Normal → Entropi(2,0)
Entropi(2, 0) = −( 2 2 log
22
2 + 0 2 log
20
2 ) = 0 Nilai entropi Kelembapan
Entropi(Kelembapan) = 3 5 (0) + 2
5 (0) = 0 Nilai Informasi Gain Kelembapan
Gain(Kelembapan) = Entropi(terang) − Entropi(Kelembapan) = 0.97 − 0 = 0.97
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 20 / 24
Metode Klasifikasi
Analisa Atribut Angin:
Ya → Entropi(1,1)
Entropi(1, 1) = −( 1 2 log
21
2 + 1 2 log
21
2 ) = 1 Tidak → Entropi(2,0)
Entropi(1, 2) = −( 1 3 log
21
3 + 2 3 log
22
3 ) = 0.9182 Nilai entropi Angin
Entropi(Angin) = 2 5 (1) + 2
5 (0.9182) = 0.76 Nilai Informasi Gain Angin
Gain(Angin) = Entropi(terang) − Entropi(Angin) = 0.97 − 0.76 = 0.21
Kelembapan menjadi anak pohon dari cuaca terang
Metode Klasifikasi
Skema Pohon Keputusan
Lakukan analisa atribut seperti sebelumnya, ketika cuaca hujan !
Hasil Prediksi
cuaca temperatur kelembapan angin Bermain
hujan dingin tinggi tidak
YaElsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 22 / 24
Catatan
Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut :
https://sites.google.com/site/elsenronandosite/teaching
Klik.
Apabila ada pertanyaan mengenai data mining dapat mengirim ke
alamat email berikut : [email protected].
Terimakasih Atas Perhatiannya
Elsen Ronando, S.Si.,M.Si.,M.Sc. (UNTAG) Klasifikasi & Prediksi 2017 24 / 24