KONSEP DATA MINING
Universitas Gunadarma
Logo Seminar
Disusun Oleh : Dr Lily Wulandari
Tool Data Mining Dan Fungsinya
Dalam Suatu Sistem
• Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
• Jenis dataset ada dua: Private dan Public
• Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
– Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
3
1. Himpunan Data (Dataset)
• Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining
– UCI Repository
(http://www.ics.uci.edu/~mlearn/MLRepository.html)
– ACM KDD Cup
(http://www.sigkdd.org/kddcup/)– PredictionIO
(http://docs.prediction.io/datacollection/sample/)• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan
public dataset, sehingga penelitian dapat bersifat:
comparable, repeatable dan verifiable
4
1. Himpunan Data (Dataset)
5
Dataset (Himpunan Data)
Class/Label/Target Attribute/Feature
Nominal Numerik
Record/
Object/
Sample/
Tuple
1. Estimation (Estimasi):
– Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan):
– Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi):
– Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc
4. Clustering (Klastering):
– K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc 5. Association (Asosiasi):
– FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
6
2. Metode Data Mining (DM)
1. Formula/Function (Rumus atau Fungsi Regresi)
– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan) 3. Tingkat Korelasi
4. Rule (Aturan)
– IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
7
3. Pengetahuan (Pola/Model)
1. Estimation:
– Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 2. Prediction/Forecasting (Prediksi/Peramalan):
– Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc 3. Classification:
– Confusion Matrix: Accuracy
– ROC Curve: Area Under Curve (AUC) 4. Clustering:
– Internal Evaluation: Davies–Bouldin index, Dunn index,
– External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix
5. Association:
– Lift Charts: Lift Ratio
– Precision and Recall (F-measure)8
4. Evaluasi (Akurasi, Error, etc)
Root Mean Square Error (RMSE)
• Root Mean Square Error (RMSE) adalah metode pengukuran dengan
mengukur perbedaan nilai dari prediksi sebuah model sebagai estimasi atas nilai yang diobservasi. Root Mean Square Error adalah hasil dari akar
kuadrat Mean Square Error. Keakuratan metode estimasi kesalahan
pengukuran ditandai dengan adanya nilai RMSE yang kecil. Metode estimasi yang mempunyai Root Mean Square Error (RMSE) lebih kecil dikatakan lebih akurat daripada metode estimasi yang mempunyai Root Mean Square Error (RMSE) lebih besar
At = Nilai data Aktual
Ft = Nilai hasil peramalan N= banyaknya data
∑ = Summation (Jumlahkan keseluruhan nilai)
Contoh Soal
Pada tabel terlihat bahwa ada dua warna yang berbeda antara hijau dan kuning. Hijau menunjukkan data sebenarnya,
sedangkan kuning adalah data niai prediksi yang dihasilkan.
Contoh RSME
Untuk menghindari kebingungan dalam proses perhitungan, kita hitung secara terpisah.
Pertama, hitung dulu kuadratnya pada masing-masing nilai.
Dengan rumus (Y'-Y)^2. (Y’=nilai prediksi, Y= nilai aktual)
Kemudian jumlahkan semua hasil tersebut, dan dibagi dengan jumlah total data yang diuji dan diakarkan. Jika dalam formula Excel akan tertulis seperti ini :
•=SQRT( 7925,8425 / 5 )
Maka hasil RMSE yang dihasilkan adalah 39,8142
Mean Square Error (MSE)
• Untuk menghitung nilai MSE sama halnya dengan RMSE. Hanya saja tidak menggunakan proses akar. Pada tahap ini, jika nilai error nya semakin besar maka semakin besar nilai MSE yang dihasilkan.
• Contoh MSE
• Dari tabel pada contoh soal RSME, dengan rumus (Y'-Y)^2. (1879.8 -
1866.30) ^ 2 = 182, 25 . Kemudian jumlah dan dibagi jumlah data yang di uji
• ( 7925,8425 / 5 ) = 1585.1685
Y ' = Nilai Prediksi Y = Nilai Sebenarnya n = Jumlah Data
Mean Absolut Percentage Error (MAPE)
• Mean Absolute Percentage Error adalah Pengukuran statistik tentang akurasi perkiraan (prediksi) pada metode peramalan. Metode MAPE memberikan informasi seberapa besar kesalahan peramalan dibandingkan dengan nilai sebenarnya dari series tersebut. Semakin kecil nilai presentasi kesalahan (percentage error) pada MAPE maka semakin akurat hasil peramalan tersebut.
• Analisa tentang nilai Mean Absolute Percentage Error (MAPE) tertulis dalam tabel di bawah ini
Contoh MAPE
• Pertama, kita akan menghitung satu nilai pertama dengan (Y-Y') / Y.
(1879.8 - 1866.30) / 1866.30 = 0,00723 * 100% = 0,723%
• Hasil diatas adalah hasil nilai pada kolom pertama. Untuk baris selanjutnya lakukan perhitungan yang sama, kemudian hasil akhirnya adalah cari nilai rata-rata nya. Dengan cara jumlah seluruh hasil MAPE
kemudian dibagi Jumlah total data uji.
• Menurut Lewis (1982), nilai MAPE dapat diinterpretasikan atau ditafsirkan ke dalam 4 kategori yaitu:
< 10% = "Sangat Baik"
10-20% = "Baik"
20-50% = "Wajar
> 50% = "Tidak Akurat" atau "Gagal"
Mean Absolute Error (MAE)
• MAE atau Mean Absolute Error menunjukkan nilai kesalahan rata-rata
yang error dari nilai sebenarnya dengan nilai prediksi. MAE sendiri secara umum digunakan untuk pengukuran prediksi error pada analisis time
series. Rumus dari MAE sendiri didefinisikan sebagai berikut :
• Berbeda dengan penyelesaian dari RMSE, pada Mean Absolute Error MAE ini cukup sederhana, yaitu dengan cara nilai prediksi dikurangi nilai sebenarnya
|Y'-Y|
Y ' = Nilai Prediksi Y = Nilai Sebenarnya n = Jumlah Data
Contoh MAE
• Tentukan pada setiap nilainya kemudian jumlah keseluruhan
dan dibagi jumlah data uji. Jika divisualisasi dalam bentuk tabel
akan terlihat seperti ini.
Catatan Model Regresi
• Dalam model regresi, untuk mengetahui keakuratan kinerja
model suatu algoritma, kita dapat mengambilnya dari nilai yang memiliki kesalahan kecil. Dengan kata lain, semakin kecil
nilai error yang dihasilkan maka semakin dekat nilai atau jarak
antara nilai aktual dengan nilai prediksi.
Confusion Matrix
• Kinerja sistem klasifikasi menggambarkan seberapa baik sistem dalam mengklasifikasikan data. Confusion matrix merupakan salah satu metode
yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang membandingkan
hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya
Menghitung Akurasi
• Akurasi adalah persentase dari total data yang diidentifikasi dan dinilai benar
• Perhatikan tabel ada beberapa 3 warna. Warna merah menunjukkan kelas prediksi dan tabel biru adalah kelas aktual.
•
TP = True Positive Adalah sebuah Kelas atau Label atau Kondisi Aktual yang mampu diprediksi dengan benar dan tepat. Fungsi TP berguna untuk mencari atau menghitung nilai akurasi
• Perhatikan Kolom bewarna Hijau itu adalah letak fungsi TP (True Positive)
• Formula Akurasi = TP / Total Dataset = 2 + 5 + 5 + 6 / 24 = 0.75
Menghitung Presisi
• Presisi adalah data yang diambil berdasarkan informasi yang kurang atau salah atau tidak tepat.
• Lihat tabel, terdapat berbagai warna
• Formula Presisi adalah Precision = TP/(TP+FP).
Menghitung Akurasi
• Formula Presisi adalah Precision = TP/(TP+FP).
• Selanjutnya adalah kita harus mecari nilai FP (false positive).
pada tahap kali ini, kita akan mencari nilai FP dari masing-masing kelas.
perhatikan warna tulisan dibawah ini dan kolom ditabel sebelumnya
• FP(A) = 4 FP (B) = 0 FP (C) = 2 FP (D) = 0
setelah sudah menemukan masing-masing nilai FP, selanjutnya hitung presisi masing-masing kelas
Precision = TP/(TP+FP)
P(A) = 2 /(2+4) = 0.33 P(B) = 5 /(5+0) =1 P(C) = 5 /(5+2) = 0.71 P(D) = 6/(6+0) = 1
selanjutnya jumlah semua hasil rata-rata tersebut dibagi jumlah kelas.
All Precision = P(A)+P(B)+P(C)+P(D) / Jumlah Kelas Precision = (0.33 + 1 + 0.71 +1) / 4 = 3.04/4 = 0.76
Receiver Operating Characteristic (ROC)
• Kurva ROC dibuat berdasarkan nilai telah didapatkan pada perhitungan dengan confusion matrix, yaitu antara False Positive Rate dengan True Positive Rate. Dimana:
•False Positive Rate (FPR) = False Positive / (False Positive + True Negative)
•True Positive Rate (TPR) = True Positive / (True Positive + False Negative)
Dan berikut adalah contoh kurva ROC.
Untuk membaca kurva ini sangat mudah, kinerja algoritma klasifikasi adalah:
•JELEK, jika kurva yang dihasilkan mendekati garis baseline atau garis yang melintang dari titik 0,0.
•BAGUS, jika kurva mendekati titik 0,1.
1. 0.90 - 1.00 = excellent classification 2. 0.80 - 0.90 = good classification
3. 0.70 - 0.80 = fair classification 4. 0.60 - 0.70 = poor classification 5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
23
Guide for Classifying the AUC
1. Akurasi
– Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan
– Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan
2. Kehandalan
– Ukuran di mana model data mining diterapkan pada dataset yang berbeda
– Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data testing yang digunakan
24
Kriteria Evaluasi dan Validasi Model
3. Kegunaan
– Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna
25
Kriteria Evaluasi dan Validasi Model
Keseimbangan diantaranya ketiganya diperlukan karena
belum tentu model yang akurat adalah handal, dan yang
handal atau akurat belum tentu berguna
Tools Data Mining (WEKA)
• Berikut ini contoh pemakaian WEKA untuk fungsi Data Mining klasifikasi.
• Langkah-langkah persiapan data:
– Langkah 1: Buka link
https://archive.ics.uci.edu/ml/datasets.html – Langkah 2: Pilihlah salah satu dataset yang
diinginkan. Pada contoh kali ini digunakan dataset lenses
(https://archive.ics.uci.edu/ml/datasets/Lenses).
Tools Data Mining (WEKA)
– Langkah 3: Klik Data Folder seperti gambar di
bawah ini:
Tools Data Mining (WEKA)
• Kemudian klik lenses. Data seperti yang ada pada
gambar di bawah ini:
Tools Data Mining (WEKA)
Berikutnya copy
semua datanya
seperti gambar di
kanan ini:
Tools Data Mining (WEKA)
Kemudian paste data tersebut ke editor yang
digunakan, di sini digunakan
notepad++ sebagai
contoh:
Tools Data Mining (WEKA)
• Kemudian tambahkan atribut ini pada bagian atas
(untuk setiap koma jangan diberi spasi) contoh atrribut
seperti gambar di bawah ini:
Tools Data Mining (WEKA)
Data yang sudah diubah akan
menjadi seperti
gambar di kanan
ini (untuk baris
terakhir saya di
sini memberi
nama contact-
lenses):
Tools Data Mining (WEKA)
Kemudian yang ketiga hapus semua spasi dan
berikan tanda koma (,) untuk setiap data
seperti gambar
di kanan ini.
Tools Data Mining (WEKA)
Kemudian simpan data tersebut dengan format .csv
seperti gambar di bawah ini: NB: jika tanda koma (,) tidak berhasil ketika buka file nya di excel ubah tanda koma
menjadi titik koma (;)
Tools Data Mining (WEKA)
Kemudian buka file .csv yang dibuat
tadi. Kalau sudah
buka maka tampilan nya akan seperti
gambar di kanan ini:
Tools Data Mining (WEKA)
Kemudian yang terakhir ubah data angka-angka menjadi sesuai yang ada di keterangan di bawah ini kemudian
simpan:
Tools Data Mining (WEKA)
Jika sudah
diubah maka
tampilannya
akan menjadi
ini:
Tools Data Mining (WEKA)
Langkah kelima: ubah data .csv tersebut menjadi .arff
dengan menggunakan tools weka. Pertama buka weka
seperti gambar di bawah ini:
Tools Data Mining (WEKA)
Klik “Explorer” yang ada pada weka, jika sudah maka tampilan
akan seperti gambar di bawah ini:
Tools Data Mining (WEKA)
Ketiga klik “Open File” yang ada pada weka, seperti
gambar di bawah ini:
Tools Data Mining (WEKA)
Pilih file of types dengan CSV data files (.csv) kemudian
pilih data csv lalu open seperti gambar di bawah ini:
Tools Data Mining (WEKA)
Jika sudah open maka tampilan akan seperti gambar di
bawah ini:
Tools Data Mining (WEKA)
• Klik “save” yang ada pada weka, seperti gambar
di bawah ini:
Tools Data Mining (WEKA)
Buka file .arff tadi dengan
menggunakan
weka dengan cara klik “open file”, pilih file of types
dengan arff, pilih
file arff yang tadi
dibuat kemudian
klik open, seperti
gambar di bawah
ini:
Tools Data Mining (WEKA)
Jika sudah maka tampilan akan seperti gambar di bawah
ini:
Tools Data Mining (WEKA)
• Melakukan klasifikasi dengan metode trees (j48). Pertama klik
“Classify” pada weka, seperti gambar di bawah:
• Lalu klik “Choose” :
Tools Data Mining (WEKA)
• Pilih “trees” kemudian klik “j48”:
Tools Data Mining (WEKA)
• Tentukan percentase split dengan 66%. Artinya 66% datanya menjadi
training set kemudian sisanya yaitu 33% menjadi test set, kemudian klik start:
Tools Data Mining (WEKA)
Dengan tingkat keberhasilan sekitar 37% dan error 63%:
Tools Data Mining (WEKA)
Percentage split dengan 80%.
Artinya 80%
datanya
menjadi training set kemudian sisanya yaitu 20% menjadi test set,
kemudian klik start. Diperoleh hasil seperti gambar di kanan:
Tools Data Mining (WEKA)
Dengan tingkat
keberhasilan sekitar 100%
dan error 0%:
Tools Data Mining (WEKA)
Tools Data Mining (WEKA)
Makna dari hasil model ini dapat dibaca sbb:
• tear production rate nya reduced maka none (artinya pasien tidak harus dilengkapi dengan lensa kontak.)
• jika tear production rate nya normal (artinya jika Tingkat produksi air mata normal dalam artian tidak ada perubahan)
– lihat jika astigmatic no maka soft (artinya jika astigmatic no maka pasien harus dilengkapi dengan lensa kontak soft)
– jika astigmatic nya yes
• maka liat lagi spectacle prescription (kondisi) jika pasien myope (rabun jauh) berarti pasien harus dilengkapi dengan lensa kontak hard,
• sedangkan jika pasien hypermetrope (rabun dekat) maka pasien tidak harus dilengkapi dengan lensa kontak.
Tools Data Mining (WEKA)
Melihat
visualisasi nya dengan cara klik kanan
pada trees.j48 yang terakhir (karena yang terakhir tingkat keberhasilan nya 100%) kemudian pilih visualize tree.
Seperti gambar di kanan ini:
Tools Data Mining (WEKA)
Jika sudah
maka akan
menampilkan
tree seperti
gambar di
kanan ini:
Tools Data Mining (WEKA)
Berikutnya akan dicoba dengan metode lain yakni Naive Bayes.
Pertama klik
“choose” pada weka untuk
mengganti metode dari trees (j48)
menjadi baiyes (naive bayes) sepeti gambar di kanan:
Tools Data Mining (WEKA)
Kemudian pilih baiyes->naive bayes-> lalu klik start:
Tools Data Mining (WEKA)
Maka diperoleh hasil dengan menggunakan percentage split 80% yaitu
keberhasilannya 40% dengan
error 60% seperti gambar di kanan ini:
Tools Data Mining (WEKA)
Kemudian dicoba lagi dengan
percentage split 60% maka
diperoleh hasil keberhasilannya 30% dengan error 70% seperti
gambar di kanan ini: