KONSEP DATA MINING. Universitas Gunadarma. Disusun Oleh : Dr Lily Wulandari. Logo Seminar

(1)

KONSEP DATA MINING

Universitas Gunadarma

Logo Seminar

Disusun Oleh : Dr Lily Wulandari

(2)

Tool Data Mining Dan Fungsinya

Dalam Suatu Sistem

(3)

• Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi

• Jenis dataset ada dua: Private dan Public

• Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian

– Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

3

1. Himpunan Data (Dataset)

(4)

• Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining

– UCI Repository

(http://www.ics.uci.edu/~mlearn/MLRepository.html)

– ACM KDD Cup

(http://www.sigkdd.org/kddcup/)

– PredictionIO

(http://docs.prediction.io/datacollection/sample/)

• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan

public dataset, sehingga penelitian dapat bersifat:

comparable, repeatable dan verifiable

4

1. Himpunan Data (Dataset)

(5)

5

Dataset (Himpunan Data)

Class/Label/Target Attribute/Feature

Nominal Numerik

Record/

Object/

Sample/

Tuple

(6)

1. Estimation (Estimasi):

– Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan):

– Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi):

– Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc

4. Clustering (Klastering):

– K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc 5. Association (Asosiasi):

– FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

6

2. Metode Data Mining (DM)

(7)

1. Formula/Function (Rumus atau Fungsi Regresi)

– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan) 3. Tingkat Korelasi

4. Rule (Aturan)

– IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

7

3. Pengetahuan (Pola/Model)

(8)

1. Estimation:

– Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 2. Prediction/Forecasting (Prediksi/Peramalan):

– Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc 3. Classification:

– Confusion Matrix: Accuracy

– ROC Curve: Area Under Curve (AUC) 4. Clustering:

– Internal Evaluation: Davies–Bouldin index, Dunn index,

– External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix

5. Association:

– Lift Charts: Lift Ratio

– Precision and Recall (F-measure)₈

4. Evaluasi (Akurasi, Error, etc)

(9)

Root Mean Square Error (RMSE)

• Root Mean Square Error (RMSE) adalah metode pengukuran dengan

mengukur perbedaan nilai dari prediksi sebuah model sebagai estimasi atas nilai yang diobservasi. Root Mean Square Error adalah hasil dari akar

kuadrat Mean Square Error. Keakuratan metode estimasi kesalahan

pengukuran ditandai dengan adanya nilai RMSE yang kecil. Metode estimasi yang mempunyai Root Mean Square Error (RMSE) lebih kecil dikatakan lebih akurat daripada metode estimasi yang mempunyai Root Mean Square Error (RMSE) lebih besar

At = Nilai data Aktual

Ft = Nilai hasil peramalan N= banyaknya data

∑ = Summation (Jumlahkan keseluruhan nilai)

(10)

Contoh Soal

Pada tabel terlihat bahwa ada dua warna yang berbeda antara hijau dan kuning. Hijau menunjukkan data sebenarnya,

sedangkan kuning adalah data niai prediksi yang dihasilkan.

(11)

Contoh RSME

Untuk menghindari kebingungan dalam proses perhitungan, kita hitung secara terpisah.

Pertama, hitung dulu kuadratnya pada masing-masing nilai.

Dengan rumus (Y'-Y)^2. (Y’=nilai prediksi, Y= nilai aktual)

Kemudian jumlahkan semua hasil tersebut, dan dibagi dengan jumlah total data yang diuji dan diakarkan. Jika dalam formula Excel akan tertulis seperti ini :

•=SQRT( 7925,8425 / 5 )

Maka hasil RMSE yang dihasilkan adalah 39,8142

(12)

Mean Square Error (MSE)

• Untuk menghitung nilai MSE sama halnya dengan RMSE. Hanya saja tidak menggunakan proses akar. Pada tahap ini, jika nilai error nya semakin besar maka semakin besar nilai MSE yang dihasilkan.

• Contoh MSE

• Dari tabel pada contoh soal RSME, dengan rumus (Y'-Y)^2. (1879.8 -

1866.30) ^ 2 = 182, 25 . Kemudian jumlah dan dibagi jumlah data yang di uji

• ( 7925,8425 / 5 ) = 1585.1685

Y ' = Nilai Prediksi Y = Nilai Sebenarnya n = Jumlah Data

(13)

Mean Absolut Percentage Error (MAPE)

• Mean Absolute Percentage Error adalah Pengukuran statistik tentang akurasi perkiraan (prediksi) pada metode peramalan. Metode MAPE memberikan informasi seberapa besar kesalahan peramalan dibandingkan dengan nilai sebenarnya dari series tersebut. Semakin kecil nilai presentasi kesalahan (percentage error) pada MAPE maka semakin akurat hasil peramalan tersebut.

• Analisa tentang nilai Mean Absolute Percentage Error (MAPE) tertulis dalam tabel di bawah ini

(14)

Contoh MAPE

• Pertama, kita akan menghitung satu nilai pertama dengan (Y-Y') / Y.

(1879.8 - 1866.30) / 1866.30 = 0,00723 * 100% = 0,723%

• Hasil diatas adalah hasil nilai pada kolom pertama. Untuk baris selanjutnya lakukan perhitungan yang sama, kemudian hasil akhirnya adalah cari nilai rata-rata nya. Dengan cara jumlah seluruh hasil MAPE

kemudian dibagi Jumlah total data uji.

• Menurut Lewis (1982), nilai MAPE dapat diinterpretasikan atau ditafsirkan ke dalam 4 kategori yaitu:

< 10% = "Sangat Baik"

10-20% = "Baik"

20-50% = "Wajar

> 50% = "Tidak Akurat" atau "Gagal"

(15)

Mean Absolute Error (MAE)

• MAE atau Mean Absolute Error menunjukkan nilai kesalahan rata-rata

yang error dari nilai sebenarnya dengan nilai prediksi. MAE sendiri secara umum digunakan untuk pengukuran prediksi error pada analisis time

series. Rumus dari MAE sendiri didefinisikan sebagai berikut :

• Berbeda dengan penyelesaian dari RMSE, pada Mean Absolute Error MAE ini cukup sederhana, yaitu dengan cara nilai prediksi dikurangi nilai sebenarnya

|Y'-Y|

Y ' = Nilai Prediksi Y = Nilai Sebenarnya n = Jumlah Data

(16)

Contoh MAE

• Tentukan pada setiap nilainya kemudian jumlah keseluruhan

dan dibagi jumlah data uji. Jika divisualisasi dalam bentuk tabel

akan terlihat seperti ini.

(17)

Catatan Model Regresi

• Dalam model regresi, untuk mengetahui keakuratan kinerja

model suatu algoritma, kita dapat mengambilnya dari nilai yang memiliki kesalahan kecil. Dengan kata lain, semakin kecil

nilai error yang dihasilkan maka semakin dekat nilai atau jarak

antara nilai aktual dengan nilai prediksi.

(18)

Confusion Matrix

• Kinerja sistem klasifikasi menggambarkan seberapa baik sistem dalam mengklasifikasikan data. Confusion matrix merupakan salah satu metode

yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang membandingkan

hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya

(19)

Menghitung Akurasi

• Akurasi adalah persentase dari total data yang diidentifikasi dan dinilai benar

• Perhatikan tabel ada beberapa 3 warna. Warna merah menunjukkan kelas prediksi dan tabel biru adalah kelas aktual.

•

TP = True Positive Adalah sebuah Kelas atau Label atau Kondisi Aktual yang mampu diprediksi dengan benar dan tepat. Fungsi TP berguna untuk mencari atau menghitung nilai akurasi

• Perhatikan Kolom bewarna Hijau itu adalah letak fungsi TP (True Positive)

• Formula Akurasi = TP / Total Dataset = 2 + 5 + 5 + 6 / 24 = 0.75

(20)

Menghitung Presisi

• Presisi adalah data yang diambil berdasarkan informasi yang kurang atau salah atau tidak tepat.

• Lihat tabel, terdapat berbagai warna

• Formula Presisi adalah Precision = TP/(TP+FP).

(21)

Menghitung Akurasi

• Formula Presisi adalah Precision = TP/(TP+FP).

• Selanjutnya adalah kita harus mecari nilai FP (false positive).

pada tahap kali ini, kita akan mencari nilai FP dari masing-masing kelas.

perhatikan warna tulisan dibawah ini dan kolom ditabel sebelumnya

• FP(A) = 4 FP (B) = 0 FP (C) = 2 FP (D) = 0

setelah sudah menemukan masing-masing nilai FP, selanjutnya hitung presisi masing-masing kelas

Precision = TP/(TP+FP)

P(A) = 2 /(2+4) = 0.33 P(B) = 5 /(5+0) =1 P(C) = 5 /(5+2) = 0.71 P(D) = 6/(6+0) = 1

selanjutnya jumlah semua hasil rata-rata tersebut dibagi jumlah kelas.

All Precision = P(A)+P(B)+P(C)+P(D) / Jumlah Kelas Precision = (0.33 + 1 + 0.71 +1) / 4 = 3.04/4 = 0.76

(22)

Receiver Operating Characteristic (ROC)

• Kurva ROC dibuat berdasarkan nilai telah didapatkan pada perhitungan dengan confusion matrix, yaitu antara False Positive Rate dengan True Positive Rate. Dimana:

•False Positive Rate (FPR) = False Positive / (False Positive + True Negative)

•True Positive Rate (TPR) = True Positive / (True Positive + False Negative)

Dan berikut adalah contoh kurva ROC.

Untuk membaca kurva ini sangat mudah, kinerja algoritma klasifikasi adalah:

•JELEK, jika kurva yang dihasilkan mendekati garis baseline atau garis yang melintang dari titik 0,0.

•BAGUS, jika kurva mendekati titik 0,1.

(23)

1. 0.90 - 1.00 = excellent classification 2. 0.80 - 0.90 = good classification

3. 0.70 - 0.80 = fair classification 4. 0.60 - 0.70 = poor classification 5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

23

Guide for Classifying the AUC

(24)

1. Akurasi

– Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan

– Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan

2. Kehandalan

– Ukuran di mana model data mining diterapkan pada dataset yang berbeda

– Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data testing yang digunakan

24

Kriteria Evaluasi dan Validasi Model

(25)

3. Kegunaan

– Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna

25

Kriteria Evaluasi dan Validasi Model

Keseimbangan diantaranya ketiganya diperlukan karena

belum tentu model yang akurat adalah handal, dan yang

handal atau akurat belum tentu berguna

(26)

Tools Data Mining (WEKA)

• Berikut ini contoh pemakaian WEKA untuk fungsi Data Mining klasifikasi.

• Langkah-langkah persiapan data:

– Langkah 1: Buka link

https://archive.ics.uci.edu/ml/datasets.html – Langkah 2: Pilihlah salah satu dataset yang

diinginkan. Pada contoh kali ini digunakan dataset lenses

(https://archive.ics.uci.edu/ml/datasets/Lenses).

(27)

Tools Data Mining (WEKA)

– Langkah 3: Klik Data Folder seperti gambar di

bawah ini:

(28)

Tools Data Mining (WEKA)

• Kemudian klik lenses. Data seperti yang ada pada

gambar di bawah ini:

(29)

Tools Data Mining (WEKA)

Berikutnya copy

semua datanya

seperti gambar di

kanan ini:

(30)

Tools Data Mining (WEKA)

Kemudian paste data tersebut ke editor yang

digunakan, di sini digunakan

notepad++ sebagai

contoh:

(31)

Tools Data Mining (WEKA)

• Kemudian tambahkan atribut ini pada bagian atas

(untuk setiap koma jangan diberi spasi) contoh atrribut

seperti gambar di bawah ini:

(32)

Tools Data Mining (WEKA)

Data yang sudah diubah akan

menjadi seperti

gambar di kanan

ini (untuk baris

terakhir saya di

sini memberi

nama contact-

lenses):

(33)

Tools Data Mining (WEKA)

Kemudian yang ketiga hapus semua spasi dan

berikan tanda koma (,) untuk setiap data

seperti gambar

di kanan ini.

(34)

Tools Data Mining (WEKA)

Kemudian simpan data tersebut dengan format .csv

seperti gambar di bawah ini: NB: jika tanda koma (,) tidak berhasil ketika buka file nya di excel ubah tanda koma

menjadi titik koma (;)

(35)

Tools Data Mining (WEKA)

Kemudian buka file .csv yang dibuat

tadi. Kalau sudah

buka maka tampilan nya akan seperti

gambar di kanan ini:

(36)

Tools Data Mining (WEKA)

Kemudian yang terakhir ubah data angka-angka menjadi sesuai yang ada di keterangan di bawah ini kemudian

simpan:

(37)

Tools Data Mining (WEKA)

Jika sudah

diubah maka

tampilannya

akan menjadi

ini:

(38)

Tools Data Mining (WEKA)

Langkah kelima: ubah data .csv tersebut menjadi .arff

dengan menggunakan tools weka. Pertama buka weka

seperti gambar di bawah ini:

(39)

Tools Data Mining (WEKA)

Klik “Explorer” yang ada pada weka, jika sudah maka tampilan

akan seperti gambar di bawah ini:

(40)

Tools Data Mining (WEKA)

Ketiga klik “Open File” yang ada pada weka, seperti

gambar di bawah ini:

(41)

Tools Data Mining (WEKA)

Pilih file of types dengan CSV data files (.csv) kemudian

pilih data csv lalu open seperti gambar di bawah ini:

(42)

Tools Data Mining (WEKA)

Jika sudah open maka tampilan akan seperti gambar di

bawah ini:

(43)

Tools Data Mining (WEKA)

• Klik “save” yang ada pada weka, seperti gambar

di bawah ini:

(44)

Tools Data Mining (WEKA)

Buka file .arff tadi dengan

menggunakan

weka dengan cara klik “open file”, pilih file of types

dengan arff, pilih

file arff yang tadi

dibuat kemudian

klik open, seperti

gambar di bawah

ini:

(45)

Tools Data Mining (WEKA)

Jika sudah maka tampilan akan seperti gambar di bawah

ini:

(46)

Tools Data Mining (WEKA)

• Melakukan klasifikasi dengan metode trees (j48). Pertama klik

“Classify” pada weka, seperti gambar di bawah:

• Lalu klik “Choose” :

(47)

Tools Data Mining (WEKA)

• Pilih “trees” kemudian klik “j48”:

(48)

Tools Data Mining (WEKA)

• Tentukan percentase split dengan 66%. Artinya 66% datanya menjadi

training set kemudian sisanya yaitu 33% menjadi test set, kemudian klik start:

(49)

Tools Data Mining (WEKA)

Dengan tingkat keberhasilan sekitar 37% dan error 63%:

(50)

Tools Data Mining (WEKA)

Percentage split dengan 80%.

Artinya 80%

datanya

menjadi training set kemudian sisanya yaitu 20% menjadi test set,

kemudian klik start. Diperoleh hasil seperti gambar di kanan:

(51)

Tools Data Mining (WEKA)

Dengan tingkat

keberhasilan sekitar 100%

dan error 0%:

(52)

Tools Data Mining (WEKA)

(53)

Tools Data Mining (WEKA)

Makna dari hasil model ini dapat dibaca sbb:

• tear production rate nya reduced maka none (artinya pasien tidak harus dilengkapi dengan lensa kontak.)

• jika tear production rate nya normal (artinya jika Tingkat produksi air mata normal dalam artian tidak ada perubahan)

– lihat jika astigmatic no maka soft (artinya jika astigmatic no maka pasien harus dilengkapi dengan lensa kontak soft)

– jika astigmatic nya yes

• maka liat lagi spectacle prescription (kondisi) jika pasien myope (rabun jauh) berarti pasien harus dilengkapi dengan lensa kontak hard,

• sedangkan jika pasien hypermetrope (rabun dekat) maka pasien tidak harus dilengkapi dengan lensa kontak.

(54)

Tools Data Mining (WEKA)

Melihat

visualisasi nya dengan cara klik kanan

pada trees.j48 yang terakhir (karena yang terakhir tingkat keberhasilan nya 100%) kemudian pilih visualize tree.

Seperti gambar di kanan ini:

(55)

Tools Data Mining (WEKA)

Jika sudah

maka akan

menampilkan

tree seperti

gambar di

kanan ini:

(56)

Tools Data Mining (WEKA)

Berikutnya akan dicoba dengan metode lain yakni Naive Bayes.

Pertama klik

“choose” pada weka untuk

mengganti metode dari trees (j48)

menjadi baiyes (naive bayes) sepeti gambar di kanan:

(57)

Tools Data Mining (WEKA)

Kemudian pilih baiyes->naive bayes-> lalu klik start:

(58)

Tools Data Mining (WEKA)

Maka diperoleh hasil dengan menggunakan percentage split 80% yaitu

keberhasilannya 40% dengan

error 60% seperti gambar di kanan ini:

(59)

Tools Data Mining (WEKA)

Kemudian dicoba lagi dengan

percentage split 60% maka

diperoleh hasil keberhasilannya 30% dengan error 70% seperti

gambar di kanan ini:

(60)

Tools Data Mining (WEKA)

• Jadi kesimpulannya setelah melakukan

percobaan klasifikasi dengan menggunakan

metode trees (j48) dan bayes (naive bayes) dan menggunakan dataset “Lenses” maka dapat

disimpulkan pengklasifikasiannya lebih baik menggunakan metode tree (j48) karena

keberhasilannya 100% sedangkan metode

bayes (naive bayes) keberhasilannya hanya

40%.

(61)