Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

(1)

Ricky Maulana Fajri

Data Mining Outline

BAB IV Algoritma Klastering BAB III Algoritma Klasifikasi BAB II Data BAB I Pendahuluan BAB IX Text Mining BAB VII Deteksi Anomali BAB VI Algoritma Estimasi BAB V Algoritma Asosiasi

Recap

1. Jelaskan Apa yang dimaksud dengan data, informasi, pengetahuan.

2. Jelaskan perbedaan prediksi dan klasifikasi!

3 J l k b d kl i d

3. Jelaskan perbedaan klasteringdan

association!

4. Sebutkan tahapan utama proses data mining!

1. Himpunan

Data Data Mining2. Metode 3. Pengetahuan

4. Evaluation

Proses Data Mining

Data (Pemahaman dan Pengolahan Data) Data Mining (Pilih Metode Sesuai Karakter Data)

(Pola/Model/Rumus/

Tree/Rule/Cluster) RMSE, Lift Ratio,…)(Akurasi, AUC,

4 DATA PRE‐PROCESSING Data Cleaning Data Integration Data Reduction Data Transformation Estimation Prediction Classification Clustering Association • Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi

• Jenis dataset ada dua: Privatedan Public

• Private Dataset: data set dapat diambil dari organisasi yang

kita jadikan obyek penelitian

–Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

• P blic Dataset data set dapat diambil dari repositori p bik

1. Himpunan Data (Dataset)

• Public Dataset: data set dapat diambil dari repositori pubik

yang disepakati oleh para peneliti data mining –UCI Repository(http://www.ics.uci.edu/~mlearn/MLRepository.html)

–ACM KDD Cup(http://www.sigkdd.org/kddcup/)

–PredictionIO(http://docs.prediction.io/datacollection/sample/)

• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable,

repeatabledan verifiable

5

Dataset (Himpunan Data)

Class/Label/Target Attribute/Feature Record/ Object/ Sample/ 6 Nominal Numerik Sample/ Tuple

(2)

1. Estimation(Estimasi): – Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): – Linear Regression, Neural Network, Support Vector Machine, etc 3 Classification(Klasifikasi):

2. Metode Data Mining (DM)

3. Classification(Klasifikasi): – Naive Bayes, K‐Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): – K‐Means, K‐Medoids, Self‐Organizing Map (SOM), Fuzzy C‐Means, etc 5. Association (Asosiasi): – FP‐Growth, A Priori, Coefficient of Correlation, Chi Square, etc 7

1. Formula/Function(Rumus atau Fungsi Regresi)

– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. DecisionTree(Pohon Keputusan)

3 Ti k tK l i

3. Pengetahuan (Pola/Model)

3. Tingkat Korelasi 4. Rule(Aturan) –IF ips3=2.8 THEN lulustepatwaktu 5. Cluster(Klaster) 8 1. Estimation: – Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 2. Prediction/Forecasting (Prediksi/Peramalan): – Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc 3. Classification: C f i M t i A

4. Evaluasi (Akurasi, Error, etc)

– Confusion Matrix: Accuracy

– ROC Curve: Area Under Curve (AUC)

4. Clustering:

– Internal Evaluation: Davies–Bouldin index, Dunn index,

– External Evaluation: Rand measure, F‐measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix

5. Association: – Lift Charts: Lift Ratio

– Precision and Recall(F‐measure)

9

1. 0.90 ‐ 1.00 = excellentclassification 2. 0.80 ‐ 0.90 = goodclassification 3. 0.70 ‐ 0.80 = fairclassification

4 0 60 0 70 l ifi ti

Guide for Classifying the AUC

4. 0.60 ‐ 0.70 = poorclassification 5. 0.50 ‐ 0.60 = failure

(Gorunescu, 2011)

10

1. Akurasi

–Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan

–Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan

2. Kehandalan

–Ukuran di mana model data mining diterapkan pada dataset yang berbeda

Kriteria Evaluasi dan Validasi Model

yang berbeda

–Model data mining dapat diandalkan jika menghasilkan pola umum yang samaterlepas dari data testing yang disediakan 3. Kegunaan –Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna Keseimbangan diantaranyaketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna

Kualitas Data

• Kesalahan yang terjadi sehingga menyebabkan kualitas data menjadi tidak baik. Sering kali didapatkan kualitas data yang kurang baik dikarenakan kesalahan pengukuran (Measurement Error) dan kesalahan

( )

pengumpulan

• Contoh Kesalahan Pengukuran

–Noise

–Bias

–Precision

(3)

Kesalahan Pengukuran

• Noise berkaitan dengan modifikasi dari nilai asli • Bias : suatu variasi pengukuran dari kuantitas

yang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui • Precision : Adalah kedekatan dari pengukuran

berulang (dari kuantitas yang sama) satu dengan lainnya. Diukur ddengan standard deviasi • Accuracy Adalah kedekatan pengukuran terhadap

nilai sebenarnya dari kuantitas yang sedang diukur

Kesalahan Pengumpulan

• Kesalahan pada saat data dikumpulkan seperti

hilangnya objek data atau nilai atribut, dan lingkup objek data yang tidak tepat.

• Yang termasuk dalam kesalahan pengumpulang p g p adalah

–Outliers –Missing Values –Duplicate Data

Outliers

• Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan data dalam data‐set.

Missing Values

• Merupakan nilaid ari suatu atribut yang tidak ditemukan alasan terjadinya missing values adalah

–Informasi tidak diperoleh (misal orang menolak –Informasi tidak diperoleh (misal orang menolak untuk memberikan informasi umur dan berat badan)

–Atribut yang mungkin tidak bisa diterapkan ke semua kasus (pendapatan tahunan tidak bisa diterapkan pada anak‐anak)

Duplicate Data

• Data set mungkin terdiri dari objek data yang ganda. Atau sering terjadi dupliksai antara satu dengan lainnya. Persoalan utama ketika menggabungkan data dari sumber‐sumber menggabungkan data dari sumber sumber yang bervariasi

–Orang yang sama dengan alamat email yang lebih dari satu.

(4)

Data Preprocessing

• Sebelum diterapkan algoritma data mining

terhadap sebuah data‐set makan diperlukan prosess pengolahan awal. Proses ini bertujuan untuk mendapatkan data set yang dapat untuk mendapatkan data set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat.

Data Preprocessing

• Proses data prepocessing antara lain.

–Aggregation –Sampling Dimensionality Reduction –Dimensionality Reduction –Feature Subset Selection –Feature Creation

–Discretization dan binarization –Attribute Transformation

Aggregation

• Proses pengumpulan adalah proses

mengkombinasikan dua atau lebih atribut‐ atribut atau objek‐objek ke dalam satu atribut tunggal atau objek

tunggal atau objek.

No Transaksi Nama barang Lokasi Toko Tanggal Harga

……. ………… ………. ……… ……. 1001122 Supermie Bukit 12‐8‐2016 1500 1001122 Gula 1 Kg Bukit 12‐8‐2016 9000 1001123 Buku Demang 23‐8‐2016 15000 ……….. …………. …………. ………… ……….

Penarikan Contoh

• Penarikan Contoh merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan

penyelidikan dan analisis data akhir penyelidikan dan analisis data akhir. • Penarikan contoh digunakan dalam data

minging karena pengolahan himpunan data yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu

Dimensionality Reduction

• Jika Dimensi meningkat, data akan meningkat

secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik yang merupakan kondisi kritis untuk clustering dan outlier detection

• Manfaat DR

–Mencegah efek dimensionalitas

–Mengurangi jumlah waktu dan memori untuk

algoritma data mining

–Membuat data lebih mudah divisualisasikan

–Membantu menguragi fitur yang tidak relevan

Feautre Subset Selection

• Salah satu cara untuk mengurangi dimensi

dalah dengan memilih fitur yang tepat atau hanya menggunakan atribut‐atribut yang diperlukan • Teknik –Brute‐force Approach –Embedded Approach –Filter Approach –Wrapper Approach

(5)

Feature Creation

• Merupakan Proses membuat atribut baru

yang dapat menangkap informasi penting dalam sebuah himpunan data yang lebih efision daripada atribut yang ada. • Teknik

–Ekstraksi Fitur

–Pemetaan Data ke ruang menggunakan transformasi fourier

–Konstruksi Fitur

Discreatization and Binarization

• Algoritma data mining khususnya algoritma

klasifikasi mebutuhkan data dalam bentuk atribut katagorikal, sedangkan algoritma asosiasi memerlukan atdata ke dalam bentuk asosiasi memerlukan atdata ke dalam bentuk biner. Transformasi atribut kontinyu ke dalam bentuk katagorikal disebut discreatization. Tranformasi atribut kontinyo ke dalam bentuk biner disebut binarization

Summary

• Proses Data Mining

• Kualitas Data