Ricky Maulana Fajri
Data Mining Outline
BAB IV Algoritma Klastering BAB III Algoritma Klasifikasi BAB II Data BAB I Pendahuluan BAB IX Text Mining BAB VII Deteksi Anomali BAB VI Algoritma Estimasi BAB V Algoritma AsosiasiRecap
1. Jelaskan Apa yang dimaksud dengan data, informasi, pengetahuan.
2. Jelaskan perbedaan prediksi dan klasifikasi!
3 J l k b d kl i d
3. Jelaskan perbedaan klasteringdan
association!
4. Sebutkan tahapan utama proses data mining!
1. Himpunan
Data Data Mining2. Metode 3. Pengetahuan
4. Evaluation
Proses Data Mining
Data (Pemahaman dan Pengolahan Data) Data Mining (Pilih Metode Sesuai Karakter Data)(Pola/Model/Rumus/
Tree/Rule/Cluster) RMSE, Lift Ratio,…)(Akurasi, AUC,
4 DATA PRE‐PROCESSING Data Cleaning Data Integration Data Reduction Data Transformation Estimation Prediction Classification Clustering Association • Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
• Jenis dataset ada dua: Privatedan Public
• Private Dataset: data set dapat diambil dari organisasi yang
kita jadikan obyek penelitian
–Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• P blic Dataset data set dapat diambil dari repositori p bik
1. Himpunan Data (Dataset)
• Public Dataset: data set dapat diambil dari repositori pubik
yang disepakati oleh para peneliti data mining –UCI Repository(http://www.ics.uci.edu/~mlearn/MLRepository.html)
–ACM KDD Cup(http://www.sigkdd.org/kddcup/)
–PredictionIO(http://docs.prediction.io/datacollection/sample/)
• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable,
repeatabledan verifiable
5
Dataset (Himpunan Data)
Class/Label/Target Attribute/Feature Record/ Object/ Sample/ 6 Nominal Numerik Sample/ Tuple1. Estimation(Estimasi): – Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): – Linear Regression, Neural Network, Support Vector Machine, etc 3 Classification(Klasifikasi):
2. Metode Data Mining (DM)
3. Classification(Klasifikasi): – Naive Bayes, K‐Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): – K‐Means, K‐Medoids, Self‐Organizing Map (SOM), Fuzzy C‐Means, etc 5. Association (Asosiasi): – FP‐Growth, A Priori, Coefficient of Correlation, Chi Square, etc 71. Formula/Function(Rumus atau Fungsi Regresi)
– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. DecisionTree(Pohon Keputusan)
3 Ti k tK l i
3. Pengetahuan (Pola/Model)
3. Tingkat Korelasi 4. Rule(Aturan) –IF ips3=2.8 THEN lulustepatwaktu 5. Cluster(Klaster) 8 1. Estimation: – Error: Root Mean Square Error (RMSE), MSE, MAPE, etc 2. Prediction/Forecasting (Prediksi/Peramalan): – Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc 3. Classification: C f i M t i A4. Evaluasi (Akurasi, Error, etc)
– Confusion Matrix: Accuracy
– ROC Curve: Area Under Curve (AUC)
4. Clustering:
– Internal Evaluation: Davies–Bouldin index, Dunn index,
– External Evaluation: Rand measure, F‐measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix
5. Association: – Lift Charts: Lift Ratio
– Precision and Recall(F‐measure)
9
1. 0.90 ‐ 1.00 = excellentclassification 2. 0.80 ‐ 0.90 = goodclassification 3. 0.70 ‐ 0.80 = fairclassification
4 0 60 0 70 l ifi ti
Guide for Classifying the AUC
4. 0.60 ‐ 0.70 = poorclassification 5. 0.50 ‐ 0.60 = failure
(Gorunescu, 2011)
10
1. Akurasi
–Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan
–Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan
2. Kehandalan
–Ukuran di mana model data mining diterapkan pada dataset yang berbeda
Kriteria Evaluasi dan Validasi Model
yang berbeda
–Model data mining dapat diandalkan jika menghasilkan pola umum yang samaterlepas dari data testing yang disediakan 3. Kegunaan –Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna Keseimbangan diantaranyaketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna
Kualitas Data
• Kesalahan yang terjadi sehingga menyebabkan kualitas data menjadi tidak baik. Sering kali didapatkan kualitas data yang kurang baik dikarenakan kesalahan pengukuran (Measurement Error) dan kesalahan
( )
pengumpulan
• Contoh Kesalahan Pengukuran
–Noise
–Bias
–Precision
Kesalahan Pengukuran
• Noise berkaitan dengan modifikasi dari nilai asli • Bias : suatu variasi pengukuran dari kuantitasyang sedang diukur dengan pengurangan antara mean dan nilai kuantitas yang diketahui • Precision : Adalah kedekatan dari pengukuran
berulang (dari kuantitas yang sama) satu dengan lainnya. Diukur ddengan standard deviasi • Accuracy Adalah kedekatan pengukuran terhadap
nilai sebenarnya dari kuantitas yang sedang diukur
Kesalahan Pengumpulan
• Kesalahan pada saat data dikumpulkan sepertihilangnya objek data atau nilai atribut, dan lingkup objek data yang tidak tepat.
• Yang termasuk dalam kesalahan pengumpulang p g p adalah
–Outliers –Missing Values –Duplicate Data
Outliers
• Adalah objek data dengan sifat yang berbeda sekali dari kebanyakan data dalam data‐set.
Missing Values
• Merupakan nilaid ari suatu atribut yang tidak ditemukan alasan terjadinya missing values adalah
–Informasi tidak diperoleh (misal orang menolak –Informasi tidak diperoleh (misal orang menolak untuk memberikan informasi umur dan berat badan)
–Atribut yang mungkin tidak bisa diterapkan ke semua kasus (pendapatan tahunan tidak bisa diterapkan pada anak‐anak)
Duplicate Data
• Data set mungkin terdiri dari objek data yang ganda. Atau sering terjadi dupliksai antara satu dengan lainnya. Persoalan utama ketika menggabungkan data dari sumber‐sumber menggabungkan data dari sumber sumber yang bervariasi
–Orang yang sama dengan alamat email yang lebih dari satu.
Data Preprocessing
• Sebelum diterapkan algoritma data miningterhadap sebuah data‐set makan diperlukan prosess pengolahan awal. Proses ini bertujuan untuk mendapatkan data set yang dapat untuk mendapatkan data set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat.
Data Preprocessing
• Proses data prepocessing antara lain.–Aggregation –Sampling Dimensionality Reduction –Dimensionality Reduction –Feature Subset Selection –Feature Creation
–Discretization dan binarization –Attribute Transformation
Aggregation
• Proses pengumpulan adalah prosesmengkombinasikan dua atau lebih atribut‐ atribut atau objek‐objek ke dalam satu atribut tunggal atau objek
tunggal atau objek.
No Transaksi Nama barang Lokasi Toko Tanggal Harga
……. ………… ………. ……… ……. 1001122 Supermie Bukit 12‐8‐2016 1500 1001122 Gula 1 Kg Bukit 12‐8‐2016 9000 1001123 Buku Demang 23‐8‐2016 15000 ……….. …………. …………. ………… ……….
Penarikan Contoh
• Penarikan Contoh merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan
penyelidikan dan analisis data akhir penyelidikan dan analisis data akhir. • Penarikan contoh digunakan dalam data
minging karena pengolahan himpunan data yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu
Dimensionality Reduction
• Jika Dimensi meningkat, data akan meningkatsecara halus dalam daerah yang ditempati. Definisi dari kepadatan dan jarak antar titik yang merupakan kondisi kritis untuk clustering dan outlier detection
• Manfaat DR
–Mencegah efek dimensionalitas
–Mengurangi jumlah waktu dan memori untuk
algoritma data mining
–Membuat data lebih mudah divisualisasikan
–Membantu menguragi fitur yang tidak relevan
Feautre Subset Selection
• Salah satu cara untuk mengurangi dimensidalah dengan memilih fitur yang tepat atau hanya menggunakan atribut‐atribut yang diperlukan • Teknik –Brute‐force Approach –Embedded Approach –Filter Approach –Wrapper Approach
Feature Creation
• Merupakan Proses membuat atribut baruyang dapat menangkap informasi penting dalam sebuah himpunan data yang lebih efision daripada atribut yang ada. • Teknik
–Ekstraksi Fitur
–Pemetaan Data ke ruang menggunakan transformasi fourier
–Konstruksi Fitur
Discreatization and Binarization
• Algoritma data mining khususnya algoritmaklasifikasi mebutuhkan data dalam bentuk atribut katagorikal, sedangkan algoritma asosiasi memerlukan atdata ke dalam bentuk asosiasi memerlukan atdata ke dalam bentuk biner. Transformasi atribut kontinyu ke dalam bentuk katagorikal disebut discreatization. Tranformasi atribut kontinyo ke dalam bentuk biner disebut binarization
Summary
• Proses Data Mining• Kualitas Data