• Tidak ada hasil yang ditemukan

Data Mining. Romi Satria Wahono. WA/SMS:

N/A
N/A
Protected

Academic year: 2021

Membagikan "Data Mining. Romi Satria Wahono. WA/SMS:"

Copied!
53
0
0

Teks penuh

(1)

Data Mining

Romi Satria Wahono

romi@romisatriawahono.net http://romisatriawahono.net/dm

(2)

Romi Satria Wahono

• SD Sompok

Semarang (1987)

• SMPN 8

Semarang (1990)

• SMA Taruna Nusantara

Magelang (1993)

• B.Eng

,

M.Eng

and

Ph.D

in Software Engineering from

Saitama University Japan (1994-2004)

Universiti Teknikal Malaysia Melaka (2014)

• Research Interests:

Software Engineering

,

Machine Learning

• Founder dan Koordinator

IlmuKomputer.Com

• Peneliti LIPI (2004-2007)

(3)

Learning Design

Educational Objectives (Benjamin Bloom) Cognitive Affective Psychomotor Criterion Referenced Instruction (Robert Mager) Competencies Performance Evaluation Minimalism (John Carroll) Start Immediately

Minimize the Reading

Error Recognition

(4)

Learning Design

Pretest dan Posttest untuk

Mengukur Kompetensi Kognifif Mahasiwa

Penyajian Materi dengan

Model Minimalism berbasis Konsep Amati-Tiru-Modifikasi

Latihan Secara Iteratif untuk

Meningkatkan Kompetensi Kognitif dan Psikomotorik Mahasiswa

Penugasan berbasis

Self-Contained Project atau Literatur Review

(5)
(6)

Course Outline

1. Pengenalan Data Mining

2. Proses Data Mining

3. Evaluasi dan Validasi pada Data

Mining

4. Metode dan Algoritma Data Mining

5. Penelitian Data Mining

(7)

1. Pengenalan Data Mining

1.1 Apa itu Data Mining?

(8)
(9)

Mengapa Data Mining?

• Manusia dalam suatu organisasi, sadar atau

tidak sadar telah memproduksi berbagai

data yang jumlahnya sangat besar

• Contoh data: bisnis, kedokteran, ekonomi,

geografi, olahraga, …

• Pada dasarnya, data adalah entitas yang

tidak memiliki arti

, meskipun

kemungkinan

memiliki nilai

di dalamnya

• We are

drowning in data

, but

starving for

(10)

Apa itu Data Mining?

• Disiplin ilmu yang mempelajari

metode untuk mengekstrak

pengetahuan atau

menemukan

pola

dari suatu data

1. Data: fakta yang terekam dan tidak membawa arti

2. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

• Nama lain data mining:

Knowledge

Discovery in Database (KDD),

knowledge extraction, data/pattern analysis, data dredging, data

archeology, information harvesting,

(11)

Apa Itu Data Mining?

Himpunan

Data

Metode Data

(12)

Definisi Data Mining

• Melakukan

ekstraksi

untuk mendapatkan

informasi

penting

yang sifatnya

implisit

dan sebelumnya tidak

diketahui, dari suatu data (Witten et al., 2011)

• Kegiatan yang meliputi pengumpulan, pemakaian

data historis untuk

menemukan keteraturan, pola dan

hubungan

dalam set data berukuran besar (Santosa,

2007)

• Extraction of interesting

(non-trivial,

implicit

,

previously unknown

and potentially useful)

patterns

or knowledge

from huge amount of data (Han et al.,

2013)

(13)

Irisan Bidang Ilmu Data Mining

1. Statistik

:

• Lebih bersifat teori

• Fokus ke pengujian hipotesis

2. Machine Learning

:

• Lebih bersifat heuristik

• Fokus pada perbaikan performansi dari suatu teknik learning

3. Data Mining

:

• Gabungan teori dan heuristik

• Fokus pada seluruh proses penemuan knowledge dan pola

(14)

Data Mining pada Business Intelligence

Increasing potential

to support business

decisions End User

Business Analyst Data Analyst DBA Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration

Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses Data Sources

(15)

Multi-Dimensional View of Data Mining

• Data to be mined

• Database data (extended-relational, object-oriented,

heterogeneous, legacy), data warehouse, transactional data,

stream, spatiotemporal, time-series, sequence, text and web, multi-media, graphs & social and information networks

• Knowledge to be mined (or: Data mining functions)

• Characterization, discrimination, association, classification,

clustering, trend/deviation, outlier analysis, etc. • Descriptive vs. predictive data mining

• Techniques utilized

• Data-intensive, data warehouse (OLAP), machine learning,

statistics, pattern recognition, visualization, high-performance, etc.

• Applications adapted

• Retail, telecommunication, banking, fraud analysis, bio-data mining, stock market analysis, text mining, web mining, etc.

(16)

Cognitive-Performance Test

1. Jelaskan dengan kalimat sendiri

apa yang dimaksud dengan

data

mining

?

2. Apa perbedaan antara

data

dan

(17)
(18)

Peran Utama (Metode) Data Mining

1. Estimasi 2. Prediksi 3. Klasifikasi 4. Klastering 5. Asosiasi

(19)

Dataset (Himpunan Data)

Class/Label/Target

Attribute/Feature

Nominal

Numerik

Record/

Object/

Sample

(20)

1. Estimasi Waktu Pengiriman Pizza

Customer Jumlah Pesanan (P) Jumlah Traffic Light (T) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16 2 1 7 4 20 3 2 4 6 18 4 4 6 8 36 ... 1000 2 4 2 12

Waktu Tempuh (T) = 0.48P + 0.23T + 0.5J

Pengetahuan Pembelajaran dengan

Metode Estimasi (Regresi Linier)

(21)

Contoh: Estimasi Performansi CPU

• Example

: 209 different

computer configurations

• Linear regression

function

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

0 0 32 128 CHMAX 0 0 8 16 CHMIN Channels Performance Cache (Kb) Main memory (Kb) Cycle time (ns) 45 0 4000 1000 480 209 67 32 8000 512 480 208 … 269 32 32000 8000 29 2 198 256 6000 256 125 1 PRP CACH MMAX MMIN MYCT

(22)

Output/Pola/Model/Knowledge

1. Formula/

Function

(Rumus atau Fungsi Regresi)

• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision

Tree

(Pohon Keputusan)

3. Rule

(Aturan)

• IF ips3=2.8 THEN lulustepatwaktu

(23)

2. Prediksi Harga Saham

Dataset harga saham dalam bentuk time series (rentet waktu)

Pembelajaran dengan

Metode Prediksi (Neural Network)

(24)
(25)

3. Klasifikasi Kelulusan Mahasiswa

NIM Gender Nilai UN

Asal Sekolah

IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya Pembelajaran dengan Metode Klasifikasi (C4.5) Label

(26)
(27)

Contoh: Rekomendasi Main Golf

• Input:

• Output (Rules):

If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no

(28)

Contoh: Rekomendasi Main Golf

(29)

Contoh: Rekomendasi Contact Lens

(30)

Contoh: Rekomendasi Contact Lens

(31)

4. Klastering Bunga Iris

Pembelajaran dengan

Metode Klastering (K-Means)

(32)
(33)

5. Asosiasi Kekayaan dan Barang

Pembelajaran dengan

(34)
(35)

Aturan Asosiasi

• Algoritma association rule (aturan asosiasi) adalah

algoritma yang menemukan atribut yang “

muncul

bersamaan

• Dalam dunia bisnis, sering disebut dengan

affinity

analysis

atau

market basket analysis

• Algoritma asosiasi akan mencari aturan yang

menghitung hubungan diantara dua atau lebih atribut

• Algoritma association rules berangkat dari pola “

If

antecedent, then consequent

,” bersamaan dengan

pengukuran

support

(coverage) dan

confidence

(36)

Aturan Asosiasi dari Data Transaksi

Waktu Transaksi

Item 1 Item 2 Item 3 Item 4

06:15

01-01-2012

Susu Popok Roti Gula

06:25

01-01-2012

(37)

Contoh Aturan Asosiasi

• Contoh, pada hari kamis malam, 1000 pelanggan

telah melakukan belanja di supermaket ABC,

dimana:

• 200 orang membeli Sabun Mandi

• dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta

• Jadi, association rule menjadi, “

Jika membeli

sabun mandi, maka membeli Fanta

”, dengan nilai

support

= 200/1000 = 20% dan nilai

confidence

=

50/200 = 25%

• Algoritma association rule diantaranya adalah:

A

priori algorithm

,

FP-Growth algorithm

,

GRI

(38)

Algoritma Data Mining (DM)

1. Estimation

(Estimasi):

• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting

(Prediksi/Peramalan):

• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification

(Klasifikasi):

• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc

4. Clustering

(Klastering):

• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association

(Asosiasi):

(39)

Metode Learning Pada Algoritma DM

Supervised

Learning

Association

Learning

Unsupervised

Learning

(40)

Metode Learning Pada Algoritma DM

1. Supervised

Learning (Pembelajaran dengan Guru):

• Sebagian besar algoritma data mining (estimation,

prediction/forecasting, classification) adalah supervised learning

• Variabel yang menjadi target/label/class ditentukan

• Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi dengan nilai dari variable prediktor

(41)

Dataset dengan Class

Class/Label/Target

Attribute/Feature

Nominal

(42)

Metode Learning Pada Algoritma DM

2. Unsupervised

Learning (Pembelajaran tanpa Guru):

• Algoritma data mining mencari pola dari semua variable (atribut)

• Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada)

• Algoritma clustering adalah algoritma unsupervised learning

(43)

Dataset tanpa Class

(44)

Metode Learning Pada Algoritma DM

3. Association

Learning

(Pembelajaran untuk Asosiasi Atribut)

Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujuannya adalah untuk mencari

atribut yang muncul bersamaan dalam satu transaksi

• Algoritma asosiasi biasanya untuk analisa transaksi belanja, dengan konsep utama adalah mencari “produk/item mana yang dibeli bersamaan”

• Pada pusat perbelanjaan banyak produk yang dijual,

sehingga pencarian seluruh asosiasi produk memakan cost tinggi, karena sifatnya yang kombinatorial

Algoritma association rule seperti a priori algorithm, dapat memecahkan masalah ini dengan efisien

(45)
(46)
(47)

Proses Utama pada Data Mining

Input

(Data)

Metode

(Algoritma

Data Mining)

Output

(Pola/Model)

DATA PRE-PROCESSING Data integration Normalization Feature selection

DATA MINING ALGORITHM Estimation Prediction Classification POST-PROCESSING Pattern evaluation Pattern selection Pattern interpretation

(48)

Output/Pola/Model/Knowledge

1. Formula/

Function

(Rumus atau Fungsi Regresi)

• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision

Tree

(Pohon Keputusan)

3. Rule

(Aturan)

• IF ips3=2.8 THEN lulustepatwaktu

(49)

Input – Metode – Output – Evaluation

Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model) Evaluation (Akurasi, AUC, RMSE, etc)

(50)

Cognitive-Performance Test

1. Sebutkan

5 peran utama

data mining!

2. Jelaskan perbedaan

estimasi

dan

prediksi

!

3. Jelaskan perbedaan

estimasi

dan

klasifikasi

!

4. Jelaskan perbedaan

klasifikasi

dan

klastering

!

5. Jelaskan perbedaan

klastering

dan

prediksi

!

6. Jelaskan perbedaan

supervised

dan

unsupervised

learning!

(51)

Contoh Penerapan Data Mining

• Penentuan kelayakan aplikasi peminjaman uang di bank

• Penentuan pasokan listrik PLN untuk wilayah Jakarta

• Diagnosis pola kesalahan mesin

• Perkiraan harga saham dan tingkat inflasi

• Analisis pola belanja pelanggan

• Memisahkan minyak mentah dan gas alam

• Pemilihan program TV otomatis

• Penentuan pola pelanggan yang loyal pada perusahaan

operator telepon

(52)

Cognitive-Performance Test

1. Sebutkan

5 peran utama

data mining!

2. algoritma apa

saja yang dapat digunakan untuk 5

peran utama data mining di atas?

3. Jelaskan perbedaan

estimasi

dan

prediksi

!

4. Jelaskan perbedaan

estimasi

dan

klasifikasi

!

5. Jelaskan perbedaan

klasifikasi

dan

klastering

!

6. Jelaskan perbedaan

klastering

dan

prediksi

!

7. Jelaskan perbedaan

supervised

dan

unsupervised

learning!

(53)

Referensi

1. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011

2. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining, John Wiley & Sons, 2005 3. Florin Gorunescu, Data Mining: Concepts, Models and

Techniques, Springer, 2011

4. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition, Elsevier, 2012

5. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook Second Edition, Springer, 2010

6. Warren Liao and Evangelos Triantaphyllou (eds.), Recent

Advances in Data Mining of Enterprise Data: Algorithms and Applications, World Scientific, 2007

Referensi

Dokumen terkait

Penelitian ini bertujuan untuk meneliti bagaimana cara perusahaan mengidentifikasi niche market, menentukan faktor yang penting untuk kesuksesan niche market, dan

Az anyagi helyzet hatása azonban mind a két alminta esetében ha- sonló: a kedvezőbb anyagi helyzetben lévő csoportok elkötelezettsége magasabb, s szemléletes azoknak

Beberapa faktor kenaikan harga-harga kebutuhan pokok memang tidak bisa dipisahkan dengan faktor resesi ekonomi dunia yang kian memburuk seiring dengan krisis umum

Pelaksanaan CSR secara internal adalah dilaksakan langsung oleh PT.NNT kepada masyarakat, sedangkan pelaksanaan program CSR secara eksternal adalah dengan

ANALISIS COD (CHEMICAL OXYGEN DEMAND) PADA KUALITAS AIR SUNGAI KRUENG TAMIANG DI KABUPATEN ACEH

Lebih jauh dari itu, transaksi ekonomi dan keuangan lebih berorientasi pada keadilan dan kemakmuran umat.Pada zaman Rasullah SAW kegiatan praktek- praktek seperti menerima

ANTARA CORRUGATED WATERTIGHT BULKHEAD DENGAN TRANSVERSE PLANE WATERTIGHT BULKHEAD PADA BLOCK BO2 KAPAL 11179 GT DENGAN FEM (Finite Element Methode)”.. Namun semua ini

Pemanfaatan ruang perkotaan tahun 2013 diperoleh dari hasil interpretasi citra Quickbird tahun 2010 dan dilakukan cek lapangan pada tahun 2013 untuk