Data Mining. Yohana Nugraheni, S.Kom, MT yohananugraheni.wordpress.com

(1)

Yohana Nugraheni, S.Kom, MT [email protected]

yohananugraheni.wordpress.com

(2)

Penilaian



_{UAS : 30%}



_{UTS : 25%}



_{Tugas : 30%}



_{Quiz : 10%}



_{Absensi : 5%}

(3)

Course Outline

1. Pengenalan Data Mining

2. Proses Data Mining

3. Arsitektur dan Model Data Mining

4. Fungsi-Fungsi Data Mining

5. Teknik Data Mining

(4)

Pengenalan Data Minin

g

(5)

Pengenalan Data Mining

1. Apa itu Data Mining?

2. Peran Utama Data Mining

(6)

(7)

Mengapa Data Mining?



_{Manusia dalam suatu organisasi, sadar at}

au tidak sadar telah memproduksi berbag

ai

data yang jumlahnya sangat besar

• Contoh data: bisnis, kedokteran, ekonomi, ge

ografi, olahraga, …



_{Pada dasarnya, data adalah entitas yang}

_ti

dak memiliki arti

, meskipun

kemungkinan

memiliki nilai

di dalamnya

(8)

Apa itu Data Mining?



_{Disiplin ilmu yang mempelajari}

_{metode untuk me}

ngekstrak

pengetahuan atau

menemukan pola

d

ari suatu data

1. Data: fakta yang terekam dan tidak membawa arti

2. Pengetahuan: pola, aturan atau model yang muncul dari data



_{Sehingga Data mining sering disebut}

_Knowledg

e Discovery in Database (KDD)



_{Konsep Transformasi}

(9)

Data



_{Tidak membawa arti}

_{, merupakan kum}

pulan dari fakta-fakta tentang suatu k

ejadian



_{Suatu catatan terstruktur dari suatu tr}

ansaksi



_{Merupakan materi penting dalam}

_me

mbentuk informasi

(10)

Informasi



_Informasi

_{adalah sekumpulan fakta (d}

ata) yang diorganisir

dengan cara tert

entu sehingga mereka

mempunyai art

i

(11)

Pengetahuan



_{Informasi yang sudah}

_{diorganisasika}

n dan diproses

untuk memperoleh

p

emahaman, pengalaman, pembelaja

ran yang terakumulasi,

sehingga

da

pat diaplikasikan

dalam masalah ata

u proses bisnis tertentu.

(12)

Data - Informasi –

Pengetahuan

Data

Kehadiran Pegawai

NIP

TGL

DATANG

PULANG

1103 02/12/2004

07:20

15:40

1142 02/12/2004

07:45

15:33

1156 02/12/2004

07:51

16:00

1173 02/12/2004

08:00

15:15

1180 02/12/2004

07:01

16:31

1183 02/12/2004

07:49

17:00

(13)

Data - Informasi –

Pengetahuan

Informasi

Akumulasi Bulanan Kehadiran

Pegawai

NIP

Masuk Alpa

Cuti

Sakit

Telat

1103

22 1142

18

2

2 1156

10

1

11 1173

12

5

(14)

Data - Informasi –

Pengetahuan

Informasi

Kondisi Kehadiran Mingguan

Pegawai

Senin Selasa Rabu Kamis Jumat

Terlambat 7

0

1

0

5 Pulang

Cepat

0

1

8 Izin

3

0

1

4 Alpa

1

0

2

0

2

(15)

Data - Informasi –

Pengetahuan



_Pengetahuan

tentang

kebiasaan

pegawai dalam jam

datang/pulang kerja



_Pengetahuan

tentang

bagaimana

teknik

meningkatkan

kehadiran pegawai



kebijakan

(16)

Data - Informasi - Pengetahuan - Kebijakan



_{Kebijakan penataan jam kerja}

_karyawan

khusus untuk hari senin dan jumat



_{Peraturan jam kerja:}

• Hari Senin dimulai jam 10:00

• Hari Jumat diakhiri jam 14:00

• Sisa jam kerja dikompensasi ke hari lain:

1. Senin pulang jam 18:00, toh jalanan macet total di sor e hari (bayar hutang 2 jam)

2. Rabu dan kamis bayar hutang setengah jam di pagi har i dan setengah jam di sore hari (bayar hutang 2 jam)

(17)

Definisi Data Mining



_Melakukan

_ekstraksi

_dari

_{data set}

_{untuk m}

endapatkan

informasi penting

yang sifatny

a

implisit

dan sebelumnya tidak diketahui,

(Witten et al., 2011)



_{Kegiatan yang meliputi pengumpulan, pe}

makaian data historis untuk

menemukan k

eteraturan, pola dan hubungan

dalam

dat

a set

berukuran besar

(Santosa, 2007)

(18)

Definisi Data Mining



_{The analysis of (often large) observational dat}

a sets

to find unsuspected relationships

and t

o

summarize the data

in novel ways that are b

oth understandable and useful to the data ow

ner

(Han & Kamber, 2001)



_{The process of}

_{discovering meaningful new c}

orrelations, patterns and trends

by sifting thr

ough large amounts of data stored in reposito

ries, using pattern recognition technologies a

s well as statistical and mathematical techniq

ues

(Gartner Group)

(19)

(20)

(21)

Peran Utama Data Mining

1. Estimation

2. Prediction

3. Classification

4. Clustering

5. Association

(22)

Estimasi Waktu Pengiriman Pizza

Customer Jumlah

Pesanan (P)

Jumlah Bangjo (B)

Jarak (J) Waktu Tempuh (T)

1 3 3 3 16 2 1 7 4 20 3 2 4 6 18 4 4 6 8 36 ... 1000 2 4 2 12

Waktu Tempuh (T) = 0.48P + 0.23B + 0.5J

(23)

Prediksi Penentuan Kelulusan Maha

siswa

NIM Gender Nilai UN

Asal Sekolah

IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

(24)

Data Set with Attribute and Class (Iris Data Set)

Class/Label

Attribute

(25)

(26)

Algoritma Data Mining (DM)

1. Estimation

(Estimasi):

• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting

(Prediksi/Peramalan):

• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification

(Klasifikasi):

• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discri minant Analysis, etc

4. Clustering

(Klastering):

• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Mean s, etc

5. Association

(Asosiasi):

(27)

(28)

Metode Learning Pada Algoritma DM

1. Supervised

Learning (Pembelajaran dengan G

uru):

• Sebagian besar algoritma data mining (estimation, pre diction/forecasting, classification) adalah supervised l earning

• Variabel yang menjadi target/label/class ditentukan • Algoritma melakukan proses belajar berdasarkan nilai

dari variabel target yang terasosiasi dengan nilai dari v ariable prediktor

(29)

Dataset with Attribute and Class

Class/Label

Attribute

(30)

Metode Learning Pada Algoritma DM

2. Unsupervised

Learning (Pembelajaran tanpa

Guru):

• Algoritma data mining mencari pola dari semua variab le (atribut)

• Variable (atribut) yang menjadi target/label/class tida k ditentukan (tidak ada)

• Algoritma clustering adalah algoritma unsupervised le arning

(31)

Dataset with Attribute (No Class)

(32)

Metode Learning Pada Algoritma DM

3. Association

Learning

(Pembelajaran untuk Asosias i Atribut)

• Proses learning pada algoritma asosiasi (association r ule) agak berbeda karena tujuannya adalah untuk m encari atribut yang muncul bersamaan dalam satu tr ansaksi

• Algoritma asosiasi biasanya untuk analisa transaksi b elanja, dengan konsep utama adalah mencari “produ k/item mana yang dibeli bersamaan”

• Pada pusat perbelanjaan banyak produk yang dijual, sehingga pencarian seluruh asosiasi produk memaka n cost tinggi, karena sifatnya yang kombinatorial

• Algoritma association rule seperti a priori algorithm, dapat memecahkan masalah ini dengan efisien

(33)

(34)

(35)

(36)

Output/Pola/Model/Knowledge

1. Formula/

Function

(Rumus atau Fungsi Regr

esi)

• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESA NAN

2. Decision

Tree

(Pohon Keputusan)

3. Rule

(Aturan)

• IF ips3=2.8 THEN lulustepatwaktu

(37)

Input – Metode – Output – Evalu

ation

(38)

(39)

Algoritma Estimasi



_{Algoritma estimasi mirip dengan algoritma}

klasifikasi, tapi

variabel target adalah beru

pa bilangan numerik (kontinyu)

dan buka

n kategorikal (nominal atau diskrit)



_{Estimasi nilai dari variable target ditentuk}

an

berdasarkan nilai dari variabel predikto

r

(atribut)



_{Algoritma estimasi yang biasa digunakan a}

dalah:

Linear Regression

,

Neural Network

,

(40)

Contoh: Estimasi Performansi C

PU



_Example

_{: 209 different}

_{computer configurat}

ions



_{Linear regression}

_function

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

0 0 32 128 CHMAX 0 0 8 16 CHMIN Channels Performanc e Cache (Kb) Main memory (Kb) Cycle time (ns) 45 0 4000 1000 480 209 67 32 8000 512 480 208 … 269 32 32000 8000 29 2 198 256 6000 256 125 1 PRP CACH MMAX MMIN MYCT

(41)

Algoritma Prediksi



_{Algoritma prediksi/forecasting}

_{sama dengan}

algoritma estimasi

di mana

label/target/clas

s bertipe numerik

, bedanya adalah data yang

digunakan merupakan data rentet waktu

(

data time series

)



_{Istilah prediksi kadang digunakan juga untuk}

klasifikasi

, tidak hanya untuk prediksi time se

ries, karena sifatnya yang bisa menghasilkan

class berdasarkan berbagai atribut yang kita

sediakan



_{Semua algoritma estimasi}

_{dapat digunakan u}

(42)

Contoh: Prediksi Harga Saham

Dataset harga sah am dalam bentuk t ime series (rentet waktu) harian

(43)

Contoh: Prediksi Harga Saham

(Plot)

(44)

Contoh: Prediksi Harga Saham

(Plot)

(45)

Algoritma Klasifikasi



_{Klasifikasi adalah algoritma yang menggunakan}

data dengan

target/class/label berupa nilai kate

gorikal (nominal)



_{Contoh, apabila}

_{target/class/label}

_{adalah pend}

apatan, maka bisa digunakan nilai nominal (kate

gorikal) sbb: pendapatan besar, menengah, keci

l



_{Contoh lain adalah rekomendasi contact lens, a}

pakah menggunakan yang jenis

soft

,

hard

atau

n

one



_{Algoritma klasifikasi yang biasa digunakan adala}

h: Naive Bayes, K-Nearest Neighbor, C4.5, ID3,

CART, Linear Discriminant Analysis, etc

(46)

Contoh: Rekomendasi Main Golf

 _Input_:

 _{Output (Rules)}_:

If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity = normal then play = yes If none of the above then play = yes

(47)

Contoh: Rekomendasi Main Golf

 _{Input (Atribut Nominal dan Numerik):}

 _{Output (Rules)}_:

If outlook = sunny and humidity = high then play = no If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity < 85 then play = yes If none of the above then play = yes

(48)

Contoh: Rekomendasi Main Golf

(49)

Algoritma Klastering



_{Klastering adalah}

_{pengelompokkan data}

_{, hasil o}

bservasi dan kasus ke dalam

class yang mirip



_{Suatu klaster (cluster) adalah}

_{koleksi data yang}

mirip

antara satu dengan yang lain, dan

memiliki

perbedaan

bila dibandingkan dengan data dari k

laster lain



_{Perbedaan utama algoritma klastering dengan kl}

asifikasi adalah

klastering tidak memiliki target/c

lass/label

, jadi termasuk

unsupervised learning



_{Klastering sering digunakan sebagai}

_{tahap awal}

dalam proses data mining

, dengan hasil klaster y

ang terbentuk akan menjadi input dari algoritma

berikutnya yang digunakan

(50)

Contoh: Klastering Jenis Gaya H

idup

 _{Claritas, Inc. provide a}_{demographic profile of each of th}

e geographic areas in the country, as defined by zip cod e. One of the clustering mechanisms they use is the PRI ZM segmentation system, which describes every U.S. zip code area in terms of distinct lifestyle types (66 segment s). Just go to the company’s Web site, enter a particular zip code, and you are shown the most common PRIZM c lusters for that zip code.

 _{What do these clusters mean? For illustration, let’s look}

up the clusters for zip code 90210, Beverly Hills, Califor nia. The resulting clusters for zip code 90210 are:

1. Cluster 01: Blue Blood Estates

2. Cluster 10: Bohemian Mix

3. Cluster 02: Winner’s Circle

4. Cluster 07: Money and Brains

(51)

(52)

(53)

Contoh: Klastering Bunga Iris (Pl

ot)

(54)

Contoh: Klastering Bunga Iris (Ta

ble)

(55)

Algoritma Asosiasi



_Algoritma

_{association rule}

_{(aturan asosiasi) ad}

alah algoritma yang menemukan atribut yang

“

muncul bersamaan

”



_{Dalam dunia bisnis, sering disebut dengan}

_affi

nity analysis

atau

market basket analysis



_{Algoritma asosiasi akan mencari aturan yang}

menghitung hubungan diantara dua atau lebih

atribut



_{Algoritma association rules berangkat dari pol}

a “

If

antecedent

, then

consequent

,” bersamaa

n dengan pengukuran

support

(

coverage

) dan

confidence

(

accuration

) yang terasosiasi dala

m aturan

(56)

Algoritma Asosiasi



_{Contoh, pada hari kamis malam, 1000 pelang}

gan telah melakukan belanja di supermaket A

BC, dimana:

• 200 orang membeli

Sabun Mandi

• dari 200 orang yang membeli sabun mandi, 50 or

angnya membeli

Fanta



_{Jadi, association rule menjadi, “}

_{Jika membeli s}

abun mandi, maka membeli Fanta

”, dengan ni

lai

support

= 200/1000 = 20% dan nilai

confi

dence

= 50/200 = 25%



_{Algoritma association rule diantaranya adalah:}

A priori algorithm

,

FP-Growth algorithm

,

GRI al

gorithm

(57)

Contoh Penerapan Data Mining



_{Penentuan kelayakan aplikasi peminjaman uang}

di bank



_{Analisis pola belanja pelanggan}



_{Penentuan pola pelanggan yang loyal pada perus}

ahaan operator telepon



_{Memprediksi kasus‐kasus yang mengandung kec}

urangan dalam transaksi dalam transaksi kartu kr

edit (Fraud detection).

(58)

Referensi

1. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Pr actical Machine Learning Tools and Techniques 3rd Ed ition, Elsevier, 2011

2. Daniel T. Larose, Discovering Knowledge in Data: an Int roduction to Data Mining, John Wiley & Sons, 2005

3. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011

4. Jiawei Han and Micheline Kamber, Data Mining: Conce pts and Techniques Second Edition, Elsevier, 2006

5. Oded Maimon and Lior Rokach, Data Mining and Know ledge Discovery Handbook Second Edition, Springer, 2 010

6. Warren Liao and Evangelos Triantaphyllou (eds.), Rece nt Advances in Data Mining of Enterprise Data: Algorith ms and Applications, World Scientific, 2007

(59)