• Tidak ada hasil yang ditemukan

Data Mining. Yohana Nugraheni, S.Kom, MT yohananugraheni.wordpress.com

N/A
N/A
Protected

Academic year: 2021

Membagikan "Data Mining. Yohana Nugraheni, S.Kom, MT yohananugraheni.wordpress.com"

Copied!
59
0
0

Teks penuh

(1)

Yohana Nugraheni, S.Kom, MT yohana_biz@yahoo.com

yohananugraheni.wordpress.com

(2)

Penilaian

UAS : 30%

UTS : 25%

Tugas : 30%

Quiz : 10%

Absensi : 5%

(3)

Course Outline

1.

Pengenalan Data Mining

2.

Proses Data Mining

3.

Arsitektur dan Model Data Mining

4.

Fungsi-Fungsi Data Mining

5.

Teknik Data Mining

(4)

Pengenalan Data Minin

g

(5)

Pengenalan Data Mining

1.

Apa itu Data Mining?

2.

Peran Utama Data Mining

(6)
(7)

Mengapa Data Mining?

Manusia dalam suatu organisasi, sadar at

au tidak sadar telah memproduksi berbag

ai

data yang jumlahnya sangat besar

Contoh data: bisnis, kedokteran, ekonomi, ge

ografi, olahraga, …

Pada dasarnya, data adalah entitas yang

ti

dak memiliki arti

, meskipun

kemungkinan

memiliki nilai

di dalamnya

(8)

Apa itu Data Mining?

Disiplin ilmu yang mempelajari

metode untuk me

ngekstrak

pengetahuan atau

menemukan pola

d

ari suatu data

1. Data: fakta yang terekam dan tidak membawa arti

2. Pengetahuan: pola, aturan atau model yang muncul dari data

Sehingga Data mining sering disebut

Knowledg

e Discovery in Database (KDD)

Konsep Transformasi

(9)

Data

Tidak membawa arti

, merupakan kum

pulan dari fakta-fakta tentang suatu k

ejadian

Suatu catatan terstruktur dari suatu tr

ansaksi

Merupakan materi penting dalam

me

mbentuk informasi

(10)

Informasi

Informasi

adalah sekumpulan fakta (d

ata) yang diorganisir

dengan cara tert

entu sehingga mereka

mempunyai art

i

(11)

Pengetahuan

Informasi yang sudah

diorganisasika

n dan diproses

untuk memperoleh

p

emahaman, pengalaman, pembelaja

ran yang terakumulasi,

sehingga

da

pat diaplikasikan

dalam masalah ata

u proses bisnis tertentu.

(12)

Data - Informasi –

Pengetahuan

Data

Kehadiran Pegawai

NIP

TGL

DATANG

PULANG

1103 02/12/2004

07:20

15:40

1142 02/12/2004

07:45

15:33

1156 02/12/2004

07:51

16:00

1173 02/12/2004

08:00

15:15

1180 02/12/2004

07:01

16:31

1183 02/12/2004

07:49

17:00

(13)

Data - Informasi –

Pengetahuan

Informasi

Akumulasi Bulanan Kehadiran

Pegawai

NIP

Masuk Alpa

Cuti

Sakit

Telat

1103

22

1142

18

2

2

1156

10

1

11

1173

12

5

5

(14)

Data - Informasi –

Pengetahuan

Informasi

Kondisi Kehadiran Mingguan

Pegawai

Senin Selasa Rabu Kamis Jumat

Terlambat 7

0

1

0

5

Pulang

Cepat

0

1

1

1

8

Izin

3

0

0

1

4

Alpa

1

0

2

0

2

(15)

Data - Informasi –

Pengetahuan

Pengetahuan

tentang

kebiasaan

pegawai dalam jam

datang/pulang kerja

Pengetahuan

tentang

bagaimana

teknik

meningkatkan

kehadiran pegawai

kebijakan

(16)

Data - Informasi - Pengetahuan - Kebijakan

Kebijakan penataan jam kerja

karyawan

khusus untuk hari senin dan jumat

Peraturan jam kerja:

Hari Senin dimulai jam 10:00

Hari Jumat diakhiri jam 14:00

Sisa jam kerja dikompensasi ke hari lain:

1. Senin pulang jam 18:00, toh jalanan macet total di sor e hari (bayar hutang 2 jam)

2. Rabu dan kamis bayar hutang setengah jam di pagi har i dan setengah jam di sore hari (bayar hutang 2 jam)

(17)

Definisi Data Mining

Melakukan

ekstraksi

dari

data set

untuk m

endapatkan

informasi penting

yang sifatny

a

implisit

dan sebelumnya tidak diketahui,

(Witten et al., 2011)

Kegiatan yang meliputi pengumpulan, pe

makaian data historis untuk

menemukan k

eteraturan, pola dan hubungan

dalam

dat

a set

berukuran besar

(Santosa, 2007)

(18)

Definisi Data Mining

The analysis of (often large) observational dat

a sets

to find unsuspected relationships

and t

o

summarize the data

in novel ways that are b

oth understandable and useful to the data ow

ner

(Han & Kamber, 2001)

The process of

discovering meaningful new c

orrelations, patterns and trends

by sifting thr

ough large amounts of data stored in reposito

ries, using pattern recognition technologies a

s well as statistical and mathematical techniq

ues

(Gartner Group)

(19)
(20)
(21)

Peran Utama Data Mining

1.

Estimation

2.

Prediction

3.

Classification

4.

Clustering

5.

Association

(22)

Estimasi Waktu Pengiriman Pizza

Customer Jumlah

Pesanan (P)

Jumlah Bangjo (B)

Jarak (J) Waktu Tempuh (T)

1 3 3 3 16 2 1 7 4 20 3 2 4 6 18 4 4 6 8 36 ... 1000 2 4 2 12

Waktu Tempuh (T) = 0.48P + 0.23B + 0.5J

(23)

Prediksi Penentuan Kelulusan Maha

siswa

NIM Gender Nilai UN

Asal Sekolah

IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

(24)

Data Set with Attribute and Class (Iris Data Set)

Class/Label

Attribute

(25)
(26)

Algoritma Data Mining (DM)

1.

Estimation

(Estimasi):

• Linear Regression, Neural Network, Support Vector Machine, etc

2.

Prediction/Forecasting

(Prediksi/Peramalan):

• Linear Regression, Neural Network, Support Vector Machine, etc

3.

Classification

(Klasifikasi):

• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discri minant Analysis, etc

4.

Clustering

(Klastering):

• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Mean s, etc

5.

Association

(Asosiasi):

(27)
(28)

Metode Learning Pada Algoritma DM

1.

Supervised

Learning (Pembelajaran dengan G

uru):

• Sebagian besar algoritma data mining (estimation, pre diction/forecasting, classification) adalah supervised l earning

• Variabel yang menjadi target/label/class ditentukan • Algoritma melakukan proses belajar berdasarkan nilai

dari variabel target yang terasosiasi dengan nilai dari v ariable prediktor

(29)

Dataset with Attribute and Class

Class/Label

Attribute

(30)

Metode Learning Pada Algoritma DM

2.

Unsupervised

Learning (Pembelajaran tanpa

Guru):

• Algoritma data mining mencari pola dari semua variab le (atribut)

• Variable (atribut) yang menjadi target/label/class tida k ditentukan (tidak ada)

• Algoritma clustering adalah algoritma unsupervised le arning

(31)

Dataset with Attribute (No Class)

(32)

Metode Learning Pada Algoritma DM

3.

Association

Learning

(Pembelajaran untuk Asosias i Atribut)

• Proses learning pada algoritma asosiasi (association r ule) agak berbeda karena tujuannya adalah untuk m encari atribut yang muncul bersamaan dalam satu tr ansaksi

• Algoritma asosiasi biasanya untuk analisa transaksi b elanja, dengan konsep utama adalah mencari “produ k/item mana yang dibeli bersamaan”

• Pada pusat perbelanjaan banyak produk yang dijual, sehingga pencarian seluruh asosiasi produk memaka n cost tinggi, karena sifatnya yang kombinatorial

• Algoritma association rule seperti a priori algorithm, dapat memecahkan masalah ini dengan efisien

(33)
(34)
(35)
(36)

Output/Pola/Model/Knowledge

1.

Formula/

Function

(Rumus atau Fungsi Regr

esi)

• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESA NAN

2.

Decision

Tree

(Pohon Keputusan)

3.

Rule

(Aturan)

IF ips3=2.8 THEN lulustepatwaktu

(37)

Input – Metode – Output – Evalu

ation

(38)
(39)

Algoritma Estimasi

Algoritma estimasi mirip dengan algoritma

klasifikasi, tapi

variabel target adalah beru

pa bilangan numerik (kontinyu)

dan buka

n kategorikal (nominal atau diskrit)

Estimasi nilai dari variable target ditentuk

an

berdasarkan nilai dari variabel predikto

r

(atribut)

Algoritma estimasi yang biasa digunakan a

dalah:

Linear Regression

,

Neural Network

,

(40)

Contoh: Estimasi Performansi C

PU

Example

: 209 different

computer configurat

ions

Linear regression

function

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

0 0 32 128 CHMAX 0 0 8 16 CHMIN Channels Performanc e Cache (Kb) Main memory (Kb) Cycle time (ns) 45 0 4000 1000 480 209 67 32 8000 512 480 208 … 269 32 32000 8000 29 2 198 256 6000 256 125 1 PRP CACH MMAX MMIN MYCT

(41)

Algoritma Prediksi

Algoritma prediksi/forecasting

sama dengan

algoritma estimasi

di mana

label/target/clas

s bertipe numerik

, bedanya adalah data yang

digunakan merupakan data rentet waktu

(

data time series

)

Istilah prediksi kadang digunakan juga untuk

klasifikasi

, tidak hanya untuk prediksi time se

ries, karena sifatnya yang bisa menghasilkan

class berdasarkan berbagai atribut yang kita

sediakan

Semua algoritma estimasi

dapat digunakan u

(42)

Contoh: Prediksi Harga Saham

Dataset harga sah am dalam bentuk t ime series (rentet waktu) harian

(43)

Contoh: Prediksi Harga Saham

(Plot)

(44)

Contoh: Prediksi Harga Saham

(Plot)

(45)

Algoritma Klasifikasi

Klasifikasi adalah algoritma yang menggunakan

data dengan

target/class/label berupa nilai kate

gorikal (nominal)

Contoh, apabila

target/class/label

adalah pend

apatan, maka bisa digunakan nilai nominal (kate

gorikal) sbb: pendapatan besar, menengah, keci

l

Contoh lain adalah rekomendasi contact lens, a

pakah menggunakan yang jenis

soft

,

hard

atau

n

one

Algoritma klasifikasi yang biasa digunakan adala

h: Naive Bayes, K-Nearest Neighbor, C4.5, ID3,

CART, Linear Discriminant Analysis, etc

(46)

Contoh: Rekomendasi Main Golf

Input:

Output (Rules):

If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity = normal then play = yes If none of the above then play = yes

(47)

Contoh: Rekomendasi Main Golf

Input (Atribut Nominal dan Numerik):

Output (Rules):

If outlook = sunny and humidity = high then play = no If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity < 85 then play = yes If none of the above then play = yes

(48)

Contoh: Rekomendasi Main Golf

(49)

Algoritma Klastering

Klastering adalah

pengelompokkan data

, hasil o

bservasi dan kasus ke dalam

class yang mirip

Suatu klaster (cluster) adalah

koleksi data yang

mirip

antara satu dengan yang lain, dan

memiliki

perbedaan

bila dibandingkan dengan data dari k

laster lain

Perbedaan utama algoritma klastering dengan kl

asifikasi adalah

klastering tidak memiliki target/c

lass/label

, jadi termasuk

unsupervised learning

Klastering sering digunakan sebagai

tahap awal

dalam proses data mining

, dengan hasil klaster y

ang terbentuk akan menjadi input dari algoritma

berikutnya yang digunakan

(50)

Contoh: Klastering Jenis Gaya H

idup

Claritas, Inc. provide a demographic profile of each of th

e geographic areas in the country, as defined by zip cod e. One of the clustering mechanisms they use is the PRI ZM segmentation system, which describes every U.S. zip code area in terms of distinct lifestyle types (66 segment s). Just go to the company’s Web site, enter a particular zip code, and you are shown the most common PRIZM c lusters for that zip code.

What do these clusters mean? For illustration, let’s look

up the clusters for zip code 90210, Beverly Hills, Califor nia. The resulting clusters for zip code 90210 are:

1. Cluster 01: Blue Blood Estates

2. Cluster 10: Bohemian Mix

3. Cluster 02: Winner’s Circle

4. Cluster 07: Money and Brains

(51)
(52)
(53)

Contoh: Klastering Bunga Iris (Pl

ot)

(54)

Contoh: Klastering Bunga Iris (Ta

ble)

(55)

Algoritma Asosiasi

Algoritma

association rule

(aturan asosiasi) ad

alah algoritma yang menemukan atribut yang

muncul bersamaan

Dalam dunia bisnis, sering disebut dengan

affi

nity analysis

atau

market basket analysis

Algoritma asosiasi akan mencari aturan yang

menghitung hubungan diantara dua atau lebih

atribut

Algoritma association rules berangkat dari pol

a “

If

antecedent

, then

consequent

,” bersamaa

n dengan pengukuran

support

(

coverage

) dan

confidence

(

accuration

) yang terasosiasi dala

m aturan

(56)

Algoritma Asosiasi

Contoh, pada hari kamis malam, 1000 pelang

gan telah melakukan belanja di supermaket A

BC, dimana:

200 orang membeli

Sabun Mandi

dari 200 orang yang membeli sabun mandi, 50 or

angnya membeli

Fanta

Jadi, association rule menjadi, “

Jika membeli s

abun mandi, maka membeli Fanta

”, dengan ni

lai

support

= 200/1000 = 20% dan nilai

confi

dence

= 50/200 = 25%

Algoritma association rule diantaranya adalah:

A priori algorithm

,

FP-Growth algorithm

,

GRI al

gorithm

(57)

Contoh Penerapan Data Mining

Penentuan kelayakan aplikasi peminjaman uang

di bank

Analisis pola belanja pelanggan

Penentuan pola pelanggan yang loyal pada perus

ahaan operator telepon

Memprediksi kasus‐kasus yang mengandung kec

urangan dalam transaksi dalam transaksi kartu kr

edit (Fraud detection).

(58)

Referensi

1. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Pr actical Machine Learning Tools and Techniques 3rd Ed ition, Elsevier, 2011

2. Daniel T. Larose, Discovering Knowledge in Data: an Int roduction to Data Mining, John Wiley & Sons, 2005

3. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011

4. Jiawei Han and Micheline Kamber, Data Mining: Conce pts and Techniques Second Edition, Elsevier, 2006

5. Oded Maimon and Lior Rokach, Data Mining and Know ledge Discovery Handbook Second Edition, Springer, 2 010

6. Warren Liao and Evangelos Triantaphyllou (eds.), Rece nt Advances in Data Mining of Enterprise Data: Algorith ms and Applications, World Scientific, 2007

(59)

Referensi

Dokumen terkait

Metode yang digunakan dalam analisis terhadap peranan Kredit Usaha Rakyat (KUR) terhadap pengembangan Usaha Mikro dan Kecil (UMK) di Kecamatan Gebang Kabupaten Langkat adalah metode

Titik studi yang diambil untuk dilakukan analisis bahaya pada tugas akhir ini terdapat pada unit main

temperatur pada pelat ini bertujuan untuk mengetahui distribusi temperatur setiap titik ketebalan IEB hingga sepanjang pelat elemen bakar selama proses perolan panas

Penggunaan pupuk organik pada produksi benih kakao sangat penting disamping untuk meningkatkan ketersediaan unsur hara dalam tanah juga memperbaiki sifat fisik dan

Meningka#kan penyer#aan dan memberi pe!uang kepada &#34;#K mengikuti program akademik dan bukan akademik bersama-sama murid di arus perdana% PPI $uga memberi

Muh.Ridwan AP dan Chairul Saleh (2003) melakukan penelitian untuk menyelesaikan kasus penjadwalan sistem manufaktur bertingkat dimana mesin- mesin disusun dalam beberapa

terjemah ke penerjemah tersumpah à legalisir Kemenkumham (terjemahan) à legalisir Kemenlu (terjemahan) à Legalisir Kedubes Austria (asli dan terjemahan).

Hasil ini tidak sejalan dengan signaling theory yang menyatakan pengeluaran investasi memberikan sinyal positif terhadap pertumbuhan perusahaan di masa yang akan