• Tidak ada hasil yang ditemukan

Dt Data Mining. DJAYADI NUGROHO, M.KOM nugroho.stiemj.ac.id Sumber : Romi Satria Wahono

N/A
N/A
Protected

Academic year: 2021

Membagikan "Dt Data Mining. DJAYADI NUGROHO, M.KOM nugroho.stiemj.ac.id Sumber : Romi Satria Wahono"

Copied!
47
0
0

Teks penuh

(1)

D t Mi i

Data Mining

DJAYADI NUGROHO, M.KOM

h

d

nugroho.stiemj.ac.id

(2)

PERSYARATAN KULIAH

• Kehadiran minimal 75 %

• Tugas terstruktur

Tugas terstruktur

• Tugas mandiri

• Ujian tengah semester

Ujian tengah semester

• Ujian akhir semester

• Di kelas nada dering HP dinonaktifkan

• Di kelas nada dering HP dinonaktifkan

• Wajib pakai sepatu

• Tidak memakai kaos

• Tidak memakai kaos

(3)
(4)

Referensi

1. Jiawei Han and Micheline Kamber, 

Data Mining: Concepts and 

Techniques Third Edition

, Elsevier, 2012

2

Ian H Witten Frank Eibe Mark A Hall

Data mining: Practical

2. Ian H. Witten, Frank Eibe, Mark A. Hall, 

Data mining: Practical

Machine Learning Tools and Techniques 3rd Edition

, Elsevier, 2011

3. Markus Hofmann and Ralf Klinkenberg, 

RapidMiner: Data Mining 

Use Cases and Business Analytics Applications

, CRC Press Taylor & 

Francis Group, 2014

4. Daniel T. Larose, 

Discovering Knowledge in Data: an Introduction

to Data Mining

, John Wiley & Sons, 2005

5

E h

Al

di

I

d

i

M hi

L

i

3 d d MIT

5. Ethem Alpaydin, 

Introduction to Machine Learning

, 3rd ed., MIT 

Press, 2014

6. Florin Gorunescu, 

Data Mining: Concepts, Models and 

Techniques

, Springer, 2011

Techniques

, Springer,  2011 

7. Oded Maimon and Lior Rokach

, Data Mining and Knowledge 

Discovery Handbook Second Edition

, Springer, 2010

8. Warren Liao and Evangelos Triantaphyllou (eds.), 

g

p y

(

),

Recent Advances 

in Data Mining of Enterprise Data: Algorithms and Applications

(5)

Pre‐Test

1. Jelaskan perbedaan antara

data

informasi

dan

pengetahuan

!

2

Jelaskan apa yang anda ketahui tentang

data mining

!

2. Jelaskan apa yang anda ketahui tentang

data mining

!

3. Sebutkan

peran utama data mining

!

4. Sebutkan

pemanfaatan dari data mining 

di berbagai bidang!

5. Pengetahuan atau pola apa yang bisa kita dapatkan

dari data 

di bawah?

G d il i l S S2 S3 S l

NIM Gender Nilai UN

Asal  Sekolah

IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat  Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMAN 7 4 0 3 2 3 8 3 7 Tidak 10002 P 27 SMAN 7 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

(6)

Course Outline

2 P

D t Mi i

1. Pengantar Data Mining

3. Persiapan Data

2. Proses Data Mining

5 Al

it

Kl t i

4. Algoritma Klasifikasi

6. Algoritma Asosiasi

5. Algoritma Klastering

8 T

Mi i

7. Algoritma Estimasi dan Forecasting

8. Text Mining

(7)

1. Pengantar Data Mining

1.1 Apa itu Data Mining?

1.2 Peran Utama dan Metode Data Mining

1.3 Sejarah dan Penerapan Data Mining

(8)
(9)

Manusia Memproduksi Data

Manusia memproduksi beragam

data yang

jumlah dan ukurannya

data yang jumlah dan ukurannya

sangat besar

i

• Astronomi

• Bisnis

• Kedokteran

Kedokteran

• Ekonomi

• Olahraga

• Cuaca

• Financial

• …

(10)

Pertumbuhan Data

Astronomi

Sl

Di i l Sk

S

kilobyte (kB) 103 megabyte (MB) 106

• Sloan Digital Sky 

Survey

• New Mexico, 2000

• 140TB

over 10 years

megabyte (MB) 106 gigabyte (GB) 109 terabyte (TB) 1012 petabyte (PB) 1015

• Large Synoptic 

Survey Telescope

• Chile, 2016

• Will acquire

140TB every five days

petabyte (PB) 1015 exabyte (EB) 1018 zettabyte (ZB) 1021 yottabyte (YB) 1024

Will acquire 

140TB every five days

Biologi dan Kedokteran

yottabyte (YB) 1024

Biologi dan Kedokteran

• European Bioinformatics Institute (

EBI

)

• 20PB of data 

(genomic data doubles in size each year)

(11)

Perubahan Kultur dan Perilaku

( h d

(Insight, Big Data Trends for Media, 2015)

(12)

Datangnya Tsunami Data

kilobyte (kB)megabyte (MB) 101036 gigabyte (GB) 109

• Mobile Electronics 

market

• 5B mobile phones 

in use in 2010

gigabyte (GB) 10 terabyte (TB) 1012 petabyte (PB) 1015 exabyte (EB) 1018

• 150M  tablets 

was sold in 2012 (IDC)

• 200M

is global 

notebooks 

shipments in 2012 

(Digitimes Research)

exabyte (EB) 10 zettabyte (ZB) 1021 yottabyte (YB) 1024

(Digitimes Research) 

• Web and Social Networks 

generates 

amount of data

amount of data

• Google processes 

100 PB per day

, 3 million servers

• Facebook has 

300 PB of user data 

per day 

• Youtube has 

1000PB video 

storage

• 235 TBs 

data collected by the US Library of Congress

• 15 out of 17 sectors in the US have

more data stored

• 15 out of 17 sectors in the US have 

more data stored 

per company than the US Library of Congress 

(13)

Mengapa Data Mining?

We are 

drowning in data

, but 

(14)
(15)

Apa itu Data Mining?

• Disiplin ilmu yang mempelajari 

metode 

untuk

mengekstrak pengetahuan

atau 

menemukan pola

dari 

suatu data yang besar

suatu data yang besar

• Ekstraksi dari

data

ke

pengetahuan

:

f k

k

d

d k

b

1. Data

fakta yang terekam 

dan tidak membawa arti

2. Pengetahuan

pola

rumus

, aturan atau model yang muncul 

dari data

• Nama lain data mining:

• Knowledge Discovery in Database (KDD)

• Knowledge extraction

• Pattern analysis

• Information harvesting

• Business intelligence

(16)

Apa Itu Data Mining?

Himpunan

Data

Metode Data 

(17)

Definisi Data Mining

• Melakukan ekstraksi

untuk mendapatkan informasi 

penting yang sifatnya implisit

dan sebelumnya tidak 

diketahui, dari suatu data

(Witten et al., 2011)

• Kegiatan yang meliputi pengumpulan pemakaian

• Kegiatan yang meliputi pengumpulan, pemakaian 

data historis untuk menemukan keteraturan, pola 

dan hubungan dalam set data berukuran besar 

(Santosa, 2007)

• Extraction of interesting

Extraction of interesting (non trivial, 

(non‐trivial

implicit

implicit

previously unknown 

and potentially useful) 

patterns or knowledge from huge amount of data 

(H

t l 2011)

(Han et al., 2011)

(18)

Data

‐ Informasi – Pengetahuan

NIP

NIP

TGL

TGL

G

G

DATANG

DATANG

G

G

PULANG

PULANG

U

U

G

G

1103

1103

02/12/2004

02/12/2004

07:20

07:20

15:40

15:40

1142

1142

02/12/2004

02/12/2004

07 45

07 45

15 33

15 33

1142

1142

02/12/2004

02/12/2004

07:45

07:45

15:33

15:33

1156

1156

02/12/2004

02/12/2004

07:51

07:51

16:00

16:00

1173

1173

02/12/2004

02/12/2004

08:00

08:00

15:15

15:15

1180

1180

80

80

02/12/2004

02/12/2004

0 /

0 /

/ 004

/ 004

07:01

07:01

07:0

07:0

16:31

16:31

6:3

6:3

1183

1183

02/12/2004

02/12/2004

07:49

07:49

17:00

17:00

Data Kehadiran Pegawai

(19)

Data ‐

Informasi

– Pengetahuan

NIP

NIP

Masuk

Masuk

Alpa

Alpa

Cuti

Cuti

Sakit

Sakit

Telat

Telat

1103

1103

22

22

1142

1142

18

18

2

2

2

2

1156

1156

10

10

1

1

11

11

1156

1156

10

10

1

1

11

11

1173

1173

12

12

5

5

5

5

1180

1180

10

10

12

12

Informasi Akumulasi Bulanan Kehadiran Pegawai

(20)

Data ‐ Informasi –

Pengetahuan

Senin

Senin

Selasa

Selasa

Rabu

Rabu

Kamis

Kamis

Jumat

Jumat

Terlambat

Terlambat

7

7

0

0

1

1

0

0

5

5

Pulang 

Pulang 

Cepat

Cepat

0

0

1

1

1

1

1

1

8

8

Izin

Izin

3

3

0

0

0

0

1

1

4

4

Alpa

Alpa

p

p

1

1

0

0

2

2

0

0

2

2

Pola Kebiasaan Kehadiran Mingguan Pegawai

(21)

Data ‐ Informasi – Pengetahuan ‐

Kebijakan

• Kebijakan 

penataan jam kerja karyawan 

khusus 

untuk hari senin dan jumat

untuk hari senin dan jumat

• Peraturan jam kerja:

• Peraturan jam kerja:

• Hari 

Senin dimulai jam 10:00

• Hari

Hari 

Jumat diakhiri jam 14:00

Jumat diakhiri jam 14:00

(22)

Data Mining pada Business Intelligence 

Increasing potential

Increasing potential

to

to support business

support business

to 

to support business 

support business 

decisions

decisions

Decision Decision 

End User

End User

Making Making

Business Analyst

Business Analyst

Data Analyst

Data Analyst

Data Presentation Data Presentation Visualization Techniques Visualization Techniques Data Mining

Data Mining

Data Analyst

Data Analyst

Data Mining Data Mining Information Discovery Information Discovery Data Exploration Data Exploration

DBA

DBA

Statistical Summary, Querying, and Reporting Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Preprocessing/Integration, Data Warehouses

DBA

DBA

Data Sources Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems Paper, Files, Web documents, Scientific experiments, Database Systems

(23)

Hubungan dengan Berbagai Bidang

Statistics

Computing 

P tt

Statistics

Algorithms

D t b

Pattern 

Recognition

Database 

Technology

Data 

Machine

High 

Mining

Machine 

Learning

Performance 

Computing

(24)

Masalah‐Masalah di Data Mining

• Tremendous amount of data

• Algorithms must be 

highly scalable 

to handle such as tera‐

bytes of data

• High‐dimensionality

of data 

• Micro array may have tens of

thousands of dimensions

• Micro‐array may have tens of 

thousands of dimensions

• High complexity

of data

• Data streams

Data streams 

and sensor data

and sensor data

• Time‐series data

, temporal data, sequence data 

• Structure data, graphs, 

social networks 

and multi‐linked data

• Heterogeneous

databases

and legacy databases

• Heterogeneous 

databases 

and legacy databases

• Spatial, spatiotemporal, 

multimedia

, text and 

Web data

• Software programs

, scientific simulations

(25)

Latihan

1. Jelaskan dengan kalimat sendiri apa 

yang dimaksud dengan

data mining

?

yang dimaksud dengan 

data mining

?

2. Sebutkan

sudut pandang multidimensi

(26)
(27)

Peran Utama Data Mining

1. Estimasi

1. Estimasi

2. Prediksi

5. Asosiasi

3. Klasifikasi

4. Klastering

(28)

Dataset (Himpunan Data)

Class/Label/Target

Attribute/Feature

Record/

Record/

Object/

Object/

Object/

Object/

Sample/

Sample/

Tuple

Tuple

Tuple

Tuple

Nominal

Nominal

Numerik

Numerik

(29)
(30)
(31)

Tipe Data

Jenis

Atribut

Deskripsi

Contoh

Operasi

Ratio • Data yang diperoleh dengan cara • Umur geometric mean, 

(Mutlak)

y g p g

pengukuran, dimana jarak dua titik pada skala sudah diketahui

• Mempunyai titik nol yang absolut

(* /) • Berat badan • Tinggi badan • Jumlah uang g , harmonic mean,  percent variation (*, /) Interval (Jarak)

• Data yang diperoleh dengan cara

pengukuran, dimana jarak dua titik pada skala sudah diketahui

• Suhu 0°c‐100°c, • Umur 20‐30 tahun

mean, standard  deviation, 

Pearson's pada skala sudah diketahui

• Tidakmempunyai titik nol yang  absolut (+, ‐ ) Pearson s  correlation, t and  F tests Ordinal (Peringkat)

• Data yang diperoleh dengan cara

kategorisasi atau klasifikasi • Tetapi diantara data tersebut

t d t h b t b t

• Tingkat kepuasan pelanggan (puas, 

sedang, tidak puas)

median, 

percentiles, rank  correlation, run  t t i t t

terdapat hubungan atau berurutan

(<, >)

tests, sign tests

Nominal (Label)

• Data yang diperoleh dengan cara

kategorisasi atau klasifikasi

• Kode pos • Jenis kelamin

mode, entropy,  contingency

(Label) kategorisasi atau klasifikasi • Menunjukkan beberapa object 

• Jenis kelamin

• Nomer id karyawan

contingency correlation, χ2

(32)

1. Estimasi Waktu Pengiriman Pizza

Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)

1

3

3

3

16

2

1

7

4

20

3

2

4

6

18

4

4

6

8

36

Label

4

4

6

8

36

...

1000

2

4

2

12

Pembelajaran dengan

Metode Estimasi (

Regresi Linier

)

Waktu Tempuh (T) = 0 48P + 0 23

Waktu Tempuh (T) = 0 48P + 0 23TL

TL + 0 5J

+ 0 5J

(

g

)

Waktu Tempuh (T) = 0.48P + 0.23

Waktu Tempuh (T) = 0.48P + 0.23TL

TL + 0.5J

+ 0.5J

Pengetahuan

(33)

Contoh: Estimasi Performansi CPU

• Example: 209 different

computer configurations

CHMAX CHMIN Channels Performance Cache (Kb) Main memory (Kb) Cycle time (ns) PRP CACH MMAX MMIN MYCT 32 128 8 16 … 269 32 32000 8000 29 2 198 256 6000 256 125 1 0 0 0 0 45 0 4000 1000 480 209 67 32 8000 512 480 208

• Linear regression function

PRP = 

‐55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 

MMAX

+ 0.6410 CACH ‐ 0.2700 CHMIN + 1.480 CHMAX

(34)

Output/Pola/Model/Knowledge

1. Formula/Function

(Rumus atau Fungsi Regresi)

• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 

2. Decision Tree

(Pohon Keputusan)

3. Korelasi dan

Asosiasi

4. Rule

(Aturan)

• IF ips3=2.8  THEN lulustepatwaktu

5 Cluster

(Klaster)

5. Cluster

(Klaster)

(35)

2. Prediksi Harga Saham

Dataset harga saham

Label

Dataset harga saham 

dalam bentuk 

time 

series

(rentet waktu)

Pembelajaran dengan

Metode Prediksi (

Neural Network

)

Metode Prediksi (

Neural Network

)

(36)

Pengetahuan

Pengetahuan berupa

berupa

Rumus

Rumus Neural Network

Neural Network

Prediction Plot

Prediction Plot

(37)

3. Klasifikasi Kelulusan Mahasiswa 

NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 Lulus Tepat

Label

NIM Gender Nilai UN

Asal  Sekolah

IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat  Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMA DK 4 0 3 2 3 8 3 7 Tid k 10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

Pembelajaran dengan

Metode Klasifikasi (

C4 5

)

Metode Klasifikasi (

C4.5

)

(38)
(39)

Contoh: Rekomendasi Main Golf

• Input

:

• Output (Rules)

:

If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

(40)

Contoh: Rekomendasi Main Golf

(41)

Contoh: Rekomendasi Contact Lens

(42)

Contoh: Rekomendasi Contact Lens

(43)

4. Klastering Bunga Iris

D t

t T

L b l

Dataset Tanpa Label

Pembelajaran dengan

(44)
(45)

5. Aturan Asosiasi Pembelian Barang

Pembelajaran dengan

(46)
(47)

Contoh Aturan Asosiasi

• Algoritma association rule (aturan asosiasi) adalah 

algoritma yang menemukan atribut yang “

muncul

algoritma yang menemukan atribut yang 

muncul 

bersamaan

• Contoh, pada hari kamis malam, 1000 pelanggan 

telah melakukan belanja di supermaket ABC, dimana:

• 200 orang membeli 

Sabun Mandi

• dari 200 orang yang membeli sabun mandi, 50 orangnya 

membeli 

Fanta

• Jadi, association rule menjadi, “

Jika membeli sabun 

mandi, maka membeli Fanta

”, dengan nilai

support

=

mandi, maka membeli Fanta

, dengan nilai 

support

 

200/1000 = 20% dan nilai 

confidence

= 50/200 = 25%

• Algoritma association rule diantaranya adalah: 

priori algorithm FP Growth algorithm GRI algorithm

Referensi

Dokumen terkait

Kajian literatur dilakukan untuk memperkuat konsep se- bagai landasan, arah kekaryaan, dan tujuan penciptaan yakni peningkatan kesadaran lingkungan. Sedikitnya ada 5 buku utama

Monday effect dan Weekend effect adalah salah satu bagian dari Day of The Week Effect atau pengaruh hari perdagangan terhadap return saham. Monday effect adalah

Oleh itu , keprihatian guru dalam memilih teknik mengajar akan memberi kesan yang besar kepada murid yang mengikuti proses pembelajaran

Jika siswa sudah bisa menentukan kata sapaan pada dongeng, maka guru dapat memberikan penugasan membaca buku lain yang sesuai dengan tema atau materi.. Jika siswa sudah bisa

Pembangunan Fisik sekecamatan di Pemerintah Kota Pekanbaru Tahun Anggaran 2015 jika dibandingkan dengan kegiatan yang terealisasi di Kecamatan lainnya terdapat

ANALISIS COD (CHEMICAL OXYGEN DEMAND) PADA KUALITAS AIR SUNGAI KRUENG TAMIANG DI KABUPATEN ACEH

Lebih jauh dari itu, transaksi ekonomi dan keuangan lebih berorientasi pada keadilan dan kemakmuran umat.Pada zaman Rasullah SAW kegiatan praktek- praktek seperti menerima

Uji asumsi klasik dimaksudkan untuk mendeteksi apakah data sudah berdistribusi normal serta ada tidaknya multikolinearitas, heteroskedastisitas dan autokorelasi dalam