D t Mi i
Data Mining
DJAYADI NUGROHO, M.KOM
h
d
nugroho.stiemj.ac.id
PERSYARATAN KULIAH
• Kehadiran minimal 75 %
• Tugas terstruktur
Tugas terstruktur
• Tugas mandiri
• Ujian tengah semester
Ujian tengah semester
• Ujian akhir semester
• Di kelas nada dering HP dinonaktifkan
• Di kelas nada dering HP dinonaktifkan
• Wajib pakai sepatu
• Tidak memakai kaos
• Tidak memakai kaos
Referensi
1. Jiawei Han and Micheline Kamber,
Data Mining: Concepts and
Techniques Third Edition
, Elsevier, 2012
2
Ian H Witten Frank Eibe Mark A Hall
Data mining: Practical
2. Ian H. Witten, Frank Eibe, Mark A. Hall,
Data mining: Practical
Machine Learning Tools and Techniques 3rd Edition
, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg,
RapidMiner: Data Mining
Use Cases and Business Analytics Applications
, CRC Press Taylor &
Francis Group, 2014
4. Daniel T. Larose,
Discovering Knowledge in Data: an Introduction
to Data Mining
, John Wiley & Sons, 2005
5
E h
Al
di
I
d
i
M hi
L
i
3 d d MIT
5. Ethem Alpaydin,
Introduction to Machine Learning
, 3rd ed., MIT
Press, 2014
6. Florin Gorunescu,
Data Mining: Concepts, Models and
Techniques
, Springer, 2011
Techniques
, Springer, 2011
7. Oded Maimon and Lior Rokach
, Data Mining and Knowledge
Discovery Handbook Second Edition
, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.),
g
p y
(
),
Recent Advances
in Data Mining of Enterprise Data: Algorithms and Applications
,
Pre‐Test
1. Jelaskan perbedaan antara
data
,
informasi
dan
pengetahuan
!
2
Jelaskan apa yang anda ketahui tentang
data mining
!
2. Jelaskan apa yang anda ketahui tentang
data mining
!
3. Sebutkan
peran utama data mining
!
4. Sebutkan
pemanfaatan dari data mining
di berbagai bidang!
5. Pengetahuan atau pola apa yang bisa kita dapatkan
dari data
di bawah?
G d il i l S S2 S3 S l
NIM Gender Nilai UN
Asal Sekolah
IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMAN 7 4 0 3 2 3 8 3 7 Tidak 10002 P 27 SMAN 7 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya
Course Outline
2 P
D t Mi i
1. Pengantar Data Mining
3. Persiapan Data
2. Proses Data Mining
5 Al
it
Kl t i
4. Algoritma Klasifikasi
6. Algoritma Asosiasi
5. Algoritma Klastering
8 T
Mi i
7. Algoritma Estimasi dan Forecasting
8. Text Mining
1. Pengantar Data Mining
1.1 Apa itu Data Mining?
1.2 Peran Utama dan Metode Data Mining
1.3 Sejarah dan Penerapan Data Mining
Manusia Memproduksi Data
Manusia memproduksi beragam
data yang
jumlah dan ukurannya
data yang jumlah dan ukurannya
sangat besar
i
• Astronomi
• Bisnis
• Kedokteran
Kedokteran
• Ekonomi
• Olahraga
• Cuaca
• Financial
• …
…
Pertumbuhan Data
Astronomi
Sl
Di i l Sk
S
kilobyte (kB) 103 megabyte (MB) 106• Sloan Digital Sky
Survey
• New Mexico, 2000
• 140TB
over 10 years
megabyte (MB) 106 gigabyte (GB) 109 terabyte (TB) 1012 petabyte (PB) 1015• Large Synoptic
Survey Telescope
• Chile, 2016
• Will acquire
140TB every five days
petabyte (PB) 1015 exabyte (EB) 1018 zettabyte (ZB) 1021 yottabyte (YB) 1024
Will acquire
140TB every five days
Biologi dan Kedokteran
yottabyte (YB) 1024
Biologi dan Kedokteran
• European Bioinformatics Institute (
EBI
)
• 20PB of data
(genomic data doubles in size each year)
Perubahan Kultur dan Perilaku
( h d
(Insight, Big Data Trends for Media, 2015)
Datangnya Tsunami Data
kilobyte (kB)megabyte (MB) 101036 gigabyte (GB) 109• Mobile Electronics
market
• 5B mobile phones
in use in 2010
gigabyte (GB) 10 terabyte (TB) 1012 petabyte (PB) 1015 exabyte (EB) 1018• 150M tablets
was sold in 2012 (IDC)
• 200M
is global
notebooks
shipments in 2012
(Digitimes Research)
exabyte (EB) 10 zettabyte (ZB) 1021 yottabyte (YB) 1024(Digitimes Research)
• Web and Social Networks
generates
amount of data
amount of data
• Google processes
100 PB per day
, 3 million servers
• Facebook has
300 PB of user data
per day
• Youtube has
1000PB video
storage
• 235 TBs
data collected by the US Library of Congress
• 15 out of 17 sectors in the US have
more data stored
• 15 out of 17 sectors in the US have
more data stored
per company than the US Library of Congress
Mengapa Data Mining?
We are
drowning in data
, but
Apa itu Data Mining?
• Disiplin ilmu yang mempelajari
metode
untuk
mengekstrak pengetahuan
atau
menemukan pola
dari
suatu data yang besar
suatu data yang besar
• Ekstraksi dari
data
ke
pengetahuan
:
f k
k
d
d k
b
1. Data
:
fakta yang terekam
dan tidak membawa arti
2. Pengetahuan
:
pola
,
rumus
, aturan atau model yang muncul
dari data
• Nama lain data mining:
• Knowledge Discovery in Database (KDD)
• Knowledge extraction
• Pattern analysis
• Information harvesting
• Business intelligence
Apa Itu Data Mining?
Himpunan
Data
Metode Data
Definisi Data Mining
• Melakukan ekstraksi
untuk mendapatkan informasi
penting yang sifatnya implisit
dan sebelumnya tidak
diketahui, dari suatu data
(Witten et al., 2011)
• Kegiatan yang meliputi pengumpulan pemakaian
• Kegiatan yang meliputi pengumpulan, pemakaian
data historis untuk menemukan keteraturan, pola
dan hubungan dalam set data berukuran besar
(Santosa, 2007)
• Extraction of interesting
Extraction of interesting (non trivial,
(non‐trivial
implicit
implicit
,
previously unknown
and potentially useful)
patterns or knowledge from huge amount of data
(H
t l 2011)
(Han et al., 2011)
Data
‐ Informasi – Pengetahuan
NIP
NIP
TGL
TGL
G
G
DATANG
DATANG
G
G
PULANG
PULANG
U
U
G
G
1103
1103
02/12/2004
02/12/2004
07:20
07:20
15:40
15:40
1142
1142
02/12/2004
02/12/2004
07 45
07 45
15 33
15 33
1142
1142
02/12/2004
02/12/2004
07:45
07:45
15:33
15:33
1156
1156
02/12/2004
02/12/2004
07:51
07:51
16:00
16:00
1173
1173
02/12/2004
02/12/2004
08:00
08:00
15:15
15:15
1180
1180
80
80
02/12/2004
02/12/2004
0 /
0 /
/ 004
/ 004
07:01
07:01
07:0
07:0
16:31
16:31
6:3
6:3
1183
1183
02/12/2004
02/12/2004
07:49
07:49
17:00
17:00
Data Kehadiran Pegawai
Data ‐
Informasi
– Pengetahuan
NIP
NIP
Masuk
Masuk
Alpa
Alpa
Cuti
Cuti
Sakit
Sakit
Telat
Telat
1103
1103
22
22
1142
1142
18
18
2
2
2
2
1156
1156
10
10
1
1
11
11
1156
1156
10
10
1
1
11
11
1173
1173
12
12
5
5
5
5
1180
1180
10
10
12
12
Informasi Akumulasi Bulanan Kehadiran Pegawai
Data ‐ Informasi –
Pengetahuan
Senin
Senin
Selasa
Selasa
Rabu
Rabu
Kamis
Kamis
Jumat
Jumat
Terlambat
Terlambat
7
7
0
0
1
1
0
0
5
5
Pulang
Pulang
Cepat
Cepat
0
0
1
1
1
1
1
1
8
8
Izin
Izin
3
3
0
0
0
0
1
1
4
4
Alpa
Alpa
p
p
1
1
0
0
2
2
0
0
2
2
Pola Kebiasaan Kehadiran Mingguan Pegawai
Data ‐ Informasi – Pengetahuan ‐
Kebijakan
• Kebijakan
penataan jam kerja karyawan
khusus
untuk hari senin dan jumat
untuk hari senin dan jumat
• Peraturan jam kerja:
• Peraturan jam kerja:
• Hari
Senin dimulai jam 10:00
• Hari
Hari
Jumat diakhiri jam 14:00
Jumat diakhiri jam 14:00
Data Mining pada Business Intelligence
Increasing potential
Increasing potential
to
to support business
support business
to
to support business
support business
decisions
decisions
Decision DecisionEnd User
End User
Making Making
Business Analyst
Business Analyst
Data Analyst
Data Analyst
Data Presentation Data Presentation Visualization Techniques Visualization Techniques Data MiningData Mining
Data Analyst
Data Analyst
Data Mining Data Mining Information Discovery Information Discovery Data Exploration Data ExplorationDBA
DBA
Statistical Summary, Querying, and Reporting Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Preprocessing/Integration, Data WarehousesDBA
DBA
Data Sources Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems Paper, Files, Web documents, Scientific experiments, Database SystemsHubungan dengan Berbagai Bidang
Statistics
Computing
P tt
Statistics
Algorithms
D t b
Pattern
Recognition
Database
Technology
Data
Machine
High
Mining
Machine
Learning
Performance
Computing
Masalah‐Masalah di Data Mining
• Tremendous amount of data
• Algorithms must be
highly scalable
to handle such as tera‐
bytes of data
• High‐dimensionality
of data
• Micro array may have tens of
thousands of dimensions
• Micro‐array may have tens of
thousands of dimensions
• High complexity
of data
• Data streams
Data streams
and sensor data
and sensor data
• Time‐series data
, temporal data, sequence data
• Structure data, graphs,
social networks
and multi‐linked data
• Heterogeneous
databases
and legacy databases
• Heterogeneous
databases
and legacy databases
• Spatial, spatiotemporal,
multimedia
, text and
Web data
• Software programs
, scientific simulations
Latihan
1. Jelaskan dengan kalimat sendiri apa
yang dimaksud dengan
data mining
?
yang dimaksud dengan
data mining
?
2. Sebutkan
sudut pandang multidimensi
Peran Utama Data Mining
1. Estimasi
1. Estimasi
2. Prediksi
5. Asosiasi
3. Klasifikasi
4. Klastering
Dataset (Himpunan Data)
Class/Label/Target
Attribute/Feature
Record/
Record/
Object/
Object/
Object/
Object/
Sample/
Sample/
Tuple
Tuple
Tuple
Tuple
Nominal
Nominal
Numerik
Numerik
Tipe Data
Jenis
Atribut
Deskripsi
Contoh
Operasi
Ratio • Data yang diperoleh dengan cara • Umur geometric mean,
(Mutlak)
y g p g
pengukuran, dimana jarak dua titik pada skala sudah diketahui
• Mempunyai titik nol yang absolut
(* /) • Berat badan • Tinggi badan • Jumlah uang g , harmonic mean, percent variation (*, /) Interval (Jarak)
• Data yang diperoleh dengan cara
pengukuran, dimana jarak dua titik pada skala sudah diketahui
• Suhu 0°c‐100°c, • Umur 20‐30 tahun
mean, standard deviation,
Pearson's pada skala sudah diketahui
• Tidakmempunyai titik nol yang absolut (+, ‐ ) Pearson s correlation, t and F tests Ordinal (Peringkat)
• Data yang diperoleh dengan cara
kategorisasi atau klasifikasi • Tetapi diantara data tersebut
t d t h b t b t
• Tingkat kepuasan pelanggan (puas,
sedang, tidak puas)
median,
percentiles, rank correlation, run t t i t t
terdapat hubungan atau berurutan
(<, >)
tests, sign tests
Nominal (Label)
• Data yang diperoleh dengan cara
kategorisasi atau klasifikasi
• Kode pos • Jenis kelamin
mode, entropy, contingency
(Label) kategorisasi atau klasifikasi • Menunjukkan beberapa object
• Jenis kelamin
• Nomer id karyawan
contingency correlation, χ2
1. Estimasi Waktu Pengiriman Pizza
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)
1
3
3
3
16
2
1
7
4
20
3
2
4
6
18
4
4
6
8
36
Label
4
4
6
8
36
...
1000
2
4
2
12
Pembelajaran dengan
Metode Estimasi (
Regresi Linier
)
Waktu Tempuh (T) = 0 48P + 0 23
Waktu Tempuh (T) = 0 48P + 0 23TL
TL + 0 5J
+ 0 5J
(
g
)
Waktu Tempuh (T) = 0.48P + 0.23
Waktu Tempuh (T) = 0.48P + 0.23TL
TL + 0.5J
+ 0.5J
Pengetahuan
Contoh: Estimasi Performansi CPU
• Example: 209 different
computer configurations
CHMAX CHMIN Channels Performance Cache (Kb) Main memory (Kb) Cycle time (ns) PRP CACH MMAX MMIN MYCT 32 128 8 16 … 269 32 32000 8000 29 2 198 256 6000 256 125 1 0 0 0 0 45 0 4000 1000 480 209 67 32 8000 512 480 208
• Linear regression function
PRP =
‐55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056
MMAX
+ 0.6410 CACH ‐ 0.2700 CHMIN + 1.480 CHMAX
Output/Pola/Model/Knowledge
1. Formula/Function
(Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree
(Pohon Keputusan)
3. Korelasi dan
Asosiasi
4. Rule
(Aturan)
• IF ips3=2.8 THEN lulustepatwaktu
5 Cluster
(Klaster)
5. Cluster
(Klaster)
2. Prediksi Harga Saham
Dataset harga saham
Label
Dataset harga saham
dalam bentuk
time
series
(rentet waktu)
Pembelajaran dengan
Metode Prediksi (
Neural Network
)
Metode Prediksi (
Neural Network
)
Pengetahuan
Pengetahuan berupa
berupa
Rumus
Rumus Neural Network
Neural Network
Prediction Plot
Prediction Plot
3. Klasifikasi Kelulusan Mahasiswa
NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 Lulus Tepat
Label
NIM Gender Nilai UN
Asal Sekolah
IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat Waktu 10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya 10002 P 27 SMA DK 4 0 3 2 3 8 3 7 Tid k 10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak 10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak 10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya ... ... 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya 11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya