• Tidak ada hasil yang ditemukan

Data Mining

N/A
N/A
Protected

Academic year: 2023

Membagikan "Data Mining"

Copied!
70
0
0

Teks penuh

(1)

Data Mining

Romi Satria Wahono

romi@romisatriawahono.net http://romisatriawahono.net 0815-86220090

(2)

 SD Sompok Semarang (1987)

 SMPN 8 Semarang (1990)

 SMA Taruna Nusantara, Magelang (1993)

 S1, S2 dan S3

(on-leave)

Department of Computer Sciences

Saitama University, Japan (1994-2004)

 Research Interests: Software Engineering and Intelligent Systems

 Founder IlmuKomputer.Com

 Peneliti LIPI (2004-2009)

 Founder dan CEO PT Brainmatics Cipta Informatika

Romi Satria Wahono

(3)

Learning Design

Educational Objectives (Benjamin Bloom) Educational Objectives

(Benjamin Bloom)

Cognitive Cognitive

Affective Affective

Psychomotor Psychomotor

Criterion Referenced Instruction

(Robert Mager) Criterion Referenced

Instruction (Robert Mager)

Competencies Competencies

Performance Performance

Evaluation Evaluation

Minimalism (John Carroll)

Minimalism (John Carroll)

Start Immediately Start Immediately

Minimize the Reading Minimize the Reading

Error Recognition Error Recognition

Self-Contained Self-Contained

(4)

Learning Design

Pretest dan Posttest untuk Mengukur Kompetensi Kognifif

Mahasiwa

Pretest dan Posttest untuk Mengukur Kompetensi Kognifif

Mahasiwa

Penyajian Materi dengan Model Minimalism berbasis

Konsep Amati-Tiru- Modifikasi

Penyajian Materi dengan Model Minimalism berbasis

Konsep Amati-Tiru- Modifikasi

Latihan Secara Iteratif untuk Meningkatkan Kompetensi

Kognitif dan Psikomotorik Mahasiswa

Latihan Secara Iteratif untuk Meningkatkan Kompetensi

Kognitif dan Psikomotorik Mahasiswa

Penugasan berbasis Self- Contained Project atau

Literatur Review

Penugasan berbasis Self- Contained Project atau

Literatur Review

(5)

Textbooks

(6)

Course Outline

1. Pengenalan Data Mining 2. Proses Data Mining

3. Evaluasi dan Validasi pada Data Mining 4. Metode dan Algoritma Data Mining

5. Penelitian Data Mining

(7)

Pretest

1. Jelaskan apa yang dimaksud dengan data minin g?

2. Sebutkan peran data mining dan algoritma apa saja yang mendukung peran data mining terseb ut?

3. Berikan contoh penerapan ataupun penelitian

data mining

(8)

Pengenalan Data Mining

(9)

Pengenalan Data Mining

1. Apa itu Data Mining?

2. Peran Utama Data Mining

3. Algoritma Data Mining

(10)

Apa itu Data Mining?

(11)

Mengapa Data Mining?

 Manusia dalam suatu organisasi, sadar atau tida k sadar telah memproduksi berbagai data yang j umlahnya sangat besar

• Contoh data: bisnis, kedokteran, ekonomi, geografi, o lahraga, …

 Pada dasarnya, data adalah entitas yang tidak m

emiliki arti, meskipun kemungkinan memiliki nil

ai di dalamnya

(12)

Apa itu Data Mining?

 Disiplin ilmu yang mempelajari m etode untuk mengekstrak penget ahuan atau menemukan pola dari suatu data

1. Data: fakta yang terekam dan tidak me mbawa arti

2. Pengetahuan: pola, aturan atau model y ang muncul dari data

 Sehingga Data mining sering dise but Knowledge Discovery in Data base (KDD)

 Konsep Transformasi

DataInformasiPengetahuan

www.newmediamusings.com

(13)

Data

 Tidak membawa arti, merupakan kumpula n dari fakta-fakta tentang suatu kejadian

 Suatu catatan terstruktur dari suatu transa ksi

 Merupakan materi penting dalam memben

tuk informasi

(14)

Pengetahuan

 Gabungan dari suatu pengalaman, nilai, inform asi kontekstual dan juga pandangan pakar yang memberikan suatu framework untuk mengeval uasi dan menciptakan pengalaman baru dan in formasi

(Thomas H. Davenport, Laurence Prusak)

 Bisa berupa solusi pemecahan suatu masalah,

petunjuk suatu pekerjaan dan ini bisa ditingkat

kan nilainya, dipelajari dan juga bisa diajarkan

kepada yang lain

(15)

Data - Informasi – Pengetahuan

Data Kehadiran Pegawai

NIP TGL DATANG PULANG

1103 02/12/2004 07:20 15:40

1142 02/12/2004 07:45 15:33

1156 02/12/2004 07:51 16:00

1173 02/12/2004 08:00 15:15

1180 02/12/2004 07:01 16:31

1183 02/12/2004 07:49 17:00

(16)

Data - Informasi – Pengetahuan

Informasi Akumulasi Bulanan Kehadiran Pegawai

NIP Masuk Alpa Cuti Sakit Telat

1103 22

1142 18 2 2

1156 10 1 11

1173 12 5 5

1180 10 12

(17)

Data - Informasi – Pengetahuan

Informasi Kondisi Kehadiran Mingguan Pegawai

Senin Selasa Rabu Kamis Jumat

Terlambat 7 0 1 0 5

Pulang

Cepat 0 1 1 1 8

Izin 3 0 0 1 4

Alpa 1 0 2 0 2

(18)

Data - Informasi – Pengetahuan

 Pengetahuan tentang

kebiasaan pegawai dalam jam datang/pulang kerja

 Pengetahuan tentang bagaimana teknik

meningkatkan kehadiran

pegawai  kebijakan

(19)

Data - Informasi - Pengetahuan - Kebijakan

 Kebijakan penataan jam kerja karyawan kh usus untuk hari senin dan jumat

 Peraturan jam kerja:

• Hari Senin dimulai jam 10:00

• Hari Jumat diakhiri jam 14:00

• Sisa jam kerja dikompensasi ke hari lain:

1. Senin pulang setelah maghrib, toh jalanan jakarta macet to tal di sore hari (bayar hutang 2 jam)

2. Rabu dan kamis bayar hutang setengah jam di pagi hari da n setengah jam di sore hari (bayar hutang 2 jam)

(20)

Definisi Data Mining

 Melakukan ekstraksi untuk mendapatkan inform asi penting yang sifatnya implisit dan sebelumny a tidak diketahui, dari suatu data (Witten et al., 2011)

 Kegiatan yang meliputi pengumpulan, pemakaia

n data historis untuk menemukan keteraturan, p

ola dan hubungan dalam set data berukuran bes

ar (Santosa, 2007)

(21)

Definisi Data Mining

 The analysis of (often large) observational data s ets to find unsuspected relationships and to sum marize the data in novel ways that are both und erstandable and useful to the data owner (Han

& Kamber, 2001)

 The process of discovering meaningful new corr

elations, patterns and trends by sifting through l

arge amounts of data stored in repositories, usin

g pattern recognition technologies as well as sta

tistical and mathematical techniques (Gartner G

roup)

(22)

Irisan Bidang Ilmu Data Mining

1. Statistik:

• Lebih bersifat teori

• Fokus ke pengujian hipotesis

2. Machine Learning:

• Lebih bersifat heuristik

• Fokus pada perbaikan performansi dari suatu teknik learning

3. Data Mining:

• Gabungan teori dan heuristik

• Fokus pada seluruh proses penemuan knowledge dan pola

• Termasuk data cleaning, learning dan visualisasi hasilnya

(23)

Cognitive-Performance Test

1. Jelaskan dengan kalimat sendiri apa yang dimaksud dengan data mining?

2. Apa perbedaan antara data dan

pengetahuan (knowledge)?

(24)

Peran Utama Data Mining

(25)

Peran Utama Data Mining

1. Estimation 2. Prediction

3. Classification 4. Clustering

5. Association

Estimation Estimation

Prediction Prediction

Classification Classification Clustering

Clustering Association

Association

(26)

Dataset with Attribute and Class

Class/Label

Attribute

(27)

Estimasi Waktu Pengiriman Pizza

Customer Jumlah

Pesanan (P) Jumlah

Bangjo (B) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16

2 1 7 4 20

3 2 4 6 18

4 4 6 8 36

...

1000 2 4 2 12

Waktu Tempuh (T) = 0.48P + 0.23B + 0.5J

(28)

Penentuan Kelulusan Mahasiswa

NIM Gender Nilai

UN Asal

Sekolah IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat Waktu

10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya

10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak

10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak

10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya

...

...

11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

(29)

Klastering Bunga Iris

(30)

Klastering Bunga Iris

(31)

Algoritma Data Mining (DM)

1. Estimation (Estimasi):

Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):

Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):

Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant An alysis, etc

4. Clustering (Klastering):

K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):

FP-Growth, A Priori, etc

(32)

Metode Learning Pada Algoritma DM

Supervised Learning

Association Learning

Unsupervised

Learning

(33)

Metode Learning Pada Algoritma DM

1. Supervised Learning (Pembelajaran dengan Guru):

• Sebagian besar algoritma data mining (estimation, prediction/

forecasting, classification) adalah supervised learning

• Variabel yang menjadi target/label/class ditentukan

• Algoritma melakukan proses belajar berdasarkan nilai dari vari abel target yang terasosiasi dengan nilai dari variable predikto r

(34)

Dataset with Attribute and Class

Class/Label

Attribute

(35)

Metode Learning Pada Algoritma DM

2. Unsupervised Learning (Pembelajaran tanpa Guru):

• Algoritma data mining mencari pola dari semua variable (atrib ut)

• Variable (atribut) yang menjadi target/label/class tidak ditentu kan (tidak ada)

• Algoritma clustering adalah algoritma unsupervised learning

(36)

Dataset with Attribute (No Class)

Attribute

(37)

Metode Learning Pada Algoritma DM

3. Association Learning

(Pembelajaran untuk Asosiasi Atribut)

Proses learning pada algoritma asosiasi (association rule) aga k berbeda karena tujuannya adalah untuk mencari atribut ya ng muncul bersamaan dalam satu transaksi

• Algoritma asosiasi biasanya untuk analisa transaksi belanja, d engan konsep utama adalah mencari “produk/item mana ya ng dibeli bersamaan”

• Pada pusat perbelanjaan banyak produk yang dijual, sehingg a pencarian seluruh asosiasi produk memakan cost tinggi, kar ena sifatnya yang kombinatorial

Algoritma association rule seperti a priori algorithm, dapat m emecahkan masalah ini dengan efisien

(38)

Dataset Transaction

(39)

Association Rules

(40)

Proses Utama pada Data Mining

Input (Data)

Input (Data)

Metode (Algoritma Data Mining)

Metode (Algoritma Data Mining)

Output (Pola/Model)

Output

(Pola/Model)

(41)

1. Formula/Function (Rumus atau Fungsi Regresi)

WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Rule (Aturan)

• IF ips3=2.8 THEN lulustepatwaktu

4. Cluster (Klaster)

Output/Pola/Model/Knowledge

(42)

Input – Metode – Output – Evaluation

Input

(Data)

Input

(Data)

Metode

(Algoritma Data Mining)

Metode

(Algoritma Data Mining)

Output

(Pola/Model)

Output

(Pola/Model)

Evaluatio n

(Akurasi, AUC, RMSE,

etc)

Evaluatio n

(Akurasi, AUC, RMSE,

etc)

(43)

Cognitive-Performance Test

1. Sebutkan 5 peran utama data mining!

2. Jelaskan perbedaan estimasi dan prediksi!

3. Jelaskan perbedaan estimasi dan klasifikasi!

4. Jelaskan perbedaan klasifikasi dan klastering!

5. Jelaskan perbedaan klastering dan prediksi!

6. Jelaskan perbedaan supervised dan unsupervis ed learning!

7. Sebutkan tahapan utama proses data mining!

(44)

Algoritma Data Mining

(45)

Algoritma Estimasi

 Algoritma estimasi mirip dengan algoritma klasi fikasi, tapi variabel target adalah berupa bilanga n numerik (kontinyu) dan bukan kategorikal (no minal atau diskrit)

 Estimasi nilai dari variable target ditentukan ber dasarkan nilai dari variabel prediktor (atribut)

 Algoritma estimasi yang biasa digunakan adalah:

Linear Regression, Neural Network, Support Vec

tor Machine

(46)

Contoh: Estimasi Performansi CPU

Example: 209 different computer configurations

 Linear regression function

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

0 0 32 128 CHMAX

0 0 8 16 CHMIN

Channels Performance

Cache (Kb) Main memory

(Kb) Cycle time

(ns)

45 0

4000 1000

480 209

67 32

8000 512

480 208

269 32

32000 8000

29 2

198 256

6000 256

125 1

PRP CACH

MMAX MMIN

MYCT

(47)

Algoritma Prediksi

 Algoritma prediksi/forecasting sama dengan algorit ma estimasi di mana label/target/class bertipe nu merik, bedanya adalah data yang digunakan merup akan data rentet waktu

(data time series)

 Istilah prediksi kadang digunakan juga untuk klasifik asi, tidak hanya untuk prediksi time series, karena si fatnya yang bisa menghasilkan class berdasarkan be rbagai atribut yang kita sediakan

 Semua algoritma estimasi dapat digunakan untuk p

rediksi/forecasting

(48)

Contoh: Prediksi Harga Saham

Dataset harga saham dalam bentuk time se ries (rentet waktu) ha rian

(49)

Contoh: Prediksi Harga Saham (Plot)

(50)

Contoh: Prediksi Harga Saham (Plot)

(51)

Algoritma Klasifikasi

 Klasifikasi adalah algoritma yang menggunakan data de ngan target/class/label berupa nilai kategorikal (nomina l)

 Contoh, apabila target/class/label adalah pendapatan, maka bisa digunakan nilai nominal (kategorikal) sbb: pe ndapatan besar, menengah, kecil

 Contoh lain adalah rekomendasi contact lens, apakah m enggunakan yang jenis soft, hard atau none

 Algoritma klasifikasi yang biasa digunakan adalah: Naiv

e Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Dis

criminant Analysis, etc

(52)

Contoh: Rekomendasi Main Golf

Input:

Output (Rules):

If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity = normal then play = yes If none of the above then play = yes

(53)

Contoh: Rekomendasi Main Golf

Input (Atribut Nominal dan Numerik):

Output (Rules):

If outlook = sunny and humidity = high then play = no If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity < 85 then play = yes If none of the above then play = yes

(54)

Contoh: Rekomendasi Main Golf

Output (Tree):

(55)

Contoh: Rekomendasi Contact Lens

 Input:

(56)

Contoh: Rekomendasi Contact Lens

 Output/Model (Tree):

(57)

Contoh: Penentuan Jenis Bunga Iris

Input:

(58)

Contoh: Penentuan Jenis Bunga Iris

Output (Rules):

(59)

Contoh: Penentuan Jenis Bunga Iris

Output (Tree):

(60)

Algoritma Klastering

 Klastering adalah pengelompokkan data, hasil observasi dan kasus ke dalam class yang mirip

 Suatu klaster (cluster) adalah koleksi data yang mirip ant ara satu dengan yang lain, dan memiliki perbedaan bila dibandingkan dengan data dari klaster lain

 Perbedaan utama algoritma klastering dengan klasifikasi adalah klastering tidak memiliki target/class/label, jadi t ermasuk unsupervised learning

 Klastering sering digunakan sebagai tahap awal dalam p

roses data mining, dengan hasil klaster yang terbentuk a

kan menjadi input dari algoritma berikutnya yang digun

akan

(61)

Contoh: Klastering Jenis Gaya Hidup

 Claritas, Inc. provide a demographic profile of each of the geogra phic areas in the country, as defined by zip code. One of the clus tering mechanisms they use is the PRIZM segmentation system, which describes every U.S. zip code area in terms of distinct lifes tyle types (66 segments). Just go to the company’s Web site, ent er a particular zip code, and you are shown the most common P RIZM clusters for that zip code.

 What do these clusters mean? For illustration, let’s look up the cl usters for zip code 90210, Beverly Hills, California. The resulting c lusters for zip code 90210 are:

1. Cluster 01: Blue Blood Estates 2. Cluster 10: Bohemian Mix 3. Cluster 02: Winner’s Circle 4. Cluster 07: Money and Brains 5. Cluster 08: Young Literati

(62)
(63)

Contoh: Klastering Bunga Iris

(64)

Contoh: Klastering Bunga Iris (Plot)

(65)

Contoh: Klastering Bunga Iris (Table)

(66)

Algoritma Asosiasi

Algoritma association rule (aturan asosiasi) adalah alg oritma yang menemukan atribut yang “muncul bersa maan”

 Dalam dunia bisnis, sering disebut dengan affinity an alysis atau market basket analysis

 Algoritma asosiasi akan mencari aturan yang menghit ung hubungan diantara dua atau lebih atribut

 Algoritma association rules berangkat dari pola “If an

tecedent, then consequent,” bersamaan dengan peng

ukuran support (coverage) dan confidence (accuratio

n) yang terasosiasi dalam aturan

(67)

Algoritma Asosiasi

 Contoh, pada hari kamis malam, 1000 pelanggan tela h melakukan belanja di supermaket ABC, dimana:

• 200 orang membeli Sabun Mandi

• dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta

 Jadi, association rule menjadi, “Jika membeli sabun mandi, maka membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai confidence = 50/200 = 25%

 Algoritma association rule diantaranya adalah: A prio

ri algorithm, FP-Growth algorithm, GRI algorithm

(68)

Contoh Penerapan Data Mining

 Penentuan kelayakan aplikasi peminjaman uang di bank

 Penentuan pasokan listrik PLN untuk wilayah Jakarta

 Diagnosis pola kesalahan mesin

 Perkiraan harga saham dan tingkat inflasi

 Analisis pola belanja pelanggan

 Memisahkan minyak mentah dan gas alam

 Pemilihan program TV otomatis

 Penentuan pola pelanggan yang loyal pada perusahaan oper ator telepon

 Deteksi pencucian uang dari transaksi perbankan

 Deteksi serangan (intrusion) pada suatu jaringan

(69)

Cognitive-Performance Test

1. Sebutkan 5 peran utama data mining!

2. algoritma apa saja yang dapat digunakan untuk 5 per an utama data mining di atas?

3. Jelaskan perbedaan estimasi dan prediksi!

4. Jelaskan perbedaan estimasi dan klasifikasi!

5. Jelaskan perbedaan klasifikasi dan klastering!

6. Jelaskan perbedaan klastering dan prediksi!

7. Jelaskan perbedaan supervised dan unsupervised lear ning!

8. Sebutkan tahapan utama proses data mining!

(70)

Referensi

1. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical M achine Learning Tools and Techniques 3rd Edition, Elsevier, 201 1

2. Daniel T. Larose, Discovering Knowledge in Data: an Introductio n to Data Mining, John Wiley & Sons, 2005

3. Florin Gorunescu, Data Mining: Concepts, Models and Techniqu es, Springer, 2011

4. Jiawei Han and Micheline Kamber, Data Mining: Concepts and T echniques Second Edition, Elsevier, 2006

5. Oded Maimon and Lior Rokach, Data Mining and Knowledge Dis covery Handbook Second Edition, Springer, 2010

6. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advan ces in Data Mining of Enterprise Data: Algorithms and Applicati ons, World Scientific, 2007

Referensi

Dokumen terkait

Dengan menggunakan data time series periode 2000-2014 dan metode Ordinary Least Square untuk mengestimasi fungsi permintaan maka diperoleh hasil analisis yang

Asano Yuriko dalam Sudjianto dan Dahidi (2004 : 97) mengatakan bahwa “Tujuan akhir pengajaran bahasa Jepang adalah agar para pembelajar dapat mengkomunikasikan ide atau

Tujuh tahap dari proses program pemasaran yang dilakukan melalui internet adalah membentuk peluang pasar, menyusun strategi pemasaran, merancang pengalaman pelanggan,

Surat kasih sayang serta tulus ikhlas yang tiada berkesudahan daripada beta Sultan Abdullah sampai kepada sahabat beta Gurnador Pulau Pinang bahawa akan pesan sahabat beta kepada

Nilai kapasitas adapatif ekosistem mangrove dapat menunjukkan peranannya terhadap perlindungan suatu pulau kecil mikro, sehigga apabila semakin rendah nilai tersebut,

Sistem Pengambilan Keputusan Pembelian Rumah dapat diimplementasikan kedalam sebuah aplikasi android dan menjadi media atau alat yang membantu pengguna dalam mengambil keputusan

Meningka#kan penyer#aan dan memberi pe!uang kepada &#34;#K mengikuti program akademik dan bukan akademik bersama-sama murid di arus perdana% PPI $uga memberi

Pelaksanaan CSR secara internal adalah dilaksakan langsung oleh PT.NNT kepada masyarakat, sedangkan pelaksanaan program CSR secara eksternal adalah dengan