Pengantar Data Mining
Agenda
Agenda
`
Pendahuluan
`
Pengertian Data Mining
`Pengertian Data Mining
`
Knowledge Discovery in Database (KDD)
`
Arsitektur Sistem Data mining
`
Arsitektur Sistem Data mining
`
Tugas‐tugas dalam Data mining
`
Aplikasi
`Aplikasi
Motivasi
`
Masalah eksplorasi data
`
Perkembangan dalam teknologi basis data dan tool terotomasi
`Perkembangan dalam teknologi basis data dan tool terotomasi
untuk pengumpulan data telah mengakibatkan menumpuknya
data dalam basis data, data warehouses dan tempat
data dalam basis data, data warehouses dan tempat
penyimpanan data lainnya.
Kaya akan data, tapi miskin akan pengetahuan!
`
Solusi: Data warehousing dan data mining
` Data warehousing dan
on‐line analytical processing
Ek
k i
h
ik (
l
`
Ekstraksi pengetahuan yang menarik (aturan, pola, atau
kendala) dari basis data berukuran besar.
Motivasi
`
Informasi ‘tersembunyi’ dalam data
`
Analisis secara manual membutuhkan waktu yang cukup lama
Motivasi
`Analisis secara manual membutuhkan waktu yang cukup lama
untuk mencari informasi yang menarik
`Kebanyakan data tidak pernah dianalsisis setelah dikumpulkan
3,000,000 3,500,000 4,000,000 The Data Gap 1,500,000 2,000,000 2,500,000 p Total new disk (TB) since 1995 0 500,000 1,000,000 1995 1996 1997 1998 1999 Number of analysts 1995 1996 1997 1998 1999From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
Mengapa Menambang Data?
g p
g
Sudut pandang komersil
`
Telah banyak data yang dikumpukan
`
Web data e commerce
`Web data, e‐commerce
`grocery stores
`Bank/Credit Card transactions
T k
l i k
j di
`
Teknologi komputer menjadi
lebih murah dan powerful
`
Tekanan kompetisi semakin kuat
`
Tekanan kompetisi semakin kuat
`
Menyediakan layanan yang lebih baik, contoh: dalam
Customer Relationship Management
Mengapa Menambang Data?
Sudut pandang keilmuan
Mengapa Menambang Data?
Sudut pandang keilmuan
`Data dikumpulkan dan disimpan dengan
kecepatan tinggi (GB/hour)
p
gg (
)
`remote sensor pada satellite
`microarray pembangkit gene
expression data
expression data
`Simulasi keilmuan
`Teknik tradisional tidak cukup untuk menganalisis data
d
iki
demikian
`Data mining membantu ilmuwan dalam
`Klasifikasi dan segmentasi data
g
`Formulasi hipotesis
11/27/2008 5Jumlah halaman Web yang diindeks oleh Google search engine
(Sumber: Internet Archive, http: www.archive.org) (Sumber: Internet Archive, http: www.archive.org)
Pengertian Data Mining
Pengertian Data Mining
`
Data mining (knowledge discovery in databases):
` Ekstraksi informasi atau pola yang menarik (non‐trivial, implicit,previously unknown dan potentially useful) dalam basis data berukuran besar.
I til h l i
`
Istilah lain:
` Knowledge discovery(mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging, information harvesting business intelligence dll
information harvesting, business intelligence, dll.
`
Yang bukan termasuk data mining task?
` Pemrosesan (deductive) query.` Sistem pakar
Pengertian Data Mining
zYang merupakan data mining task?
zYang bukan data
i i
t k?
–
Mencari nama tertentu yang lazim
di wilayah/daerah tertentu. (Contoh:
O’Brien, O’Rurke, O’Reilly… nama
mining task?
–
Mencari nomor
telpon dalam direktori
,
,
y
yang lazim di wilayah Boston)
–
Mengelompokan dokumen‐
d k
i i
telpon dalam direktori
telpon
dokumen yang mirip yang
dikembalikan oleh search engine
berdasarkan konteksnya (misalkan
–
Melakukan kueri
pada Web search
engine untuk mencari
Amazon rainforest, Amazon.com,)
engine untuk mencari
informasi tentang
“Amazon”
Hubungan data mining dengan bidang lain
`
Berkaitan erat dengan bidang machine learning/AI,
i i
i ik d
i
b i d
pattern recognition, statistika, dan sistem basis data
`
Teknik tradisonal menjadi
tid k
i k
tidak sesuai karena
`Data berukuran besar
`Tingginya dimensi data
Machine Learning/ Pattern Recognition Statistics/ AI `
Tingginya dimensi data
`Data yang heterogen,
dan terdistribusi
Recognition Data Mining Database systems systems 9 11/27/2008Data Mining: Gabungan dari multi disiplin
g
g
p
Database
Technology
Statistics
Data Mining
Machine
Learning
g
Visualization
Learning
Pattern
Pattern
Recognition
Algorithm
Other
Disciplines
Data Mining: sebuah proses dalam KDD
g
p
`
Data mining: elemen utama
Pattern Evaluationdaam proses knowledge
discovery.
Data Mining
Pattern Evaluation
Task-relevant Data
Data Warehouse Selection
Data Cleaning
Data Integration
Databases
Data Mining: sebuah proses dalam KDD
Data Mining: sebuah proses dalam KDD
1.
Pembersihan data
: menghilangkan noise dan data yang tidak
konsisten.
2
Pengintegrasian data
: data digabungkan dari berbagai sumber
2.Pengintegrasian data
: data digabungkan dari berbagai sumber.
3.
Seleksi data
: data yang relevan dengan proses analisis diambil dari
basis data.
4
Transformasi data
: data ditransformasikan atau digabungkan ke
4.Transformasi data
: data ditransformasikan atau digabungkan ke
dalam bentuk yang sesuai untuk di‐mine dengan cara dilakukan
peringkasan atau operasi agregasi.
5.
Data mining
: merupakan proses yang penting dalam KDD dimana
5.ata mining
: merupakan proses yang penting dalam K
dimana
metode‐metode cerdas diaplikasikan untuk mengekstrak pola‐
pola data.
6.Evaluasi pola
: untuk mengidentifikasi pola‐pola yang menarik
ik
h
b d
k
k
yang merepresentasikan pengetahuan berdasarkan suatu ukuran
kemenarikan.
7.Presentasi pengetahuan
: merepresentasikan pengetahuan yang
Data Mining: sebuah proses dalam KDD
g
p
Input data
Information
Data Mining dan Business Intelligence
Increasing potential to support
business decisions End User
business decisions End User
Business
Decision Making
Data Presentation Business
Analyst Data A l Data Presentation Visualization Techniques Data Mining f Analyst Information Discovery Data Exploration
Statistical Summary, Querying, and Reporting
DBA
Statistical Summary, Querying, and Reporting
Arsitektur Sistem Data Miningg
Graphical User Interface Pattern Evaluation
Knowl
Database or Data Data Mining Engine
Knowl edge-Base
data cleaning, integration, and selection Database or Data
Warehouse Server
Database Data World-Wide ROther Infoit i Database
Warehouse Web Repositories
Arsitektur Sistem Data Mining
Arsitektur Sistem Data Mining
1.
Basis data
, data warehouse atau tempat penyimpanan informasi
lainnya.
2
Basis data dan data warehouse server
Komponen ini
2.Basis data dan data warehouse server
. Komponen ini
bertanggung jawab dalam pengambilan data yang relevan,
berdasarkan permintaan pengguna.
3.
Basis pengetahuan
, merupakan domain knowledge yang
3.Basis pengetahuan
, merupakan domain knowledge yang
digunakan untuk memandu pencarian atau mengevaluasi pola‐
pola yang dihasilkan.
4.
Data mining engine
, terdiri modul‐modul fungsional data mining
seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
5.
Modul evaluasi pola
, menggunakan ukuran‐ukuran kemenarikan
dan berinteraksi dengan modul data mining dalam pencarian
pola pola menarik
pola‐pola menarik.
6.
Antarmuka pengguna grafis
, media komunikasi dengan pengguna
Data yang ditambang?
y
g
g
`
Basis data relasional
`
Data warehouse
`
Basis data transaksional
`
Tempat penyimpanan data lainnya
`Basis data object‐oriented dan basis data object‐relational
i d
i l
`Basis data spatial
`Data time‐series dan data temporal
`Data teks dan basis data multimedia
`Data teks dan basis data multimedia
`
WWW
Tugas‐tugas dalam Data Mining
Tugas tugas dalam Data Mining
`Metode Prediksi
`Metode Prediksi
`Menggunakan beberapa variabel (atribut) untuk memprediksi
nilai yang tidak diketahui atau nilai yang akan datang dari
variabel (atribut) lain.
`Metode Deskripsi
`Metode Deskripsi
`Menemukan pola‐pola (korelasi, trend, cluster, trayektori, dan
anomali) yang meringkas hubungan dalam data.
Tugas‐tugas dalam Data Mining (1)
`Association
(correlation dan causality)
` Multi‐dimensional vs single‐dimensional association ` Multi dimensional vs. single dimensional association
` age(X, “20..29”) ^ income(X, “20..29K”) Æ buys(X, “PC”) [support = 2%, confidence = 60%]
` contains(T “computer”) Æ contains(x “software”) [1% 75%] ` contains(T, “computer”) Æ contains(x, “software”) [1%, 75%] `
Klasifikasi dan Prediksi
` Menemukan model (fungsi) yang menjelaskan dan membedakan kelas atau kosep untuk prediksi mendatang
` Contoh: mengklasifikasikan negara berdasarkan iklim
` Presentasi: decision‐tree, classification rule, neural network
` Presentasi: decision tree, classification rule, neural network
` Prediksi: Mempredikasi nilai numerik yang tidak diketahui atau yang
hilang
Tugas‐tugas dalam Data Mining (2)
g
g
g ( )
`Analisis cluster
` Label kelas tidak diketahui: mengelompokkan data untuk membentuk ` Label kelas tidak diketahui: mengelompokkan data untuk membentuk
kelas‐kelas yang baru, contoh: mengelompokkan data untuk mencari pola distribusinya
` Clustering berdasarkan prinsip : memaksimumkan kemiripan intra‐kelas
` Clustering berdasarkan prinsip : memaksimumkan kemiripan intra kelas
dan memiminumkan kemiripan interkelas ` Analisis outlier O tli bj k d t tid k ik ti il k d i d t ` Outlier: objek data yang tidak mengikuti perilaku umum dari data ` Dapat dipandang sebagai noise atau eksepsi tetapi berguna dalam fraud detection, rare events analysis ` Trend dan analisis evolusi ` Trend dan deviasi: analisis regresi
Pola yang menarik?
`
Data mining dapat membangkitkan ribuan pola : tidak semua
`Data mining dapat membangkitkan ribuan pola : tidak semua
pola tersebut menarik
` Pendekatan: Human‐centered, query‐based, focused miningq y f g
`
Ukuran kemenarikan
` Sebuah pola dikatakan menarik jika pola tersebut mudah dimengerti oleh pengguna, valid pada data baru atau data tes dengan derajat kepastian (certainty), berguna, novel, atau memvalidasi hipotesis yang dicari oleh pengguna
pengguna.
Aplikasi 1: Analisis dan Manajemen Pasar
` Sumber data?—transaksi kartu kredit, data pengguna kartu yang setia (loyal), kupon discount, panggilan keluhan pengguna, studi gaya hidup publik T k i ` Target marketing ` Mencari cluster dari konsumen “model” yang memiliki karakteristik yang sama: minat, level pendapatan, perilaku belanja, dll, ` Menentukan pola pembelian konsumen pada setiap waktup p p p ` Cross‐market analysis—Menemukan asosiasi/korelasi antar penjualan produk dan melakukan prediksi berdasarkan asosiasi tersebut ` Customer profiling—Tipe konsumen seperti apa yang akan membeli prosuk tertentu (clustering atau klasifikasi) ` Customer requirement analysis ` Mengidentifikasi produk terbaik untuk konsumen‐konsumen yang berbeda` Memprediksi faktor faktor yang akan menarik perhatian konsumen baru
` Memprediksi faktor‐faktor yang akan menarik perhatian konsumen baru
` Summary information
Aplikasi 1: Klasifikasi
Aplikasi 1: Klasifikasi
`
Direct Marketing
`
Tujuan: mengurangi biaya pengiriman surat dengan
`Tujuan: mengurangi biaya pengiriman surat dengan
mentargetkan
sekelompok konsumen yang mungkin akan
membeli produk baru.
`P
d k t
`Pendekatan:
` Menggunakan data produk serupa yang telah dipasarkan sebelumnya. ` M t h i k t k t k b li ` Mengetahui konsumen mana yang memutuskan untuk membeli (buy) dan konsumen mana yang memutuskan selainnya. Keputusan{buy, don’t buy} membentuk class attribute.
` Mengumpulkan berbagai data demografi dan gaya hidup dari ` Mengumpulkan berbagai data demografi, dan gaya hidup dari
konsumen yang memutuskan membeli dan tidak membeli. Bentuk usahanya, tempat tinggalnya, pendapatannya, dll.
` Menggunakan informasi ini sebagai atribut‐atribut input untuk gg g p
pembelajaran model classifier. From [Berry & Linoff] Data Mining Techniques, 1997
11/27/2008 23
Aplikasi 2: Klasifikasi
Aplikasi 2: Klasifikasi
`
Fraud Detection
`
Tujuan: memprediksi kasus‐kasus yang mengandung
`Tujuan: memprediksi kasus kasus yang mengandung
kecurangan dalam transaksi dalam transaksi kartu kredit.
`
Pendekatan:
` Menggunakan transaksi kartu kreditdan informasi mengenai ` Menggunakan transaksi kartu kreditdan informasi mengenai pemegang kartu kredit sebagai atribut. Kapan konsumen melakukan pembelian, barang apa yang dibelinya, berapa sering dia melakukan pembayaran menggunakan kartu kedit pada periode waktu tertentu, dll ` Memberikan label transaksi yang telah lalusebagai transaksi yang mengandung kecurangan (fraud) atau transaksi yang normal (fair). Kategori ini membentuk atribut kelas
Kategori ini membentuk atribut kelas.
` Pembelajaran model untuk kelas transaksi.
Aplikasi 3: Klasifikasi
Aplikasi 3: Klasifikasi
`Perpindahan konsumen ke kompetitor (Customer Attrition
/Churn):
`Tujuan: memprediksi apakah seorang konsumen akan pindah
ke produk kompetitor
ke produk kompetitor.
`Pendekatan:
` Menggunakan catatan transaksi secara rinci untuk setiap konsumen lampau dan saat ini, untuk menentukan atribut. Seberapa sering konsumen melakukan panggilan, dimana dia melakukan panggilan, kapan konsumen tersebut sering melakukan panggilan, status k t t ik h dll keuangannya, status pernikahan, dll. ` Menentukan label konsumen sebagai loyal atau tidak loyal. ` Tentukan model untuk loyalty.From [Berry & Linoff] Data Mining Techniques, 1997
11/27/2008 25
Aplikasi 1: Clustering
Aplikasi 1: Clustering
`
Segmentasi Pasar:
`
Tujuan: membagi pasar ke dalam bagian‐bagian konsumen
`Tujuan: membagi pasar ke dalam bagian bagian konsumen
yang berbeda dimana sebuah bagian dapat dipilih sebagai
target pasar.
`Pendekatan:
`Pendekatan:
` Mengumpulkan atribut‐atribut yang berbedadari konsumen berdasarkan informasi yang terkait gerografisnya dan gaya hidupnya. ` Menemukan cluster dari konsumen konsumen yang serupa` Menemukan cluster dari konsumen‐konsumen yang serupa.
` Mengukur kualitas clustering dengan mengobservasi pola pembelian dari konsumen‐konsumen dalam kelas yang sama terhadap
Aplikasi 1: Penentuan Aturan Asosiasi
Aplikasi 1: Penentuan Aturan Asosiasi
`Pemasaran dan promosi penjualan:
`
Misalkan aturan yang diperoleh
`
Misalkan aturan yang diperoleh
{Cola, … } ‐‐> {Potato Chips}
`
Potato Chips sebagai consequent
=>dapat digunakan untuk
t k
h
dil k k
t k
i k tk
menentukan apa yang harus dilakukan untuk meningkatkan
penjualannya.
`
Cola dalam antecedent
=>dapat digunakan untuk melihat produk
k
t
h jik jik
j
l
C l dih
tik
mana yang akan terengaruh jika jika penjualan Cola dihentikan.
`
Cola dalam antecedent dan Potato chips dalam consequent
=>dapat digunakan untuk melihat produk apa yang seharusnya
dij
l d
d
C l
t k
ik
j
l
dijual dengan dengan Cola untuk mempromosikan penjualan
Potato chips!
11/27/2008 27Aplikasi 2: Penentuan Aturan Asosiasi
p as : e e tua
tu a
sos as
`
Manajemen penempatan barang di supermarket.
`
Tujuan: mengidentifikasi item‐item yang dibeli secara
`Tujuan: mengidentifikasi item‐item yang dibeli secara
bersamaan oleh banyak pembeli.
`Pendekatan: Memproses data point‐of‐sale yang
dikumpulkan dengan barcode scanner untuk menemukan
kebergantungan antar item.
`Contoh aturan‐‐
`Contoh aturan‐‐
` If a customer buys diaper and milk, then he is very likely to buy beer.Rujukan
Rujukan
`
Tan P., Michael S., & Vipin K. 2006. Introduction to Data
mining. Pearson Education, Inc.
mining. Pearson Education, Inc.
`