Data Mining
Pengenalan Sistem & Teknik, Serta Contoh Aplikasi
Avinanta Tarigan
Outline
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Outline
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Latar Belakang
Banyak data yang telah direkam dan disimpan:
Transaksi penjualan supermarket
Transaksi perbankan dan kartu kredit
Log kunjungan Web (access_log) Akuisisi data dalam
penelitian-penelitian seperti astronomi, kesehatan, dll
Sistem komputer lebih murah Kebutuhan untuk berkompetisi
dengan strategi yang tepat
Mengapa Harus Data Mining ?
Data yang sedemikian besar kadang memiliki informasi yang tersembunyi
Kemampuan manusia terbatas untuk “mempelototi”
data-data tersebut dalam analisis
Definisi 2 Data Mining
Data
Rekaman atau catatan terhadap fakta / transaksi / obyek
Definisi
Ekstraksi informasi yang implisit, tidak diketahui sebelumnya, dan berpotensi berguna
Eksplorasi dan analisis, secara otomatis atau tidak, data
yang sangat besar untuk menemukan pola-pola yang
berguna dan mempunyai arti
Pengertian Yang Salah
Bukan Data Mining
Mencari nomor telepon
“Bambang Gunawan” di buku telepon Indonesia Mencari informasi mengenai “Bunga” di google.com
Data Mining
Menemukan bahwa banyak orang bernama Bambang di daerah Jawa Timur Mengelompokkan dokumen web mengenai “Bunga”
sesuai dengan konteks Bunga Bank atau Kredit (Keuangan)
Bunga - Tanaman /
Pertanian
Sistem Ekstraksi Pengetahuan
KDD (Knowledge Discovery in Databases)
Ilmu Data Mining
Gabungan dari
beberapa bidang ilmu dalam Matematik dan Ilmu Komputer Diperlukan karena:
Data yang s(u)angat b(u)esar
Dimensi data yang besar
Data Heterogen
Data
Kumpulan obyek data dan atributnya
Obyek : record, point, case,
sampel, entitas, instan
Atribut / variabel / field :
karakteristik dari obyek (status
pernikahan, umur, dll)
Outline
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Classification Mining
Ekstraksi pola pengelompokan atau pengklasifikasian sebuah himpunan obyek / data (training-set) ke dalam kelas (class) tertentu berdasarkan atribut-atributnya Pola pengelompokan yang ditemukan akan menjadi model pengelompokan
Model digunakan untuk memprediksi kelompok data /
obyek baru (test-set)
Ilustrasi Classification Mining
Contoh Aplikasi I
Pemakaian Kartu Kredit secara Ilegal
Tujuan : mendeteksi adanya penggunaan kartu kredit secara ilegal
Pendekatan :
Data transaksi sebelumnya (lokasi & waktu transaksi, jenis barang yang dibeli, besar transaksi)
Label data-data tersebut dengan Curang atau Aman DM mencari model klasifikasi Curang atau Aman berdasarkan atribut transaksi
Menerapkan model tersebut jika ada transaksi baru untuk
mempercepat / tepat tindakan preventif
Contoh Aplikasi II
Deteksi SPAM
Tujuan : mendeteksi email yang tidak diharapkan secara dini
Direct Marketing
Tujuan : mencari pengelompokan profil pelanggan agar target marketing sesuai
Sky Survey Cataloging
Tujuan : mengelompokkan obyek langit hasil pemotretan
teleskop ke dalam class-nya
Contoh Aplikasi III
Teknik / Metode
Decision Tree (Pohon Keputusan) Rule-based Methods
Memory based reasoning
Neural Networks (Jaringan Syaraf Tiruan)
Naive Bayes dan Bayesian Belief Networks
Support Vector Machines
Contoh Model: Pohon Keputusan I
Contoh Model: Pohon Keputusan II
Outline
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Association Mining
Menemukan pola asosiasi dalam data
Adanya kemunculan obyek tertentu berdasarkan
kemunculan obyek yang lain
Contoh Aplikasi I
Marketing & Sales Promotion Misalnya pola yang ditemukan : {Susu Anak, ...} → {Kwaci}
Kwaci sebagai konsekuen : bagaimana caranya menaikkan penjualan kwaci
Susu Anak sebagai anteseden : jika tidak lagi menjual susu
anak, memprediksi produk lain yang ikut jatuh penjualannya
Dua-duanya : membuat paket promo Susu Anak, Kwaci, dll
Contoh Aplikasi II
Pengelolaan Rak di Supermarket
Tujuan: memudahkan pelanggan berbelanja barang-barang yang sering dibeli bersama
Misalnya: ada rak kecil berisi kwaci diletakkan pada bagian susu anak
Sistem Rekomendasi Pintar
Tujuan: memberikan rekomendasi kepada pelanggan toko
buku on-line tentang buku-buku lain yang sering dibeli juga
oleh pelanggan lainnya jika membeli buku tertentu
Metode
Rule asosiasi : X → Y
1
Membangkitkan semua item-set yang kemunculannya tinggi pada data
1
Bentuk Lattice (struktur yang akan memunculkan semua subset yang diurutkan berdasarkan subset - superset)
2
Menyeleksi item-set dg Support yang tinggi. Support = Jumlah Transaksi Yg Berisi
Xdan
YJumlah Keseluruhan Transaksi
2
Mencari pola asosiasi yang mempunyai “confidence” yang tinggi
1
Confidence = Mengukur seberapa sering item di Y juga muncul pada transaksi yang berisi X
2
Gunakan pencarian Bread-First-Search atau
Depth-First-Search pada Lattice tsb
Ilustrasi I
Pembentukan Lattice
Ilustrasi II
Seleksi “Support”
Ilustrasi III
Seleksi High “Confidence”
Outline
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Clustering (Penggugusan)
Definition
Proses mencari gugus-gugus dari sekumpulan obyek sehingga
obyek-obyek di dalam sebuah gugus mirip satu dengan lainnya,
dan berbeda dengan obyek di luar gugusnya.
Contoh Aplikasi I
Web-Document Clustering:
Tujuan: mencari gugus dokumen-dokumen Web yang mirip berdasarkan kemunculan istilah penting
Pendekatan: mengidentifikasi istilah yang sering muncul pada setiap dokumen, mengukur kemiripan berdasarkan frekwensi kemunculan istilah pada dokumen lainnya Hasil: Web search engine memunculkan
dokumen-dokumen yang mirip (dalam 1 gugus)
berdasarkan istilah yang dicari
Contoh Aplikasi II
Segmentasi Pasar:
Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing
Pendekatan:
mempersiapkan data beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya
mencari gugus pelanggan yang mirip berdasarkan atribut2 tsb
melakukan observasi perilaku pasar berdasarkan
gugus-gugus pelanggan yang ditemukan
Hasil: strategi marketing yang tepat sasaran
Mengukur Kemiripan Atribut Data I
Kemiripan (Similarity):
ukuran dalam numerik [0,1] yang merepresentasikan kemiripan antara 2 obyek
0 (tidak mirip) < range-kemiripan < 1(sama/mirip sekali) Ketidakmiripan (Disimilarity) vs Kemiripan
p dan q adalah nilai atribut dari 2 obyek Tipe Atribut Ketidakmiripan Kemiripan
Nominal d =
( 0 if p = q
1 if p 6= q s =
( 0 if p 6= q
1 if p = q
Ordinal d =
|p−q|ns = 1 −
|p−q|nMengukur Kemiripan Atribut Data II
Pengukuran kemiripan variabel kontinyu:
Euclidean Distance:
dist = q
∑
ni=1(p
i− q
i)
2Minkowski Distance:
dist = ∑
ni=1|p
i− q
i|
r1rMengukur Kemiripan Atribut Data III
Contoh Euclidean Distance
Contoh Algoritma Pencari Gugus
K -Means Clustering, Konsep: Centroid → titik tengah gugus
Algoritma (asumsi: sudah dilakukan pengukuran kemiripan)
1
Tentukan K points sebagai awal centroids
2
Repeat
3
Buat K buah gugus dengan memasukkan point-point yang dekat dengan centroid
4
Cari centroid baru dari gugus-gugus tersebut
5
Until Centroid tidak berubah
Ilustrasi K-Means
Outline
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5