Konsep dan Teknik Data Mining Konsep dan Teknik Data Mining
Pengantar Data Mining (DM) Pengantar Data Mining (DM)
Motivasi Motivasi Mengapa? Apa? Mengapa? Apa? Aplikasi Aplikasi Proses KDD Proses KDD Tinjauan DM Tinjauan DM Isu Utama Isu Utama
Motivasi: “Kebutuhan Motivasi: “Kebutuhan
Merupakan Sumber Penemuan” Merupakan Sumber Penemuan”pp
• Problem ledakan data
– Tool koleksi data otomatis dan perkembangan teknologi database perkembangan teknologi database
menyebabkan banyak sekali data yang bisa dikumpulkan di dalam database, data
dikumpulkan di dalam database, data
warehouse, dan alat peyimpanan informasi lainnya, untuk dianalisaa ya, u tu d a a sa
• Kita berkubang data tetapi kelaparan
t h !
Motivasi: “Kebutuhan Motivasi: “Kebutuhan
Merupakan Sumber Penemuan” Merupakan Sumber Penemuan”pp
• Solusi: Penggudangan data dan
penambangan data (Data warehousing and data mining)
data mining)
– Data warehousing dan on-line analytical processing (OLAP)
processing (OLAP)
– Penyaringan pengetahuan yang menarik
(k id h k b t l k d l ) d i d t
(kaidah, keberaturan, pola, kendala) dari data dalam database yang besar
Komputer Tahun 1940
Komputer Tahun 1940--an an (ENIAC)
(ENIAC) (ENIAC) (ENIAC)
Personal Home Network Tahun Personal Home Network Tahun
2000 2000 anan 2000 2000--anan Mount 43174371950 79%/ 02 631963 47358 93%/us
File E ditL ocateView H elp 1234567 0 100 200 300 400 500 EDCBA Network Traffic Help Storage Storage Storage Storage Storage Storage Storage Storage Storage
Storage StorageStorage
Storage Storage Internet Internet Storage Storage
Evolusi atau Perkembangan Evolusi atau Perkembangan
Teknologi Database Teknologi Database Teknologi Database Teknologi Database
•• 1960an: 1960an: Koleksi data, pembuatan data, IMS dan
t k DBMS
network DBMS
•• 1970an: 1970an: Model data relasional dan implementasi
DBMS l i l
DBMS relasional
•• 1980an: 1980an: RDBMS, model data lanjut (extended-relational OO deduktif dsb ) DBMS berorientasi relational, OO, deduktif, dsb.) DBMS berorientasi aplikasi(spasial, saintifik, teknik, dsb.)
•• 1990an1990an 2000an:2000an: Data mining dan data •• 1990an 1990an ––2000an: 2000an: Data mining dan data
warehousing, database multimedia, teknologi Web
Apa Itu Data Mining? Apa Itu Data Mining?
•• Pada dasarnya: Perolehan pengetahuan dari Pada dasarnya: Perolehan pengetahuan dari data
data data data
– “Ekstraksi informasi atau pola yang menarik (tidak sepele, implisit, tak-diketahui
( p p
sebelumnya, mungkin bermanfaat) dari data didalam database yang besar"
S i k li h S i k li h
•• Seringkali hanya:Seringkali hanya:
– “Memberitahu sesuatu yang menarik dari data ini" “Menguraikan data ini"
data ini , Menguraikan data ini
Ö
Ö Penyelidikan: analisa data semiPenyelidikan: analisa data semi--otomatis otomatis atas sekumpulan data yang besar
atas sekumpulan data yang besar atas sekumpulan data yang besar atas sekumpulan data yang besar
Apa Itu Data Mining? Apa Itu Data Mining?
•• Istilah yang rada baku:Istilah yang rada baku:
D i i – Data mining
• Biasanya DM adalah salah satu proses KDD – Knowledge discovery in databases (KDD)
• Istilah umum yang meliputi, preprocessing data, DM, dan postprocessing
•• Istilah yang tidak terlalu sering digunakan:Istilah yang tidak terlalu sering digunakan:
•• Istilah yang tidak terlalu sering digunakan:Istilah yang tidak terlalu sering digunakan:
– Ekstraksi pengetahuan, arkeologi data,
pengerukan data, penuaian informasi, analisa
p g , p ,
data/pola
•• Publisitas terbaru:Publisitas terbaru:
Mengapa Data Mining? Mengapa Data Mining?
•• Ketersediaan data dalam jumlah Ketersediaan data dalam jumlah t b
t b
yang sangat besar: yang sangat besar:
– Tool koleksi data otomatis dan
perkembangan teknologi database menyebabkan banyak sekali data yang bisa dikumpulkan di dalam yang bisa dikumpulkan di dalam database, data warehouse, dan alat peyimpanan informasi lainnya
p y p y
– Pemeriksaan data manual adalah membosankan dan terkadang tidak masuk akal
Apa Manfaat Dari DM? Apa Manfaat Dari DM?
Meningkatkan pengetahuan agar Meningkatkan pengetahuan agar
Marketing bisa membuat keputusan
bisa membuat keputusan berdasarkan:
berdasarkan:
Marketing
D t b
Misal, pengaruh pada marketing Misal, pengaruh pada marketing
P d h DM
P d h DM Database
Marketing
Peran dan pengaruh DM yang Peran dan pengaruh DM yang bertumbuh pesat dan masih bertumbuh pesat dan masih bertumbuh! bertumbuh! Data Warehousing KDD & Data Mining
Tetapi DM tidaklah sekedar Tetapi DM tidaklah sekedar marketing
marketing marketing... marketing...
Potensi Aplikasi? Potensi Aplikasi?
•• Analisis database dan dukungan Analisis database dan dukungan keputusan:
keputusan: keputusan: keputusan:
– Analisis dan manajemen pasar
• Target pasar manajemen relasiTarget pasar, manajemen relasi
customer (CRM), analisis keranjang pasar, penjualan silang, segmentasi pasar
pasar
– Analisis dan manajemen resiko
• Peramalan tindakan mempertahankan • Peramalan, tindakan mempertahankan
customer, peningkatan asuransi, kontrol kualitas, analisis kompetitif – Deteksi dan manajemen kecurangan
Potensi Aplikasi? Potensi Aplikasi?
•• Aplikasi lain:Aplikasi lain:
– Text mining (news group, email, dokumen) dan Web mining
– Stream data mining
A li i DNA d bi d t
Analisis dan Manajemen Pasar Analisis dan Manajemen Pasar
•• Dari mana data berasal?Dari mana data berasal?
T k i k t k dit l lt d k di t k l h
– Transaksi kartu kredit, loyalty cards, kupon discount, keluhan customer, kajian lifestyle publik
•• Target PasarTarget Pasar
•• Target PasarTarget Pasar
– Mendapatkan kelompok model customer yang berbagi
karakteristik yang sama: minat, tingkat pendapatan, kebiasaan b l j d b
belanja, dsb.
– Menentukan pola pembelian customer berdasarkan waktu
•• Analisis lintas pasarAnalisis lintas pasar
– Asosiasi/korelasi antara penjualan produk & taksiran berdasarkan asosiasi demikian
Analisis dan Manajemen Pasar Analisis dan Manajemen Pasar
•• Profil customerProfil customer
Ti t b li d k
– Tipe customer apa membeli produk apa (pengelompokan atau klasifikasi)
A li k b t h t
A li k b t h t
•• Analisa kebutuhan customerAnalisa kebutuhan customer
– Mengenali produk terbaik untuk customer berbeda
M lk f kt k ik t t
– Meramalkan faktor apa yang akan memikat customer baru
P di k i f i
P di k i f i
•• Penyediaan rangkuman informasiPenyediaan rangkuman informasi
– Rangkuman laporan multidimensi
R k i f i t ti tik (k d d t
– Rangkuman informasi statistik (kecenderungan data terpusat dan variasi)
Analisis dan Manajemen Resiko Analisis dan Manajemen Resiko
Perusahaan Perusahaan
•• Perencanaan keuangan dan evaluasi asetPerencanaan keuangan dan evaluasi aset
Perusahaan Perusahaan
– Analisis dan peramalan cash flow
– Analisis ganti rugi yang mungkin untuk g g y g g mengevaluasi aset
– Analisis cross-sectional dan time series (financial-( ratio, analisa trend, dsb.)
•• Perencanaan sumberdayaPerencanaan sumberdaya
•• Perencanaan sumberdayaPerencanaan sumberdaya
– Merangkum dan membandingkan sumberdaya dan pengeluaran
Analisis dan Manajemen Resiko Analisis dan Manajemen Resiko
Perusahaan Perusahaan
•• KompetisiKompetisi
Perusahaan Perusahaan
– Memantau pesaing dan arah pasar
Mengelompokkan customer kedalam kelas – Mengelompokkan customer kedalam kelas
dan prosedur harga berbasis kelas
– Menetapkan strategi harga dalam suatu pasar dengan kompetitif tinggi
Aplikasi Lain Aplikasi Lain
•• Olah ragaOlah raga
IBM Advanced Scout menganalisa statistik (shots blocked – IBM Advanced Scout menganalisa statistik (shots blocked,
assists, dan fouls) pertandingan NBA untuk mendapatkan keuntungan kompetitif bagi New York Knicks dan Miami Heatseats
•• AstronomiAstronomi
– Observatory JPL dan Palomar menemukan 22 quasars y q dengan bantuan data mining
•• Internet Web SurfInternet Web Surf--AidAid
– IBM Surf-Aid menerapkan algoritma data mining untuk akses logs halaman Web yang terkait dengan pasar dalam upaya mendapatkan kesukaan dan perilaku customer,
mengenalisa efektifitas pemasaran Web perbaikan situs Web mengenalisa efektifitas pemasaran Web, perbaikan situs Web organisasi, dsb.
Contoh (1) Contoh (1)
•• Anda seorang manajer marketing untuk Anda seorang manajer marketing untuk
h t l ll l
h t l ll l
perusahaan telepon cellular: perusahaan telepon cellular:
– Pelanggan menerima sebuah telepon gratis (nilai 1 5 juta) dengan kontrak satu tahun; anda
1.5 juta) dengan kontrak satu tahun; anda
memberikan suatu komisi penjualan sebesar 2.5 juta per kontrak
– Problem: Turnover (setelah kontrak berakhir) adalah 25%
– Memberikan suatu telepon baru ke setiap orang yang kontraknya habis sangatlah mahal
– Membawa kembali customer setelah keluar adalah juga sukar dan mahal
Contoh (1) Contoh (1)
•• Tiga bulan sebelum suatu Tiga bulan sebelum suatu
k t k b khi i t h
k t k b khi i t h
kontrak berakhir, cari tahu kontrak berakhir, cari tahu customer mana yang akan customer mana yang akan keluar:
keluar:
Yippee! e ua :e ua :
– Jika anda ingin mempertahankan
I won't leave!
p
customer yang diduga akan keluar, tawarkan customer
t b t t t l b
Contoh (2) Contoh (2)
•• Anda seorang petugas Anda seorang petugas asuransi dan anda harus asuransi dan anda harus asuransi dan anda harus asuransi dan anda harus mendefinisikan suatu mendefinisikan suatu
pembayaran bulanan yang pembayaran bulanan yang
t t k d
t t k d
Oh, yes!
pantas untuk seorang pemuda pantas untuk seorang pemuda berusia 18 tahun yang
berusia 18 tahun yang
membeli sebuah Ferrari … membeli sebuah Ferrari …
I love my Ferrari!
apa yang anda akan lakukan? apa yang anda akan lakukan?
Contoh (2) Contoh (2)
•• Kaji seluruh data customer dan data Kaji seluruh data customer dan data
k i b b l
k i b b l
kompensasi pembayaran sebelumnya kompensasi pembayaran sebelumnya
•• Kaji peluang penyebab kecelakaan paling Kaji peluang penyebab kecelakaan paling banyak berdasarkan dugaan
banyak berdasarkan dugaan banyak berdasarkan dugaan… banyak berdasarkan dugaan…
– Kelamin pengendara (pria/wanita) dan usia
usia
– Model dan usia mobil, tempat tinggal d b
– dsb.
•• Jika peluang kecelakaan lebih besar dari Jika peluang kecelakaan lebih besar dari rata
rata rata aturlah pembayaran bulananrata aturlah pembayaran bulanan rata
rata--rata, aturlah pembayaran bulanan rata, aturlah pembayaran bulanan yang sesuai!
Contoh (3) Contoh (3)
•• Anda berada diluar negeri dan seseorang Anda berada diluar negeri dan seseorang mencuri atau menggandakan kartu kredit mencuri atau menggandakan kartu kredit mencuri atau menggandakan kartu kredit mencuri atau menggandakan kartu kredit atau telepon mobile anda …
atau telepon mobile anda …
•• Perusahaan kartu kredit …Perusahaan kartu kredit …
– Menggunakan data histori untuk
membangun model prilaku penipuan dan gunakan data mining untuk membantu didalam mengenali kejadian yang mirip
P h t l
P h t l
•• Perusahaan telepon …Perusahaan telepon …
– Menganalisis pola yang menyimpang dari suatu kebiasaan yang diharapkan (tujuan suatu kebiasaan yang diharapkan (tujuan, durasi, dsb.)
Contoh (4) Contoh (4)
•• Log pengaksesan Web bisa Log pengaksesan Web bisa dianalisis untuk …
dianalisis untuk …
– Mendapatkan apa kesukaan customer
Excellent surfing p p
– Memperbaiki situs Web organisasi
experience!
•• Demikian pula … Demikian pula …
– Seluruh jenis analisis log informasiSeluruh jenis analisis log informasi – Adaptasi antarmuka/layanan user
Data Mining: Suatu Proses KDD Data Mining: Suatu Proses KDD
– Data mining—inti dari Evaluasi Pola
proses penemuan
pengetahuan Data Mining
Task-relevant Data
Data Warehouse Pemilihan
Pembersihan Data
Integrasi Data
Langkah
Langkah--Langkah dari Proses Langkah dari Proses KDD (1) KDD (1) KDD (1) KDD (1) Pemahaman domain Pemahaman domain
Pembuatan suatu data set target Pembuatan suatu data set target Pembersihan/preprocessing data Pembersihan/preprocessing data Reduksi/proyeksi data Reduksi/proyeksi data Pembersihan/preprocessing data Pembersihan/preprocessing data p y p y Pemilihan tugas DM Pemilihan tugas DM
Langkah
Langkah--Langkah dari Proses Langkah dari Proses KDD (2) KDD (2) KDD (2) KDD (2) Pemilihan Algoritma DM Pemilihan Algoritma DM Data mining: Pencarian Data mining: Pencarian
Evaluasi pola Evaluasi pola Penyajian pengetahuan Penyajian pengetahuan Evaluasi pola Evaluasi pola y j p g y j p g
Penggunaan pengetahuan yang diperoleh Penggunaan pengetahuan yang diperoleh
Ciri Khas Proses KDD Ciri Khas Proses KDD
Raw data Seleksi Berdasarkan waktu Database Database Operasional Operasional Eval. of interes waktu Data mining Data mining Input data
Input data PreprocessingPreprocessing PostprocessingPostprocessing HasilHasil--HasilHasil
interes-tingness Bersih Benar Fokus 1 3 2 Utilisasi Utilisasi Pola berguna 1 3 yg terpilih
Utilisasi Utilisasi
P i k i
Peningkatan potensi untuk mendukung
keputusan bisnis Pembuatan End User
keputusan Business Analyst Penyajian Data Teknik Visualisasi D t Mi i Data Analyst Data Mining Penemuan informasi Eksplorasi data
Analisa statistik query dan pelaporan
DBA
OLAP, MDA
Analisa statistik, query, dan pelaporan
Data Warehouses / Data Marts Sumber data
Arsitektur: Arsitektur:
Sistem Data Mining Sistem Data Mining Sistem Data Mining Sistem Data Mining
Antarmuka user grafis (GUI)
Evaluasi Pola
g ( )
Mesin data mining
Penyaringan
Database atau data
warehouse server pengetahuanBasis
Data Warehouse
Pembersihan & integrasi data Penyaringan
Rantai Nilai Rantai Nilai Keputusan Keputusan • Promosikan produk A di Z. Pengetahuan Pengetahuan p
• Kirim iklan ke keluarga dengan profil P
• Jual silang layanan B ke klien C Pengetahuan
Pengetahuan
•Sebanyak Y produk A digunakan di Z
• Customer dari kelas Y menggunakan x% dari C Informasi Informasi •X tinggal di Z • S berumur Y tahun menggunakan x% dari C selama periode D Data Data •Data customer • Simpanan data • X dan S pindah • W punya uang di Z • Data grafis • Data geografis
Fungsionalitas Data Mining Fungsionalitas Data Mining
•• Konsep deskripsi: karakterisasi & Konsep deskripsi: karakterisasi & diskriminasi
diskriminasi
– Generalisasi rangkuman danGeneralisasi, rangkuman, dan karakteristik data kontras
D h k i D h b h
• Daerah kering vs. Daerah basah •• Asosiasi (korelasi dan hubunganAsosiasi (korelasi dan hubunganAsosiasi (korelasi dan hubungan Asosiasi (korelasi dan hubungan
sebab akibat) sebab akibat)
Fungsionalitas Data Mining Fungsionalitas Data Mining
•• Klasifikasi dan prediksiKlasifikasi dan prediksi
– Membangun model (fungsi) yang
menguraikan dan membedakan kelas atau konsep untuk peramalan kedepanp p p
• Misal, mengklasifikasikan negara berdasarkan iklim, atau
kl ifik ik bil b d k mengklasifikasikan mobil berdasarkan gas mileage
Presentasi: pohon keputusan kaidah – Presentasi: pohon-keputusan, kaidah
klasifikasi, neural network
– Menaksir beberapa nilai numerik yang tidak diketahui atau hilang
Fungsionalitas Data Mining Fungsionalitas Data Mining
•• Analisis cluster (analisis pengelompokan)Analisis cluster (analisis pengelompokan)
– Label kelas tidak diketahui: kelompokkan data untuk membentuk kelas baru, misal
mengelompokkan rumah untuk mendapatkan l di t ib i
pola distribusi
– Memaksimalkan kemiripan antar kelas dan meminimumkan kemiripan didalam kelasp •• Analisis outlierAnalisis outlier
Outlier: suatu objek data yang tidak – Outlier: suatu objek data yang tidak
mengikuti perilaku umum dari data – Gangguan atau pengecualian? Tidak!
Berg na dalam deteksi kec rangan analisis Berguna dalam deteksi kecurangan, analisis peristiwa yang jarang terjadi
Fungsionalitas Data Mining Fungsionalitas Data Mining
•• Analisis trend dan evolusiAnalisis trend dan evolusi
– Trend dan deviasi: analisis regresi – Penggalian pola sekuensial,
analisis periodisitas
• Analisis arah pola lain atau statistik
Adakah Seluruh Pola Yang Adakah Seluruh Pola Yang
Ditemukan Menarik? Ditemukan Menarik?
•• Penambangan data bisa membuat ribuan pola: Penambangan data bisa membuat ribuan pola:
Ditemukan Menarik? Ditemukan Menarik?
tidak semua pola tersebut menarik tidak semua pola tersebut menarik
– Pendekatan yang disarankan: berpusatkan kepada manusia, berbasis query, penggalian terfokus
• Ukuran ketertarikan
– Suatu pola adalah menarik jika pola tersebut mudah dipahami oleh manusia, valid (berlaku) pada data p , ( ) p baru atau uji dengan suatu derajat kepastian,
potensial berguna, baru atau membenarkan suatu hipotesa yang dicari user untuk konfirmasi
Adakah Seluruh Pola Yang Adakah Seluruh Pola Yang
Ditemukan Menarik? Ditemukan Menarik?
•• Ukuran ketertarikan objektif vs. subjektifUkuran ketertarikan objektif vs. subjektif
Ditemukan Menarik? Ditemukan Menarik?
– Objektif: berdasarkan statistik dan struktur pola misal dukungan kepercayaan dsb
pola, misal, dukungan, kepercayaan, dsb. – Subjektif: berdasarkan keyakinan user
terhadap data, misal, ketakterdugaan, pengalaman baru, tindakan yang bisa diperkarakan, dsb.
Bisakah Memperoleh Seluruh Atau Bisakah Memperoleh Seluruh Atau
Hanya Pola Yang Menarik? Hanya Pola Yang Menarik? •• Dapatkan seluruh pola yang menarik: Dapatkan seluruh pola yang menarik:
y g
y g
Kelengkapan Kelengkapan
– Bisakah suatu sistem data mining – Bisakah suatu sistem data mining
mendapatkan seluruh pola yang menarik? – Pencarian heuristik vs. exhaustive
(melelahkan)
Bisakah Memperoleh Seluruh Atau Bisakah Memperoleh Seluruh Atau
Hanya Pola Yang Menarik? Hanya Pola Yang Menarik? •• Cari hanya pola yang menarik: suatu Cari hanya pola yang menarik: suatu
y g
y g
problem optimasi problem optimasi
– Bisakah suatu sistem data mining – Bisakah suatu sistem data mining
mendapatkan hanya pola yang menarik? – Pendekatan
• Pertama dapatkan seluruh pola lalu saring atau p p g keluarkan yang tidak diminati
• Buatlah hanya pola yang diminati—optimisasi y p y g p query penggalian
Data Mining: Tempat Pertemuan Data Mining: Tempat Pertemuan
Banyak Disiplin Banyak Disiplinyy pp
Sistem
Database Statistik
Data Mining
Mesin Data Mining Visualisasi
Pembelajaran Visualisasi
Disiplin Lainnya Algoritma
Tinjauan Data Mining: Skema Tinjauan Data Mining: Skema
Klasifikasi Klasifikasi
•• Fungsionalitas umum:Fungsionalitas umum:
Klasifikasi Klasifikasi
– Uraian data mining:
• Uraikan hal menarik apa yang bisa ditemukan dalam data ini!
• Terangkan data ini ke saya! – Peramalan data mining:
• Berdasarkan data ini dan sebelumnya, y , beritahu saya apa yang akan terjadi kemudian!
Tinjauan Data Mining: Skema Tinjauan Data Mining: Skema
Klasifikasi Klasifikasi
•• Tinjauan multiTinjauan multi--dimensi … dimensi …
Klasifikasi Klasifikasi
– Databases yang akan digali – Pengetahuan yang akan dicarig y g – Teknik-teknik yang digunakan
Aplikasi yang disesuaikan – Aplikasi yang disesuaikan
•• Mari kita lihat lebih dekat pada Mari kita lihat lebih dekat pada tinjauan ini
tinjauan ini tinjauan ini ... tinjauan ini ...
Tinjauan Data Mining Tinjauan Data Mining
Databases yang akan digali Databases yang akan digali Databases yang akan digali Databases yang akan digali
• Relasional • Teks XML • Relasional • Data warehouse • Transaksional Databases Databases • Teks, XML • Multi-media • Heterogen • Object-oriented • Object-relational g • Warisan • Induktif relational • Aktif • Spasial • WWW • dsb. • Time-series
Tinjauan Data Mining Tinjauan Data Mining
Aplikasi yang disesuaikan Aplikasi yang disesuaikan
j g
j g
Aplikasi yang disesuaikan Aplikasi yang disesuaikan
• RetailRetail • Analisa stock
(supermarkets etc.)
Applic.
Applic. • Analisa stock
market • Web mining ) • Telecom • Banking • Web mining • Analisa data log g • Fraud analysis • DNA mining log • dsb. DNA mining
OLAP Mining: Integrasi Dari Data OLAP Mining: Integrasi Dari Data
Mining dan Data Warehouse Mining dan Data Warehouse
• Sistem data mining, DBMS, Data warehouse
Mining dan Data Warehouse Mining dan Data Warehouse
g, ,
systems coupling
– No coupling, loose-coupling, semi-tight-coupling, tight-coupling
• Data on-line analytical mining (OLAM)
I i d i li d k l i OLAP
OLAP Mining: Integrasi Dari Data OLAP Mining: Integrasi Dari Data
Mining dan Data Warehouse Mining dan Data Warehouse
• Penggalian pengetahuan multi-level secara
Mining dan Data Warehouse Mining dan Data Warehouse
gg p g
interaktif
– Kebutuhan penggalian pengetahuan dan pola pada suatu level berbeda dari abstraksi dengan
drilling/rolling, pivoting, slicing/dicing, dsb.
• Integrasi dari banyak fungsi penggalian
• Integrasi dari banyak fungsi penggalian
– Klasifikasi berkarakter, pertama clustering dan kemudian asosiasi
Isu Utama dalam Data Mining Isu Utama dalam Data Mining
•• Metodologi dan interaksi penambanganMetodologi dan interaksi penambangan
P b b b i j i h
– Penambangan berbagai jenis pengetahuan – Penambangan pengetahuan secara interaktif
Penggabungan latar belakang pengetahuan – Penggabungan latar belakang pengetahuan – Bahasa query DM dan DM khusus
– Visualisasi hasil DM – Visualisasi hasil DM
– Penanganan gangguan dan data tak lengkap – Ketertarikan problemKetertarikan problem
•• Kinerja dan skalabilitas:Kinerja dan skalabilitas:
– Efisiensi dan skalabilitas dari algoritma DMg
Isu Utama dalam Data Mining Isu Utama dalam Data Mining
•• Aneka ragam tipe data:Aneka ragam tipe data:
– Penanganan tipe data kompleks
g g
Penanganan tipe data kompleks
– Penambangan informasi dari database heterogen (Web misalnya)
A lik i d i t i t h did t
A lik i d i t i t h did t
•• Aplikasi dan integrasi pengetahuan yang didapat:Aplikasi dan integrasi pengetahuan yang didapat:
– Tool DM khusus domain
– Jawaban query cerdas dan pembuatan keputusanJawaban query cerdas dan pembuatan keputusan – Integrasi dari pengetahuan yang didapat dengan
pengetahuan yang ada
P t k i d t P t k i d t
•• Proteksi data … Proteksi data …
– Keamanan – Integritasg – Kerahasiaan
Historis Aktivitas Data Mining Historis Aktivitas Data Mining
•• 1989 IJCAI Workshop1989 IJCAI Workshop
g g
•• 19911991--1994 KDD Workshops1994 KDD Workshops
•• 19951995--1998 KDD Conferences1998 KDD Conferences
•• 1998 ACM SIGKDD1998 ACM SIGKDD
•• 19991999-- SIGKDD ConferencesSIGKDD Conferences
•• dan banyak lagi konferensi kecil / baru dari dan banyak lagi konferensi kecil / baru dari DM …
DM …
– PAKDD, PKDD
– SIAM-Data Mining, (IEEE) ICDMg, ( ) – dsb.
Rujukan Yang Berguna untuk Rujukan Yang Berguna untuk
Data Mining Data Mining Data Mining Data Mining “Standards” “Standards” •• DM:DM: C f KDD PKDD PAKDD •• DM:DM: Conferences: KDD, PKDD, PAKDD, ... Journals: Data Mining and Knowledge
Discovery, CACM
•• DM/DB:DM/DB: Conferences: ACM-SIGMOD/PODS, VLDB, ... Journals: ACM-TODS, J. ACM,
IEEE-TKDE JIIS IEEE TKDE, JIIS, ...
•• AI/ML:AI/ML: Conferences: Machine Learning, AAAI, IJCAI, ... Journals: Machine Learning, Artific. Intell., ...
Kesimpulan Kesimpulan
•• Data mining: penemuan Data mining: penemuan pola menarikpola menarik dari dari data set yang data set yang besar
besar secarasecara semisemi otomatisotomatis besar
besar secara secara semisemi--otomatisotomatis
•• Knowledge discovery adalah suatu proses:Knowledge discovery adalah suatu proses:
– PreprocessingPreprocessing – Data mining – Postprocessing
•• Untuk digali, digunakan atau dimanfaatkan … Untuk digali, digunakan atau dimanfaatkan …
– Databases (relasional, object-oriented, spasial, WWW, )
…)
– Pengetahuan (karakterisasi, pengumpulan, asosiasi, …) – Teknik (mesin pembelajaran statistik visualisasi ) – Teknik (mesin pembelajaran, statistik, visualisasi, …) – Aplikasi (retail, telecom, Web mining, analisa log, …)
Pengantar Data Mining Pengantar Data Mininggg gg