Introduksi Data Mining
S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha 1
Agenda
•
Pendahuluan
•
Definisi Data Mining
•
Langkah – langkah Data Mining
•
Tugas – tugas Data Mining
•
Data untuk Data Mining
Pendahuluan
•
Ukuran DB yang sangat besar :
• Terabytes -> Petabytes
•
Koleksi data & ketersediaan data :
• Database system, web, e-commerce, remote sensing, news, bioinformatics, etc.
•
Komputer semakin powerful
=>
Data Mining
3
Mining Data Set yang Besar - Motivasi
• Sering terdapat informasi “tersembunyi” di dalam data yang
tidak langsung terlihat
• Analis manusia mungkin membutuhkan berminggu – minggu
untuk menemukan informasi yang berguna
• Banyak dari data yang tidak pernah dianalisa sama sekali
DM-MA/S1IF/FTI/UKM/2010 4 0 500,000 1,000,000 1,500,000 2,000,000 2,500,000 3,000,000 3,500,000 4,000,000 1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of analysts From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
Definisi Data Mining (1/3)
• “Data mining adalah bidang ilmu antar disiplin
yang menggabungkan teknik – teknik dari
pembelajaran mesin, pengenalan pola, statistika, basis data, dan visualisasi untuk menangani isu dari ekstrasi informasi dari basis data yang besar”
Evangelos Simoudis in Cabena et al.
• “Data mining adalah ekstrasi dari informasi dari
data yang implisit, tidak diketahui sebelumnya, dan secara potensial berguna”
Witten & Frank
5
Definisi Data Mining (2/3)
• “Data mining .... adalah eksplorasi dan analisis,
dengan cara otomatis dan semi otomatis, dari data yang berjumlah besar untuk menemukan pola – pola atau aturan – aturan yang berguna”
Berry & Linoff
• “Data mining adalah terminologi yang biasanya
diterapkan untuk teknik – teknik yang dapat dipergunakan untuk menemukan struktur dan hubungan- hubungan yang tersembunyi dari data yang besar”
Definisi Data Mining (3/3)
• “Secara sederhana, data mining dipergunakan
untuk menemukan pola – pola dan hubungan – hubungan dari data anda untuk membantu dalam membuat keputusan bisnis yang lebih baik”
Herb Edelstein, Two Crows
7
Langkah – langkah Analitis Data
Mining
•
Menjelaskan data
• Atribut statistik (mean & standar deviasi) • hubungan antar variabel
•
Membangun model prediktif
•
Menguji model
•
Memverifikasi model
9
Data mining & data warehouse
•
Biasanya, data yang akan ‘ditambang’ diambil dari
data warehouse, kemudian masuk ke data mining
database atau data mart
Tugas – Tugas Data Mining
•
Metode – metode prediksi
• Menggunakan beberapa variabel untuk memprediksi nilai – nilai yang tidak diketahui atau masa yang akan datang dari variabel yang lainnya.
•
Metode – metode deskripsi
• Menemukan pola – pola yang dapat diinterpretasikan
oleh manusia dari data
11
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Tugas – Tugas Data Mining
•
Klasifikasi [prediktif]
•Segmentasi/Klastering [deskriptif]
•Asosiasi [deskriptif]
•Peramalan [prediktif]
•Text Mining
12Klasifikasi
•
Jenis keanggotaan apa yang perlu saya tawarkan?
•
Konsumen mana yang akan merespon surat saya?
•
Apakah transaksi ini palsu?
•
Apakah saya kehilangan konsumen ini?
•
Apakah produknya defektif?
•
Kesehatan pasien yang mana yang menurun?
13
Klasifikasi
•
Diberikan sebuah koleksi dari rekaman (
training set
)
• Setiap rekaman terdiri dari sebuah set atribut, salah satu dari atribut adalah class.
•
Menemukan sebuah
model
dari atribut
class
sebagai
sebuah fungsi nilai – nilai dari atribut – atribut yang
lainnya.
•
Tujuan: rekaman – rekaman yang sebelumnya tidak
diketahui akan diberikan sebuah class seakurat mungkin
• Sebuah set tes dipergunakan untuk menentukan akurasi dari model. Biasanya data set yang diberikan akan dibagi menjadi set traning dan set tes, dengan set training dipergunakan untuk membangun model dan set tes dipergunakan untuk
Contoh Klasifikasi
15
Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Refund Marital Status Taxable Income Cheat No Single 75K ? Yes Married 50K ? No Married 150K ? Yes Divorced 90K ? No Single 40K ? No Married 80K ? 10 Test Set Training Set Model Learn Classifier
Klasifikasi: Aplikasi
•Pemasaran Langsung:
• Tujuan: mengurangi biaya surat dengan mentargetkanke kelompok konsumen yang kemungkinan besar akan membeli produk handphone yang baru.
• Pendekatan:
• Menggunakan data dari produk serupa yang diperkenalkan sebelumnya.
• Kita mengetahui konsumen mana yang membeli dan yang tidak. Keputusan [buy, don’t buy] ini membentuk atribut class.
• Mengumpulkan berbagai macam informasi demografi, gaya hidup, dan iteraksi perusahaan tentang konsumen tersebut.
• Tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll • Memakai informasi ini sebagai atribut masukan untuk dipelajari
oleh model pengklasifikasi.
16
Segmentasi/Klastering
•
Mendeskripsikan konsumen saya
•
Bagaimana cara saya bisa membedakan
konsumen?
•
Bagaimana saya dapat mengorganisasi data
saya yang dapat dimengerti?
•
Apakah rekaman ini
outlier
?
17
Definisi Klastering
•
Diberikan sebuat set dari poin data, masing – masing
memiliki sebuah set dari atribut, dan sebuah ukuran
kesamaan diantara mereka, temukan klaster – klaster
yang
• Poin – poin data dari satu klaster lebih sama satu dengan
yang lain.
• Poin – poin data dari klaster yang terpisah kurang sama satu dengan yang lain.
•
Pengukuran kesamaan
• Euclidian Distance bila atribut – atributnya berkelanjutan
(continuous)
Illustrating Klastering
19 ⌧Euclidean Distance Based Clustering in 3-D space.
Jarak intra klaster diminimalkan Jarak intra klaster
diminimalkan
Jarak inter klaster dimaksimalkan Jarak inter klaster
dimaksimalkan
Klastering: Aplikasi
•
Klastering Dokumen:
• Tujuan: untuk menemukan kelompok – kelompok
dokumen yang sama satu dengan yang lain berdasarkan terminologi penting yang muncul di dalamnya.
• Pendekatan: mengidentifkasi frekuensi kemunculan terminologi dari setiap dokumen. Menemukan pengukuran kesamaan berdasarkan frekuensi dari terminlogi yang berbeda. Pergunakan untuk pengklasteran.
• Manfaat: Information Retrieval dapat menggunakan klastering untuk menghubungkan dokumen baru atau terminologi pencarian dari dokumen – dokumen yang telah diklaster.
Ilustrasi Klastering Dokumen
• Poin klastering: 3204 artikel dari Los Angeles Times.
• Pengukuran kesamaan: berapa kata – kata yang serupa di dokumen – dokumen ini (setelah melalui penyaringan kata)
21 Category Total Articles Correctly Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278
Penemuan Aturan Asosiasi
•
Diberikan sebuah set rekaman yang masing –
masing terdiri dari beberapa item dalam
sebuah koleksi.
• Berikan aturan dependensi yang akan memprediksi kemunculan dari sebuah item berdasarkan kemunculan dari item yang lainnya.
TID Items
1 Bread, Coke, Milk 2 Beer, Bread
3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk
Aturan yang ditemukan:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}
Aturan yang ditemukan:
{Milk} --> {Coke}
Penemuan Aturan Asosiasi:
Aplikasi
•
Promosi marketing dan sales:
• Jika aturan yang ditemukan adalah:
{Bagels, … } --> {Potato Chips}
• Potato Chips sebagai consequent=> dapat digunakan untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualan.
• Bagels dalam antecedent=> dapat digunakan untuk melihat produk mana saja yang akan terpengaruh jika toko berhenti menjual bagels.
• Bagels dalam antecedent dan Potato chips dalam consequent
=> dapat digunakan untuk melihat produk mana yang harus dijual bersama dengan bagel untuk mempromosikan penjualan potato chips!
23
Peramalan
•
Berapakah revenue yang diproyeksikan untuk
semua produk?
•
Berapakah tingkat inventory untuk bulan
berikutnya?
Regresi
•
Memprediksi sebuah nilai dari variabel bernilai continuous
berdasarkan nilai – nilai dari variabel yang lain,
diasumsikan dalam model dependensi yang linier atau
non-linier.
•
Dipelajari secara intensif di statistika, jaringan syaraf
tiruan.
•
Contoh:
• Memprediksi nilai penjualan dari produk baru berdasarkan pengeluaran iklan.
• Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembaban, tekanan angin, dll
• Predisi berdasarkan waktu dari indeks – indeks pasar saham.
25
Text Mining
• Analisis dari data yang tidak terstruktur
• Menemukan terminologi – terminologi kunci dalam teks
• Konversi menjadi data terstruktur
• Dimasukkan dalam algoritma • Klasifikasi
• Segmentasi • Asosiasi
• Bagaimana cara menangani data call center?
• Bagaimana cara mengklasifikasi surat?
• Apa yang bisa saya perbuat dengan feedback dari web?
Eksplorasi Data Tingkat Lanjut
•
Analisis deskriptif
•
Mempelajari data lebih lanjut dengan visualisasi
•
Pertanyaan bisnis yang umum:
• Mengapa orang kembali datang?
• Apakah hubungan antara produk – produk?
• Apakah perbedaan antara konsumen yang profit tinggi dan profit rendah?
27
Data untuk Data Mining
•
Pada prinsipnya, di segala macam information
repository, bisa dilakukan data mining.
•
Relational DB
•Data warehouse
•Transactional DB
•Advanced DB system
•Flat files
•WWW
28Data Mining dalam Bisnis
•
Market segmentation
• Mengidentifikasi karakteristik umum customer yang
membeli barang yang sama
•
Customer churn
• Memprediksi customer mana yang kira-kira dapat pindah ke perusahaan kompetitor
•
Fraud detection
• Mengidentifikasi transaksi mana yang kira-kira berpotensi menjadi fraud
29
Data Mining dalam Bisnis
•
Direct marketing
• Mengidentifikasi prospect yang harus dimasukkan dalam mailing list agar tercapai response rate yang lebih tinggi.
•
Interactive marketing
• Memprediksi hal yang paling disukai ketika seseorang
mengunjungi sebuah web site
•
Market basket analysis
• Memahami produk mana yang diakses bersamaan (dlm 1 keranjang); mis. Popok dan bir
Data Mining dalam Bisnis
•
Prediksi otomatis dari tren dan kebiasaan:
• Data mining mengotomasi proses penemuan predictive
information pada large database. • Target marketing
• Memprediksikan kebangkrutan
• Mengidentifikasi segment yang mungkin merespon ke event tertentu
31
Data Mining dalam Bisnis
•
Penemuan otomatis dari pola – pola yang
sebelumnya tidak diketahui
• Data mining tools mencari di database dan
mengidentifikasi pola yang sebelumya tersembunyi.
• Mengidentifikasi produk yang tidak berelasi tapi yang seringkali dibeli bersamaan.
• Popok dan bir
• Mendeteksi fraud dalam transaksi kartu kredit