• Hampir setiap perusahaan memiliki aplikasi
yang mencatat kegiatan transaksi harian ke
dalam database. Setelah beberapa waktu
berjalan, terkumpul ratusan ribu bahkan jutaan
data transaksi di dalam database.
• Data transaksi tersebut merupakan history
pasang surut perusahaan yang perlu diolah
menjadi sebuah informasi yang membantu
pihak
manajemen
mengambil
keputusan
strategis secara lebih akurat.
• Bagaimana informasi tersebut bisa didapatkan
dari hasil analisa data?
• Kuncinya adalah penarikan pola data dengan
mempelajari sampel data yang diberikan untuk
menjawab
kebutuhan
informasi
strategis
perusahaan.
• Merupakan istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database.
• Penggunaan teknik-teknik analisa data, matematika, kecerdasan tiruan dan machine learning untuk mengekstrak informasi yang berkaitan dan pengetahuan terkait dari berbagai database besar.
• Merupakan proses dari pola2 rancang bangun aturan, korelasi atau tren atau model prediksi
• Berasal dari database yang sangat besar, merupakan data beberapa tahun
• Berada dilingkungan arsitektur sistem client/server atau arsitektur berbasis web
• Perlu piranti visualisasi data yang canggih • Kadang-kadang perlu paralel processing
• Pengguna biasanya merupakan pengguna akhir yang tidak mempunyai skill programming
Penemuan Pengetahuan
DatabaseDatabase DatabaseDatabase
DatabaseDatabase DatabaseDatabase
DatabaseDatabase
DATA MINING
Datawarehouse/Datamarts
DATA MINING STRATEGI
• Data mining bekerja untuk menemukan pola-pola tertentu dalam data.
• Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak dapat divisualisasikan oleh laporan-laporan dan query.
• Tiga motode yang digunakan untuk mengidentifikasi pola-pola data (Nemati dan Barko 2001)
Model Sederhana (Query berbasis SQL, OLAP, Pertimbangan Manusia)
Model Sedang (Regresi, pohon keputusan, clustering
Model Kompleks(jaringan saraf, induksi aturan lain)
• Setelah mengetahui faedah data mining, kita perlu mengenali bentuk tugas dasar data mining dalam melakukan pengolahan data menjadi informasi. Pada hakekatnya, tugas dasar yang bisa dilakukan oleh data mining yaitu :
1. Klasifikasi 2. Regresi
3. Segmentasi 4. Asosiasi
5. Analisa urutan
• Bentuk tugas dasar ini adalah dengan menentukan pengelompokan informasi akhir yang hendak didapatkan. Misalnya klasifikasi customer yang berpotensi memiliki kredit macet dan kredit lancar.
• Biasanya di dalam sumber data terdapat atribut yang menjadi tujuan klasifikasi. Atribut tujuan biasanya merupakan kolom dari sebuah tabel atau dimensi di dalam Analysis Service. Kemudian klasifikasi membutuhkan juga atribut-atribut lain yang memiliki pengaruh signifikan terhadap atribut tujuan.
• Saya sebut atribut demikian sebagai atribut pendukung. Dalam contoh kredit macet/lancar, atribut-atribut pendukung (yang tentu saja terdapat di dalam database) adalah tanggal pelunasan setiap periode, tanggal jatuh tempo tiap periode, lama kredit yang diberikan, besar kredit yang diberikan, besar bunga kredit, besar aset yang diagunkan dan indikator-indikator lainnya.
• Dengan data-data yang tersedia, data mining dapat memberikan petunjuk kepada pengguna data mining apakah sebaiknya mencucurkan kredit kepada seorang customer.
• Kelihatannya sederhana, namun dengan jumlah data yang besar dan jumlah atribut pendukung yang banyak, klasifikasi secara manual menjadi tidak mudah dibandingkan pengolahan secara efisien dan akurat oleh data mining SQL Server.
• Jenis tugas dasar ini hampir sama dengan jenis tugas dasar klasifikasi. Perbedaan antara keduanya adalah regresi memberikan hasil yang tidak terbatas sedangkan klasifikasi memberikan hasil yang diskrit (terbatas kemungkinan yang ada – ingat contoh customer berpotensi kredit macet atau kredit lancar? Berarti ada 2 jenis kemungkinan dari hasil probabilitas).
• Contoh dari regresi adalah kebutuhan perusahaan untuk melakukan estimasi nilai sales pada tahun depan berdasarkan analisa trend sales tahun-tahun sebelumnya.
• Katakanlah nilai tahun lalu sebesar 100 juta rupiah, tahun ini sebesar 120 juta rupiah, mungkin hasilnya bisa naik atau bisa turun. Kemungkinan hasil probablitas tidak terbatas hanya 100 juta ataupun 200 juta rupiah.
• Segmentasi adalah bentuk tugas dasar data mining yang memilah data-data ke dalam beberapa kelompok. Masing-masing kelompok memiliki karakteristik atribut yang sama.
• Contoh segmentasi adalah analisa pendekatan calon klien oleh sebuah perusahaan jasa untuk aktivitas sales dan marketing.
• Calon klien adalah dipilah berdasarkan 3 kelompok klien yaitu klien kecil dengan jumlah karyawan kurang dari 100 orang, klien menengah dengan jumlah karyawan 101 sampai dengan 500 dan klien berskala besar dengan jumlah karyawan di atas 500.
• Masing-masing kelompok memiliki rentang penghasilan perusahaan yang serupa, cakupan kebutuhan yang serupa, dan lain sebagainya.
• SQL Server 2008 akan membantu memilihkan atribut yang menjadi segmentasi setelah menganalisa data yang ada.
• Asosiasi adalah bentuk tugas dasar yang mencari keterkaitan antara satu item dengan item lainnya pada atribut yang sama, sehingga asosiasi dapat juga disebut keterkaitan.
• Item-item yang terkait satu sama lain dapat dipandang sebagai satu kesatuan unit.
• Contoh asosiasi adalah apabila seorang customer membeli buku SQL Server Analysis Service 2008 kemungkinan besar dia juga akan memerlukan buku SQL Server Reporting Services 2008 sehingga dengan mengetahui keterkaitan antara keduanya; seorang sales dapat menawarkan buku Reporting Services tersebut kepada customer.
• Keterkaitan tidak selalu melibatkan 2 item, sangat mungkin keterkaitan melibatkan lebih dari 2 item, sebagai contoh bila item A dan item B merupakan satu kesatuan unit, probabilitas yang besar terjadi bila item C juga masuk ke dalam kesatuan unit tersebut karena item A, B dan C memiliki keterkaitan satu dengan lainnya.
• Sequence analysis akan menampilkan pola persinggahan data dari satu node ke node lainnya. Contoh yang paling menggambarkan teknik sequence analysis adalah pola navigasi user pada sebuah website dimana setelah user mengakses web page A, lebih besar probabilitas user akan mengunjungi web page B ketimbang web page C.
• Agar data mining dapat memprediksi pola akses berbasis sequence analysis, diperlukan data-data lampau untuk dipelajari pola akses untuk sequence analysis.
Kelasifikasi: definisi
-
Diberikan kumpulan rekod (training set)
setiap rekod mengandung sekumpulan atribut, salah
satu atribut adalah kelas
-
Temukan model untuk kelas atribut sebagai fungsi
dari atribut lainnya
-
Goal : rekod yang tak terlihat sebelumnya harus
menentukan suatu kelas seakurat mungkin untuk
- himpunan uji dipakai untuk menentukan
keakuratan model. Biasanya set data yang diketahui
dibagi menjadi training set dan test set, dengan
Kelasifikasi : Aplikasi
-Pemasaran langsung
- Goal : mengurangi biaya pengiriman dengan mentargetkan himpunan pelanggan yang mungkin membei produk HP
- Pendekatan
- gunakan data untuk produk sama yang dikeluarkan sebelumnya
- dapat diperoleh pelanggan mana memutuskan untuk membeli dan mana yang tidak. Keputusan
{beli, tak beli} ini membentuk kelas atribut
- kumpulkan berbagai informasi terkait demografi, cara hidup dan interaksi perusahaan tentang semua pelanggan demikian
- tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll
Pengelompokan : definisi
• Diberikan set data, setiaonya memiliki set atribut, dan
ukuran sama diantaranya, tentukan kelumpok (cluster) sedemikian hingga
- Titik data dalam satu kelompok mirip satu dengan yang lain
- Titik data dalam kelompok terpisah kurang mirip satu dengan yang lain
Ukuran kemiripan
- Jarak Euclid jika atribut kontinu
Pengelompokan : Aplikasi
• Segmentasi pasar.
- Goal: partisi pasar menjadi subset pelanggan berbeda di mana setiap subset dapat terpilih sebagai target pasar yang dicapai dengan mix marketing berbeda.
- Pendekatan :
• Kumpulkan atribut berbeda pelanggan yang didasarkan pada informasi geografis dan pola hidup • Tentukan kelompok dari pelanggan yang sama
Penemuan Aturan Asosiasi
• Diberikan set rekod yang
setiapnya mengandung beberapa item dari suatu kumpulan yang diketahui
3 Beer, Coke, Diaper, Susu
4 Beer, Roti, Diaper, Susu
5 Coke, Diaper, Susu
Penemuan aturan asosiasi : Aplikasi
• Pemasaran dan Promosi penjualan
- Andaikan aturan yang ditemukan {Kacang,…} {Chip Kentang}
- Chip Kentang sebagai konsekuen dapat dipakai untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualannya
- Kacang sebagai anteseden dapat dipakai untuk melihat produk mana terpengaruh jika toko
menghentikan penjualan kacang
Penemuan aturan asosiasi: aplikasi
• Supermarket shelf management
- Goal : Mengidentifikasi item yang dibeli bersama-sama oleh cukup banyak pelanggan
- Pendekatan : Proses data penjualan yang dikumpulkan dengan barcode scanner untuk menemukan
ketergantungan antara item - Aturan klasik
• Jika seorang pelanggan membeli diaper dan susu, maka ia sangat mungkin beli beer.
Penemuan pola sekuensial: definisi
• Diberikan set objek, dengan setiap objek dikaitkan
dengan jalur kejadiannya, tentukan atyran yang
memprediksi ketergantungan sikuensial kuat antara kejadian berbeda.
Penemuan pola sikuensial: aplikasi
• Dalam sikeun transaksi penjualan
- Toko buku Komputer
(Intro_to-Visual_C) (C++_Primer)
(Perl_for_dummies,Object_Oriented)
- Toko Sport
Regresi
• Memprediksi suatu nilai variabel bernilai kontinu yang
diketahui berdasarkan pada nilai variabel lainnya,
dengan mengandaikan model ketergantungan linier atau tak linier.
• Dipelajari di Statistika, Jaringan syaraf. • Contoh :
- Memprediksi jumlah penjualan produk baru yang didasarkan pada biaya pemasaran
- Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembapan, tekanan udara,dll