Knowledge Discovery in Databases (KDD)
Knowledge Discovery in Databases (KDD)
Definisi Knowledge Discovery in Database (KDD)
Tahapan Proses KDD
Data Pre-Pocessing
Data Reduction
Pengantar On-Line Analytical Processing
Data Warehouse
Definisi Knowledge Discovery in
Database (KDD)
Knowledge discovery in databases (KDD) adalah
keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan dapat bermanfaat dan dapat dimengerti.
KDD berhubungan dengan teknik
Tahapan Proses KDD
1. Data Selection
❖Menciptakan himpunan data target, pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan.
Tahapan Proses KDD
2. Pre-processing / Cleaning
❖ Pre-processing dan cleaning data merupakan
operasi dasar yang dilakukan seperti penghapusan noise.
Tahapan Proses KDD
3. Transformation
❖ Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining.
❖Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
Tahapan Proses KDD
4. Data mining
❖ Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD misalnya karakterisasi,
klasifikasi, regresi, clustering, asosiasi, dll.
Tahapan Proses KDD
5. Interpretation/ Evaluation
❖ Yaitu penerjemahan pola-pola yang dihasilkan dari data mining.
❖ Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti
❖ Tahap ini melakukan pemeriksaan apakah pola atau informasi yang
Data Pre-processing
✓ Sampling : menyeleksi subset representatif dari populasi data yang besar.
✓ Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.
✓ Denoising : menghilangkan noise dari data
✓ Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik
✓ F eature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu.
Data Reduction
❖ Data reduction merupakan teknik yang
digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih
berguna. Sebagai contoh groupping,
counting, summing dan averaging data.
❖ Data reduction dilakukan untuk mengatasi
ukuran data yang terlalu besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan biaya
OLAP (On-Line Analytical Processing)
❖ OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis
kompleks dalam rangka mengungkapkan
kecenderungan pasar dan faktor-faktor penting dalam bisnis
OLAP (On-Line Analytical Processing)
❖ OLAP dapat digunakan membuat rangkuman baru dari multidimensi data yang berbeda, dan dapat merespon secara online, dan
Data Warehouse
Definisi Data Warehouse
Data Warehouse adalah pusat informasi yang mampu memberikan database berorientasi subyek untuk
informasi yang bersifat historis yang mendukung DSS (Decision Support System) dan EIS (Executive
Data Warehouse
Tujuan Data Warehouse
Data Warehouse
Kegunaan Data Warehouse
❖ Pembuatan Laporan
Dapat menghasilkan laporan per periode
❖ Menganalisis data (OLAP)
Melakukan analisis bisnis untuk menyelidiki kecenderungan pasar dan faktor penyebabnya
❖ Data Mining
Mencari pola dan hubungan data untuk mengambil keputusan
❖ Proses Informasi Eksekutif
Data Warehouse
Ciri-ciri Data Warehouse
1. Subject Oriented
✓ Data disusun dan dikelompokkan berdasarkan
subyek yang berisi hanya informasi yang penting bagi pemrosesan decision support.
✓ Subyek dirangkum ke dalam dimensi, misalnya :
Data Warehouse
Ciri-ciri Data Warehouse (Lanjutan) 2. Integrated
Jika data terletak pada berbagai aplikasi yang terpisah,encoding data sering tidak seragam
Data Warehouse
Ciri-ciri Data Warehouse (Lanjutan) 3. Time-variant
Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih
4. Non volatile
Data Warehouse
Arsitektur Data Warehouse
Operational data source 2
Operational data source (ODS) Operational data source n
Meta data
Detailed data
Lightly summarized data
Highly summarized data Warehouse Manager
and EIS tools
OLAP Tools
Data Mining Tools End-user access tools DBMS
Data Mart
Definisi Data Mart
❖ Data Mart adalah subset dari data warehouse yang
mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu.
Arsitektur Data Mart
Operational data source 2
Operational data source (ODS) Operational data source n
Meta data
Detailed data
Lightly summarized data
Highly summarized data Warehouse Manager
and EIS tools
OLAP Tools
Data Mining Tools End-user access tools DBMS
Operational data source 1
Data Mart
Summarized Data (Relational Database)
Summarized Data (Multi Dimansional Database)
Reporting, query, application development
and EIS tools
OLAP Tools
Data Warehouse / Data Mart VS OLAP
❖ OLAP adalah teknologi yang memproses data di
Data Warehouse / Data Mart VS OLTP
Data Warehouse / Data Mart OLTP
Menyimpan data historis Menyimpan data saat ini
Menyimpan detailed, lightly, highly, summary data
Menyimpan detailed data
Data bersifat statis Data bersifat dinamis
Mengarah pada analisis Mengarah pada transaksi
Berorientasi pada subjek Berorientasi pada aplikasi
Mendukung keputusan strategi Mendukung keputusan sehari-hari
Pemakai manajerial dalam tingkat yang relatif rendah
OLTP VS OLAP
OLTP OLAP
Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis
Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan
Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki
Navigasi Didasarkan pada langkah kerja transaksi
Didasarkan pada cara user menganalisis
Penghitungan Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi saling silang, Perumusan, Prosedural
Implementasi Lambat dalam penyebaran, dan mudah untuk diubah datanya
Cepat dalam penyebaran, adan susah untuk diubah datanya