DATA MINING
Many books have relevant chapters for the unit:
◦ Berry J.A. & Linof G.; Data Mining Techniques: For Marketing, Sales, and Customer Support ; John Wiley & Sons, Inc.; 1997
◦ Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A.; Discovering Data Mining: From Concept to
Implementation; Prentice Hall PTR, 1998
◦ Fayyad U., Piatetsky-Shapiro G., Smyth P., and Uhurusamy R. (eds); Advances in Knowledge Discovery and Data Mining; AAAI Press, 1996
◦ Kennedy R.L., Lee Y., Van Roy B., Reed C.D., Lippman R.P.; Solving Data Mining Problems Through Pattern Recognition; Prentice Hall PTR, 1997
◦ Witten I. H. and Frank, E.; Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations; Morgan Kaufmann, 1999
Many Defnitions
◦ “Data mining is an interdisciplinary feld bringing togther
techniques from machine learning, pattern recognition,
statistics, databases, and visualization to address the issue of information extraction from large data bases”
Evangelos Simoudis in Cabena et al.
◦ “Data mining is the extraction of implicit, previously
unknown, and potentially useful information from data” Witten & Frank
◦ “Data mining… is the exploration and analysis, by
automatic or semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules”
Berry & Linof
◦ “Data mining is a term usually applied to techniques that
can be used to fnd underlying structure and relationships in large amounts of data”
Kennedy et al.
Use of analytical tools to discover knowledge in a
collection of data
◦ The knowledge takes the form of patterns, relationships and facts which would not otherwise be immediately
apparent
These analytical tools may be drawn from a
number of disciplines, which include:
◦ machine learning
◦ pattern recognition
◦ statistics
◦ artifcial intelligence
◦ human-computer interaction
◦ information visualization
Ekstraksi atau "menambang" pengetahuan dari
data dalam jumlah yang besar.(Jia Weihan, p. 5.)
◦ Data Mining: Concepts and Techniques,
Jiawei Han dan Micheline Kamber, Academic Press, USA, 2001.
Proses pencarian terhadap pengetahuan -- yang
sebelumnya tidak diketahui; valid; dan dapat digunakan -- dari database yang besar dan
kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. (Cabena, p. 12.)
◦ Discovering Data Mining: From Concept to Implementation,
Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, dan Alesandro Zanasi, Prentice Hall, New Jersey, USA, 1998.
Data mining adalah proses yang memperkerjakan satu atau
lebih teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan
(knowledge) secara otomatis.
Data mining merupakan proses iteratif dan interaktif untuk
menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti dalam suatu database yang sangat besar (massive databases).
Data mining merupakan serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data
Data mining menggunakan berbagai perangkat lunak analisis
data untuk menemukan pola dan relasi data agar dapat
Mengapa Melakukan Data
Mining ?
Sudut Pandang Komersial :
• Meledaknya volume data yang dihimpun dan disimpan dalam data warehouse
• Proses komputasi yang dapat diupayakan
• Kuatnya tekanan kompetitif
~ Dapat menyediakan yang lebih baik, layanan-layanan kastemisasi ~ Informasi menjadi produk yang berarti
Sudut Pandang Keilmuan :
• Kecepatan data yang dihimpun dan disimpan (Gbyte/hour)
~ Remote sensor yang ditempatkan pada suatu satelit ~ Telescope yang digunakan untuk men-scan langit
~ Simulasi saintifk yang membangkitkan data dalam ukuran terabytes
• Teknik-teknik tradisional tidak fsibel utnuk mengolah data mentah
• Data mining untuk reduksi data ;
~ Catalogging, klassifkasi, segmentasi data
“We are drowning in
information, but starving
for knowledge”
(John Naisbitt)
Why Is Data Mining
Hot?
Data mining (knowledge discovery in databases)
◦ Extraction of interesting knowledge or patterns
from data in large databases or other information repositories
Necessity is the mother of invention
◦ Data is everywhere—data mining should be
everywhere, too!
Data Is Everywhere!
Relational database—A commodity of every enterprise POS (Point of Sales): Transactional DBs in terabytes
Object-relational databases, distributed,
heterogeneous, and legacy databases
Spatial databases (GIS), remote sensing database
(EOS), and scientifc/engineering databases
Time-series data (e.g., stock trading) and temporal
data
Text (documents, emails) and multimedia databases WWW: A huge, hyper-linked, dynamic, global
Data Mining Is Everywhere, too!
—
A
Multi-Dimensional View of Data Mining
Databases to be mined
◦ Relational, transactional, object-relational, active, spatial,
time-series, text, multi-media, heterogeneous, legacy, WWW, etc.
Knowledge to be mined
◦ Characterization, discrimination, association, classifcation,
clustering, trend, deviation and outlier analysis, etc.
Techniques utilized
◦ Database-oriented, data warehouse (OLAP), machine
learning, statistics, visualization, neural network, etc.
Applications adapted
Data Mining: Confuence of Multiple
Disciplines
Data Mining
Database
Technology Statistics
Other Disciplines Information
Science Machine
Learning & AI Visualization
Ilmu Berkaitan Data Mining
Bidang ilmu yang berkaitan :
Database
Information science (ilmu informasi) High performance computing
Visualisasi
Machine learning Statistik
Neural networks (jaringan saraf tiruan) Pemodelan matematika
Information retrieval
Analisa Pasar dan ManajemenBeberapa solusi dapat diselesaikan dengan data mining :
◦ Menebak target pasar
◦ Melihat pola beli pemakai dari waktu ke waktu
◦ Cross Market Analysis
◦ Profl Customer
◦ Identifkasi Kebutuhan Customer
◦ Menilai loyalitas customer
◦ Informasi summary
Analisa Perusahaan dan Manajemen ResikoBeberapa solusi dapat diselesaikan dengan data mining :
– Merencanakan Keuangan dan Evaluasi Aset
– Merencanakan Sumber Daya (Resource Planning) – Memoniotr Persaingan (Competition)
Telekomunikasi
Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis
Keuangan
Data mining digunakan untuk mendeteksi transaksi-transaksi keuangan yang
mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar.
Asuransi
Australian Health Insurance Commision menggunakan data mining untuk
Olah raga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks
Astronomi
Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining.
Internet Web Surf-Aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan
Terdapat tiga kebutuhan bisnis :
Penambahan maupun peningkatan
kapasitas produk
Pengurangan biaya operasi
perusahaan
Peningkatan efektiftas pemasaran
dan keuntungan
Permasalahan bisnis yang umum dihadapi :
1. Bagaimana menyajikan advertensi kepada target yang tepat sasaran
2. Menyajikan halaman web yg khusus setiap pelanggan
3. Menampilkan informasi produk lain yang biasa dibeli bersamaan dengan produk tertentu.
4. Mengklasifkasikan artikel-artikel secara otomatis
5. Mengelompokkan pengunjung web yang memiliki kesamaan karateristik tertentu
6. Mengestimasi data yang hilang
7. Memprediksi kelakuan di masa yang akan datang
Konsep dasar yang perlu dipikirkan pelaku bisnis sebagai solusi permasalahan, yaitu :
1. Perumusan Target
Memilih target pemasaran untuk disuguhi advertensi tertentu bertujuan untuk meningkatkan proft perusahaan, pengenalan produk secara luas atau hasil-hasil terukur lainnya.
2. Personalisasi
Memanfaatkan personalisasi untuk memilih advertensi yang paling sesuai untuk orang tertentu dan personalisasi ini bertujuan agar pengunjung yang sudah menjadi pelanggan membeli sebanyak mungkin produk perusahaan.
3. Asosiasi (analisis keranjang pasar)
Asosiasi ini mengidentifkasi item-item produk yang mungkin dibeli bersamaan dengan produk lain atau dilihat secara bersamaan pada saat mencari informasi mengenai produk tertentu.
5. Manajemen Pengetahuan
Sistem ini mengidentifkasi dan memanfaatkan pola-pola di dalam dokumen yang berbahasa alami atau berformat text. Pendekatan ini digunakan untuk menyortir dokumen baru dan mempersonalisasi publikasi online
6. Pengelompokkan
Pengelompokkan digunakan untuk membuat laporan
mengenai karateristik umum dari grup-grup pengunjung (kustomer) yang berbeda.
7. Estimasi dan Prediksi
Estimasi menerka sebuah nilai yang belum diketahui dan prediksi memperkirakan nilai untuk masa datang.
8. Pohon Keputusan
Kebutuhan akan data mining dikarenakan :
1. Ketersediaan data yang melimpah, kebutuhan akan
informasi (atau pengetahuan) sebagai pendukung
pengambilan keputusan untuk membuat solusi bisnis dan dukungan infrastruktur di bidang teknologi informasi
2. Ketersediaan data transaksi dalam volume yang besar
3. Informasi sebagai aset perusahaan yang penting sehingga
melahirkan gudang data yang mengintegrasikan informasi dari sistem yang tersebar untuk mendukung pengambilan keputusan
4. Ketersediaan teknologi informasi dalam skala yang
terjangkau dan sudah dapat diadopsi secara luas.
Karateristik-karateristik penting dari tool data mining meliputi :
◦ Data preparation facilities
◦ Selection of data mining operation (algorithms)
◦ Product scalability and performance
◦ Facilities for visualization of result
Data mining tool, meliputi :
◦ Integral Solution Ltd’s Clementine
◦ DataMind Corp’s Data Crusher
◦ IBM’s Intelligent Miner
◦ Silicon Graphics Inc.’s MineSet
◦ Informations Discovery Inc.’s Data Mining Suite
◦ SAS Institute Inc.’s SAS System and Right Information System’Thought.
Th 1960
◦ Pengumpulan data, pembuatan data, IMS dan network DBMS
Th 1970
◦ Model data relasional, Implementasi DBMS relasional
Th 1980
◦ RDBMS, Model data lanjutan (extended-relational, OO, deductive)
Th 1990
◦ Data mining, data warehouse, database multimedia, dan Web database.
Th 2000
◦ Stream data managemen dan mining
◦ Data mining dengan berbagai variasi aplikasi
◦ Teknologi web dan sistem informasi global
Recent Progress of R & D in Data Mining
Multi-dimensional data analysis: Data warehouse
and OLAP (on-line analytical processing)
Association, correlation, and causality analysis Sequential patterns and time-series analysis
Classifcation: scalability, associative classifcation,
etc.
Clustering and outlier analysis
Similarity analysis: curves, trends, images, texts,
etc.
Text mining, Web mining and Weblog analysis Spatial, multimedia, scientifc data mining
Association and Frequent Pattern Analysis
Efcient methods for mining frequent patterns and
association rules
◦ Apriori and its various extensions
◦ FP-growth algorithm: partition database
according to the patterns to be search for
◦ Multi-level, multi-dimensional, quantitative
association mining
From association to correlation, sequential
patterns, partial periodicity, cyclic rules, ratio rules, etc.
Sequential Patterns and
Time-Series Analysis
Trend analysis
◦ Trend movement vs. cyclic variations, seasonal
variations and random fuctuations
Similarity search in time-series database
◦ Handling gaps, scaling, etc.
◦ Indexing methods and query languages for
time-series
Sequential pattern mining
◦ Various kinds of sequences, various methods ◦ From GSP to PrefxSpan
Periodicity analysis
Classifcation: Scalable Methods and
Handling of Complex Types of Data
Classifcation has been an essential theme in
machine learning, and statistics research
◦ Decision trees, Bayesian classifcation, neural
networks, k-nearest neighbors, etc.
◦ Tree-pruning, boosting & bagging techniques
Efcient and scalable classifcation methods
◦ Exploration of attribute-class pairs, e.g., SLIQ,
SPRINT, RainForest, BOAT, etc.
◦ Association-based classifcation
Classifcation of semi-structured and
non-structured data
Clustering and Outlier Analysis
Partitioning methods
◦ k-means, k-medoids, CLARANS
Hierarchical methods: micro-clusters
◦ Birch, Cure, Chameleon
Density-based methods
◦ DBSCAN and OPTICS, DENCLU
Grid-based methods
◦ STING, CLIQUE, WaveCluster
Outlier analysis
◦ statistics-based, distance-based,
deviation-based
Constraint-based clustering
Constraint-Based Clustering—Considering Obstacles at Planning ATM Locations
Mountain River
Bridge
Spatial data with obstacles
C1
C2 C3
C4
Similarity Analysis: Curves,
Trends, Images, and Texts
Various kinds of data, various similarity mining
methods
Discovery of similar trends in time-series data
◦ Data transformation methods
◦ Multi-dimensional data/indexing structures
Finding similar images based on color, texture, etc.
◦ Content-based vs. keyword-based retrieval ◦ Color histogram-based signature
◦ Multi-feature composed signature
Finding documents with similar texts
Spatial, Multimedia,
Scientifc Data Analysis
Multi-dimensional analysis of spatial, multimedia
and scientifc data
◦ Geo-spatial data cube and spatial OLAP ◦ The curse of dimensionality problem
Association analysis
◦ A progressive refnement methodology
◦ Micro-clustering can be used for preprocessing in
the analysis of complex types of data
Classifcation
◦ Association-based for handling
Web Mining: A Fast Expanding
Frontier in Data Mining
Mine what Web search engine fnds
Automatic classifcation of Web documents
Discovery of authoritative Web pages, Web
structures and Web communities
Meta-Web Warehousing: Web yellow page
service
Data Mining and Case Knowledge
Visualization of data mining results in SAS
Data Mining and Case Knowledge
Data Mining and Case Knowledge