DATA MINING-2 TIF.pptx

(1)

DATA MINING

(2)

 Many books have relevant chapters for the unit:

◦ Berry J.A. & Linof G.; Data Mining Techniques: For Marketing, Sales, and Customer Support ; John Wiley & Sons, Inc.; 1997

◦ Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A.; Discovering Data Mining: From Concept to

Implementation; Prentice Hall PTR, 1998

◦ Fayyad U., Piatetsky-Shapiro G., Smyth P., and Uhurusamy R. (eds); Advances in Knowledge Discovery and Data Mining; AAAI Press, 1996

◦ Kennedy R.L., Lee Y., Van Roy B., Reed C.D., Lippman R.P.; Solving Data Mining Problems Through Pattern Recognition; Prentice Hall PTR, 1997

◦ Witten I. H. and Frank, E.; Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations; Morgan Kaufmann, 1999

(3)

 Many Defnitions

◦ _{“Data mining is an interdisciplinary feld bringing togther}

techniques from machine learning, pattern recognition,

statistics, databases, and visualization to address the issue of information extraction from large data bases”

Evangelos Simoudis in Cabena et al.

◦ “Data mining is the extraction of implicit, previously

unknown, and potentially useful information from data” Witten & Frank

◦ “Data mining… is the exploration and analysis, by

automatic or semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules”

Berry & Linof

◦ “Data mining is a term usually applied to techniques that

can be used to fnd underlying structure and relationships in large amounts of data”

Kennedy et al.

(4)

 Use of analytical tools to discover knowledge in a

collection of data

◦ The knowledge takes the form of patterns, relationships and facts which would not otherwise be immediately

apparent

 These analytical tools may be drawn from a

number of disciplines, which include:

◦ machine learning

◦ pattern recognition

◦ statistics

◦ artifcial intelligence

◦ human-computer interaction

◦ information visualization

(5)

 Ekstraksi atau "menambang" pengetahuan dari

data dalam jumlah yang besar.(Jia Weihan, p. 5.)

◦ Data Mining: Concepts and Techniques,

Jiawei Han dan Micheline Kamber, Academic Press, USA, 2001.

 Proses pencarian terhadap pengetahuan -- yang

sebelumnya tidak diketahui; valid; dan dapat digunakan -- dari database yang besar dan

kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. (Cabena, p. 12.)

◦ Discovering Data Mining: From Concept to Implementation,

Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, dan Alesandro Zanasi, Prentice Hall, New Jersey, USA, 1998.

(6)

Data mining adalah proses yang memperkerjakan satu atau

lebih teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan

(knowledge) secara otomatis.

Data mining merupakan proses iteratif dan interaktif untuk

menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti dalam suatu database yang sangat besar (massive databases).

Data mining merupakan serangkaian proses untuk menggali nilai

tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data

Data mining menggunakan berbagai perangkat lunak analisis

data untuk menemukan pola dan relasi data agar dapat

(7)

Mengapa Melakukan Data

Mining ?

 Sudut Pandang Komersial :

• Meledaknya volume data yang dihimpun dan disimpan dalam data warehouse

• Proses komputasi yang dapat diupayakan

• Kuatnya tekanan kompetitif

~ _{Dapat menyediakan yang lebih baik, layanan-layanan kastemisasi} ~ _{Informasi menjadi produk yang berarti}

 Sudut Pandang Keilmuan :

• Kecepatan data yang dihimpun dan disimpan (Gbyte/hour)

~ _{Remote sensor yang ditempatkan pada suatu satelit} ~ _{Telescope yang digunakan untuk men-scan langit}

~ _{Simulasi saintifk yang membangkitkan data dalam ukuran terabytes}

• Teknik-teknik tradisional tidak fsibel utnuk mengolah data mentah

• Data mining untuk reduksi data ;

~ _{Catalogging, klassifkasi, segmentasi data}

(8)

“We are drowning in

information, but starving

for knowledge”

(John Naisbitt)

(9)

Why Is Data Mining

Hot?

 _{Data mining}₍_{knowledge discovery in databases}₎

◦ _{Extraction of}_{interesting knowledge or patterns}

from data in large databases or other information repositories

 _{Necessity is the mother of invention}

◦ _{Data is everywhere—data mining should be}

everywhere, too!

(10)

Data Is Everywhere!

 Relational database—A commodity of every enterprise  POS (Point of Sales): Transactional DBs in terabytes

 Object-relational databases, distributed,

heterogeneous, and legacy databases

 Spatial databases (GIS), remote sensing database

(EOS), and scientifc/engineering databases

 Time-series data (e.g., stock trading) and temporal

data

 Text (documents, emails) and multimedia databases  WWW: A huge, hyper-linked, dynamic, global

(11)

Data Mining Is Everywhere, too!

—

A

Multi-Dimensional View of Data Mining

 _{Databases to be mined}

◦ _{Relational, transactional, object-relational, active, spatial,}

time-series, text, multi-media, heterogeneous, legacy, WWW, etc.

 _{Knowledge to be mined}

◦ _{Characterization, discrimination, association, classifcation,}

clustering, trend, deviation and outlier analysis, etc.

 _{Techniques utilized}

◦ _{Database-oriented, data warehouse (OLAP), machine}

learning, statistics, visualization, neural network, etc.

 _{Applications adapted}

(12)

Data Mining: Confuence of Multiple

Disciplines

Data Mining

Database

Technology Statistics

Other Disciplines Information

Science Machine

Learning & AI Visualization

(13)

Ilmu Berkaitan Data Mining

Bidang ilmu yang berkaitan :

 Database

 Information science (ilmu informasi)  High performance computing

 Visualisasi

 Machine learning  Statistik

 Neural networks (jaringan saraf tiruan)  Pemodelan matematika

 Information retrieval

(14)



_{Analisa Pasar dan Manajemen}

Beberapa solusi dapat diselesaikan dengan data mining :

◦ Menebak target pasar

◦ Melihat pola beli pemakai dari waktu ke waktu

◦ Cross Market Analysis

◦ Profl Customer

◦ Identifkasi Kebutuhan Customer

◦ Menilai loyalitas customer

◦ Informasi summary



Analisa Perusahaan dan Manajemen Resiko

Beberapa solusi dapat diselesaikan dengan data mining :

– _{Merencanakan Keuangan dan Evaluasi Aset}

– _{Merencanakan Sumber Daya (Resource Planning)} – _{Memoniotr Persaingan (Competition)}

(15)

 Telekomunikasi

Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis

 Keuangan

Data mining digunakan untuk mendeteksi transaksi-transaksi keuangan yang

mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar.

 Asuransi

Australian Health Insurance Commision menggunakan data mining untuk

(16)

 Olah raga

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks

_Astronomi

Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining.

 Internet Web Surf-Aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan

(17)

Terdapat tiga kebutuhan bisnis :



Penambahan maupun peningkatan

kapasitas produk



Pengurangan biaya operasi

perusahaan



Peningkatan efektiftas pemasaran

dan keuntungan

(18)

Permasalahan bisnis yang umum dihadapi :

1. Bagaimana menyajikan advertensi kepada target yang tepat sasaran

2. Menyajikan halaman web yg khusus setiap pelanggan

3. Menampilkan informasi produk lain yang biasa dibeli bersamaan dengan produk tertentu.

4. Mengklasifkasikan artikel-artikel secara otomatis

5. Mengelompokkan pengunjung web yang memiliki kesamaan karateristik tertentu

6. Mengestimasi data yang hilang

7. Memprediksi kelakuan di masa yang akan datang

(19)

Konsep dasar yang perlu dipikirkan pelaku bisnis sebagai solusi permasalahan, yaitu :

1. Perumusan Target

Memilih target pemasaran untuk disuguhi advertensi tertentu bertujuan untuk meningkatkan proft perusahaan, pengenalan produk secara luas atau hasil-hasil terukur lainnya.

2. Personalisasi

Memanfaatkan personalisasi untuk memilih advertensi yang paling sesuai untuk orang tertentu dan personalisasi ini bertujuan agar pengunjung yang sudah menjadi pelanggan membeli sebanyak mungkin produk perusahaan.

3. Asosiasi (analisis keranjang pasar)

Asosiasi ini mengidentifkasi item-item produk yang mungkin dibeli bersamaan dengan produk lain atau dilihat secara bersamaan pada saat mencari informasi mengenai produk tertentu.

(20)

5. Manajemen Pengetahuan

Sistem ini mengidentifkasi dan memanfaatkan pola-pola di dalam dokumen yang berbahasa alami atau berformat text. Pendekatan ini digunakan untuk menyortir dokumen baru dan mempersonalisasi publikasi online

6. Pengelompokkan

Pengelompokkan digunakan untuk membuat laporan

mengenai karateristik umum dari grup-grup pengunjung (kustomer) yang berbeda.

7. Estimasi dan Prediksi

Estimasi menerka sebuah nilai yang belum diketahui dan prediksi memperkirakan nilai untuk masa datang.

8. Pohon Keputusan

(21)

Kebutuhan akan data mining dikarenakan :

1. Ketersediaan data yang melimpah, kebutuhan akan

informasi (atau pengetahuan) sebagai pendukung

pengambilan keputusan untuk membuat solusi bisnis dan dukungan infrastruktur di bidang teknologi informasi

2. Ketersediaan data transaksi dalam volume yang besar

3. Informasi sebagai aset perusahaan yang penting sehingga

melahirkan gudang data yang mengintegrasikan informasi dari sistem yang tersebar untuk mendukung pengambilan keputusan

4. Ketersediaan teknologi informasi dalam skala yang

terjangkau dan sudah dapat diadopsi secara luas.

(22)

 Karateristik-karateristik penting dari tool data mining meliputi :

◦ Data preparation facilities

◦ Selection of data mining operation (algorithms)

◦ Product scalability and performance

◦ Facilities for visualization of result

 Data mining tool, meliputi :

◦ Integral Solution Ltd’s Clementine

◦ DataMind Corp’s Data Crusher

◦ IBM’s Intelligent Miner

◦ Silicon Graphics Inc.’s MineSet

◦ Informations Discovery Inc.’s Data Mining Suite

◦ SAS Institute Inc.’s SAS System and Right Information System’Thought.

(23)

 Th 1960

◦ Pengumpulan data, pembuatan data, IMS dan network DBMS

 Th 1970

◦ Model data relasional, Implementasi DBMS relasional

 Th 1980

◦ RDBMS, Model data lanjutan (extended-relational, OO, deductive)

 Th 1990

◦ Data mining, data warehouse, database multimedia, dan Web database.

 Th 2000

◦ Stream data managemen dan mining

◦ Data mining dengan berbagai variasi aplikasi

◦ Teknologi web dan sistem informasi global

(24)

Recent Progress of R & D in Data Mining

 Multi-dimensional data analysis: Data warehouse

and OLAP (on-line analytical processing)

 Association, correlation, and causality analysis  _{Sequential patterns and time-series analysis}

 _{Classifcation: scalability, associative classifcation,}

etc.

 Clustering and outlier analysis

 Similarity analysis: curves, trends, images, texts,

etc.

 _{Text mining, Web mining and Weblog analysis}  Spatial, multimedia, scientifc data mining

(25)

Association and Frequent Pattern Analysis

 _{Efcient methods for mining frequent patterns and}

association rules

◦ _{Apriori and its various extensions}

◦ _{FP-growth algorithm: partition database}

according to the patterns to be search for

◦ _{Multi-level, multi-dimensional, quantitative}

association mining

 _{From association to correlation, sequential}

patterns, partial periodicity, cyclic rules, ratio rules, etc.

(26)

Sequential Patterns and

Time-Series Analysis

 Trend analysis

◦ _{Trend movement vs. cyclic variations, seasonal}

variations and random fuctuations

 Similarity search in time-series database

◦ _{Handling gaps, scaling, etc.}

◦ _{Indexing methods and query languages for}

time-series

 Sequential pattern mining

◦ Various kinds of sequences, various methods ◦ _{From GSP to PrefxSpan}

 Periodicity analysis

(27)

Classifcation: Scalable Methods and

Handling of Complex Types of Data

 Classifcation has been an essential theme in

machine learning, and statistics research

◦ _{Decision trees, Bayesian classifcation, neural}

networks, k-nearest neighbors, etc.

◦ _{Tree-pruning, boosting & bagging techniques}

 _{Efcient and scalable classifcation methods}

◦ _{Exploration of attribute-class pairs, e.g., SLIQ,}

SPRINT, RainForest, BOAT, etc.

◦ _{Association-based classifcation}

 Classifcation of semi-structured and

non-structured data

(28)

Clustering and Outlier Analysis

 _{Partitioning methods}

◦ _{k-means, k-medoids, CLARANS}

 Hierarchical methods: micro-clusters

◦ _{Birch, Cure, Chameleon}

 Density-based methods

◦ _{DBSCAN and OPTICS, DENCLU}

 Grid-based methods

◦ _{STING, CLIQUE, WaveCluster}

 _{Outlier analysis}

◦ _{statistics-based, distance-based,}

deviation-based

 _{Constraint-based clustering}

(29)

Constraint-Based Clustering—Considering Obstacles at Planning ATM Locations

Mountain River

Bridge

Spatial data with obstacles

C1

C2 C3

C4

(30)

Similarity Analysis: Curves,

Trends, Images, and Texts

 Various kinds of data, various similarity mining

methods

 Discovery of similar trends in time-series data

◦ Data transformation methods

◦ _{Multi-dimensional data/indexing structures}

 Finding similar images based on color, texture, etc.

◦ _{Content-based vs. keyword-based retrieval} ◦ _{Color histogram-based signature}

◦ _{Multi-feature composed signature}

 Finding documents with similar texts

(31)

Spatial, Multimedia,

Scientifc Data Analysis

 Multi-dimensional analysis of spatial, multimedia

and scientifc data

◦ _{Geo-spatial data cube and spatial OLAP} ◦ _{The curse of dimensionality problem}

 Association analysis

◦ _{A progressive refnement methodology}

◦ _{Micro-clustering can be used for preprocessing in}

the analysis of complex types of data

 Classifcation

◦ _{Association-based for handling}

(32)

Web Mining: A Fast Expanding

Frontier in Data Mining



_{Mine what Web search engine fnds}



_{Automatic classifcation of Web documents}



_{Discovery of authoritative Web pages, Web}

structures and Web communities



_{Meta-Web Warehousing: Web yellow page}

service

(33)

Data Mining and Case Knowledge

Visualization of data mining results in SAS

(34)

(35)

(36)

(37)