• Tidak ada hasil yang ditemukan

DATA MINING-2 TIF.pptx

N/A
N/A
Protected

Academic year: 2018

Membagikan "DATA MINING-2 TIF.pptx"

Copied!
37
0
0

Teks penuh

(1)

DATA MINING

(2)

 Many books have relevant chapters for the unit:

◦ Berry J.A. & Linof G.; Data Mining Techniques: For Marketing, Sales, and Customer Support ; John Wiley & Sons, Inc.; 1997

◦ Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A.; Discovering Data Mining: From Concept to

Implementation; Prentice Hall PTR, 1998

◦ Fayyad U., Piatetsky-Shapiro G., Smyth P., and Uhurusamy R. (eds); Advances in Knowledge Discovery and Data Mining; AAAI Press, 1996

◦ Kennedy R.L., Lee Y., Van Roy B., Reed C.D., Lippman R.P.; Solving Data Mining Problems Through Pattern Recognition; Prentice Hall PTR, 1997

◦ Witten I. H. and Frank, E.; Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations; Morgan Kaufmann, 1999

(3)

 Many Defnitions

“Data mining is an interdisciplinary feld bringing togther

techniques from machine learning, pattern recognition,

statistics, databases, and visualization to address the issue of information extraction from large data bases”

Evangelos Simoudis in Cabena et al.

◦ “Data mining is the extraction of implicit, previously

unknown, and potentially useful information from data” Witten & Frank

◦ “Data mining… is the exploration and analysis, by

automatic or semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules”

Berry & Linof

◦ “Data mining is a term usually applied to techniques that

can be used to fnd underlying structure and relationships in large amounts of data”

Kennedy et al.

(4)

 Use of analytical tools to discover knowledge in a

collection of data

◦ The knowledge takes the form of patterns, relationships and facts which would not otherwise be immediately

apparent

 These analytical tools may be drawn from a

number of disciplines, which include:

◦ machine learning

◦ pattern recognition

◦ statistics

◦ artifcial intelligence

◦ human-computer interaction

◦ information visualization

(5)

 Ekstraksi atau "menambang" pengetahuan dari

data dalam jumlah yang besar.(Jia Weihan, p. 5.)

Data Mining: Concepts and Techniques,

Jiawei Han dan Micheline Kamber, Academic Press, USA, 2001.

 Proses pencarian terhadap pengetahuan -- yang

sebelumnya tidak diketahui; valid; dan dapat digunakan -- dari database yang besar dan

kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. (Cabena, p. 12.)

Discovering Data Mining: From Concept to Implementation,

Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, dan Alesandro Zanasi, Prentice Hall, New Jersey, USA, 1998.

(6)

Data mining adalah proses yang memperkerjakan satu atau

lebih teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan

(knowledge) secara otomatis.

Data mining merupakan proses iteratif dan interaktif untuk

menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti dalam suatu database yang sangat besar (massive databases).

Data mining merupakan serangkaian proses untuk menggali nilai

tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data

Data mining menggunakan berbagai perangkat lunak analisis

data untuk menemukan pola dan relasi data agar dapat

(7)

Mengapa Melakukan Data

Mining ?

 Sudut Pandang Komersial :

• Meledaknya volume data yang dihimpun dan disimpan dalam data warehouse

• Proses komputasi yang dapat diupayakan

• Kuatnya tekanan kompetitif

~ Dapat menyediakan yang lebih baik, layanan-layanan kastemisasi ~ Informasi menjadi produk yang berarti

 Sudut Pandang Keilmuan :

• Kecepatan data yang dihimpun dan disimpan (Gbyte/hour)

~ Remote sensor yang ditempatkan pada suatu satelit ~ Telescope yang digunakan untuk men-scan langit

~ Simulasi saintifk yang membangkitkan data dalam ukuran terabytes

• Teknik-teknik tradisional tidak fsibel utnuk mengolah data mentah

• Data mining untuk reduksi data ;

~ Catalogging, klassifkasi, segmentasi data

(8)

“We are drowning in

information, but starving

for knowledge”

(John Naisbitt)

(9)

Why Is Data Mining

Hot?

Data mining (knowledge discovery in databases)

Extraction of interesting knowledge or patterns

from data in large databases or other information repositories

Necessity is the mother of invention

Data is everywhere—data mining should be

everywhere, too!

(10)

Data Is Everywhere!

 Relational database—A commodity of every enterprise  POS (Point of Sales): Transactional DBs in terabytes

 Object-relational databases, distributed,

heterogeneous, and legacy databases

 Spatial databases (GIS), remote sensing database

(EOS), and scientifc/engineering databases

 Time-series data (e.g., stock trading) and temporal

data

 Text (documents, emails) and multimedia databases  WWW: A huge, hyper-linked, dynamic, global

(11)

Data Mining Is Everywhere, too!

A

Multi-Dimensional View of Data Mining

Databases to be mined

Relational, transactional, object-relational, active, spatial,

time-series, text, multi-media, heterogeneous, legacy, WWW, etc.

Knowledge to be mined

Characterization, discrimination, association, classifcation,

clustering, trend, deviation and outlier analysis, etc.

Techniques utilized

Database-oriented, data warehouse (OLAP), machine

learning, statistics, visualization, neural network, etc.

Applications adapted

(12)

Data Mining: Confuence of Multiple

Disciplines

Data Mining

Database

Technology Statistics

Other Disciplines Information

Science Machine

Learning & AI Visualization

(13)

Ilmu Berkaitan Data Mining

Bidang ilmu yang berkaitan :

 Database

 Information science (ilmu informasi)  High performance computing

 Visualisasi

 Machine learning  Statistik

 Neural networks (jaringan saraf tiruan)  Pemodelan matematika

 Information retrieval

(14)

Analisa Pasar dan Manajemen

Beberapa solusi dapat diselesaikan dengan data mining :

◦ Menebak target pasar

◦ Melihat pola beli pemakai dari waktu ke waktu

◦ Cross Market Analysis

◦ Profl Customer

◦ Identifkasi Kebutuhan Customer

◦ Menilai loyalitas customer

◦ Informasi summary

Analisa Perusahaan dan Manajemen Resiko

Beberapa solusi dapat diselesaikan dengan data mining :

Merencanakan Keuangan dan Evaluasi Aset

Merencanakan Sumber Daya (Resource Planning)Memoniotr Persaingan (Competition)

(15)

Telekomunikasi

Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis

Keuangan

Data mining digunakan untuk mendeteksi transaksi-transaksi keuangan yang

mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar.

Asuransi

Australian Health Insurance Commision menggunakan data mining untuk

(16)

Olah raga

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks

Astronomi

Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining.

Internet Web Surf-Aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan

(17)

Terdapat tiga kebutuhan bisnis :

Penambahan maupun peningkatan

kapasitas produk

Pengurangan biaya operasi

perusahaan

Peningkatan efektiftas pemasaran

dan keuntungan

(18)

Permasalahan bisnis yang umum dihadapi :

1. Bagaimana menyajikan advertensi kepada target yang tepat sasaran

2. Menyajikan halaman web yg khusus setiap pelanggan

3. Menampilkan informasi produk lain yang biasa dibeli bersamaan dengan produk tertentu.

4. Mengklasifkasikan artikel-artikel secara otomatis

5. Mengelompokkan pengunjung web yang memiliki kesamaan karateristik tertentu

6. Mengestimasi data yang hilang

7. Memprediksi kelakuan di masa yang akan datang

(19)

Konsep dasar yang perlu dipikirkan pelaku bisnis sebagai solusi permasalahan, yaitu :

1. Perumusan Target

Memilih target pemasaran untuk disuguhi advertensi tertentu bertujuan untuk meningkatkan proft perusahaan, pengenalan produk secara luas atau hasil-hasil terukur lainnya.

2. Personalisasi

Memanfaatkan personalisasi untuk memilih advertensi yang paling sesuai untuk orang tertentu dan personalisasi ini bertujuan agar pengunjung yang sudah menjadi pelanggan membeli sebanyak mungkin produk perusahaan.

3. Asosiasi (analisis keranjang pasar)

Asosiasi ini mengidentifkasi item-item produk yang mungkin dibeli bersamaan dengan produk lain atau dilihat secara bersamaan pada saat mencari informasi mengenai produk tertentu.

(20)

5. Manajemen Pengetahuan

Sistem ini mengidentifkasi dan memanfaatkan pola-pola di dalam dokumen yang berbahasa alami atau berformat text. Pendekatan ini digunakan untuk menyortir dokumen baru dan mempersonalisasi publikasi online

6. Pengelompokkan

Pengelompokkan digunakan untuk membuat laporan

mengenai karateristik umum dari grup-grup pengunjung (kustomer) yang berbeda.

7. Estimasi dan Prediksi

Estimasi menerka sebuah nilai yang belum diketahui dan prediksi memperkirakan nilai untuk masa datang.

8. Pohon Keputusan

(21)

Kebutuhan akan data mining dikarenakan :

1. Ketersediaan data yang melimpah, kebutuhan akan

informasi (atau pengetahuan) sebagai pendukung

pengambilan keputusan untuk membuat solusi bisnis dan dukungan infrastruktur di bidang teknologi informasi

2. Ketersediaan data transaksi dalam volume yang besar

3. Informasi sebagai aset perusahaan yang penting sehingga

melahirkan gudang data yang mengintegrasikan informasi dari sistem yang tersebar untuk mendukung pengambilan keputusan

4. Ketersediaan teknologi informasi dalam skala yang

terjangkau dan sudah dapat diadopsi secara luas.

(22)

 Karateristik-karateristik penting dari tool data mining meliputi :

◦ Data preparation facilities

◦ Selection of data mining operation (algorithms)

◦ Product scalability and performance

◦ Facilities for visualization of result

 Data mining tool, meliputi :

◦ Integral Solution Ltd’s Clementine

◦ DataMind Corp’s Data Crusher

◦ IBM’s Intelligent Miner

◦ Silicon Graphics Inc.’s MineSet

◦ Informations Discovery Inc.’s Data Mining Suite

◦ SAS Institute Inc.’s SAS System and Right Information System’Thought.

(23)

 Th 1960

◦ Pengumpulan data, pembuatan data, IMS dan network DBMS

 Th 1970

◦ Model data relasional, Implementasi DBMS relasional

 Th 1980

◦ RDBMS, Model data lanjutan (extended-relational, OO, deductive)

 Th 1990

◦ Data mining, data warehouse, database multimedia, dan Web database.

 Th 2000

◦ Stream data managemen dan mining

◦ Data mining dengan berbagai variasi aplikasi

◦ Teknologi web dan sistem informasi global

(24)

Recent Progress of R & D in Data Mining

 Multi-dimensional data analysis: Data warehouse

and OLAP (on-line analytical processing)

 Association, correlation, and causality analysis  Sequential patterns and time-series analysis

Classifcation: scalability, associative classifcation,

etc.

 Clustering and outlier analysis

 Similarity analysis: curves, trends, images, texts,

etc.

Text mining, Web mining and Weblog analysis  Spatial, multimedia, scientifc data mining

(25)

Association and Frequent Pattern Analysis

Efcient methods for mining frequent patterns and

association rules

Apriori and its various extensions

FP-growth algorithm: partition database

according to the patterns to be search for

Multi-level, multi-dimensional, quantitative

association mining

From association to correlation, sequential

patterns, partial periodicity, cyclic rules, ratio rules, etc.

(26)

Sequential Patterns and

Time-Series Analysis

 Trend analysis

Trend movement vs. cyclic variations, seasonal

variations and random fuctuations

 Similarity search in time-series database

Handling gaps, scaling, etc.

Indexing methods and query languages for

time-series

 Sequential pattern mining

◦ Various kinds of sequences, various methods ◦ From GSP to PrefxSpan

 Periodicity analysis

(27)

Classifcation: Scalable Methods and

Handling of Complex Types of Data

 Classifcation has been an essential theme in

machine learning, and statistics research

Decision trees, Bayesian classifcation, neural

networks, k-nearest neighbors, etc.

Tree-pruning, boosting & bagging techniques

Efcient and scalable classifcation methods

Exploration of attribute-class pairs, e.g., SLIQ,

SPRINT, RainForest, BOAT, etc.

Association-based classifcation

 Classifcation of semi-structured and

non-structured data

(28)

Clustering and Outlier Analysis

Partitioning methods

k-means, k-medoids, CLARANS

 Hierarchical methods: micro-clusters

Birch, Cure, Chameleon

 Density-based methods

DBSCAN and OPTICS, DENCLU

 Grid-based methods

STING, CLIQUE, WaveCluster

Outlier analysis

statistics-based, distance-based,

deviation-based

Constraint-based clustering

(29)

Constraint-Based Clustering—Considering Obstacles at Planning ATM Locations

Mountain River

Bridge

Spatial data with obstacles

C1

C2 C3

C4

(30)

Similarity Analysis: Curves,

Trends, Images, and Texts

 Various kinds of data, various similarity mining

methods

 Discovery of similar trends in time-series data

◦ Data transformation methods

Multi-dimensional data/indexing structures

 Finding similar images based on color, texture, etc.

Content-based vs. keyword-based retrieval Color histogram-based signature

Multi-feature composed signature

 Finding documents with similar texts

(31)

Spatial, Multimedia,

Scientifc Data Analysis

 Multi-dimensional analysis of spatial, multimedia

and scientifc data

Geo-spatial data cube and spatial OLAPThe curse of dimensionality problem

 Association analysis

A progressive refnement methodology

Micro-clustering can be used for preprocessing in

the analysis of complex types of data

 Classifcation

Association-based for handling

(32)

Web Mining: A Fast Expanding

Frontier in Data Mining

Mine what Web search engine fnds

Automatic classifcation of Web documents

Discovery of authoritative Web pages, Web

structures and Web communities

Meta-Web Warehousing: Web yellow page

service

(33)

Data Mining and Case Knowledge

Visualization of data mining results in SAS

(34)
(35)

Data Mining and Case Knowledge

(36)
(37)

Data Mining and Case Knowledge

Referensi

Dokumen terkait

Saya Mahasiswa Program Diloma III Perpustakaan Fakultas Ilmu Sosial dan Politik Universitas Sebelas Maret Surakarta yang bertanda tangan di bawah ini,.. NAMA : DITA

Kajian literatur dilakukan untuk memperkuat konsep se- bagai landasan, arah kekaryaan, dan tujuan penciptaan yakni peningkatan kesadaran lingkungan. Sedikitnya ada 5 buku utama

Teknik yang digunakan dalam transformasi budaya organisasi di SD Laboratorium Universitas Negeri Malang yaitu dengan melalui pembiasaan dan keteladanan, pembinaan disiplin, hadiah

Monday effect dan Weekend effect adalah salah satu bagian dari Day of The Week Effect atau pengaruh hari perdagangan terhadap return saham. Monday effect adalah

Bagi mereka yang mendukung operasi plastik alasan pertama yang diutarakan berkaitan dengan keiginan untuk tampil lebih muda.. Terlihat lebih muda membuat orang

Lebih jauh dari itu, transaksi ekonomi dan keuangan lebih berorientasi pada keadilan dan kemakmuran umat.Pada zaman Rasullah SAW kegiatan praktek- praktek seperti menerima

ANTARA CORRUGATED WATERTIGHT BULKHEAD DENGAN TRANSVERSE PLANE WATERTIGHT BULKHEAD PADA BLOCK BO2 KAPAL 11179 GT DENGAN FEM (Finite Element Methode)”.. Namun semua ini

tidak hanya dipengaruhi oleh metode atau media saja juga dipengaruhi oleh banyak faktor yang bisa datang dari dalam siswa (internal) ataupun dalam diri siswa (eksternal).