• Tidak ada hasil yang ditemukan

Pengantar Data Mining. Kuliah 1

N/A
N/A
Protected

Academic year: 2021

Membagikan "Pengantar Data Mining. Kuliah 1"

Copied!
30
0
0

Teks penuh

(1)

Pengantar Data Mining

(2)

Agenda

Agenda

`

Pendahuluan

`

Pengertian Data Mining

`

Pengertian Data Mining

`

Knowledge Discovery in Database (KDD)

`

Arsitektur Sistem Data mining

`

Arsitektur Sistem Data mining

`

Tugas‐tugas dalam Data mining

`

Aplikasi

`

Aplikasi

(3)

Motivasi

`

Masalah eksplorasi data

`

Perkembangan dalam teknologi basis data dan tool terotomasi

`

Perkembangan dalam teknologi basis data dan tool terotomasi

untuk pengumpulan data telah mengakibatkan menumpuknya

data dalam basis data, data warehouses dan tempat

data dalam basis data, data warehouses dan tempat

penyimpanan data lainnya. 

Kaya akan data, tapi miskin akan pengetahuan!

`

Solusi: Data warehousing dan data mining

` Data warehousing dan

on‐line analytical processing

Ek

k i

h

ik (

l

`

Ekstraksi pengetahuan yang menarik (aturan, pola, atau

kendala) dari basis data berukuran besar.

(4)

Motivasi

`

Informasi ‘tersembunyi’ dalam data

`

Analisis secara manual membutuhkan waktu yang cukup lama

Motivasi

`

Analisis secara manual membutuhkan waktu yang cukup lama 

untuk mencari informasi yang menarik

`

Kebanyakan data tidak pernah dianalsisis setelah dikumpulkan

3,000,000 3,500,000 4,000,000 The Data Gap 1,500,000 2,000,000 2,500,000 p Total new disk (TB) since 1995 0 500,000 1,000,000 1995 1996 1997 1998 1999 Number of  analysts 1995 1996 1997 1998 1999

From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

(5)

Mengapa Menambang Data? 

g p

g

Sudut pandang komersil

`

Telah banyak data yang dikumpukan

`

Web data e commerce

`

Web data, e‐commerce

`

grocery stores

`

Bank/Credit Card transactions

T k

l i k

j di

`

Teknologi komputer menjadi 

lebih murah dan powerful

`

Tekanan kompetisi semakin kuat

`

Tekanan kompetisi semakin kuat

`

Menyediakan layanan yang lebih baik, contoh: dalam 

Customer Relationship Management

(6)

Mengapa Menambang Data?

Sudut pandang keilmuan

Mengapa Menambang Data? 

Sudut pandang keilmuan

`

Data dikumpulkan dan disimpan dengan 

kecepatan tinggi (GB/hour)

p

gg (

)

`

remote sensor pada satellite

`

microarray pembangkit gene 

expression data

expression data

`

Simulasi keilmuan

`

Teknik tradisional tidak cukup untuk menganalisis data 

d

iki

demikian

`

Data mining membantu ilmuwan dalam

`

Klasifikasi dan segmentasi data

g

`

Formulasi hipotesis

11/27/2008 5

(7)

Jumlah halaman Web yang diindeks oleh Google search engine 

(Sumber: Internet Archive, http: www.archive.org) (Sumber: Internet Archive, http: www.archive.org)

(8)

Pengertian Data Mining

Pengertian Data Mining

`

Data mining (knowledge discovery in databases):       

` Ekstraksi informasi atau pola yang menarik (non‐trivial, implicit, 

previously unknown dan potentially useful) dalam basis data  berukuran besar. 

I til h l i

`

Istilah lain: 

` Knowledge discovery(mining) in databases (KDD), knowledge 

extraction, data/pattern analysis, data archeology, data dredging,  information harvesting business intelligence dll

information harvesting, business intelligence, dll.

`

Yang bukan termasuk data mining task?

` Pemrosesan (deductive) query.   

` Sistem pakar

(9)

Pengertian Data Mining

z

Yang merupakan data mining task?

z

Yang bukan data 

i i

t k?

Mencari nama tertentu yang lazim 

di wilayah/daerah tertentu. (Contoh: 

O’Brien, O’Rurke, O’Reilly… nama 

mining task?

Mencari nomor 

telpon dalam direktori

,

,

y

yang lazim di wilayah Boston)

Mengelompokan dokumen‐

d k

i i

telpon dalam direktori 

telpon

dokumen yang mirip yang 

dikembalikan oleh search engine 

berdasarkan konteksnya (misalkan 

Melakukan kueri 

pada Web search 

engine untuk mencari

Amazon rainforest, Amazon.com,)

engine untuk mencari 

informasi tentang 

“Amazon”

(10)

Hubungan data mining dengan bidang lain

`

Berkaitan erat dengan bidang machine learning/AI, 

i i

i ik d

i

b i d

pattern recognition, statistika, dan sistem basis data

`

Teknik tradisonal menjadi       

tid k

i k

tidak sesuai karena

`

Data berukuran besar

`

Tingginya dimensi data

Machine Learning/ Pattern  Recognition Statistics/ AI `

Tingginya dimensi data

`

Data yang heterogen, 

dan terdistribusi

Recognition Data Mining Database  systems systems 9 11/27/2008

(11)

Data Mining: Gabungan dari multi disiplin

g

g

p

Database 

Technology

Statistics

Data Mining

Machine

Learning

g

Visualization

Learning

Pattern

Pattern

Recognition

Algorithm

Other

Disciplines

(12)

Data Mining: sebuah proses dalam KDD

g

p

`

Data mining: elemen utama 

Pattern Evaluation

daam proses knowledge 

discovery.

Data Mining

Pattern Evaluation

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases

(13)

Data Mining: sebuah proses dalam KDD

Data Mining: sebuah proses dalam KDD

1.

Pembersihan data

: menghilangkan noise dan data yang tidak 

konsisten. 

2

Pengintegrasian data

: data digabungkan dari berbagai sumber

2.

Pengintegrasian data

: data digabungkan dari berbagai sumber.

3.

Seleksi data

: data yang relevan dengan proses analisis diambil dari 

basis data.

4

Transformasi data

: data ditransformasikan atau digabungkan ke

4.

Transformasi data

: data ditransformasikan atau digabungkan ke 

dalam bentuk yang sesuai untuk di‐mine dengan cara dilakukan 

peringkasan atau operasi agregasi.

5.

Data mining

: merupakan proses yang penting dalam KDD dimana 

5.

ata mining

: merupakan proses yang penting dalam K

dimana

metode‐metode cerdas diaplikasikan untuk mengekstrak pola‐

pola data.

6.

Evaluasi pola

: untuk mengidentifikasi pola‐pola yang menarik 

ik

h

b d

k

k

yang merepresentasikan pengetahuan berdasarkan suatu ukuran 

kemenarikan.

7.

Presentasi pengetahuan

: merepresentasikan pengetahuan yang 

(14)

Data Mining: sebuah proses dalam KDD

g

p

Input data

Information

(15)

Data Mining dan Business Intelligence

Increasing potential to support

business decisions End User

business decisions End User

Business

Decision Making

Data Presentation Business

Analyst Data A l Data Presentation Visualization Techniques Data Mining f Analyst Information Discovery Data Exploration

Statistical Summary, Querying, and Reporting

DBA

Statistical Summary, Querying, and Reporting

(16)

Arsitektur Sistem Data Miningg

Graphical User Interface Pattern Evaluation

Knowl

Database or Data Data Mining Engine

Knowl edge-Base

data cleaning, integration, and selection Database or Data

Warehouse Server

Database Data World-Wide ROther Infoit i Database

Warehouse Web Repositories

(17)

Arsitektur Sistem Data Mining

Arsitektur Sistem Data Mining

1.

Basis data

, data warehouse atau tempat penyimpanan informasi 

lainnya.

2

Basis data dan data warehouse server

Komponen ini

2.

Basis data dan data warehouse server

.  Komponen ini 

bertanggung jawab dalam pengambilan data yang relevan, 

berdasarkan permintaan pengguna.

3.

Basis pengetahuan

, merupakan domain knowledge yang

3.

Basis pengetahuan

, merupakan domain knowledge yang 

digunakan untuk memandu pencarian atau mengevaluasi pola‐

pola yang dihasilkan. 

4.

Data mining engine

, terdiri modul‐modul fungsional data mining

seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.

5.

Modul evaluasi pola

, menggunakan ukuran‐ukuran kemenarikan 

dan berinteraksi dengan modul data mining dalam pencarian 

pola pola menarik

pola‐pola menarik. 

6.

Antarmuka pengguna grafis

, media komunikasi dengan pengguna 

(18)

Data yang ditambang?

y

g

g

`

Basis data relasional

`

Data warehouse

`

Basis data transaksional

`

Tempat penyimpanan data lainnya

`

Basis data object‐oriented dan basis data object‐relational

i d

i l

`

Basis data spatial

`

Data time‐series dan data temporal

`

Data teks dan basis data multimedia

`

Data teks dan basis data multimedia

`

WWW

(19)

Tugas‐tugas dalam Data Mining

Tugas tugas dalam Data Mining

`

Metode Prediksi

`

Metode Prediksi

`

Menggunakan beberapa variabel (atribut) untuk memprediksi 

nilai yang tidak diketahui atau nilai yang akan datang dari 

variabel (atribut) lain. 

`

Metode Deskripsi

`

Metode Deskripsi

`

Menemukan pola‐pola (korelasi, trend, cluster, trayektori, dan 

anomali) yang meringkas hubungan dalam data.

(20)

Tugas‐tugas dalam Data Mining (1)

`

Association

(

correlation dan causality)

` Multi‐dimensional vs single‐dimensional association ` Multi dimensional vs. single dimensional association 

` age(X, “20..29”) ^ income(X, “20..29K”) Æ buys(X, “PC”) [support = 2%,  confidence = 60%]

` contains(T “computer”) Æ contains(x “software”) [1% 75%] ` contains(T, “computer”) Æ contains(x, “software”) [1%, 75%] `

Klasifikasi dan Prediksi

` Menemukan model (fungsi) yang menjelaskan dan membedakan kelas  atau kosep untuk prediksi mendatang

` Contoh: mengklasifikasikan negara berdasarkan iklim

` Presentasi: decision‐tree, classification rule, neural network

` Presentasi: decision tree, classification rule, neural network

` Prediksi: Mempredikasi nilai numerik yang tidak diketahui atau yang 

hilang

(21)

Tugas‐tugas dalam Data Mining (2)

g

g

g ( )

`

Analisis cluster

` Label kelas tidak diketahui: mengelompokkan data untuk membentuk ` Label kelas tidak diketahui: mengelompokkan data untuk membentuk 

kelas‐kelas yang baru, contoh: mengelompokkan data untuk mencari  pola distribusinya

` Clustering berdasarkan prinsip : memaksimumkan kemiripan intra‐kelas

` Clustering berdasarkan prinsip : memaksimumkan kemiripan intra kelas 

dan memiminumkan kemiripan interkelas ` Analisis outlier O tli bj k d t tid k ik ti il k d i d t ` Outlier: objek data yang tidak mengikuti perilaku umum dari data ` Dapat dipandang sebagai noise atau eksepsi tetapi berguna dalam fraud  detection, rare events analysis ` Trend dan analisis evolusi ` Trend dan deviasi:  analisis regresi

(22)

Pola yang menarik?

`

Data mining dapat membangkitkan ribuan pola : tidak semua

`

Data mining dapat membangkitkan ribuan pola : tidak semua 

pola tersebut menarik

` Pendekatan: Human‐centered, query‐based, focused miningq y f g

`

Ukuran kemenarikan

` Sebuah pola dikatakan menarik jika pola tersebut mudah dimengerti oleh  pengguna, valid pada data baru atau data tes dengan derajat kepastian  (certainty), berguna, novel, atau memvalidasi hipotesis yang dicari oleh  pengguna

pengguna.

(23)

Aplikasi 1: Analisis dan Manajemen Pasar

` Sumber data?—transaksi kartu kredit, data pengguna kartu yang setia (loyal), kupon  discount, panggilan keluhan pengguna, studi gaya hidup publik T k i ` Target marketing ` Mencari cluster dari konsumen “model” yang memiliki karakteristik yang sama: minat, level  pendapatan, perilaku belanja, dll,  ` Menentukan pola pembelian konsumen pada setiap waktup p p p ` Cross‐market analysis—Menemukan  asosiasi/korelasi antar penjualan produk dan  melakukan prediksi berdasarkan asosiasi tersebut ` Customer profiling—Tipe konsumen seperti apa yang akan membeli prosuk tertentu  (clustering atau klasifikasi) ` Customer requirement analysis ` Mengidentifikasi produk terbaik untuk konsumen‐konsumen yang berbeda

` Memprediksi faktor faktor yang akan menarik perhatian konsumen baru

` Memprediksi faktor‐faktor yang akan menarik perhatian konsumen baru

` Summary information

(24)

Aplikasi 1: Klasifikasi

Aplikasi 1: Klasifikasi

`

Direct Marketing

`

Tujuan: mengurangi biaya pengiriman surat dengan

`

Tujuan: mengurangi biaya pengiriman surat dengan 

mentargetkan

sekelompok konsumen yang mungkin akan 

membeli produk baru.

`

P

d k t

`

Pendekatan:

` Menggunakan data produk serupa yang telah dipasarkan  sebelumnya.  ` M t h i k t k t k b li ` Mengetahui konsumen mana yang memutuskan untuk membeli  (buy) dan konsumen mana yang memutuskan selainnya. Keputusan 

{buy, don’t buy} membentuk class attribute.

` Mengumpulkan berbagai data demografi dan gaya hidup dari ` Mengumpulkan berbagai data demografi, dan gaya hidup dari 

konsumen yang memutuskan membeli dan tidak membeli. … Bentuk usahanya, tempat tinggalnya, pendapatannya, dll.

` Menggunakan informasi ini sebagai atribut‐atribut input untuk gg g p

pembelajaran model classifier. From [Berry & Linoff] Data Mining Techniques, 1997

11/27/2008 23

(25)

Aplikasi 2: Klasifikasi

Aplikasi 2: Klasifikasi

`

Fraud Detection

`

Tujuan: memprediksi kasus‐kasus yang mengandung

`

Tujuan: memprediksi kasus kasus yang mengandung 

kecurangan dalam transaksi dalam transaksi kartu kredit.

`

Pendekatan:

` Menggunakan transaksi kartu kreditdan informasi mengenai ` Menggunakan transaksi kartu kreditdan informasi mengenai  pemegang kartu kredit sebagai atribut. … Kapan konsumen melakukan pembelian, barang apa yang dibelinya,  berapa sering dia melakukan pembayaran menggunakan kartu kedit pada  periode waktu tertentu, dll ` Memberikan label transaksi yang telah lalusebagai transaksi yang  mengandung kecurangan (fraud) atau transaksi yang normal (fair).   Kategori ini membentuk atribut kelas

Kategori ini membentuk atribut kelas.

` Pembelajaran model untuk kelas transaksi.

(26)

Aplikasi 3: Klasifikasi

Aplikasi 3: Klasifikasi

`

Perpindahan konsumen ke kompetitor (Customer Attrition

/Churn):

`

Tujuan: memprediksi apakah seorang konsumen akan pindah 

ke produk kompetitor

ke produk kompetitor.

`

Pendekatan:

` Menggunakan catatan transaksi secara rinci untuk setiap konsumen  lampau dan saat ini, untuk menentukan atribut. … Seberapa sering konsumen melakukan panggilan, dimana dia melakukan  panggilan, kapan konsumen tersebut sering melakukan panggilan, status  k t t ik h dll keuangannya, status pernikahan, dll.  ` Menentukan label konsumen sebagai loyal atau tidak loyal. ` Tentukan model untuk loyalty.

From [Berry & Linoff] Data Mining Techniques, 1997

11/27/2008 25

(27)

Aplikasi 1: Clustering

Aplikasi 1: Clustering

`

Segmentasi Pasar:

`

Tujuan: membagi pasar ke dalam bagian‐bagian konsumen

`

Tujuan: membagi pasar ke dalam bagian bagian konsumen 

yang berbeda dimana sebuah bagian dapat dipilih sebagai 

target pasar.

`

Pendekatan:

`

Pendekatan: 

` Mengumpulkan atribut‐atribut yang berbedadari konsumen  berdasarkan informasi yang terkait gerografisnya dan gaya hidupnya. ` Menemukan cluster dari konsumen konsumen yang serupa

` Menemukan cluster dari konsumen‐konsumen yang serupa.

` Mengukur kualitas clustering dengan mengobservasi pola pembelian  dari konsumen‐konsumen dalam kelas yang sama terhadap 

(28)

Aplikasi 1: Penentuan Aturan Asosiasi

Aplikasi 1: Penentuan Aturan Asosiasi

`

Pemasaran dan promosi penjualan:

`

Misalkan aturan yang diperoleh

`

Misalkan aturan yang diperoleh

{Cola, … } ‐‐> {Potato Chips}

`

Potato Chips sebagai consequent

=> 

dapat digunakan untuk 

t k

h

dil k k

t k

i k tk

menentukan apa yang harus dilakukan untuk meningkatkan 

penjualannya.

`

Cola dalam antecedent

=> 

dapat  digunakan untuk melihat produk 

k

t

h jik jik

j

l

C l dih

tik

mana yang akan terengaruh jika jika penjualan Cola dihentikan.

`

Cola dalam antecedent dan Potato chips dalam consequent

=> 

dapat digunakan untuk melihat produk apa yang seharusnya 

dij

l d

d

C l

t k

ik

j

l

dijual dengan  dengan Cola untuk mempromosikan penjualan 

Potato chips!

11/27/2008 27

(29)

Aplikasi 2: Penentuan Aturan Asosiasi

p as : e e tua

tu a

sos as

`

Manajemen penempatan barang di supermarket.

`

Tujuan: mengidentifikasi item‐item yang dibeli secara

`

Tujuan: mengidentifikasi item‐item yang dibeli secara 

bersamaan  oleh banyak pembeli.

`

Pendekatan: Memproses data point‐of‐sale yang 

dikumpulkan  dengan barcode scanner untuk menemukan 

kebergantungan antar item.

`

Contoh aturan‐‐

`

Contoh aturan‐‐

` If a customer buys diaper and milk, then he is very likely to buy beer.

(30)

Rujukan

Rujukan

`

Tan P., Michael S., & Vipin K. 2006. Introduction to Data 

mining. Pearson Education, Inc.

mining.  Pearson Education, Inc.

`

Han J & Kamber M. 2006. Data mining – Concept and 

Techniques.Morgan‐Kauffman, San Diego

Referensi

Dokumen terkait

Tujuan penelitian ini adalah untuk mengetahui dan menganalisis Pengaruh Kepemimpinan, Disiplin Kerja dan Iklim Organisasi terhadap Prestasi Kerja Pegawai pada Dinas

Pada saat ini pembagian waris yang diterapkan di Desa Majatengah menganut sistem yang modern yaitu dibagi sama rata. Saat terjadi pembagian waris pihak desa hanya

kedelai polong muda tidak dapat dilakukan terus menerus karena penyerapan pasar unhrk polong rnuda sangat terbatas, berbeda dengan polong tua yang bisa.

Meningkatkan hubungan kerjasama dari berbagai lembaga yang berkaitan dengan upaya pemasaran produk kerajinan tenun ikat Dayak, Strategi ini bermanfaat untuk

37 Wawancara pada tanggal 12 September 2016 pukul 11.00 WIB dengan pangeran Rintoisworo dan pangeran Jatiningrat(keduanya adalah putra Sultan Hamengku Buwono VIII

Persepsi siswa terhadap pembelajaran Multiple Intelligences apabila dilihat dari segi motif, minat, persiapan dan kesiapan dapat dilihat bahwa persepsi siswa

EFFECT OF SECURITY, PRIVACY, BRAND NAME, WORD OF MOUTH, EXPERIENCE, AND INFORMATION ON WEB SITE TRUST, AND EFFECT OF WEB SITE TRUST ON BRAND COMMITMENT AND RISK PERCEPTION

Indonesia dengan Brunei, Malaysia, dan Filipina terlihat pada grafik bahwa nilai ekspor Indonesia juga lebih besar daripada nilai impor dengan negara