Slide 3 Pengetahuan Data Mining

(1)

(2)

Latar belakang

•

Data Mining memang salah satu cabang ilmu

komputer yang relatif baru. Dan sampai

sekarang orang masih memperdebatkan untuk

menempatkan data mining di bidang ilmu

mana, karena data mining menyangkut

database, kecerdasan buatan (artificial

intelligence), statistik, dsb.

(3)

Latar belakang

•

Kehadiran data mining dilatar belakangi dengan

problema data explosion yang dialami akhir-akhir ini

dimana banyak organisasi telah mengumpulkan data

sekian tahun lamanya (data pembelian, data

penjualan, data nasabah, data transaksi dsb.).

•

Hampir semua data tersebut dimasukkan dengan

menggunakan aplikasi komputer yang digunakan

untuk menangani transaksi sehari-hari yang

(4)

Latar belakang

• Jika Anda mempunyai kartu kredit, sudah pasti Anda bakal sering menerima surat berisi brosur penawaran barang atau jasa. Jika Bank pemberi kartu kredit Anda mempunyai 1.000.000 nasabah, dan mengirimkan sebuah (hanya satu) penawaran dengan biaya pengiriman sebesar Rp. 1.000 per buah maka biaya yang

dihabiskan adalah Rp. 1 Milyar!!

• Jika Bank tersebut mengirimkan penawaran sekali sebulan yang berarti 12x dalam setahun maka anggaran yang dikeluarkan per tahunnya adalah Rp. 12 Milyar!! Dari dana Rp. 12 Milyar yang dikeluarkan, berapa persenkah konsumen yang benar-benar

membeli? Mungkin hanya 10 %-nya saja. Secara harfiah, berarti 90% dari dana tersebut terbuang sia-sia.

(5)

Defnisi

•

Beberapa faktor dalam pendefnisian

data mining:

–

data mining adalah proses otomatis

terhadap data yang dikumpulkan di

masa lalu

–

objek dari data mining adalah data

yang berjumlah besar atau kompleks

–

tujuan dari data mining adalah

menemukan hubungan-hubungan

atau pola-pola yang mungkin

memberikan indikasi yang

bermanfaat.

(6)

Defnisi

•

Defnisi data mining

–

Data mining

adalah serangkaian proses

untuk menggali nilai tambah dari suatu

kumpulan data berupa pengetahuan yang

selama ini tidak diketahui secara manual.

–

Data mining

adalah analisa otomatis dari

data yang berjumlah besar atau kompleks

dengan tujuan untuk menemukan pola

atau kecenderungan yang penting yang

biasanya tidak disadari keberadaannya

(7)

Contoh Aplikasi

Perusahaan transportasi

memining data customer untuk

mengelompokan customer

(8)

Datamining di DB vs

Independen

•

Oracle 9i

•

MS SQL Server

•

IBM Intelligent Miner V7R1

•

NCR Teraminer

•

Kelebihan dan Kerugiannya?

(9)

Data Mining dan Business

Intelligence

Semakin mendukung pengambilan keputusan

End User

Business Analyst

Data Analyst

DBA

Pengambil an Keputusan

Presentasi Data

Teknik Visualiasi

Data Mining

Penemuan Informasi

Eksplorasi Data

Statistical Summary, Querying, and Reporting

Data Preprocessing/Integrasi, Data Warehouses Sumber Data

Database, Web, Paper, Files, Web, eksperimen

(10)

Data Mining: Multi Disiplin

Ilmu

Data Mining

Teknologi DB _Statistik

Machine Learning

Pattern Recognition

Algoritma Ilmu Lain

Visualisasi

(11)

Mengapa tidak analisis data

biasa?

• _{Jumlah data yang sangat besar}

– _{Algoritma harus scalable untuk menangani data}

yang sangat besar (tera)

• _{Dimensi yang sangat besar: ribuan feld} • _{Data Kompleks}

– _{Aliran data dan sensor}

– _{Data terstruktur, graph, social networdk, multi-linked}

data

– _{Database dari berbagai sumber, database lama} – _{Spasial (peta), multimedia, text, web}

(12)

Kategori dalam Data mining

•

Classifcation

•

Clustering

•

Statistical Learning

•

Association Analysis

•

Link Mining

•

Bagging and Boosting

•

Sequential Patterns

•

Integrated Mining

•

Rough Sets

•

Graph Mining

(13)

Classifcation

•

Klasifiasi

adalah suatu proses

pengelom-pokan data dengan

didasarkan pada ciri-ciri tertentu ke

dalam kelas-kelas yang telah

ditentukan pula.

•

Dua metode yang cukup dikenal

dalam klasifkasi, antara lain:

–

Naive Bayes

(14)

Naïve Bayesian

Classifcation

•

Teorema Bayes:

P(C|X) = P(X|C)·P(C) / P(X)

–

P(X) bernilai konstan utk semua klas

–

P(C) merupakan frek relatif sample klas

C

•

Dicari P(C|X) bernilai maksimum,

sama halnya dengan P(X|C)·P(C) juga

bernilai maksimum

•

Masalah: menghitung P(X|C) tidak

mungkin!

(15)

Naïve Bayesian

Classifcation

•

Apabila diberikan k atribut yang saling

bebas (

independence

), nilai probabilitas

dapat diberikan sebagai berikut.

P(

x

1

,…,

x

k

|C) = P(

x

1

|C) x … x P(

x

k

|C)

•

Jika atribut ke-i bersifat diskret, maka

P(

x

i

|C) diestimasi sebagai frekwensi

relatif dari sampel yang memiliki nilai

x

i

(16)

Naïve Bayesian

Classifcation

•

Namun jika atribut ke-i bersifat

kontinu, maka P(

x

_i

|C) diestimasi

dengan fungsi densitas Gauss.

dengan



= mean, dan



= deviasi

standar.



2 2

2 x

e

2

1

)

x

(

f



  



(17)

Metode Naïve Bayesian

Classifcation

•

Contoh:

–

Untuk menetapkan suatu daerah akan

dipilih sebagai lokasi untuk mendirikan

perumahan, telah dihimpun 10 aturan.

–

Ada 4 atribut yang digunakan, yaitu:

• _{harga tanah per meter persegi (C1),}

• _{jarak daerah tersebut dari pusat kota (C2),} • _{Keberadaan angkutan umum di daerah}

tersebut (C3), dan

• _{keputusan untuk memilih daerah tersebut}

(18)

Naïve Bayesian Classifcation

–

Tabel Aturan

Aturan ke- Harga tanah(C1) pusat kotaJarak dari (C2)

Ada angkutan umum

(C3)

Dipilih untuk perumahan

(C4)

1 Murah Dekat Tidak Ya

2 Sedang Dekat Tidak Ya

3 Mahal Dekat Tidak Ya

4 Mahal Jauh Tidak Tidak

5 Mahal Sedang Tidak Tidak

6 Sedang Jauh Ada Tidak

7 Murah Jauh Ada Tidak

8 Murah Sedang Tidak Ya

9 Mahal Jauh Ada Tidak

10 Sedang Sedang Ada Ya

(19)

Naïve Bayesian

Classifcation

– _{Probabilitas kemunculan setiap nilai untuk atribut}

Harga Tanah (C1)

Harga tanah

Jumlah kejadian

“Dipilih” Probabilitas

Ya Tidak Ya Tidak

Murah 2 1 2/5 1/5

Sedang 2 1 2/5 1/5

Mahal 1 3 1/5 3/5

(20)

Naïve Bayesian

Classifcation

Jarak dari pusat kota (C2)

Harga tanah

Jumlah kejadian

Ya Tidak Ya Tidak

Dekat 3 0 3/5 0

Sedang 2 1 2/5 1/5

Jauh 0 4 0 4/5

Jumlah 5 5 1 1

(21)

Naïve Bayesian

Classifcation

– _{Probabilitas kemunculan setiap nilai untuk atribut}_Ada

angkutan umum (C3)

Harga tanah

Jumlah kejadian

Ya Tidak Ya Tidak

Ada 1 3 1/5 3/5

Tidak 4 2 4/5 2/5

(22)

Naïve Bayesian

Classifcation

Dipilih untuk perumahan (C4)

Harga tanah

Jumlah kejadian

Ya Tidak Ya Tidak

Jumlah 5 5 1/2 1/2

(23)

Naïve Bayesian

Classifcation

• _{Berdasarkan data tersebut, apabila diketahui}

suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan

umum, maka dapat dihitung:

– _{Likelihood Ya =}

1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008

– _{Likelihood Tidak =}

(24)

Naïve Bayesian

Classifcation

• _{Nilai probabilitas dapat dihitung dengan}

melakukan normalisasi terhadap likelihood

tersebut sehingga jumlah nilai yang diperoleh = 1.

– _{Probabilitas Ya =}

– Probabilitas Tidak =

(25)

Naïve Bayesian

Classifcation

–

Modifkasi data

Aturan ke- Harga tanah(C1)

Jarak dari pusat kota

(C2)

Ada angkutan umum

(C3)

Dipilih untuk perumahan

(C4)

1 100 2 Tidak Ya

2 200 1 Tidak Ya

3 500 3 Tidak Ya

4 600 20 Tidak Tidak

5 550 8 Tidak Tidak

6 250 25 Ada Tidak

7 75 15 Ada Tidak

8 80 10 Tidak Ya

9 700 18 Ada Tidak

(26)

Naïve Bayesian

Classifcation

Harga Tanah (C1)

Ya Tidak

1 100 600

2 200 550

3 500 250

4 80 75

5 180 700

Mean ()

Deviasi standar ()

212

168,8787 261,9637435

(27)

Naïve Bayesian

Classifcation

Jarak dari pusat kota (C2)

Ya Tidak

1 2 20

2 1 8

3 3 25

4 10 15

5 8 18

Mean ()

Deviasi standar ()

4,8

(28)

Naïve Bayesian

Classifcation

• _{Berdasarkan hasil penghitungan tersebut, apabila}

diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

(29)

Naïve Bayesian

Classifcation

• _Sehingga:

– _{Likelihood Ya} _{= (0,0021) x (0,0009) x 4/5 x 5/10} = 0,000000756.

– _{Likelihood Tidak} _{= (0,0013) x (0,0633) x 2/5 x 5/10}

= 0,000016458.

• _{Nilai probabilitas dapat dihitung dengan}

melakukan normalisasi terhadap likelihood

tersebut sehingga jumlah nilai yang diperoleh = 1.

– _{Probabilitas Ya =}

– _{Probabilitas Tidak =}

(30)

K-Nearest Neighbor - 1

•

Konsep dasar dari

K-NN

adalah mencari

jarak terdekat

antara data yang akan

dievaluasi dengan K tetangga terdekatnya

dalam data pelatihan.

•

Penghitungan jarak dilakukan dengan

konsep Euclidean.

•

Jumlah kelas yang paling banyak dengan

jarak terdekat tersebut akan menjadi kelas

dimana data evaluasi tersebut berada.

(31)

K-Nearest Neighbor - 2

•

Algoritma

– Tentukan parameter K = jumlah tetangga terdekat.

– _{Hitung jarak antara data yang akan dievaluasi}

dengan semua data pelatihan.

– Urutkan jarak yang terbentuk (urut naik) dan tentukan jarak terdekat sampai urutan ke-K.

– _{Pasangkan kelas (C) yang bersesuaian.}

– _{Cari jumlah kelas terbanyak dari tetangga}

terdekat tersebut, dan tetapkan kelas tersebut sebagai kelas data yang dievaluasi.

(32)

Clustering

• _Clustering_{adalah proses pengelompokan objek}

yang didasarkan pada kesamaan antar objek.

• _{Tidak seperti proses klasifkasi yang bersifat} supervised learning, pada clustering proses pengelompokan dilakukan atas dasar

unsupervised learning.

• _{Pada proses klasifkasi, akan ditentukan lokasi}

dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifkasi

sebelumnya.

• _{Sedangkan pada proses clustering, proses}

pengelompokan kejadian dalam klas akan

dilakukan secara alami tanpa mengidentifkasi klas-klas sebelumnya.

(33)

Clustering

• _{Suatu metode clustering dikatakan baik apabila}

metode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik.

• _{Metode tersebut akan menghasilkan}

cluster-cluster dengan objek-objek yang memiliki tingkat kesamaan yang cukup tinggi dalam suatu cluster, dan memiliki tingkat ketidaksamaan yang cukup tinggi juga apabila objek-objek tersebut terletak pada cluster yang berbeda.

• _{Untuk mendapatkan kualitas yang baik, metode}

clustering sangat tergantung pada ukuran kesamaan yang akan digunakan dan

(34)

K-Means

•

Konsep dasar dari

K-Means

adalah

pencarian pusat cluster secara iteratif.

•

Pusat cluster ditetapkan berdasarkan

jarak setiap data ke pusat cluster.

•

Proses clustering dimulai dengan

mengidentifkasi data yang akan

dicluster, x

_ij

(i=1,...,n; j=1,...,m) dengan

n adalah jumlah data yang akan

dicluster dan m adalah jumlah variabel.

(35)

K-Means

• _{Pada awal iterasi, pusat setiap cluster ditetapkan}

secara bebas (sembarang), c_kj (k=1,...,K; j=1,...,m).

• _{Kemudian dihitung jarak antara setiap data}

dengan setiap pusat cluster.

• _{Untuk melakukan penghitungan jarak data ke-i}

(X_i) pada pusat cluster ke-k (C_k), diberi nama (d_ik), dapat digunakan formula Euclidean, yaitu:



m

1 j

2 kj ij

ik

x

c

(36)

K-Means

• _{Suatu data akan menjadi anggota dari cluster ke-J}

apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya.

• _Selanjutnya, _kelompokkan _data-data _yang

menjadi anggota pada setiap cluster.

• _{Nilai pusat cluster yang baru dapat dihitung}

dengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster tersebut, dengan rumus:

k ke cluster x

y ; p

y

c _hj _ij

p 1 h

hj

kj    



(37)

K-Means

• _Algoritma:

– Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang.

– _{Hitung jarak setiap data ke pusat cluster}_.

– Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek.

– _{Hitung pusat cluster.}

– Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang berpindah ke cluster yang lain.

(38)

Penentuan Jumlah Cluster

• _{Salah satu masalah yang dihadapi pada proses}

clustering adalah pemilihan jumlah cluster yang optimal.

• Kaufman dan Rousseeuw (1990)

memperkenalkan suatu metode untuk

menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure.

• Misalkan kita sebut A sebagai cluster dimana data X_i berada, hitung ai sebagai rata-rata jarak X_i ke semua data yang menjadi anggota A.

• Anggaplah bahwa C adalah sembarang cluster selain A.

(39)

Penentuan Jumlah Cluster

• _{Hitung rata-rata jarak antara X}_i_{dengan data yang}

menjadi anggota dari C, sebut sebagai d(X_i, C).

• _{Cari rata-rata jarak terkecil dari semua cluster,}

sebut sebagai b_i, b_i = min(d(X_i,C)) dengan CA.

• _{Silhoutte dari X}_i_{, sebut sebagai s}_i_{dapat dipandang}

sebagai berikut (Chih-Ping, 2005):

(40)

Penentuan Jumlah Cluster

•

Rata-rata si untuk semua data untuk k

cluster tersebut disebut sebagai

rata-rata silhouette ke-k, .

•

Nilai rata-rata silhouette terbesar pada

jumlah cluster (katakanlah: k)

menunjukkan bahwa k merupakan

jumlah cluster yang optimal.

k

s~