10/21/2011 POKOK BAHASAN MODEL DATAMINING DEFINISI KATEGORI DALAM DATA MINING. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering

(1)

M

ODEL

D

ATAMINING

Bahan Kuliah : Topik Khusus

POKOK BAHASAN

D

EFINISI

|“Mining”: proses atau usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar yang telah ada.

D

EFINISI

| Beberapa faktor dalam pendefinisian data mining: y data mining adalah proses otomatis terhadap data

yang dikumpulkan di masa lalu

y objek dari data mining adalah data yang berjumlah besar atau kompleks

besar atau kompleks

y tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat.

D

EFINISI

| Definisi data mining

y Data miningadalah serangkaian proses untuk

menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

y Data miningadalah analisa otomatis dari data yang

berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

K

ATEGORI DALAM

D

ATA MINING

(2)

C

LASSIFICATION

|Klasifikasiadalah suatu proses pengelompokan data

dengan didasarkan pada ciri-ciri tertentu ke dalam kelas-kelas yang telah ditentukan pula.

|Dua metode yang cukup dikenal dalam klasifikasi, antara lain:

antara lain:

y Naive Bayes

y K Nearest Neighbours (kNN)

N

AÏVE

B

AYESIAN

C

LASSIFICATION |Teorema Bayes:

P(C|X) = P(X|C)·P(C) / P(X)

y P(X) bernilai konstan utk semua klas y P(C) merupakan frek relatif sample klas C

Di i P(C|X) b il i k i h l

N

AÏVE

B

AYESIAN

C

LASSIFICATION |Apabila diberikan k atribut yang saling bebas

(independence), nilai probabilitas dapat diberikan

sebagai berikut.

P(x x|C) = P(x|C) x x P(x|C) P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)

|Jika atribut ke-i bersifat diskret, maka P(xi|C)

diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai xisebagai atribut ke i dalam kelas C.

N

AÏVE

B

AYESIAN

C

LASSIFICATION

|Namun jika atribut ke-i bersifat kontinu, maka P(xi|C)

diestimasi dengan fungsi densitas Gauss. ( ) 2 2 2 x

e

1 )

x

(

f

σ µ − −

=

dengan µ= mean, dan σ= deviasi standar.

e

2 )

x

(

f

σ

π

N

AÏVE

B

AYESIAN

C

LASSIFICATION |Contoh:

y Untuk menetapkan suatu daerah akan dipilih sebagai

lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan.

y Ada 4 atribut yang digunakan, yaitu:

|harga tanah per meter persegi (C1), |jarak daerah tersebut dari pusat kota (C2),

|ada atau tidaknya angkutan umum di daerah tersebut (C3), dan |keputusan untuk memilih daerah tersebut sebagai lokasi

perumahan (C4).

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Tabel Aturan

Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 Murah Dekat Tidak Ya 2 Sedang Dekat Tidak Ya 3 Mahal Dekat Tidak Ya 4 Mahal Jauh Tidak Tidak 5 Mahal Sedang Tidak Tidak 6 Sedang Jauh Ada Tidak 7 Murah Jauh Ada Tidak

(3)

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Probabilitas kemunculan setiap nilai untuk atribut Harga

Tanah (C1) Harga tanah Jumlah kejadian “Dipilih” Probabilitas tanah Ya Tidak Ya Tidak Murah 2 1 2/5 1/5 Sedang 2 1 2/5 1/5 Mahal 1 3 1/5 3/5 Jumlah 5 5 1 1

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Probabilitas kemunculan setiap nilai untuk atribut Jarak

dari pusat kota (C2)

Jarak Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Ya Tidak Dekat 3 0 3/5 0 Sedang 2 1 2/5 1/5 Jauh 0 4 0 4/5 Jumlah 5 5 1 1

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Probabilitas kemunculan setiap nilai untuk atribut Ada

angkutan umum (C3) Angkutan Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Ya Tidak Ada 1 3 1/5 3/5 Tidak 4 2 4/5 2/5 Jumlah 5 5 1 1

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Probabilitas kemunculan setiap nilai untuk atribut Dipilih

untuk perumahan (C4) Dipilih Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Ya Tidak Jumlah 5 5 1/2 1/2

N

AÏVE

B

AYESIAN

C

LASSIFICATION

|Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung:

y Likelihood Ya =

1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008

y Likelihood Tidak =

3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036

N

AÏVE

B

AYESIAN

C

LASSIFICATION

|Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.

y Probabilitas Ya = 0,008 =0182 y Probabilitas Ya = y Probabilitas Tidak = . 182 , 0 036 , 0 008 , 0 + = . 818 , 0 036 , 0 008 , 0 036 , 0 ₌ +

(4)

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Modifikasi data

Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 100 2 Tidak Ya 2 200 1 Tidak Ya 3 500 3 Tidak Ya 4 600 20 Tidak Tidak 5 550 8 Tidak Tidak 6 250 25 Ada Tidak 7 75 15 Ada Tidak 8 80 10 Tidak Ya 9 700 18 Ada Tidak 10 180 8 Ada Ya

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Probabilitas kemunculan setiap nilai untuk atribut Harga

Tanah (C1) Ya Tidak 1 100 600 1 100 600 2 200 550 3 500 250 4 80 75 5 180 700 Mean (µ) Deviasi standar (σ) 212 168,8787 435 261,9637

N

AÏVE

B

AYESIAN

C

LASSIFICATION

y Probabilitas kemunculan setiap nilai untuk atribut Jarak

dari pusat kota (C2)

Ya Tidak 1 2 20 1 2 20 2 1 8 3 3 25 4 10 15 5 8 18 Mean (µ) Deviasi standar (σ) 4,8 3,9623 17,2 6,3008

N

AÏVE

B

AYESIAN

C

LASSIFICATION

|Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

( ) . 0021 , 0 e ) 8787 , 168 ( 2 1 ) ya | 300 1 C ( f 2 2 ) 8787 , 168 ( 2 212 300 = π = = − − ( ) . 0013 , 0 e ) 261.9637 ( 2 1 ) tidak | 300 1 C ( f 2 2 ) 261.9637 ( 2 435 300 = π = = − − ( ) . 0009 , 0 e ) 3.9623 ( 2 1 ) ya | 17 2 C ( f 2 2 ) 3.9623 ( 2 8 , 4 17 = π = = − − ( ) . 0633 , 0 e ) 6,3008 ( 2 1 ) tidak | 17 2 C ( f 2 2 ) 6,3008 ( 2 2 , 17 17 = π = = − −

N

AÏVE

B

AYESIAN

C

LASSIFICATION |Sehingga:

y Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10

= 0,000000756.

y Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10

= 0,000016458.,

|Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.

y Probabilitas Ya = . 0439 , 0 8 0,00001645 6 0,00000075 6 0,00000075 ₌ + |Any Questions??

(5)

K-N

EAREST

N

EIGHBOR

- 1

|Konsep dasar dari K-NN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga terdekatnya dalam data pelatihan.

|Penghitungan jarak dilakukan dengan konsep |Penghitungan jarak dilakukan dengan konsep

Euclidean.

|Jumlah kelas yang paling banyak dengan jarak terdekat tersebut akan menjadi kelas dimana data evaluasi tersebut berada.

K-N

EAREST

N

EIGHBOR

- 2

| Algoritma

y Tentukan parameter K = jumlah tetangga terdekat. y Hitung jarak antara data yang akan dievaluasi dengan

semua data pelatihan.

y Urutkan jarak yang terbentuk (urut naik) dan tentukan

j k d k i k K jarak terdekat sampai urutan ke-K.

y Pasangkan kelas (C) yang bersesuaian.

y Cari jumlah kelas terbanyak dari tetangga terdekat

tersebut, dan tetapkan kelas tersebut sebagai kelas data yang dievaluasi.

Contoh…

|…

C

LUSTERING

|Clusteringadalah proses pengelompokan objek

yang didasarkan pada kesamaan antar objek. |Tidak seperti proses klasifikasi yang bersifat

supervised learning, pada clustering proses

pengelompokan dilakukan atas dasar

unsupervised learningp g.

|Pada proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya.

|Sedangkan pada proses clustering, proses pengelompokan kejadian dalam klas akan dilakukan secara alami tanpa mengidentifikasi klas-klas sebelumnya.

C

LUSTERING

|Suatu metode clustering dikatakan baik apabila metode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik. |Metode tersebut akan menghasilkan

cluster-cluster dengan objek-objek yang memiliki tingkat kesamaan yang cukup tinggi dalam suatu y g p gg cluster, dan memiliki tingkat ketidaksamaan yang cukup tinggi juga apabila objek-objek tersebut terletak pada cluster yang berbeda. |Untuk mendapatkan kualitas yang baik, metode

clustering sangat tergantung pada ukuran kesamaan yang akan digunakan dan kemampuannya untuk menemukan beberapa pola yang tersembunyi.

K-M

EANS

|Konsep dasar dari K-Means adalah pencarian pusat cluster secara iteratif.

|Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster.

|Proses clustering dimulai dengan |Proses clustering dimulai dengan

mengidentifikasi data yang akan dicluster, xij

(i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel.

(6)

K-M

EANS

|Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), c_kj(k=1,...,K; j=1,...,m). |Kemudian dihitung jarak antara setiap data dengan

setiap pusat cluster.

|Untuk melakukan penghitungan jarak data ke i (X ) |Untuk melakukan penghitungan jarak data ke-i (Xi)

pada pusat cluster ke-k (C_k), diberi nama (d_ik), dapat digunakan formula Euclidean, yaitu:

(

)

∑

=

−

=

m 1 j 2 kj ij ik

x

c

d

K-M

EANS

|Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya.

|Selanjutnya, kelompokkan data-data yang menjadi

t d ti l t

anggota pada setiap cluster.

|Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster tersebut, dengan rumus:

k ke cluster x y ; p y c hj ij p 1 h hj kj= = ∈ −

∑

=

K-M

EANS | Algoritma:

y Tentukan jumlah cluster (K), tetapkan pusat cluster

sembarang.

y Hitung jarak setiap data ke pusat cluster.

y Kelompokkan data ke dalam cluster yang dengan jarak

yang paling pendek yang paling pendek.

y Hitung pusat cluster.

y Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang

berpindah ke cluster yang lain.

Contoh…

P

ENENTUAN

J

UMLAH

C

LUSTER

| Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal.

| Kauffman dan Rousseeuw (1990) memperkenalkan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. | Misalkan kita sebut A sebagai cluster dimana data X_i

berada, hitung ai sebagai rata-rata jarak X_ike semua data yang menjadi anggota A.

| Anggaplah bahwa C adalah sembarang cluster selain A.

P

ENENTUAN

J

UMLAH

C

LUSTER

| Hitung rata-rata jarak antara Xidengan data yang

menjadi anggota dari C, sebut sebagai d(Xi, C).

| Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi= min(d(Xi,C)) dengan C≠A.

| Silhoutte dari X_i, sebut sebagai s_idapat dipandang b i b ik t (Chih Pi 2005)

sebagai berikut (Chih-Ping, 2005):

⎪ ⎪⎪ ⎪ ⎪ ⎨ ⎧ = < − = _i _i i i i i i 0, a b b a , b a 1 s

P

ENENTUAN

J

UMLAH

C

LUSTER

| Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, .

| Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal.

k

s ~

(7)