PENAMBANGAN DATA OPENCOURSEWARE UNIVERSITAS PEMBANGUNAN JAYA Slide TIF311 DM 8 9

(1)

(2)

Analisis Asosiasi

• _{Adalah sebuah metodologi untuk mencari relasi}

istimewa/menarik yang tersembunyi dalam himpunan data (data set) yang besar

• _{Relasi yang tersembunyi ini dapat direpresentasikan dalam}

(3)

Menambang Aturan Asosiasi

_{Berdasarkan data set transaki, akan dicari aturan yang dapat}

memprediksi kejadian bersama sebuah item, berdasarkan kejadian bersama dari item-item lainnya dalam transaksi

Market-Basket transactions

Contoh Aturan Asosiasi

{Diaper}  {Bir}, {Susu, Roti}  {Telur,Coke},

{Bir, Roti}  {Susu},

(4)

Beberapa Istilah

• _{Itemset : Koleksi dari sejumlah}

(satu/lebih)item

• _{Contoh: {Bir} , { Susu,Roti, Diaper}}

• _k-itemset

• _{Item set yang terdiri dari k item}

• _{Contoh : 3 – item set = { Susu,Roti, Diaper}}

• _{Support count (}



₎

• _{Frekuensi terjadinya sebuah itemset} dalam data set

• _{Contoh :}__{({Milk, Bread,Diaper}) = 2}

Support (s)

–Perbandingan

terjadinya sebuah itemset terhadap jumlah seluruh

itemset dalam dataset

(5)

Beberapa Istilah (2)

• _{Frequent Itemset}

• _{Itemset yang nilai}

supportnya lebih besar atau sama dengan ”

minsup threshold” Support Count

• Associaton Rule

(6)

Parameter Pengevaluasi Aturan

_{Support (s)}

_Perbandingan

transaksi-transaksi yang mengandung X dan Y

_{Confidence (c)}

_{Menunjukkan kekerapan}

munculnya item-item dalam Y dalam transaksi yang

mengandung X

(7)

Strategi Algoritma Analisis

Asosiasi

Ada 2 langkah besar yang diambil, yaitu :

1. Frequent Itemset Generation

– _{Mengoleksi semua itemset yang memenuhi syarat}

support  minsup. Itemset-itemset ini disebut frequent itemset

2. Rule Generation

– _{Bertujuan membentuk aturan dengan nilai confidence yang tingi dari}_frequent

itemset yang telah diperoleh sebelumnya. Aturan ini disebut strong rules

_{Mengenerate frequent itemset merupakan tahapan yang berat dari}

(8)

Frequent Itemset Generation

Ada 2d_kandidat

itemsets yang

terbentuk; d= # item

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

(9)

Frequent Itemset Generation

• _{Brute-force approach:}

• _{Setiap itemset dalam jaring adalah}_candidate_{frequent itemset} • _{Hitung support dari setiap kandidat dengan scanning database}

(10)

Kompleksitas Komputasional

_{Jika terdapat d item yang berbeda,}

maka:

_{Total itemsets = 2}d

_{Total association rules yang mungkin :}

(11)

Strategi Pembentukan Frequent

Itemset

• _{Mereduksi jumlah kandidat (M)}

• _{Gunakan prinsip Apriori}

• _{Mereduksi jumlah perbandingan (NM)}

• _{Gunakan struktur data yang efisien untuk menyimpan kandidat atau} transaksi

(12)

Mereduksi jumlah kandidat

(M)

• _{Prinsip Apriori :}_{Jika sebuah itemset merupakan frequent itemset}

maka subsetnya pun merupakan frequent itemset

Contoh : {Susu, Bir, Roti, Diaper} merupakan frequent item set,

maka {Susu},{Roti},{Roti, Diaper}, {Susu,Bir,Roti}, dst juga

merupakan frequent itemset

• _{Sifat anti-monotone}

• _{spport dari sebuah itemset tidak akan lebih besar dari support subsetnya}

(13)

Mis bukan frequent itemset

Ilustrasi Prinsip Apriori

(14)

Ilustrasi Prinsip Apriori (2)

Items (1-itemsets)

Pairs (2-itemsets)

(No need to generate

candidates involving Coke or Eggs)

Triplets (3-itemsets)

Minimum Support = 3

If every subset is considered,

6C

1 + 6C2 + 6C3 = 41

With support-based pruning,

6 + 6 + 1 = 13

Item Count

Bread 4

Coke 2

Milk 4 Beer 3 Diaper 4

Eggs 1

Itemset Count

{Bread,Milk} 3

{Bread,Beer} 2

{Bread,Diaper} 3

{Milk,Beer} 2

{Milk,Diaper} 3

{Beer,Diaper} 3

Itemset Count

(15)

Algoritma Apriori

_{Misalkan k=1}

_{Bentuk frequent itemsets yang terdiri dari k item} _{Ulangi hingga tidak ada lagi frequent itemsets yang}

baru

_{Bentuk kandidat itemset dengan panjang (k+1) dari frequent}

itemset dengan panjang k

_{Buang kandidat itemsets yang berisi subset dengan panjang k}

yang tidak frequent

_{Hitung support dari setiap kandidat dengan scannding basisdata}

(16)

Pembentukan Rule (1)

• _{Misalkan ada frequent itemset L, cari subsets yang tidak} hampa f  L sedemikian sehingga f  L – f memenuhi nilai minimum confidence

• _{Mis {A,B,C,D} adalah frequent itemset, maka kandidat rules:} ABC D, ABD C, ACD B, BCD A,

A BCD, B ACD, C ABD, D ABC AB CD, AC  BD, AD  BC, BC AD, BD AC, CD AB,

• _{Jk |L| = k, maka akan terdapat 2}k – 2 kandidat

(17)

Pembentukan Rule(2)

_{Bagaimana membentuk rules dari frequent itemset}

dengan efisien?

_{Secara umum, confidence tidak bersifat anti-monotone} c(ABC D) dapat lebih besar/kecil c(AB D)

_{Tetapi nilai confidence dari rules yg berasal dari itemset yang} sama bersifat anti-monotone

_{e.g., L = {A,B,C,D}:}

(18)

Pembentukan Rule Algoritma Apriori

Lattice of rules

Prune d

Rules

Low

(19)

Pembentukan Rule Algoritma Apriori

• _{Kandidat rule dibentuk dengan cara menggabungkan 2}

rules yang memiliki prefix yang sama sebagai konsekuennya

• _{join(CD=>AB,BD=>AC)}

sehingga terbentuk rule D => ABC

• _{Buang rule D=>ABC jika ia mempunyai}

subset AD=>BC dengan nilai confidence rendah

BD=>AC CD=>AB

(20)

Contoh :

Gunakan algoritma apriori untuk

membentuk aturan analisis asosiasi

pengklasifikasi dari data pada tabel

Min Support Count=2 Min Confidence= 50%

TID List of item

T100 I1,I2,I5

T200 I2,I4

T300 I2,I3

T400 I1,I2,I4

T500 I1,I3

T600 I2,I3

T700 I1,I3

T800 I1,I2,I3,I5

(21)

Algoritma FP-Growth

• _{Gunakan representasi terkompresi basis data dengan}

memanfaatkan FP-tree

• _{Setelah FP-tree terbentuk, gunakan teknik}

(22)

Pembentukan FP-tree

null

Setelah membaca TID=1:

Setelah membaca TID=2:

TID Items

(23)

FP-Tree Construction

Pointers digunakan untuk

membantu dalam menentukan frequent itemset

D:1

E:1

Database Transaksi

Header table

TID Items

1 {A,B}

Item Pointer A

(24)

FP-growth

Conditional Pattern base untuk D:

Secara rekursif terapkan proses FP-Growth pada P Mis minsup=1,maka

Frequent Itemsets yang diperoleh :

AD, BD, CD, ACD, BCD

(25)

Tree Projection

Set enumeration tree:

Possible

Extension: E(A) = {B,C,D,E}

Possible Extension: E(ABC) = {D,E}

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

(26)

Tree Projection

_{Items disusun berdasarkan}_{lexicographic order} _{Setiap node P menyimpan informasi sbb:}

_{Itemset untuk node P}

_{Daftar ekstensi P yang mungkin, secara lexicigraphic ; E(P)} _{Pointer pada projected database dari ancestor node}

(27)

Projected Database

Database Asli: Projected Database untuk node A: Untuk setiap transaksi T, projected transaction pada node A adalah T  E(A)

TID Items

1 {A,B}

TID Items