• Tidak ada hasil yang ditemukan

PENAMBANGAN DATA OPENCOURSEWARE UNIVERSITAS PEMBANGUNAN JAYA Slide TIF311 DM 8 9

N/A
N/A
Protected

Academic year: 2017

Membagikan "PENAMBANGAN DATA OPENCOURSEWARE UNIVERSITAS PEMBANGUNAN JAYA Slide TIF311 DM 8 9"

Copied!
27
0
0

Teks penuh

(1)
(2)

Analisis Asosiasi

Adalah sebuah metodologi untuk mencari relasi

istimewa/menarik yang tersembunyi dalam himpunan data (data set) yang besar

Relasi yang tersembunyi ini dapat direpresentasikan dalam

(3)

Menambang Aturan Asosiasi

Berdasarkan data set transaki, akan dicari aturan yang dapat

memprediksi kejadian bersama sebuah item, berdasarkan kejadian bersama dari item-item lainnya dalam transaksi

Market-Basket transactions

Contoh Aturan Asosiasi

{Diaper}  {Bir}, {Susu, Roti}  {Telur,Coke},

{Bir, Roti}  {Susu},

(4)

Beberapa Istilah

Itemset : Koleksi dari sejumlah

(satu/lebih)item

Contoh: {Bir} , { Susu,Roti, Diaper}

k-itemset

Item set yang terdiri dari k item

Contoh : 3 – item set = { Susu,Roti, Diaper}

Support count (

)

Frekuensi terjadinya sebuah itemset dalam data set

Contoh : ({Milk, Bread,Diaper}) = 2

Support (s)

–Perbandingan

terjadinya sebuah itemset terhadap jumlah seluruh

itemset dalam dataset

(5)

Beberapa Istilah (2)

Frequent Itemset

Itemset yang nilai

supportnya lebih besar atau sama dengan ”

minsup threshold” Support Count

Associaton Rule

(6)

Parameter Pengevaluasi Aturan

Support (s)

Perbandingan

transaksi-transaksi yang mengandung X dan Y

Confidence (c)

Menunjukkan kekerapan

munculnya item-item dalam Y dalam transaksi yang

mengandung X

(7)

Strategi Algoritma Analisis

Asosiasi

Ada 2 langkah besar yang diambil, yaitu :

1. Frequent Itemset Generation

Mengoleksi semua itemset yang memenuhi syarat

support  minsup. Itemset-itemset ini disebut frequent itemset

2. Rule Generation

Bertujuan membentuk aturan dengan nilai confidence yang tingi dari frequent

itemset yang telah diperoleh sebelumnya. Aturan ini disebut strong rules

Mengenerate frequent itemset merupakan tahapan yang berat dari

(8)

Frequent Itemset Generation

Ada 2d kandidat

itemsets yang

terbentuk; d= # item

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

(9)

Frequent Itemset Generation

Brute-force approach:

Setiap itemset dalam jaring adalah candidate frequent itemsetHitung support dari setiap kandidat dengan scanning database

(10)

Kompleksitas Komputasional

Jika terdapat d item yang berbeda,

maka:

Total itemsets = 2d

Total association rules yang mungkin :

(11)

Strategi Pembentukan Frequent

Itemset

Mereduksi jumlah kandidat (M)

Gunakan prinsip Apriori

Mereduksi jumlah perbandingan (NM)

Gunakan struktur data yang efisien untuk menyimpan kandidat atau transaksi

(12)

Mereduksi jumlah kandidat

(M)

Prinsip Apriori : Jika sebuah itemset merupakan frequent itemset

maka subsetnya pun merupakan frequent itemset

Contoh : {Susu, Bir, Roti, Diaper} merupakan frequent item set,

maka {Susu},{Roti},{Roti, Diaper}, {Susu,Bir,Roti}, dst juga

merupakan frequent itemset

Sifat anti-monotone

spport dari sebuah itemset tidak akan lebih besar dari support subsetnya

(13)

Mis bukan frequent itemset

Ilustrasi Prinsip Apriori

(14)

Ilustrasi Prinsip Apriori (2)

Items (1-itemsets)

Pairs (2-itemsets)

(No need to generate

candidates involving Coke or Eggs)

Triplets (3-itemsets)

Minimum Support = 3

If every subset is considered,

6C

1 + 6C2 + 6C3 = 41

With support-based pruning,

6 + 6 + 1 = 13

Item Count

Bread 4

Coke 2

Milk 4 Beer 3 Diaper 4

Eggs 1

Itemset Count

{Bread,Milk} 3

{Bread,Beer} 2

{Bread,Diaper} 3

{Milk,Beer} 2

{Milk,Diaper} 3

{Beer,Diaper} 3

Itemset Count

(15)

Algoritma Apriori

Misalkan k=1

Bentuk frequent itemsets yang terdiri dari k itemUlangi hingga tidak ada lagi frequent itemsets yang

baru

Bentuk kandidat itemset dengan panjang (k+1) dari frequent

itemset dengan panjang k

Buang kandidat itemsets yang berisi subset dengan panjang k

yang tidak frequent

Hitung support dari setiap kandidat dengan scannding basisdata

(16)

Pembentukan Rule (1)

Misalkan ada frequent itemset L, cari subsets yang tidak hampa f  L sedemikian sehingga f  L – f memenuhi nilai minimum confidence

Mis {A,B,C,D} adalah frequent itemset, maka kandidat rules: ABC D, ABD C, ACD B, BCD A,

A BCD, B ACD, C ABD, D ABC AB CD, AC  BD, AD  BC, BC AD, BD AC, CD AB,

Jk |L| = k, maka akan terdapat 2k – 2 kandidat

(17)

Pembentukan Rule(2)

Bagaimana membentuk rules dari frequent itemset

dengan efisien?

Secara umum, confidence tidak bersifat anti-monotone c(ABC D) dapat lebih besar/kecil c(AB D)

Tetapi nilai confidence dari rules yg berasal dari itemset yang sama bersifat anti-monotone

e.g., L = {A,B,C,D}:

(18)

Pembentukan Rule Algoritma Apriori

Lattice of rules

Prune d

Rules

Low

(19)

Pembentukan Rule Algoritma Apriori

Kandidat rule dibentuk dengan cara menggabungkan 2

rules yang memiliki prefix yang sama sebagai konsekuennya

join(CD=>AB,BD=>AC)

sehingga terbentuk rule D => ABC

Buang rule D=>ABC jika ia mempunyai

subset AD=>BC dengan nilai confidence rendah

BD=>AC CD=>AB

(20)

Contoh :

Gunakan algoritma apriori untuk

membentuk aturan analisis asosiasi

pengklasifikasi dari data pada tabel

Min Support Count=2 Min Confidence= 50%

TID List of item

T100 I1,I2,I5

T200 I2,I4

T300 I2,I3

T400 I1,I2,I4

T500 I1,I3

T600 I2,I3

T700 I1,I3

T800 I1,I2,I3,I5

(21)

Algoritma FP-Growth

Gunakan representasi terkompresi basis data dengan

memanfaatkan FP-tree

Setelah FP-tree terbentuk, gunakan teknik

(22)

Pembentukan FP-tree

null

Setelah membaca TID=1:

Setelah membaca TID=2:

TID Items

(23)

FP-Tree Construction

Pointers digunakan untuk

membantu dalam menentukan frequent itemset

D:1

E:1

Database Transaksi

Header table

TID Items

1 {A,B}

Item Pointer A

(24)

FP-growth

Conditional Pattern base untuk D:

Secara rekursif terapkan proses FP-Growth pada P Mis minsup=1,maka

Frequent Itemsets yang diperoleh :

AD, BD, CD, ACD, BCD

(25)

Tree Projection

Set enumeration tree:

Possible

Extension: E(A) = {B,C,D,E}

Possible Extension: E(ABC) = {D,E}

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

(26)

Tree Projection

Items disusun berdasarkan lexicographic orderSetiap node P menyimpan informasi sbb:

Itemset untuk node P

Daftar ekstensi P yang mungkin, secara lexicigraphic ; E(P)Pointer pada projected database dari ancestor node

(27)

Projected Database

Database Asli: Projected Database untuk node A: Untuk setiap transaksi T, projected transaction pada node A adalah T E(A)

TID Items

1 {A,B}

TID Items

Referensi

Dokumen terkait

Berdasarkan hasil penelitian maka tingkat pemekatan ekstrak karaginan yang baik digunakan untuk analisis kadar karaginan rumput laut Eucheuma cottonii secara

Peningkatan aktiva dan tagihan valas menyebabkan penurunan pendapatan valas, sedangkan peningkatan pasiva dan kewajiban valas menyebabkan penurunan biaya valas.Jadi

Orang asing yang telah berjasa kepada negara Republik Indonesia atau dengan alasan kepentingan negara dapat diberi Kewarganegaraan Republik Indonesia oleh Presiden setelah memperoleh

Hoya memiliki tipe daun sukulen dan non sukulen. Karakter anatomi dapat digunakan untuk identifikasi, klasifikasi, dan penentu kekerabatan tumbuhan. Penelitian ini

Pada kenyataannya, deposisi atau penumpukan dari AGE telah ditunjukkan pada sel saraf manusia maupun hewan yang menderita diabetes, dimana dapat terjadi pada setiap

stroke perdarahan intraventrikular di Rumah Sakit H. Adam Malik Medan. Seperti yang kita ketahui bahwa volume perdarahan yang dihitung menggunakan sistem skoring Modified

1. Membaca komposisi bahan makanan dan minuman yang tertera pada kemasan 3. Menuliskan jenis zat aditif yang ada pada makanan dan minuman kemasan tersebut 4. Menentukan

Linking science and policy research matters because the adoption of technologies for improved natural resource management, or of other interventions that scientific research may