Lift
Aturan asosiasi yang memenuhi nilai
minsup dan mincof, terkadang bisa menjadi aturan asosiasi yang menyesatkan bagi
pengguna. Aturan asosiasi A → B bisa
menyesatkan jika ternyata pembelian item A tidak diikuti dengan pembelian item B. Oleh sebab itu, digunakan suatu cara untuk mendapatkan aturan asosiasi yang tidak menyesatkan dengan mencari nilai korelasi antar data itemsets.
Pembelian itemset A adalah independent
terhadap pembelian itemset B jika P(A B) = P(A)P(B). Jika P(A B) ≠ P(A)P(B) maka pembelian itemset A dan B adalah dependent
dan saling berhubungan dalam transaksi yang sama. Menurut Han & Kamber (2006), korelasi antara pembelian A dan B dapat ditulis sebagai:
∪
∪
corrA,B = ( ) ( ) ( ) P A B P A P B ∪Nilai korelasi corrA,B sama dengan nilai P(B|A)/P(B) yang disebut juga dengan lift dari aturan asosiasi A → B. Jika nilai corrA,B < 1 maka aturan asosiasi A → B memiliki korelasi negatif yang berarti pembelian item A tidak diikuti dengan pembelian item B. Aturan asosiasi A → B memiliki korelasi positif jika nilai corrA,B > 1, hal ini berarti pembelian item
A akan diikuti dengan pembelian item B.
Itemsets A dan B adalah independent dan tidak memiliki korelasi di antara A dan B jika nilai corrA,B = 1.
METODE PENELITIAN
Metode PenelitianMetode yang digunakan dalam penelitian ini mengacu pada bagian datamining sebagai
salah satu tahapan proses Knowledge
Kamber 2006) yang meliputi:
1 Praproses Data
Praproses data meliputi pembersihan data, integrasi data, seleksi data dan transformasi data. Hasil praproses data tersebut berupa data yang dapat ditambang. Penelitian ini menggunakan data yang telah melalui tahap praproses dalam penelitian sebelumnya (Widodo 2004).
2 Data Mining
Dalam mencari minimal non-redudant
association rules, proses mining dibagi menjadi dua tahap, yaitu pembentukan
frequent closed itemsets dan pembentukan
minimal non-redundant association rules.
Pembentukan Frequent Closed Itemsets Pembentukan himpunan frequent closed itemsets (FCi) yang memenuhi minsup
dilakukan dengan terlebih dahulu membentuk himpunan kandidat frequent closed itemsets
(FCCi). Himpunan FCCi terdiri dari generator,
closed itemset (closure), dan support dari
closure. Langkah ini dilakukan dengan iterasi
untuk mencari semua himpunan FC yang
memiliki kardinalitas dari 1 sampai i (i
-generator), pencarian berhenti jika tidak terbentuk lagi generator baru.
Pembentukan frequent closed itemsets
dilakukan dengan menggunakan Algoritma
Close sebagai berikut (Pasquier et al. 1998): Generators in FCC1 = {1-itemsets}; for (i = 1;FCCi.generator • Ø;i++) do begin closures in FCCi = Ø; supports in FCCi = 0; FCCi = Gen-Closure(FCCi);
forall candidate closed itemsets
c
∈
FCCi do beginif(c.support • minsupport)then FCi = FCi
∪
c end FCCi+1 = Gen-Generator(FCi); end Answer FC = 1 (FC 1 j i j = − =∪
j.closure, FCj.support);Berdasarkan algoritma di atas, pada awal iterasi, FCC1 merupakan himpunan kandidat 1-generators berdasarkan urutan 1-itemsets.
Setiap 1-generator akan mengalami
penelusuran dalam basis data untuk mencari
closure-nya dan support dari closure
menggunakan fungsi Gen-Closure. Fungsi
Gen-Closure akan menghasilkan himpunan
FCC1, setiap closurec dengan c
∈
FCC1 yangmemenuhi minsup masuk dalam himpunan
struktur dasar lattice. Closed itemset lattice
digunakan untuk menemukan frequent closed itemset.
Definisi 5 (Frequent closed itemset)
Closed itemset C adalah frequent closed itemset jika support(C) ≥ minsup.
Definisi 6 (Generator) (Bastide et al. 2000) Sebuah itemset g dengan g ⊆ adalah
generator yang minimal dari closed itemsetl
jika dan hanya jika h(g) = l dan tidak ada g’⊆
dengan g’ g sehingga h(g’) = l. Urutan
generator dinotasikan sebagai i sehingga disebut i-generator.
⊂
Lift
Aturan asosiasi yang memenuhi nilai
minsup dan mincof, terkadang bisa menjadi aturan asosiasi yang menyesatkan bagi
pengguna. Aturan asosiasi A → B bisa
menyesatkan jika ternyata pembelian item A tidak diikuti dengan pembelian item B. Oleh sebab itu, digunakan suatu cara untuk mendapatkan aturan asosiasi yang tidak menyesatkan dengan mencari nilai korelasi antar data itemsets.
Pembelian itemset A adalah independent
terhadap pembelian itemset B jika P(A B) = P(A)P(B). Jika P(A B) ≠ P(A)P(B) maka pembelian itemset A dan B adalah dependent
dan saling berhubungan dalam transaksi yang sama. Menurut Han & Kamber (2006), korelasi antara pembelian A dan B dapat ditulis sebagai:
∪
∪
corrA,B = ( ) ( ) ( ) P A B P A P B ∪Nilai korelasi corrA,B sama dengan nilai P(B|A)/P(B) yang disebut juga dengan lift dari aturan asosiasi A → B. Jika nilai corrA,B < 1 maka aturan asosiasi A → B memiliki korelasi negatif yang berarti pembelian item A tidak diikuti dengan pembelian item B. Aturan asosiasi A → B memiliki korelasi positif jika nilai corrA,B > 1, hal ini berarti pembelian item
A akan diikuti dengan pembelian item B.
Itemsets A dan B adalah independent dan tidak memiliki korelasi di antara A dan B jika nilai corrA,B = 1.
METODE PENELITIAN
Metode PenelitianMetode yang digunakan dalam penelitian ini mengacu pada bagian datamining sebagai
salah satu tahapan proses Knowledge
Discovery in Database (KDD) (Han & Kamber 2006) yang meliputi:
1 Praproses Data
Praproses data meliputi pembersihan data, integrasi data, seleksi data dan transformasi data. Hasil praproses data tersebut berupa data yang dapat ditambang. Penelitian ini menggunakan data yang telah melalui tahap praproses dalam penelitian sebelumnya (Widodo 2004).
2 Data Mining
Dalam mencari minimal non-redudant
association rules, proses mining dibagi menjadi dua tahap, yaitu pembentukan
frequent closed itemsets dan pembentukan
minimal non-redundant association rules.
Pembentukan Frequent Closed Itemsets Pembentukan himpunan frequent closed itemsets (FCi) yang memenuhi minsup
dilakukan dengan terlebih dahulu membentuk himpunan kandidat frequent closed itemsets
(FCCi). Himpunan FCCi terdiri dari generator,
closed itemset (closure), dan support dari
closure. Langkah ini dilakukan dengan iterasi
untuk mencari semua himpunan FC yang
memiliki kardinalitas dari 1 sampai i (i
-generator), pencarian berhenti jika tidak terbentuk lagi generator baru.
Pembentukan frequent closed itemsets
dilakukan dengan menggunakan Algoritma
Close sebagai berikut (Pasquier et al. 1998): Generators in FCC1 = {1-itemsets}; for (i = 1;FCCi.generator • Ø;i++) do begin closures in FCCi = Ø; supports in FCCi = 0; FCCi = Gen-Closure(FCCi);
forall candidate closed itemsets
c
∈
FCCi do beginif(c.support • minsupport)then FCi = FCi
∪
c end FCCi+1 = Gen-Generator(FCi); end Answer FC = 1 (FC 1 j i j = − =∪
j.closure, FCj.support);Berdasarkan algoritma di atas, pada awal iterasi, FCC1 merupakan himpunan kandidat 1-generators berdasarkan urutan 1-itemsets.
Setiap 1-generator akan mengalami
penelusuran dalam basis data untuk mencari
closure-nya dan support dari closure
menggunakan fungsi Gen-Closure. Fungsi
Gen-Closure akan menghasilkan himpunan
FCC1, setiap closurec dengan c
∈
FCC1 yangmemenuhi minsup masuk dalam himpunan
dibentuklah himpunan kandidat 2-generator
untuk FCC2 menggunakan fungsi
Gen-Generator. Pada iterasi kedua, proses yang sama pada iterasi pertama dilakukan terhadap
FCC2. Iterasi pada algoritma Close akan berhenti jika tidak terbentuk lagi kandidat
generator baru.
Secara lebih detail, fungsi-fungsi yang ada pada algoritma Close dijelaskan sebagai berikut (Pasquier et al. 1998):
a.Fungsi Gen-Closure
Pada fungsi ini dilakukan pencarian
closure dan support dari closure untuk setiap
i-generator pada FCCi. Algoritma untuk fungsi Gen-Closure sebagai berikut:
forall objects o
∈
O do beginGo = Subset(FCCi.generator, f({o})); forall generators p
∈
G o do begin if (p.closure = Ø) then p.closure = f({o}); else p.closure = p.closure∩
f({o}); p.support++; end
end
Answer =
∪
{c∈
FCCi|c.closure • Ø};Pencarian closure dimulai dengan
membentuk Go, yaitu himpunan subsets generators berdasarkan subsets dari itemset
dalam transaksi f({o}). Proses penelusuran dalam Go dilakukan untuk mencari closure dan
support dari closure tiap generator. b.Fungsi Gen-Generator Pada fungsi ini dilakukan pembentukan kandidat himpunan generators baru untuk
FCC. Algoritma untuk fungsi Gen-Generator
sebagai berikut:
insert into FCCi + 1.generator
select p.item1, p.item2,..., p.itemi, q.item i
from FCi.generator p,FCi.generatorq where p.item1 = q.item1,...,
p.itemi – 1 = q.itemi – 1, p.itemi < q.itemi;
forall generators
p
∈
FCCi + 1.generator do beginforall i-subsets s of p do begin if (s
∉
FCi.generator) then delete p from FCCi+1.generator; end end forall generators p∈
FCC i + 1.generator do begin Sp = Subset (FCCi.generator,p); forall s∈
Sp do begin if (p ⊆ s.closure) thendelete p from FCCi+1.generator;
end
Pembentukan himpunan (i+1)-generator
baru untuk FCCi+1 dilakukan dengan
menggabungkan himpunan i-generator p dan
q di dalam FCi yang memiliki p.item1 =
q.item1 dengan p.itemi < q.itemi. Himpunan (i+1)-generator pada FCCi+1 akan mengalami
dua proses pruning (pemangkasan) pada
fungsi ini.
Proses pruning pertama dilakukan terhadap (i+1)-generator, jika i-subset pada (i
+1)-generator tidak ada pada himpunan
generators dalam FCi. Proses pruning kedua dilakukan terhadap (i+1)-generator, jika (i
+1)-generator adalah subset atau sama dengan
closure dari i-generator yang ada pada himpunan generators dalam FCCi.
Pembentukan Minimal Non-Redundant Association Rules
Himpunan frequent closed itemsets (FCi) yang telah dibentuk pada tahap satu digunakan
untuk membentuk minimal non-redundant
association rules. Minimal non-redundant association rules terdiri dari exact association rules dan approximate association rules.
Pembentukan exact association rules dan
approximate association rules dilakukan melalui dua proses pembentukan yang berbeda (Bastide et al. 2000), yaitu:
a Pembentukan exact association rules Exact association rule r: l1
⇒
(l2 \ l1) merupakan aturan asosiasi antara itemsetl1 danl2 dengan h(l1) = h(l2). Berdasarkan h(l1) =
h(l2) dianggap l1
⊂
l2, sehingga support (l1) =support (l2) dan nilai confidence = 1 atau 100%. Exact association rules dibentuk menggunakan Algoritma Gen-GB (Bastide et al. 2000) sebagai berikut:
Input: himpunan dari FCi
Output: himpunan dari GB yaitu exact association rules GB • {}
forall set FCi
∈
FC do beginforall i-generator g
∈
FC i such that g • h(g) do begin GB • GB {(r:g (h(g)\g), h(g).support)};∪ ⇒
end end return GB;b Pembentukan approximate association rules Approximate association rule r: l1 → (l2 \ l1) merupakan aturan asosiasi antara itemset l1 dan l2 dengan l1
⊂
l2 dan h(l1)⊂
h(l2), sehingga nilai confidence < 1. Approximate association rules dibentuk menggunakanAlgoritma Gen-RI (Bastide et al. 2000) sebagai berikut:
µ = ukuran maksimal FCi minconfidence = mincof
Succg= himpunan supersets dari h(g) Input: himpunan FCidan nilai
minconfidence
Output: himpunan dari RI yaitu approximate association rules
RI • {}
for (i • 1;i •
µ
- 1;i++) do begin forall i-generator g∈
FCido begin Succg • {}; for (j = |h(g)|;j •µ
;j++) do begin S j • {f∈
FC|f⊃
h(g)∧
|f|=j}; end for (j=|h(g)|;j •µ
; j++) do beginforall frequent closed itemset
f
∈
Sj do begin if ( s∈
Succg|s⊂
f) then do begin Succg • Succg∪
f ; r.confidence • f.support/g.support; if(r.confidence • minconfidence)then RI • RI {r : g • (f \ g), r.confidence, f.support};∪
endif end end end end return RI; 3 Evaluasi PolaEvaluasi pola yakni melakukan pencarian aturan asosiasi yang menarik dan tidak
misleading (menyesatkan). Tahap ini
dilakukan pada minimal non-redundant
association rules yang telah dihasilkan berdasarkan nilai lift dari minimal non-redundant association rules.
4 Presentasi Pengetahuan
Presentasi pengetahuan merupakan tahap akhir di mana hasil evaluasi pola minimal non-redundant association rules yang telah dihasilkan ditampilkan dalam bentuk tabel.
Tabel memuat minimal non-redundant
association rules, nilai support dan confidence.
Lingkungan Pengembangan Sistem
Lingkungan pengembangan sistem ini adalah sebagai berikut:
Perangkat keras:
• prosesor: Intel Pentium IV, 2.4 Ghz,
• memori: 256 MB RAM,
• harddisk dengan kapasitas 80 GB,
, dan
ra k:
i: Microsoft Windows XP
• soft Access 2003, dan
0.
akan adalah basis dat ini ata erangan • mouse, • keyboard • monitor. Pe ngkat luna • sistem operas Professional, DBMS: Micro
• bahasa pemrograman: Visual Basic 6.
Perancangan Basis Data
Basis data yang digun
a pada penelitian Widodo (2004). Pada penelitian ini dilakukan beberapa perubahan dalam basis data sebelumnya untuk kepentingan implementasi Algoritma Close, Algoritma Gen-GB, dan Algoritma Gen-RI.
Basis data yang digunakan dalam sistem terdiri dari sembilan tabel yang dapat dilihat pada Tabel 1, properti dari setiap tabel terdapat pada Lampiran 1.
Tabel 1 Tabel dalam basis d
Nama Tabel Ket
tblTransaksiAsli Data hasil transaksi
tblKelBarang Data kelompok barang
tblTransaksiReduksi Data hasil proses
selection
tblCleanTransaksi Data hasil proses
cleaning
tblBiner Data hasil proses
integration dan
transformation
tblCGenerator Data kandiat
generators
tblGenClosure Data kandidat
frequent closed itemsets
tblClosure Data frequent closed
itemsets
tblBantu Data et dari
r subs
kandidat generato
tblResult Data hasil proses
mining