• Tidak ada hasil yang ditemukan

Perkembangan yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan organisasi untuk mengumpulkan sejumlah data berukuran besar, sehingga menghasilkan tumpukan data. Konsep data mining digunakan untuk mengelola tumpukan data menjadi suatu pengetahuan yang berharga, sehingga dapat diaplikasikan dalam berbagai bidang, di antaranya dalam bidang bisnis dan kedokteran.

Data mining merupakan proses ekstraksi informasi atau pola yang penting dalam basis data berukuran besar. Salah satu teknik data mining adalah metode association rule mining

yang berguna untuk menemukan aturan asosiasi pada basis data. Pada dasarnya aturan asosiasi digunakan untuk menggambarkan keterkaitan antar item pada sekumpulan data (Han & Kamber 2006).

Penerapan association rules dapat

dicontohkan pada analisis pembelian di suatu pasar swalayan, sehingga dapat diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur penempatan barang atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.

Teknik association rules mining seringkali menghasilkan aturan asosiasi dalam jumlah banyak. Menurut Bastide et al. (2000), aturan asosiasi yang berjumlah banyak dapat mengandung aturan-aturan yang tidak relevan (minimal anteseden dan maksimal konsekuen) dan aturan yang berulang, yaitu aturan–aturan yang memberikan informasi yang sama.

Penelitian ini menerapkan teknik minimal non-redundant association rulesmining untuk menghasilkan aturan asosiasi yang tidak berulang menggunakan konsep closure dalam

Galois connection. Algoritma Close

digunakan untuk mengekstrak generators dan

frequent closed itemsets. Berdasarkan

generators dan frequent closed itemsets yang didapat akan dibentuk minimal non-redundant association rules (Bastide et al. 2000).

Minimal non-redundant association rules

mempresentasikan aturan dengan anteseden yang minimal dan konsekuen yang maksimal tanpa mengurangi informasi yang terkandung dalam data yang ditambang. Berdasarkan sudut pandang pengguna, aturan asosiasi yang

tidak berulang dengan anteseden yang minimal dan konsekuen yang maksimal menjadi bentuk aturan asosiasi paling relevan dan berguna (Bastide et al. 2000).

Tujuan

Tujuan penelitian ini adalah:

1 menerapkan konsep closure dari Galois connection untuk membentuk generators dan frequent closed itemsets

menggunakan algoritma Close (Pasquier 1998),

2 membentuk minimal non-redundant

association rules menggunakan

generators dan frequent closed itemsets,

3 membandingkan hasil dan waktu eksekusi pada minimal non-redundant association rules mining dengan association rules mining dalam penelitian sebelumnya (Widodo 2004).

Ruang Lingkup

Ruang lingkup penelitian ini dibatasi pada penggunaan konsep closure dalam Galois connection untuk mendapatkan minimal non-redundant association rules. Penelitian ini menggunakan data transaksi yang sama dengan penelitian Widodo (2004), yaitu data transaksi pembelian barang di Sinar Mart Swalayan selama 2 bulan (1 Maret 2004 – 21 Mei 2004).

Manfaat Penelitian

Hasil penelitian diharapkan dapat

memberikan minimal non-redundant

association rules yang paling relevan dan berguna serta mudah dipahami oleh pengguna.

TINJAUAN PUSTAKA

Knowledge Discovery in Database (KDD) Knowledge Discovery in Database (KDD) adalah proses untuk menemukan pengetahuan dari suatu basis data yang terdiri atas urutan langkah-langkah yang dapat dilihat pada Gambar 1 (Han & Kamber 2006).

Menurut Han & Kamber (2006), tahapan proses KDD adalah:

1 Pembersihan Data

Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten dan data yang mengandung noise.

Gambar 1 Tahapan dalam KDD (Han & Kamber 2006).

2 Seleksi Data

Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 3 Transformasi Data

Proses ini mentransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk ditambangdengan cara melakukan peringkasan atau operasi agregrasi.

4 Data Mining

Data mining merupakan proses yang penting, di mana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dalam data.

5 Evaluasi Pola

Evaluasi pola diperlukan untuk

mengidentifikasi pola-pola yang menarik dalam merepresentasikan pengetahuan. 6 Presentasi Pengetahuan

Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil penggalian gunung data kepada pengguna.

Data Mining

Data mining merupakan proses ekstraksi informasi atau pola yang penting dalam basis data berukuran besar. Beberapa teknik di dalam data mining antara lain: clustering, classification, association rule mining, dan

anomaly detaction. Association rule mining

digunakan untuk mencari hubungan menarik di antara items dalam suatu himpunan data (Han & Kamber 2006).

Ukuran objektif yang dapat digunakan untuk menemukan aturan asosiasi adalah nilai

support dan confidence. Support adalah persentase kombinasi item dalam basis data dan confidence merupakan nilai persentase dari hubungan antar item dalam aturan asosiasi.

dari basis data transaksi, Txy adalah himpunan dari banyak transaksi yang mengandung himpunan item data X dan Y. Tx adalah himpunan dari transaksi yang mengandung

item data X maka support dan confidence dari aturan asosiasi X → Y didefinisikan sebagai berikut: Support = xy

T

S

Confidence = xy x

T

T

Minimal Non-Redundant Association Rules Sebuah aturan asosiasi dikatakan berulang jika terdapat aturan asosiasi lain yang memberikan informasi yang sama sehingga aturan asosiasi tersebut menjadi tidak efektif (Bastide et al. 2000). Aturan asosiasi yang berulang dicontohkan sebagai berikut:

NO Aturan Asosiasi Support Confidence

1 A → B 33 % 66 %

2 A → B, C 33 % 66 %

3 A → B, C, E 33 % 66 %

Berdasarkan contoh di atas, ketiga aturan asosiasi tersebut berulang karena tidak memberikan tambahan informasi bagi pengguna. Hanya aturan asosiasi A → B, C, E yang paling relevan dan berguna untuk ditampilkan pada pengguna karena memiliki anteseden yang minimal dan konsekuen yang paling maksimal dan mengandung keseluruhan informasi dari ketiga aturan.

Aturan asosiasi yang berulang sering terdapat pada data yang bersifat dense (padat) dan memiliki korelasi data yang tinggi. Data yang padat memiliki nilai null yang sedikit, sehingga korelasi di dalam data kuat. Dalam data transaksi, korelasi terjadi pada transaksi dan item dalam data.

Menurut Bastide et al. (2000), sebuah aturan asosiasi r : l1l2 adalah minimal non-redundant association rules jika dan hanya jika tidak ada aturan asosiasi lain r’ : l’1l’2 dengan support(r) = support(r’), confidence(r) = confidence(r’), l’1l1, dan l2 l’2. Aturan asosiasi terbagi menjadi dua jenis, yaitu (Bastide et al. 2000):

1 Exact association rules adalah aturan asosiasi yang memiliki nilai confidence = 100 % dengan bentuk aturan asosiasi adalah r : l1

l2.

2 Approximate association rules adalah aturan asosiasi yang memiliki nilai

confidence < 100 % dengan bentuk aturan asosiasi adalah r : l1 l2.

Algoritma Close (Bastide 2000) digunakan untuk menghasilkan generators dan frequent closed itemsets yang memenuhi syarat

minimum support (minsup). Minimal non-redundant association rules membentuk exact association rules dan approximate association rules menggunakan generators dan frequent closed itemsets yang memenuhi syarat

minimum confidence (mincof ).

Minimal non-redundant association rules

meminimalkan jumlah aturan asosasi yang berulang dengan tetap memaksimalkan kuantitas dan kualitas informasi yang

dihasilkan. Minimal non-redundant

association rules menampilkan aturan asosiasi yang meliputi semua item yang ada dalam basis data.

Galois Connection

Galois connection ditemukan oleh ahli matematika dari Prancis bernama Evariste Galois. Galois connection didefinisikan sebagai hubungan antara dua item berbeda yang saling berhubungan satu sama lain dalam sebuah aplikasi. Konsep closure dalam Galois connection adalah suatu konsep hubungan antara dua item berbeda karena memiliki kesamaan (Priss 2006).

Dalam konteks datamining terdapat notasi untuk basis data D = ( , , R), dengan

adalah himpunan transaksi, adalah

himpunan item dalam basis data, dan R

Χ adalah suatu hubungan dalam nilai biner antara transaksi dan item. Setiap pasangan (o,

i)

R menyatakan transaksi o

memiliki

itemi

(Pasquier et al. 1999).

Berdasarkan pengertian konteks data mining, dijelaskan beberapa definisi yang berhubungan dengan mining minimal non-redudant association rules (Pasquier et al. 1999), yaitu:

Definisi 1 (Galois connection)

Diketahui D = ( , , R) dengan O

dan I ⊆ maka didefinisikan:

f(O) : 2 → 2

f(O) = {i

|∀o

O, (o, i)

R}

g(I) : 2 → 2

g(I) = {o

|∀i

I, (o, i)

R}

f(O) berasosiasi dengan O yang

mengandung item untuk semua transaksi

o

O dan g(I) berasosiasi dengan I di mana transaksi mengandung semua item i

I. Pasangan aplikasi (f, g) merupakan Galois connection antara himpunan kuasa dari dengan himpunan kuasa dari . Dimisalkan

untuk semua I, I1, I2 ⊆ dan O, O1, O2

memiliki sifat-sifat sebagai berikut: (1) I1 I2

g(I1)

g(I2) (1’) O1 O2

f(O1)

f(O2) (2) Og(I)

If(O) Definisi 2 (Galois closure operator)

Operator h = f g untuk 2 dan h’ = g f untuk 2 disebut Galois closure operator. Diketahui suatu Galois connection (f, g) dengan memiliki sifat-sifat sebagai berikut: Perluasan: (3) Ih(I) (3’) Oh’(O) Persamaan: (4) h(h(I)) = h(I) (4’) h’(h’(O)) = h’(O)) Monoton: (5) I1 I2

h(I1) ⊆ h(I2) (5’) O1 O2

h’(O1) ⊆ h’(O2)

Definisi 3 (Closed itemsets)

Diketahui itemset C ⊆ dalam D adalah

closed itemset jika dan hanya jika h(C) = C.

Closed itemset yang paling minimal mengandung itemset I untuk h(I), h(I) disebut

closure dari I.

Definisi 4 (Closed itemset lattice)

Diketahui adalah himpunan dari closed itemset di dalam D yang didapat menggunakan

Galois closure operators. = ( , ≤) adalah

lattice yang kompleks disebut closed itemset lattice. Struktur dasar lattice memiliki dua ciri, yaitu:

1 Urutan elemen latticeC1, C2 ⊆ adalah

C1 C2 jika hanya jika C1 C2. 2 memiliki batas atas dari fungsi join

dan batas bawah dari fungsi meet

terhadap elemen. Dimisalkan S

maka fungsi join dan meet terhadap elemen-elemen didefinisikan sebagai berikut: Join (S) = h( ) Meet (S) = C S C

C S C

OID Item 1 A C D 2 B C E 3 A B C E 4 B E 5 A B C E

Gambar 2 DatasetD dan closed itemset lattice dari D.

Gambar 2 menunjukkan dataset D yang memiliki closed itemset lattice sesuai dengan

digunakan untuk menemukan frequent closed itemset.

Definisi 5 (Frequent closed itemset)

Closed itemset C adalah frequent closed itemset jika support(C) ≥ minsup.

Definisi 6 (Generator) (Bastide et al. 2000) Sebuah itemset g dengan g ⊆ adalah

generator yang minimal dari closed itemsetl

jika dan hanya jika h(g) = l dan tidak ada g’⊆

dengan gg sehingga h(g’) = l. Urutan

generator dinotasikan sebagai i sehingga disebut i-generator.

Lift

Aturan asosiasi yang memenuhi nilai

minsup dan mincof, terkadang bisa menjadi aturan asosiasi yang menyesatkan bagi

pengguna. Aturan asosiasi A → B bisa

menyesatkan jika ternyata pembelian item A tidak diikuti dengan pembelian item B. Oleh sebab itu, digunakan suatu cara untuk mendapatkan aturan asosiasi yang tidak menyesatkan dengan mencari nilai korelasi antar data itemsets.

Pembelian itemset A adalah independent

terhadap pembelian itemset B jika P(A B) = P(A)P(B). Jika P(A B) ≠ P(A)P(B) maka pembelian itemset A dan B adalah dependent

dan saling berhubungan dalam transaksi yang sama. Menurut Han & Kamber (2006), korelasi antara pembelian A dan B dapat ditulis sebagai:

corrA,B = ( ) ( ) ( ) P A B P A P B

Nilai korelasi corrA,B sama dengan nilai P(B|A)/P(B) yang disebut juga dengan lift dari aturan asosiasi A → B. Jika nilai corrA,B < 1 maka aturan asosiasi A → B memiliki korelasi negatif yang berarti pembelian item A tidak diikuti dengan pembelian item B. Aturan asosiasi A → B memiliki korelasi positif jika nilai corrA,B > 1, hal ini berarti pembelian item

A akan diikuti dengan pembelian item B.

Itemsets A dan B adalah independent dan tidak memiliki korelasi di antara A dan B jika nilai corrA,B = 1.

Dokumen terkait