KESIMPULAN DAN SARAN - Pengembangan alat bantu penambangan aturan asosiasi langka menggunakan

Kesimpulan dan saran berisi tentang kesimpulan dan saran dari penulis tugas akhir mengenai penelitian yang dilakukan.

7. Daftar Pustaka

Daftar pustaka berisi tentang referensi yang digunakan dalam penyusunan tugas akhir.

11 BAB II

TINJAUAN PUSTAKA

II. 1. Pengertian Penambangan Data

Istilah Penambangan data (data mining) sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Pada dasarnya data mining berhubungan dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi. Namun saat ini penambangan data jauh berkembang dengan adanya algoritma penambangan data yang membantu dalam melakukan ekstraksi informasi penting dari jumlah data yang besar.

Penambangan data dapat diartikan sebagai “suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data” (Han & Kamber, 2006). Penambangan data merupakan bagian dari knowledge discovery in databases (KDD), dimana penambangan data berfungsi sebagai proses untuk mengekstrak data menjadi informasi yang berguna.

II. 2. Proses Penambangan Data

Menurut Jiawei Han dan Kamber dalam bukunya “Data Mining: Concepts

1. Pembersihan Data ( Data Cleaning )

Pada tahap ini dilakukan proses membuang data yang tidak konsisten dan

noise. Contohnya: data yang kadaluarsa, salah pengetikan maupun data yang kosong.

2. Penggabungan Data ( Data Integration )

Penggabungan data dari beberapa sumber agar seluruh data terangkum dalam satu tabel yang utuh.

3. Seleksi Data ( Data Selection

Menyeleksi data dimana data yang relevan diambil dari database.

4. Transformasi Data ( Data Transformation )

Mentranformasikan atau merubah data kedalam bentuk yang sesuai untuk ditambang.

5. Penambangan Data ( Data Mining )

Penerapan teknik penambangan data untuk mengekstrak pola. 6. Evaluasi Pola ( Pattern Evaluation )

Pola yang didapat dari proses penambangan data akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya. Akhir dari tahap ini adalah diperolehnya persentase akurasi data.

7. Presentasi Pengetahuan ( Knowledge Presentation )

Pada tahap ini pola yang didapat direpresentasikan kepada pengguna akhir kedalam bentuk yang dapat dipahami, misalnya melalui tahap visualisasi.

Tahap – tahap tersebut diilustrasikan pada gambar 2.1 di bawah ini :

Gambar 2.1. Tahap – Tahap Data Mining

Sumber : Han & kamber (2006)

Suatu sistem atau query penambangan data mungkin saja menghasilkan ribuan pola, namun tidak semua pola tersebut adalah pola yang menarik atau penting. Ukuran suatu pola yang menarik atau penting adalah jika pola tersebut mudah dimengerti oleh manusia, bermanfaat, valid / benar pada data baru atau data tes dan membenarkan beberapa hipotesis.

Penambangan data berkaitan erat dengan gudang data (data warehouse) dan OLAP (On-Line Analytical Processing). Gudang data merupakan data mentah

yang akan digunakan untuk analisa data menggunakan teknik penambangan data sedangkan OLAP adalah basisdata yang khusus digunakan untuk menunjang proses pengambilan keputusan (decision making). Teknologi yang ada di gudang data dan OLAP dimanfaatkan penuh untuk melakukan penambangan data. Gambar di bawah ini menunjukkan posisi masing – masing teknologi basisdata tersebut :

Gambar 2.2. Data mining dan teknologi basisdata lainnya Sumber : Jiawei Han and Micheline Kamber

www.cs.uiuc.edu/~hanj

II. 3. Algoritma Penambangan Data

Dalam penambangan data ada beberapa algoritma untuk melakukan penambangan data diantaranya:

II.3 .1. Klasifikasi

Aplikasi lain yang penting dari data mining adalah kemampuannya untuk melakukan proses klasifikasi pada suatu data dalam jumlah besar. Klasifikasi data adalah suatu proses yang menemukan properti-properti yang sama pada sebuah

himpunan obyek di dalarn sebuah basis data, dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan.

Untuk membentuk sebuah model klasifikasi, suatu sampel basis data 'E' diperlakukan sebagai training set, dimana setiap baris terdiri dari himpunan yang sama yang memuat atribut yang beragam seperti baris - baris yang terdapat dalam suatu basis data yang besar 'W'. Setiap tupel diidentifkasikan dengan sebuah label atau identitas kelas. Tujuan dari klasifikasi ini adalah untuk menganalisa training

data dan membentuk sebuah deskripsi yang akurat atau sebuah model untuk setiap kelas berdasarkan fitur yang tersedia di dalam data itu. Deskripsi dari masing-masing kelas itu nantinya akan digunakan untuk mengklasifikasikan data yang hendak di test dalam basis data 'W', atau untuk membangun suatu deskripsi yang lebih balk untuk setiap kelas dalam basis data.

II.3 .2. Klastering

Pada dasarnya klastering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan pada prinsip konseptual klastering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan klastering atau unsupervised classification. Melakukan analisa dengan klastering, akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip divide and conquer yang mendekomposisikan

suatu sistem skala besar, menjadi komponen-komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi.

II.3 .3. Asosiasi

Penambangan aturan asosiasi merupakan proses pencarian aturan-aturan hubungan antar item dari suatu basis data transaksi atau basis data relasional, telah menjadi perhatian utama dalam basis data. Tugas utamanya adalah untuk menemukan suatu himpunan hubungan antar item dalam bentuk A => B dimana A dan B adalah himpunan atribut nilai, dari sekumpulan data yang relevan dalam suatu basis data.

Oleh karena proses untuk menemukan hubungan antar item ini mungkin memerlukan pembacaan data transaksi secara berulang-ulang dalam sejumlah besar data-data transaksi untuk menemukan pola-pola hubungan yang berbeda-beda, maka waktu dan biaya komputasi tentunya juga akan sangat besar, sehingga untuk menemukan hubungan tersebut diperlukan suatu algoritma yang efisien dan metode – metode tertentu.

Penting tidaknya suatu aturan asosiasi dapat diketahui dengan 2 parameter yaitu support dan confidence. Support adalah persentase kombinasi item dalam basisdata sedangkan confidence adalah kuatnya hubungan antar item dalam aturan asosiasi (Pramudiono, 2003). Pencarian aturan asosiasi dengan menggunakan analisis asosiasi bertujuan untuk menemukan semua aturan yang terdapat pada basisdata dengan minsup (minimum support) dan minconf (minimum confidence)

yang melebihi batas tertentu. Suatu aturan asosiasi dirasa valid apabila mempunyai nilai confidence/ nilai kepastian ≥ 50 % (López-Cózar, 2000).

Support dari aturan adalah rasio dari record yang mengandung

dengan total record dalam basisdata. Untuk mendapatkan nilai support

dapat menggunakan rumus :

...(2.1) Sedangkan Minsup (minimum support) atau biasa disebut dengan istilah

lower bound support menandakan ambang batas (threshold) yang menentukan apakah sebuah itemset akan digunakan pada perhitungan selanjutnya untuk pencarian aturan asosiasi.

Confidence dari aturan asosiasi adalah rasio dari record yang mengandung dengan total record yang mengandung . Untuk mendapatkan nilai confidence dapat menggunakan rumus :

.......(2.2) Atau dapat ditulis sebagai berikut:

...(2.3). Sedangkan Minconf (minimum confidence) menandakan ambang batas (threshold) dari sebuah aturan asosiasi untuk menentukan aturan asosiasi yang kuat (strong association rule).

Tabel 2.1 Contoh Tabel Transaksi D TID Itemset 1 Bread, Milk 2 Bread,Diaper,Beer,Eggs 3 Milk,Diaper,Beer,Coke 4 Bread,Milk,Diaper,Beer 5 Bread,Milk,Diaper,Coke

Misalkan akan dihasilkan rule: {Milk,Diaper}→Beer

Maka support menjadi

Confidence menjadi

Secara umum yang dilakukan dalam proses pencarian aturan asosiasi ini dapat dibagi menjadi 2 tahapan, yang terdiri dari :

o Pencarian frequent itemset

Yaitu proses pencarian semua itemset yang memiliki nilai support minsup.

Itemset ini disebut frequent itemset atau large itemset (l-itemset). Dalam tugas akhir ini proses pencarian frequent itemset menggunakan algoritma apriori.

o Pembentukan strong association rule

Yaitu proses mendapatkan aturan asosiasi yang kuat (strong association rule) dari kombinasi frequent itemset yang membentuk aturan asosiasi yang memiliki nilai confidence minconf. Aturan asosiasi dapat ditemukan dari setiap frequent itemset.

II.3 .4. Algoritma Apriori

Algoritma apriori merupakan algoritma untuk mencari frequent itemset

yang berdasarkan prinsip apriori, yaitu jika suatu itemset merupakan frequent itemset maka semua subset-nya akan berupa frequent itemset (Tan, et.al. 2006). Pembentukan frequent itemset dilakukan dengan mencari semua kombinasi item –

item yang memiliki support lebih besar atau sama dengan minsup yang telah ditentukan.

Pseudocode untuk pencarian frequent itemset menggunakan algoritma

apriori adalah sebagai berikut (Gunawan, 2003) : = candidate itemset untuk ukuran k

= frequent itemset / large itemset untuk ukuran k = {candidate 1-itemset}

= {large 1-itemset}

for ( ) do begin

// new candidate for all transaction do begin

//candidate contained in

for all candidates do

end

Algoritma diatas dapat dijelaskan sebagai berikut :

a. Pada iterasi pertama dihitung jumlah kemunculan setiap item dalam transaksi untuk menentukan large 1-itemset. Pada iterasi selanjutnya akan dihasilkan

candidate k-itemset ( ) menggunakan frequent (k-1)-itemset yang ditemukan pada iterasi sebelumnya. Candidate generation diimplementasikan menggunakan sebuah fungsi yang disebut apriori-gen. Apriori-gen digunakan untuk menghasilkan candidate itemset, yang menyebabkan tidak seluruh

itemset diolah pada proses selanjutnya, hanya yang memenuhi persyaratan saja yaitu sesuai dengan support yang telah ditentukan. Hal ini mempersingkat waktu proses pencarian seluruh aturan asosiasi.

b. Setelah itu, dilakukan penelusuran dalam basisdata untuk menghitung support bagi setiap candidate itemset dalam . Untuk setiap transaksi t, dicari semua

candidate itemset t dalam set yang terkandung dalam transaksi tersebut. Kumpulan dari semua candidate itemset dalam yang terkandung dalam transaksi t disebut dan ditulis dengan notasi .

c. Selanjutnya nilai support dari semua candidate k-itemset dalam Ct dinaikkan. Penelusuran dilanjutkan pada transaksi berikutnya sampai semua

transaksi dalam basisdata ditelusuri. Lalu akan dilakukan eliminasi candidate itemset yang memiliki nilai support lebih kecil dari minsup. Sedangkan semua

candidate k-itemset yang memenuhi minsup disimpan dalam yang akan digunakan untuk membentuk large (k+1)-itemset. Algoritma berakhir ketika tidak ada large itemset baru yang dihasilkan.

Pencarian frequent itemset menggunakan algoritma apriori memiliki 2 karakteristik penting. Pertama, apriori merupakan algoritma level-wise dimana proses pada algoritma ini membangkitkan frequent itemset per level, dimulai dari

level 1-itemset sampai ke itemset terpanjang dan candidate level yang baru, dibentuk dari frequent itemset yang ditemukan di level sebelumnya lalu menentukan nilai supportnya. Kedua, algoritma ini menggunakan strategi

generate and test untuk menemukan frequent itemset. Pada tiap iterasi, candidate itemset yang baru, dihasilkan dari frequent itemset yang ditemukan pada iterasi sebelumnya. Nilai support tiap candidate dihitung dan di bandingkan kembali dengan ambang batas minsupnya. Jumlah iterasi yang dibutuhkan algoritma ini adalah , dimana merupakan ukuran maksimum dari frequent itemset.

Algoritma apriori menggunakan arah pencarian bottom-up, dimana arah pencarian dimulai dari frequent itemset menuju itemset terpanjang. Strategi yang digunakan adalah breadth-first search dimana proses pencarian dilakukan per

level dan untuk tiap level-nya ditentukan nilai support-nya untuk menemukan

frequent itemset pada level tersebut. Sedangkan strategi perhitungan nilai support

dilakukan dengan horizontal counting, dengan cara membaca transaksi satu persatu, jika ditemukan itemset yang dicari pada transaksi tersebut maka counter

II.3 .5. Penambangan Aturan Asosiasi Langka (Rare Association Rule) Aturan asosiasi langka ditandai dengan adanya aturan yang memiliki nilai

support rendah akan tetapi confidence tinggi. Menghasilkan aturan seperti itu adalah masalah yang sulit dalam proses penambangan data. Dalam rangka untuk mencari aturan-aturan yang bersifat langka, maka digunakan pendekatan tradisional seperti algoritma Apriori. Dengan menggunakan algoritma Apriori

upper bound support threshold harus diset dengan nilai rendah, agar bisa mendapatkan aturan langka yang diinginkan, akan tetapi tindakan tersebut akan menghasilkan kombinasi yang banyak dari aturan maupun dari item yang ditambang, yang akan memakan banyak memori.

Untuk menemukan aturan asosiasi minsup harus diset sangat rendah. Namun pengaturan ambang batas ini akan menyebabkan ledakan kombinatorial dalam hal jumlah himpunan item yang dihasilkan. “Item yang sering terjadi (frequent item) akan terkait satu sama lain, hal ini karena item-item tersebut tidak bisa tidak muncul secara bersamaan. Hal semacam ini dikenal sebagai masalah item langka” (Koh & Pears, 2010). Ini berarti bahwa dengan menggunakan algoritma Apriori, kita tidak mungkin menghasilkan rule yang efektif dan dapat digunakan untuk mengindikasikan peristiwa langka karena adanya potensi ledakan kombinatorial item yang dihasilkan akibat adanya modifikasi ambang batas.

“Item individu dapat memiliki support yang rendah sehingga mereka tidak dapat berkontribusi pada rule yang dihasilkan oleh Apriori, meskipun mereka dapat berpartisipasi dalam rule yang memiliki confidence yang sangat

tinggi ” (Koh & Pears,2010). Untuk mengatasi masalah ini digunakan pendekatan yang disebut apriori inverse untuk menemukan aturan langka dengan kandidat himpunan item yang berada di bawah nilai maxsup (maximum support) akan tetapi berada di atas tingkat absolut support value. Algoritma ini menggunakan

fisher test untuk menyaring item langka yang terjadi bersamaan secara murni berdasar kebetulan, sehingga tidak masuk dalam tahap untuk menghasilkan aturan.

Pendekatan apriori inverse memanfaatkan metode yang lebih ketat seperti

fisher test untuk menentukan co-occurrence dari item langka. Penggunaan fisher test dianggap menarik dari sudut pandang konseptual karena untuk proses perhitungannya dibutuhkan subjektivitas pertimbangan untuk setiap item. Ditambah dengan fakta bahwa kualitas aturan yang dihasilkan terbukti unggul namun memiliki waktu eksekusi yang lebih baik daripada algoritma yang lainnya.

Apriori Inverse adalah pilihan yang logis menghasilkan aturan langka dari basis data yang besar.

II. 4. Algoritma Penambangan Aturan Asosiasi Langka

Aturan langka dalam sebuah basis data sulit untuk ditemukan, oleh karena itu banyak peneliti yang mencoba mengamati dan mencoba menemukan berbagai macam pendekatan untuk menemukan aturan langka tersebut. Pendekatan yang digunakan untuk melakukan penambangan aturan langka dalam basis data sangatlah beraneka ragam, dimana setiap pendekatan memiliki keunggulan dan

kelemahan masing-masing. Penambangan aturan asosiasi langka memiliki beberapa pendekatan diantaranya:

II. 4.1 Apriori Inverse

Misal I = { } merupakan semesta dari item dan D adalah himpunan transaksi, di mana setiap transaksi T berisi satu set item yang memenuhi aturan T I.

Gambar 2.3. Algoritma Apriori Inverse

Sumber : Koh & Pears (2010)

Rule asosiasi adalah implikasi berbentuk A B dimana A I, B I dan dengan ketentuan A disebut sebagai anteseden dari aturan yang terbentuk, dan B sebagai konsekuen. Aturan A B berlaku dalam transaksi D dengan confidence c % jika c % dari transaksi di D yang mengandung X juga mengandung Y.Aturan A B memiliki support s % dalam transaksi D, jika s % transaksi di D berisi AB. Dalam konteks penambangan aturan asosiasi langka, semua aturan R seperti A B harus memenuhi dua syarat di bawah ini:

C(R) ≥ CLower dimana CLower adalah lower bound confidence threshold

atau biasa disebut sebagai minimum confidence yang didefinisikan nilainya oleh pengguna yang melakukan penambangan data. Minimum confidence

menandakan ambang batas (threshold) dari sebuah aturan asosiasi untuk menentukan aturan asosiasi yang kuat (strong association rule).

S(R) ≤ SUpper dimana SUpper adalah upper bound support threshold atau biasa disebut maximum support threshold yang digunakan sebagai batas atas support dari himpunan item yang ada dalam kandidat aturan.

Maximum support digunakan untuk membatasi nilai support dari aturan yang ada sehingga hanya aturan tertentu saja yang bisa dijadikan atau diputuskan sebagai aturan asosiasi dari sebuah dataset.

Selain yang dijelaskan diatas, dalam algoritma Apriori Inverse juga menerapkan penggunaan support constraint lain, yang disebut MinAbsSup yang didefinisikan sebagai jumlah minimum kemunculan dari itemset (A, B) agar bisa dipertimbangkan dalam prose pembentukan aturan. Batasan (constraint) ini berasal dari fisher test untuk signifikansi co-occurrence darisetiap item.

Karena kita berhadapan dengan kandidat himpunan item yang memiliki nilai support rendah, kemungkinan bahwa suatu itemset muncul akibat suatu ketidaksengajaan lebih tinggi dibandingkan kandidat himpunan item dengan nilai

support yang lebih tinggi. Himpunan item yang terjadi dalam dataset yang disebabkan karena ketidaksengajaan harus dipangkas atau dibersihkan selama proses pembentukan kandidat himpunan item. Karena pembentukan kandidat itemset jangka panjang tidak dapat meningkatkan nilai support dari item tersebut,

maka semua ekstensi nilai support diperbolehkan kecuali yang termasuk di bawah nilai minimum absolut support. Itemset yang masuk dalam pengecualian ini akan dipangkas atau dihapus dari candidate itemset, dan tidak digunakan untuk memperluas himpunan item pada putaran berikutnya. Berikut adalah proses perhitungan MinAbsSup dihitung menggunakan fungsi fisher test. Pertama hitung probabilitas dari dua transaksi (A dan B) dapat terjadi bersamaan secara kebetulan dalam satu waktu tertentu (c) atau dikenal dengan istilah "probability of chance collision". Kita bisa menghitung probabilitas ini menggunakan PCC dalam (2.4). Probabilitas bahwa A dan B akan terjadi bersama-sama persis sebanyak c kali adalah:

.........(2.4)

Dimana :

C = prediksi jumlah minimum kemunculan itemset a dan b dalam transaksi di dataset agar tidak dianggap sebagai kemunculan yang bersifat kebetulan, dengan aturan 0 ≤ c ≤ a.

N = jumlah keseluruhan transaksi dalam dataset, sedangkan a dan b adalah jumlah kemunculan masing – masing items yang akan digabungkan menjadi sebuah itemset baru. Persamaan ini adalah perhitungan biasa untuk probabilitas yang sesuai untuk sebuah table dengan kontingensi 2 × 2.

Dimana :

N = jumlah keseluruhan transaksi dalam dataset.

a dan b = jumlah kemunculan masing – masing item yang akan digabungkan menjadi sebuah itemset baru.

p = memiliki nilai tetap yaitu 0,001,

m dan i = merupakan prediksi jumlah minimum kemunculan itemset a dan b dalam transaksi di dataset agar tidak dianggap sebagai kemunculan yang bersifat kebetulan, dengan aturan 0 ≤ m ≤ a.

Minimum absolute support dihitung berdasarkan nilai pcc dari setiap itemset yang akan digabungkan menjadi large itemset. Perluasan untuk setiap item menggunakan cara yang sama dalam algoritma Apriori. Sebagai contoh, 3-itemset

{1, 3, 4} dan {1, 3, 6} dapat diperluas untuk membentuk 4-itemset {1, 3, 4, 6}, tetapi {1, 3, 4} dan {1, 2, 5} tidak akan menghasilkan 4-itemset karena tidak ada kesamaan prefik pada item kedua.

II. 4.2 Algoritma Apriori Inverse With Clustring (APIC)

Algoritma APIC (Apriori Inverse with Clustering) terdiri dari beberapa proses besar seperti digambarkan pada flowchart dibawah ini:

Dataset Transaction Clustering Apriori Inverse Rare Association Rules Start End

Gambar 2.4. Flow chart Garis Besar Algoritma Apriori Inverse with Clustering (APIC)

Dalam garis besar algoritma APIC (Apriori Inverse with Clustering), setiap tahapnya memiliki urutan langkah yang berbeda, berikut adalah langkah dari setiap tahap dalam algoritma APIC:

A. Transaction Clustering

Proses transaction clustering Terdiri dari dua tahap yaitu seed generation phase dan allocation phase, dimana setiap tahap memiliki langkah kerja yang berbeda. Berikut adalah langkah kerja detil dari setiap tahap dalam proses

transaction clustering: 1. Seed Generation Phase

Tahap seed generation phase terdiri dari beberapa langkah detil yang bertujuan untuk menghasilkan seed sebagai inisialisasi titik pusat awal klaster. Berikut adalah langkah – langkah dari tahap seed generation phase:

a. Cari 1-large itemset sebagai inisialisasi seed yang akan digunakan sebagai kandidat titik pusat klaster dengan cara mencari item dari setiap transaksi dalam dataset yang memiliki support count >=

, dimana:

|D| = jumlah transaksi yang ada dalam dataset,

= minimum support threshold sistem yang memiliki nilai 0< <1. b. Cari k-large itemset dalam transaksi yang ada di dataset yang nantinya akan dijadikan sebagai seed atau centroid dalam klaster.

Dimana k bernilai 2,3,…,k. Proses pencarian large itemset ini sama dengan proses pencarian large item dalam algoritma apriori hanya saja ada tambahan batasan saat melakukan perluasan dari itemset, batasan tersebut dihitung dengan aturan di bawah ini:

.........(2.7) .........…………..(2.8)

.........(2.9) Dimana:

= koefisien korelasi chi square,

= chi square cut-off threshold pada c% confidence level dengan nilai 3,84,

= user - defined support threshold yang nilainya ditetapkan oleh pengguna sistem pada tahap awal penambangan data,

= nilai relative support dari kandidat gabungan itemset baru,

dan = nilai relative support dari masing –

masing item yang akan diperluas menjadi itemset baru.

c. Dapatkan anggota dari k-large itemset terakhir. Anggota large itemset ini merupakan large itemset yang didalamnya terdapat

itemset yang akan digunakan sebagai titik pusat (centroid) awal untuk klaster. Untuk langkah tahap seed generation phase secara sederhana dapat dilihat dalam pseudo code yang diambil dari jurnal (Koh & Pears,2010) di bawah ini:

2. Allocation Phase

Tahap allocation phase terdiri dari beberapa langkah detil yang bertujuan untuk menempatkan transaksi dalam dataset kedalam klaster sehingga menghasilkan klaster secara optimum dengan anggota kelompok yang tepat dan sesuai dengan titik pusat dari setiap klaster yang tersedia. Berikut adalah langkah – langkah dari tahap allocation phase:

a. Berdasar inti dari klaster yang telah terbentuk dalam tahap seed generation phase, lakukan alokasi semua transaksi dalam dataset kedalam setiap klaster dengan cara melakukan penghitungan

similarity antara titik pusat (centroid) dari klaster dengan seluruh transaksi dalam dataset menggunakan persamaan similarity

dibawah ini :

......... (2.10)

Dimana :

t = transaksi dalam dataset,

Cĸ = titik pusat dari klaster,

|t Cĸ| = jumlah item yang sama antara transaksi dengan item dalam titik pusat klaster,

|t Cĸ| = jumlah gabungan dari item yang ada di dalam transaksi dengan item yang ada dalam titik pusat klaster.

Semakin besar nilai similarity antara centroid dan transaksi maka transaksi akan dialokasikan kedalam klaster yang memiliki

centroid tersebut. Klaster yang tidak memiliki anggota langsung dihapus dalam langkah ini.

b. Hitung nilai optimum dari klaster yang dihasilkan dengan menggunakan persamaan di bawah ini :

Dimana :

J = nilai fitness function, k = banyaknya klaster,

sim(t, cj) = nilai similarity antara transaksi dalam dataset dengan

Dalam dokumen Pengembangan alat bantu penambangan aturan asosiasi langka menggunakan pendekatan APIC (Apriori Inverse with Clustering) (Halaman 38-200)