PEMBANGKITAN ITEMSET UNTUK ATURAN
ASOSIASI DENGAN ALGORITMA APRIORI
DATA MINING
Andreas Chandra
STMIK AMIKOM Yogyakarta
[email protected]
1. Pendahuluan
1.1 Latar Belakang Penelitian
Peningkatan penggunaan teknologi informasi dan kebutuhan untuk mendapatkan informasi yang berguna dari basis data. Saat ini banyak perusahaan yang memanfaatkan teknolo-gi untuk dimanfaatkan sebagai strateteknolo-gi bisnis salah satunya data mining. Data mining adalah se-rangkaian proses menggali nilai tambah berupa informasi yang selama ini tidak diketahui dari basis data. Algoritma yang biasa digunakan untuk mengetahui produk yang berhubungan adalah algoritma apriori. Biasanya algoritma ini dipakai untuk dataset transaksi untuk mengetahui produk mana yang memiliki hubungan yang berkaitan.
Permasalahan yang terjadi ketika pengguna menggunakan data mining tantangan terbesar adalah dataset yang jumlahnya sangat banyak. Dalam kasus ini contohnya dataset market. Maka tiap harinya banyak sekali transaksi yang terjadi perharinya. Ditambah lagi super-market tersebut memiliki banyak cabang. Dataset yang besar maka membutuhkan proses yang panjang, proses panjang inilah yang membutuhkan waktu dan biaya yang sangat lama.
Saat ini ada banyak metode yang digunakan untuk membangkitan itemset dalam algoritma apirori. Salah satunya yang sering digunakan adalah dengan metode brute-force dan FK-I x FI. Metode brute-force adalah metode dimana semua item dibangkitan untuk dijadikan item-set. Sedangkan FK-I x FI memangkas item item yang kurang dari minimum support yang telah diatur. Maka dari itu penelitian ini adalah untuk membandingkan metode mana yang lebih baik untuk dijadikan metode pembangkitan itemset.
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang diatas, maka dapat disimpulkan bahwa rumu-san masalah pada penelitian tersebut adalah membandingkan metode pemangkitan mana yang lebih cepat.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengetahui metode mana yang lebih baik untuk mendapatkan itemset agar lebih efisien dalam pengolahan data.
2. Metodologi Penelitian
Metode yang digunakan dalam penelitian ini adalah sebagai berikut:
Gambar 1. Metodologi Penelitian
1. Metode Pengumpulan Data
Dalam melakukan pengumpulan data , penulis menggunakan data yang sudah ada di internet. Dataset ini dibuat untuk ujicoba untuk aturan asosiasi agar mudah diolah. 2. Metode Perancangan Aplikasi
Dalam membuat Aplikasi, penulis merancang agar aplikasi ini sesuai proses pen-golahan data untuk aturan asosiasi dengan algoritma apriori.
3. Metode Analisis Hasil
Dalam melakukan analisis hasil, peneliti menggunakan data sederhana dan men-guji cobanya secara manual.
3. Hasil dan Pembahasan
Salah satu teknik yang dibuat dalam data mining adalah bagaimana menelusuri data yang sudah ada untuk membangun data untuk membangun sebuah model, kemudian menggunakan model tersebut agar dapat mengenali pola data yang lain yang tidak berada dalam basis data yang ter-simpan. Kebutuhan untuk prediksi juga dapat memanfaatkan teknik ini. Dalam data mining, pengelompokan data juga bisa dilakukan. Tujuannya adalah agar kita dapat mengetahui pola uni-versal data-data yang ada [1].
Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item [2].
Jika terdapat sebuah himpunan transaksi T, maka tujuan dari association rule mining adalah un-tuk menemukan semua aturan yang mempunyai support ≥ minsup dan confidence ≥ minconf. Pendekatan brute-force untuk association rule mining menggunakan pendekatan dengan menghi-tung support dan confidence dari semua kemungkinan rule [3].
Menurut Zhao, aturan asosiasi adalah aturan yang menyajikan aturan asosiatif atau korelasi antar
itemsets. Bentuk aturan asosiasi adalah A → B, dimana A dan B adalah dua itemset lepas, mengacu pada masing-masing item sebagai lhs(left-hand side) dan rhs(right-hand side) dari aturan. tiga langkah yang paling banyak digunakan untuk memilih aturan menarik adalah sup-port, confidence dan lift. support adalah persentase kasus dalam data yang berisi A dan B,
confi-dence adalah persentase kasus yang mengandung A yang juga mengandung B, dan lift
adalah rasio kepercayaan kepada persentase kasus yang mengandung B [4]. Formula untuk support dan confidence adalah:
Support,s(X → Y) = (1)
Dimana X dan Y adalah itemset, adalah total dari gabungan itemset X dan Y yang ada di dataset, dan N adalah total transaksi dari dataset [1].
Confidence,c(X → Y) = (2)
Dimana X dan Y adalah itemset, adalah total dari gabungan itemset X dan Y yang ada di dataset, dan adalah total transaksi yang ada di dataset [1].
Data yang digunakan adalah data yang didapat dari https://wiki.csc.calpoly.edu/datasets/ attachment/wiki/apriori/apriori.zip yang memiliki ratusan item sehingga peneliti menguji dataset ini dengan bertahap. Peneliti menggunakan 5000 data set dimana dibagi menjadi 5 kelompok, 1000 , 2000, 3000, 4000,5000 record. Tujuannya adalah membandingan dengan kuantitas record yang berbeda beda dapat mengetahui sejauh mana pengaruh dari jumlah record dalam dataset tersebut.
3.1. Algoritma Apriori
Algoritma apriori melakukan pembangkitan dan metodologi tes untuk menemukan itemset yang sering muncul, menghasilkan gabungan itemset yang lebih banyak dan secara berturut-turut yang sering muncul. Setiap ukuran yang berbeda dari kandidat itemset membutuhkan pemindaian dari dataset untuk menentukan apakah frekuensi kemunculannya memenuhi batas minimum [5]. Set data transaksi yang berisi k item berpotensi untuk membangkitkan sebanyak 2k – 1 [1].
Dengan cara brute-force, pencarian itemset frekuen ditentukan dengan menghitung support count untuk setiap kandidat itemset dalam struktur kisi [1] pada gambar 1.
3.2 Metode Brute
-
Force
Metode brute-force mengamati setiap k-itemset sebagai kandidat berpotensi dan kemudian men-erapkan langkah pemangkasan kandidat untuk membuang kandidat yang tidak diperlukan.
Jumlah kandidat itemset yang dibangkitkan pada level k sama dengan , di mana d adalah to-tal item dalam dataset [1].
Tabel 1. Hasil pengolahan data dengan metode brutei-force.
3.3 Metode F
K-Ix F
IMetode alternative untuk pembangkitan kandidat adalah dengan memperpanjang setiap (K-1)
-itemset yang frekuen dengan item frekuen yang lain [1]. Pembangkitan metode ini
mengharus-kan penyaringan seberapa banyak itemset yang muncul pada dataset, apabila itemset memenuhi batas yang ditetapkan, maka itemset dapat dibangkitkan dengan itemset yang lain. Dalam metode ini penulis menentukan minsup ≥ 50.
Table 2. Hasil pengolahan data dengan metode FK-I x FI
4. Kesimpulan
Dalam penelitian ini penulis menggunakan algoritma apriori dengan membandingkan 2 metode untuk pembangkitan itemset. Dataset yang digunakan dalam paper ini adalah apriori yang diam-bill dari calpoly.edu (https://wiki.csc.calpoly.edu/datasets/attachment/wiki/apriori/apriori.zip). Table 3. Perbandingan antar kedua metode
Gambar 2. Grafik perbandingan
5. Daftar Pustaka
[1] Prasetyo, E., 2012. DATA MINING – Konsep dan Aplikasi Menggunakan MATLAB. Yog-yakarta: Penerbit ANDI.
[2] Kusrini. Luthfi, E.T., 1009. Algoritma Data Mining. Yogyakarta: Penerbit ANDI. [3] Hermawati, F.A., 2013. DATA MINING. Yogyakarta: Penerbit ANDI.
[4] Zhao, M., 2012. R and Data Mining: Examples and Case Studies. Elsevier. (sumber: http:// www.rdatamining.com/docs/r-and-data-mining-examples-and-case-studies).
[5] Witten, I.H. Frank, E. Hall, M.A., DATA MINING: practical machine learning tools and techniques. 3rd ed. USA: Morgan Kaufmann Publishers
Data Bruteforce s Fk-I x FI s Waktu Pe ghe ata
. . . %
. . . %
. . . %
. . . %
. . . %
Data
Waktu s . . . . .
Data