ANALISIS KERANJANG PASAR UNTUK REKOMENDASI PRODUK (CONSUMER GOOD) MENGGUNAKAN FP-GROWTH DENGAN KLASTERISASI CLARANS

(1)

http://research. pps.dinus.ac.id , 103

ANALISIS KERANJANG PASAR UNTUK REKOMENDASI PRODUK (CONSUMER GOOD) MENGGUNAKAN FP-GROWTH

DENGAN KLASTERISASI CLARANS

Stefanus Santosa¹, Jadi²

1Politeknik Negeri Semarang

2Pasca Sarjana Teknik Informatika Universitas Dian Nuswantoro

ABSTRACT

Market basket analysis is a generic term for methodology that study the composition of a basket of products. It has the objective of indentifying products, or groups of products, that tend to occur together (are associated). The discovery of this relationship can help merchant to develop a strategy of sales to consider the goods are often purchased with by customer. The knowledge that obtained market analysis basket is very important, because it can help recommendations product and promotion products so marketing strategy to be more appropriate. Market basket analysis can approach with Association Rule, such as apriori and FP-Growth. But they are a number of technical issues relating to the most common recommendations techniques. Association Rule tend to ignore the large itemset, To overcome these problems, existing attributes clustered to form groups of the same attributes and then determine the association patterns in each group. This study will use CLARANS algorithm for clustering on sales data and apply the FP-Growth algorithm to approach the association in each cluster. So that the product recommendations to customers to be more accurate because the Dataset that will be associated to be smaller. To the experimentally determined value of Minimum Support is 70% - 100% and Confidence Minimum value 70% - 100%. From the measurement results using Support, Confidence and Lift Ratio is found that a high number of rule in third cluster.

Key word: Market Basket Analysis, Association Rule Mining, Recomendation Product,, Promotion Product, CLARANS, FP-Growth.

1. PENDAHULUAN 1.1. Latar Belakang

Analisis keranjang pasar adalah istilah umum untuk suatu metode yang mempelajari komposisi sekeranjang produk yang dibeli. Pertama kali diperkenalkan kerangka Association Rule digunakan untuk mempelajari keranjang pasar[1]. Selain itu, analisis keranjang pasar (juga dikenal sebagai Association Rule mining) merupakan salah satu metode pengolahan data yang berfokus pada penemuan pola pembelian dengan mengekstraksi asosiasi atau kejadian dari data transaksi sebuah toko[2]. Analisis keranjang pasar memiliki tujuan untuk mengidentifikasi produk, atau kelompok produk, yang cenderung terjadi bersama-sama (berhubungan) dalam transaksi pembelian (keranjang). Penemuan dari hubungan ini dapat membantu pedagang untuk mengembangkan strategi penjualan dengan mempertimbangkan barang yang sering dibeli bersamaan oleh pelanggan. Pengetahuan yang diperoleh dari analisis keranjang pasar sangat penting[3], karena dapat membantu rekomendasi produk dan promosi produk sehingga strategi pemasaran menjadi lebih tepat. Penentuan pola pembelian barang yang kurang akurat dapat mengakibatkan kebijakan rekomendasi produk dan promosi produk menjadi tidak tepat sasaran.

Banyak algoritma yang diusulkan untuk menemukan aturan asosiasi [4], dan algoritma pertama yang paling efisien adalah Apriori[5]. Selain itu banyak juga peneliti-peneliti yang menggunakan algoritma lain, seperti Christidist et al. yang melakukan penelitian pada e-commerce dengan menggunakan latent topic models pada data transaksi histori pasar sehingga dapat membantu menentukan rekomendasi produk kepada pelanggan menjadi lebih efektif bahkan pada dataset dan itemset yang besar [7]. Zhuobo Rong et

(2)

104 http://research.pps.dinus.ac.id al. mengajukan metode pelaksanaan baru yang didasarkan pada MapReduce lingkungan paralel untuk mempertimbangkan itemset yang sering muncul untuk menghasilkan aturan asosiasi, dan kemudian diverifikasi dengan menggunakan berbagai ukuran Dataset nyata dengan node yang berbeda dalam cluster.

Zhuobo Rong et al. menentukan Association Rule dengan menggunakan MapRecude database [8].

Chien-Hua Wang et al. pada teknik Association Rule [6] mengatakan bahwa dalam algoritma Association Rule konvensional, pemindaian database membutuhkan waktu yang sangat besar terutama ketika seseorang menggunakan Algoritma Apriori, yang sering mempengaruhi efisiensi dalam data mining. Untuk mengatasi kelemahan tersebut, Han et al. mengusulkan metode data mining, yang disebut Frequent Pattern-Growth (FP-Growth) [9], yang tidak perlu menghasilkan generate candidate item sets dan dianggap lebih efisien. FP-Growth dibangun dengan membaca kumpulan data satu transaksi pada waktu dan pemetaan setiap transaksi ke dalam bagian Frequent Pattern-Tree (FP-Tree)[6].

Untuk menganalisis keranjang pasar, pendekatan yang biasa digunakan adalah aturan asosiasi. Tetapi ada sejumlah masalah teknis yang berhubungan dengan teknik rekomendasi yang paling umum. Aturan asosiasi cenderung mengabaikan itemset besar, dan rekomendasi item kurang tepat karena informasi tentang produk ritel tidak tersedia[7], sehingga untuk data yang besar hasilnya menjadi kurang akurat.

Dataset yang sudah dibuat branch atau diklaster dapat membantu mempermudah proses mencari rekomendasi produk[5], dikarenakan jumlah data dibagi menjadi beberapa bagian.

Metode untuk melakukan clustering dapat dikategorikan menjadi empat metode, yaitu: partitioning, hierarchical, grid-based and model-based. Clustering berbasis partitioning menghasilkan partisi dari data sehingga objek dalam cluster lebih mirip satu sama lain daripada objek yang ada dalam cluster lain[8].

Beberapa algoritma partitioning clustering yang populer adalah PAM, CLARA, CLARANS[10]. Tiga algoritma partisi ( PAM , CLARA dan CLARANS ) dikombinasikan berdasarkan jarak untuk deteksi outlier. Keuntungan utama dari semua pendekatan ini adalah bahwa mereka semua metode unsupervised, yang berarti data baru dapat ditambahkan ke database dengan pengujian outlier di masa depan dengan cara yang efisien. Percobaan menunjukkan bahwa CLARANS adalah kandidat terbaik sementara dalam deteksi outlier, diikuti oleh CLARA dan PAM[11].

Penelitian ini, menggunakan algoritma CLARANS untuk clustering pada data penjualan, kemudian setiap cluster akan dilakukan pendekatan assosiasi menggunakan algoritma FP-Growth. Dengan demikian dataset yang akan diasosiasi menjadi lebih kecil, sehingga rekomendasi produk kepada pelanggan menjadi lebih akurat.

Berdasarkan latar belakang masalah yang telah diuraikan di atas dapat disimpulkan bahwa pendekatan asosiasi menggunakan algoritma FP-Growth banyak digunakan untuk rekomendasi produk, tetapi untuk jumlah data yang besar aturan asosiasi menjadi kurang akurat. Untuk mengatasi permasalahan jumlah data yang besar, dapat dilakukan proses clustering data dengan menggunakan CLARANS sebelum menentukan pola asosiasi.

Hasil penelitian ini diharapkan dapat digunakan untuk pengambilan keputusan dalam membantu pelaku bisnis dalam menentukan strategi pemasaran, khususnya dalam bidang promosi produk. Dengan mengetahui keterikatan antarproduk yang dibeli oleh pelanggan, maka tata letak produk dapat diatur sedemikian rupa agar memudahkan pembeli dalam berbelanja.

2. MODEL ANALISIS KERANJANG PASAR MENGGUNAKAN FP-GROWTH DENGAN KLASTERISASI CLARANS

Untuk menganalisis keranjang pasar, pendekatan yang biasa digunakan adalah aturan asosiasi. Aturan asosiasi cenderung mengabaikan itemset besar, dan rekomendasi item kurang tepat karena informasi tentang produk ritel tidak tersedia [8]. sehingga untuk data yang besar hasilnya menjadi kurang akurat.

Dataset yang sudah dibuat branch atau diklaster dapat membantu mempermudah proses mencari rekomendasi produk [5]. Untuk melakukan clustering dengan metode partisi dapat menggunakan K- Medoids.

(3)

http://research. pps.dinus.ac.id , 105 K-Medoid juga dikenal sebagai Partitioning Around Medoids (PAM) adalah teknik partisi klasik clustering yang mengcluster data set n objek ke k cluster. Algoritma beroperasi pada prinsip meminimalkan jumlah perbedaan antara setiap objek dan referensi yang sesuai dan efektif untuk clustering data set yang sedikit. Masalahnya adalah algoritma ini tidak menghasilkan hasil yang sama setiap bekerja, karena cluster yang dihasilkan tergantung pada acak awal, Hal ini lebih besar menghasilkan noise dan outlier dan jumlah klaster yang optimal k sulit untuk diprediksi.

Kelemahan-kelemahan algoritma K-Medoid yaitu:

a. Ketika jumlah data yang tidak begitu banyak, pengelompokan awal akan menentukan cluster signifikan.

b. Hasilnya adalah bentuk klaster melingkar karena berdasarkan jarak.

c. Jumlah cluster / K, harus ditentukan terlebih dahulu. Pemilihan nilai K itu sendiri merupakan masalah dan kadang-kadang sulit untuk diprediksi terlebih dahulu jumlah cluster yang akan berada di sana dalam data.

d. Kita tidak pernah tahu cluster nyata, dengan menggunakan data yang sama. Jika data dimasukkan dalam urutan yang berbeda dapat menghasilkan cluster yang berbeda untuk jumlah data kecil e. Percobaan telah menunjukkan bahwa outlier dapat menjadi masalah dan dapat memaksa algoritma

untuk mengidentifikasi kelompok palsu.

f. Kita tidak pernah tahu atribut yang berkontribusi lebih untuk proses pengelompokan karena kita menganggap bahwa setiap atribut memiliki berat yang sama [12].

Algoritma CLARANS merupakan type K-Medoid yang menggabungkan teknik sampling dengan PAM.

Namun, tidak seperti CLARA, CLARANS tidak membatasi diri untuk setiap sampel pada waktu tertentu.

Sementara CLARA memiliki sampel tetap pada setiap tahap pencarian. CLARANS menarik sampel dengan beberapa keacakan dalam setiap langkah pencarian.

Secara konseptual, proses pengelompokan dapat dilihat sebagai pencarian melalui grafik. Setiap node adalah solusi potensial (satu set K-Medoid). Dua node tetangga dihubungkan oleh busur dalam grafik.

Setiap node dapat diberikan dengan biaya yang ditentukan oleh total perbedaan antara setiap objek dan medoid clusternya. Pada setiap langkah, PAM memeriksa semua tetangga dari node saat ini dalam mencari solusi biaya minimum. Node kemudian digantikan oleh tetangga dengan keturunan terbesar dalam biaya. CLARA bekerja pada sampel dari seluruh data, mengkaji tetangga lebih sedikit dan membatasi pencarian ke subgraph yang lebih kecil dari grafik asli.

Sementara CLARA menarik sampel node pada awal pencarian, CLARANS dinamis menarik sampel acak dari tetangga di setiap langkah pencarian. Jumlah tetangga secara acak dibatasi oleh parameter yang ditentukan pengguna. Dengan cara ini, CLARANS tidak membatasi pencarian ke daerah lokal. Jika tetangga yang lebih baik ditemukan (yaitu memiliki kesalahan yang lebih rendah ), CLARANS bergerak ke tetangga node dan proses dimulai lagi. Jika tidak, pengelompokan saat ini menghasilkan minimum lokal.

Jika minimum lokal ditemukan, CLARANS dimulai dengan node baru yang dipilih secara acak dalam mencari minimum lokal baru. Setelah nomor yang ditentukan pengguna dari minima lokal telah ditemukan, output algoritma merupakan solusi terbaik minimum lokal, yaitu minimum lokal yang memiliki biaya terendah. Berdasarkan percobaan, CLARANS telah terbukti lebih efektif daripada PAM dan CLARA[13].

Penelitian ini menggunakan data transaksi penjualan yang bersifat publik dari http://inf.abdn.ac.uk/~hnguyen/teaching/CS5553/prac05.php. Metode yang digunakan adalah menggunakan algoritma CLARANS untuk clustering pada data penjualan dan menerapkan algoritma FP- Growth untuk pendekatan asosiasi pada setiap cluster.

Dalam meningkatkan akurasi menggunakan aturan asosiasi dengan FP-Growth pada dataset yang besar, maka dataset di-cluster dahulu menjadi 3 cluster. Tujuannya untuk mengecilkan dataset dalam proses asosiasi. Masing-masing dari cluster yang terbentuk dilakukan proses asosiasi menggunakan algoritma FP-Growth untuk menentukan rekomendasi produk kepada pelanggan. Hasil dari proses asosiasi ini diukur menggunakan Support, Confidence, Lift Ratio.

(4)

106 http://research.pps.dinus.ac.id 3. METODE PENELITIAN

Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan penelitian seperti berikut.

3.1. Pengumpulan Data

Data yang digunakan merupakan dataset Analisis Keranjang Pasar diambil dari http://inf.abdn.ac.uk/~hnguyen/teaching/CS5553/prac05.php. Dalam Dataset ini mendefinisikan transaksi penjualan pada sebuah supermarket. Terdapat 304 atribut yang 303 merupakan item/barang dan salah satunya merupakan ID transaksi penjualan. Terdiri dari 1362 record transaksi.

3.2. Pengolahan Data Awal

Data yang sudah dikumpulkan akan diolah dengan beberapa tahap sehingga menjadi sebuah Dataset yang akan diimplementasikan terhadap metode-metode datamining. Semua record transaksi yang ada pada Dataset penjualan digunakan dalam tahap pengolahan data.

3.3. Eksperimen dan Pengujian

Dalam melakukan penelitian ini diperlukan eksperimen dan proses pengujian model yang diusulkan.

Proses eksperimen dan pengujian menggunakan Dataset yang ada. Sebelum eksperimen dilakukan, Dataset yang ada harus sudah di clustering menjadi beberapa cluster. Setiap cluster yang dihasilkan dari proses clustering akan dilakukan asosiasi dengan FP-Growth untuk menghasilkan rekomendasi produk.

3.3.1 Clustering Data Penjualan

Dataset diambil dari data penjualan dalam bentuk excel diimport ke dalam matlab. Kemudian data yang sudah diimport dilakukan proses clustering dengan membagi data tersebut menjadi 3 cluster(k). Proses clustering dengan tool matlab menggunalan dua fungsi, fungsi pada matlab yaitu ipdm dan CLARANS. Fungsi CLARANS digunakan untuk mengetahui hasil cluster dengan menentukan jumlah kluster, jumlah data yang di cluster dan distance dari data. Ipdm digunakan untuk mencari Euclidean distance data. Hasil dari proses clustering tersebut akan di eksport dalam bentuk file excel.

3.3.2 Assosiasi Cluster Data Penjualan

Setiap cluster yang dihasilkan dalam tool matlab, proses assosiasi menggunakan tool rapidminer untuk melakuakan asosiasi dengan FP-Growth. Setelah proses FP-Growth untuk menghasilkan rekomendasi produk maka dilanjutkan dengan proses Create Association Rule.

3.4. Evaluasi Penelitian

Hasil akurasi untuk menentukan rekomendasi produk kepada pelanggan yang didapat dari penelitian ini dapat diukur dengan menggunakan Lift Ratio. Lift Ratio merupakan nilai yang menunjukkan kevalidan proses transaksi dan memberikan informasi apakah benar produk A dibeli bersamaan dengan produk B.

Sebuah transaksi dikatakan valid jika mempunyai nilai Lift Ratio lebih dari 1, yang berarti bahwa dalam transaksi tersebut, produk A dan B benar-benar dibeli secara bersamaan. Lift Ratio mengukur seberapa penting rule yang telah terbentuk berdasarkan nilai support dan Confidence.

4. HASIL DAN PEMBAHASAN 4.1. Clustering dengan CLARANS

Data transaksi pembelian barang yang diperoleh berdasarkan keranjang belanja dengan kode Cxxxx tercantum dalam tabel berikut ini.

(5)

http://research. pps.dinus.ac.id , 107 Tabel 1. Data Transaksi Pembelian Barang

Basket ID

jumlah barang yang di beli

jumlah barang yang tidak dibeli

C2696 1 302

C9695 5 298

C11213 7 296

C12197 9 294

C7457 13 290

C3059 15 288

C1697 27 276

C4787 34 269

C5837 41 262

C10226 57 246

C5501 69 234

C3884 85 218

C7523 91 212

C12071 103 200

C7995 120 183

Data Transaksi Pembelian Barang pada tabel tersebut di-cluster dengan algoritma CLARANS melalui beberapa tahapan. Cluster yang dihasilkan berdasarkan pada maxneigbor = 5 dan numlocal =2 sebagai berikut ini.

a. Cluster 1 ada 6 record transaksi = C11213, C9695, C7457, C3059, C2696, C12197, b. Cluster 2 ada 4 record transaksi = C5837, C4787, C1697, C10226,

c. Cluster 3 ada 5 record transaksi = C7253, C7995, C5501, C3884, C12071.

Cara yang sama juga dilakukan untuk clustering berdasarkan jumlah barang yang dibeli dan barang yang tidak dibeli pada keseluruhan transaksi data penjualan yang terdiri dari 1360 record transaksi. Hasil proses clustering seperti berikut ini:

a. Cluster pertama terdiri dari 1135 record transaksi, berisi transaksi yang memiliki jumlah barang yang dibeli sekitar 1 - 13; dan jumlah barang yang tidak dibeli sekitar 290 - 302.

b. Cluster kedua terdiri dari 151 record transaksi, berisi transaksi yang memiliki jumlah barang yang dibeli sekitar 14 - 55; dan jumlah barang yang tidak dibeli sekitar 248 – 289.

c. Cluster ketiga terdiri dari 74 record transaksi, berisi transaksi yang memiliki jumlah barang yang dibeli sekitar 56 - 303; dan jumlah barang yang tidak dibeli sekitar 0 –247.

4.2. Assosiasi dengan FP-Growth

Tiga Cluster yang terbentuk dari hasil proses clustering dengan CLARANS diperlakukan sebagai dataset baru dengan volume yang lebih kecil daripada dataset sebelumnya. Kemudian pada setiap cluster dilakukan pendekatan asosiasi menggunakan algoritma FP-Growth untuk menganalisis keranjang pasar.

Dengan volume dataset yang lebih kecil diharapkan skurasi akan meningkat saat dilakukan proses asosiasi.

Tabel berikut ini menunjukkan pendekatan asosiasi menggunakan algoritma FP-Growth.

(6)

108 http://research.pps.dinus.ac.id Tabel 2. Contoh 10 Record Transaksi

Dari tabel tersebut di atas apabila diperhatikan transaksi berdasarkan item yang dibeli didapatkan hasil Basket ID C11417 membeli barang Lemons, 98pct. Fat Free Hamburger, Sugar Cookies, Potato Chips, Apple Fruit Roll, Ice Cream Sandwich. Untuk menentukan frequent itemset pada data transaksi tersebut, dilakukan langkah-langkah sebagai berikut.

a. Menentukan Minimum Support

Minimum Support merupakan ambang batas minimum jumlah itemset yang diperbolehkan. Jika jumlah itemnya di bawah ambang batas, maka item tersebut akan dieliminasi. Misalnya:

min_sup=40%.

b. Menentukan Header Frequent Itemset

Untuk mendapatkan header itemset, itemset di- scan dan dihitung frekuensi masing-masing itemset- nya. Dari data di atas dihasilkan: Potato Chips (8), Ice Cream Sandwich (6), Lemons (5), Apple Fruit Roll (5), Sugar Cookies (5), Chocolate Bar (5), 98pct. Fat Free Hamburger (4), Cream Soda (3). Setelah ditemukan Header Frequent Itemset, dihitung Support yang dimiliki oleh setiap item hingga diperoleh hasil sebagai berikut.

Itemset yang memenuhi Minimum Support 40% yaitu: Potato Chips(8), Ice Cream Sandwich(6), Lemons(5), Apple Fruit Roll(5), Sugar Cookies(5), Chocolate Bar(5).

Tabel 3. Header Frequent Itemset

Item ID Item Frequency

PC Potato Chips 8

IC Ice Cream Sandwich 6

L Lemons 5

AF Apple Fruit Roll 5

SC Sugar Cookies 5

CB Chocolate Bar 5

Sedangkan itemset yang dieliminasi karena tidak memenuhi Minimum Support 40% yaitu: 98pct. Fat Free Hamburger (4), Cream Soda (3).

Basket

ID Lemons

98pct. Fat Free Hamburger

Sugar Cookies

Potato Chips

Chocolate Bar

Cream Soda

Apple Fruit Roll

Ice Cream Sandwich C5153 false False false false true true true true C5303 false True false true false false true true C11417 true True true true false false true true C4829 false False false true false true false true C12071 true False true false true false false false C5552 true True false true true false false true C4901 false True false true false false true false C809 true False true true false false false false C5606 false False true true true true true true C2543 true False true true true false false false

(7)

http://research. pps.dinus.ac.id , 109 4.3. FP-Tree

FP-Tree dibangun dengan mencari item sesuai urutan pada item yang frequent. Data transaksi tidak perlu diurutkan, dan untuk tiap item yang ditemukan bisa langsung dimasukkan ke dalam FP-Tree. Sesudah membuat root, tiap item yang ditemukan dimasukkan berdasarkan path pada FP-Tree. Jika item yang ditemukan sudah ada, maka nilai support item tersebut yang ditambahkan. Namun jika path belum ada, maka dibuat node baru untuk melengkapi path baru pada FP-Tree tersebut. Hal ini dilakukan selama item pada transaksi masih ada yang qualified, artinya memenuhi nilai Minimum Support. Jadi, item-item yang ditemukan dalam transaksi akan berurutan memanjang ke bawah. Dalam struktur FP-Tree, diterapkan alur path dari child hingga ke root. Jadi, suatu path utuh dalam FP-Tree adalah dari child terbawah hingga ke root. Tiap node pada FP-Tree memiliki pointer ke parent, sehingga pencarian harus dimulai dari bawah.Tree adalah dari child terbawah hingga ke root. Tiap node pada FP-Tree memiliki pointer ke parent, sehingga pencarian harus dimulai dari bawah.

Gambar 1. FP-Tree yang Dihasilkan

4.4. Conditional Pattern Berdasarkan FP-Tree

Misalnya pada node CB:1 pada FP-Tree, berarti terdapat pattern L-SC bernilai support 1. Kemudian bila ada pattern L-SC lagi bernilai support n yang ditemukan dari FP-Tree maka nilai support 1 tersebut menjadi n+1. Contoh hasil dari Pattern Tree tersebut: misalnya PC:8 menggambarkan bahwa ada pattern c sebanyak 8, IC:5 menggambarkan bahwa ada pattern PC-IC sebanyak 5 dan seterusnya.

root

PC:8

AF :1 L:2

SC:1 AF:1

CB:1 AF:2

L:2

CB:1

L:1

SC:2

CB:1

IC:1

AF:1 SC:1

CB:1

CB:1 IC:5

SC:2

(8)

110 http://research.pps.dinus.ac.id Berikut Conditional Pattern Base bila dimulai dari Head Item yang ada.

Tabel 4. Conditional Pattern Base berdasarkan FP-Tree

Head Item Condition pattern base

Ice Cream Sandwich PC:5

Lemons PC:2, PC-IC:2,

Apple Fruit Roll PC:1, IC:1, PC-IC:2, PC-IC-L:1.

Chocolate Bar PC-IC:1, PC-IC-AF-SC:1, PC-L-SC:1, IC-AF:1, L-SC:1.

Sugar Cookies L:1, PC-L:2, PC-IC-AF:2, PC-IC-L-AF:1

4.5. Frequent Item-set

Pada condition pattern base, dari awal IC-item, setiap item dari condition pattern base di scan. Pattern yang tidak memenuhi Minimum Support 40%, dihapus dari daftar pattern. Pattern-pattern yang tersisa kemudian diurutkan untuk memudahkan pembuatan rules. Pada saat yang sama, jumlah item yang sesuai dihitung dan kondisi FP-Tree dihasilkan. Kemudian FP-Tree terhubung dengan Head item, dan akhirnya menghasilkan frequent item-set (tabel 5) dan pattern (tabel 6).

Tabel 5. Frequency Item-set yang Dihasilkan Head

Item Condition pattern base condition

FP-Tree Frequency Item

IC PC:5 PC:5 PC-IC:5

L PC:2, PC-IC:2, PC:4, PC-L:4

AF PC:1, IC:1, PC-IC:2, PC-IC-L:1. PC:4, IC:4 PC-AF:4, IC-AF:4 CB PC-IC:1, PC-IC-AF-SC:1, PC-L-SC:1,

IC-AF:1, L-SC:1. - -

SC L:1, PC-L:2, PC-IC-AF:2, PC-IC-L-

AF:1 PC:4, L:4 PC-SC:4, L-SC:4

Tabel 6. Pattern yang Dihasilkan Frequency

Item

Pattern

Support

Item 1 Item 2

PC-IC:5 Potato Chip Ice Cream Sandwich 50%

PC-L:4 Potato Chip Lemons 40%

PC-AF:4,

IC-AF:4 Apple Fruit Roll Potato Chip 40%

Ice Cream Sandwich 40%

PC-SC:4,

L-SC:4 Sugar Cookies Potato Chip 40%

Lemons 40%

(9)

http://research. pps.dinus.ac.id , 111 Cara yang sama juga dilakukan untuk menganalisis keranjang pasar keseluruhan record transaksi dengan menggunakan pendekatan assosiasi FP-Growth untuk masing-masing cluster yang dihasilkan CLARANS.

4.6. Evaluasi Support, Confidence, Lift Ratio

Support dihasilkan dari berapa kali jumlah item A dan B terjadi bersamaan dalam transaksi yang sama dibagi dengan jumlah total dari transaksi tersebut. Support dapat dirumuskan sebagai berikut.

Support (potato Chip) = 8/10 = 0.8

Support (Ice Cream Sandwich) = 7/10 = 0.7 Support (Lemons) = 5/10 = 0.5

Support (potato Chip Ice Cream Sandwich) = 5/10 = 0.5 Support (potato Chip Lemons) = 4/10 = 0.4

Confidence dihasilkan dari seberapa kuat hubungan produk yang sudah dibeli. Confidence dapat dirumuskan sebagai berikut.

Confidence (potato Chip→ Ice Cream Sandwich)= 0.5/0.8= 0.625 Confidence (Ice Cream Sandwich→ potato Chip)= 0.5/0.7= 0.714 Confidence (potato Chip→Lemons)= 0.4/0.8= 0.5

Confidence (Lemons→potato Chip)= 0.4/0.5= 0.8

Lift Ratio mengukur seberapa penting rule yang telah terbentuk berdasarkan nilai Support dan Confidence. Lift Ratio merupakan nilai yang menunjukkan validitas proses transaksi dan memberikan informasi apakah benar produk A dibeli bersamaan dengan produk B? Sebuah transaksi dikatakan valid jika mempunyai nilai Lift Ratio lebih dari 1, yang berarti bahwa dalam transaksi tersebut, produk A dan B benar-benar dibeli secara bersamaan. Lift Ratio dapat dirumuskan sebagai berikut.

Lift Ratio (potato Chip Ice Cream Sandwich)

4.7. Hasil Asosiasi Data Penjualan

Setelah proses clustering dilakukan, didapatkan tiga cluster. Cluster yang terbentuk dijadikan sebagai dataset baru yang lebih kecil daripada dataset sebelumnya. Kemudian setiap cluster akan dilakukan pendekatan asosiasi menggunakan algoritma FP-Growth untuk menganalisis keranjang pasar. Dengan dataset yang lebih kecil yang bertujuan untuk meningkatkan akurasi dalam rekomendasi produk, sedangkan untuk perbandingan digunakan algoritma FP-Growth saja.

Hasil akurasi untuk menentukan rekomendasi produk kepada pelanggan yang didapat dari penelitian ini dapat diukur dengan menggunakan Lift Ratio. Untuk eksperimen ditentukan nilai Minimum Support adalah 70% - 100% dan nilai Minimum Confidence 70% - 100%.

Analisis keranjang pasar menggunakan Algoritma FP-Growth pada keseluruhan data yang berjumlah 1361 berdasarkan Minimum Support 70% - 100% dan Minimum Confidence 70% - 100% tidak menghasilkan assosiasi rule.

Untuk Algoritma FP-Growth dengan menerapkan algoritma CLARANS dalam menganalisis keranjang pasar berdasarkan Minimum Support 70% dan Minimum Confidence 70% didapat hasil assosiasi rule pada cluster 3, untuk cluster 1 dan 2 tidak dihasilkan assosiasi rule. Jumlah rule yang dihasilkan pada cluster 3 adalah 204.

(10)

112 http://research.pps.dinus.ac.id Tabel 7. Hasil Pola Assosiasi Cluster 3 Minsupp dan Minconf 70%

Gambar 2. Pola-Pola Assosiasi Cluster 3 Minsupp dan Minconf 70%

Untuk Algoritma FP-Growth dengan menerapkan algoritma CLARANS dalam menganalisis keranjang pasar berdasarkan Minimum Support 80% dan Minimum Confidence 80% dapat dihasil assosiasi rule pada cluster 3, untuk cluster 1 dan 2 tidak dihasilkan assosiasi rule. Jumlah rule yang dihasilkan pada cluster 3 adalah 102.

(11)

http://research. pps.dinus.ac.id , 113 Tabel 8. Hasil Pola Assosiasi Cluster 3 Minsupp dan Minconf 80%

Untuk Algoritma FP-Growth dengan menerapkan algoritma CLARANS dalam menganalisis keranjang pasar berdasarkan Minimum Support 90% dan Minimum Confidence 90% dapat dihasil assosiasi rule pada cluster 3, untuk cluster 1 dan 2 tidak dihasilkan assosiasi rule. Jumlah rule yang dihasilkan pada cluster 3 adalah 5.

(12)

114 http://research.pps.dinus.ac.id Tabel 9. Hasil Pola Assosiasi Cluster 3 Minsupp dan Minconf 90%

Untuk Algoritma FP-Growth dengan menerapkan algoritma CLARANS dalam menganalisis keranjang pasar berdasarkan Minimum Support 100% dan Minimum Confidence 100% tidak dihasilkan assosiasi rule.

Dari hasil eksperimen yang dilakukan menunjukkan bahwa algoritma FP-Growth tidak mampu menghasilkan rule pada Minimum Support 70%-100% dan Minimum Confidence 70%-100%. Sedangkan algoritma FP-Growth yang menerapkan algoritma CLARANS pada Cluster 3 mampu menghasilkan rule pada Minimum Support 70%-90% dan berdasarkan Minimum Confidence 70%-90%.

5. PENUTUP

Hasil penelitian ini menunjukkan bahwa penggunaan algoritma CLARANS dapat mengklaster transaksi penjualan berdasarkan jumlah barang yang dibeli dan barang yang tidak dibeli menjadi tiga cluster.

Penggunaan algoritma FP-Growth pada Minimum Support 70% - 100% dan berdasarkan Minimum Confidence 70% - 100% tidak dapat menghasilkan Lift Ratio sehingga tidak ditemukan assosiasi rule.

Penggunaan Algoritma FP-Growth yang menerapkan algoritma CLARANS dapat menghasilkan assosiasi rule pada cluster tiga saja. Pada Minimum Support 70% dan berdasarkan Minimum Confidence 70% dihasilkan assosiasi rule berjumlah 204. Ini mempunyai nilai Lift Ratio lebih daripada Minimum Support 80% dan berdasarkan Minimum Confidence 80% yang menghasilkan assosiasi rule rule berjumlah 102 dengan nilai Lift Ratio lebih dari 1. Pada Minimum Support 90% dan berdasarkan Minimum Confidence 90% dihasilkan assosiasi rule berjumlah 5 yang memiliki nilai Lift Ratio lebih dari 1. Sehingga dapat diambil kesimpulan bahwa penerapan algoritma CLARANS dan FP-Growth terbukti akurat untuk penentuan rekomendasi promosi produk pada dataset yang besar.

(13)

http://research. pps.dinus.ac.id , 115 DAFTAR PUSTAKA

[1] B. Vindevogel, D.V den poel, and G. Wets, “Why promotion strategies based on market basket analysis do not work”, Expert Systems With Applications, vol. 28, 2005, pp. 583-590

[2] K. Kim, J.K. Kim, and Q.Y. Chen, "A product network analysis for extendingthe market basket analysis", Expert Systems With Applications, vol. 39, 2012, pp. 7403-7410.

[3] P. Giudici, S. Figini, “Applied data mining for business and industry, Second Edition, United Kingdom, WILEY, 2009.

[4] T. Hong, C. Horng, C. Wu, and S. Wang, “An improved data mining approach using predictive itemsets”, Expert Systems With Applications, vol. 36, 2009, pp. 72-80.

[5] M. Plasse, N. Niang, G. Saporta, A. Villeminot, and L. Leblond, "Combined use of association rules mining and clustering methods to find relevant links between binary rare attributes in a large data set", Computational Statistics & Data Analysis.

[6] C. Wang, W. Lee, and C. Pang, "Applying Fuzzy FP-Growth to Mine Fuzzy Association Rules", World Academy of Science, 2010.

[7] K. Christidis, D. Apostolou, and G. Mentzas, "Exploring Customer Preferences with Probabilistic Topics Models", National Technical University of Athens, 2010, pp. 1-13.

[8] Z. Rong, D. Xia,and Z. Zhang, “ComplexStatistical Analysis of Big Data: Implementation and Application of Apriori and FP-Growth Algorithm Based on MapReduce”, Journal Computer Sciences & Technology, 2013, pp. 968-972.

[9] J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006.

[10] Q. WeiNing, G. XueQing, and Z. AoYing, “Clustering in Very Large Database Basd on Distance and Density”, Journal Computer Sciences & Technology, vol 18, 2003, pp.67-76.

[11] P. Muruqavel, M. Punithavalli, “Improved Hybrid Clustering and Distance-based Technique for Outlier”, International Journal on Computer Science and Engineering, vol. 3, 2011, pp. 333-339.

[12] Pratap A.R, Vani K suvarna, Devi J Rama, and Rao K Nageswara, An Efficient Density base Imbroved K-Medoids Clustering algorithm, International Jurnal of Advanced Computer Science and Application, vol.2, 6, 2011.

[13] C. Vercellis, “Business Intelligence: Data Mining and Optimization for Decision Making”, WILEY, 2009.