TESIS
ALGORITMA APRIORI MODIFIKASI DENGAN
TEKNIK COMBINATION REDUCTION
DAN
ITERATION LIMITATION
PADA KERANJANG
BELANJA
ADIE WAHYUDI OKTAVIA GAMA
NIM 1291761013
PROGRAM MAGISTER
PROGRAM STUDI MAGISTER TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
ii
TESIS
ALGORITMA APRIORI MODIFIKASI DENGAN
TEKNIK COMBINATION REDUCTION
DAN
ITERATION LIMITATION
PADA KERANJANG
BELANJA
Tesis untuk Memperoleh Gelar Magister
pada Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana
ADIE WAHYUDI OKTAVIA GAMA
NIM 1291761013
PROGRAM MAGISTER
PROGRAM STUDI MAGISTER TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
iii
Lembar Pengesahan
TESIS INI TELAH DISETUJUI TANGGAL 22 APRIL 2016
Pembimbing I,
Prof. Dr. IKG Darma Putra, S.Kom., MT. NIP. 197404241999031003
Pembimbing II,
Dr. Eng. I Putu Agung Bayupati, S.T., M.T. NIP. 197504232003121002
Mengetahui
Ketua Program Magister Program Studi Teknik Elektro
Program Pascasarjana Universitas Udayana
Prof. Ir. Ida Ayu Giriantari, M.EngSc., Ph.D NIP. 196512131991032001
Direktur Program Pascasarjana
Universitas Udayana
iv
Tesis Ini Telah Diuji dan Dinilai Oleh Panitia Penguji pada Program Pascasarjana Universitas Udayana
pada Tanggal 22 April 2016
Berdasarkan SK Rektor Universitas Udayana
No. : 1860/UN.14.4/HK/2016
Tanggal : 21 April 2016
Panitia Penguji Tesis adalah
Ketua : Prof. Dr. I Ketut Gede Darma Putra, S.Kom., M.T.
Anggota :
1. Dr. Eng. I Putu Agung Bayupati, S.T., M.T. 2. Dr. Ir. Made Sudarma, M.A.Sc.
3. Ir. Linawati, M.Eng.Sc., Ph.D.
v
SURAT PERNYATAAN BEBAS PLAGIAT
Saya yang bertandatangan di bawah ini :
Nama : Adie Wahyudi Oktavia Gama
NIM : 1291761013
Program Studi : Magister Teknik Elektro
Judul Tesis : Algoritma Apriori Modifikasi Dengan Teknik Combination Reduction Dan Iteration Limitation Pada Keranjang Belanja
Dengan ini menyatakan bahwa karya ilmiah Tesis ini bebas plagiat.
Apabila dikemudian hari terbukti plagiat dalam karya ilmiah ini, maka saya bersedia menerima sanksi sesuai peraturan Mendiknas RI No. 17 Tahun 2010 dan Peraturan Perundang-undangan yang berlaku.
Denpasar, 22 April 2016 Yang membuat pernyataan
vi
KATA PENGANTAR
Puji dan syukur kehadirat Ida Sang Hyang Widhi Wasa, oleh karena berkat
Asung Kertha Wara NugrahaNya Penulis dapat menyelesaikan Tesis ini dengan judul “Algoritma Apriori Modifikasi dengan Teknik Combination Reduction dan Iteration Limitation pada Keranjang Belanja”.
Penulis menyadari, bahwa tanpa berbekal ilmu pengetahuan, dorongan dan motivasi serta bantuan dari berbagai pihak, Tesis ini tidak akan terselesaikan
dengan baik dan tepat pada waktunya. Oleh karena itu, disertai dengan kerendahan hati dan rasa hormat, Penulis mengucapkan terimakasih dan penghargaan yang setinggi-tingginya kepada :
Rektor Universitas Udayana, Prof. Dr. dr. Ketut Suastika, Sp.PD. KEMD yang telah memberikan waktu dan fasilitas yang baik dalam mengikuti dan
menyelesaikan pendidikan pada Program Studi Magister Teknik Elektro.
Direktur Pascasarjana Universitas Udayana, Prof. Dr. dr. A.A. Raka Sudewi,
Sp.S (K) serta Ketua Program Studi Teknik Elektro, Prof. Ir. Ida Ayu Giriantari, M.EngSc., Ph.D yang juga telah memberikan ruang dan waktu kepada penulis selama
mengikuti perkuliahan.
Pembimbing I, Prof. Dr. IKG Darma Putra, S.Kom., M.T. serta Pembimbing II, Dr.Eng. I Putu Agung Bayupati, S.T., M.T. yang dengan sepenuh
hati membimbing dan selalu mengarahkan penulis sehingga tesis ini dapat terselesaikan dengan baik.
Bapak dan Ibu dewan penguji proposal dan tesis yang membuat karya ini
vii
Kedua Orang Tua yang telah mengasuh dan membesarkan penulis dan
memberikan falsafah hidup hingga menjadi seperti sekarang ini, kakak tercinta, seluruh keluarga dan yang terkasih yang tidak henti-hentinya memberi dukungan
penuh demi terselesaikannya tesis ini dengan baik.
Teman-teman dan rekan-rekan seangkatan penulis yang bersama-sama menempuh perkuliahan yang selalu saling membantu dan penuh motivasi.
Semua pihak yang telah membantu hingga Tesis ini dapat selesai, terutama kepada pemilik minimarket Toko Tujuh Belas, Sesetan-Denpasar atas
kesediaannya memberikan data untuk ujicoba program.
Penulis menyadari, bahwa Tesis ini masih jauh dari kesempurnaan oleh karena keterbatasan serta kemampuan yang Penulis miliki, Penulis mengharapkan
kritik serta saran yang membangun dari berbagai pihak demi kesempurnaan Tesis ini.
Denpasar, 22 April 2016 Penulis,
viii
ABSTRAK
Analisis asosiasi digunakan untuk menemukan hubungan menarik antara suatu kombinasi item yang tersembunyi dalam transaksi. Hubungan ini direpresentasikan dalam bentuk aturan asosiasi. Aturan asosiasi berbentuk if antecedent then consequent. Algoritma apriori merupakan salah satu metode asosiasi yang menggunakan pendekatan iteratif dimana k-itemsetdigunakan untuk mengeksplorasi (k+1)-itemset. Calon (k+1)-itemset yang mengandung frekuensi subset yang jarang muncul tidak dipakai dalam menentukan aturan asosiasi. Implementasi algoritma apriori didahului dengan persiapan database transaksi serta penentuan batas minimum support dan confidence. Algoritma apriori akan menemukan kombinasi dengan cara proses iterasi yaitu scaning database yang berulang-ulang, memasangkan satu itemdengan itemlainnya dan mencatat jumlah kemunculan kombinasi dalam keseluruhan transaksi. Frequent itemset ditentukan dengan cara memilih kombinasi atau itemset yang nilai kemuculannya diatas atau sama dengan nilai minimum support dan kemudian menjadi calon aturan asosiasi. Persentase nilai support dan confidence dari masing-masing calon aturan asosiasi kemudian dihitung. Aturan asosiasi yang berlaku dipilih dari yang memenuhi syarat minimum support dan confidence. Aturan asosiasi yang dibentuk dari frequent itemset tersebut kemudian dapat dipakai sebagai pendukung keputusan dalam penjualan seperti mengatur penempatan barang, mengatur persediaan atau membuat promosi pemasaran dengan menerapkan diskon untuk kombinasi barang-barang tertentu yang sering muncul dalam transaksi.
Apriori akan melambat terhadap database yang bertambah besar dalam menentukan aturan asosiasi. Teknik-teknik modifikasi digunakan untuk melakukan optimasi terhadap kinerja algoritma apriori sehingga mendapatkan frequent itemset dalam waktu yang singkat. Modifikasi pada penelitian ini menggunakan penggabungan teknik combination reduction dan iteration limitation. Hasil perbandingan algoritma apriori tanpa modifikasi dengan yang sudah dimodifikasi diujicoba dengan sample data dari 100 transaksi sampai dengan 500 transaksi terbukti lebih cepat mendapatkan frequent itemset dan kualitas aturan asosiasi yang dibentuk tetap terjaga.
ix
ABSTRACT
Association analysis is used to find interesting relationship between hidden combination of items in the transaction. This relationship is represented in the form of association rules. Association rules is formed by “if antecedent then consequent”. Apriori algorithm is one of association method that uses an iterative approach where k-itemset used to explore itemset. Candidates of (k+1)-itemset containing frequency subset that rarely appear is not used in determining association rules. Apriori algorithm implementation was preceded by the preparation of database transactions and determination of minimum support and confidence. Implementation of the apriori algorithm was preceded by the preparation of transactions database and determination of minimum support and confidence. Apriori algorithm scanned the database repeatedly, pair one item to another and record the number of occurrences in the overall transaction. Frequent itemset is determined by selecting a combination or itemset that the count value greater than or equal to the minimum support and then calculated the percentage value of support and confidence of each candidate. The association rules selected from which qualified the minimum support and confidence. Association rules formed from the frequent itemset then can be used as decision support in sales as it regulates the placement of goods, organize supplies or create marketing promotions by applying discounts to the combination of certain items that often appear in the transaction.
Apriori performance to find association rule will become slower when used to analyze database that grows continuously in size. Modification techniques is then use to perform the optimization of the apriori algorithm performance to find frequent itemset more effectively. Modifications techniques used in this study is using the combination technique that use both combination reduction and iteration limitation. The comparison of the apriori algorithm without modification and with the modified algorithm with sample data from 100 transactions to 500 transactions proved to be faster for getting frequent itemset and the association rules quality is still maintained.
x
DAFTAR ISI
SAMPUL DEPAN ... i
SAMPUL DALAM ... ii
LEMBAR PENGESAHAN ... iii
PENETAPAN PENGUJI ... iv
SURAT PERNYATAAN BEBAS PLAGIAT... v
KATA PENGANTAR ... vi
ABSTRAK ... viii
ABSTRACT... ix
DAFTAR ISI ... x
DAFTAR TABEL ... xii
DAFTAR GAMBAR ... xiii
DAFTAR ISTILAH ... xiv
BAB I PENDAHULUAN... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 6
1.3 Tujuan Penelitian ... 6
1.4 Manfaat Penelitian ... 7
1.5 Ruang Lingkup Penelitian ... 8
1.6 Keaslian Penelitian ... 9
BAB II TINJAUAN PUSTAKA ... 12
2.1State of The Art ... 12
2.2 Pengertian Data Mining ... 15
2.3 Tahapan Data Mining... 17
2.4 Tugas Utama Data Mining... 20
2.4.1 Deskripsi... 20
2.4.2 Prediksi ... 21
2.4.3 Etimasi... 21
2.4.4 Klasifikasi... 22
2.4.5 Clustering... 23
2.4.6 Asosiasi... 24
2.5 Aplikasi Data Mining... 25
2.5.1 Penerapan Data Miningpada CRM ... 26
2.5.2 Data Miningdalam Kerangka CRM ... 27
2.6 Metode Asosiasi ... 31
2.7 Algoritma Apriori... 34
2.7.1 Struktur Kombinasi ... 35
2.7.2 Perhitungan Waktu Iterasi... 37
BAB III METODOLOGI DAN PERANCANGAN ... 38
xi
3.2 Tempat dan Waktu Penelitian ... 38
3.3 Rancangan Penelitian ... 39
3.3.1 Gambaran Umum Sistem ... 39
3.3.1.1 DatabaseTransaksi... 41
3.3.1.2 Algoritma Apriori ... 42
3.3.1.3 Penerapan Algoritma Apriori pada Transaki Penjualan .... 45
3.3.1.4 Aturan Asosiasi ... 51
3.3.1.5 Modifikasi Algoritma Apriori ... 51
3.3.2 Rancangan Database... 55
3.3.3 Relasional Database... 59
3.4 Sistematika Pengujian Kinerja Algoritma Apriori... 59
3.5 Instrumen Penelitian ... 60
BAB IV HASIL DAN PEMBAHASAN ... 62
4.1 Identifikasi Awal ... 62
4.1.1 Menentukan Batas Minimum Supportdan Minimum Confidence 62 4.1.2 Database Sampel Transaksi ... 64
4.2 Pembentukan Kombinasi Calon (K+1) Itemset... 65
4.3 Menentukan Frequent(K+1) Itemset... 70
4.4 Pembentukan Aturan Asosiasi ... 71
4.4.1 Analisa Pola Frekuensi Tinggi ... 72
4.4.2 Menentukan Aturan Asosiasi ... 72
4.5 Modifikasi Apriori... 75
4.5.1 Combination Reduction... 75
4.5.1.1 Menentukan Item-Itemyang digunakan Membangkitkan Kombinasi (1-itemset)... 76
4.5.1.2 Membangkitkan Kombinasi Itemsetberdasarkan Frequent ItemsetSebelumnya ... 78
4.5.2 Iteration Limitation... 81
4.6 Hasil Perbandingan Algoritma Apriori dengan Apriori Modifikasi ... 82
4.6.1 Pengukuran dari Segi Waktu ... 83
4.6.2 Pengukuran dari Segi Kualitas Aturan Asosiasi... 86
4.6.2.1 Kualitas Aturan dengan Sampel 100 Transaksi ... 86
4.6.2.2 Kualitas Aturan dengan Sampel 200 Transaksi ... 87
4.6.2.3 Kualitas Aturan dengan Sampel 300 Transaksi ... 88
4.6.2.4 Kualitas Aturan dengan Sampel 400 Transaksi ... 89
4.6.2.5 Kualitas Aturan dengan Sampel 500 Transaksi ... 90
BAB V PENUTUP... 92
5.1 Simpulan ... 92
5.2 Saran ... 93
xii
DAFTAR TABEL
Tabel 2.1 Penelitian yang Sudah Dilakukan Sebelumnya... 14
Tabel 3.1 Data Transaksi Penjualan ... 45
Tabel 3.2 Penjabaran Transaksi dalam Bentuk 1-Itemset... 46
Tabel 3.3 Calon Kandidat 2-Itemsetyang Mungkin ... 47
Tabel 3.4 Calon Kandidat 3-Itemsetyang Mungkin ... 48
Tabel 3.5 Calon Aturan Asosiasi dari F2 ... 49
Tabel 3.6 Calon Aturan Asosiasi dari F3 ... 50
Tabel 3.7 Aturan Asosiasi Final ... 50
Tabel 3.8 Itemyang Memenuhi Minimum Support... 52
Tabel 3.9 Calon Kandidat 3-Itemsetyang Mungkin ... 53
Tabel 3.10 Data Transaksi dengan Set Size untuk Pembatasan Transaksi ... 55
Tabel 3.11 Struktur DatabaseMaster Data Barang ... 56
Tabel 3.12 Contoh Data Master Data Barang ... 56
Tabel 3.13 Struktur DatabaseTransaksi Penjualan ... 57
Tabel 3.14 Contoh Data Transaksi Penjualan ... 57
Tabel 3.15 Struktur DatabaseDetail Transaksi Penjualan ... 58
Tabel 3.16 Contoh Data Detail Transaksi Penjualan ... 58
Tabel 4.1 Calon Aturan Asosiasi dari F2 ... 71
xiii
DAFTAR GAMBAR
Gambar 1.1 Fish BoneMenemukan Frequent ItemsetMenggunakan Algoritma Apriori ... 10 Gambar 2.1 Tahapan Data Mining... 18 Gambar 3.1 Gambaran Umum MenemukanFrequent Itemset Menggunakan
Algoritma Apriori... 40 Gambar 3.2 FlowchartAlgoritma Apriori ... 43 Gambar 3.3 Relasional Databaseyang Dirancang untuk Data Mining
Menggunakan Algoritma Apriori ... 59 Gambar 4.1 Tampilan Menentukan NilaiMinimum Support danMinimum
Confidence... 63 Gambar 4.2 Calon Kombinasi dengan 2-Itemset... 67 Gambar 4.3 Calon Kombinasi dengan 3-Itemset... 68 Gambar 4.4 Itemset dengan Nilai Kemunculan di Atas atau Sama dengan
Minimum Support... 70 Gambar 4.5 Pembentukan Aturan Asosiasi... 74 Gambar 4.6 Seleksi Item-Item yang MemenuhiMinimal Support... 77 Gambar 4.7 Frequent Itemset dari 2-Itemset untuk Membangkitkan Itemset
Selanjutnya ... 78 Gambar 4.8 Hasil dari Penerapan Combination Reductionpada Calon
3-Itemset... 80 Gambar 4.9 Jumlah Transaksi yang Sering Muncul Sebagai Pembatas
Transaksi... 82 Gambar 4.10 Grafik Perbandingan Waktu Algoritma Apriori ... 85 Gambar 4.11 Aturan Asosiasi Algoritma Apriori tanpa Modifikasi Ujicoba
Sampel 100 Transaksi... 86 Gambar 4.12 Aturan Asosiasi Algoritma Apriori dengan Modifikasi Ujicoba
Sampel 100 Transaksi... 87 Gambar 4.13 Aturan Asosiasi Algoritma Apriori tanpa Modifikasi Ujicoba
Sampel 200 Transaksi... 87 Gambar 4.14 Aturan Asosiasi Algoritma Apriori dengan Modifikasi Ujicoba
Sampel 200 Transaksi... 87 Gambar 4.15 Aturan Asosiasi Algoritma Apriori tanpa Modifikasi Ujicoba
Sampel 300 Transaksi... 88 Gambar 4.16 Aturan Asosiasi Algoritma Apriori dengan Modifikasi Ujicoba
Sampel 300 Transaksi... 88 Gambar 4.17 Aturan Asosiasi Algoritma Apriori dengan Modifikasi Ujicoba
Sampel 400 Transaksi... 90 Gambar 4.18 Aturan Asosiasi Algoritma Apriori dengan Modifikasi Ujicoba
xiv
DAFTAR ISTILAH
Confidence : Hubungan keterkaitan antar satu barang dengan barang lainnya dalam suatu transaksi.
Combination Reduction : Pengurangan jumlah kombinasi yang dibangkitkan berdasarkan frequent itemset dan item yang memenuhi minimum support.
Customer Relationship Management: Strategi bisnis yang berbasis hubungan baik terhadap pelanggan yang bertujuan memaksimalkan daya beli pelanggan. Data Mining : Proses menemukan pengetahuan baru
dalam sejumlah data yang besar.
Frequent Itemset : Kombinasi barang-barang yang sering muncul pada setiap transaksi.
Modifikasi Algoritma : Melakukan perubahan baik seluruh atau sebagian dari algoritma yang tidak menyimpang dari konsep dasar algoritma tersebut dengan harapan memperoleh hasil yang lebih baik.
Itemset : Kombinasi barang-barang dalam suatu transaksi.
Iterasi : Proses yang digunakan secara
berulang-ulang untuk menyelesaikan masalah tertentu.
Iteration Limitation : Pembatasan iterasi sampai dengan nilai batas yang ditentukan.
Mapping : Menempatkan atau memetakan data dari data sumber ke suatu data target yang ditentukan.
Market Basket Analysis : Analisa keranjang belanja pelanggan tetang kebiasaan barang-barang yang dibeli.
Missing Value : Nilai atau data yang hilang akibat kesalahan proses.
Scanning Database : Melakukan analisa terhadap suatu simpanan data atau membaca simpanan data.
Support : Jumlah kemunculan barang atau
xv
1
BAB I
PENDAHULUAN
Bab pendahuluan ini membahas tentang latar belakang masalah yaitu
fenomena perkembangan data yang terus bertambah tetapi informasi yang dihasilkan
monoton, sehingga diperlukan data mining untuk menggali pengetahuan baru yang
bermanfaat. Bab ini juga membahas rumusan masalah, tujuan dan manfaat penelitian,
batasan masalah serta membahas keaslian penelitian.
1.1Latar Belakang
Data mining adalah proses untuk mengekstraksi atau menggali pengetahuan dari data yang berjumlah besar. Data berskala besar memunculkan fenomena “data
rich but information poor”
, dimana data yang berjumlah besar tidak diikuti dengan
peningkatan informasi yang didapat dari data tersebut. Fenomena itu sering muncul
pada sistem penjualan yang dipakai di pasar swalayan, dimana data transaksi terus
bertambah setiap hari tetapi hanya menghasilkan laporan transaksi harian yang
monoton. Hal ini dikarenakan kurangnya analisa terhadap kumpulan data tersebut.
Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang
tersembunyi dan kemungkinan informasi berharga pada data berskala besar, yang
2
belum diketahui sebelumnya. Informasi tersebut kemudian dapat dipakai untuk
proses manajemen pelanggan yang lebih baik.
Analisis asosiasi adalah salah satu teknik data mining yang digunakan untuk menemukan hubungan menarik antara suatu kombinasi item yang tersembunyi dalam suatu database
. Hubungan ini dapat direpresentasikan dalam suatu bentuk aturan
asosiasi (Tan, Steinbach, Kumar, 2004). Analisis asosiasi akan berusaha
mengungkap asosiasi antara atribut, yaitu berusaha untuk mengungkap aturan untuk
mengukur hubungan antara dua atau lebih atribut. Secara umum aturan asosiasi
mempunyai bentuk :
� � � �
Kekuatan hubungan suatu aturan asosiatif dapat diukur dengan dua parameter
yaitu support dan confidence
.
Support (nilai penunjang) adalah persentase kombinasiitem tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan asosiatif yang terbentuk oleh metode asosiasi dalam data mining
.
Metode analisis asosiasi, juga dikenal sebagai market basket analysis
, yaitu
analisis yang sering dipakai untuk menganalisa isi keranjang belanja konsumen dalam
suatu pasar swalayan. Contoh penerapan dari aturan asosiatif adalah analisa
pembelian produk pada sebuah toko swalayan, pada analisa itu misalkan dapat
3
dengan membeli penghapus. Penerapan aturan asosiasi dalam kasus tersebut dapat
membantu pemilik toko untuk dipakai sebagai pendukung keputusan dalam penjualan
seperti mengatur penempatan barang, mengatur persediaan atau membuat promosi
pemasaran dengan menerapkan diskon untuk kombinasi barang-barang tertentu yang
sering muncul dalam transaksi.
Analisis asosiasi didefinisikan sebagai suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence). Dasar analisis asosiasi
terbagi menjadi dua tahap, yaitu analisa pola frekuensi tinggi dan pembentukan
aturan asosiasi. Analisa pola frekuensi tinggi mencari kombinasi item yang
memenuhi syarat minimum dari nilai support dalam database dan pembentukan
aturan asosiasi dengan syarat memenuhi syarat minimum untuk confidence
.
Algoritma apriori termasuk jenis aturan asosiasi pada data mining yang diusulkan pertama kali oleh R. Agrawal dan R. Srikant pada tahun 1993. Algoritma
ini didasarkan pada fakta bahwa apriori menggunakan pengetahuan sebelumnya dari
suatu itemset dengan frekuensi kemunculan yang sering. Apriori menggunakan
pendekatan iteratif dimana k-itemset digunakan untuk mengeksplorasi (k+1)-itemset (Han&Kamber, 2006). Prinsip metode apriori adalah jika suatu itemset sering muncul
(frequent), maka semua subset dari itemset itu juga harus sering muncul dalam suatu
4
Pada algoritma ini calon (k+1)-itemset dihasilkan oleh penggabungan dua itemset pada domain/ukuran k. Calon (k+1)-itemset yang mengandung frekuensi
subset yang jarang muncul atau dibawah threshold akan dipangkas dan tidak dipakai dalam menentukan aturan asosiasi (Tan, Steinbach, Kumar, 2004). Contoh dari
2-itemset adalah pembelian buku tulis bersamaan dengan pensil, contoh dari 3-itemset
adalah pembelian buku tulis bersamaan dengan pembelian pensil dan penghapus, dan
seterusnya sampai dengan terpenuhi semua kombinasi (k+1)-itemset yang mungkin.
Algoritma apriori mempunyai kelemahan yaitu kurang efisien terhadap
database yang bertambah besar. Kinerja algoritma apriori akan melambat karena
harus melakukan scanning database yang besar dengan jumlah transaksi yang banyak dan iterasi berulang kali untuk mendapatkan kombinasi frequent itemset sehingga membentuk aturan asosiasi yang tepat. Teknik-teknik modifikasi diperlukan untuk
melakukan optimasi terhadap kinerja algoritma apriori sehingga mendapatkan
frequent itemset yang baik dalam waktu yang singkat. Combination reduction adalah
salah satu teknik untuk pengurangan jumlah kombinasi yang dibentuk dengan cara
pembentukan calon kombinasi itemset selanjutnya dari frequent itemset yang telah dibentuk sebelumnya. Jaishree Singh, et al pada tahun (2013) dalam penelitiannya
“Improving Efficiency of Apriori Algorithm Using Transaction Reduction”
5
batas yang ditentukan. Pengurangan transaksi tersebut berdampak pada waktu yang
dibutuhkan menjadi lebih cepat pada saat scanning database
. Sama halnya dengan
teknik transaction reduction
,
combination reduction juga masih mempunyaikelemahan, yaitu jika kombinasi yang dibentuk masih terlalu banyak maka waktu
yang dibutuhkan juga masih lama dalam melakukan iterasi. Perlu pendekatan lain
yang digunakan agar mampu membatasi jumlah iterasi. Iteration limitation adalah
teknik lain untuk melakukan efisiensi waktu pada algoritma apriori yaitu dengan
melakukan pembatasan iterasi sampai nilai batas yang ditentukan. Nilai batas dalam
hal ini ditentukan berdasarkan jumlah item yang paling sering muncul dalam setiap transaksi dengan menghitung modus item transaksi dari keseluruhan transaksi yang terdapat dalam database
. Nilai tersebut kemudian dijadikan pembatas untuk nilai k
dalam k-itemset
.
Dengan latar belakang tersebut diatas maka dalam penelitian ini akan membahas tentang penerapan algoritma apriori untuk menemukan frequent itemset dalam keranjang belanja. Penggabungan teknik modifikasi juga dilakukan untuk
meningkatkan kinerja algoritma apriori yaitu dengan menerapkan combination reduction dan iteration limitation
. Penelitian akan membandingkan efisiensi waktu
6
kinerja algoritma apriori dengan menerapkan penggabungan teknik combination reduction dan iteration limitation dalam menghasilkan frequent itemset yang lebih cepat. Studi kasus dilakukan pada minimarket swalayan “Toko Tujuh Belas” dengan
menganalisis database transaksi dari bulan Juli 2011 sampai dengan bulan Oktober 2012 untuk dipakai dalam penerapan algoritma apriori.
1.2Rumusan Masalah
Beberapa hal yang ingin diketahui secara spesifik dalam penelitian ini dapat dirumuskan sebagai berikut :
a. Bagaimana penerapan metode asosiasi menggunakan algoritma apriori
untuk mencari frequent itemset pada database transaksi ?
b. Bagaimana kinerja algoritma apriori dengan penggabungan teknik combination reduction dan iteration limitation yang diukur berdasarkan waktu dan kualitas aturan asosiasi dari frequent itemset yang dibentuk ?
1.3Tujuan Penelitian
Tujuan dari penelitian yang dilakukan adalah sebagai berikut :
7
b. Menerapkan penggabungan teknik combination reduction dan iteration limitation untuk meminimalisir waktu yang dibutuhkan dalam menemukan
frequent itemset yang lebih baik pada database transaksi yang besar.
c. Mengetahui perbadingan kinerja algoritma apriori biasa dengan algoritma apriori yang sudah menerapkan penggabungan teknik combination reduction dan iteration limitation yang diukur dari segi waktu dan kualitas aturan asosiasi dari frequent itemset yang dibentuk.
1.4Manfaat Penelitian
Manfaat yang ingin dicapai dari penelitian ini diantaranya adalah sebagai
berikut:
a. Hasil dari penelitian ini adalah membuat sistem yang mampu menemukan frequent itemset dari keranjang belanja yang lebih baik dengan menerapkan data mining dengan metode asosiasi menggunakan algoritma apriori dengan penggabungan teknik combination reduction dan iteration limitation
.
b. Penelitian ini diharapkan memberikan kontribusi dalam berbagai bidang sebagai berikut :
1. Penelitian
8
2. Perusahaan
Mengetahui frequent itemset pada proses transaksi yang terjadi sehingga dapat menerapkan strategi pemasaran yang tepat.
3. Umum
Mengetahui penerapan data mining terutama metode asosiasi
menggunakan algoritma apriori pada database transaksi.
1.5Ruang Lingkup Penelitian
Mengingat luasnya bidang penelitian, maka dibuat batasan atau ruang lingkup
penelitian sebagai berikut :
a. Sistem yang dibuat adalah sistem yang mampu menemukan frequent itemset pada keranjang belanja yang tersimpan pada database transaksi penjualan.
b. Metode yang dipakai adalah metode data mining dengan metode asosiasi menggunakan algoritma apriori.
c. Beberapa teknik modifikasi dilakukan dengan melakukan pengurangan
jumlah kombinasi yang dibangkitkan yang disebut combination reduction
. Optimasi kedua adalah dengan pembatasan iterasi
9
iteration limitation
. Tenik efisiensi algoritma apriori ini akan dijelaskan
lebih lanjut pada bab metodologi dan perancangan.
d. Sistem dibuat dengan menggunakan bahasa pemrograman PHP dan
database MySQL.
1.6Keaslian Penelitian
Penelitian sebelumnya yang sejenis adalah penelitian oleh Jogi Suresh dan T.
Ramanjaneyulu dengan judul “Mining Frequent itemsets Using Apriori Algorithm”
.
Penelitian Suresh dan Ramanjaneyulu (2013) masih menggunakan algoritma apriori klasik yang sudah dikembangkan sebelumnya dan belum menggunakan teknik
optimasi untuk memperoleh aturan asosiasi yang lebih efisien. Penelitian lain yang
sejenis adalah penelitian yang dilakukan oleh Jiao Yabing (2013) dengan judul
“Research of an Improved Apriori Algorithm in Data mining Association Rules”
. Jiao
Yabing dalam penelitiannya sudah melakukan optimasi terhadap algoritma apriori
yaitu dengan melakukan modifikasi dengan cara mengurangi jumlah kandidat pada
kandidat itemset Ck. Jaishree Singh, et al pada tahun (2013) melakukan penelitian
dengan judul “Improving Efficiency of Apriori Algorithm Using Transaction
Reduction”
. Penelitian Singh, dkk ini melakukan modifikasi algoritma apriori dengan
10
waktu pada saat scanning database
. Penelitian-penelitian yang sudah dilakukan
sebelumnya belum ada yang membahas penggabungan teknik pengurangan jumlah
kombinasi yang dibangkitkan / combination reduction dengan pembatasan jumlah iterasi (k+1)-itemset dengan metode modus yaitu membatasi nilai k sampai dengan jumlah kombinasi itemset yang paling banyak muncul. Penelitian lain tentang
algoritma apriori akan dipaparkan lagi pada bagian state of the art
. Berikut adalah
fish bone diagram dari penelitian-penelitian sebelumnya yang dipakai dasar untuk penelitian yang akan dilakukan, bagian yang ditandai adalah fokus dari penelitian
yang akan dilakukan :
Database Metode Asosiasi
Preprocessing
Frequent itemset Apriori
FP Growth
Data cleansing Data integration
Candidate reduction Iteration limitation Dummy data
Real data
Combination reduction Data reduction
Transaction reduction Modifikasi
Gambar 1
.
1 Fish Bone Menemukan Frequent Itemset Menggunakan Algoritma Apriori11
menjadi pembeda dari penelitian-penelitian sejenis yang telah dilakukan sebelumnya.
Database yang digunakan pada peneilitian ini adalah real data / data riil yang diambil dari database transaksi, sedangkan penelitian lain banyak yang memakai dummy data atau data contoh yang dikarang untuk melakukan ujicoba pada sistem.
Metode asosiasi yang digunakan adalah apriori, sedangkan penelitian lain ada yang
memakai metode FP Growth atau metode lain dari asosiasi. Prepocessing untuk
database menggunakan data cleansing yaitu membersihkan database dari data yang rusak. Metode modifikasi untuk optimasi algoritma apriori menggunakan
12
BAB II
TINJAUAN PUSTAKA
Bab ini menguraikan tentang teori-teori penunjang yang dipakai dalam
melakukan penelitian data mining dengan metode asosiasi menggunakan algoritma apriori yang terdiri dari state of the art
, pengertian
data mining, aplikasi
data mining,
tahapan data mining
, metode asosiasi serta teori tentang algoritma apriori.
2.1State of the Art
Penelitian ini didasarkan atas penelitian sebelumnya yang berhubungan
dengan pengembangan data mining dengan metode asosiasi menggunakan algoritma apriori. Penelitian yang dilakukan R. Agrawal, et al pada tahun 1993 yang berjudul
“Mining Association Rules Between Sets of Items in Large Databases” adalah awal
mula dikembangkannya data mining dengan metode asosiasi menggunakan algoritma apriori. Pada tahun 1994, R. Agrawal dan R. Srikant kembali melakukan penelitian
mengenai metode asosiasi dengan judul “Fast Algorithms for Mining Association
Rules”
. Penelitian ini kemudian difokuskan untuk menyempurnakan algoritma apriori
yang sudah dikembangkan sebelumnya dan dari situlah algoritma apriori dikenal
sebagai salah satu algoritma untuk metode asosiasi. Penelitian tentang metode apriori
terus berkembang. Para peneliti terus mencoba untuk melakukan optimasi terhadap
13
metode apriori agar mendapatkan kinerja yang lebih cepat dan menemukan aturan
asosiasi terbaik.
Jogi Suresh dan T. Ramanjaneyulu (2013) melakukan penelitian dengan judul
“Mining Frequent Itemsets Using Apriori Algorithm”
. Penelitian Suresh dan
Ramanjaneyulu menggunakan algoritma apriori klasik yang sudah dikembangkan
sebelumnya dan belum menggunakan teknik optimasi untuk memperoleh aturan
asosiasi yang lebih efisien.
Sheila A. Abaya pada tahun 2012 dalam penelitiannya yang berjudul
“Association Rule Mining based on Apriori Algorithm in Minimizing Candidate
Generation” melakukan improvisasi terhadap algoritma apriori
. Improvisasi
dilakukan dengan cara menentukan “set size” dan “set size frequency”
.
Set size adalahjumlah item per transaksi sedangkan set size frequency adalah jumlah transaksi yang
setidaknya memiliki “set size” item
.
Set size dan set size frequency ini digunakanuntuk mengeliminasi kandidat kunci yang tidak signifikan.
Jiao Yabing (2013) dalam penelitiannya dengan judul “Research of an Improved Apriori Algorithm in Data mining Association Rules” melakukan optimasi terhadap algoritma apriori yaitu dengan cara mengurangi atau memangkas (pruning) jumlah calon kandidat frequent itemset pada kandidat itemset Ck.
Jaishree Singh, et al pada tahun (2013) melakukan penelitian dengan judul
14
Penelitian Singh, dkk ini melakukan improvisasi algoritma apriori dengan cara
mengurangi jumlah transaksi (transaction reduction) yang jumlah item pertransaksinya tidak memenuhi nilai batas yang ditentukan. Pengurangan transaksi
tersebut berdampak pada efisiensi waktu yang lebih cepat saat scanning database
.
Tabel 2
.
1 Penelitian yang Sudah Dilakukan SebelumnyaNo Peneliti Judul Penelitian Metode
1 R. Agrawal, et al (1993)
Mining Association Rules between Sets of Items in Large
Databases
Menemukan frequent itemset dengan metode asosiasi. Awal mula algoritma apriori
2 R. Agrawal & R. Srikant (1994)
Fast Algorithm for Mining Association Rules
Menyempurnakan algoritma apriori sebelumnya
3 Sheila A. Abaya (2012)
Association Rule Mining based on Apriori Algorithm in Minimizing
Candidate Generation
Modifikasi algoritma apriori dengan mereduksi kandidat kunci dengan nilai set size dan set size frequency
4 Jiao Yabing (2013)
Research of an Improved Apriori Algorithm in Data mining Association Rules
Modifikasi dengan cara memangkas (pruning) jumlah calon kandidat frequent itemset pada kandidat itemset Ck
5 Jaishree Singh, et al (2013)
Improving Efficiency of Apriori Algorithm Using Transaction Reduction
Modifikasi algoritma apriori dengan cara mengurangi jumlah transaksi yang jumlah item pertransaksinya tidak memenuhi nilai batas yang ditentukan
6
Jogi Suresh dan T. Ramanjaneyulu (2013)
Mining Frequent itemsets Using Apriori Algorithm
Menggunakan algoritma apriori klasik yang sudah dikembangkan sebelumnya dan belum
15
Inti dari semua penelitan-penelitian terdahulu mengenai optimasi terhadap algoritma apriori yang tercantum dalam tabel diatas adalah membatasi calon kandidat
frequent itemset yang dimunculkan. Pembatasan tersebut dilakukan dengan cara
memangkas item, kombinasi dan transaksi serta pembatasan iterasi yang tidak diinginkan sehingga tidak terjadi perulangan scanning database yang berlebihan, dengan begitu akan menghasilkan aturan asosiasi secara tepat dan dalam waktu yang
lebih cepat.
2.2Pengertian Data mining
Secara harfiah, data mining sebenarnya adalah kesalahan penamaan atau
penyebutan. Jika mengacu kepada kegiatan penambangan emas dari sekumpulan batu
atau pasir, aktivitas itu lebih disebut dengan penggalian emas daripada penggalian
batu atau pasir. Jadi data mining seharusnya lebih pantas atau lebih cocok disebut
dengan penggalian pengetahuan dari data yang ada (knowledge mining from data).
Tetapi penggalian pengetahuan (knowledge mining) mempunyai pengertian yang dangkal yang mungkin tidak mencerminkan kegiatan penggalian dari data yang
berjumlah besar dengan menggunakan pola atau metode yang diterapkan. Mining
(penggalian) sendiri diartikan sebagai proses untuk menemukan sebagian kecil
16
Han dan Kamber (2006) dalam bukunya yang berjudul “Data mining
Concepts and Techniques” mengatakan
, secara singkat
data mining dapat diartikansebagai mengekstraksi atau menggali pengetahuan dari data yang berjumlah besar.
Sedangkan menurut Daniel T. Larose (2005) ada beberapa definisi dari Data mining
yang diambil dari beberapa sumber. Secara umum data mining dapat didefinisikan
sebagai berikut :
- Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi
baru, pola dan tren yang ada dengan cara memilah-milah data berukuran besar
yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta
teknik matematika dan statistik.
- Data mining adalah analisis pengamatan database untuk menemukan hubungan yang tidak terduga dan untuk meringkas data dengan cara atau metode baru yang
dapat dimengerti dan bermanfaat kepada pemilik data.
- Data mining merupakan bidang ilmu interdisipliner yang menyatukan teknik
pembelajaran dari mesin (machine learning), pengenalan pola (pattern
recognition), statistik, database
, dan visualisasi untuk mengatasi masalah
ekstraksi informasi dari basis data yang besar.
- Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis
17
Analisa data mining berjalan pada data yang cenderung terus membesar dan teknik terbaik yang digunakan kemudian beorientasi kepada data berukuran sangat
besar untuk mendapatkan kesimpulan dan keputusan paling layak. Data mining
memiliki beberapa sebutan atau nama lain yaitu : Knowledgediscovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola
(data/pattern analysis), kecerdasan bisnis (business intelligence), data archaeology
dan datadredging (Daniel T. Larose, 2005).
2.3Tahapan Data mining
Han dan Kamber (2006) mengatakan, bahwa data mining mempunyai
pengertian yang sama dengan knowledge discovery from data atau KDD. Tahapan
yang dilakukan pada proses data mining sama dengan proses yang dilakukan pada knowledge discovery
. Tahapan dimulai dari seleksi data dari data sumber ke data
target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data
18
Data
Data Data
Data Seleksi
Transformasi
Data Mining
Preproses
Target Data
Persiapan Pemilihan Data
Transfromasi Data Pola / Model
Interpretasi dan Evaluasi
[image:33.612.116.528.109.375.2]Pengetahuan
Gambar 2
.
1 Tahapan Data miningTahapan-tahapan yang terjadi pada proses data mining atau knowledge discovery menurut Kenneth Collier (1998) dibagi menjadi 5 tahapan yaitu :
1. Seleksi Data
Tujuan dari fase ini adalah ekstraksi dari gudang data yang besar menjadi data
yang relevan dengan analisis data mining
. Proses ekstraksi data membantu
untuk merampingkan dan mempercepat proses.
2. DataPreprocessing
Fase ini berkaitan dengan pembersihan data dan persiapan tugas yang
19
dalam data, memastikan bahwa nilai-nilai kode memiliki arti seragam dan
memastikan bahwa tidak ada nilai data palsu adalah tindakan khas yang
terjadi selama fase ini.
3. Transformasi Data
Tahap ini mengubah data ke dalam bentuk atau format yang sesuai untuk
kebutuhan data mining
. Proses normalisasi biasanya diperlukan dalam tahap
data transformas.
4. Data mining
Tujuan dari tahap data mining adalah untuk menganalisis database sesuai algoritma yang digunakan sehingga menemukan pola atau aturan yang
bermakna serta menghasilkan model prediksi. Data mining adalah elemen inti
dari siklus KDD.
5. Interpretasi dan Evaluasi
Sementara algoritma data mining memiliki potensi untuk menghasilkan jumlah yang tidak terbatas dari pola tersembunyi dalam data, banyak hasil
dari proses tersebut mungkin tidak bermakna atau berguna. Tahap akhir ini
bertujuan untuk memilih model-model yang valid dan berguna untuk
20
Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah
dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat
saja terjadi iterasi atau pengulangan pada tahap-tahap tertentu. Pada setiap tahap
dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai
contoh, pada saat coding atau data mining
, analis menyadari proses
cleaning belumdilakukan dengan sempurna, atau mungkin saja analis menemukan data atau
informasi baru untuk memperkaya data yang sudah ada sehingga harus mengulang
proses sebelumnya.
2.4Tugas Utama Data mining
Pada umumnya tugas utama data mining dibagi menjadi: deskripsi, prediksi,
estimasi, klasifikasi, clustering dan asosiasi (Daniel T. Larose 2005).
2.4.1 Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang
pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat
mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan
harus mudah dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan
(knowledge) pada sistem. Tugas deskriptif merupakan tugas data mining yang sering
21
untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh
pihak yang berkepentingan.
2.4.2 Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data
diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa yang
akan datang. Contoh dari tugas prediksi misalnya untuk memprediksikan adanya
pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga saham dalam
tiga bulan yang akan datang.
Beberapa metode dan teknik yang digunakan untuk klasifikasi dan estimasi
juga dapat digunakan untuk prediksi dalam kondisi yang tepat. Hal ini termasuk
metode statistik tradisional dari estimasi titik dan interval keyakinan estimasi, simple
linear regression dan korelasi (correlation), dan multiple regression
, serta metode
data mining dan knowledge discovery seperti jaringan saraf, decision tree
, dan
metode k-nearestneighbor
.
2.4.3 Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih
ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan record
22
Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan
darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat
badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai
variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi.
Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.
Bidang analisis statistik memberikan beberapa metode estimasi yang bernilai dan
banyak digunakan. Hal Ini termasuk estimasi titik dan interval keyakinan estimasi,
simple linear regression dan korelasi (correlation), dan multipleregression
.
2.4.4 Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang
mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan
proses pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah
satu kelas yang sudah didefinisikan sebelumnya(Han dan Kamber, 2006).
Menurut Han dan Kamber (2006) secara umum, klasifikasi terdiri dari dua
tahap. Tahap pertama yaitu learning (proses belajar), merupakan sebuah model
dibuat untuk menggambarkan himpunan kelas atau konsep data yang telah ditentukan
23
data yang digambarkan dalam bentuk atribut. Setiap record diasumsikan masuk ke
dalam suatu kelas yang telah ditentukan sebelumnya, yang dinamakan atribut kelas.
Model itu sendiri bisa berupa aturan IF-THEN
,
decisiontree, formula matematis atau
neuralnetwork
.
Namun terkadang klasifikasi perlu didasarkan pada prediksi yang berbeda,
membutuhkan plot banyak dimensi. Oleh karena itu, perlu dilakukan peralihan ke
model yang lebih canggih untuk melakukan tugas klasifikasi. Metode data mining
yang umum digunakan untuk klasifikasi adalah k-nearestneighbor
,
decisiontree, dan
jaringan saraf (neuralnetwork).
2.4.5 Clustering
Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster adalah kumpulan record
yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan
dengan record dalam kluster lain. Tujuannya adalah untuk menghasilkan
pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok.
24
Clustering berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengelompokkan. Clustering tidak mencoba untuk melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma
pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data
menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana
kemiripan dengan record dalam kelompok lain akan bernilai minimal.
Clustering sering dilakukan sebagai langkah awal dalam proses data mining
,
dengan kluster yang dihasilkan digunakan sebagai masukan lebih lanjut ke hilir
teknik yang berbeda, seperti neural network
. Beberapa metode
clustering adalahk-means clustering dan Kohonennetworks.
2.4.6 Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang
belanja (market basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan
untuk mengukur hubungan antara dua atau lebih atribut.
Aturan asosiasi adalah bentuk "Jika pendahuluan, maka konsekuen," (If
antecedent
,
then consequent) dengan ukuran dukungan dan kepercayaan yang25
menemukan bahwa dari 1000 pelanggan yang berbelanja pada Kamis malam, 200
membeli popok dan 50 membeli bir. Dengan demikian, aturan asosiasi menjadi "Jika
membeli popok, kemudian membeli bir" dengan dukungan 200/1000 = 20% dan
kepercayaan 50/200 = 25%.
Contoh asosiasi dalam bisnis dan penelitian adalah:
a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran upgrade layanan yang diberikan.
b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli bersamaan.
2.5Aplikasi Data mining
Sebagai cabang ilmu baru di bidang sistem informasi cukup banyak penerapan
yang dapat dilakukan oleh data mining
. Apalagi ditunjang kekayaan dan
keanekaragaman berbagai bidang ilmu (artificial intelligence
,
database, statistik,
pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining
menjadi makin luas. Salah satu penerapan proses data mining adalah pada Costumer
26
berhubungan dengan manajemen pelanggan pada suatu proses transaksi. Informasi
tersebut nantinya dapat digunakan untuk meningkatkan pelanggan.
2.5.1 Penerapan Data mining pada CRM
Pelanggan (Customer) adalah aset paling penting dari suatu perusahaan. Tidak
akan terjadi prospek bisnis jika tanpa adanya pelanggan yang merasa puas dan tetap
setia menjalin hubungan dengan suatu organisasi. Itulah mengapa suatu organisasi
harus merencanakan dan menerapkan strategi yang jelas untuk memperlakukan
pelanggan. CRM (Customer Relationship Management) adalah strategi untuk
membangun, mengelola, dan memperkuat hubungan pelanggan yang setia dan
bertahan lama. CRM harus dilakukan dengan pendekatan Customer-centric
berdasarkan wawasan pelanggan (Tsiptsis dan Chorianopoulos 2009).
Sistem CRM merupakan alat yang digunakan untuk mendukung strategi
efektif mengelola pelanggan. Untuk melakukan sistem CRM tersebut organisasi perlu
mendapatkan informasi tentang pelanggan, seperti kebutuhan dan keinginan mereka
melalui analisis data. Di sinilah data mining dapat membantu dalam retensi
pelanggan karena memungkinkan identifikasi tepat waktu terhadap pelanggan yang
dianggap berharga (setia) dengan kemungkinan pelanggan yang akan pergi. Hal ini
27
pelanggan dan penargetan yang lebih baik dari kampanye promosi produk. Hal ini
juga dapat membantu untuk mengungkapkan segmen pelanggan yang berbeda,
memfasilitasi pengembangan produk baru disesuaikan dan penawaran produk yang
lebih baik mengatasi preferensi khusus dan prioritas dari pelanggan.
Menurut Tsiptsis dan Chorianopoulos (2009) data mining bertujuan untuk mengekstrak pengetahuan dan wawasan melalui analisis data dalam jumlah besar
dengan menggunakan teknik pemodelan yang canggih. Data mining mengubah data
menjadi pengetahuan dan informasi yang ditindaklanjuti. Data yang akan dianalisis
mungkin berada dan terorganisir dalam data pasar dan gudang data atau dapat
diekstraksi dari berbagai sumber data terstruktur. Sebuah prosedur data mining
memiliki banyak tahapan. Prosedur ini biasanya melibatkan manajemen data yang
luas sebelum dilakukan penerapan algoritma pembelajaran statistik dan
pengembangan model yang tepat.
2.5.2 Data mining dalam Kerangka CRM
Data mining dapat memberikan wawasan pelanggan yang sangat penting untuk membangun strategi CRM yang efektif. Hal ini dapat menyebabkan interaksi
personal dengan pelanggan, maka kepuasan meningkat. Hal ini dapat mendukung
manajemen terhadap pelanggan serta dioptimalkan pada seluruh tahapan siklus hidup
28
sehingga dapat mencegah pengurangan pelanggan atau kembali memenangkan
pelanggan yang telah hilang. Retailer berusaha untuk mendapatkan pangsa pasar
yang lebih besar dan pelanggan yang lebih besar dari target yang mereka tetapkan.
Lebih khusus, kegiatan pemasaran yang dapat didukung dengan penggunaan data
mining meliputi topik-topik berikut (Tsiptsis dan Chorianopoulos, 2009).
1. Segmentasi Pelanggan
Segmentasi pelanggan adalah proses membagi basis pelanggan ke dalam kelompok-kelompok yang berbeda dan homogen dalam rangka untuk
mengembangkan strategi pemasaran yang berbeda sesuai dengan karakteristik
pelanggan. Ada beberapa jenis segmentasi yang berbeda yaitu berdasarkan
kriteria tertentu atau atribut yang digunakan untuk segmentasi. Dalam
segmentasi perilaku, pelanggan dikelompokkan berdasarkan karakteristik
perilaku dan penggunaan. Algoritma clustering dapat digunakan untuk
menganalisis data perilaku serta mengidentifikasi kelompok alami dari pelanggan, dan menyarankan solusi yang didasarkan pada pola data yang
diamati. Data mining juga dapat digunakan untuk pengembangan skema
segmentasi berdasarkan situasi saat ini yang diharapkan atau perkiraan dari
nilai pelanggan. Segmen ini diperlukan dalam rangka untuk memprioritaskan
penanganan pelanggan dan intervensi pemasaran sesuai dengan pentingnya
29
2. Segmentasi Kampanye Pemasaran Langsung
Retailer menggunakan kampanye pemasaran langsung untuk melakukan komunikasi dengan pelanggan mereka melalui surat, internet, e-mail, telepon,
dan saluran langsung lainnya. Hal ini dilakukan untuk mendorong akuisisi
pelanggan dan pembelian produk lainnya pada retailer tersebut. Lebih khusus
lagi, kampanye akuisisi bertujuan menarik pelanggan baru yang memiliki
potensi yang besar terhadap produk. Kampanye Cross-/deep-/up-selling
diterapkan untuk menjual produk tambahan, bisa lebih baik dari produk yang
sebelumnya, atau produk alternatif yang menguntungkan kepada pelanggan
yang ada. Akhirnya, kampanye bertujuan untuk mencegah retensi pelanggan
berharga dari mengakhiri hubungan mereka dengan retailer
.
Data mining dan klasifikasi (kecenderungan) model pada khususnya dapat mendukung pengembangan kampanye pemasaran bertarget. Mereka
menganalisis karakteristik pelanggan dan mengenali profil dari target
pelanggan. Kasus baru dengan profil serupa kemudian diidentifikasi, diberi
skor kecenderungan yang tinggi, dan termasuk dalam daftar target. Model
klasifikasi digunakan untuk mengoptimalkan kampanye pemasaran dapat
30
a. Model Akuisisi: model ini digunakan untuk mengenali calon pelanggan yang berpotensi menguntungkan dengan mencari “clones” dari pelanggan yang sudah ada dalam daftar kontak eksternal,
b. Model Cross-/deep-/up-selling: model digunakan untuk mengungkapkan potensi pembelian dari pelanggan yang sudah ada.
c. Model Pengurangan Sukarela (Voluntary attrition): model ini digunakan untuk mengidentifikasi awal pelanggan dan melihat para pelanggan
tersebut dengan kemungkinan peningkatan untuk meninggalkan suatu
organisasi secara sukarela.
3. Segementasi MarketBasket dan SequenceAnalysis
Data mining dan model asosiasi pada khususnya dapat digunakan untuk mengidentifikasi produk-produk terkait yang biasanya dibeli bersama-sama.
Model ini dapat digunakan untuk analisis market basket dan untuk mengungkapkan jenis produk atau jasa yang dapat dijual bersama-sama
dengan produk yang dibeli oleh pelanggan. Model urutan (SequenceAnalysis)
dilakukan dengan memperhitungkan urutan tindakan atau pembelian dari
31
2.6Metode Asosiasi
Analisis asosiasi adalah teknik data mining untuk menemukan hubungan
menarik antara suatu kombinasi item yang tersembunyi dalam suatu database
.
Hubungan ini dapat direpresentasikan dalam suatu bentuk aturan asosiasi (Tan,
Steinbach, Kumar, 2004). Analisis asosiasi akan berusaha mengungkap asosiasi
antara atribut, yaitu berusaha untuk mengungkap aturan untuk mengukur hubungan
antara dua atau lebih atribut. Secara umum aturan asosiasi mempunyai bentuk :
� � � �
Kekuatan hubungan suatu aturan asosiatif dapat diukur dengan dua
parameter yaitu support dan confidence
.
Support (nilai penunjang) adalah persentasekombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan asosiatif.
Metode analisis asosiasi, juga dikenal sebagai market basket analysis
, yaitu
analisis yang sering dipakai untuk menganalisa isi keranjang belanja konsumen dalam
suatu pasar swalayan. Contoh penerapan dari aturan asosiatif adalah analisa
pembelian produk pada sebuah toko alat tulis, pada analisa itu misalkan dapat
diketahui berapa besar kemungkinan seorang pelanggan membeli pensil bersamaan
dengan membeli penghapus. Penerapan aturan asosiasi dalam kasus tersebut dapat
32
seperti mengatur penempatan barang, mengatur persediaan atau membuat promosi
pemasaran dengan menerapkan diskon untuk kombinasi barang tertentu.
Analisis asosiasi didefinisikan sebagai suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence). Dasar analisis
asosiasi terbagi menjadi dua tahap, yaitu:
1. Analisa pola frekuensi tinggi, pada tahap ini dicari kombinasi item yang
memenuhi syarat minimum dari nilai support dalam database
. Nilai
supportsebuah item diperoleh dengan rumus berikut :
=� �ℎ � � � � � � � ... (2.1)
Keterangan :
- Support A adalah nilai penunjang persentase kombinasi item A dalam
database
.
- Jumlah transaksi untuk A adalah kemunculan item A dalam keseluruhan transaksi.
- Total transaksi adalah jumlah total transaksi yang ada dalam database
.
33
,
= � ∩... (2.2)
,
= ∑ � � � ∑ � � � �Keterangan :
- Support A,B adalah nilai penunjang (persentase) kombinasi dari dua item
yaitu item A dan item B dalam database
.
- Ʃ transaksi untuk A dan B adalah jumlah kemunculan kombinasi item A dan B dalam keseluruhan transaksi.
- Ʃ transaksi adalah jumlah total transaksi yang ada dalam database
.
2. Pembentukan aturan Asosiasi, setelah semua pola frekuensi tinggi ditemukan,
barulah dicari aturan asosiasi yang memenuhi syarat minimum untuk confidence dengan menghitung nilai confidence aturan assosiatif A B.
Nilai confidence dari aturan A B diperoleh dari rumus sebagai berikut:
� = � | =∑ � � � ∑ � � � � ... (2.3)
Keterangan :
34
- Ʃ transaksi untuk A dan B adalah jumlah kemunculan kombinasi item A dan B dalam keseluruhan transaksi.
- Ʃ transaksi untuk A adalah jumlah total transaksi item A dalam keseluruhan transaksi
.
2.7Algoritma Apriori
Algoritma apriori termasuk jenis aturan asosiasi pada data mining yang dikembangkan pertama kali oleh R. Agrawal dan R. Srikant pada tahun 1994.
Algoritma ini didasarkan pada fakta bahwa apriori menggunakan pengetahuan sebelumnya dari suatu itemset dengan frekuensi kemunculan yang sering atau disebut frequent itemset
. Apriori menggunakan pendekatan iteratif dimana k-
itemsetdigunakan untuk mengeksplorasi (k+1)-itemset berikutnya (Han&Kamber, 2006).
Prinsip metode apriori adalah jika suatu itemset sering muncul (frequent), maka
semua subset dari itemset tersebut juga harus sering muncul dalam suatu database (Tan, Steinbach, Kumar, 2004).
Pada algoritma ini calon (k+1)-itemset dihasilkan oleh penggabungan dua itemset pada domain / ukuran k. Calon (k+1)-itemset yang mengandung frekuensi
subset yang jarang muncul atau dibawah threshold akan dipangkas dan tidak dipakai dalam menentukan aturan asosiasi (Tan, Steinbach, Kumar, 2004). Sesuai dengan
35
confidence untuk menentukan aturan itemset mana yang sesuai untuk digunakan dalam pengambilan keputusan.
1-itemset digunakan untuk menemukan 2-itemset yaitu kombinasi item yang berjumlah 2, contohnya if buy pensil then buy penghapus
, 2-
itemset digunakan untukmenemukan 3-itemset yaitu kombinasi item yang berjumlah 3, contohnya if buy
pensil and buy pulpen then buy penghapus dan seterusnya sampai tidak ada lagi frequent k-itemset yang bisa ditemukan (Han&Kamber, 2006).
2.7.1 Struktur Kombinasi
Struktur dari itemset disini adalah mengikuti suatu bentuk dari kombinasi.
Pengertian kombinasi adalah menggabungkan beberapa objek dari suatu grup tanpa
memperhatikan urutan (Wikipedia, 2016). Di dalam kombinasi, urutan objek tidak
diperhatikan sebagai contoh dimana {1,2,3} adalah sama dengan {2,3,1} dan
{3,1,2}.
Kombinasi dapat dibagi menjadi dua yaitu kombinasi dengan pengulangan
dan kombinasi tanpa pengulangan. Kombinasi tanpa pengulangan ketika urutan tidak
diperhatikan akan tetapi setiap objek yang ada hanya bisa dipilih sekali maka jumlah
kombinasi yang ada adalah: �!
36
Dimana n adalah jumlah objek yang bisa dipilih dan r adalah jumlah yang
harus dipilih. Sebagai contoh, terdapat 5 pensil warna dengan warna yang berbeda
yaitu; merah, kuning, hijau, biru dan ungu. Pensil warna tersebut hanya boleh dipilih
dua warna. Banyak cara untuk mengkombinasikan pensil warna yang ada dengan
menggunakan rumus di atas adalah 5!/(5-2)!(2)! = 10 kombinasi.
Kombinasi dengan pengulangan jika urutan tidak diperhatikan dan objek bisa
dipilih lebih dari sekali, maka jumlah kombinasi yang ada adalah ditunjukkan pada
rumus berikut :
�+�−1 !
�! �−1 !
= (
�+�−1�) = (
�+�−1�−1)
... (2.5)Di mana n adalah jumlah objek yang bisa dipilih dan r adalah jumlah yang harus dipilih. Sebagai contoh adalah terdapat 10 jenis kue donat berbeda pada suatu
toko donat. Kombinasi yang dihasilkan jika ingin untuk membeli tiga buah donat
adalah (10+3-1)!/3!(10-1)! = 220 kombinasi.
Kombinasi yang digunakan dalam algoritma apriori pada penelitian ini adalah kombinasi tanpa pengulangan. Urutan item dalam kombinasi yang dibentuk tidak
37
2.7.2 Perhitungan Waktu Iterasi
Algoritma apriori melakukan scaning database berulang kali untuk
menemukan frequent itemset dalam membentuk aturan asosiasi. Waktu iterasi yang
ditempuh algoritma dapat dihitung dari waktu berakhirnya algoritma sampai mendapatkan aturan asosiasi dikurangi dengan waktu awal algoritma dijalankan
sesuai dengan rumus berikut.
_ � � = _� ℎ� − _��� ... (2.6)
Dimana
t_awal = mencatat waktu awal mulainya proses iterasi.