METODE TEMPORAL ASSOCIATION RULES UNTUK
MENEMUKAN POLA ATURAN TEMPORAL
PADA DATA PENJUALAN
Wahju Tjahjo Saputro*1, Edi Winarko2
e-mail: *[email protected],2[email protected] INTISARI
Data penjualan di supermarket dapat diolah menjadi informasi yang mengandung pengetahuan dan bermanfaat bagi manajer dalam mengambil keputusan. Bentuk informasi yang diteliti berkaitan dengan fungsi asosiasi antar item barang secara temporal, merupakan salah satu fungsi dalam data mining. Dalam penelitian ini waktu yang digunakan memanfaatkan tanggal transaksi.
Penelitian ini menggunakan Algoritma Apriori untuk menemukan kandidat frequent itemset yang memenuhi support count. Selanjutnya frequent itemset yang memenuhi support count diproses menggunakan metode temporal association rules. Hasil pengujian menggunakan parameter minsup 0.1 dan minconf 0.2 ditemukan jumlah temporal rules yang sama pada interval 5 bulan, 9 bulan dan 14 bulan untuk data member. Pada data nonmember ttidak terbentuk temporal rules untuk semua interval. Hasil pengujian batasan minsup 0.01 dan minconf 0.05 untuk interval 14 bulan, 9 bulan dan 5 bulan ditemukan peningkatan jumlah temporal rules pada data member dan nonmember.
Kata kunci—penjualan, temporal association rules, apriori, data mining
ABSTRACT
Sale data in a supermarket may be processed into information containing knowledge useful for managers in decision making. The information type examined in the study related to the temporal function of inter-item association represented one of the functions in data mining. The time used in the study was the transaction date.
The study used Apriori algorithm to find the candidates of the frequent itemset that met the existing support count requirements. Subsequently, the frequent itemset meeting the support count requirement was processed using the method of temporal association rules. The results of the test using the parameter of minsup 0.1 and minconf 0.2 showed that the number of the temporal rules in the intervals of 9 months, 9 months and 14 months was the same for member data. There was not any temporal rule in non-member data for all intervals. The results of the definition of minsup 0.01 and minconf 0.05 for the intervals of 14 months, 9 months and 5 months showed that there was an increase in the number of the temporal rules in both the member and non-member data. Key words: sale, temporal association rules, apriori and data mining.
1. PENDAHULUAN
Mencari pola pada data penjualan dapat menggunakan metode asosiasi, dimana merupakan salah satu metode dalam data mining. Fungsi metode asosiasi yaitu mampu menemukan pola hubungan antar item barang yang saling berasosiasi (Agrawal dan Srikant, 1994; Fayyad dkk, 1996; Handojo dkk, 2005; Yusuf dkk, 2006). Dalam penggalian pola asosiasi akan ditemukan atribut yang menunjukkan keadaan barang yang sering muncul bersamaan.
digunakan dalam penelitian ini untuk menemukan pola temporal pada data penjualan di Supermarket Mulia Godean Sleman. Temporal association rule merupakan metode untuk menemukan pola asosiasi antar item yang berkaitan dengan waktu (Liang dkk, 2005).
Permasalahan yang terjadi di Supermarket Mulia di Jl. Godean Km 10 Sleman yaitu, saat ini belum bisa diketahui pola barang yang terjual bersamaan, hal ini terlihat dari informasi yang dihasilkan berupa tabel konvensional. Masalah lain yang belum teratasi yaitu barang telah tersusun rapi dalam rak, namun belum dapat di ketahui pola barang yang terjual terkait dengan waktu. Misal ketika tahun ajaran baru tiba, seragam sekolah relatif meningkat tajam hingga 95% di banding hari biasa. Kemudian roti kaleng dan kue akan melonjak tajam sampai 90% pada masa lebaran, namun mengalami penurunan pada hari biasa.
Kondisi di supermarket menunjukkan beberapa item barang tersedia dalam jumlah berlebihan, sedangkan untuk item barang yang lain nampak kurang jumlahnya pada rak penjualan. Hal ini dampak dari permasalahan yang dimiliki oleh supermarket yang belum mampu menemukan informasi pola barang yang dijual bersamaan terkait dengan waktu. Berdasarkan uraian diatas penulis tertarik untuk melakukan penelitian data transaksi penjualan guna menemukan informasi berbasis pengetahuan yang belum diketahui dan bermanfaat guna mendapatkan temporal rules dari data penjualan terkait dengan tanggal transaksi sebagai atribut waktu. Data penjualan yang digunakan sebagai obyek penelitian yaitu Agustus 2007 sampai September 2008 yang diambil dari komputer kasir dan luaran yang dihasilkan berupa temporal rule dengan interval tanggal transaksi penjualan.
Temporal Association rule dipilih karena mampu menyelesaikan permasalahan asosiasi antar item untuk barang yang dibeli bersamaan terkait dengan waktu. Pemanfaatan metode TAR diharapkan mampu mengatasi permasalahan yang saat ini dihadapi Supermaket Mulia, sehingga di masa mendatang tidak tampak lagi item barang yang dijual dalam jumlah berlebih pada interval tertentu. Algoritma Apriori dipilih karena mampu menyelesaikan permasalahan asosiasi antar item untuk barang yang dibeli bersamaan.
2. METODE PENELITIAN
Langkah penyelesaian masalah dilakukan dengan lima tahapan dalam bentuk skema ditunjukkan pada Gambar 1.
Gambar 1. Tahapan dalam proses temporal association rules 2.1 Data Preprocessing
dilakukan, data yang diperoleh mengalami berbagai berubahan format data. Dimana setiap perubahan juga dilakukan proses data cleaning pada semua data yaitu data barang, data member, data penjualan maupun data detail penjualan.
Setelah mengkonversi data dari DBF ke format XLS. Selanjutnya dalam file XLS dilakukan keseragaman seperti satuan barang, nama barang, id member. Keseragaman record akan mempermudah dalam proses data mining. Dari format XLS kemudian di konversi ke CSV untuk di impor ke dalam database MySQL. Keseragaman data dilakukan selama proses perubahan format data. Tahap melakukan perubahan format data tampak pada Gambar 2.
Gambar 2. Tahap melakukan perubahan format data
Transformasi data berguna untuk menstrukturkan data transaksi menjadi bentuk yang mudah di proses oleh data mining. Beberapa data dalam database penjualan masih perlu dilakukan transformasi. Seperti idkategori dimana id yang sama dipakai pada kategori lain, nama lokasi yang tidak sesuai dengan rak barang. Setelah dilakukan identifikasi ulang terhadap idkategori dan nama kategori yang sesuai di rak barang. Langkah pertama, pada tabel penjualan.dbf menghilangkan tanda–(sambung) pada data tanggal dan mengganti dengan spasi kosong. Langkah kedua, menggabungkan kedua nilai data tanggal dan nofak dengan perintah SQL, selanjutnya hasil penggabungan di simpan pada tabel baru dengan nama jualan.myd. Kemudian dari tabel jualan.myd diubah namanya menjadi muliamining.myd yang akan digunakan sebagai tabel sumber untuk proses data mining.
Data yang telah bersih dari missing value, tidak konsisten dan tidak lengkap (Larose, 2005), selanjutnya dilakukan integrasi data untuk menghasilkan data yang disimpan pada tabel baru. Kondisi awal data yang tersimpan pada setiap tabel dan telah melewati tahap preprocessing data, menghasilkan tabel jualan.myd, kategori.myd, barang.myd, detail.myd dan member.myd. Untuk menyimpan proses kandidat frequent itemset dibuatkan 3 buah tabel yaitu C1.myd untuk menampung hasil frequent 1-itemset, C2.myd untuk menampung hasil frequent 2-itemset dan C3.myd menampung hasil frequent 3-itemset. Proses dari temporal asscoation rules dengan menambahkan atribut waktu (Ale dan Rossi, 2000; Liang dkk, 2005) berupa tanggal transaksi, pada tabel T1.myd untuk menampung tanggal awal sebagai Ts dan T2.nyd menampung tanggal akhir sebagai Te. Struktur tabel yang siap dilakukan proses data mining ditunjukkan Gambar 3.
Gambar 3. Potongan isi data tabel muliamining 2.2 Proses Menemukan Frequent Itemset
Menggunakan data pada Tabel 1, misal dicari frequent itemset yang memenuhi support count, dimana support count ditentukan 2..
Tabel 1. Daftar item barang No Nama item barang
2 Alat tulis (AL) yang terlibat terjadi pada waktu yang memiliki lifetime. Dimana T=10 adalah waktu awal dan T=19 adalah waktu akhir.
Selanjutnya dari Tabel 2 dapat direpresentasikan dalam bentuk tabular dengan nilai 0 dan 1, untuk memudahkan proses data mining dalam mencari frequent itemset untuk menghasilkan temporal rules. Hasil representasi format tabular biner ditunjukkan pada Tabel 3. Berdasar Tabel 3, Algoritma Apriori digunakan untuk memproses C1 kandidat 1-itemset dengan cara melakukan scaning, selanjutnya dari L1 digunakan untuk memperoleh kandidat 2-itemset C2. Kandidat 2-itemset yang tidak menarik dan tidak memenuhi support count di hapus. Kemudian L2 digunakan untuk mencari kandidat 3-itemset dan kandidat yang menarik serta memenuhi support count di proses lebih lanjut sampai Ck = 0 atau diperoleh Ck terpanjang. Proses menemukan frequent itemset ditunjukkan pada Gambar 4 dan Gambar 5 dengan support count2.
yang berisi item dengan support count  2, hasilnya ditunjukkan pada Gambar 5. Tahap berikutnya melakukan proses C3 dengan cara kombinasi terhadap item yang ada pada L2, dan hasilnya disimpan pada L3. Itemset yang tidak memenuhi support count akan di pangkas.
Hasil pada L3 terdiri dari item AS, PE dan SM dimana bila membeli {AS,PE} maka juga membeli {SM} dengan notasi {AS,PE}{SM}, ditunjukkan pada Gambar 5. Selanjutnya association rules ini diproses dengan metode temporal association rules untuk menemukan pola aturan temporal.
Gambar 5. Proses kandidat frequent 2-itemset dan 3-itemset
2.3 Proses Temporal Association Rules
informasi tentang waktu yaitu berupa tanggal transaksi [5], sehingga association rule yang dihasilkan nanti sudah mempunyai waktu interval. Proses penentuan tanggal transaksi berdasarkan tanggal pertama kali belanja [Ts] dianggap sebagai nilai terkecil dan tanggal terakhir belanja [Te] dianggap sebagai nilai terbesar, yang berada dalam rentang waktu lifetime (Ale dan Rossi, 2000; Liang dkk, 2005). Berdasarkan Gambar 5 pada L3, tahap selanjutnya menambahkan informasi tanggal transaksi pada setiap itemset, sehingga pemetaan setiap itemset yang berlaku pada tanggal transaksi dan jumlah frekuensi kemunculan tampak pada Tabel 4.
Tabel 4. Hasil pemetaan itemset yang memiliki lifetime
No Item Waktu transaksi Kemunculan dalam lifetime
1 {AS} [10, 12, 14, 15, 19] [10,19]
2 {PE} [10, 11, 14, 19] [10,19]
3 {SM} [10,15,17, 19] [10,19]
Setelah ditemukan jumlah frekuensi kemunculan setiap item dan tanggal transaksi, langkah berikutnya, dari kombinasi rules yang mengandung itemset pada Gambar 5, dicari minimum temporal support dan confidence. Proses menghitung minimum temporal support menggunakan persamaan (Ale dan Rossi, 2000). Dimana jumlah kemunculan {AS,PE}{SM} / 10. Nilai 10 adalah jumlah transaksi yang memiliki lifetime. Untuk menghitung confidence menggunakan persamaan (Han dan Kamber, 2001). Dimana jumlah kemunculan {AS,PE}  {SM} / jumlah kemunculan {AS,PE}. Hasil akhir temporal rules tercantum pada Tabel 5.
Tabel 5. Hasil perhitungan Support dan Confidence
No TAR MinTempSup dan MinCon Prosentase
1 {AS,PE}{SM} Support: 2/10 = 0.2 Confidence: 2/3 = 0.67
20% 67%
Interval waktu terjadi transaksi dimulai dari tanggal pertama ketika belanja [Ts] dan tanggal terakhir ketika belanja [Te]. Maka setiap aturan yang berasosiasi mempunyai waktu interval (Ale dan Rossi, 2000; Winarko dan Roddick, 2005). Setelah menambahkan atribut waktu dan menghitung mintempsup serta confidence hasil akhir TAR ditunjukkan Gambar 6.
( {AS, PE}
{SM} (0.2, 0.67 [10, 19] )
Gambar 6. Hasil temporal associtation rules 3. HASIL DAN PEMBAHASAN
Untuk mengimplementasikan rancangan aplikasi digunakan bahasa Java 2 Second Edition (J2SE) dengan DBMS MySQL. Development tool yang dipakai NetBeans 7.0 dengan sistem operasi Windows 7 Home Premium. Perangkat keras yang digunakan mempunyai spesifikasi, HP Pavillion dm3 Intel Core 2 Duo P9300 2.26 GHz, RAM 4GB, sistem operasi 32 bit. Data yang digunakan sebagai sumber tabel muliamining.
Data penjualan yang digunakan menggunakan database mulia dengan tabel muliamining. Jumlah data penjualan pada tabel muliamining yang siap untuk proses data mining yaitu 1.124.267 record. Percobaan ini untuk memperoleh temporal rules menggunakan Algoritma Apriori dengan menambahkan atribut waktu (Ale dan Rossi, 2000; Liang dkk, 2005; Mukhlas, 2011). Percobaan ini penulis lakukan untuk mengetahui, apakah temporal association
rules. Pada data nonmember tidak terbentuk temporal rules. Hasil percobaan data penjualan dengan aplikasi TAR telah dirangkum dan ditunjukkan pada Tabel 6.
Tabel 6. Rangkuman hasil pengujian TAR temporal rules yang terbentuk ada peningkatan baik pada data member maupun data nonmember dibanding minsup = 0.1 dan minconf 0.2. Grafik jumlah temporal rules yang terbentuk ditunjukkan pada Gambar 7 dan Gambar 8.
Gambar 7. Grafik temporal rules dengan minsup 0.1 dan minconf 0.2
Gambar 8. Grafik temporal rules dengan minsup 0.01 dan minconf 0.05
Tabel 7 menjelaskan konsumen sebagai member dalam membeli busana pria bersama busana wanita memiliki peluang (support) dibeli bersama sebesar 14.9%, dengan kekuatan hubungan antar item (confidence) sebesar 56%. Untuk rules busana pria yang dibeli bersama
busana wanita memiliki prosentase support yang sama namun memiliki kekuatan hubungan antar item (confidence) lebih rendah yaitu 30.6%. Kedua rules pada Tabel 7, terjadi pada interval 27 Agustus 2007–28 September 2008. Disimpulkan bahwa konsumen sebagai member lebih memilih membeli busana pria dulu baru membeli busana wanita dengan interval waktu tersebut, hal ini ditunjukkan dengan confidence sebesar 56%.
Tabel 7. Pengujian minsup = 0.1 dan minconf = 0.2
Rules Temporal Rules
1 {busana pria}{busana wanita}, (S=0.149, C=0.560 [2007-08-27, 2008-09-28]) 2 {busana wanita}{busana pria}, (S=0.149, C=0.306 [2007-08-27, 2008-09-28])
Percobaan kedua menghasilkan temporal rules lebih banyak, ditunjukkan pada Gambar 9. Percobaan ini berhasil mengeluarkan hasil temporal rules seperti yang diharapkan. Percobaan dengan interval 1 Agustus 2007 – 30 September 2008 untuk data member menghasilkan 4 temporal rules dan data nonmember 27 temporal rules.
Gambar 9. Hasil data mining 1 Agustus 2007–30 September 2008 untuk data nonmember
4. KESIMPULAN
Setelah penelitian dilakukan, diperoleh hasil penelitian dengan kesimpulan sebagai berikut:
1. Jumlah temporal rules yang dihasilkan dengan parameter minsup 0.1 dan minconf 0.2 tampak sama untuk data member pada interval 5 bulan, 9 bulan dan 14 bulan. Pada data nonmember tidak terbentuk temporal rules pada semua interval.
2. Hasil pengujian dengan batasan yang lebih rendah minsup 0.01 dan minconf 0.05 untuk interval 14 bulan, 9 bulan dan 5 bulan pada data member ditemukan peningkatan jumlah temporal rules. Demikian pula hasil pengujian terhadap data nonmember ditemukan jumlah pola temporal rules yang cukup banyak untuk interval 14 bulan, 9 bulan dan 5 bulan.
3. Terjadi konsistensi nilai support sebesar 14% untuk transaksi busana pria yang dibeli bersama dengan busana wanita pada interval 14 bulan dan 9 bulan. Namun terjadi kenaikan nilai support 16% ketika menggunakan interval 5 bulan, karena pada bulan Agustus terjadi even tahun ajaran baru sedangkan Desember terjadi even libur natal dan tahun baru.
Confidence 55% tampak konsisten untuk temporal rules {7} {8} yaitu bila membeli busana pria maka juga membeli busana wanita. Demikian pula confidence 30% tampak konsisten untuk temporal rule {8}{7}, bila membeli busana wanita maka juga membeli busana pria. Namun prosentase tersebut terjadi peningkatan ketika menggunakan interval 5 bulan dikarenakan pada interval 5 bulan terjadi even tahun ajaran baru, liburan natal dan pergantian tahun.
5. SARAN
1. Data transaksi penjualan yang diperoleh tidak terdapat atribut jam transaksi. Diharapkan pada penelitian berikutnya mampu lebih detail karena bisa mengetahui pola belanja berdasarkan waktu pagi, siang atau malam. Sehingga temporal rules yang dihasilkan selain tanggal transaksi juga terdapat waktu transaksi.
2. Untuk proses data cleaning terdapat beberapa kekurangan. Hendaknya proses entri data penjualan sebaiknya menggunakan form standar agar pengisian data lebih rinci dan jelas. Karena dengan data yang benar dan standar akan mempermudah proses data cleaning. Terutama pada data barang dimana nama dan satuan barang masih dalam satu atribut, data member tidak menyertakan lokasi desa atau kecamatan, data transaksi belum ada atribut waktu belanja.
UCAPAN TERIMA KASIH
Penulis mengucapkan terima kasih kepada Bapak Edi Winarko, Drs., M.Sc., Ph.D. Universitas Gadjah Mada atas pinjaman buku “Knowledge Discovery from Interval Sequence Data - Methods for Discovering and Retrieving Temporal Rules”yang sangat membantu dalam penelitian ini.
DAFTAR PUSTAKA
Agrawal, R., dan Srikant, R., 1994, Fast Algorithm for Mining Association Rules, Proceedings 20thInternational Confrence VLDB, Santiago Chile, pp. 487–499
Ale, J.M., dan Rossi, G.H., 2000, An Approach to Discovering Temporal Association Rules, in Proceedings of The 2000 ACM Symposium on Applied Computing, pp. 294–300 Fayyad, U., Piatetsky-Shapiro, G., dan Smyth, P., 1996, From Data mining to Knowledge
Discovery in Databases, AAAI and The MIT Pres, pp. 37-53
Handojo, A., Satia, B.G., Rusly, H., 2005, Aplikasi Data mining untuk Meneliti Asosiasi Pembelian Item Barang di Supermarket dengan Metode Market Basket Analysis, Jurnal Informatika Vol. 6 No. 1, Universitas Kristen Petra, Surabaya
Han, J. dan Kamber, M., 2001, Data Mining: Concepts and Techniques, Morgan Kaufmann Publisher, San Francisco.
Larose, D.T., 2005, Discovering Knowledge In Data: an Introduction to Data Mining, John Wiley and Sons., Hoboken, New Jersey, Canada
Lee, C.H., Lin, C.R. dan Chen, M.S., 2001, On Mining General Temporal Association Rules in a Publication Database, Proceedings IEEE International Conference on Data Mining, ICDM, San Jose–California, pp. 337–344
Liang, Z., Xinming, T., Lin, L. dan Wenliang, J., 2005, Temporal Association Rule Mining Based on T-Apriori Algorithm and Its Typical Application, Proc. of Int. Symposium on Spatio-temporal Modelling Spatial Reasoning, analysis, Data mining and Data Fusion
Li, Y., Ning, P., Wang X.S., Jajodia, S., 2001, Discovering Calendar-Based Temporal Association Rules, In Proceedings of The 8th International Symposium on Temporal Representation and Reasioning, pp. 111–118
Pughazendi, N. dan M., Punithavalli, 2011, Temporal Databases and Frequent Pattern Mining Techniques, International Journal of P2P Network Trends and Technology, July to Aug Issue 2001, pp. 13 - 17
Winarko, E. dan Roddick, J.F., 2005, Discovering Richer Temporal Association Rule from Interval-Based Data: Extended Report, Data Warehouse and Knowledge Discovery, LNCS, 3589, pp. 315–325