DATA MINING DENGAN METODE FUZZY
UNTUK
CUSTOMER RELATIONSHIP MANAGEMENT
(CRM) PADA PERUSAHAAN RETAIL
YOHANA NUGRAHENI
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
2011
ii
DATA MINING DENGAN METODE FUZZY
UNTUK
CUSTOMER RELATIONSHIP MANAGEMENT
(CRM) PADA PERUSAHAAN RETAIL
YOHANA NUGRAHENI NIM 0991761018
PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
iii
DATA MINING DENGAN METODE FUZZY
UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM)
PADA PERUSAHAAN RETAIL
Tesis untuk Memperoleh Gelar Magister
pada Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana
YOHANA NUGRAHENI NIM 0991761018
PROGRAM MAGISTER
PROGRAM STUDI TEKNIK ELEKTRO
PROGRAM PASCASARJANA
UNIVERSITAS UDAYANA
DENPASAR
iv
Tesis Ini Telah Disetujui Tanggal 19 Juli 2011
Pembimbing I, Pembimbing II,
Dr. IKG Darma Putra, S.Kom., MT. Ir. Linawati, M.Eng.Sc., Ph.D
NIP. 197404241999031003 NIP. 196608241991032001
Mengetahui
Ketua Program Magister, Direktur
Program Studi Teknik Elektro Program Pascasarjana
Program Pascasarjana Universitas Udayana
Universitas Udayana
Prof.Ir.I.A.Dwi Giriantari, M.EngSc., Ph.D Prof.Dr.dr.A.A.Raka Sudewi,Sp.S(K)
Tesis Ini Telah Diuji dan Dinilai Tanggal 18 Juli 2011
Panitia Penguji Tesis Berdasarkan SK Direktur Program Pascasarjana Universitas Udayana, No : 088/UN14.4/TU/TE/2011, Tanggal 11 Juli 2011
Panitia Penguji Tesis :
Ketua : Dr. IKG Darma Putra, S.Kom., MT. Anggota :
1. Ir. Linawati, M.Eng.Sc., Ph.D
2. Prof.Ir.Ida Ayu Dwi Giriantari, M.EngSc., Ph.D 3. Prof. Ir. Rukmi Sri Hartati, MT., Ph.D
ii
Dengan ini saya menyatakan bahwa dalam tesis ini tidak terdapat karya tulis yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu perguruan tinggi, dan sepanjang pengetahuan saya tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan orang lain, kecuali yang secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.
Apabila kemudian hari terbukti bahwa saya melakukan tindakan menyalin atau meniru tulisan orang lain sebagai hasil pemikiran saya sendiri, maka gelar dan ijasah yang telah diberikan oleh universitas batal saya terima.
Denpasar, 19 Juli 2011 Yang menyatakan
iii
DATA MINING DENGAN METODE FUZZY
UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL
Konsumen merupakan aset yang sangat penting bagi perusahaan retail. Hal ini adalah alasan mengapa perusahaan retail harus merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan konsumen. Dengan banyaknya jumlah konsumen yang dimiliki oleh suatu perusahaan retail, maka masalah yang harus dihadapi adalah bagaimana menentukan konsumen potensial. Dengan menerapkan konsep CRM (Customer Relationship Management), perusahaan dapat melakukan identifikasi konsumen potensial dengan melakukan segmentasi konsumen. Tujuan dari proses segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan menerapkan strategi pemasaran yang tepat sehingga mendatangkan keuntungan bagi pihak perusahaan.
Penelitian ini membahas tentang bagaimana proses data mining dari data konsumen di UD. Fenny, yaitu perusahaan retail yang khusus menjual bahan dan peralatan membuat kue yang berlokasi di Jalan Nakula, Denpasar. Proses data mining ini menggunakan data yang berasal dari data penjualan pada UD. Fenny dan bertujuan untuk mencari konsumen potensial. Proses data mining dimulai dengan melakukan proses clustering menggunakan algoritma Fuzzy C-Means (FCM) dan Fuzzy Subtractive (FS) Clustering. Pada FCM jumlah cluster ditentukan, sedangkan pada FS, jumlah cluster tidak ditentukan, melainkan diperoleh melalui proses iterasi berdasarkan nilai radii. Hasil clustering dari masing-masing metode tersebut digunakan untuk melakukan segmentasi menggunakan model Fuzzy RFM untuk mendapatkan kelas konsumen. Model Fuzzy RFM menggabungkan teori himpunan fuzzy dengan model RFM, yaitu model segmentasi berdasarkan atribut Recency, Frequency dan Monetary. Model RFM merupakan model segmentasi yang umum digunakan pada perusahaan retail.
Aplikasi data mining dibangun berbasis GUI menggunakan MATLAB versi 7.10.0 dan memanfaatkan beberapa toolbox yaitu Fuzzy Logic Toolbox dan Database Toolbox. Uji coba dilakukan terhadap data penjualan pada tahun 2008. Dari uji coba ini dilakukan analisis terhadap validitas algoritma clustering yang digunakan. Metode pengukuran indeks validitas cluster yang digunakan adalah Modified Partition Coefficient (MPC) dan Classification Entropy (CE). Dari kedua metode ini diperoleh hasil bahwa algoritma FCM lebih baik dibandingkan FS. Selain untuk mengukur validitas cluster, MPC dan CE digunakan juga untuk menentukan jumlah cluster terbaik. Dari hasil penelitian, jumlah cluster yang optimal untuk kedua metode clustering adalah 2. Jika diterapkan pada proses segmentasi, segmentasi dari hasil FS tidak dapat mengidentifikasi konsumen potensial, sedangkan jika menggunakan FCM identifikasi terhadap konsumen potensial didapatkan pada proses clustering dengan 2 cluster. Sehingga dapat disimpulkan bahwa algoritma FS kurang mendukung proses data mining pada perusahaan retail
Kata kunci : data mining, Fuzzy C-Means, Fuzzy Subtractive, clustering, segmentasi, RFM, Modified Partition Coefficient, Classification Entropy, validitas cluster, Customer Relationship Management
iv
FOR CUSTOMER RELATIONSHIP MANAGEMENT (CRM) IN RETAIL INDUSTRY
Customers are the most important asset of a retail industry. That is why a retail industry should plan and employ a clear strategy for treating customers. A problem that appears in a retail industry with a great quantity of customers is how to identify potential customers. A retail industry could identify their best customer through customer segmentation by applying Customer Relationship Management (CRM) concept. The objective of customer segmentation is to understand the customer’s behavior and apply the appropriate marketing strategy in order to make a retail industry profitable.
This research presents data mining process from customer’s data in UD. Fenny, a retail industry located in Nakula street, Denpasar which specially sells baking ingredients and equipment. The data mining process uses data that derived from sales data in UD Fenny and aims to look for potential customers. Data mining process begins with clustering process using Fuzzy C-Means (FCM) and Fuzzy Subtractive (FS) Clustering algorithm. On FCM, the cluster number needs to be determined. While on FS, the cluster number obtained through the iteration process based on the radii. The clustering result from each method is used for the segmentation process using Fuzzy RFM model to obtain customer class. Fuzzy RFM model combines the fuzzy set theory with RFM model, the segmentation model based on Recency, Frequency, and Monetary attribute. RFM model is a segmentation model that commonly used in retail industries.
The data mining application was built based on GUI using MATLAB version 7.10.0 and utilized Fuzzy Logic and Database Toolbox. The trial was performed on sales data in 2008. In this trial, the cluster validity from FCM and FS has been evaluated using Modified Partition Coefficient (MPC) and Classification Entropy (CE). The comparative study shows that FCM has a better performance than FS and the optimal cluster number for both clustering method is 2. Segmentation process from FS clustering result fails to identify the potential customer. While, segmentation process from FCM clustering result successfully identify the potential customer with 2 cluster number. So, it can be concluded from this research that FS clustering method is less supportive for data mining process in retail industry.
Keywords: data mining, Fuzzy C-Means, Fuzzy Subtractive, clustering, segmentation, RFM, Modified Partition Coefficient, Classification Entropy,cluster validity, Customer Relationship Management
v
Puji syukur penulis panjatkan kepada Tuhan Yesus Kristus, karena atas kasih dan anugerahNya tesis yang berjudul “DATA MINING DENGAN METODE FUZZY UNTUK CUSTOMER RELATIONSHIP MANAGEMENT (CRM) PADA PERUSAHAAN RETAIL” ini dapat diselesaikan.
Penulis menyadari bahwa tanpa dukungan dari banyak pihak, tesis ini tidak akan terselesaikan dengan baik. Untuk itu, dengan kesempatan ini penulis ingin menyampaikan penghargaan dan rasa terima kasih yang sebesar-besarnya kepada :
1. Prof. Dr. dr. A. A.Raka Sudewi, Sp.S(K) sebagai Direktur Pascasarjana Universitas Udayana,
2. Prof. Ir. Ida Ayu Dwi Giriantari, M.EngSc., Ph.D sebagai Ketua Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana.
3. Dr. I Ketut Gede Darma Putra, S.Kom., MT sebagai pembimbing I atas waktu dan kesediaan untuk memberikan ilmu, ide, masukan, dan saran kepada penulis.
4. Ir. Linawati, M.Eng.Sc., Ph.D sebagai pembimbing II.
5. A.A. Oka Sudana, S.Kom, MT sebagai pembimbing pendamping
6. Bapak dan Ibu dosen pengajar di Program Magister Teknik Elektro yang telah membagikan ilmu kepada penulis.
7. Suami tercinta Putu Denny Arsana dan putri tersayang Putu Kania Irene Arsana yang telah memberikan dukungan dan semangat untuk menyelesaikan studi S2.
8. Pdt. Dr. Budyo Pantoro dan ibu, Bapak Ketut Sudiasa dan ibu, atas dukungan doanya.
vi
lainnya yang tidak dapat penulis sebutkan satu per satu, atas semangat dan keceriaan yang telah dibagikan selama menjalani perkuliahan di S2 Elektro.
Penulis menyadari bahwa tesis yang dibuat dengan segenap kemampuan ini memiliki kekurangan. Harapan penulis, semoga karya kecil ini dapat memberikan sumbangsih pada kemajuan dunia ilmu pengetahuan dan pendidikan.
Juli, 2011
vii
DAFTAR ISI
Halaman SAMPUL DALAM ... i PRASYARAT GELAR... iiLEMBAR PERSETUJUAN... iii
PENETAPAN PANITIA PENGUJI ... iv
PERNYATAAN KEASLIAN KARYA TULIS TESIS... v
ABSTRAK ... vi
ABSTRACT... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... x
DAFTAR TABEL ... xii
DAFTAR GAMBAR ... xiv
BAB I PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 4 1.3 Batasan Penelitian ... 4 1.4 Tujuan Penelitian... 5 1.5 Keaslian Penelitian ... 5
BAB II KAJIAN PUSTAKA DAN LANDASAN TEORI... 7
2.1 Kajian Pustaka... 7
2.2 Data Warehouse... 12
2.3 Data Mining... 15
2.2.1 Tugas Data Mining... 17
2.2.2 CRISP-DM... 19
2.3 Customer Relationship Management (CRM)... 22
2.3.1 Teknologi CRM ... 23
2.3.2 Data Mining dalam Kerangka CRM ... 25
viii
2.5.2 Metode Fuzzy C-Means Clustering... 30
2.5.3 Metode Fuzzy Subtractive Clustering... 31
2.5 Ukuran Validitas Cluster... 34
2.6 Metode Klasifikasi Fuzzy RFM... 36
BAB III METODOLOGI DAN RANCANGAN... 42
3.1 Rancangan Penelitian ... 42
3.2 Tempat dan Waktu Penelitian ... 55
3.3 Sumber Data ... 55
3.4 Instrumen Penelitian... 56
3.5 Jadwal Penelitian... 56
BAB IV IMPLEMENTASI... 57
4.1 Implementasi Data Warehouse... 57
4.2 Implementasi Data Mining... 59
4.2.1 Implementasi Clustering dengan Algoritma FuzzyC-Means ...60
4.2.2 Implementasi Clustering dengan Algoritma FuzzySubtractive ...65
4.2.3 Implementasi Segmentasi dengan Model Fuzzy RFM...69
4.2.4 Implementasi Perbandingan Kelas Konsumen ...75
BAB V HASIL PENELITIAN DAN PEMBAHASAN ... 79
5.1 Hasil Uji Coba... 79
5.1.1 Algoritma FuzzyC-Means (FCM) Clustering... 79
5.1.2 Algoritma FuzzySubtractive (FS) Clustering... 93
5.2 Analisis Cluster... 108
BAB VI KESIMPULAN... 124
ix
Tabel 2.1 Penelitian yang Telah Dilakukan... 11
Tabel 2.2 Definisi Kelas dan Nilai (Score) dalam Metode Sharp RFM... 39
Tabel 2.3 Penilaian Konsumen Berdasarkan Metode Sharp RFM... 40
Tabel 2.4 Penilaian Konsumen Berdasarkan Metode Fuzzy RFM... 40
Tabel 3.1 Tabel Customer ... 44
Tabel 3.2 Tabel Barang ... 44
Tabel 3.3 Tabel Master Penjualan ... 44
Tabel 3.4 Tabel Detil Penjualan ... 45
Tabel 3.5 Tabel Master Piutang... 45
Tabel 3.6 Tabel Detil Piutang... 45
Tabel 3.7 Data Parsial dari Database UD. Fenny ... 47
Tabel 3.8 Domain Nilai Untuk Masing-Masing Himpunan Fuzzy... 49
Tabel 3.9 Deskripsi Variabel Linguistik dan Label Konsumen ... 52
Tabel 3.10 Pembagian Superstar Customer... 53
Tabel 3.11 Pembagian Golden Customer... 54
Tabel 3.12 Pembagian Everyday Customer... 54
Tabel 3.13 Pembagian Occational Customer... 54
Tabel 3.14 Pembagian Dormant Customer... 54
Tabel 3.15 Jadwal Penelitian... 55
Tabel 5.1 Koordinat Titik Pusat Cluster (Jumlah Cluster = 2)... 80
Tabel 5.2 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 2) ... 81
Tabel 5.3 Koordinat Titik Pusat Cluster (Jumlah Cluster = 3)... 83
Tabel 5.4 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 3) ... 83
Tabel 5.5 Koordinat Titik Pusat Cluster (Jumlah Cluster = 4)... 85
Tabel 5.6 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 4) ... 86
Tabel 5.7 Koordinat Titik Pusat Cluster (Jumlah Cluster = 5)... 88
Tabel 5.8 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 5) ... 89
Tabel 5.9 Koordinat Titik Pusat Cluster (Jumlah Cluster = 6)... 91
Tabel 5.10 Kelas Konsumen Setiap Cluster (Jumlah Cluster = 6) ... 92
x Tabel 5.14 Kelas Konsumen Setiap Cluster
(Radii=0.22, Jumlah Cluster = 3) ... 98 Tabel 5.15 Koordinat Titik Pusat Cluster (Radii=0.15)... 100 Tabel 5.16 Kelas Konsumen Setiap Cluster
(Radii=0.15, Jumlah Cluster = 4) ... 100 Tabel 5.17 Koordinat Titik Pusat Cluster (Radii=0.1)... 103 Tabel 5.18 Kelas Konsumen Setiap Cluster
(Radii=0.1, Jumlah Cluster = 5) ... 104 Tabel 5.19 Koordinat Titik Pusat Cluster (Radii=0.09)... 106 Tabel 5.20 Kelas Konsumen Setiap Cluster
(Radii=0.09, Jumlah Cluster = 6) ... 106 Tabel 5.21 Indeks MPC dan CE pada Algoritma FCM dan FS Clustering... 108 Tabel 5.22 Perbandingan Kelas Konsumen Per Tahun ... 110 Tabel 5.23 Contoh Konsumen yang Mengalami Anomali
xi
Gambar 2.1 Arsitektur Data Warehouse... 14
Gambar 2.2 Proses KDD ... 16
Gambar 2.3 Tahapan dalam Proses Knowledge Discovery in Database... 17
Gambar 2.4 Empat Tugas Inti Data Mining... 18
Gambar 2.5 Siklus Hidup CRISP-DM ... 20
Gambar 2.6 Kerangka Kerja Teknik Data Mining dalam CRM ... 26
Gambar 2.7 Contoh Proses Clustering... 29
Gambar 2.8 Hard dan Fuzzy Clustering... 29
Gambar 2.9 Metode (a) Sharp RFM dan (b) Fuzzy RFM ... 41
Gambar 3.1 Diagram Relasi Antar Tabel ... 46
Gambar 3.2 Star Schema Penjualan ... 48
Gambar 3.3 Himpunan Fuzzy pada Variabel Recency... 50
Gambar 3.4 Himpunan Fuzzy pada Variabel Frequency... 50
Gambar 3.5 Himpunan Fuzzy pada Variabel Monetary... 50
Gambar 4.1 Tampilan Utama Aplikasi Data Warehouse... 57
Gambar 4.2 Fasilitas Drill-Down dan Roll-Up pada Aplikasi Data Warehouse ...58
Gambar 4.3 Fasilitas untuk Mengetahui Total Recency, Frequency, Monetary, dan Average pada Aplikasi Data Warehouse ...59
Gambar 4.4 Menu Utama Aplikasi Data Mining ... 60
Gambar 4.5 Tampilan Aplikasi untuk Fuzzy C-Means Clustering ...61
Gambar 4.6 Tampilan Aplikasi Daftar Anggota Cluster... 65
Gambar 4.7 Tampilan Aplikasi untuk Fuzzy Subtractive Clustering... 66
Gambar 4.8 Kurva Gauss... 67
Gambar 4.9 Tampilan Aplikasi Segmentasi Menggunakan Model Fuzzy RFM ... 70
Gambar 4.10 Hasil Plot Himpunan Fuzzy dengan Fungsi Keanggotaan Trapezoidal ...73
Gambar 4.11 Tampilan Aplikasi Perbandingan Kelas Konsumen dengan Pilihan Bentuk Grafik General ...76
xii
Gambar 5.1 Hasil Clustering Menggunakan FCM dengan 2 cluster ...80 Gambar 5.2 Tampilan Hasil Segmentasi 2 Cluster
yang Diperoleh dari FCM... 81 Gambar 5.3 Hasil Clustering Menggunakan FCM dengan 3 cluster... 82 Gambar 5.4 Tampilan Hasil Segmentasi 3 Cluster
yang Diperoleh dari FCM... 83 Gambar 5.5 Hasil Clustering Menggunakan FCM dengan 4 cluster ...85 Gambar 5.6 Tampilan Hasil Segmentasi 4 Cluster
yang Diperoleh dari FCM... 86 Gambar 5.7 Hasil Clustering Menggunakan FCM dengan 5 cluster ...88 Gambar 5.8 Tampilan Hasil Segmentasi 5 Cluster
yang Diperoleh dari FCM... 89 Gambar 5.9 Hasil Clustering Menggunakan FCM dengan 6 cluster ...91 Gambar 5.10 Tampilan Hasil Segmentasi 6 Cluster
yang Diperoleh dari FCM... 92 Gambar 5.11 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.5...94 Gambar 5.12 Tampilan Hasil Segmentasi 2 Cluster yang Diperoleh dari FS... 95 Gambar 5.13 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.22...97 Gambar 5.14 Tampilan Hasil Segmentasi 3 Cluster yang Diperoleh dari FS... 98 Gambar 5.15 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.15...99 Gambar 5.16 Tampilan Hasil Segmentasi 4 Cluster yang Diperoleh dari FS... 102 Gambar 5.17 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.1...103 Gambar 5.18 Tampilan Hasil Segmentasi 5 Cluster yang Diperoleh dari FS... 104 Gambar 5.19 Tampilan Hasil Clustering Menggunakan FS
dengan Nilai Radii=0.09...105 Gambar 5.20 Tampilan Hasil Segmentasi 6 Cluster yang Diperoleh dari FS... 107
xiii
Gambar 5.23 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan Algoritma FCM Clustering (Customer No. = C0020)
dengan Bentuk Grafik (a) General (b) Detail... 111 Gambar 5.24 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0020)
dengan Bentuk Grafik (a) General (b) Detail... 112 Gambar 5.25 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0051)
dengan Bentuk Grafik (a) General (b) Detail... 113 Gambar 5.26 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0051)
dengan Bentuk Grafik (a) General (b) Detail... 114 Gambar 5.27 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0061)
dengan Bentuk Grafik (a) General (b) Detail... 115 Gambar 5.28 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0061)
dengan Bentuk Grafik (a) General (b) Detail... 116 Gambar 5.29 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0138)
dengan Bentuk Grafik (a) General (b) Detail... 117 Gambar 5.30 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0138)
dengan Bentuk Grafik (a) General (b) Detail... 118 Gambar 5.31 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FCM Clustering (Customer No. = C0205)
dengan Bentuk Grafik (a) General (b) Detail... 119 Gambar 5.32 Perbandingan Kelas Konsumen Hasil Clustering Menggunakan
Algoritma FS Clustering (Customer No. = C0205)
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Di tengah persaingan bisnis yang sangat ketat dewasa ini, perusahaan-perusahaan retail mulai mengalihkan perhatian mereka dari sekedar mengembangkan produk dan layanan yang unggul ke arah penciptaan pengalaman personal konsumen. Hal ini dilakukan dengan suatu kesadaran yang utuh bahwa hubungan antara perusahaan dengan konsumen sangat penting untuk menunjang perkembangan dan kelangsungan perusahaan. Sesuai dengan hukum Pareto (hukum 80:20), hanya 20% dari keseluruhan konsumen yang mewakili 80% pendapatan perusahaan. Dalam hal ini, konsumen yang berbeda mewakili nilai yang berbeda. Pihak manajemen perusahaan retail harus mampu untuk mengenali konsumen terbaiknya dan mempercayainya dengan meningkatkan pemahaman perusahaan akan kebutuhan mereka sebagai individu sehingga dapat mempertahankan loyalitasnya terhadap perusahaan. Dengan menerapkan konsep CRM (Customer Relationship Management), perusahaan dapat melakukan identifikasi konsumen dengan melakukan segmentasi konsumen. Tujuan dari proses segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan menerapkan strategi pemasaran yang tepat sehingga mendatangkan keuntungan bagi pihak perusahaan.
UD. Fenny adalah salah satu perusahaan retail yang menyadari akan pentingnya hubungan antara pelanggan yang loyal dengan keberhasilan bisnis perusahaan. UD. Fenny merupakan perusahaan retail yang khusus menjual bahan
dan peralatan membuat kue dan berlokasi di Jalan Nakula, Denpasar. Sampai tahun 2010, UD. Fenny memiliki 1.200 pelanggan, 10.000 item barang, dan 3.000.000 transaksi penjualan. Sejak tahun 2006, UD. Fenny telah menggunakan sistem informasi berbasis komputer untuk menangani point of sales (POS) dan inventory. Hal ini berdampak pada pertumbuhan jumlah data yang sangat pesat dan menimbulkan tumpukan data yang berjumlah besar dalam basis data. Dengan jumlah data yang sangat besar, UD. Fenny kesulitan untuk melakukan identifikasi terhadap konsumen terbaiknya. Penggunaan metode tradisional untuk melakukan identifikasi konsumen dari data membutuhkan kemampuan manusia untuk menganalisa dan menginterpretasikan data. Dengan volume data yang berkembang sangat pesat, baik dari jumlah record dan jumlah field, analisa terhadap data tidak mungkin dilakukan secara manual oleh manusia. Penerapan data mining dapat membantu untuk menganalisa data yang diperoleh dari transaksi pada sistem informasi sehingga dapat menggali pola-pola yang dapat dijadikan pengetahuan baru untuk proses identifikasi konsumen di UD. Fenny.
Data mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham (2009), data mining juga didefinisikan sebagai bagian dari proses penggalian pengetahuan dalam database yang dikenal dengan istilah Knowledge Discovery in Database (KDD). Teknik data mining yang digunakan untuk mencari segmentasi konsumen adalah menggunakan teknik clustering. Menurut Jain (1999), teknik clustering digunakan pada data mining untuk mengelompokan
objek-objek yang memiliki kemiripan dalam kelas atau segmen yang sama, sementara objek-objek yang terletak pada kelas yang berbeda menunjukkan karakteristik yang berbeda juga. Ada dua macam teknik clustering yang dapat digunakan, yaitu hard clustering dan fuzzy clustering.
Pada penelitian ini akan digunakan metode fuzzy clustering, yaitu dengan algoritma Fuzzy C-Means Clustering (FCM) dan Fuzzy Subtractive Clustering (FS) untuk mengelompokkan data penjualan pada basis data UD. Fenny. Algoritma Fuzzy C-Means Clustering merupakan algoritma supervised clustering (jumlah cluster ditentukan). FCM memiliki tingkat akurasi yang tinggi dan waktu komputasi yang cepat (Hammouda, 2000). Jika jumlah cluster tidak ditentukan, maka dapat digunakan algoritma Fuzzy Subtractive Clustering, yang termasuk algoritma unsupervised clustering (Hammouda, 2000). Dengan menggunakan algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering, hasil pengelompokan data menggunakan kedua algoritma tersebut dapat dibandingkan. Hasil clustering selanjutnya akan diklasifikasi untuk menentukan segmentasi konsumen menggunakan model fuzzy RFM. Model fuzzy RFM memadukan model RFM dan logika fuzzy. Model RFM merupakan model untuk menentukan segmentasi konsumen berdasarkan recency, frequency, dan monetary. Recency adalah rentang waktu (dalam satuan hari, bulan, tahun) dari transaksi terakhir yang dilakukan oleh konsumen sampai saat ini. Frequency adalah jumlah total transaksi atau jumlah rata-rata transaksi dalam satu periode. Monetary, adalah jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu. Dengan memadukan logika fuzzy dengan model Recency Frequency Monetary (RFM), hasil segmentasi konsumen dapat digunakan untuk memberi penilaian terhadap
konsumen (customer scoring) dan menentukan profil konsumen (customer profiling) dengan lebih tepat dibandingkan model RFM yang berdiri sendiri (Zumstein, 2007).
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, dapat dirumuskan beberapa masalah yang menjadi inti dari penelitian ini, yaitu :
1. Apakah algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering yang dipadukan dengan model fuzzy RFM dapat mengidentifikasi konsumen potensial dalam proses data mining ?
2. Bagaimana pengukuran kinerja algoritma Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering dalam proses data mining ?
1.3 Batasan Penelitian
Dengan luasnya cakupan yang dapat terkait dengan tesis ini dan untuk keseragaman pemahaman dalam penelitian, maka terdapat batasan-batasan yang perlu diberlakukan pada tesis ini. Batasan-batasan tersebut adalah:
1. Meskipun proses mining akan dilakukan dari suatu data warehouse, namun dalam penelitian tidak akan melakukan kajian tentang proses pembangunan data warehouse.
2. Proses clustering dengan algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering akan diterapkan pada data yang sama dan akan dilakukan perbandingan terhadap hasil clustering dari kedua algoritma ini.
3. Tidak membuat proses otomatisasi pada proses ekstraksi fitur dan transfer data. Kedua proses tersebut dilakukan dengan menggunakan query sederhana melalui fasilitas query analyzer.
1.4 Tujuan Penelitian
Tujuan dari penelitian adalah membuat suatu aplikasi yang merupakan simulasi dari data mining dengan menerapkan metode Fuzzy C-Means Clustering dan Fuzzy Subtractive Clustering dan model fuzzy RFM untuk melakukan segmentasi terhadap hasil clustering. Hasil segmentasi dapat digunakan oleh pihak manajemen perusahaan retail untuk mendukung proses CRM sehingga perusahaan dapat melakukan identifikasi terhadap konsumen yang banyak mendatangkan keuntungan bagi perusahaan (profitable consumer). Dengan proses CRM diharapkan perusahaan retail, dalam hal ini UD. Fenny dapat melakukan manajemen yang baik terhadap konsumennya, sehingga akan tercipta loyalitas konsumen terhadap UD. Fenny.
1.5 Keaslian Penelitian
Penelitian sebelumnya yang sejenis adalah penelitian Cheng dengan judul Classifying the Segmentation of Customer Value via RFM Model and RS Theory, menggunakan metode K-Means dan Rough Theory serta pemodelan RFM. Sedangkan Zumstein dalam thesisnya yang berjudul Customer Performance Measurement : Analysis of the Benefit of a Fuzzy Classification Approach in Customer Relationship Management meneliti tentang metode fuzzy RFM untuk melakukan klasifikasi dalam proses segmentasi konsumen. Penelitian yang
dilakukan oleh Zumstein merupakan paparan konsep dari fuzzy RFM dan belum diterapkan untuk proses data mining. Penelitian lain dengan metode fuzzy clustering untuk proses data mining akan dipaparkan pada bagian kajian pustaka.
7
BAB II
KAJIAN PUSTAKA DAN LANDASAN TEORI
2.1 Kajian Pustaka
Penelitian tentang data mining untuk CRM, khususnya untuk proses segmentasi konsumen, serta metode Fuzzy RFM telah beberapa kali dilakukan sebelumnya.
Shin dan Sohn (2004) dalam penelitiannya menggunakan algoritma K-Means, SOM, dan Fuzzy C-Means untuk mencari segmentasi konsumen pasar modal berdasarkan nilai potensialnya, yaitu berdasarkan total nilai transaksi yang dilakukan dalam periode tiga bulan. Dari hasil perbandingan terhadap ketiga metode tersebut, algoritma K-Means memiliki hasil segmentasi yang lebih akurat. Selanjutnya dilakukan proses klasifikasi menggunakan metode aturan berbasis pohon keputusan, sehingga dihasilkan tiga segmen konsumen dan setiap segmen konsumen menentukan besarnya komisi yang harus dibayarkan untuk broker.
Penelitian lainnya dilakukan oleh Jansen (2007) untuk menerapkan konsep data mining dalam proses segmentasi konsumen (customer segmentation) dan mendefinisikan profil konsumen (customer profiling) serta hubungan antara keduanya. Jansen menggunakan algoritma K-Means, K-Medoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering untuk melakukan proses segmentasi konsumen. Studi kasus dalam penelitian ini adalah konsumen pengguna jasa telekomunikasi Vodafone. Segmentasi konsumen didasarkan pada perilaku konsumen yang diukur berdasarkan jumlah panggilan masuk dan panggilan keluar yang dilakukan oleh konsumen. Customer profiling dibangun melalui informasi
yang berasal dari datawarehouse, seperti umur, jenis kelamin, dan informasi daerah tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui profil konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan menggunakan SVM, dapat dibentuk empat segmen konsumen dari data profil konsumen yang ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah segmen yang dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya adalah 78,5%.
Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy Fisher Criterion Based Hierarchical Clustering Algorithm) untuk melakukan segmentasi konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy Fisher Criterion) sebagai algoritma untuk melakukan clustering dan clustering validity function untuk mencari jumlah cluster yang paling optimal. Metode ini diterapkan pada dataset konsumen pada suatu perusahaan pasar modal.
Fathi, Kianfar, Hasanzadeh, dan Sadeghi (2009) meneliti nilai kepuasan konsumen yang dapat dimaksimalkan melalui penggunaan katalog dalam proses penjualan produk. Derajat kepuasan konsumen didefinisikan melalui dari jumlah produk kebutuhan konsumen yang muncul dalam catalog dan tingkat prioritas kebutuhan terhadap produk tersebut. Konsumen dikelompokkan menjadi tiga kelompok berdasarkan tingkat kebutuhannya terhadap produk di dalam katalog, menggunakan algoritma Fuzzy C-Means.
Cheng dan Chen (2009) menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses clustering dilakukan terhadap data konsumen C-‐ company, yaitu perusahaan yang bergerak di bidang industry elektronik.
Proses clustering didahului dengan mendefinisikan skala dari atribut R-‐F-‐M. Atribut inilah yang digunakan sebagai input dalam proses clustering yang dilakukan dengan algoritma K-Means . Proses clustering dilakukan untuk membagi data konsumen menjadi lima cluster. Dari lima cluster tersebut berikutnya akan dilakukan proses verifikasi, perbandingan, dan perhitungan tingkat akurasi dengan menggunakan algoritma LEM2. Dari 401 instances pada dataset yang digunakan, 67% dataset (268 instances) digunakan untuk
training set, dan 33% sisanya (133instances) digunakan untuk testing set.
Sedangkan penelitian tentang perbandingan algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas dkk (2010) melakukan perbandingan terhadap dua metode clustering yaitu
Fuzzy C-Means dan Fuzzy Subtractive Clustering. Kedua metode ini diterapkan untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam penelitian ini juga dibangun algoritma identifikasi model fuzzy sebagai dasar dari metode estimasi. Hasil dari proses clustering adalah pemodelan hubungan antara suhu udara, kelembaban udara, dan konsentrasi PM10 di Liperpool, Inggris.
Hammouda dan Prof. Karaay (2000) dalam penelitiannya melakukan perbandingan terhadap empat metode clustering, yaitu F-Means, Fuzzy C- Mean, Mountain, dan Fuzzy Subtractive Clustering. Keempat metode
clustering ini diterapkan untuk melakukan proses clustering terhadap data medis. Selanjutnya, hasil dari proses clustering tersebut digunakan untuk membantu proses diagnosa terhadap penyakit hati. Perbandingan terhadap keempat metode clustering dilakukan menggunakan parameter keakuratan
hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering,
root mean square error, dan kemiringan garis regresi (regression line slope). Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang baik untuk digunakan pada data dengan jumlah dimensi yang besar. Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy Subtractive Clustering karena membutuhkan waktu pemrosesan yang lebih cepat dibandingkan Mountain Clustering untuk memproses data dengan 13 dimensi. Algoritma K-Means dan Fuzzy C-Means kinerja yang lebih baik dibandingkan Mountain Clustering dan Fuzzy Subtractive Clustering, namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk.
Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007) dalam thesisnya. Zumstein meneliti tentang klasifikasi fuzzy sebagai metode analisa dan manajemen data multidimensi. Metode klasifikasi fuzzy sesuai untuk digunakan dalam proses CRM dan membangun hubungan dengan konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode klasifikasi seperti metode analisa SWOT, analisa portfolio, analisa ABC, serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy juga dipadukan dengan metode RFM, yaitu metode untuk menentukan segmen-‐segmen konsumen berdasarkan recency, frequency, dan monetary. Metode fuzzy RFM juga dibandingkan terhadap metode sharp RFM dan dapat disimpulkan bahwa metode fuzzy RFM memberikan hasil segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan untuk memahami perilaku konsumennya dengan lebih baik.
Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan sebelumnya dilakukan disajikan dalam Tabel 2.1
Tabel 2.1
Penelitian yang Telah Dilakukan
Dari kajian pustaka yang telah dilakukan, belum ada penelitian di bidang data mining yang diterapkan pada perusahaan retail dengan menggunakan metode
No. Penelitian Metode Deskripsi
1. Shin dan Sohn (2004)
K-means, Fuzzy C-Means, SOM,
Decision tree.
mencari segmentasi konsumen pasar modal berdasarkan nilai potensialnya
2. Jansen (2007) K-Means, K-Medoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering
mencari segmentasi dan profil konsumen pada perusahaan telekomunikasi Vodafone
3. Cao, Zhu, dan Hou (2009)
FFCHC (Fuzzy Fisher Criterion Based Hierarchical
Clustering Algorithm)
mencari segmentasi konsumen pada suatu perusahaan pasar modal
4. Fathi dkk
(2009) Fuzzy C-Means mencari segmentasi konsumen berdasarkan tingkat kebutuhannya terhadap produk di dalam katalog.
5. Cheng dan Chen (2009)
K-Means, RFM , dan LEM2
mencari segmentasi konsumen di C-company berdasarkan atribut R-F-M.
6. Collazo-Cuevas
dkk (2010) Fuzzy C-Means Fuzzy Subtractive dan Clustering.
melakukan perbandingan terhadap Fuzzy C-means dan
Fuzzy Subtractive Clustering untuk data polusi udara.
7. Hammouda dan Prof. Karaay (2000) K-Means, Fuzzy C-Means, Mountain Clustering, Subtractive Clustering melakukan perbandingan keempat algoritma clustering
dengan menggunakan data medis untuk mendiagnosa penyakit hati 8. Zumstein (2007) Fuzzy classification, fuzzy RFM melakukan studi perbandingan metode klasifikasi klasik dengan metode klasifikasi yang dipadukan dengan metode
fuzzy, yaitu algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering dan model fuzzy RFM untuk proses segmentasi.
2.2 Data Warehouse
Data warehouse merupakan kumpulan data dari berbagai sumber yang disimpan dalam suatu gudang data (repository) dalam kapasitas besar dan digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut William Inmon, karakteristik dari data warehouse adalah sebagai berikut :
1. Subject oriented.
Pada sistem operasional, data disimpan berdasarkan aplikasi. Set data hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan aplikasinya. Sedangkan pada data warehouse, data disimpan bukan berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan, pengangkutan, dan penyimpanan barang.
2. Integrated.
Data yang tersimpan dalam data warehouse terdiri dari berbagai sistem operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data, dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan dalam data warehouse dapat terintegrasi.
Pada data warehouse, data yang tersimpan adalah data historis dalam kurun waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur wulan, dan sebagainya. Karakteristik time variant pada data warehouse memiliki karakteristik sebagai berikut :
a. Melakukan analisa terhadap hal di masa lalu.
b. Mencari hubungan antara informasi dengan keadaan saat ini. c. Melakukan prediksi hal yang akan datang.
4. Non-volatile.
Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat diubah karena bersifat read only.
Arsitektur data warehouse (gambar 2.1) mencakup proses ETL (Extraction, Transformation, Loading) untuk memindahkan data dari operational data source dan sumber data eksternal lainnya ke dalam data warehouse . Data warehouse dapat dibagi menjadi beberapa data mart, berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran, dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu atau lebih server yang mewakili multidimensional view dari data terhadap berbagai front end tool, seperti query tools, analysis tools, report writers, dan data mining tools.
Gambar 2.1 Arsitektur Data Warehouse (Prabhu, 2007)
Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses.
1. Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
a. Ekstraksi data secara otomatis dari aplikasi sumber. b. Penyaringan atau seleksi data hasil ekstraksi.
c. Pengiriman data dari berbagai platform aplikasi ke sumber data. d. Perubahan format layout data dari format aslinya.
e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.
2. Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :
a. Memetakan data input dari skema data aslinya ke skema data warehouse.
b. Melakukan konversi tipe data atau format data.
c. Pembersihan serta pembuangan duplikasi dan kesalahan data. d. Penghitungan nilai-nilai derivat atau mula-mula.
e. Penghitungan nilai-nilai agregat atau rangkuman. f. Pemerikasaan integritas referensi data.
g. Pengisian nilai-nilai kosong dengan nilai default. h. Penggabungan data.
3. Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik.
2.3 Data Mining
Data mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham (2009), data mining juga didefinisikan sebagai bagian dari proses penggalian
pengetahuan dalam database yang sering disebut dengan istilah Knowledge Discovery in Database (KDD). KDD merupakan suatu area yang mengintegrasikan berbagai metode, yang meliputi statistik, basis data, kecerdasan buatan (Artificial Intelligence), machine learning, pengenalan pola (Pattern Recognition), pemodelan yang menangani ketidakpastian, visualisasi data, optimasi, Sistem Informasi Manajemen (SIM), dan sistem berbasis pengetahuan (knowledge based-system). Sebagai bagian dari proses yang ada di dalam KDD, maka data mining didahului dengan proses pemilihan data, pembersihan data, pre-processing, dan transformasi data (Sumanthi dan Sivandham, 2009).
Gambar 2.2 Proses KDD (Fayyad dkk, 1996) Ada tiga tahap penting dalam KDD, yaitu (Tan dkk, 2006) :
1. Data preprocessing
Proses ini bertujuan untuk mentransformasikan data input ke dalam format yang sesuai untuk kemudian dianalisa. Dalam tahap ini dilakukan proses penggabungan data dari berbagai sumber, pembersihan data untuk menghilangkan noise data dan data ganda, serta memilih atribut data yang diperlukan bagi proses data mining.
2. Data mining
Proses ini bertujuan untuk medapatkan pola-pola dan informasi yang tersembunyi di dalam basis data. Ada beberapa teknik yang dapat digunakan dalam data mining untuk mendapatkan pola-pola dan informasi tersembunyi, yaitu classification, neural network, decision tree, genetic algorithm, clustering, OLAP (Online Analitycal Processing), dan association rules. 3. Postprocessing
Proses ini bertujuan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan. Contoh dari proses ini adalah proses visualisasi, yaitu proses untuk menganalisa dan mengeksplorasi data dan hasil dari proses data mining dari berbagai sudut pandang.
Gambar 2.3 Tahapan dalam Proses Knowledge Discovery in Database (Tan dkk, 2006)
2.3.1 Tugas data mining
Tugas data mining secara garis besar dibagi menjadi dua kategori utama, yaitu (Tan dkk, 2006) :
1. Tugas prediktif.
Tujuan utama dari tugas ini adalah untuk memprediksikan nilai dari atribut tertentu berdasarkan nilai dari atribut lainnya. Atribut yang diprediksi dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk membuat prediksi disebut penjelas atau independent variable.
2. Tugas deskriptif.
Tujuan utama dari tugas ini adalah untuk memperoleh pola (correlation, trend, cluster, trajectory, anomaly) untuk menyimpulkan hubungan di dalam data. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan menjelaskan hasil proses data mining.
Inti dari tugas data mining adalah pemodelan prediktif, analisa asosiasi, analisa cluster, dan deteksi terhadap anomali (Gambar 2.4).
Gambar 2.4 Empat Tugas Inti Data Mining (Tan dkk, 2006)
Pemodelan prediktif mengacu pada proses membangun model untuk variabel target sebagai fungsi dari variabel penjelas. Ada dua tipe dari pemodelan prediktif,
yaitu klasifikasi (classification) yang digunakan untuk variabel target yang diskret, dan regresi (regression) yang digunakan untuk variable target yang kontinyu. Analisa asosiasi digunakan untuk menemukan pola yang mendeskripsikan fitur-fitur data yang saling berhubungan. Pola-pola ini biasanya digambarkan dalam bentuk aturan implikasi. Analisa cluster merupakan proses untuk mencari kelompok-kelompok data, sedemikian sehingga data yang berada dalam satu kelompok memiliki kemiripan dibandingkan data yang terletak pada kelompok lain. Deteksi anomaly merupakan proses identifikasi data yang memiliki perbedaan karakteristik yang signifikan dengan data yang lain atau yang dikenal dengan istilah outlier (Tan dkk, 2006).
2.3.2 CRISP-DM
CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Gambar 2.5 menjelaskan tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam CRISP-DM.
Gambar 2.5 Siklus Hidup CRISP-DM (Chapman, 2000)
Berikut ini adalah enam tahap siklus hidup pengembangan data mining (Chapman, 2000) :
1. Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut.
2. Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.
3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling).
4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya.
5. Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.
6. Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
2.4 Customer Relationship Management (CRM)
Konsumen merupakan aset yang sangat penting bagi suatu perusahaan. Tidak akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan harus merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan konsumen. Customer Relationship Management (CRM) telah berkembang dalam beberapa dekade belakangan ini untuk merefleksikan peranan utama dari konsumen untuk pengaturan strategi perusahaan. CRM meliputi seluruh ukuran untuk memahami konsumen dan proses untuk mengeksploitasi pengetahuan ini untuk merancang dan mengimplementasikannya pada kegiatan marketing, produksi, dan rantai supply dari pemasok (supplier). Berikut ini akan didefenisikan beberapa pengertian CRM yang diambil dari berbagai literatur, antara lain (Tama, 2009) :
1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah sebuah strategi untuk mengoptimalkan customer lifetime value dengan cara
mengetahui lebih banyak mengenai informasi konsumen dan berinteraksi dengan konsumen secara intensif (Todman, 2001).
2. Dari sisi komunikasi dan manajemen, CRM didefinisikan sebagai sebuah pendekatan perusahaan untuk memahami dan mempengaruhi perilaku konsumen melalui komunikasi yang intensif dalam rangka meningkatkan akuisisi konsumen, mempertahankan konsumen, dan loyalitas konsumen (Swift, 2000).
3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai sebuah strategi bisnis untuk memahami, mengantisipasi dan mengelola kebutuhan konsumen yang potensial dalam suatu organisasi pada saat sekarang dan yang akan datang (Brown, 2000).
Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM yaitu sebuah pendekatan yang komprehensif yang mengintegrasikan setiap bisnis proses yang berhubungan langsung dengan konsumen, yaitu penjualan, pemasaran dan layanan konsumen melalui integrasi filosofi, teknologi, dan juga proses (Tama, 2009). Dengan kata lain, CRM dipandang bukanlah sebagai sebuah produk ataupun sebuah layanan, tetapi sebuah filosofi bisnis yang bertujuan memaksimalkan nilai konsumen dalam jangka panjang (customer lifetime value).
2.4.1 Teknologi CRM
Sebuah definisi standar mengenai komponen teknologi CRM diberikan oleh META Group di dalam “The Customer Relationship Management Ecosystem”. Kategorisasi ini bertujuan untuk lebih memahami bagaimana suatu strategi CRM dan teknologinya mampu menyediakan seluruh arsitektur secara
menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe utama dari teknologi CRM yaitu (Tama, 2009) :
1. Operational CRM, yang dikenal sebagai CRM “front office”. Operational CRM merupakan area dimana terjadi hubungan dengan konsumen secara langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan front office customer touch points, seperti penjualan, pemasaran, dan layanan konsumen, termasuk integrasi antara front office dan back office, seperti manajemen pesanan, dan otomasi pemasaran. Dengan perkembangan teknologi informasi dan komunikasi yang pesat, operational CRM kemudian juga dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM.
2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional. Collaborative CRM berkaitan dengan manajemen hubungan antara stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi utama dari collaborative CRM adalah enterprise portal yang berbasis pada infrastruktur ekstranet dan perangkat lunak manajemen hubungan mitra (partner relationshiop management software) yang memberikan akses kepada konsumen, reseller, dan mitra bisnis melalui internet.
3. Analytical CRM yang dikenal sebagai CRM “back office” atau “strategic” CRM. Analytical CRM biasanya berhubungan dengan penggunaan data secara efektif, efisien dan strategis sehingga memungkinkan pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan evaluasi terhadap data yang tersimpan di basis data untuk menghasilkan sebuah hubungan yang saling menguntungkan antara perusahaan dan
konsumennya. Contoh dari Analytical CRM adalah business intelligence
seperti data warehouse, OLAP, dan data mining.
Hal yang terpenting dalam memahami perilaku konsumen tidak hanya memahami siapa mereka (dalam hal ini customer profiling atau
segmentation) tetapi juga perilaku mereka dan pola-‐pola (pattern) yang mereka ikuti. Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang dinamis dan berkelanjutan (Xu dan Walton, 2005).
2.4.2 Data Mining dalam Kerangka Kerja CRM
Menurut Swift (2001), Parvatiyar dan Sheth (2001), serta Kracklauer, Mills, dan Seifert (2004), CRM memiliki empat dimensi, yaitu :
1. Identifikasi konsumen (customer identification).
2. Membangun daya tarik terhadap konsumen (customer attraction). 3. Mempertahankan konsumen yang ada (customer retention). 4. Pengembangkan konsumen (customer development).
Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup dalam Customer Management System. Setiap dimensi memiliki tujuan umum yang sama yaitu untuk membangun pemahaman yang lebih mendalam dari konsumen dan meningkatkan nilai konsumen (customer value) dari perusahaan. Dalam kaitannya dengan pencapaian tujuan tersebut, teknik data mining dapat digunakan untuk menemukan karakteristik dan perilaku konsumen yang tersembunyi dalam database yang berukuran besar. Untuk menemukan pola karakteristik dan perilaku konsumen, dapat digunakan metode pemodelan data dalam teknik data mining. Beberapa metode pemodelan data yang dapat digunakan, yaitu :
1. Association 2. Classification 3. Clustering 4. Forecasting 5. Regression 6. Sequence discovery 7. Visualization
Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan melalui Gambar 2.6.
Gambar 2.6 Kerangka Kerja Teknik Data Mining dalam CRM (Ngai dkk, 2008)
2.5 Himpunan Fuzzy
Teori himpunan fuzzy merupakan titik penting perkembangan konsep ketidakpastian. Teori himpunan fuzzy diperkenalkan oleh Lotfi A. Zadeh pada tahun 1965 (Klir dan Yuan, 1995). Dengan diperkenalkannya teori himpunan fuzzy, maka anggapan bahwa teori probabilitas sebagai satu-satunya alat untuk memecahkan masalah yang mengandung unsur ketidakpastian, mengalami perkembangan. Teori himpunan fuzzy merupakan salah satu alat untuk memecahkan masalah ketidakpastian. Himpunan nonfuzzy (crisp set) A didefinisikan oleh anggota-anggota himpunan tersebut. Jika a ∈ A, maka nilai yang berhubungan dengan a adalah 1. Namun, jika a ∉ A, maka nilai yang berhubungan dengan a adalah 0. Notasi A = {x | P(x)} menunjukkan bahwa anggota A adalah x dengan P(x) benar. Jika XA merupakan fungsi karakteristik dari A, maka dapat dikatakan bahwa P(x) benar, jika dan hanya jika XA(x) = 1. Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan karakteristik sedemikian hingga fungsi tersebut akan mencakup bilangan riil pada interval [0,1].
Himpunan fuzzy merupakan himpunan dengan batas-batas keanggotaan yang tidak dapat ditentukan dengan dipenuhi atau tidak dipenuhinya suatu syarat keanggotaan. Keanggotaan himpunan fuzzy ditentukan oleh derajat keanggotaan yang menentukan tingkat kesesuaian setiap anggota dengan fungsi keanggotaan yang telah ditentukan dalam himpunan fuzzy. Misalkan A adalah himpunan fuzzy dan x adalah objek tertentu. Dalil “x adalah anggota A” tidak dapat dikatakan bernilai benar atau salah, seperti yang dinyatakan dalam logika dua nilai. Dalil ini dapat dikatakan bernilai benar hanya untuk derajat tertentu, yaitu derajat dimana x
betul-betul anggota A. Pada umumnya, nilai kebenaran suatu dalil dinyatakan dengan bilangan riil dalam interval [0,1]. Nilai ini juga mewakili derajat keanggotaan dalam himpunan fuzzy. Notasi fungsi keanggotaan dari himpunan fuzzy A yang dilambangkan dengan µA , adalah sebagai berikut :
...(2.1)
Dalam hal ini, setiap fungsi keanggotaan memetakan elemen-elemen himpunan semesta X ke bilangan riil dalam interval [0,1] .
2.6 Clustering
Pengelompokan (clustering) merupakan teknik yang sudah cukup dikenal dan banyak digunakan untuk mengelompokkan data/objek ke dalam kelompok data (cluster) sehingga setiap cluster memiliki data yang mirip dan berbeda dengan data yang berada dalam cluster lain. Jika diberikan himpunan data yang berjumlah terhingga, yaitu X, maka permasalahan clustering dalam X adalah mencari beberapa pusat cluster yang dapat memberikan ciri kepada masing-masing cluster dalam X. Gambar 2.7 menunjukkan contoh sederhana dari proses clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah. Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini jarak geometris). Proses ini disebut distance-based clustering. Cara lain untuk melakukan clustering adalah conceptual clustering. Dalam conceptual clustering, objek dikelompokkan berdasarkan kecocokannya menurut konsep deskriptif.
Gambar 2.7. Contoh Proses Clustering (Jansen, 2007)
2.6.1 Hard Clustering dan Fuzzy Clustering
Metode pengelompokan klasik (hard clustering) berdasarkan pada teori himpunan klasik, yang menentukan bahwa sebuah objek dapat menjadi anggota atau bukan anggota dari suatu cluster. Fuzzy clustering memperbolehkan suatu objek untuk menjadi anggota dari beberapa cluster sekaligus dengan derajat keanggotaan yang berbeda-beda. Derajat keanggotaan berada di antara rentang 0 dan 1. Jadi, dataset X dapat dipartisi menjadi c fuzzy subset. Di dalam situasi riil, fuzzy clustering memiliki hasil yang lebih natural dibandingkan dengan hard clustering. Iilustrasi perbedaan antara hard clustering dan fuzzy clustering ditunjukkan melalui Gambar 2.8 berikut ini.
2.6.2 Metode Fuzzy C-Means Clustering
Metode Fuzzy C-Means Clustering pertama kali dikenalkan oleh Jim Bezdek pada tahun 1981 (Jain dkk, 1999). Fuzzy C-Means adalah salah satu teknik pengelompokkan data yang mana keberadaan tiap titik data dalam suatu kelompok (cluster) ditentukan oleh derajat keanggotan. Metode Fuzzy C-Means termasuk metode supervised clustering dimana jumlah pusat cluster ditentukan di dalam proses clustering. Algoritma dari fuzzy c-means adalah sebagai berikut (Yan, 1994) :
1. Input data yang akan dikelompokkan, yaitu X, berupa matrix berukuran n x m (n=jumlah sampel data, m=atribut setiap data). Xij data sampel ke-i (i=1,2,…n), atribut ke-j (j=1,2,..m).
2. Tentukan jumlah cluster (c), pangkat untuk matriks partisi (w), maksimum iterasi (MaxIter), error terkecil yang diharapkan (ξ), fungsi objektif awal (Po=0), dan iterasi awal (t=1).
3. Bangkitkan bilangan random ηik, i=1,2,…n; k=1,2,…c sebagai elemen matrik partisi awal U.
4. Hitung pusat cluster ke-k: , dengan k=1,2,…,c; dan j=1,2,…,m,
menggunakan persamaan berikut (Yan, 1994) :
...(2.2)
dengan :
Vkj = pusat cluster ke-k untuk atribut ke-j
xij = data ke-i, atribut ke-j
5. Hitung fungsi objektif pada iterasi ke-t menggunakan persamaan berikut (Yan, 1994) :
...(2.3)
dengan:
Vkj = pusat cluster ke-k untuk atribut ke-j
ηik = derajat keanggotaan untuk data sampel ke-i pada cluster ke-k xij = data ke-i, atribut ke-j
Pt = fungsi objektif pada iterasi ke-t
6. Hitung perubahan matriks partisi menggunakan persamaan berikut (Yan, 1994) :
...(2.4)
Dengan I = 1,2,…,n; dan k=1,2,…c. Dimana :
Vkj = pusat cluster ke-k untuk atribut ke-j
ηik = derajat keanggotaan untuk data sampel ke-i pada cluster ke-k xij = data ke-i, atribut ke-j
7. Cek Kondisi berhenti:
Jika : atau maka berhenti. Jika tidak: t=t+1, ulangi
2.6.3 Metode Fuzzy Subtractive Clustering
Dasar dari metode Fuzzy Subtractive Clustering adalah ukuran densitas (potensi) titik-titik data dalam suatu ruang (variabel). Konsep dasar dari metode Fuzzy Subtractive Clustering adalah menentukan daerah-daerah dalam suatu variabel yang memiliki densitas tinggi terhadap titik-titik di sekitarnya. Titik dengan jumlah tetangga terbanyak akan dipilih untuk menjadi pusat kelompok. Titik yang sudah dipilih menjadi pusat kelompok ini kemudian akan dikurangi densitasnya. Selanjutnya akan dipilih titik lain yang menjadi tetangga terbanyak untuk dijadikan pusat kelompok yang lain. Hal ini akan dilakukan berulang-ulang sampai semua titik teruji. Metode fuzzy subtractive clustering tergolong metode unsupervised clustering dimana jumlah pusat cluster tidak diketahui. Metode ini menggunakan data sebagai kandidat dari pusat cluster, sehingga beban komputasi tergantung dari jumlah data dan tidak bergantung dari dimensi data. Jumlah pusat cluster yang dicari ditentukan melalui proses iterasi untuk mencari titik-titik dengan jumlah tetangga terbanyak.
Apabila terdapat n buah data yaitu x1, x2, ..., xn dan dengan menganggap bahwa data-data tersebut sudah dalam keadaan normal, maka densitas suatu titik dapat dihitung dengan persamaan (Gelley, 2000) :
...(2.5)
Dimana
Dk = Densitas titik ke-k xk = titik ke-k
ra = konstanta positif.
Dengan demikian, suatu titik data akan memiliki densitas yang besar jika titik tersebut memiliki banyak tetangga. Setelah menghitung densitas tiap-tiap titik, maka titik dengan densitas tertinggi akan terpilih menjadi pusat kelompok. Misalkan xc1 adalah titik yang terpilih menjadi pusat kelompok dan Dc1 adalah ukuran densitasnya, selanjutnya densitas dari titik-titik di sekitarnya akan dikurangi dengan persamaan (Gelley, 2000) :
...(2.6)
Dimana rb adalah konstanta positif. Hal ini berarti bahwa titik-titik yang berada dekat dengan pusat kelompok xc1 akan mengalami pengurangan densitas secara besar-besaran. Hal ini akan berakibat titik-titik tersebut memiliki kemungkinan yang kecil untuk menjadi pusat kelompok berikutnya. Nilai rb menunjukkan suatu lingkungan yang mengakibatkan titik-titik berkurang ukuran densitasnya. Nilai rb diperoleh dari persamaan :
...(2.7)
Biasanya squashfactor bernilai 1,5. Dengan demikian rb bernilai lebih besar dibandingkan ra.
Setelah densitas tiap-tiap titik diperbaiki, selanjutnya akan dicari pusat kelompok yang kedua, yaitu xc2. Setelah xc2 diperoleh, ukuran densitas tiap titik data akan diperbaiki kembali. Langkah-langkah ini dilakukan berulang-ulang sampai semua titik teruji. Pada implementasinya, bisa digunakan 2 bilangan sebagai faktor pembanding, yaitu accept ratio dan reject ratio. Apabila hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali