PENERAPAN METODE K-MEANS DENGAN METODE ELBOW UNTUK SEGMENTASI PELANGGAN
MENGGUNAKAN MODEL RFM(RECENCY, FREQUENCY &
MONETARY)
Laporan Tugas Akhir Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Informatika Universitas Muhammadiyah Malang
Adnan Burhan Hidayat Kiat 201610370311012
Bidang Minat Data Science
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2020
LEMBAR PERSETUJUAN
PENERAPAN METODE K-MEANS DENGAN METODE ELBOW UNTUK SEGMENTASI PELANGGAN
MENGGUNAKAN MODEL RFM(RECENCY, FREQUENCY &
MONETARY)
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui, Malang, 27 / Mei / 2020
Dosen Pembimbing I
Yufis Azhar S.Kom., M.Kom.
NIP. 108.1410.0544
Dosen Pembimbing II
Vinna Rahmayanti S S.Si., M.Si
NIP. 108.3060.719
KATA PENGANTAR
Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas limpahan rahmat dan hidayah-NYA sehingga peneliti dapat menyelesaikan tugas akhir yang berjudul :
”PENERAPAN METODE K-MEANS DENGAN METODE ELBOW UNTUK SEGMENTASI PELANGGAN
MENGGUNAKAN MODEL RFM(RECENCY, FREQUENCY &
MONETARY)”
Dalam penulisanini disajikan pokok-pokok bahasan yang meliputi analisa terhadap data perusahaan PT Hasjrat Abadi Ambon yaitu, data transaksi pelanggan bersamaan dengan data pelanggan itu sendiri untuk membentuk sebuah kelompok data baru yang di terapkan dengan berbagai metode dan model berupa RFM, Elbow, K-Means, Silhoutte Coefficient.
Peneliti menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu peneliti mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan kedepan.
Malang, 27 Mei 2020
Penulis
(Adnan Burhan Hidayat Kiat)
DAFTAR ISI
Halaman Judul
PENERAPAN METODE K-MEANS DENGAN METODE ELBOW UNTUK SEGMENTASI
PELANGGAN MENGGUNAKAN MODEL RFM(RECENCY, FREQUENCY & MONETARY) ... 1
LEMBAR PERSETUJUAN ... 2
LEMBAR PENGESAHAN ... 3
LEMBAR PERNYATAAN ... 4
ABSTRAK ... 5
ABSTRACT ... 6
LEMBAR PERSEMBAHAN ... 7
KATA PENGANTAR ... 8
DAFTAR ISI ... 9
DAFTAR TABEL ... 14
BAB I ... 15
PENDAHULUAN ... 15
1.1. Latar Belakang ... 15
1.2. Rumusan Masalah ... 17
1.3. Tujuan Penelitian ... 17
1.4. Batasan Masalah ... 18
1.5. Sistematika Penulisan ... 19
BAB II ... 20
TINJAUAN PUSTAKA ... 20
2.1. Penelitian Terdahulu ... 20
2.2. Segmentasi Pelanggan ... 22
2.2.1. Segmentasi Pelanggan – Geographic ... 22
2.2.2. Segmentasi Pelanggan – Demographic ... 22
2.2.3. Segmentasi Pelanggan – Behavioral ... 23
2.2.4. Segmentasi Pelanggan – Firmographic ... 23
2.2.5. Segmentasi Pelanggan – Psychographic ... 24
2.2.6. Segmentasi Pelanggan – Smart ... 24
2.3. Recency, Frequency, Monetary (RFM) ... 24
2.3.1. Recency ... 25
2.3.2. Frequency ... 25
2.3.3. Monetary ... 25
2.3.4. Cara Kerja Model RFM ... 26
2.4. Elbow ... 30
2.4.1. Cara Kerja Metode Elbow ... 30
2.1. K-Means ... 33
2.1.1. Cara Kerja Metode K-Means Menggunakan Jarak Eucledian ... 34
2.1.2. Cara Kerja Metode K-Means Menggunakan Jarak Manhattan ... 39
2.2. Silhouette Coefficient ... 44
2.2.1. Cara Kerja Metode Silhoutte Coefficient ... 45
BAB III ... 51
METODOLOGI PENELITIAN ... 51
3.1. Pengumpulan Data / Data Mining ... 51
3.1.1. Sampel Data ... 52
3.2. Data Preprocessing ... 55
3.3. Data Selecting ... 55
3.4. K-Means ... 56
3.5. Elbow ... 57
3.6. RFM – Recency Frequency Monetary ... 57
3.7. Silhoutte Coefficient ... 58
JADWAL KEGIATAN ... 60
BAB IV ... 61
HASIL DAN PEMBAHASAN ... 61
4.1. Implementasi ... 61
4.1.1. Alat dan bahan ... 61
4.1.2. Implementasi Data ... 62
4.1.2.1. Preprocessing Data ... 63
4.1.2.2. Selecting Data ... 65
4.1.3. Implementasi Program ... 65
4.1.3.1. Model RFM – Rececny, Frequency dan Monetary ... 65
4.1.3.2. Metode Elbow ... 72
4.1.3.3. Metode K-Means ... 74
4.1.3.3.1. Euclidean Distance ... 74
4.1.3.3.2. Manhattan Distance ... 76
4.1.4. Metode Silhoutte Coefficient ... 81
4.1.4.1. Algoritma Euclidean Distance ... 83
4.1.4.2. Algoritma Manhattan Distance ... 89
4.2. Visualisasi Data ... 93
4.2.1. Dendrogram dari Hasil Clustering Manhattan dan Euclidean ... 93
4.2.2. Perbandingan Nilai Rata-Rata RFM Tiap Cluster ... 96
4.2.3. Perbandingan Status Pelanggan pada Tiap Cluster ... 97
4.2.4. Perbandingan Pengelompokan Cluster disertai Gender ... 98
4.2.5. Perbandingan Rentan Umur Pelanggan pada Tiap Cluster ... 99
4.2.6. Perbandingan Pelanggan pada tiap Cabang sesuai Cluster ... 101
4.3. Hasil Analisa ... 102
4.3.1. Pelanggan Berstatus Titanium ... 103
4.3.2. Pelanggan Berstatus Diamond ... 103
4.3.3. Pelanggan Berstatus Gold ... 104
4.3.4. Pelanggan Berstatus Silver ... 104
4.3.5. Pelanggan Berstatus Bronze ... 104
4.3.6. 10 Pelanggan dengan Tingkat Loyalitas Tertinggi dan Terendah ... 105
BAB IV ... 107
KESIMPULAN ... 107
5.1. Analisa Hasil ... 107
5.2. Saran ... 108
DAFTAR PUSTAKA ... 109
DAFTAR GAMBAR
Gambar 2.1. Metode Elbow ... 32
Gambar 2.2. Hasil dari penerapan metode K-Means menggunakan perhitungan jarak Eucledian. ... 39
Gambar 2.3. Hasil dari penerapan metode K-Means menggunakan perhitungan jarak Manhattan. ... 44
Gambar 3.1. Susunan dari pembuatan segmentasi pelanggan berdasarkan model RFM dengan Metode K-Means dan Metode Elbow ... 51
Gambar 4.1. Mengubah satuan Desimal variabel Harga menjadi lebih Sederhana. ... 64
Gambar 4.2. Mengubah tipe data Tanggal menjadi datetime. ... 66
Gambar 4.3. Kode untuk membuat fungsi dari model RFM. ... 66
Gambar 4.4. Menentukan skala nilai untuk tiap nilai Recency, Frequency dan Monetary... 68
Gambar 4.5. Membuat fungsi untuk memberikan skor RFM sesuai dengan nilai skala yang akan menghasilkan 5 angka skor. ... 69
Gambar 4.6. Plot dari SkorRFM pada keseluruhan pelanggan. ... 72
Gambar 4.7. Membuat Fungsi dari Penerapan metode Elbow. ... 73
Gambar 4.8. Hasil dari Nilai SSE tiap Cluster. ... 73
Gambar 4.9. Pemanggilan Fungsi K-Means. ... 74
Gambar 4.10. Titik Centroid data R,F dan M dari kelima pengujian. ... 75
Gambar 4.11. Ringkasan Hasil Analisa. ... 76
Gambar 4.12. Memilih Secara Acak Nilai Centroid. ... 77
Gambar 4.13. Fungsi untuk Menerapkan Metode Manhattan Distance. ... 77
Gambar 4.14. Hasil Analisa Tahapan Pertama. ... 78
Gambar 4.15. Fungsi Mencari Nilai Mean. ... 78
Gambar 4.16. Hasil Mencari Nilai Mean. ... 79
Gambar 4.17. Menerapkan Fungsi Manhattan dan Mean. ... 79
Gambar 4.18. Fungsi Pengecekan Cluster Data. ... 79
Gambar 4.19. Hasil Pengecekan Cluster Data. ... 80
Gambar 4.20. Ringkasan Data Hasil Analisa. ... 81
Gambar 4.21. Lima Pengujian Centroid dengan Algoritma Euclidean Distance. ... 82
Gambar 4.22. Lima Pengujian Centroid dengan Algoritma Manhattan Distance. ... 82
Gambar 4.23. Fungsi Mencari Nilai a(i). ... 83
Gambar 4.24. Hasil Mencari Nilai a(i) pada masing-masing Cluster. ... 84
Gambar 4.25. Fungsi Mencari Nilai d(i,C) dan b(i). ... 85
Gambar 4.26. Penerapan Fungsi Mencari Nilai d(i,C) dan b(i). ... 86
Gambar 4.27. Hasil Mencari Nilai d(i,C) dan b(i). ... 86
Gambar 4.28. Menentukan Nilai s(i) dari Perhitungan nilai a(i) dan b(i). ... 87
Gambar 4.29. Hasil Perhitungan nilai s(i) pada tiap Cluster dan rata-rata keseluruhan Cluster. ... 87
Gambar 4.30. Hasil Perhitungan nilai s(i) pada Keseluruhan Pengujian Nilai Centroid. ... 88
Gambar 4.31. Fungsi Mencari Nilai a(i) dengan algoritma Manhattan Distance. ... 89
Gambar 4.32. Fungsi Mencari Nilai d(i,C) dan b(i) dengan algoritma Manhattan Distance. ... 90
Gambar 4.33. Hasil Nilai Silhoutte Coefficient dari pengelompokan data dari algoritma Manhattan Distance pada pengujian ke 3. ... 91
Gambar 4.34. Dendrogram dari keseluruhan Dataset. ... 93
Gambar 4.35. Dendrogram Nilai Rata-Rata Cluster Manhattan. ... 94
Gambar 4.36. Dendrogram Nilai Rata-Rata Cluster Euclidean. ... 94
Gambar 4.37. Dendrogram Jumlah Dataset Cluster Manhattan. ... 95
Gambar 4.38. Dendrogram Jumlah Dataset Cluster Euclidean. ... 95
Gambar 4.39. Nilai rata-rata RFM hasil Euclidean Distance. ... 96
Gambar 4.40. Nilai rata-rata RFM hasil Manhattan Distance. ... 96
Gambar 4.41. Status Pelanggan hasil Euclidean Distance. ... 97
Gambar 4.42. Status Pelanggan hasil Manhattan Distance. ... 97
Gambar 4.43. Pengelompokan Cluster hasil Euclidean Distance. ... 98
Gambar 4.44. Pengelompokan Cluster hasil Manhattan Distance. ... 98
Gambar 4.45. Rentan Umur Pelanggan hasil Euclidean Distance. ... 99
Gambar 4.46. Rentan Umur Pelanggan hasil Manhattan Distance. ... 99
Gambar 4.47. Pelanggan pada tiap Cabang hasil Euclidean Distance. ... 101
Gambar 4.48. Pelanggan pada tiap Cabang hasil Manhattan Distance. ... 101
DAFTAR TABEL
Tabel 2. 1. Penelitian Sebelumnya ... 20
Tabel 2.2. Deskripsi Skor RFM ... 26
Tabel 2.3. Tabel Dataset ... 26
Tabel 2.4. Tabel Sortir Data ... 27
Tabel 2.5. Tabel Hasil Sortir RFM ... 28
Tabel 2.6. Tabel Hasil Pemodelan RFM ... 29
Tabel 2.7. Deskripsi Skor RFM ... 32
Tabel 2.8. Tabel Perhitungan Jarak Euclidean Pertama ... 35
Tabel 2.9. Tabel Perhitungan Jarak Euclidean Kedua ... 36
Tabel 2.10. Tabel Perhitungan Jarak Euclidean ketiga ... 37
Tabel 2.11. Tabel Perhitungan Jarak Cosine Pertama... 40
Tabel 2.12. Tabel Perhitungan Jarak Euclidean Kedua ... 41
Tabel 2.13. Tabel Perhitungan Jarak Euclidean ketiga ... 42
Tabel 2.14. Hasil Clustering Manhattan Distance ... 45
Tabel 2.15. Hasil Kalkulasi Nilai a(i) ... 46
Tabel 2.16. Hasil Kalkulasi Nilai d(i,C) & b(i) ... 48
Tabel 2.17. Hasil Kalkulasi Nilai s(i) ... 49
Tabel 3.1. Tabel Sample dari Data Pelanggan ... 53
Tabel 3.2. Tabel Sample dari Data Transaksi ... 54
Tabel 3.3. Jadwal Kegiatan. ... 60
Tabel 4.1. Potongan Data Transaksi. ... 62
Tabel 4.2.Potongan Data Pelanggan. ... 63
Tabel 4.3. Menerpakan Satuan Harga Baru. ... 64
Tabel 4.4. Data yang telah dipilih. ... 65
Tabel 4.5. Hasil data yang telah diterapkan model RFM. ... 66
Tabel 4.6. Hasil penerapan dari skor RFM. ... 70
Tabel 4.7. Pemberian Status kepada Pelanggan PT Hasjrat Abadi Ambon. ... 71
Tabel 4.8. Potongan Data dari Hasil Penerapan Metode K-Means dengan Algoritma Euclidean Distance. ... 75
Tabel 4.9. Potongan Data dari Hasil Penerapan Metode K-Means Menggunakan Algoritma Manhattan Distance. ... 80
Tabel 4.10. Hasil Mencari Nilai s(i) dari Kelima Pengujian pada Algoritma Manhattan Distance. ... 91
Tabel 4.11. Hasil Mencari Nilai s(i) dari Kelima Pengujian pada Algoritma Euclidean Distance. ... 92
Tabel 4.12. Perbandingan Hasil Nilai Silhoutte Euclidean dan Manhattan Distance. ... 92
Tabel 4.13. Data 10 Pelanggan dengan Tingkat Loyalitas Tertinggi. ... 105
Tabel 4.14. Data 10 Pelanggan dengan Tingkat Loyalitas Terendah. ... 106
DAFTAR PUSTAKA
[1] I. Maryani, D. Riana, R. D. Astuti, A. Ishaq, and E. A. Pratama, “Customer Segmentation based on RFM model and Clustering Techniques With K- Means Algorithm,” 2018 Third Int. Conf. Informatics Comput., pp. 1–6.
[2] T. Choi, H. K. Chan, S. Member, and X. Yue, “Recent Development in Big Data Analytics for Business Operations and Risk Management,” pp. 1–12, 2016.
[3] A. J. Christy, A. Umamakeswari, L. Priyatharsini, and A. Neyaa, “RFM ranking – An effective approach to customer segmentation,” J. King Saud Univ. - Comput. Inf. Sci., 2018.
[4] M. Namvar, “A Two Phase Clustering Method for Intelligent Customer Segmentation,” 2010.
[5] D. Marutho, S. H. Handaka, and E. Wijaya, “The Determination of Cluster Number at k-mean using Elbow Method and Purity Evaluation on Headline News,” 2018 Int. Semin. Appl. Technol. Inf. Commun., pp. 533–538, 2018.
[6] T. Kansal, S. Bahuguna, V. Singh, and T. Choudhury, “Customer Segmentation using K-Means Clustering,” 2018 Int. Conf. Comput. Tech.
Electron. Mech. Syst., pp. 135–139, 2018.
[7] M. Aryuni and E. Miranda, “Customer Segmentation in XYZ Bank using K- Means and K-Medoids Clustering,” 2018 Int. Conf. Inf. Manag. Technol., no.
September, pp. 1–9, 2018.
[8] M. Tavakoli, “Customer Segmentation and Strategy Development based on User Behavior Analysis , RFM model and Data Mining Techniques : A Case Study,” no. April 2019, 2018.
[9] K. M. A. Patel and P. Thakral, “The Best Clustering Algorithms in Data Mining,” no. 2, pp. 2042–2046, 2016.
[10] Hitesh Bhasin, “6 Types Of Customer Segments that exist in the Market,” 12- Mar-2019. [Online]. Available: https://www.marketing91.com/types-of- customer-segments/. [AcceSSEd: 05-Feb-2020].
[11] T. Hardiani, S. Sulistyo, and R. Hartanto, “Segmentasi Nasabah Tabungan
Menggunakan Model RFM ( Recency , Frequency , Monetary ) dan K-Means Pada Lembaga Keuangan Mikro,” Semin. Nas. Teknol. Inf. dan Komun.
Terap., no. May, pp. 463–468, 2015.
[12] M. A. Syakur, B. K. Khotimah, E. M. S. Rochman, and B. D. Satoto,
“Integration K-Means Clustering Method and Elbow Method for Identification of the Best Customer Profile Cluster,” IOP Conf. Ser. Mater.
Sci. Eng., vol. 336, no. 1, 2018.
[13] D. A. Kumar and N. Kannathasan, “A study and characterization of chemical properties of soil surface data using K-Means algorithm,” Proc. 2013 Int.
Conf. Pattern Recognition, Informatics Mob. Eng. PRIME 2013, pp. 264–
270, 2013.
[14] X. Tang et al., “Feature Selection Algorithm Based on K-Means Clustering,”
2017 IEEE 7th Annu. Int. Conf. CYBER Technol. Autom. Control. Intell. Syst.
CYBER 2017, pp. 1522–1527, 2018.
[15] Y. S.Thakare and S. B. Bagal, “Performance Evaluation of K-Means Clustering Algorithm with Various Distance Metrics,” Int. J. Comput. Appl., vol. 110, no. 11, pp. 12–16, 2015.
[16] M. Anggara, H. Sujiani, and N. Helfi, “Pemilihan Distance Measure Pada K- Means Clustering Untuk Pengelompokkan Member Di Alvaro Fitness,” J.
Sist. dan Teknol. Inf., vol. 1, no. 1, pp. 1–6, 2016.
[17] H. Wang et al., “An approach for improving K-Means algorithm on market segmentation,” 2010 Int. Conf. Syst. Sci. Eng. ICSSE 2010, pp. 368–372, 2010.
[18] S. Mohanavalli and S. K. K. B, “Survey of Pre-processing Techniques for
Mining Big Data,” 2017.
UNIVERSITAS MUHAMMADIYAH MALANG
F AKUL TAS TEKNIK
PROGRAM STUDI TEKNIK INFORMA TIKA
JI. Raya Tlogomas 246 Malang 6Sl44 Tdp. 0341 -464318 Ext 247, Fax. 0341 - 460782
FORM CEK PLAGIARISME LAPORAN TUGAS AKHIR
Nama Mahasiswa N1M
: Adnan Burhan Hidayat Kiat
201610370311012 Judul TA
Rasil Cek Plagiarisme dengan Tumitin
No.
Kompone11 Pengeceka■
Nilai Makli:malPla&iarisme
(%)I. Bab I - Peodahuluan 10 %
2. Bab 2 - Daftar Pustaka 25%
3. Bab 3 - Analisis dan Perancangan 25%
4. Bab 4 - lmplem.entasi dan Pengujian 15 %
5.Bab
5- Kesimpulan dan Saran
5%6. Maka.lab Tugas Akhir 20%
Mengetahui,
Dosen Pembimbing.ffim Cek Plagiasi
Basil Cell Plagiarilme
(%) *
J()(
I l..,,