• Tidak ada hasil yang ditemukan

JITE (Journal of Informatics and Telecommunication Engineering)

N/A
N/A
Protected

Academic year: 2021

Membagikan "JITE (Journal of Informatics and Telecommunication Engineering)"

Copied!
10
0
0

Teks penuh

(1)

JITE, 5 (1) July 2021 ISSN 2549-6247 (Print) ISSN 2549-6255 (Online)

JITE (Journal of Informatics and

Telecommunication Engineering)

Available online http://ojs.uma.ac.id/index.php/jite DOI : 10.31289/jite.v5i1.5182

Received: 03 May 2021 Accepted: 29 June 2021 Published: 15 July 2021

E-Commerce Customer Segmentation Using K-Means Algorithm and

Length, Recency, Frequency, Monetary Model

Romadansyah Siagian1)*, Pahala Sirait2), Arwin Halima3)

1,2,3)Program Studi Magister Teknologi Informasi, STMIK Mikroskil, Medan

* [email protected]

Abstrak

Pertumbuhan sektor bisnis e-commerce menghadirkan pesaing dan menciptakan kompetisi perusahaan. Pelanggan adalah aset utama perusahaan yang harus dipertahankan. Memahami karakteristik, perilaku dan kebiasaan yang berbeda-beda pada tiap segmen pelanggan menjadi hal penting bagi perusahaan guna mengenali pelanggan potensial, menetapkan strategi-strategi penting, mengelola hubungan dengan pelanggan dan meningkatkan profitabilitas perusahaan. Ragam kebutuhan dan keinginan pelanggan, sehingga penentuan strategi memerlukan metode dalam mensegmentasi pelanggan sesuai kesamaannya masing-masing. Menggunakan metode clustering dengan algoritma K-Means membantu menentukan segmentasi pelanggan berdasarkan data riwayat transaksi. Penentuan cluster k optimal K-Means secara acak tidak selalu memberikan hasil yang baik maka digunakan metode Elbow, Silhouette dan Davies-Bouldin Index. Penentuan variabel pengujian berdasarkan model LRFM (Length, Recency, Frequency, dan Monetary) sehingga segmentasi pelanggan yang didapat lebih akurat mengenali perilaku dan loyalitas pelanggan. Hasil pengujian dataset 3606 pelanggan lewat tahapan preprocessing dengan menggunakan tiga metode penentuan cluster k menghasilkan tiga kelompok pelanggan yaitu New Customer, Lost Customer dan Core Customer sesuai Customer Loyalty Matrix LRFM.

Kata Kunci: Segmentasi Pelanggan, Clustering, K-Means, Model LRFM.

Abstract

The growth of the e-commerce business sector presents competitors and creates company competition. Customers are the company's main asset that must be maintained. Understanding the different characteristics, behaviors and habits of each customer segment is important for companies to identify potential customers, establish important strategies, manage customer relationships and increase company profitability. The needs and desires of each customer are different, so that determining a strategy requires a method of segmenting customers according to their respective similarities. Using the clustering method with the K-Means algorithm helps determine customer segmentation based on transaction history data. Determination of the optimal k cluster randomized K-Means doesn't always give good result, so the Elbow, Silhouette and Davies-Bouldin Index methods are used. The determination of the test variables is based on the LRFM model (Length, Recency, Frequency, and Monetary), so that the customer segmentation obtained is more accurate in recognizing customer behavior and loyalty. The results of test 3606 dataset through the preprocessing stage using these methods results in three groups of customers that is New Customers, Lost Customers and Core Customers adjust the Customer Loyalty Matrix LRFM.

Keywords: Customer Segmentation, Clustering, K-Means Algorithm, LRFM Model.

How to Cite: Siagian, R., Sirait, P., & Halim, A. (2021). E-Commerce Customer Segmentation Using K-Means

Algorithm And LRFM Model. JITE (Journal Of Informatics And Telecommunication Engineering). 5 (1): 21-30

I.

PENDAHULUAN

Sektor bisnis e-commerce terus tumbuh. Diperkirakan 1,92 miliar orang di tahun 2019 bertransaksi jual beli secara online melalui e-commerce dan diperkirakan terus meningkat di masa depan (Celement, 2020). Dampaknya menghadirkan pesaing-pesaing bisnis baru dan kompetisi ketat. Perusahaan perlu menetapkan strategi dan langkah tepat bisnis. Pelanggan sebagai aset utama perusahaan dan kunci sukses bisnis, sehingga banyak perusahaan berlomba-lomba menarik perhatian pelanggan serta berusaha

(2)

22

mempertahankannya (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019). Pelanggan umumnya memiliki karakteristik, perilaku dan kebutuhan yang berbeda-beda. Mengenali dan memahami setiap individu pelanggan satu persatu bagi perusahaan menjadi suatu permasalahan, sehingga perlu pendekatan guna mempermudah mengidentifikasinya seperti analisis segmentasi pelanggan. Analisis segmentasi pelanggan salah satu upaya bertujuan memprediksi dan menargetkan pelanggan potensial, menarik pelanggan baru, menerapkan strategi pemasaran tepat guna, mengevaluasi nilai umur pelanggan, mengenali hubungan antara pelanggan dengan perusahaan, serta meningkatkan profitabilitas yang diharapkan perusahaan (Dogan, Aycin, & Bulut, 2018; Kaur & Sharma, 2019; Singh & Srivastava, 2020). Melalui analisis tersebut dapat diketahui karakteristik pelanggan dan mengelompokan pelanggan berdasarkan karakteristik yang sama kedalam kelompoknya masing-masing dengan mengola database riwayat transaksi masa lalu pelanggan menggunakan metode clustering dengan algoritma K-Means dan kombinasi model LRFM.

Model LRFM (Length, Recency, Frequency dan Monetary) merupakan model yang lebih baik daripada model RFM mampu memberikan pandangan yang luas dan lebih akurat tentang perilaku pelanggan yang sebenarnya (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019; Kandeil, Saad, & Youssef, 2014). Penyempurnaan dari model RFM dengan mempertimbangkan loyalitas pelanggan, mengetahui nilai probalitas, sehingga hasil segmentasi lebih akurat mengetahui perilaku sesungguhnya sebagai informasi dalam penciptaan keputusan, strategi dan skema promosi (Babaiyan & Sarfarazi, 2019). Metode umum pada segmentasi pelanggan yaitu metode clustering.

Metode clustering pada proses data mining menjadi salah satu teknik penyelesaian masalah terkait segmentasi dan algoritma yang umum digunakan adalah K-Means (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019; Kandeil, Saad, & Youssef, 2014). K-Means memiliki kelebihan seperti kecepatan komputasi yang lebih tinggi, mudah diimplementasikan, bersifat dinamis pada data yang tersebar dan hasil yang diperoleh lebih akurat dibandingkan algoritma lainnya. Namun K-Means memiliki kelemahan yaitu sensitif pada penentuan jumlah cluster k awal yang paling tepat. Inisialisasi jumlah cluster k umumnya dilakukan secara random akan menghasilkan pengelompokan data yang dapat berbeda-beda dan tidak selalu memberikan hasil yang baik dan akurat (Wahyuningtyas, Putri, & Sutrisno, 2018). Sehingga perlu metode dalam menentukan jumlah cluster k yang tepat dan optimal. Beberapa metode tersebut seperti metode Elbow, metode Silhouette, metode Statistik Gap dan lainnya (Singh & Srivastava, 2020). Penelitian Marisa, dkk., menggunakan metode Elbow sebagai penentuan cluster k optimal dengan interpretasi dan pengujian kinerja tingkat konsistensi jumlah cluster yang tepat dengan melihat nilai SSE (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019). Namun metode Elbow tidak lebih optimal dari metode Silhouette (dengan melihat rentang nilai terbaik antara 1 dan -1) dan Calinski-Harabasz Index sebagai metode validitas penentuan jumlah cluster yang optimal (Rumiarti & Budi, 2017).

Berdasarkan uraian diatas, menggunakan beberapa metode penentuan cluster k optimal yaitu metode Elbow, Silhouette Index, dan Davies-Bouldin Index untuk pengelompokan pelanggan akan memberikan nilai cluster yang optimal. Tujuan penelitian ini menghasilkan segmentasi pelanggan e-commerce berdasarkan customer value matrix dan customer loyalty matrix dengan algoritma K-Means menggunakan metode validitas Elbow, Silhouette Index, dan Davies-Bouldin Index sebagai penentu nilai cluster k optimal.

II. STUDI PUSTAKA

Penelitian terdahulu terkait segmentasi pelanggan dengan metode clustering K-Means berdasarkan model LRFM maupun RFM seperti penelitian (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019) berjudul “Segmentation Model of Customer Lifetime Value in Small and Medium Enterprise (SMEs) using K-Means Clustering and LRFM Model”. Tahapan penelitian preprocessing pemilihan data sesuai model LRFM, data cleaning dan tanpa detection outlier, normalisasi data dengan metode Min-Max, clustering menggunakan algoritma K-Means dengan satu metode validasi Elbow penentuan cluster k terbaik. Hasil diperoleh nilai Sum Square Error (SSE) pada nilai k = 2 cluster terbaik.

Penelitian (Monalisa, 2018) dengan judul “Klasterisasi Customer Lifetime Value dengan Model LRFM Menggunakan Algoritma K-Means”. Tahapan penelitan mulai pemilihan data sesuai atribut model LRFM, tanpa detection outlier, normalisasi data metode Min-Max, penentuan jumlah cluster optimal dengan metode validasi Dunn Index dan Shilouette Index. Diperoleh hasil nilai cluster k terbaik dari kedua metode k=3. Penelitian (Rumiarti & Budi, 2017) juga melakukan segmentasi pelanggan menggunakan algoritma K-Means clustering dan model RFM. Penentuan cluster optimal menggunakan tiga metode validitas yaitu metode Elbow, silhouette, dan Calinski-Harabasz Index. Hasil validitas diperoleh berbeda–beda yaitu metode Elbow adalah k=4, metode Silhouette dan Calinski-Harabasz Index adalah k=2, dan ditetapkan k = 2 sebagai nilai cluster optimal. Namun (Gustriansyah, Suhandi, & Antony, 2020) melakukan segmentasi produk menggunakan model RFM dan clustering menggunakan K-Means menyatakan hasil validitas yang berbeda-beda. Cluster optimal terpilih k=3 ditunjukkan oleh validitas indeks Ratkowski Index, Hubert Index, dan Ball-Hall Index dari delapan metode indeks validitas yaitu Elbow Method, Silhouette Index,

(3)

Calinski-Harabasz Index, Davies-Bouldin Index, Ratkowski Index, Hubert Index, Ball-Hall Index, dan Krzanowski Index-Lai.

Berdasarkan referensi tersebut, beberapa metode validitas indeks tidak selalu memberikan nilai penentuan cluster k yang optimal yang sama, sehingga perlu menggunakan lebih dari satu metode validitas agar hasil pengujian K-Means menjadi lebih baik dan tahapan preprocessing seperti data cleaning, reduction, dan outlier detection akan mempengaruhi hasil akurasi dan efisiensi pemodelan data.

III. METODE PENELITIAN

Metode penelitian yang digunakan untuk menghasilkan segmentasi pelanggan e-commerce digambarkan dalam bentuk flowchart yang terdapat pada Gambar 1 berikut.

Gambar 1. Flowchart Tahapan Penelitian. 1. Data Selection

Dataset pengujian merupakan data transaksi pelanggan Online Retail bersumber dari UCI Machine

Learning Repository dengan alamat web https://www.archive.ics.uci.edu/ml/datasets/Online+Retail.

Dataset tersebut terdiri dari 541909 data dengan 8 atribut data yaitu, invoiceno, stockcode, description, quantity, invoicedate, unitprice, customerid, dan country dari rentang waktu 01/12/2010 sampai 09/12/2011 (Chen, Sain, & Guo, 2012). Atribut dipilih sesuai model LRFM seperti lama transaksi terakhir, seberapa sering berbelanja, dan besar pelanggan membayar (Monalisa, 2018).

Gambar 2. Dataset Awal Penelitian 2. Preprocessing

Pengujian dalam penelitian ini menggunakan tool analysis dari software R Studio dan Microsoft Excel dengan spesifikasi hardware Processor Intel(R) Pentium(R) 3558U CPU @ 1.70GHz (2 CPUs) dan memori RAM 4 GB serta OS Windows 7 Ultimate 64-bit. Tahapan dalam preprocessing ini terdiri dari beberapa tahapan lagi diantaranya.

a. Data cleaning (pembersihan data) yang tidak valid, data kosong, data ganda, nilai negatif, menghapus catatan yang tidak wajar seperti pelanggan yang memiliki catatan transaksi monetary berjumlah nol dan catatan transaksi yang tidak konsisten dan menjadi outlier dan sebagainya akan dibersihkan.

b. Data reduction untuk menghasilkan tabel input clustering dengan cara menghilangkan record serta kolom-kolom atribut yang tidak dibutuhkan.

c. Data transformation pada atribut terpilih dengan mentransformasikan kedalam bentuk terukur mengacu pada model LRFM sehingga dapat digunakan sebagai atribut clustering.

(4)

24

Tahap ekstraksi berdasarkan model LRFM (length, recency, frequency, dan monetary) menjadi beberapa atribut tanpa pemberian bobot nilai diantaranya (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019; Kandeil, Saad, & Youssef, 2014).

a. Atribut length yang disebut interval waktu (jumlah hari) antara pembelian pertama dan terakhir oleh pelanggan dalam skala waktu penelitian. Atribut length bersumber dari atribut InvoiceDate. b. Atribut recency sebagai rentang waktu terakhir pelanggan melakukan transaksi pada akhir skala

waktu penelitian. Atribut recency bersumber dari atribut InvoiceDate.

c. Atribut frequency yang didefinisikan sebagai berapa kali (seberapa sering) transaksi pembelian dilakukan oleh pelanggan dalam skala waktu penelitian. Atribut frequency bersumber dari atribut InvoiceDate.

d. Atribut monetary sebagai jumlah nominal transaksi untuk setiap pelanggan dalam skala waktu penelitian. Atribut monetary bersumber dari atribut Quantity dikali UnitPrice.

Hasil ekstraksi kemudian di normalisasi. Hal ini dilakukan karena adanya selisih nilai yang besar antara atribut L, R, F, dan M agar tidak mengganggu keakuratan hasil pengujian. Normalisasi Min-Max digunakan dengan range nilai antara 0 – 1. Rumus normalisasi adalah sebagai berikut (Han, Kamber, & Pie, 2012).

𝑥′= 𝑥 − 𝑛𝑖𝑙𝑎𝑖𝑚𝑖𝑛

𝑛𝑖𝑙𝑎𝑖𝑚𝑎𝑥− 𝑛𝑖𝑙𝑎𝑖𝑚𝑖𝑛

… (1)

Pengecekan outlier dilakukan dengan rumus rentang interkuartil (IQR) yaitu nilai di bawah rentang Q1 - (1,5 x IQR) atau di atas rentang Q3 + (1,5 x IQR) adalah pencilan (Hubert & Veeken, 2008; Alomari & Stephan, 2018). Rumus interkuartil (IQR) sebagai berikut.

IQR = Q3 – Q1 … (2) 4. Find Optimal Cluster

Kelamahan cluster k secara random terkadang kurang tepat dan mempengaruhi hasil cluster, maka dalam penelitian ini cluster k ditentukan terlebih dahulu menggunakan tiga metode yaitu:

a. Metode Elbow memberikan informasi visualisasi perbandingan antara jumlah cluster yang membentuk sudut siku pada satu titik grafik atau nilainya mengalami penurunan paling besar maka nilai cluster tersebut yang terbaik dan dengan membandingkan hitungan nilai Sum Square Error (SSE) dengan persamaan sebagai berikut (Marisa, Ahmad, Yusof, Fachrudin, & Aziz, 2019).

𝑆𝑆𝐸 = ∑ ∑ |𝑥𝑖− 𝑐𝑘|2 𝐾

𝐾=1

… (3)

b. Metode Silhouette merupakan gabungan dari metode cohesion (mengukur kedekatan relasi antar objek pada cluster) dan sparation (menghitung seberapa jauh perpisahan jarak antar objek pada cluster) (Paramartha, Ratnawati, & Widodo, 2017). Metode ini memberikan visualisasi grafis singkat tentang tingkat derajat optimal setiap objek terletak dalam clusternya yang dikatakan terbentuk baik bila nilai indeks mendekati 1 dan kondisi sebaliknya jika nilai indeks mendekati angka -1 (Monalisa, 2018; Irwansyah & Faisal, 2015). Adapun persamaannya sebagai berikut.

𝑠𝑖=

𝑏(𝑖)− 𝑎(𝑖)

𝑀𝑎𝑥(𝑎(𝑖) , 𝑏(𝑖))

… (4)

c. Metode Davies-Bouldin Index mempertimbangkan/mengevaluasi hasil algoritma clustering yang menyatakan clustering yang optimal adalah yang memiliki DBI minimal atau mendekati nilai (non-negatif >= 0) menandakan cluster semakin baik (Kamila, Khairunnisa, & Mustakim, 2019).

Untuk mengetahui kohesi dalam sebuah cluster ke-i adalah dengan menghitung nilai dari Sum of Square Within-cluster (SSW). Kohesi didefinisikan sebagai jumlah dari kedekatan data terhadap titik pusat cluster dari sebuah cluster yang diikuti dengan persamaan berikut.

𝑆𝑆𝑊𝑖 = 1

𝑚𝑖 ∑ 𝑑(𝑥𝑗, 𝑐𝑖)

𝑚𝑖 𝑗=𝑖

… (5)

Kemudian dihitung nilai Sum of Square Between-cluster (SSB) guna mendapatkan nilai separasi antar cluster dengan rumus berikut.

𝑆𝑆𝐵𝑖, 𝑗 = 𝑑(𝑐𝑖, 𝑐𝑗) … (6)

Nilai SSW dan nilai SSB diperoleh, kemudian mengukur rasio (𝑅𝑖𝑗) guna mendapatkan nilai perbandingan antara cluster ke-i dan cluster ke-j dengan persamaan berikut.

𝑅𝑖𝑗 = 𝑆𝑆𝑊𝑖 + 𝑆𝑆𝑊𝑗 𝑆𝑆𝐵𝑖𝑗 … (7)

(5)

Nilai rasio yang diperoleh tersebut digunakan untuk mencari nilai Davies Bouldin Index (DBI) dengan menggunakan persamaan berikut.

𝐷𝐵𝐼 = 1

𝑘 ∑ 𝑚𝑎𝑥𝑖≠𝑗

𝑘 𝑖=1

(𝑅𝑖,𝑗) … (8)

Penetapan jumlah cluster k optimal berdasarkan nilai cluster k yang sama nilainya sebagai acuan clustering.

5. Clustering with K-Means

Algoritma K-Means membagi data sejumlah k cluster yang sudah ditetapkan diawal secara random. Metode K-Means sangat sederhana dimulai dengan pemilihan jumlah cluster sebanyak k buah. Secara random k diambil dari dataset sebagai centroid yang mewakili suatu cluster (Adinugroho & Sari, 2018). Prosedur algoritma K-Means sebagai berikut (Monalisa, 2018; Qi, Yu, Wang, & Liu, 2016).

1. Tentukan jumlah k, k adalah jumlah cluster.

2. Tentukan nilai awal titik pusat cluster untuk dilakukannya proses clustering.

3. Hitung Distance Measure (jarak data) terhadap masing-masing centroid menggunakan Euclidean Distance.

4. Alokasikan seluruh objek data yang telah dihitung ke dalam masing-masing cluster. 5. Tentukan centroid baru dengan menggunakan persamaan berikut:

𝑣̅𝑖𝑗 = 1 𝑁𝑖 ∑ 𝑥𝑘𝑗 𝑛 𝑘=0 … (9)

6. Ulang kembali langkah 3, 4 dan 5 hingga tidak ada lagi anggota cluster yang berpindah ke cluster lain.

Perhitungan jarak menggunakan euclidean distance merupakan salah satu metode perhitungan jarak yang digunakan untuk mengukur jarak dari 2 (dua) buah titik dalam euclidean space guna mengukur tingkat derajat kemiripan data dengan rumus Euclidean Distance digunakan persamaan berikut (Nishom, 2019).

𝑑(𝑥,𝑦)= |𝑥 − 𝑦| = √∑ (𝑥𝑖− 𝑦𝑖)2 𝑛

𝑖=1 … (10)

6. Analisis Hasil Cluster

Analisis pada tiap-tiap clusternya menggunakan perhitungan standar deviasi yang mengacu pada model LRFM index. Model LRFM (Length, Recency, Frequency dan Monetary) merupakan model terbaru dari model RFM oleh Chang dan Tasy (2004) tambahan parameter L sebagai variabel yang mempertimbangkan panjang hubungan pelanggan dengan perusahaan (Daoud, Amine, Bouikhalene, & Lbibb, 2015).

Gambar 3. Customer Loyalty Matrix

Klasifikasi pelanggan terdiri dari 5 kelompok pelanggan yang mencakup 16 jenis kelompok terlihat pada gambar 3. Adapun makna simbol (↑) merepresentasikan nilai kelompok di atas rata-rata keseluruhan. Sedangkan simbol (↓) merepresentasikan nilai kelompok di bawah rata-rata keseluruhan (Li, Dai, & Tseng, 2011). Penjelasan 5 kelompok tersebut pada tabel 1 berikut.

Tabel 1. Grup Pelanggan

No Kelompok Pelanggan Jenis Pelanggan

1 Core Customer (CC) Terdiri dari:

(6)

26

2. High Frequency buying customers (LRFM, ↑↓↑↓) 3. Platinum customers (LRFM, ↑↓↓↑)

2 Potential Customers (PC) Terdiri dari:

1. Potential loyal customers (LRFM, ↑↑↑↑)

2. Potential high frequency customers (LRFM, ↑↑↑↓ ) 3. Potential consumption customers (LRFM, ↑↑↓↑) 3 Lost Customers (LC) Terdiri dari:

1. High value lost customers (LRFM, ↓↑↑↑) 2. Frequency lost customers (LRFM, ↓↑↑↓) 3. Consumption lost customers (LRFM, ↓↑↓↑) 4. Uncertain lost customers (LRFM, ↓↑↓↓) 4 New Customers (NC) Terdiri dari:

1. High value new customers (LRFM, ↓↓↑↑) 2. Frequency promotion customers (LRFM, ↓↓↑↓) 3. Spender promotion customers (LRFM, ↓↓↓↑) 4. Uncertain new customers (LRFM, ↓↓↓↓) 5 Consuming Resource

Customers (CRC) Terdiri dari: 1. Low consumption cost customers (LRFM ↑↓↓↓)

2. High consumption cost customers (LRFM ↑↑↓↓)

Hasil standar deviasi masing-masing atribut tiap cluster dibandingkan dengan rata-rata standar deviasi dari masing-masing atribut. Jika hasil standar deviasi dari cluster lebih besar dari rata-ratanya akan disimbolkan dengan tanda panah keatas (↑), sedangkan hasil standar deviasi dari cluster lebih rendah dari rata-ratanya disimbolkan dengan panah kebawah (↓) (Monalisa, 2018).

7. Segmentasi Pelanggan

Memetakan hasil dari perhitungan standar deviasi masing-masing atribut kedalam matrix LRFM yaitu customet value matrix dan customer loyalty matrix untuk mengetahui segmentasi pelanggan yang dihasilkan dari data e-commerce retail online.

IV. HASIL DAN PEMBAHASAN

A. Hasil

1. Data Selection

Dataset online retail terdapat delapan atribut yaitu InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, dan Country. Empat atribut terpilih sesuai model LRFM yaitu Quantity, InvoiceDate, UnitPrice, dan CustomerID.

2. Preprocessing

Preprocessing terhadap data terpilih dilakukan dengan beberapa tahapan berikut. a. Data Cleaning

Empat atribut berupa data utuh dilakukan pembersihan data pada nilai yang tidak konsisten/kosong, mengandung nilai minus (-), nilai 0, dan data duplikasi. Hasilnya jumlah data transaksi sebanyak 541909 record data menjadi 397884 record data bersih.

Tabel 2. Tabel Data Cleaning

Atribut Keterangan

Quantity Menghilangkan baris data pada atribut quantity dengan nilai minus (-). Pada penelitian

ini data dengan nilai tersebut dihapus sejumlah 10624 baris data.

UnitPrice Menghilangkan baris data pada atribut unitprice dengan nilai minus (-) dan nol (0). Pada

penelitian ini data dengan nilai tersebut dihapus sejumlah 1181 baris data.

CustomerID Menghilangkan baris data pada atribut customerid dengan nilai nol (0). Pada penelitian

ini data dengan nilai tersebut dihapus sejumlah 132220 baris data. b. Data Reduction

Penghapusan atribut InvoiceNo, StockCode, Description, dan Country didasarkan pada pertimbangan relevansi data dengan kebutuhan data pengujian dan hubungan dengan model LRFM.

c. Data Transformation

Membentuk data menyerupai struktur model LRFM maka dilakukan transformasi data mengubah data mentah menjadi data yang terstruktur.

(7)

Tabel 3. Data Transformasi

Atribut Keterangan

Length Atribut ini menggunakan data pada atribut InvoiceDate dengan format tanggal dan lama

transaksi sampai tanggal 09 Desember 2011.

Recency Atribut ini menggunakan data pada atribut InvoiceDate dengan format tanggal dan

merupakan tanggal transaksi terakhir yang dilakukan pelanggan.

Frequency Atribut ini menggunakan data pada atribut InvoiceDate dengan format angka diperoleh dari jumlah keseluruhan transaksi pelanggan.

Monetary Atribut ini menggunakan data pada atribut UnitPrice dan Quantity dengan format angka dan

diakumulasi menjadi Total. 3. Ekstraksi Model LRFM

Ekstraksi data menyesuaikan model atribut LRFM yaitu (Length, Recency, Frequency dan Monetary). Adapun hasil ekstraksi terlihat pada gambar 4 dan penjelasan dari masing-masing atribut sebaga berikut.

a. Length (L)

Nilai length merupakan nilai numerik diperoleh dari hasil pengurangan tanggal antara pembelian terakhir dengan pembelian pertama kali yang dilakukan pelanggan bersumber dari data transaksi pelanggan pada periode penelitian. Nilai length pada penelitian ini diperoleh dari menentukan selisih antara tanggal maksimum dan tanggal minimum dari atribut InvoiceDate.

b. Recency (R)

Nilai numerik yang didapatkan dari hasil pengurangan tanggal pada transaksi akhir pelanggan dengan tanggal analisis data yang ditentukan peneliti. Nilai recency pada penelitian ini diperoleh dari menentukan selisih antara tanggal akhir transaksi pelanggan dari tanggal maksimum pada atribut InvoiceDate.

c. Frequancy (F)

Nilai frequency dalam format numerik diperoleh dari jumlah transaksi yang terdapat pada atribut InvoiceDate. Nilai frequency pada penelitian ini diperoleh dari menentukan jumlah transaksi pada atribut InvoiceDate berdasarkan nilai CustomerID.

d. Monetary (M)

Nilai monetary diperoleh dari akumulasi perkalian antara atribut Quantity dengan UnitPrice yang dilakukan pelanggan pada data transaksi dengan membuat atribut baru Total sebagai penampung nilai akumulasi.

Gambar 4. Data Hasil Ekstraksi LRFM

Periode analisis tanggal 20 Desember 2011. Diperoleh pelanggan unik sebanyak 4338 data CustomerID dari aktivitas transaksi. Hasil ekstraksi model LRFM tidak diberikan pembobotan nilai dan belum dapat diuji. Kemudian memastikan data bersih dari kemunculan outlier dengan menggunakan rumus rentang interkuartil (IQR). Pengecekan outlier pada data sebelum di normalisasi min-max ditemukan sebanyak 732 data yang masuk dalam rentang data outlier kemudian dibuang.

Gambar 5. Hasil Normalisasi Data dan Penghapusan Data Outlier

Kemudian dilakukan normalisasi data menggunakan metode min-max normalisasi dengan rentang nilai antara 0 dan 1. Terkait data outlier tersebut setelah di normalisasi, dan menghapus data outlier

(8)

28

sehingga hasilnya terlihat pada gambar 5. Sehingga jumlah data pada CustomerID yang semula pelanggan unik berjumlah 4338 data menjadi 3606 data.

4. Find Optimal Cluster

Sebanyak 3606 data diujikan guna menentukan nilai cluster k yang optimal menggunakan metode Elbow, Silhouette, dan Davies-Bouldin Index dengan program R Studio dan hasil sebagai berikut.

Gambar 6. Visualisasi Grafik Metode Penentuan Cluster

Berdasarkan hasil visualisasi grafik pada gambar 6 tersebut, maka disimpulkan bahwa cluster k optimal dari ke tiga metode tersebut adalah nilai cluster k=3 serta menjadi nilai pengujian clustering K-Means.

5. Clustring with K-Means

Nilai cluster k optimal k = 3 diujikan dan hasil output dari clustering K-Means menggunakan software R Studio sebagai berikut.

Gambar 7. Output Clustering K-Means 6. Analisis Hasil Cluster

Hasil clustering pada tiga kelompok data pelanggan dilakukan perhitungan standar deviasi tiap-tiap atribut dari masing-masing cluster dan disesuaikan dengan model LRFM index. Hasil perhitungan standar deviasi dan rata-rata dari ketiga cluster sebagai berikut.

Tabel 4. Nilai Standar Deviasi Model LRFM

Clu st er Juml ah Pe la ngga n L R F M Sim bol L R FM 1 1404 0,115882585 0,100009328 0,004872944 0,002067239 L↓ R↓ F↓ M↓ 2 878 0,12101734 0,13877689 0,003497927 0,001679752 L↓ R↑ F↓ M↓ 3 1324 0,17110053 0,102759397 0,006653794 0,003110657 L↑ R↓ F↑ M↑ Rata-rata 3606 0,136000152 0,113848539 0,005008221 0,002285883

(9)

Jika standar deviasi dari masing-masing data lebih tinggi dari rata-ratanya akan diberikan simbol tanda panah keatas (↑), sedangkan untuk standar deviasi dari masing-masing data dengan hasil lebih rendah dari rata-ratanya diberikan simbol tanda panah kebawah (↓) berdasarkan model LRFM indeks. 7. Segmentasi Pelanggan

Hasil LRFM index disesuaikan dengan grup pelanggan customer value matrix dan customer loyalty matrix yang terdiri dari 16 grup pelanggan. Diperoleh hasil bahwa ketiga kelompok pelanggan tersebut terdiri dari kelompok.

a. Kelompok pertama New Customer (NC) yaitu grup pelanggan Uncertain new customer (length ↓, recency ↓, frequency ↓, dan monetary ↓) terdiri dari 1404 pelanggan.

b. Kelompok kedua Lost Customer (LC) yaitu grup pelanggan Including high value loyal customers (length ↑, recency ↓, frequency ↑, dan monetary ↑) terdiri dari 878 pelanggan.

c. Kelompok ketiga Core Customer (CC) yaitu grup pelanggan Including high value loyal customers (length ↑, recency ↓, frequency ↑, dan monetary ↑) terdiri dari 1324 pelanggan.

B. Pembahasan

Berdasarkan hasil clustering diperoleh ukuran kelompok cluster yaitu kelompok 1 memiliki jumlah data sebesar 1404, kelompok 2 memiliki jumlah data sebesar 878, dan kelompok 3 memiliki jumlah data sebesar 1324 total semua data 3606. Hasil visualisasi dapat dilihat pada gambar 8 dengan cluster 1 berwarna merah dengan anggota cluster-nya yaitu data ke 2, 12, 13, 15, 17, 20, dan lain-lain yang masih berwarna merah. Cluster 2 berwarna hijau dengan anggota cluster yaitu data ke 3, 5, 6, 7, 11, 14, dan lain-lain yang masih di warna hijau. Dan cluster 3 berwarna biru dengan anggota kelompoknya yaitu data ke 1, 4, 8, 9, 10, 16, dan lain-lain yang masih berwarna biru.

Gambar 8. Visualisasi Hasil Segmentasi Pelanggan

Berdasarkan hasil perhitungan rata-rata standard deviasi pada masing-masing atribut diberikan simbol LRFM indeks pada tabel 4. Maka hasil segmentasi pelanggan yang sesuai dengan kelompok customer value matrix dan customer loyalty matrix terdapat tiga kelompok yaitu New Customer di cluster1 , Lost Customer di cluster 2, dan Core Customer di cluster 3. Berdasarkan simbol LRFM index tersebut memberikan gambaran dan informasi yang jelas terkait pelanggan yang memiliki hubungan loyalitas bagi perusahaan sehingga hasilnya dapat diterima dan dipahami sebagai langkah strategi perusahaan dalam mengenali setiap pelanggan melalui riwayat transaksi pelanggan.

V. SIMPULAN

Penelitian ini menghasilkan 3 cluster k optimal dari tiga metode Elbow, Silhouette, dan Davies-Bouldin Index. Cluster k optimal diperoleh dari tahapan preprocessing, transformasi model LRFM dan pengecekan data outlier dengan metode Interkuartil serta normalisasi data menggunakan metode Min-Max. Hasil analisis segmentasi pelanggan e-commerce berdasarkan LRFM Index pada customer value matrix dan customer loyalty matrix diperoleh tiga kelompok pelanggan yaitu New Customers, Lost Customer, dan Core Customer. Segmentasi pelanggan pada bidang e-commerce menggunakan algoritma K-Means dan model LRFM menjadi salah satu alternatif pilihan menyelesaikan permasalahan mengenali kelompok-kelompok pelanggan.

DAFTAR PUSTAKA

Adinugroho, S., & Sari, Y. A. (2018). Implementasi Data Mining Menggunakan Weka. Malang: Universitas Brawijaya Press.

(10)

30

Alomari, H. W., & Stephan, M. (2018). Towards slice-based semantic clone detection. 2018 IEEE 12th International Workshop on Software Clones (IWSC) (pp. 58-59). Campobasso, Italy: IEEE.

Babaiyan, V., & Sarfarazi, S. A. (2019). Analyzing Customers of South Khorasan Telecommunication Company with Expansion of RFM to LRFM Model. Journal of AI and Data Mining, 7(2), 331 - 340. Celement, J. (2020, Oktober 29). Retrieved from E-commerce Worldwide - Statistics & Facts:

https://www.statista.com/topics/871/online-shopping

Chen, D., Sain, L. S., & Guo, K. (2012). Data Mining for The Online Retail Industry: A Case Study of RFM Model-based Customer Segmentation Using Data Mining. Journal of Database Marketing and Customer Strategy Management, 19(3), 197 - 208.

Daoud, R. A., Amine, A., Bouikhalene, B., & Lbibb, R. (2015). Customer Segmentation Model in E-Commerce Using Clustering Techniques and LRFM Model: The Case of Online Store in Morocco. International Journal of Computer and Information Engineering, 9(8), 2000 - 2010.

Dogan, O., Aycin, E., & Bulut, Z. A. (2018). Customer Segmentation by Using RFM Model and Clustering Method: A Case Study in Retail Industry. International Jurnal of Contemporary Economics and Administrative Sciences, 8, 1-19.

Gustriansyah, R., Suhandi, N., & Antony, F. (2020). Clustering Optimization in RFM Analysis Based on K-Means. Indonesian Journal of Electrical Engineering and Computer Science, 18(1), 470 - 477. Han, J., Kamber, M., & Pie, J. (2012). Data mining: concepts and techniques (3rd ed.). United States of

America: Morgan Kaufmann Publishers is an imprint of Elsevier.

Hubert, M., & Veeken, S. V. (2008). Outlier Detection for Skewed Data. Journal of Chemometrics: A Journal of the Chemometrics Society, 22(3-4), 235 - 246.

Irwansyah, E., & Faisal, M. (2015). Advanced Clustering: Teori dan Aplikasi. Yogyakarta: DeePublish.

Kamila, I., Khairunnisa, U., & Mustakim. (2019). Perbandingan Algoritma K-Means dan K-Medoids untuk PengelompokanData Transaksi Bongkar Muat di Provinsi Riau. Jurnal Ilmiah Rekayasa dan Manajemen Sistem Informasi, 5(1), 119 - 125.

Kandeil, D., Saad, A., & Youssef, S. M. (2014). A Two-phase Clustering Analysis for B2B Customer Segmentation. International Conference on Intelegent Networking and Collaborative System, 221 - 228.

Kaur, B., & Sharma, P. K. (2019). Implementation of Customer Segmentation using Integrated Approach. International Journal of Innovative Technology and Exploring Engineering (IJITEE), 8(6S), 770 - 772.

Li, D. C., Dai, W. L., & Tseng, W. T. (2011). A two-stage clustering method to analyze customer characteristics to build discriminative customer management: A case of textile manufacturing business. Expert System with Applications, 38(6), 7186 - 7191.

Marisa, F., Ahmad, S. S., Yusof, Z. I., Fachrudin, & Aziz, T. M. (2019). Segmentation Model of Customer Lifetime Value in Small an Medium Enterprise (SMEs) using K-Means Clustering and LRFM Model. International Journal of Integrated Engineering, 11, 169 -180.

Monalisa, S. (2018). Klasterisasi Customer Lifetime value dengan Model LRFM Menggunakan Algoritma K-Means. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 5, 247 - 252.

Nishom, M. (2019). Perbandingan Akurasi Euclidean Distance, Minkowski DIstance, dan Manhattan DIstance pada Algoritma K-Means Clustering berbasis Chi-square. Jurnal Informatika: Jurnal Pengembangan IT (JPIT), 4(1), 20 - 24.

Paramartha, G. N., Ratnawati, D. E., & Widodo, A. W. (2017). Analisis Perbandingan Metode K-Means Dengan Improved Semi-Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 1(9), 813 - 824.

Qi, J., Yu, Y., Wang, L., & Liu, J. (2016). K*-Means: An Effective and Efficient K-Means Clustering Algorithm. Atlanta, GA: 2016 IEEE International Conferences on Big Data and Cloud Computing (BDCloud), Social Computing and Networking (SocialCom), Sustainable Computing and Communications (SustainCom) (BDCloud-SocialCom-SustainCom).

Rumiarti, C. D., & Budi, I. (2017). Segmentasi Pelanggan Pada Customer Relationship Management di Perusahaan Ritel: Studi Kasus PT Gramedia Asri Media. Jurnal Sistem Informasi (Jurnal of Information System), 13(1), 1 - 10.

Singh, H., & Srivastava, S. (2020). Customer Segmentation in E-Commerce to Retain and Gain the Customers. International Journal of Advanced Science and Technology, 29(7), 12846-12856. Wahyuningtyas, E. U., Putri, R. R., & Sutrisno. (2018). Optimasi K-Means Untuk Clustering Dosen

Berdasarkan Kinerja Akademik Menggunakan Algoritme Genetika Paralel. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 2(8), 2628 - 2635.

Gambar

Gambar 2. Dataset Awal Penelitian  2.  Preprocessing
Gambar 3. Customer Loyalty Matrix
Tabel 2. Tabel Data Cleaning
Gambar 6. Visualisasi Grafik Metode Penentuan Cluster
+2

Referensi

Dokumen terkait

Identifikasi agen atau penyebab dari kejadian risiko yang telah diidentifikasi pada

Hasil uji normalitas pada tabel di atas, dijelaskan bahwa nilai signifikasi dari tes kebugaran jasmani menggunakan MFT (Multistage Fitness Test) dan hasil belajar mata

- Melatih mahasiswa merumuskan masalah ilmiah dalam bidang biologi molekuler, morfologi, ekologi atau pun sosio-etologi hewan (termasuk manusia).. - Melatih mahasiswa

1) Existence atau keberadaan adalah suatu kebutuhan akan tetap bisa hidup sesuai dengan tingkat kebutuhan tingkat rendah dari Maslow yaitu meliputi kebutuhan fisiologis dan

Hal tersebut sejalan dengan penelitian-penelitian sebelumnya yang menunjukkan ketidaksesuaian PSAK 105 dengan perlakuan akuntansi pembiayaan mudharabah yang dilaksanakan oleh bank

Berdasarkan data yang telah diperoleh mengenai Sistematic Literature Review ( SLR) mengenai faktor yang mempengaruhi keberhasilan online advertising terdapat 22 faktor,

Akses Internet adalah sebuah kebutuhan pokok yang harus dimiliki baik perorangan ataupun perusahaan karena betapa pentingnya akan sebuah akses internet agar sebuah perusahaan

Pada penelitian ini digunakan metode Goal programming karena penelitian ini mempunyai fungsi kendala dan fungsi tujuan yang lebih dari satu metode yang tepat digunakan