SKRIPSI
CHATARINA S FRANSISKA SAMOSIR 171402066
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2021
PREDIKSI PELANGGAN CHURN PADA MERCHANT MENGGUNAKAN ALGORITMA
REGRESI LOGISTIK
SKRIPSI
Diajukan untuk memenuhi tugas dan syarat agar mendapatkan ijazah Sarjana Teknologi Informasi
CHATARINA S FRANSISKA SAMOSIR 171402066
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2021
PERNYATAAN
PREDIKSI PELANGGAN CHURN PADA MERCHANT MENGGUNAKAN ALGORITMA
REGRESI LOGISTIK
SKRIPSI
Saya memberi pengkuan bahwa skripsi ini merupakan hasil penelitian saya sendiri, tetapi terdapat beberapa kutipan dan ringkasan yang telah disebutkan sumbernya.
Medan, 26 Juli 2021
CHATARINA S FRANSISKA SAMOSIR 171402066
UCAPAN TERIMA KASIH
Puji syukur kepada Tuhan Yesus Kristus dan Bunda Maria, untuk segala berkat dan kasih- Nya sehingga penulis bisa dan mampu menyelesaikan penyusunan skripsi ini.
Terima kasih juga penulis ucapkan pada setiap pihak yang mendukung dan mendoakan penulis untuk menyelesaikan skripsi ini. Penulis mengucapkan banyak terima kasih pada pihak yang terlibat, yaitu kepada :
1. Orangtua penulis Bapak P. Samosir dan Mama T. Sitanggang yang selalu menyemangati dan mendoakan penulis serta kepada adikku Laurensi Dwi Hartati Samosir yang selalu menyemangati dan menghibur walaupun dalam kondisinya yang masih dalam pemulihan dari sakit.
2. Bapak Dr. Muryanto Amin, S.Sos., M.Si selaku Rektor Universitas Sumatera Utara.
3. Ibu Dr. Maya Silvi Lydia, M.Sc. selaku Dekan Fasilkom-TI USU.
4. Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc selaku Ketua Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
5. Ibu Sarah Purnamawati, ST., M.Sc., selaku Sekretaris Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
6. Ibu Marischa Elveny S.TI, M.Kom., selaku Dosen Pembimbing I yang telah memberikan banyak waktu untuk membimbing, memberi saran dan berdiskusi derta semangat kepada penulis.
7. Bapak Niskarto Zendrato S.Kom, M.Kom., selaku Dosen Pembimbing II yang telah memberikan waktu untuk membimbing, dan memberikan saran, arahan dan semangat kepada penulis.
8. Dosen Penguji
9. Seluruh Dosen Fakultas Ilmu Komputer dan Teknologi Informasi Universitas serta staff akademik yang membantu kelancaran penulis dalam menyelesaikan studi.
10. Sahabat yang selalu mendoakan dan memberikan solusi Renta Ristia Elfrida
11. Grup keluarga di masa kuliah Yuni Sonia Silalahi, Daisy Sere, Mirna, Fifi yang menjadi teman seperjuangan selama berkuliah dan dalam penulisan skripsi ini.
12. Kepada Jane dan Ronaldo yang menjadi sahabat terbaik sejak SMA yang memberikan motivasi.
13. Semua pihak yang telah membantu dan mendukung dalam proses penyelesaian skripsi ini.
Medan, 26 Juli 2021
Penulis
ABSTRAK
Aplikasi fintech saat ini menjadi salah satu inovasi yang mempermudah masyarakat untuk melakukan transaksi. Hal ini didukung dengan semakin meningkatnya pengguna smartphone dan layanan internet. Masyarakat atau nasabah yang menjadi pelanggan berperan penting sebagai roda penggerak utama pada perkembangan fintech di Indonesia.
Oleh karena itu berbagai perusahaan fintech berupaya untuk menarik perhatian dari masyarakat agar menggunakan produk yang ditawarkan. Selain itu, persaingan dalam mempertahankan pelanggan adalah hal yang cukup krusial. Dengan demikian, perusahaan perlu untuk memprediksi pelanggan yang akan churn agar dapat mengetahui strategi yang akan dilakukan selanjutnya untuk mempertahankan pelanggan. Permasalahan ini dapat diatasi dengan mengamati frekuensi transaksi yang dilakukan pelanggan tiap bulannya.
Penelitian ini bertujuan untuk melakukan prediksi pelanggan yang akan churn pada beberapa merchant yang terdaftar pada aplikasi fintech menggunakan algoritma regresi logistik. Algoritma regresi logistik melakukan prediksi pada nilai target dari data transaksi.
Tahapan yang dilakukan yaitu preprocessing sebagai tahapan untuk membersihkan data dan melakukan perubahan pada tipe data yang tidak sesuai. Penelitian ini juga menggunakan sigmoid function pada regresi logistik. Sigmoid function memiliki peran yang sangat penting dalam mengkategorikan antara kelas target churn dan no- churn. Metode confussion matrix digunakan pada evaluasi penelitian dan menghasilkan akurasi sebesar 84.5%.
Kata Kunci: Prediksi pelanggan churn, Regresi Logistik, sigmoid function, confusion matrix
CUSTOMER CHURN PREDICTION ON MERCHANT USING LOGISTIC REGRESSION ALGORITHM
ABSTRACT
Fintech applications are currently one of the innovations that make it easier for people to make transactions. This is supported by an increasing of smartphone users and internet services. Communities or customers who beome the important customers have the main role of driving force in the development of fintech in Indonesia. Therefore, various fintech companies seek to attract the attention of the public to use the products offered. In addition, competition in retaining customers is crucial. Thus, companies need to predict customers will churn in order to know the next strategy to be carried out to retain customers. This problem can be solved by observing the frequency of transactions made by customers each month. This study aims to predict customers who will churn at several merchants registered with fintech applications using a logistic regression algorithm. The logistic regression algorithm makes predictions on the target value from the transaction data. The steps taken are preprocessing as a step to clean data and make changes to inappropriate data types. This study also uses the sigmoid function in logistic regression . The sigmoid function has a very important role in categorizing between churn and no- churn target classes. The confusion matrix method used in the evaluation of the research and the quality of the accuracy is 84.5%.
Keywords: customer churn prediction, Logistic Regression, sigmoid function, confusion matrix
DAFTAR ISI
Hal.
PERSETUJUAN ii
PERNYATAAN iii
UCAPAN TERIMA KASIH iv
ABSTRAK vi
ABSTRACT vii
DAFTAR ISI viii
DAFTAR TABEL x
DAFTAR GAMBAR xi
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 5
1.3. Batasan Masalah 5
1.4. Tujuan Penelitian 6
1.5. Manfaat Penelitian 6
1.6. Metodologi Penelitian 7
1.7. Sistematika Penulisan 8
BAB 2 LANDASAN TEORI 9
2.1. Prediksi 9
2.2. Perilaku 9
2.3. Merchant 10
2.4. Financial Technology 10
2.5. OttoCash 10
2.6. Customer (Pelanggan) 11
2.7. Customer Churn 12
2.8. Algoritma Regresi Logistik 13
2.9. Confusion Matrix 13
BAB 3 ANALISIS DAN PERANCANGAN SISTEM 18
3.1. Arsitektur Umum 18
3.2. Data 19
3.3. Preprocessing 20
3.3.1. Data Cleaning 20
3.3.2. Data Selection 21
3.3.3. Logistic Regression Modelling 22
3.4. Process of Prediction 26
3.4.1. Analisis terhadap Prediksi pada Nilai Target 26
3.5. Perancangan Sistem Antarmuka 28
3.5.1. Rancangan Halaman Home 28
3.5.2. Rancangan Halaman Proses 29
BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM 31
4.1. Implementasi Sistem 31
4.1.1. Spesifikasi Perangkat keras dan Perangkat lunak 31
4.1.2. Implementasi Rancangan Antarmuka 32
4.2. Hasil Pengujian Sistem 44
4.3. Evaluasi 52
BAB 5 KESIMPULAN DAN SARAN 53
5.1. Kesimpulan 53
5.2. Saran 54
DAFTAR PUSTAKA 55
DAFTAR TABEL
Hal.
Tabel 2.1. Penelitian Terdahulu 16
Tabel 3.1. Variabel Inputan 21
Tabel 4.1. Evaluasi Model Prediksi (Pembagian data 55%:45%) 46 Tabel 4.2. Evaluasi Model Prediksi (Pembagian data 80%:20%) 49 Tabel 4.3. Evaluasi Model Prediksi (Pembagian data 90%:10%) 51 Tabel 4.4. Evaluasi Model Prediksi (Pembagian data 65%:35%) 52
DAFTAR GAMBAR
Hal.
Gambar 3.1. Arsitektur Umum 19
Gambar 3.2.(a) Data Pengguna 19
Gambar 3.2.(b) Data Transaksi 19
Gambar 3.3. Grafik Nama Merchant dan Nilai Transaksi 20
Gambar 3.4(a). Data sebelum di cleaning 21
Gambar 3.4(b). Data Akhir 22
Gambar 3.5. Grafik Nilai Target dan Nilai Transaksi 26
Gambar 3.6. Halaman Home 28
Gambar 3.7. Halaman Proses (Data Pengguna) 29
Gambar 3.8. Halaman Proses (Jenis Merchant dan Jumlah Transaksi) 29 Gambar 3.9. Halaman Proses (Data Training dan Testing) 30 Gambar 3.10. Halaman Proses (Data Churn dan Grafik) 30
Gambar 4.1. Tampilan Halaman Home 33
Gambar 4.2. Tampilan Halaman Proses (Data Pengguna) 34 Gambar 4.3. Tampilan Halaman Proses (Jenis Merchant) 35 Gambar 4.3.(a) Tampilan Halaman Proses (Chart Jenis Merchant) 35 Gambar 4.3.(b) Tampilan Halaman Proses (Detail dari Jenis Merchant) 36 Gambar 4.4. Tampilan Halaman Proses (Jenis Transaksi per Bulan) 36 Gambar 4.4.(a) Tampilan Halaman Proses (Barchart Jenis Transaksi per Bulan) 37 Gambar 4.5. Tampilan Halaman Proses (Jenis Transaksi per Waktu) 38 Gambar 4.5.(a) Tampilan Halaman Proses (Chart Jenis Transaksi per Waktu) 38 Gambar 4.6. Tampilan Halaman Proses (Data Training dan Data Testing) 39
Gambar 4.7. Tampilan Halaman Proses (Data Churn) 40
Gambar 4.7(a). Tampilan Halaman Proses (Chart Data Churn) 41
Gambar 4.8. Tampilan Halaman Proses (Grafik Data Testing) 42 Gambar 4.9. Tampilan Halaman Proses (Hasil Evaluasi) 43 Gambar 4.9.(a) Tampilan Halaman Proses (Heatmap Confusion Matrix) 44
Gambar 4.10(a). Tampilan Grafik Churn (55%:45%) 46
Gambar 4.10(b). Tampilan Confusion Matrix (55%:45%) 46
Gambar 4.11. Tampilan Grafik Churn (65%:35%) 48
Gambar 4.12(a). Tampilan Grafik Churn (80%:20%) 49
Gambar 4.12(b). Tampilan Confusion Matrix (80%:20%) 49
Gambar 4.13(a). Tampilan Grafik Churn (90%:10%) 51
Gambar 4.13(b). Tampilan Confusion Matrix (90%:10%) 51
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Dengan jumlah penduduk lebih dari 260 juta jiwa, Negara Kesatuan Republik Indonesia memiliki tantangan dan masalah dalam pembangunan yang berkeadilan dan pembangunan ekonomi, yaitu masalah inklusi keuangan. Pemerintah juga menaruh perhatian pada isu-isu keuangan inklusif, yang didukung dengan adanya Peraturan Presiden RI Nomor 82 Tahun 2016 tentang Strategi Nasional Keuangan Inklusif (SNKI). Regulasi yang ada bertujuan untuk menyediakan sistem keuangan yang komprehensif sehingga pada layanan keuangan dalam rangka peningkatan kapasitas ekonomi dan mengurangi ketimpangan ekonomi.
Oleh karena hal tersebut, berdasarkan data dari OJK pada tahun 2017 (Kominfo.go.id), sekitar 63% penduduk dewasa di Indonesia sudah dapat memperoleh pelayanan pada lembaga keuangan formal. Pada akhir tahun 2019, SNKI akan diterapkan untuk mencapai tujuan keuangan inklusif, yaitu 75% penduduk dewasa memperoleh layanan di lembaga keuangan formal (https://ekonomi-bisnis.com). SNKI menyatakan bahwa pemanfaatan teknologi dan inovasinya adalah langkah yang berpeluang membantu tercapainya peningkatan akses dan penggunaan pada instrumen keuangan.
Terkait pemanfaatan teknologi informasi dan inovasinya di bidang keuangan, ada beberapa jasa keuangan di Indonesia yang menggunakan fintech (financial technology).
Fintech dapat dipahami sebagai teknologi keuangan. Secara sederhana pengertiannya adalah pemanfaatan teknologi informasi sebagai peningkatkan pelayanan di industri keuangan. Berdasarkan pada National Digital Research Centre, Fintech merupakan cara lai dalam menggambarkan perubahan di bidang jasa keuangan (www.maxmanroe.com).
Definisi lainnya, fintech adalah berbagai model bisnis dan perkembangan teknologi yang berpotensi untuk meningkatkan industri jasa keuangan (International Organization of Securities Commissions. IOSCO Research Report On Financial Technologies. 2017).
Fintech semakin populer di masyarakat memainkan peran dalam mendukung peningkatan tingkat inklusivitas di Indonesia. Laporan PriceWaterhouseCoopers (PWC)
tahun 2016 berjudul Financial Service Technology 2020 on Beyond : Embracing Disruption, mengemukakan bahwa Fintech akan mengubah bentuk bisnis industri jasa keuangan di masa depan.
Untuk mengoptimalikan pengaruh fintech terhadap pertumbuhan ekonomi, maka perlu mempertimbangkan bagaimana menyeimbangkan antara kenyamanan dan kefleksibelan layanan keuangan yang disediakan fintech. Jika tidak ada keseimbangan tersebut, kemungkinan besarnya fintech akan mengubah kepercayaan publik terhadap sistem keuangan dan stabilitas perekonomian.
Merchant adalah individu yang melakukan penjualan barang maupun jasa yang memiliki bentuk usaha (physical store) maupun online store yang bermitra dengan Bank untuk menyediakan layanan penerimaan pembayaran melalui uang elektronik bank yang bersangkutan. Pada umumnya, cara kerja merchant melayani para pelanggan didasarkan pada aturan sistem sesuai dengan keputusan Bank yang bermitra dengan merchant tersebut.
Produktivitas pelanggan pada merchant disebut dengan data e-metric (Elektronik-Metrics).
Elektronik-Metrics atau biasa dikenal dengan e-metrics merupakan data yang dihasilkan sesuai dengan perilaku pelanggan berbasis electronic (e-customer behavior) (Dijkman, 2011).
E-metrics memiliki peluang akan perekonomian tumbuh lebih cepat, dan meningkat, karena pada data e-metrics data yang diperoleh harus teruji kebenarannya pada setiap anggota. Disamping itu, indikator yang tersebar menggambarkan pangsa pasar dan perubahan pasar yang cepat agar mampu melakukan adaptasi. Hal ini juga merupakan salah satu strategi bisnis yang dilandasi dengan mengutamakan pelanggan sebagai pusat bisnis yang saling menguntungkan dan untuk memberikan pengalaman positif dan menjalin hubungan jangka panjang dan mendukung pertumbuhan ekonomi. Maka, saat pelanggan melakukan churn/attrition (berhenti) akan berdampak pada keuntungan dan kinerja bisnis pada perusahaan.
Menurut Michael (2020), churn dalam skala kecil dapat memengaruhi bisnis secara signifikan karena membutuhkan lebih banyak uang dan upaya untuk mendapatkan pengguna baru daripada mempertahankan yang sudah ada, perusahaan dengan tingkat churn yang terus
Prediksi merupakan sebuah tahap untuk menaksir akan sesuatu yang memiliki peluang terjadi berdasar pada informasi masa sebelumnya dan masa kini. Prediksi pada dasarnya memberikan jawaban kemungkinan yang belum pasti harus terjadi, tetapi berupaya agar jawaban yang diperoleh memiliki kemungkinan terjadi cukup besar (Herdianto, 2013).Tujuan dari dilakukannya prediksi untuk mendapatkan informasi berkaitan dengan perubahan dimasa yang akan datang dimana hal itu akan memberi pengaruh pada penerapan kebijakan beserta dampaknya.
Dalam hal ini digunakan Regresi Logistik yang merupakan algoritma atau metode yang digunakan untuk melakukan prediksi. Fungsi logistik yang memprediksi variabel dependen kategorikal target, maka output dari hipotesis adalah probabilitas yang diperkirakan. Ini digunakan untuk menyimpulkan nilai prediksi menjadi nilai aktual ketika diberi input X.
Oleh karena itu, prediksi terhadap pelanggan churn akan memberikan hasil apakah pelanggan tersebut akan melakukan churn atau tidak. Dimana terdapat hubungan antar variabel dalam menghasilkan prediksi tersebut.
Menurut hasil riset (Roy, 2017), bahwa secara kumulatif salah satu bank pemerintah di Indonesia mengalami negative churn atau telah kehilangan nasabah tabungan kurang lebih sebesar 431 ribu nasabah walaupun di sisi lain mendapatkan nasabah tabungan baru atau positive churn sebesar 414 ribu nasabah namun mengalami lost sebesar 17 ribu nasabah.
Lebih rinci lagi, pada kota-kota utama di Indonesia (Greater Jakarta), nasabah tabungan yang beralih ke bank pesaing (switching out) sebesar 97 ribu nasabah atau sebesar 22,5%. Dan bank tersebut terus mengalami lost di kota besar karena tingkat negative churn lebih tinggi dibanding tingkat positive churn. Tingkat negative churn tabungan dapat mempengaruhi perolehan pendapatan perbankan.
Sedangkan dari industri telekomunikasi dalam kasus yang sama, menurut (Ary, 2004) mengatakan bahwa biaya yang dikeluarkan perusahaan untuk mempertahankan pelanggan lebih murah lima kali daripada mendapatkan pelanggan baru. Dan dengan berkurang atau berhentinya customer atau dalam hal ini pelanggan menunjukkan bahwa terdapat beberapa faktor yang membuat mereka tidak ingin lagi melakukan transaksi pada perusahaan tersebut.
Disisi lain, dari segi strategi untuk mendapatkan pelanggan baru akan membuang waktu dan juga biaya lebih. Maka akan lebih baik bila mampu menjaga loyalitas dari pelanggan dengan melakukan tindakan preventif akan churn yang akan terjadi sehingga selain profit yang tidak menurun, citra dari aplikasi fintech yang hadir di tengah masyarakat juga menjadi baik dan dapat menarik pelanggan lebih banyak lagi.
Penelitian sebelumnya dilakukan oleh Zhao Jing (2008) melakukan penetilian yang berjudul Bank Customer Churn Prediction Based on Support Vector Machine : Taking a Commercial Bank’s VIP Customer Churn as the Example. Penelitian ini berfokus pada nasabah VIP disebuah bank komersil. Dari penelitian yang dilakukan berdasarkan pada kondisi dan struktur data yang dimana memliki sampel dan vektor dukungan serta indeks yang banyak maka SVM memiliki presisi yang cukup tinggi untuk memprediksi.
Dilanjutkan dengan penelitian yang dilakukan oleh Meyrina Herawati, Imam Mukhlash, Inu L. Wibowo (2016) yang menggunakan Algoritma Fuzzy Iterative Dichotomiser 3 untuk melakukan prediksi customer churn. Dimana ketiga peneliti ini berfokus pada pengembangan model churn prediction dalam bidang telekomunikasi dengan menerapkan metode fuzzy decision tree menggunakan algoritma ID3. Kemudian Maria Spiteri (2018) melakukan penelitian pada perusahaan asuransi kendaraan bermotor untuk memprediksi customer churn dengan menggunakan algoritma random forest. Peneliti ini terlebih dulu melakukan analisis perbandingan dari beberapa algoritma yang sering digunakan dalam prediksi, dan dengan data perusahaan asuransi yang dimiliki maka random forest algorithm adalah yang paling sesuai.
Dan penelitian berikutnya oleh Faisal Dhio Saputra (2021) tentang Prediksi Churn dan Strategi Retensi pada Kasus Perusahaan Telekomunikasi. Penelitian ini dilakukan dengan tujuan untuk pemodelan pada prediksi pelanggan Churn dan dapat memperoleh keputusan strategi dengan 2 metode yaitu Logistic Regression dan Support Vector Machine.
Berdasarkan latar belakang yang telah dijelaskan sebelumnya dan beberapa penelitian terdahulu yang menjadi referensi, maka penulis bermaksud ingin mengajukan judul penelitian “Prediksi Pelanggan Churn pada Merchant Menggunakan Algoritma Regresi Logistik”.
1.2. Rumusan Masalah
Prediksi pada customer churn telah diterapkan pada beberapa industri seperti, telekomunikasi, perusahaan asuransi dan perbankan, namun pada fintech belum di implementasikan. Sementara, persaingan untuk mendapatkan dan mempertahankan pelanggan terjadi cukup substansial. Maka, diperlukan upaya pencegahan. Oleh karena itu, penelitian ini melakukan prediksi pada customer yang hanya akan melakukan churn.
1.3. Batasan Masalah
Berikut beberapa batasan masalah dari penelitian ini:
1. Prediksi perilaku yang dilakukan yaitu prediksi terhadap kelas target customer yang akan melakukan churn dengan periode per triwulan.
2. Prediksi hanya pada merchant jenis makanan dan minuman, pada penelitian ini terdapat 2 merchant dengan transaksi terbanyak pada wilayah Kota Medan yaitu merchant KFC dan Warkoep Radoel.
3. Data pada penelitian ini merupakan data transaksi tahun 2019 bulan januari hingga bulan desember dan data pengguna mulai tahun 2017 di Kota Medan.
4. Aplikasi yang dibangun berbasis web.
1.4. Tujuan Penelitian
Peneliti melakukan penelitian ini bermaksud untuk memprediksi kelas target dari pelanggan yang melakukan churn dan no-churn pada merchant dengan kategori makanan dan minuman dengan mempelajari behaviour dari transaksi yang dilakukan oleh pelanggan.
Prediksi pada penelitian ini menggunakan algoritma regresi logistik.
1.5. Manfaat Penelitian
Penelitian ini memiliki manfaat sebagi berikut :
1. Sebagai bahan penilaian dan informasi perusahaan untuk menentukan jenis strategi bisnis seperti apa yang dibutuhkan untuk mempertahankan pelanggan dan
meningkatkan loyalitas dari pelanggan.
2. Bagi penyedia aplikasi fintech, adanya peningkatan layanan pada aplikasi yang dapat meningkatkan kenyamanan dan kemudahan dalam melakukan transaksi.
1.6. Metode Penelitian
Beberapa langkah dalam penelitian ini, yaitu : 1. Studi Literatur
Proses pada penelitian yaitu dimana penulis mencoba memperoleh berbagai bahan referensi antara lain berasal dari buku, jurnal, panduan dan sumber referensi lainnya berkaitan dengan metode Regresi Logistik, Customer Churn, Prediksi dan informasi tambahan yang berhubungan dengan penelitian.
2. Analisis Permasalahan
Bagian ini yaitu melakukan analisis agar mendapatkan pengertian mengenai bagaimana konsep awal pada penelitian, dan implementasi dalam menggunakan metode regresi logistik.
3. Perancangan
Tahapan ini mempersiapkan rancangan arsitektur umum dan rancangan sistem antar muka pada sistem.
4. Implementasi
Tahap ini, melakukan implementasi yang menerapkan rancangan analisis dari proses sebelumnya.
5. Pengujian
Tahapan yang akan melakukan pengujian pada hasil implementasi dari metode regresi logistik agar dapat diketahui bahwa sistem sudah sesuai.
6. Penyusunan Laporan
Tahapan ini akan membuat laporan oleh penulis yang telah melakukan penelitian.
1.7. Sistematika Penulisan
Bab 1: Pendahuluan
Pada bagian awal ini terdiri dari latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metode penelitian serta sistem penulisan.
Bab 2 : Landasan Teori
Kemudian bab berikutnya akan dijelaskan teori-teori untuk mengetahui permasalahan yang terdapat pada penelitian ini. Pada bab ini akan terdapat berbagai konsep yang berhubungan terkait prediksi, perilaku, merchant, financial technology, ottocash, pelanggan, customer churn, dan algoritma regresi logistik.
Bab 3 : Analisis dan Perancangan
Pada bagian ini, dijelaskan hal yang berkaitan dengan analisis beserta implementasi dari metode regresi logistik untuk melakukan prediksi pelanggan pada merchant. Pada bagian yang ketiga ini juga akan dilakukan pembahasan tentang arsitektur umum dalam pembuatan tampilan pada sistem.
Bab 4 : Implementasi dan Pengujian
Pada bagian ini akan dijelaskan penerapan yang dilakukan berdasar pada hasil analisis dan perancangan sistem, hasil yang diuji, beserta didapatkan pada sistem yang telah dibuat apakah sesuai dengan yang diinginkan.
Bab 5 : Kesimpulan dan Saran
Dan pada bagian terakhir ini terdapat kesimpulan berdasar penelitian yang dilakukan dan saran terkait peningkatan dan penelitian yang akan dilakukan.
BAB 2
LANDASAN TEORI
2.1. Prediksi
Prediksi adalah tahapan dalam menaksir sesuatu hal dengan cara yang sistematis yang memiliki kemungkinan untuk terjadi. untuk meminimalisir kesalahan pada hasil prediksi maka jawaban yang diberikan oleh prediksi belum tentu pasti benar, namun berusaha agar hasil yang diberikan berpeluang besar untuk terjadi. Prediksi memperkirakan kemungkinan yang terjadi suatu keadaan tertentu dan memberikan masukan dalam proses strategi dan dalam membuat keputusan. Namun, sesuai dengan sifat dari prediksi, maka hasil dari prediksi tidak ada yang benar 100%. Namu, penelitian yang dilakukan yaitu memprediksi untuk menentukan kelas target yang sudah ditentukan, bukan untuk meramalkan atau forecasting. Dimana forecasting merupakan perhitungan atau perkiraan yang menggunakan data dari peristiwa sebelumnya, dikombinasikan dengan data trend untuk menghasilkan hasil peristiwa dimasa depan.
2.2. Perilaku
Perilaku merupakan seluruh perwujudan individu dalam melakukan interaksi dengan lingkungan (Okviana, 2015). Perilaku juga adalah akibat dari berbagai bentuk pengalaman serta hubungan yang tercipta antara manusia dan lingkungan yang terwujud menjadi pengetahuan, sikap dan cara bertindak. Pengertian perilaku lainnya yaitu tanggapan atau tindakan individu terhadap hal-hal yang bersumber dari luar maupun dari dalam dirinya (Notoatmojo, 2010).
Namun, ada juga yang memiliki pendapat bahwa perilaku merupakan reaksi yang dapat dilihat dan memiliki frekuensi spesifik, waktu dan tujuan yang disadari atau tidak (Wawan, 2011). Namun, dalam penelitian ini mempelajari perilaku yang terkait dengan kebiasaan yang seorang pelanggan sering lakukan berdasarkan pada transaksi yang dilakukan secara berkala pada merchant.
2.3. Merchant
Merchant merupakan perorangan atau sekumpulan orang yang memiliki peran menjadi penjual barang dan/atau jasa yang mempunyai physical store (toko fisik) ataupun toko online. Hal yang menjadi pembeda antara merchant dan toko pada yang lainnya adalah metode pembayarannya. Biasanya, merchant menjalin kerja sama dengan pihak bank dalam menyediakan layanan pembayaran menggunakan e-money.
Gambar 2.3. Merchant (Sumber: ottopay.id)
2.4. Financial Technology
National Digital Research Centre atau NDRC memberikan penjelasan bahwa fintech merupakan sebuah sebutan yang banyak dipakai pada sebuah inovasi pada bidang jasa keuangan. Inovasi ini dapat juga dikatakan sebagai bentuk inovasi pada finansial yang diberikan penerapan teknologi modern. Financial Technology yang telah ada dan berkembang sekarang memiliki kemampuan untuk memberi layanan meliputi layanan dalam membayara hingga pemindahan dana, pengumpulan dana, pinjaman dana, hingga pengolahan aset yang meningkat kecepatannya dan dipermudah dengan pemanfaatan teknologi.
2.5. OttoCash
OttoCash adalah salah satu aplikasi uang elektronik sebagai solusi keuangan yang memudahkan pengguna untuk melakukan transaksi pembayaran dan pembelian. OttoCash merupakan produk yang dikeluarkan dari perusahaan PT. Transaksi Artha Gemilang yang juga telah memperoleh lisensi menjadi penerbit uang dalam bentuk elektronik dan izin penyelenggara pemindahan dana dengan nomor: 20/240/DKSP/87 dari Bank Indonesia
dengan banyak merchant untuk memudahkan dalam melakukan transaksi digital.
OttoCash memiliki beberapa fitur diantaranya melakukan pembayaran dengan scan barcode, kemudian terdapat fitur pembayaran asuransi, air, bayar BPJS, fitur mencari merchant terdekat dan fitur lain seperti top up.
Gambar 2.5. Aplikasi OttoCash (Sumber: pede.id)
2.6. Customer ( Pelanggan )
Pelanggan mengacu pada perorangan atau badan hukum yang memperoleh manfaat atau produk dan layanan dari perusahaan, termasuk aktivitas pembelian dan layanan.
Sedangkan pengertian berdasar pendapat Gasperz, (dalam Nasution 2004:101), yaitu : 1. Semua pelanggan adalah orang perseorangan yang mengharuskan perusahaan memenuhi standar kualitas tertentu yang dapat mempengaruhi performasi perusahaan.
2. Pelanggan adalah individu yang independen pada suatu perusahaan, tetapi bisnis yang bergantung pada pelanggan.
3. Pelanggan merupakan individu yang menuntun produsen pada kebutuhannya.
4. Pelanggan akan selalu menang dalam berargumentasi.
5. Pelanggan merupakan individu yang sangat penting dan harus dipuaskan.
2.7. Customer Churn
Customer Churn (atrisi pelanggan) merupakan sejumlah pelanggan yang tidak akan menggunakan produk dan layanan bisnis dalam jangka waktu tertentu (https://chatbiz.id).
Churn yang dimaksudkan pada penelitian ini adalah pelanggan yang tidak melakukan transaksi lagi sesuai dengan periode tertentu. Oleh karena itu, customer churn memiliki faktor penting bagi evaluasi sebuah perusahaan dan bisnis. Hal ini disebabkan karena mendapatkan pelanggan sebanyak mungkin adalah tujuan dari perusahaan. Dan mempertahankan pelanggan adalah yang lebih sulit. Sebab apabila perusahaan tidak dapat mempertahankan pelanggan, maka perusahaan tersebut akan tertinggal dan siklus dari kinerja perusahaan bahkan pendapatannya akan berkurang dan menurun (https://fayrix.com/blog/customer-churn-prediction-benefits).
2.8. Algoritma Regresi Logistik
Regresi Logistik merupakan sebuah algoritma yang melakukan pendekatan yaitu memperkirakan relaso antara variabel dependen kategoris dan satu atau lebih variabel independen melalui perhitungan yang dilakukan pada probabilitas menggunakan fungsi logistik (https://en.wikipedia.org). Regresi logistik tidak jauh berbeda dengan regresi linier atau biasanya dikenal dengan istilah Ordinary Least Squares (OLS) regression. Namun, kedua algoritma ini memiliki perbedaan yaitu pada regresi linier menggunakan fungsi linier untuk memetakan variabel input ke variabel respon/dependen berkelanjutan.
Kemudian untuk memprediksi nilai variabel respon/dependen untuk nilai baru dari variabel input dapat menggunakan model regresi linier. Dan hasilnya berupa salah satu dari kemungkinan yang tak terbatas, hal ini berarti bahwa output bisa positif atau negatif, tanpa ada batas maksimum atau minimum. Sedangkan regresi logistik, menggunakan fungsi logistik untuk melakukan pemetaan variabel input ke respon kategori/variabel dependen. Pada penelitian ini, menggunakan jenis dari regresi logistik biner, hal ini dikarenakan regresi logistik memiliki output probabilitas antara 0 dan 1. Pada regresi logistik, fungsi logistik disebut juga dengan sigmoid function, dimana fungsi ini
Berikut adalah rumus dari sigmoid function.
Keterangan :
𝑆(𝗑) = 1
(1+𝑒−𝗑) ... 2.1
S(x) = Sigmoid Function
e = Euler number (2.7182... atau biasa dibulatkan menjadi 2.72) x = nilai numerik aktual yang dapat diubah
Persamaan pada regresi logistik (Fungsi Logit) :
Keterangan :
𝑦 = 𝑒(𝖰0+𝖰1*𝗑)
1+ 𝑒(𝖰0+𝖰1*𝗑) ... 2.2
y = output yang diprediksi β0 = bias atau intersep
β1 = koefisien untuk nilai input (x) Persamaan peluang pada regresi logistik :
𝑦 = 𝑒(𝖰0+𝖰1*𝑋)... 2.3
2.9. Confusion Matrix
Confusion matrix adalah suatu cara untuk mengukur performa pada masalah klasifikasi untuk machine learning, dan output berupa dua pengelompokan kelas atau lebih.
Confusion matrix biasanya berisi dari tabel yang terdiri dari 4 kombinasi dari nilai prediksi dan nilai aktual. Confusion Matrix dilakukan sebagai evaluasi dari proses pengujian data, untuk melihat kesesuaian dengan menghitung accuracy.
Accuracy = TP + TN
TP + FP + TN + FN ... 2.4 Keterangan :
TP = True Positive, prediksi pelanggan churn dan benar pelanggan churn TN = True Negative, prediksi pelanggan yang tidak churn dan benar tidak churn FP = False Positive, prediksi pelanggan churn, tetapi faktanya tidak churn
2.10. Penelitian Terdahulu
Beberapa peneliti sebelumnya telah melakuakn berbagai penelitian pada prediksi customer churn dengan berbagai algoritma seperti SVM (Support Vector Machine) dan Random Forest.. Dan penelitian prediksi tersebut telah dilakukan sebelumnya oleh :
(Meyrina Herawati, Inu L. Wibowo, dan Imam Mukhlash, 2016) pada penelitian berjudul “Prediksi Customer Churn menggunakan Algoritma Fuzzy Iterative Dichomotiser 3” melakukan prediksi pada bidang telekomunikasi dan juga melakukan pengembangan model dengan menggunakan fuzzy decision tree. Pada penelitian ini diperoleh nilai akurasi terbaik yaitu 87%.
Kemudian penelitian selanjutnya oleh (Qiu Yanfang, 2017) melalui penelitian yang berjudul “Research on E-commerce User Churn Prediction Based on Logistic Regression”
melakukan penelitian tentang prediksi pengguna e-commerce yang akan melakukan churn dengan algoritma regresi logistik. Pada penelitian ini memanfaatkan software SPSS (Statistical Product and Service Solution) untuk analisisnya. Dan setelah dilakukan percobaan, hasil akurasi dari prediksi yaitu 93.6%.
Selanjutnya penelitian yang berjudul “Customer Churn Prediction in Mobile Networks using Logistic Regression and Multilayer Perceptron (MLP)” oleh (Shrisha Bharadwaj, 2018) meneliti tentang prediksi pelanggan yang akan melakukan churn pada jaringan seluler menggunakan dua algoritma, yaitu algoritma regresi logistik dan multilayer perceptron. Indikator yang digunakan pada penelitian ini adalah kebiasaan dari pengguna dan korelasi dengan data pelanggan yang lain. Hasil dari penelitian ini menunjukkan tingkat akurasi 87.52% dengan metode regresi logistik dan 94.19% dengan multilayer perceptron.
Penelitian lainnya, (Maria Spiteri, 2018) yang berjudul “Customer Churn Prediction for a Motor Insurance Company” melakukan penelitian pada perusahaan asuransi kendaraan bermotor untuk memprediksi customer churn dengan menggunakan algoritma random forest. Peneliti ini terlebih dulu melakukan analisis perbandingan dari beberapa algoritma yang sering digunakan dalam prediksi, dan dengan data perusahaan asuransi yang dimiliki maka random forest algorithm adalah yang paling sesuai dengan memberikan hasil persentase akurasi sebesar 91.18%.
Dan penelitian yang dilakukan oleh (Xin Hu, 2020) dengan judul penelitian
“Research Hybrid Prediction Model for Purchase Behavior Based on Logistic Regression and Support Vector Machine”. Dimana pada penelitian ini mendapat kesimpulan bahwa menggunakan lebih dari satu algoritma ini akan meningkatkan akurasi dibandingkan dengan hanya menggunakan satu algoritma saja. Tetapi meskipun begitu, masih terdapat ketidakpastian dikarenakan banyaknya people actual experiences yang ada di masyarakat.
Tabel 2.1. Penelitian Terdahulu
No Nama
Peneliti Judul Penelitian Metode Keterangan 1 Meyrina Prediksi Customer Algoritma Fuzzy Penelitian ini berfokus
Herawati, Churn Iterative pada bidang
Inu L. menggunakan Dichotomiser 3 telekomunikasi dengan
Wibowo, Algoritma Fuzzy menerapkan metode
dan Imam Iterative fuzzy decision tree
Mukhlash, Dichotomiser 3 menggunakan algorima
(2016) ID3 dan hasil akurasi
dari penelitian ini berdasarkan beberapa variabel dari data yang ada sebesar 87%.
2 Qiu Yanfang Research on Logistic Regression Merupakan prediksi
(2017) E-commerce pengguna e-commerce
User Churn yang akan melakukan
Prediction churn dengan algoritma
Based on regresi logistik.
Logistic Penelitian ini
Regression menggunakan software
SPSS untuk analisisnya.
Dan setelah dilakukan percobaan, hasil akurasi dari prediksi yaitu 93.6%.
3 Shrisha Customer Logistic Regression Pada penelitian ini Bharadwaj Churn and Multilayer menggunakan kebiasaan (2018) Prediction in Perceptron (MLP) dari pengguna dan
Mobile korelasi dengan data
Networks pelanggan yang lain.
using Hasil dari penelitian ini
Logistic menunjukkan tingkat
Regression akurasi 87.52% dengan
and metode regresi logistik
Multilayer dan 94.19% dengan
Perceptron multilayer perceptron.
(MLP)
4 Maria Spiteri Customer Churn Random Forest Penelitian ini lebih dulu (2018) Prediction for a Algorithm melakukan analisis
Motor Insurance perbandingan dari
Company. beberapa algoritma dan
dengan data perusahaan asuransi yang dimiliki maka random forest algorithm adalah yang paling sesuai karena memberikan hasik dengan akurasi 91.18%.
5 Xin Hu Research on a Logistic Regression Hasil dari penelitian ini (2020) Hybrid Prediction dan SVM menunjukkan bahwa
Model for Purchase menggunakan lebih dari Behavior Based on satu algoritma dapat Logistic Regression meningkatkan akurasi.
and Support Vector Machine
BAB 3
ANALISIS DAN PERANCANGAN PADA SISTEM
3.1. Arsitektur Umum
Tahapan yang ada menggunakan tahap-tahap, yaitu : data yang dikumpulkan pada awal tahapan. Kemudian, dilakukan tahap preprocessing dengan sistem, lalu dilakukan split data atau pembagian data menjadi data training, data ini akan digunakan untuk membentuk model regresi logistik, dan data testing yang akan digunakan dalam pengujian prediksi dengan model yang sudah ada.
Gambar 3.1. Arsitektur Umum Collecting
Data
Process of Prediction using Model of Logistic Regression Split Data
Output
Visualisasi hasil prediksi Pelanggan yang
akan churn
Predicting Method of Learning
Logistic Regression Modelling
Data Testing Data Training
Data Preprocessing
Data Cleaning Data Selection
3.2. Data
Data yang dikumpulkan pada penelitian ini yaitu data e-metrics pada aplikasi OttoCash khususnya di daerah Kota Medan, Sumatera Utara. E-metrics memungkinkan data yang diperoleh harus valid. Data yang digunakan yaitu terdiri dari data pengguna mulai dari tahun 2017 dan data transaksi Kota Medan pada tahun 2019 periode bulan januari hingga bulan juni. Pada data transaksi terdiri dari transaksi pembelian. Berikut adalah data yang digunakan pada penelitian ini, pada gambar 3.2(a). dan 3.2(b).
Gambar 3.2. Data Pengguna
Gambar 3.3. Data Transaksi
3.3. Preprocessing
Preprocessing terdiri dari tahapan proses cleaning dan filtering data awal atau data mentah yang diperoleh sehingga dapat memperoleh data yang lebih baik dan akurat untuk melakukan proses.
3.3.1. Data Selection
Proses ini merupakan tahapan untuk menyederhanakan data yaitu dengan memilih variabel-variabel yang akan mendukung proses pembentukan model. Pada regresi logistik variabel dependen (Y) merupakan variabel dengan dua kategori (dikotom) yaitu bernilai 1 dan 0 atau dalam penelitian ini churn dan no-churn. Sedangkan variabel independen pada penelitian ini, yaitu nama_nasabah, jenis_transaksi, nama_merchant, jenis_merchant, nilai_transaksi, month, jam_sistem. Tabel 3.1. berikut adalah variabel- variabel inputan pada proses data selection. Dan pada gambar
3.3. merupakan nama-nama merchant yang digunakan pada penelitian ini, yaitu yang termasuk kategori makanan dan minuman beserta jumlah nilai transaksinya.
Tabel 3.1. Variabel Inputan
Variabel Input
X1 nama_nasabah
X2 jenis_transaksi
X3 nilai_transaksi
X4 nama_merchant
X5 jenis_merchant
X6 month
X7 jam_sistem
Gambar 3.3. Grafik Nama Merchant dan Nilai Transaksi
3.3.2. Data Cleaning
Tahap data cleaning merupakan tahap pembersihan pada data yang tidak dibutuhkan atau tidak mendukung. Pengecekan dilakukan pada data yang telah diseleksi sebelumnya.
Apabila terdapat data bernilai kosong atau null dari tiap kolom yang sudah dipilih maka akan secara otomatis dihapus pada sistem dengan menggunakan fungsi dari pandas yaitu dropna(). Namun, pada penelitian ini, setelah dilakukan pemeriksaan pada data ternyata tidak ada perubahan data setelah diseleksi dan di lakukan cleaning. Oleh karena itu, data akhir yang akan digunakan setelah pemeriksaan data dapat dilihat pada gambar 3.4. berikut.
Gambar 3.4.(a) Data sebelum di cleaning
Gambar 3.4.(b) Data Akhir
3.3.3. Split Data
Proses ini merupakan pembagian data yang dilakukan kedalam dua bagian yaitu untuk data training (data latih) dan data testing (data uji). Dimana pada penelitian ini terdapat beberapa pembagian yang dibuat bertujuan untuk mencari rasio atau pembagian data yang lebih sesuai dengan model. Beberapa komposisi untuk pembagian data yang dilakukan menjadi training dan testing yaitu 55%:45%, 65%:35%, 80%:20%, dan 90%:10%. Hal ini dilakukan untuk mengetahui perbandingan yang lebih sesuai dengan model.
3.3.4. Logistic Regression Modelling
Pembentukan model pada regresi logistik memiliki beberapa tahap yang harus dilakukan, yaitu diawali dengan membuat hipotesis dengan mencari peluang menggunakan persamaan peluang pada regresi logistik pada bab 2, kemudian dilanjutkan dengan penerapan sigmoid function untuk memberikan kurva “S” yaitu untuk memetakan data, jika kurva menuju tak hingga positif maka y diprediksi = 1, sedangkan jika kurva menuju tak hingga negatif maka y diprediksi akan menjadi 0. Kemudian melakukan analisis hipotesis yaitu untuk menyimpulkan bahwa nilai prediksi pada target dapat menjadi nilai aktual.
Secara matematis, dapat ditulis seperti berikut : 1. Penentuan Peluang
Yang menjadi input (X) adalah jumlah bulan, dengan ambang batas Xmax = 6 dan Xmin= 3, dimana apabila pelanggan atau nasabah melakukan transaksi rutin minimal 3 bulan maka pelanggan atau nasabah tersebut dinyatakan no-churn. Analisis yang dilakukan dengan periode per triwulan. Kemudian setelah mendaptkan nilai target dengan parameter jumlah bulan, maka digunakan parameter lain yaitu nilai transaksi. Dimana secara otomatis sistem dengan algoritma regresi logistik akan membuat perbandingan dengan minimal jumlah nilai tranksaksi yaitu Rp100.000.
Diawali dengan nilai input :
X = 1, kemudian menggunakan rumus yang terdapat pada bab 2, yaitu : 𝑦 = 𝑒(𝖰0+𝖰1*𝑋). Dimana nilai dari 𝖰0 = 1.25 dan 𝛽1 = 0.283.
y = e^(-1.25 + 0.2083*1) y = e^(-1.25 + 0.2083) y = e^(-1.0417)
y = 0.35
X = 2,
y = e^(-1.25 + 0.2083*2) y = e^(-1.25 + 0.4166) y = e^(-0.8334)
y = 0.43
X = 3,
y = e^(-1.25 + 0.2083*3) y = e^(-1.25 + 0.6249) y = e^(-0.6251)
y = 0.53
⁝
X = 6,
y = e^(-1.25 + 0.2083*6) y = e^(-1.25 + 1.2498) y = e^(-0.0002)
y = 0.99
Kemudian untuk mengetahui rasio dari peluang pelanggan yang akan churn, digunakan persamaan berikut :
Odds = 𝑃(𝑦=1)
1− 𝑃(𝑦=1) ... 3.1
Keterangan :
P(y=1) : Peluang sukses yang diperoleh sebelumnya dari nilai input (X)
Perhitungannya adalah sebagai berikut :
X=1 ; P(y = 0.35) Maka :
Odds = 0.35
1− 0.35
Odds = 0.35
0.65
Odds = 0.538 (Hal ini menunjukkan bahwa pelanggan yang no-churn hanya 0.538 kali lebih mungkin dibandingkan dengan churn).
X=2; P(y = 0.43) Odds = 0.43
1− 0.43
Odds = 0.43
0.57
Odds = 0.754
X=3; P(y = 0.53) Odds = 0.53
1− 0.53
Odds = 0.53
0.47
Odds = 1.127
⁝
X=6; P(y = 0.99) Odds = 0.99
1− 0.99
Odds = 0.99
0.01
Odds = 99 (Dengan nilai input X = 6 menunjukkan bahwa peluang pelanggan tidak akan churn adalah 99 kali lebih mungkin).
2. Sigmoid Function
Selanjutnya memetakan data dengan fungsi sigmoid dan dengan persamaan yang telah dijelaskan pada bab sebelumnya :
1 𝑆(𝗑) =
(1 + 𝑒−𝗑) Perhitungannya adalah sebagai berikut :
X = 1, S(1) = 1
(1+𝑒−1)
S(1) = 1
(1+0.36)
S(1) = 0.73
X = 2, S(2) = 0.88
X = 3, S(3) = 0.95
X = 4, S(4) = 0.98
X = 5, S(5) = 0.994
X = 6, S(6) = 0.997
Pada regresi logistik biner bertujuan untuk mencari pola hubungan antara variabel X dengan Y. Maka, nilai Y merupakan probabilitas kejadian yang disebabkan oleh kejadian dari variabel X sehingga hasil fungsi logistik kemungkinan bernilai 1 atau 0.
Maka, berdasarkan perhitungan menggunakan algoritma regresi logistik ini diperoleh tabel target oleh sistem. Nasabah akan dikelompokkan dengan nilai target yaitu 1 dan 0 berdasarkan hasil perhitungan pada sigmod function. Berikut adalah grafik dari fungsi sigmoid function, grafik ini memvisualisasikan hasil dari perhitungan dari sigmoid function yang merupakan kurva pengkategorian pada fungsi regresi logistik.dapat dilihat pada gambar 3.5.
Gambar 3.5 Grafik Nilai Target dan Nilai Transaksi
3.4. Process of Prediction
Setelah model regresi logistik didapatkan, maka dilanjutkan dengan proses prediksi pada data testing dengan model yang telah dibuat. Berikut perhitungan untuk proses prediksi pada model.
3.4.1. Analisis terhadap Prediksi pada nilai target
Pada tahap ini menentukan kebenaran dari hipotesis menggunakan persamaan pada regresi logistik, yaitu : 𝑦 = 𝑒(𝛽0+𝛽1*x)
1+ 𝑒(𝛽0+𝛽1*x) . Perhitungannya adalah sebagai berikut :
(nilai dari 𝑒(𝛽0+𝛽1*X) diperoleh dari nilai pada poin 1 yaitu pada tahap penentuan peluang).
X = 1 y = 𝑒(𝛽0+𝛽1*x)
1+ 𝑒(𝛽0+𝛽1*x)
y = 𝑒(−1.25 + 0.2083*1) 1+ 𝑒(−1.25 + 0.2083*1)
y = 0.35
1+0.35
y = 0.259
X = 2 ; y = 0.3
X = 3 ; y = 0.34 .
. .
X = 6 ; y = 0.497
Oleh karena itu, maka dapat ditentukan pembagian kelas biner berdasarkan pada ketentuan berikut :
y = 0 (churn), jika p(x) < 0.3 y = 1 (no-churn), jika p(x) > 0.3
Kemudian untuk proses pada sistem adalah sebagai berikut :
df_testing_master['churn'] = np.where(
(df_testing_master[['result']] == '1'), 'No',
'Yes')
Karena keluaran yang dihasilkan berupa array dengan nilai 0 dan 1, maka diberikan ketentuan apabila bernilai 1 maka no churn, sedangkan apabila bernilai 0 maka churn.
3.5. Perancangan Sistem Antarmuka
Pembentukan sistem interface adalah gambaran umum pada aktualisasi aplikasi yang akan dibuat. Pada penelitian ini, sistem antar muka akan berbasis one-page web.
Dimana tampilan web tersebut berisi satu halaman dengan berbagai informasi didalamnya.
3.5.1. Rancangan Halaman Home
Pada tampilan awal yaitu halaman yang pertama muncul saat sistem diakses atau disebut juga halaman beranda. Tampilan pada halaman home terdiri dari informasi judul penelitian pada bagian atas, kemudian logo instansi pada bagian bawah judul penelitian, lalu diikuti dengan identitas penulis seperti nama, nim (nomor induk mahasiswa) serta nama institusi. Dan terdapat button Pilih File, untuk mengakses data yang akan di proses. Kemudian terdapat tombol fungsi untuk menghubung ke halaman lain yaitu tombol button proses. Gambaran dari halaman home terdapat pada gambar 3.6.
Gambar 3.6 Halaman Home Prediksi Pelanggan Churn pada Merchant
Menggunakan Algoritma Regrei Logistik
CHATARINA S FRANSISKA SAMOSIR 171402066
Proses http://127.0.0.1:8000/home
Tidak ada File yang dipilih Pilih File
LOGO
3.5.2. Halaman Proses
Halaman proses berisi beberapa tabel informasi dan juga grafik yang ditampilkan.
Data ditampilkan terdiri atas tabel Data Pengguna (Kota Medan), tabel Jenis Merchant, tabel Jenis Transaksi per Bulan, tabel Jumlah Transaksi per Waktu, tabel Data Training (Nasabah), tabel Data Testing (Nasabah), tabel Data Churn (Nasabah), Grafik data testing, Confusion matrix table.
Gambar 3.7 Halaman Proses (Data Pengguna)
Gambar 3.8. Halaman Proses (Jenis Merchant & Jumlah Transaksi) Nama Nasabah
Data Pengguna (Kota Medan) Nama nasabah yang belum pernah melakukan transaksi Data Pengguna (Kota Medan)
Nama nasabah yang telah melakukan transaksi
Gambar 3.9 Halaman Proses (Data Training dan Testing)
Gambar 3.10 Halaman Proses (Data Churn dan Grafik)
BAB 4
IMPLEMENTASI DAN PENGUJIAN SISTEM
4.1. Implementasi Sistem
4.1.1. Spesifikasi perangkat keras dan perangkat lunak
Untuk membangun sistem diperlukan spesifikasi perangkat keras seperti berikut : 1. Processor Intel core i5 10th gen CPU @ 1.60 GHz (8 CPUs), ~2.1GHz 2. RAM 8 GB.
3. HDD 1 TB
Spesifikasi perangkat lunak yang mendukung pembuatan tampilan sistem adalah seperti : 1. Sistem Operasi Windows 10 64-bit
2. Bahasa pemrograman Python versi 3.9, dengan tambahan library numpy 1.21.0, pandas 1.3.0, matplotlib versi 3.4.2, Sublime Text Editor 3
3. Django Framework
4.1.2. Implementasi rancangan antarmuka
Sesuai dengan yang sudah dirancang di bab 3. Maka perlu melakukan implememtasi ke dalam sistem, yaitu sebagai berikut :
1. Halaman Home
Halaman awal pada aplikasi antarmuka sesuai dengan rancangan pada bab sebelumnya yaitu tampilan yang terdiri dari informasi dari peneliti dan terdapat tombol untuk mengakses data dan tombol untuk mengarahkan proses selanjutnya yaitu ke halaman proses. Tampilan antarmuka Home terdapat ada di gambar 4.1.
Gambar 4.1. Tampilan Home
2. Tampilan Proses
Pada tampilan halaman proses menampilkan informasi dari data yang sudah proses pada sistem seperti yang dijelaskan pada bab 3, yaitu Data Pengguna (Kota Medan), tabel Jenis Merchant, tabel Jenis Transaksi per Bulan, tabel Jumlah Transaksi per Waktu, tabel Data Training (Nasabah), tabel Data Testing (Nasabah), tabel Data Churn (Nasabah), Grafik data testing, Confusion matrix table. Tampilan ada pada gambar 4.2.
Gambar 4.2. Tampilan Halaman Proses (Data Pengguna)
Di bagian tampilan halaman proses, maka yang pertama muncul yaitu data berupa tabel pengguna Kota Medan yang terdiri dari dua bagian, yaitu nama nasabah yang telah melakukan transaksi dan nasabah yang belum pernah melakukan transaksi.
Gambar 4.3. Tampilan Halaman Proses (Jenis Merchant)
Selanjutnya, dibawah tabel data pengguna, ada tabel jenis merchant dimana dua kategori jenis merchant tersebut adalah makanan dan minuman beserta dengan informasi jumlah transaksi yang terdapat pada tiap jenis merchant. Lalu, bisa dilihat pula chart dari jenis merchant tersebut dan jumlah transaksinya dari masing-masing jenis merchant ada di gambar 4.3(a).
Gambar 4.3(a). Chart dari Jenis Merchant
Kemudian, saat dibawah chart tersebut, terdapat tabel yang berisi nama-nama merchant makanan dan minuman dan jumlah transaksi yang ada dari tiap merchant.
Tampilannya ada pada gambar 4.3(b).
Gambar 4.3(b). Tampilan detail dari Transaksi per Bulan
Lalu, informasi berikutnya yaitu data dari jenis transaksi per bulan. Pada tampilan ini akan berisi tentang data mengenai jumlah transaksi perbulan.Tampilan ada pada gambar 4.4.
Pada tampilan ini juga terdapat chart dari jenis transaksi per bulan. Pada barchart ini dapat dilihat jumlah transaksi tiap bulan dari kategori merchant jenis makanan dan minuman. Dapat diketahui bahwa jumlah transaksi terbanyak pada bulan maret untuk jenis makanan dan bulan februari untuk jenis minuman. Berikut tampilan dari chart ada pada gambar 4.4(a).
Gambar 4.4(a). Tampilan bar chart Jenis Transaksi per Bulan
Tampilan berikutnya yaitu jumlah transaksi per waktu berdasarkan pada tiga pembagian waktu, dimulai dari pukul 07:00-11:59 wib, 12:00-16:59 wib, dan 17:00-22.30 wib. Dimana tampilan ini menunjukkan berapa jumlah transaksi pada tiap waktu tersebut. Tampilan ada yang dibuat berbentuk tabel dan dapat dilihat pada gambar 4.5.
Gambar 4.5. Tampilan Jumlah Transaksi per Waktu
Pada tampilan ini juga terdapat fitur “Lihat Chart”, yaitu untuk melihat chart dari banyaknya jumlah transaksi per waktu dengan kategori jenis merchant makanan dan minuman. Dapat diketahui bahwa jumlah transaksi terbanyak terdapat pada pukul 12:00 – 16.59 wib. Chart tersebut dapat dilihat pada gambar 4.5(a) berikut.
Gambar 4.5.(a) Tampilan chart Jumlah Transaksi per Waktu
Lalu, terdapat informasi terkait data latih (training) dan data uji (testing) yang ditampilkan dalam bentuk tabel. Pada sistem menerapkan data testing yang dipakai adalah 65% dan secara random yaitu dengan random_state= 33, ini berarti data di testing dengan random (acak) dengan jarak antara data yang pertama dengan data berikutnya yang di testing adalah 33. Tampilan ada pada gambar 4.6.
Gambar 4.6. Tampilan Data Training dan Data Testing
Pada tampilan berikutnya yakni tampilan dari hasil prediksi terhadap target churn atau tabel hasil dari nasabah atau pelanggan yang churn dan tidak churn. Terdapat juga informasi total nilai transaksi (dalam Rp) yang dilakukan oleh nasabah beserta jumlah transaksi yang dilakukannya. Tampilan dapat dilihat pada gambar 4.7.
Gambar 4.7. Tampilan Data Churn (Nasabah)
Kemudian terdapat juga tampilan chart dari data churn, dimana pada bar chart ini dapat diketahui berapa banyak nasabah yang diprediksi akan melakukan churn dan tidak churn.
Gambar 4.7(a). Tampilan Chart Data Churn
Selanjutnya terdapat tampilan yang menampilkan grafik dari data testing. Terdapat kurva berbentuk “S” yang diperoleh dari perhitungan fungsi logit atau persamaan pada regresi logistik yaitu pada persamaan 2.2 y = e(𝛽0+𝛽1*x)
1+ e(𝛽0+𝛽1*x) . Tampilannya dapat dilihat pada gambar 4.8. berikut.
Gambar 4.8. Tampilan Grafik Data Testing
Kemudian, untuk mengetahui bagaimana tolak ukur dari algoritma regresi logistik tersebut maka melakukan proses evaluasi yang tampilannya terdapat pada halaman proses juga. Evaluasi yang ditampilkan dalam tabel dan gambar, hal ini dilakukan agar memudahkan dalam melihat evaluasi. Tampilan tersebut dapat dilihat pada gambar 4.9.
Gambar 4.9. Tampillan hasil evaluasi (tabel)
Berikut adalah tampilan hasil evaluasi dari prediksi yang di visualisasikan menggunakan heatmap. Tampilan dapat dilihat pada gambar 4.9.(a) berikut ini.
Gambar 4.9.(a) Tampilan Heatmap Confusion Matrix
4.2. Hasil Pengujian Sistem
Setelah melakukan pelatihan pada model kemudian akan melakukan pengujian performa dengan data uji. Dimana data tersebut belum melewati tahapan proses di sistem sebelumnya, yang kemudian akan diuji sesuai dengan model dari data latih. Hasil dari analisis ini bertujuan untuk mengetahui bagaimana perbandingan antara data testing dan data training berpengaruh pada hasil terbaik. Apakah dengan semakin besarnya rasio semakin mendapatkan hasil dan akurasi terbaik atau malah sebaliknya. Berikut adalah hasil analisis dari tiap komposisi pembagian data.
Pembagian data 55%:45%
Berdasarkan pembagian data ini maka diperoleh jumlah data training yaitu 285 dan data testing 349. Dan hasil dari prediksi menyatakan bahwa 349 nasabah tidak ada yang melakukan churn dengan tingkat akurasi 83%. Namun, hasil dari perbandingan ini kurang baik karena tidak mungkin tidak ada nasabah yang churn.
Hasil dari perbandingan data ini dapat dilihat pada gambar 4.10. berikut.
Gambar 4.10(a). Tampilan grafik churn (55%:45%)
Gambar 4.10(b). Tampilan Confusion Matrix (55%:45%)
Tabel 4.1. Evaluasi Model Prediksi (Pembagian data 55%:45%)
No. Prediksi Churn Jumlah
1. TP (True Positive) 0 2. FP (False Positive) 59 3. TN (True Negative) 290 4. FN (False Negative) 0
Total 349
Berdasarkan pada nilai yang terdapat pada tabel 4.1, maka dapat dihitung nilai dari Recall, Precision, F1-score, serta Accuracy. Dengan menggunakan persamaan 2.4 sebagai berikut:
Kalkulasi Recall :
Kalkulasi Precision :
Recall = TP
𝑇𝑃+𝐹𝑁 = 0 = 0
0+0 0 = indeterminate
Kalkulasi F1-score :
Precision = TP
𝑇𝑃+𝐹𝑃
= 0 = 0 = 0
0+59 59
Kalkulasi Accuracy :
F1-score = 2(Recall ×Precision)
𝑅𝑒𝑐𝑎𝑙𝑙 +𝑃𝑟𝑒𝑐i𝑠i𝑜𝑛 = 2(interdeminate × 0)
= 0
i𝑛𝑑𝑒𝑡𝑒𝑟𝑚i𝑛𝑎𝑡𝑒 +0
Accuracy = TP+TN
𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 = 0 + 290
0+59+290+0 = 290 = 0.83 × 100% = 83%
349
Pembagian data 65%:35%
Berdasarkan pembagian data ini maka diperoleh jumlah data training yaitu 221 dan data testing 413. Perbandingan dengan data testing lebih besar 65% daripada data training memperoleh hasil yang cukup baik, dimana dari hasil pembagian data ini, prediksi menyatakan bahwa 61 nasabah tidak melakukan churn dan 352 nasabah melakukan churn dengan akurasi sebesar 84,5%. Dapat dilihat pada gambar 4.11.
berikut.
Gambar 4.11. Tampilan grafik churn (65%:35%)
Pembagian data 80%:20%
Berdasarkan pembagian data ini maka diperoleh jumlah data training yaitu 126 dan data testing 508. Perbandingan dengan rasio ini tidak lebih baik, hal ini dikarenakan hasil dari prediksi menyatakan bahwa 508 nasabah tidak melakukan churn sementara tidak mungkin tidak ada nasabah yang churn, terlebih lagi jika dilihat dari riwayat pada data transaski yang ada. Tingkat akurasi yang diperoleh sebesar 80,1%. Dapat dilihat pada gambar 4.12(a). berikut.
Gambar 4.12(a). Tampilan grafik churn (80%:20%)
Gambar 4.12(b). Tampilan Confusion Matrix (80%:20%)
Tabel 4.2. Evaluasi Model Prediksi (Pembagian data 80%:20%)
No. Prediksi Churn Jumlah
1. TP (True Positive) 0 2. FP (False Positive) 101 3. TN (True Negative) 407 4. FN (False Negative) 0
Total 349
Berdasarkan pada nilai yang terdapat pada tabel 4.1, maka dapat dihitung nilai dari Recall, Precision, F1-score, serta Accuracy. Dengan menggunakan persamaan 2.4 sebagai berikut:
Kalkulasi Recall :
Kalkulasi Precision :
Recall = TP
𝑇𝑃+𝐹𝑁 = 0 = 0
0+0 0 = indeterminate
Kalkulasi F1-score :
Precision = TP
𝑇𝑃+𝐹𝑃 = 0
0+101 = 0 = 0
101
Kalkulasi Accuracy :
F1-score = 2(Recall ×Precision)
𝑅𝑒𝑐𝑎𝑙𝑙 +𝑃𝑟𝑒𝑐i𝑠i𝑜𝑛 = 2(interdeminate × 0)
= 0
i𝑛𝑑𝑒𝑡𝑒𝑟𝑚i𝑛𝑎𝑡𝑒 +0
Accuracy = TP+TN
𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 = 0 + 407
0+101+407+0 = 407 = 0.801 × 100% = 80.1%
508
Pembagian data 90%:10%
Berdasarkan pembagian data ini maka diperoleh jumlah data training yaitu 63 dan data testing 571. Hasil dari prediksi kurang baik, karena sistem hanya mempelajari 63 data nasabah saja. Jadi, saat ada 571 data yang di uji, maka sistem belum memiliki pola yang cukup baik, sehingga hasilnya menyatakan bahwa 571 nasabah tidak melakukan churn sementara jika dilihat pada data transaksi lebih dari 63 nasabah yang churn. dengan akurasi sebesar 79,3%. Dapat dilihat pada gambar 4.13(a). berikut.
Gambar 4.13(a). Tampilan grafik churn (90%:10%)
Tabel 4.3. Evaluasi Model Prediksi (Pembagian data 90%:10%)
No. Prediksi Churn Jumlah
1. TP (True Positive) 0 2. FP (False Positive) 118 3. TN (True Negative) 453 4. FN (False Negative) 0
Total 571
Berdasarkan pada nilai yang terdapat pada tabel 4.1, maka dapat dihitung nilai dari Recall, Precision, F1-score, serta Accuracy. Dengan menggunakan persamaan 2.4 sebagai berikut:
Kalkulasi Recall :
Kalkulasi Precision :
Recall = TP
𝑇𝑃+𝐹𝑁 = 0 = 0
0+0 0 = indeterminate
Kalkulasi F1-score :
Precision = TP
𝑇𝑃+𝐹𝑃 = 0
0+118 = 0 = 0
118
Kalkulasi Accuracy :
F1-score = 2(Recall ×Precision)
𝑅𝑒𝑐𝑎𝑙𝑙 +𝑃𝑟𝑒𝑐i𝑠i𝑜𝑛 = 2(interdeminate × 0)
= 0
i𝑛𝑑𝑒𝑡𝑒𝑟𝑚i𝑛𝑎𝑡𝑒 +0
Accuracy = TP+TN
𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 = 0 + 453
0+118+453+0
= 453 = 0.793 × 100% = 79.3%
571
Berdasarkan hasil analisis pada beberapa pembagian data antara data testing dan data training maka diperoleh persentase terbaik dalam penelitian ini yaitu 65%:35%
dengan tingkat akurasi tertinggi yaitu 84,5%. Dimana hanya pada perbandingan ini diperoleh bahwa nasabah yang churn sebanyak 352 dan yang tidak churn sebanyak 61 nasabah.