12
PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH
PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA
C4.5
Annisak Izzaty Jamhur
Universitas Putera Indonesia YPTK Padange-mail: [email protected]
Abstract
Penelitian ini dilakukan untuk menganalisa jumlah pelanggan aktif di PT. Multi Daya Prima, dengan menggunakan teknik Data Mining. Algoritma C4.5 merupakan teknik Data Mining yang dapat digunakan untuk menganalisa jumlah pelanggan aktif dengan mengolah variabel PO Pertahun, Diskon, Jumlah Barang, Total Pembelian. Variabel tersebut diklasifikasikan untuk selanjutnya dilakukan pengolahan data. Hasil dari pengolahan Algoritma C4.5 ini akan membentuk pohon keputusan (decision tree). Pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan (rule). Hasil yang dicapai adalah aturan-aturan yang dapat digunakan untuk menggambarkan proses yang terkait dengan pelanggan aktif. Karakteristik data yang diklasifikasi dapat diperoleh dengan jelas, baik dalam bentuk struktur pohon keputusan maupun aturan sehingga dalam tahap pengujian dapat membantu dalam menganalisa jumlah pelanggan aktif.
Kata Kunci :Data Mining, Algoritma C4.5, Pohon Keputusan, Pelanggan Aktif
1.
PENDAHULUAN
Latar Belakang Masalah
Ketatnya persaingan antara perusahaan dalam era ekonomi global seperti sekarang ini, menuntut perusahaan untuk selalu menjadi yang terdepan dan terbaik dalam memberikan pelayanan yang dapat memuaskan konsumen. Kepuasan pelanggan merupakan suatu penilaian bahwa produk atau jasa telah memenuhi kriteria kebutuhan dan harapan pelanggan. Kegagalan untuk memenuhi kebutuhan dan harapan pelanggan dapat menghasilkan ketidakpuasan pelanggan terhadap produk atau jasa.
Kepuasan pelanggan adalah perasaan senang atau kecewa seorang yang merupakan hasil dari perbandingan dari persepsi kinerja produk dan harapannya. Kesetiaan pelanggan terhadap suatu perusahaan sangat perlu dipertahankan dan ditingkatkan. Ini berarti, kepuasan pelanggan merupakan awal dari terciptanya kepercayaan pelanggan tersebut terhadap perusahaan. Selain itu, untuk meningkatkan kepuasan, perusahaan harus menambah nilai yang dapat membuat para pelanggannya mendapatkan apa yang mereka bayar atau lebih dari yang mereka harapkan, sehingga mereka dapat bertahan dan mengarah pada pembelian ulang, perekomendasian, dan perekomendasian yang meningkat.
Hal ini sangat diperlukan, karena dengan mengetahui tingkat kepuasan pelanggan, secara otomatis pelanggan tersebut akan menjadi pelanggansetia diperusahaan dan menjadi pelanggan aktif yang berbelanja di perusahaan. Dengan mengetahui pelanggan aktif, perusahaan dapat mengetahui pendapatan tetap setiap periodenya. Untuk itu perlu adanya pengolahan data tentangpelanggan aktif, sehingga diketahui jumlah pelanggan aktif setiap periode tertentu. Jika jumlah pelanggan aktif bertambah maka diperlukan strategi untuk mempertahankan dan meningkatkan jumlahnya. Jika jumlah pelanggan aktif menurun, maka diperlukan strategi lain untuk meningkatkan jumlahnya.
13
2. LANDASAN TEORI
Knowledge Discovery in Database (
KDD
)
Knowledge Discovery in Database (KDD) didefinisikan sebagai ekstraksi informasi potensial, implicit dan tidak dikenal dari sekumpulan data. Proses Knowledge Discovery in Database
melibatkan hasil proses Data Mining (proses pengekstrak kecenderungan suatu pola data), kemudian mengubah hasilnya secara akurat menjadi informasi yang mudah dipahami (Sri Andayani, 2010).
Perusahaan memerlukan kecerdasan bisnis untuk mengembangkan proses bisnis, memonitor waktu, biaya kualitas, dan pengendalian. Kecerdasan bisnis merupakan proses pengubahan data menjadi informasi. Dari kumpulan informasi yang ada akan diambil polanya menjadi pengetahuan. Tujuan kecerdasan bisnis adalah untuk mengubah data yang sangat banyak menjadi nilai bisnis melalui laporan analistik (Kusrini dan Emha Taufiq Luthfi, 2009).
Data Mining
Data Mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis yang menentukan keteraturan, pola, dan hubungan dalam set data berukuran besar (Selvia Lorena,2014). Definisi lain Data Mining adalah proses yang memperkerjakan satu atau lebih teknik pembelajaran komputer untuk menganalisis dan mengekstrak pengetahuan secara otomatis atau serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual (Alimancon Sijabat, 2015).
Klasifikasi
Teknik klasifikasi adalah pendekatan sistematis untuk membangun model klasifikasi dari kumpulan data masukan. Misalnya, teknik pohon keputusan, Bayesian (Naive Bayesian dan Bayesian Belief Networks), Jaringan Saraf Tiruan (Backpropagation), teknik yang berbasis konsep dari penambangan aturan-aturan asosiasi, dan teknik lain (K-Nearest Neighboor, algoritma genetik, teknik dengan pendekatan himpunan rough dan fuzzy). Klasifikasi merupakan teknik mengklasifikasikan data. Perbedaannya dengan metode clustering terletak pada data, dimana pada
clustering variable dependen tidak ada, sedangkan pada classification diharuskan ada variable dependen (David Hartato Kamagi, 2014).
Setiap teknik juga memiliki kelebihan dan kekurangannya sendiri. Data dengan profil tertentu mungkin paling optimal jika diklasifikasi dengan teknik tertentu, atau dengan kata lain, profil data tertentu dapat mendukung termanfaatkannya kelebihan dari teknik ini.
Gambar 2.1 Pengelompokkan Teknik Klasifikasi
Algoritma C4.5
Algoritma C4.5 merupakan pengembangan dari algoritma ID3. Algoritma C4.5 dan ID3 diciptakan oleh seorang peneliti dibidang kecerdasan buatan bernama J. Rose Quinlan pada akhirtahun
1970-14
an. Algoritma C4.5 membuat pohon keputusan dari atas kebawah, dimana atribute paling atas merupakan akar, dan yang paling bawah dinamakan daun. Beberapa pengembangan yang dilakukan pada C.45 antaralain bisa mengatasi missing value, bias mengatasi continu data, dan
pruning (Fadillah, 2013).
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut. ( Kusrini & Luthfi, 2009 )
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti yang tertera dalam persamaan berikut.
Di mana :
S : himpunan kasus
A : atribut
N : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S
Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan 2 berikut.
Di mana :
S : himpunan kasus
A : fitur
N : jumlah partisi S
pi : proporsi dari Si terhadap S
1. Metodologi Penelitian
Metodologi penelitian diperlukan sebagai kerangka dan panduan dalam melakukan proses penelitian, sehingga penelitian yang dilakukan menjadi lebih terarah, teratur, dan sistematis.
15
3.
ANALISA DAN PERANCANGAN SISTEM
Analisa Teknik Pengolahan Data Menggunakan Algoritma C4.5
Data yang akan diolah mempunyai beberapa kriteria yang merupakan syarat dalam pengolahan
Data Mining dengan menggunakan teknik algoritma C4.5. Dimulai dengan perhitungan Entropy
dan Gain untuk menentukan akar (root) dari pohon keputusan, sampai terbentuk pohon keputusan menganalisa jumlah pelanggan aktif.
Pemilihan Variabel
Adapun format data dari keputusan untuk menganalisa jumlah pelanggan aktif adalah sebagai berikut :
a. Jumlah Beli b. Jumlah Bayar c. Pembelian PerTahun d. Diskon
Variabel yang akan menjadi keputusan adalah AKTIF dan TIDAK AKTIF.
Melakuakan Pra-Proses
Berdasarkan variabel-variabel yang sudah terpilih, format data menjadi seperti tampak pada tabel di bawah ini :
1.
Mengelompokkan Jumlah Beli, pengelompokan jumlah beli berdasarkan banyak pelanggan tersebut melakukan pembelian, sehingga jumlah beli dapat dikelompokkan seperti terlihat pada tabel dibawah ini.Tabel 2.1 Klasifikasi Jumlah Beli
2.
Mengelompokkan Jumlah Bayar, pengelompokan jumlah bayar berdasarkan pembayaran yang dilakukan, sehingga jumlah bayar dapat dikelompokkan seperti terlihat pada tabel 2.2 dibawah ini.Tabel 2.2 Klasifikasi Jumlah Bayar
Jumlah Beli Klasifikasi >100 Banyak >50-100 Sedang 0-50 Sedikit
16
3.
Mengelompokkan Pembelian PerTahun, pengelompokan pembelian pertahun berdasarkan jumlah pembelian yang dilakukan dalam satu tahun, sehingga pembelian pertahun dapat dilihat pada table 4.4 dibawah ini.Tabel 2.3 Klasifikasi Pembelian PerTahun
4.
Mengelompokkan Diskon, pengelompokan diskon berdasarkan jenis diskon yang diberikan, sehingga diskon dapat dilihat pada table dibawah ini.Tabel 2.4 Klasifikasi Diskon
Format
data akhir setelah dilakukan pra-proses tampak seperti tabel berikut ini :
Tabel 2.5 Format Data Akhir
Jumlah Bayar Klasifikasi >100jt Tinggi >50jt-100jt Sedang
0-50jt Rendah
Jumlah Bayar Klasifikasi >20jt Tinggi >10jt-20jt Sedang
0-10jt Rendah
Pembelian PerTahun Klasifikasi >100 Banyak >50-100 Sedang 0-50 Sedikit
17 Pohon Keputusan
Dalam pembuatan pohon keputusan, yang harus dilakukan adalah menghitung jumlah kasus, jumlah kasus untuk keputusan “Aktif”, jumlah kasus untuk
keputusan “Tidak Aktif” dan kasus
yang dibagi berdasarkan atribut Jumlah Beli, Jumlah Bayar, Pembelian Pertahun, dan Diskon. Setelah itu, lakukan perhitungan gain untuk setiap atribut. Adapun langkah-langkah pembuatan pohon keputusan adalah sebagai berikut :
Menghitung Nilai Entropy tiap-tiap atribut:
Entropy (Total)
Entropy (total) adalah menghitung nilai total keputusan aktif (5) dan tidak aktif (14), sedangkan 19 adalah jumlah keseluruhan kasus.
Menghitung Nilai Gain tiap-tiap atribut:
a. Gain (Total, Jumlah Beli)
( ) ∑ | | | | ( ) (( ) ( ) ( ))
18 b. Gain (Total, Jumlah Bayar)
( ) ∑ | | | | ( ) (( ) ( ) ( ))
c. Gain (Total, Pembelian Pertahun)
( ) ∑ | | | | ( ) (( ) ( ) ( ))
d. Gain (Total, Diskon)
( ) ∑ | | | | ( ) (( ) ( ))
19
JUMLAH BAYAR
TIDAK AKTIF TIDAK AKTIF PEMBELIAN PERTAHUN sedang Tinggi Rendah AKTIF DISKON sedang sedikit AKTIF Rendah TIDAK AKTIF Tinggi
Gambar
Adapun aturan atau rule yang terbentuk berdasarkan pohon keputusan terakhir seperti pada gambar 4.4 di atas adalah sebagai berikut :
1. Jika Jumlah Bayar = Sedang maka Pelanggan = Tidak Aktif 2. Jika Jumlah Bayar = Rendah maka Pelanggan = Tidak Aktif
3. Jika Jumlah Bayar = Tinggi dan Pembelian Pertahun = sedang maka Pelanggan = Aktif 4. Jika Pembelian Pertahun = Sedikit dan Diskon = Tinggi maka Pelanggan = Tidak Aktif 5. JIka Diskon = Rendah maka Pelanggan = Aktif
5.
KESIMPULAN DAN SARAN
Berdasarkan uraian pada bab-bab yang sudah dibahas sebelumnya dapat diambil beberapa kesimpulan, yaitu :
1. Pemilihan variabel Total Pembelian, Jumlah Barang dan PO Pertahun, dapat menjadi kriteria penilaian terhadap pelanggan aktif dan tidak aktif dengan menggunakan Algoritma C4.5. 2. Algoritma C4.5 dapat menghasilkan rule untuk menggambarkan proses yang terkait dengan pelanggan aktif dan tidak aktif.
3. Metode pohon keputusan yang diproses dengan WEKA lebih membantu perusahaan dalam hal menganalisaa jumlah pelanggan aktif.
Saran
Mengingat keterbatasan yang dimiliki oleh penulis, baik pengetahuan, waktu, maupun pemikiran, maka penulis dapat memberikan beberapa gambaran sebagai saran. Saran ini dapat digunakan untuk reverensi di masa yang akan datang maupun untuk pengembangan lebih lanjut mengenai analisa jumlah pelanggan aktif menggunakan Algoritma C4.5 adalah sebagai berikut :
1. Perlu adannya penambahan variabel tertentu yang dilakukan untuk menganalisa jumlah pelanggan aktif, agar rule yang dihasilkan bisa lebih tepat lagi.
2. Pada penelitian ini, penulis hanya mencoba salah satu teknik yaitu decision tree. Untuk mendapatkan hasil yang lebih baik lagi, dapat digunakan beberapa teknik data mining lainnya. 3. Dalam penelitian ini penulis hanya menggunakan software data mining WEKA, perlu dilakukan perbandingan lebih lanjut terhadap software aplikasi data mining lainnya, seperti Rapid Miner, Orange, dan lain-lain, guna melihat hasil dari pengolahan yang dilakukan terhadap software
20
DAFTAR PUSTAKA
Abidin, Zaenal. 2011. Implementsi Algoritma C4.5 Untuk Menentukan Tingkat Bahaya Tsunami. Seminar Nasional Informatika 2011. ISSN: 1979-2328
Ersi, Yuni. 2014. Analysis CRM, Kepuasan Pelanggan Dan Loyalitas Produk UKM Berbasis Bahan Baku Terigu di Jawa Timur. Jurnal manajemen pemasaran. Vol. 8, No. 1, April 2014. ISSN 1907-235X
Faradillah, Sarah. 2013. Implementasi Data Mining Untuk Pengenalan Karakteristik Transaksi Customer Dengan Menggunakan Algoritma C4.5. ISSN : 2301-9425
Hartanto, Kamagi. 2014. Implementasi Data Mining Dengan Algoritma C4.5 Untuk Memprediksi Tingkat Kelulusan Mahasiswa. ISSN 2085-4552.
Lorena, Silvia. 2014. Analisis dan Penerapan Algoritma C4.5 Dalam Data Mining Untuk Memprediksi Masa Studi Mahasiswa Berdasarkan Data Nilai Akademik. Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) 2014 ISSN: 1979-911X.
Mandasari, Vina. 2011. Analisis Kepuasan Konsumen Terhadap Restoran Cepat Saji Melalui Pendekatan Data Mining. Vol.6 No.1, Januari 2011
Sijabat, Alimancon. 2015. Penerapan Data Mining untuk Pengolahan Data Siswa dengan Menggunakan Metode Decision Tree. Jurnal Informasi dan Teknologi Ilmiah. Volume 5 No 3. ISSN : 2339-210X.
Suhartono, Entot. 2011. Prediksi perilaku loyalitas pelanggan dengan tehnik data mining decision tree (Studi Kasus Pada Pelanggan Kartu Telkomsel Halo Di Semarang). Prestasi Vol.7 No.1, Juni 2011 ISSN 1411-1497.
Sulistyo, Yusuf. 2014. Penerapan Algoritma C4.5 Untuk Klasifikasi Predikat Kelulusan Mahasiswa Fakultas Komunikasi Dan Informatika Universitas Muhammadiyah Surakarta.
Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST 2014). ISSN : 1979-911X Tampubolon, Kennedi. 2013. Implementasi Data Mining Algoritma Apriori Pada Sistem Persediaan Alat-Alat Kesehatan.Issn : 2339-210X
Wajhillah, Rusda. 2014. Optimasialgoritma Klasifikasi C4.5 Berbasis Particle Swarm Optimization Untuk Prediksi Penyakit Jantung. SWABUMI VOL I No.1, September 2014