36
Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2007, Vol. 12, No. 1
PREDIKSI CHURN TERHADAP DATA PELANGGAN PADA OPERATOR
TELEKOMUNIKASI MENGGUNAKAN FUZZY EVOLUTIONARY ALGORITHMS
Syafuan1, Suyanto2
Jurusan Teknik Informatika Sekolah Tinggi Teknologi Telkom, Bandung 1syafuan@gmail.com, 2suy@stttelkom.ac.id
Abstrak
Klasifikasi adalah salah satu topik penting pada bidang data mining. Masalah klasifikasi menitikberatkan pada penemuan rule (aturan) yang mengklasifikasikan secara benar anggota kelas yang belum diketahui. Banyak algoritma yang telah dibangun untuk melakukan penggalian pengetahuan terhadap data berjumlah besar pada model klasifikasi. Namun, beberapa algoritma belum dapat digunakan untuk menentukan besarnya probabilitas atau kecenderungan. Penelitian ini membahas Data Mining by
Evolutionary Learning (DMEL) sebagai bentuk dari Evolutionary Algorithms (EAs) untuk kasus prediksi churn (pindah ke operator telekomunikasi lain). Pada penelitian ini, dua pengujian kecepatan learning
dan akurasi prediksi dilakukan terhadap tiga model: DMEL, Fuzzy DMEL dengan skala, dan Fuzzy DMEL tanpa skala. Simulasi komputer menunjukkan bahwa Fuzzy EAs dengan skala mampu mempercepat waktu learning pada DMEL dengan akurasi yang sama.
Kata kunci: prediksi churn, data mining, evolutionary algorithms, logika fuzzy Abstract
Classification is an important topic in data mining research. A classification problem focuses on the discovery of classification rules that correctly classify an unknown member of a class. Many algorithms have been developed to mine large data sets for classification models. But, some of them could not be used to define the probability or trend. This research addresses Data Mining by Evolutionary Learning (DMEL) as a form of Evolutionary Algorithm (EAs) for predicting churn (change to other telecommunication operator). In this research, two tests of learning speed and prediction accuration were performed to three models: DMEL, Fuzzy DMEL with scaling, and Fuzzy DMEL without scaling. Computer simulation shows that Fuzzy EAs wih scaling can improve the DMEL's learning speed with the same accuration. Keywords: churn prediction, data mining, evolutionary algorithms, fuzzy logic
1. Pendahuluan
Churn adalah pindahnya pelanggan dari satu
operator ke operator lain. Churn merupakan strategi penting untuk mempertahankan pendapatan pada suatu operator. Meningkatnya jumlah churn
menyebabkan peningkatan pengeluaran pada operator di Amerika Utara dan Eropa [14].
Sejumlah kecil pengurangan pada tingkat churn dapat menghasilkan peningkatan substansial pada opini masyarakat dan nilai shareholder, yaitu nilai saham dari sebuah operator. Secara konsekuen, menganalisa dan mengontrol churn sangat penting guna meningkatkan pendapatan. Untuk mengurangi tingkat churn, diperlukan data profil pelanggan, dimana beberapa pelanggan telah berpindah ke operator lain atau berhenti berlangganan. Dari data tersebut, kita bisa melakukan penggalian pengetahuan untuk menentukan pola-pola yang berhubungan dengan demografik dan tingkah laku pelanggan yang telah pindah operator. Aksi ini dilakukan terhadap pelanggan yang memiliki kemungkinan untuk pindah operator. Pada sisi operator telekomunikasi, diperlukan staf dalam jumlah besar untuk menghubungi pelanggan yang mencapai puluhan juta. Untuk itu, perlu dilakukan
efisiensi dengan cara menghubungi hanya pelanggan dengan tingkat probabilitas churn yang tinggi saja. Dengan demikian, diperlukan suatu cara untuk mengklasifikasi data pelanggan, mana yang memiliki probabilitas churn tinggi dan mana yang rendah.
Untuk aplikasi seperti ini, tujuannya tidak hanya untuk memprediksi apakah pelanggan akan pindah operator atau tidak, namun tingkat probabilitas kepindahan juga harus dapat diprediksi. Akan menjadi suatu kesulitan tersendiri bagi operator untuk memanfaatkan hasil prediksi karena operator tidak memiliki sumber daya yang cukup untuk menghubungi setiap pelanggan dengan presisi waktu yang ketat.
Salah satu cara yang dapat dilakukan untuk membangun aplikasi yang dapat melakukan prediksi
churn adalah dengan menggunakan model klasifikasi.
Masalah klasifikasi menitikberatkan pada penggalian pengetahuan dari aturan klasifikasi sehingga memungkinkan data dengan keanggotaan kelas yang tidak diketahui untuk diklasifikasikan secara pasti. Banyak algoritma yang telah dibangun untuk melakukan penggalian pengetahuan dengan model klasifikasi. Namun, untuk menentukan tingkat
37
Prediksi Churn Terhadap Data Pelanggan Pada Operator Telekomunikasi Menggunakan Fuzzy Evolutionary Algorithms [Syafuan] probabilitas dari klasifikasi yang telah dibuat,
banyak dari algoritma tersebut tidak didesain untuk tujuan tersebut.
Beberapa algoritma data mining, seperti algoritma berbasis decision tree dapat digunakan untuk mengklasifikasikan aturan pada kelas dengan keanggotaan yang tidak diketahui. Namun, jika algoritma decision tree dikembangkan untuk menentukan asosiasi probabilitas pada kasus ini, memungkinkan beberapa daun (leaves) pada
decision tree memiliki probabiltas kelas yang sama.
Dengan beberapa keterbatasan pada teknik tersebut di atas, maka diajukan algoritma lain, yang disebut DMEL (Data Mining by Evolutionary
Learning) yang merupakan bagian dari Evolutionary Algorithm (EAs), dimana DMEL ini digunakan
untuk menggali aturan klasifikasi pada basisdata. Dengan menggunakan aturan yang telah ditemukan, DMEL dapat digunakan untuk mengklasifikasi data dengan keanggotaan kelas yang tidak diketahui, serta dapat ditentukan probabilitas dari hasil prediksi tersebut.
DMEL dapat merepresentasikan pola churning dalam bentuk yang mudah dimengerti (bentuk rule). Namun, proses learning pada algoritma-algoritma yang termasuk ke dalam EAs dapat mengalami konvergensi prematur sehingga solusi yang didapat tidak optimal. Masalah lainnya adalah konvergensi yang sangat lambat sehingga waktu yang dibutuhkan untuk learning menjadi sangat lama.
Untuk menghindari terjadinya konvergensi prematur dan konvergensi yang sangat lambat tersebut, maka teknik Fuzzy EAs digunakan pada penelitian ini. Teknik ini menerapkan logika fuzzy pada pengadaptasian parameter learning pada algoritma-algoritma yang termasuk dalam EAs. 2. Sistem Prediksi Churn
Sistem prediksi churn terdiri dari dua sub sistem, yaitu: pemrosesan awal (preprocessing) dan klasifikasi. Keduanya dibahas secara detail pada sub-sub bab berikut ini.
2.1 Premrosesan awal
Pemrosesan awal (preprocessing) pada data yang akan di-mining diperlukan karena data yang ada di dunia nyata biasanya masih kotor (dirty).
Preprocessing dapat dilakukan dengan cara:
a. Pembersihan data b. Integrasi data c. Transformasi data d. Penyesuaian ukuran data e. Diskritisasi data
2.2 Prediksi Churn
Prediksi churn adalah salah satu bentuk permasalahan yang ada di dunia nyata yang termasuk ke dalam permasalahan imbalance class
(suatu keadaan yang menggambarkan tidak seimbangnya porsi data latih antara suatu kelas dengan kelas yang lain [14]). Definisi dari prediksi
churn yaitu salah satu aplikasi dari data mining
yang bertujuan untuk memprediksi para pelanggan yang berpotensial untuk berpindah ke operator lain.
Churn terbagi menjadi dua, yaitu voluntary dan involuntary. Voluntary adalah churn dengan kemauan sendiri, sedangkan involuntary adalah
churn bukan karena kemauan sendiri [14]. Contoh churn voluntary adalah karena kompetitor menawarkan produk yang lebih murah dan berkualitas sehingga membuat pelanggan berpikir untuk beralih ke provider yang lain. Sedangkan untuk involuntary penyebabnya karena pelanggan tersebut sudah lama tidak membayar tagihannya sehingga menyebabkan dicabutnya layanan terhadap pelanggan tersebut. Penelitian ini difokuskan pada kasus churn yang voluntary.
2.3 Segmentation by Natural Partitioning
Preprocessing memiliki beberapa tugas utama.
Salah satunya adalah diskritisasi nilai numerik menjadi nilai kategoris. Diskritisasi ini dapat dilakukan dengan menggunakan Segmentation by
Natural Partitioning (SNP). Segmentasi SNP ini
merupakan proses diskritisasi data numerik menjadi data kategoris dengan hasil yang secara relatif berbnetuk uniform dan interval yang dihasilkan mudah dibaca dan dimengerti.
Proses diskritisasi dengan SNP menggunakan
rule 3-4-5 untuk membagi data menjadi beberapa
segmen. Rule ini membagi data berdasarkan jangkauannya (range) menjadi 3, 4, atau 5 interval secara rekursif di setiap levelnya. Nilai range yang digunakan berada pada most significant digit. 2.4 Automatic Analysis And Classification of
Conceptual Patterns (APACS)
APACS merupakan teknik induksi probabilistik. Diantara beberapa pasangan atribut yang mungkin, APACS dapat mengidentifikasi pasangan yang memiliki hubungan asosiatif. APACS bahkan bisa digunakan pada basis data yang memiliki data noise dan memiliki banyak nilai yang hilang.
2.5 Data Mining by Evolutionary Learning (DMEL)
Untuk melakukan pencarian yang lebih efektif pada rule berukuran besar, maka digunakan DMEL yang merupakan bentuk dari Evolutionary Algorithms.
Dengan pendekatan learning yang bersifat evolusi, DMEL mampu menggali rule pada basisdata berukuran besar tanpa memerlukan penentuan threshold oleh user atau pemetaan nilai kuantitatif menjadi atribut biner. Tetapi, DMEL harus dapat mentransformasikan atribut kuantitatif menjadi atribut yang bersifat kategoris mengunakan
38
Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2007, Vol. 12, No. 1 algoritma diskritisasi yang dapat dimengerti oleh
user. Caranya adalah dengan menggunakan
Segmentation by Natural Partitioning.
Komponen dari DMEL adalah:
a.
Encode rule pada Kromosom.b.
Pembangunan First-Order rulec.
Inisialiasi Populasid.
Operator Genetike.
Mutasi pada DMELf.
Pemilihan dan Fungsi Fitness g. Kriteria Penghentian2.6 Fuzzy Government
Basis pengetahuan fuzzy dapat digunakan untuk melakukan supervisi terhadap EAs. Performansi dari EAs berkorelasi langsung terhadap pemilihan parameter yang tepat. Penggunaan Logika fuzzy untuk mengadaptasikan parameter-parameter pada EAs berguna untuk meningkatkan performansi EAs.
Serangkaian Logika fuzzy tersebut dapat direpresentasikan dalam bentuk Fuzzy Government yang akan digunakan untuk melakukan pengontrolan probabilitas pindah silang (Pc) dan pengontrolan probabilitas mutasi (Pm) untuk menghindari konvergensi prematur dan agar solusi lebih cepat didapatkan.
3. Implementasi Fuzzy EAs
Secara sederhana, Fuzzy EAs diimplementasikan dengan cara sebagai berikut:
a. Jika semua data bersifat kategoris, maka tidak harus dilakukan diskritisasi,namun jika terdapat data numerik dan nilai berbeda lebih dari 9 maka harus dilakukan dikretisasi menggunakan teknik Segmentation By Natural Partitioning (dengan mengasumsikan jumlah partisi yang didapat menggunakan teknik ini paling sedikit adalah 9 partisi).
b. Tentukan nilai-nilai dari data yang mempunya asosiasi dengan target menjadi First Order rule menggunakan APACS.
c. Setiap First Order rule dimasukkan ke calon
rule, lalu bentuk kromosom Second Order rule
dari calon rule
d. Kromosom dibentuk hingga jumlah kromosom pada populasi terpenuhi
e. Hitung fitness setiap kromosom.
f. Pilih dua orang tua dari kromosom-kromosom tersebut menggunakan skema roulette wheel. g. Lakukan proses pindah silang, karena
kromosom terdiri dari 2 gen maka pindah silang dilakukan dengan batas satu titik.
h. Lakukan proses mutasi dari kedua anak, nilai mutasi didapat dari probabilitas mutasi, sedangkan isi dari mutasi didapat dari calon
rule.
i. Hitung fitness kromosom kedua orang tua dan kedua anak, urutkan kromosom berdasarkan
fitness dari fitness terbesar.
j. Dua fitness terbesar menggantikan kromosom dipilih (pergantian populasi dengan steady
state).
k. Adaptasi nilai probabilitas pindah silang dan nilai probabilitas mutasi berdasarkan perubahan dari fitness terbaik dan rata-rata fitness .
l. Dilakukan langkah a sampai k hingga selisih
fitness kromosom = 0 atau jumlah generasi
mencapai jumlah generasi maksimal.
m. Setiap kromosom yang dihasilkan dimasukkan ke calon rule.
n. Buat kromosom Order rule berikutnya dari calon rule.
o. Lakukan proses pindah silang dan mutasi pada kromosom yang terpilih sebagai orang tua, pindah silang untuk order rule lebih dari dua
allele menggunakan dua titik, dimana titik
pertama adalah titik setelah allele pertama dan titik kedua adalah titik sebelum allele terakhir, metode ini terbukti memiliki akurasi tertinggi pada kasus klasifikasi[14].
p. Lakukan langkah tersebut diatas hingga tidak ada lagi rule yang menarik.
4.
Performansi Sistem Prediksi ChurnTahap pengujian melibatkan tiga skenario berupa perbedaan tingkat prosentase churner dari data latih. Pengujian ditujukan untuk membandingkan performansi dari model yang terbentuk dengan parameter yang khusus untuk menguji performansi dari model DMEL yang merupakan bentuk dari EAs yang digunakan, dan model penerapan Fuzzy Governement (oleh Hongbo Liu, Zhanguo Xu, Ajith Abraham) pada DMEL tersebut.
Pengujian dilakukan pada dua fokus, yaitu: kecepatan learning dan performansi model prediksi
churn yang dihasilkan dalam bentuk lift curve. Data
latih yang digunakan untuk proses learning dapat dilihat pada Tabel 1.
Tabel 1. Data Latih untuk Proses Learning. Skenario Churn Data Active Data % Data Churn Total
A 375 7125 5% 7500
B 375 3375 10% 3750
C 375 1500 20% 1875
Data latih pada Tabel 1 meruapakan hasil
sampling dari data nyata yang diperoleh dari suatu
operator telekomunikasi di Indonesia. Jumlah atribut yang dipakai untuk membangun model adalah 22 atribut termasuk atribut kelas churn_m1 (yang di sebut artifact). Artifact tersebut diambil dari 4 data yang telah dilakukan preprocessing menjadi satu
record satu pelanggan. Empat data itu terdiri dari:
(1) data demographic (meliputi jenis kelamin, nama paket layanan, kategori kelompok pelanggan, serta lamanya layanan tersebut di gunakan), (2) data
traffic (meliputi frekuensi pemanggilan ke layanan
39
Prediksi Churn Terhadap Data Pelanggan Pada Operator Telekomunikasi Menggunakan Fuzzy Evolutionary Algorithms [Syafuan] (3) data payment (meliputi data kategori pembayaran
apakah late, early, normal serta standar deviasi pembayarannya), dan (4) data revenue (meliputi data revenue sebelum pajak pada bulan itu).
Sedangkan data yang dipakai untuk pengujian (testing) adalah data seluruh customer yang berjumlah 48.384 record.
4.1 Kecepatan learning
Tabel 2 menunjukkan hasil pengujian dalam bentuk waktu eksekusi yang dibutuhkan pada proses
learning untuk ketiga sistem yang dibangun :
DMEL, fuzzy DMEL dengan penskalaan dan fuzzy DMEL tanpa penskalaan. Kecepatan learning ini diukur dalam skala detik.
Tabel 2. Kecepatan Learning. Skenario
Kecepatan Learning (detik) DMEL Fuzzy DMEL
skala Fuzzy DMEL tanpa skala
A 6053 3599 3865
B 2235 1848 2030
C 1241 860 1618
Dari Tabel 2 dapat dilihat bahwa Fuzzy DMEL dengan penskalaan mebutuhkan waktu learning yang jauh lebih kecil dibandingkan dengan DMEL maupun Fuzzy DMEL tanpa penskalaan. Hal ini terutama terjadi pada skenario C, di mana jumlah data aktif hanya sedikit sedangkan data churn cukup besar hingga mencapai 20%.
4.2 Performansi dalam bentuk lift curve
Pengujian tiga model prediksi churn difokuskan pada performansi lift curve pada 20% customer awal. Untuk DMEL, parameter EAs yang digunakan adalah probabilitas mutasi (Pm) = 0,01 dan probabilitas pindah silang (Pc) = 0,8.
Gambar 1 menunjukkan bahwa performansi DMEL dan Fuzzy DMEL skala adalah sama. Pada prosentase customer 20%, model DMEL dan Fuzzy DMEL skala mendapatkan prosentase actual churn 76%, sedangkan pada Fuzzy DMEL tanpa skala hanya mendapatkan 47%.
Gambar 1. Performansi lift curve dari ketiga model untuk Skenario A
Gambar 2 menunjukkan bahwa pada skenario B, performansi ketiga model yang dibangun adalah sama. Pada prosentase customer 20%, model DMEL, Fuzzy DMEL skala dan Fuzzy DMEL tanpa skala mendapatkan prosentase actual churn 51%.
Gambar 3 menunjukkan bahwa pada skenario C, performansi ketiga model yang dibangun adalah sama. Pada prosentase customer 20%, model DMEL, Fuzzy DMEL skala dan Fuzzy DMEL tanpa skala mendapatkan prosentase actual churn 46%.
Gambar 2. Performansi lift curve dari ketiga model untuk Skenario B
Gambar 3. Performansi lift curve dari ketiga model untuk Skenario C
5. Kesimpulan dan Saran
Prediksi churn dapat dilakukan dengan menggunakan Fuzzy EAs dan menghasilkan pola prediksi yang mudah dimengerti.
Rule yang didapat melalui proses learning dapat membedakan pelanggan yang akan melakukan churn dengan yang tidak. Nilai Weight of Evidence dapat digunakan untuk membedakan probabilitas kemungkinan terjadinya churn atau tidak.
Dari kedua hasil pengujian, Fuzzy Government dengan skala lebih baik dibandingkan tanpa skala.
Pengimplementasian Logika fuzzy dalam bentuk Fuzzy Government pada Evolutionary Algorithm dapat mempercepat waktu yang dibutuhkan untuk mendapatkan solusi.
Optimasi dapat dilakukan lebih jauh dengan memperhitungkan jumlah populasi yang optimal.
40
Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2007, Vol. 12, No. 1 Optimasi terhadap performansi lift curve pada hasil
prediksi dapat dilakukan dengan melakukan data
boosting maupun data regeneration.
Daftar Pustaka:
[1] Berry and Linoff, 2000, Mastering Data
Mining, John Wiley & Son, Inc.
[2] Chan, K.C.C. and Wong, A.K.C., 1990,
APACS,: A System for the Automatic Analysis and Classification of Conceptual Patterns, Computational Intelligence, vol 6,
pp. 119-131.
[3] Fahrudin, Tora, 2007, Analisis dan Implementasi Metoda Databoost-IM (Studi
Kasus Churn Prediction Mobile
Telecomunication), Jurusan Teknik Informatika, Sekolah Tinggi Teknologi Telkom, Bandung.
[4] Han, J. and Kamber, M., 2001, Data Mining
: Concepts and Techniques. Morgan Kaufmann.
[5] Hongbo Liu, Zhanguo Xu, Ajith Abraham,
Hybrid Fuzzy-Genetic Algorithm Approach for Crew Grouping, Department of Computer Dalian University of Technology,Dalian,China, Schoolof Computer Science and Engineering Chung-Ang University, Seoul, Korea
[6] Lee, Michael A., and Hideyuki Takagi, 1993, Dynamic Control of Genetic Algorithms using Fuzzy Logic Techniques,
Proc. of the Fifth Int. Conf. on Genetic Algorithms.
[7] Lockwood, J., Study Predicts ‘Epidemic’
Churn,” Wireless Week, Aug. 25, 1997.
[8] Mitchell M. Tom. 1997. ”Machine Learning”. McGraw-Hill International Editions. Printed in Singapore.
[9] Russel, Stuart and Norvig, Peter, 1995,
Artificial Intelligence: A Modern Approach,
Prentice Hall International, Inc.
[10] Suyanto, 2005, “Algoritma Genetika Dalam Matlab”, Andi Offset, Yogyakarta, Indonesia.
[11] Syafuan, 2005, Perangkat Lunak Prediksi
Kelulusan TPB pada Mahasiswa (Studi Kasus STT Telkom), Jurusan Teknik Informatika, Sekolah Tinggi Teknologi Telkom, Bandung.
[12] Tettamanzi A., Tomassini M., 2001, Soft
Computing. Springer-Verlag Berlin Heidelberg. Printed in Germany.
[13] Thiang, Resmana, Wahyudi, 2000, Kendali
Logika Fuzzy dengan Metoda Defuzzifikasi Center of Area dan Mean of Maxima,
Jurusan Teknik Elektro, Universitas Kristen Petra, Surabaya, Indonesia.
[14] Wai-Ho Au, Chan K.C.C. and Xin Yao, 2005, A Novel Evolutionary Data Mining
Algorithm with Applications to Churn Prediction, Department of Computing, The
Hong Kong Polytechnic University, Hung Hom, Kowloon, Hong Kong, 2005.
[15] Whitley, Darell, 2001, An Overview of Evolutionary Algorithms, Journal of Information Software Technology 43:817-831.
[16] Wikipedia,“Genetic Algorithm,” http://en.wikipedia.org/ wiki/ Genetic_algorithm, Wikipedia, the free encyclopedia
[17] Wikipedia,“Evolutionary_Programming,” http://en.wikipedia.org/ wiki/ Evolutionary_ programming, Wikipedia, the free encyclopedia
[18] Wikipedia,“Genetic_Programming,”
http://en.wikipedia.org/ wiki/ Genetic_ programming, Wikipedia, the free encyclopedia