36 PREDIKSI CHURN TERHADAP DATA PELANGGAN PADA OPERATOR TELEKOMUNIKASI MENGGUNAKAN FUZZY EVOLUTIONARY ALGORITHMS Syafuan 1, Suyanto 2 Jurusan Teknik I

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

36

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2007, Vol. 12, No. 1

PREDIKSI CHURN TERHADAP DATA PELANGGAN PADA OPERATOR

TELEKOMUNIKASI MENGGUNAKAN FUZZY EVOLUTIONARY ALGORITHMS

Syafuan1_{, Suyanto}2

Jurusan Teknik Informatika Sekolah Tinggi Teknologi Telkom, Bandung 1_{[email protected],}2_{[email protected]}

Abstrak

Klasifikasi adalah salah satu topik penting pada bidang data mining. Masalah klasifikasi menitikberatkan pada penemuan rule (aturan) yang mengklasifikasikan secara benar anggota kelas yang belum diketahui. Banyak algoritma yang telah dibangun untuk melakukan penggalian pengetahuan terhadap data berjumlah besar pada model klasifikasi. Namun, beberapa algoritma belum dapat digunakan untuk menentukan besarnya probabilitas atau kecenderungan. Penelitian ini membahas Data Mining by

Evolutionary Learning (DMEL) sebagai bentuk dari Evolutionary Algorithms (EAs) untuk kasus prediksi churn (pindah ke operator telekomunikasi lain). Pada penelitian ini, dua pengujian kecepatan learning

dan akurasi prediksi dilakukan terhadap tiga model: DMEL, Fuzzy DMEL dengan skala, dan Fuzzy DMEL tanpa skala. Simulasi komputer menunjukkan bahwa Fuzzy EAs dengan skala mampu mempercepat waktu learning pada DMEL dengan akurasi yang sama.

Kata kunci: prediksi churn, data mining, evolutionary algorithms, logika fuzzy Abstract

Classification is an important topic in data mining research. A classification problem focuses on the discovery of classification rules that correctly classify an unknown member of a class. Many algorithms have been developed to mine large data sets for classification models. But, some of them could not be used to define the probability or trend. This research addresses Data Mining by Evolutionary Learning (DMEL) as a form of Evolutionary Algorithm (EAs) for predicting churn (change to other telecommunication operator). In this research, two tests of learning speed and prediction accuration were performed to three models: DMEL, Fuzzy DMEL with scaling, and Fuzzy DMEL without scaling. Computer simulation shows that Fuzzy EAs wih scaling can improve the DMEL's learning speed with the same accuration. Keywords: churn prediction, data mining, evolutionary algorithms, fuzzy logic

1. Pendahuluan

Churn adalah pindahnya pelanggan dari satu

operator ke operator lain. Churn merupakan strategi penting untuk mempertahankan pendapatan pada suatu operator. Meningkatnya jumlah churn

menyebabkan peningkatan pengeluaran pada operator di Amerika Utara dan Eropa [14].

Sejumlah kecil pengurangan pada tingkat churn dapat menghasilkan peningkatan substansial pada opini masyarakat dan nilai shareholder, yaitu nilai saham dari sebuah operator. Secara konsekuen, menganalisa dan mengontrol churn sangat penting guna meningkatkan pendapatan. Untuk mengurangi tingkat churn, diperlukan data profil pelanggan, dimana beberapa pelanggan telah berpindah ke operator lain atau berhenti berlangganan. Dari data tersebut, kita bisa melakukan penggalian pengetahuan untuk menentukan pola-pola yang berhubungan dengan demografik dan tingkah laku pelanggan yang telah pindah operator. Aksi ini dilakukan terhadap pelanggan yang memiliki kemungkinan untuk pindah operator. Pada sisi operator telekomunikasi, diperlukan staf dalam jumlah besar untuk menghubungi pelanggan yang mencapai puluhan juta. Untuk itu, perlu dilakukan

efisiensi dengan cara menghubungi hanya pelanggan dengan tingkat probabilitas churn yang tinggi saja. Dengan demikian, diperlukan suatu cara untuk mengklasifikasi data pelanggan, mana yang memiliki probabilitas churn tinggi dan mana yang rendah.

Untuk aplikasi seperti ini, tujuannya tidak hanya untuk memprediksi apakah pelanggan akan pindah operator atau tidak, namun tingkat probabilitas kepindahan juga harus dapat diprediksi. Akan menjadi suatu kesulitan tersendiri bagi operator untuk memanfaatkan hasil prediksi karena operator tidak memiliki sumber daya yang cukup untuk menghubungi setiap pelanggan dengan presisi waktu yang ketat.

Salah satu cara yang dapat dilakukan untuk membangun aplikasi yang dapat melakukan prediksi

churn adalah dengan menggunakan model klasifikasi.

Masalah klasifikasi menitikberatkan pada penggalian pengetahuan dari aturan klasifikasi sehingga memungkinkan data dengan keanggotaan kelas yang tidak diketahui untuk diklasifikasikan secara pasti. Banyak algoritma yang telah dibangun untuk melakukan penggalian pengetahuan dengan model klasifikasi. Namun, untuk menentukan tingkat

(9)

37

Prediksi Churn Terhadap Data Pelanggan Pada Operator Telekomunikasi Menggunakan Fuzzy Evolutionary Algorithms [Syafuan] probabilitas dari klasifikasi yang telah dibuat,

banyak dari algoritma tersebut tidak didesain untuk tujuan tersebut.

Beberapa algoritma data mining, seperti algoritma berbasis decision tree dapat digunakan untuk mengklasifikasikan aturan pada kelas dengan keanggotaan yang tidak diketahui. Namun, jika algoritma decision tree dikembangkan untuk menentukan asosiasi probabilitas pada kasus ini, memungkinkan beberapa daun (leaves) pada

decision tree memiliki probabiltas kelas yang sama.

Dengan beberapa keterbatasan pada teknik tersebut di atas, maka diajukan algoritma lain, yang disebut DMEL (Data Mining by Evolutionary

Learning) yang merupakan bagian dari Evolutionary Algorithm (EAs), dimana DMEL ini digunakan

untuk menggali aturan klasifikasi pada basisdata. Dengan menggunakan aturan yang telah ditemukan, DMEL dapat digunakan untuk mengklasifikasi data dengan keanggotaan kelas yang tidak diketahui, serta dapat ditentukan probabilitas dari hasil prediksi tersebut.

DMEL dapat merepresentasikan pola churning dalam bentuk yang mudah dimengerti (bentuk rule). Namun, proses learning pada algoritma-algoritma yang termasuk ke dalam EAs dapat mengalami konvergensi prematur sehingga solusi yang didapat tidak optimal. Masalah lainnya adalah konvergensi yang sangat lambat sehingga waktu yang dibutuhkan untuk learning menjadi sangat lama.

Untuk menghindari terjadinya konvergensi prematur dan konvergensi yang sangat lambat tersebut, maka teknik Fuzzy EAs digunakan pada penelitian ini. Teknik ini menerapkan logika fuzzy pada pengadaptasian parameter learning pada algoritma-algoritma yang termasuk dalam EAs. 2. Sistem Prediksi Churn

Sistem prediksi churn terdiri dari dua sub sistem, yaitu: pemrosesan awal (preprocessing) dan klasifikasi. Keduanya dibahas secara detail pada sub-sub bab berikut ini.

2.1 Premrosesan awal

Pemrosesan awal (preprocessing) pada data yang akan di-mining diperlukan karena data yang ada di dunia nyata biasanya masih kotor (dirty).

Preprocessing dapat dilakukan dengan cara:

a. Pembersihan data b. Integrasi data c. Transformasi data d. Penyesuaian ukuran data e. Diskritisasi data

2.2 Prediksi Churn

Prediksi churn adalah salah satu bentuk permasalahan yang ada di dunia nyata yang termasuk ke dalam permasalahan imbalance class

(suatu keadaan yang menggambarkan tidak seimbangnya porsi data latih antara suatu kelas dengan kelas yang lain [14]). Definisi dari prediksi

churn yaitu salah satu aplikasi dari data mining

yang bertujuan untuk memprediksi para pelanggan yang berpotensial untuk berpindah ke operator lain.

Churn terbagi menjadi dua, yaitu voluntary dan involuntary. Voluntary adalah churn dengan kemauan sendiri, sedangkan involuntary adalah

churn bukan karena kemauan sendiri [14]. Contoh churn voluntary adalah karena kompetitor menawarkan produk yang lebih murah dan berkualitas sehingga membuat pelanggan berpikir untuk beralih ke provider yang lain. Sedangkan untuk involuntary penyebabnya karena pelanggan tersebut sudah lama tidak membayar tagihannya sehingga menyebabkan dicabutnya layanan terhadap pelanggan tersebut. Penelitian ini difokuskan pada kasus churn yang voluntary.

2.3 Segmentation by Natural Partitioning

Preprocessing memiliki beberapa tugas utama.

Salah satunya adalah diskritisasi nilai numerik menjadi nilai kategoris. Diskritisasi ini dapat dilakukan dengan menggunakan Segmentation by

Natural Partitioning (SNP). Segmentasi SNP ini

merupakan proses diskritisasi data numerik menjadi data kategoris dengan hasil yang secara relatif berbnetuk uniform dan interval yang dihasilkan mudah dibaca dan dimengerti.

Proses diskritisasi dengan SNP menggunakan

rule 3-4-5 untuk membagi data menjadi beberapa

segmen. Rule ini membagi data berdasarkan jangkauannya (range) menjadi 3, 4, atau 5 interval secara rekursif di setiap levelnya. Nilai range yang digunakan berada pada most significant digit. 2.4 Automatic Analysis And Classification of

Conceptual Patterns (APACS)

APACS merupakan teknik induksi probabilistik. Diantara beberapa pasangan atribut yang mungkin, APACS dapat mengidentifikasi pasangan yang memiliki hubungan asosiatif. APACS bahkan bisa digunakan pada basis data yang memiliki data noise dan memiliki banyak nilai yang hilang.

2.5 Data Mining by Evolutionary Learning (DMEL)

Untuk melakukan pencarian yang lebih efektif pada rule berukuran besar, maka digunakan DMEL yang merupakan bentuk dari Evolutionary Algorithms.

Dengan pendekatan learning yang bersifat evolusi, DMEL mampu menggali rule pada basisdata berukuran besar tanpa memerlukan penentuan threshold oleh user atau pemetaan nilai kuantitatif menjadi atribut biner. Tetapi, DMEL harus dapat mentransformasikan atribut kuantitatif menjadi atribut yang bersifat kategoris mengunakan

(10)

38

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2007, Vol. 12, No. 1 algoritma diskritisasi yang dapat dimengerti oleh

user. Caranya adalah dengan menggunakan

Segmentation by Natural Partitioning.

Komponen dari DMEL adalah:

a.

Encode rule pada Kromosom.

b.

Pembangunan First-Order rule

c.

Inisialiasi Populasi

d.

Operator Genetik

e.

Mutasi pada DMEL

f.

Pemilihan dan Fungsi Fitness g. Kriteria Penghentian

2.6 Fuzzy Government

Basis pengetahuan fuzzy dapat digunakan untuk melakukan supervisi terhadap EAs. Performansi dari EAs berkorelasi langsung terhadap pemilihan parameter yang tepat. Penggunaan Logika fuzzy untuk mengadaptasikan parameter-parameter pada EAs berguna untuk meningkatkan performansi EAs.

Serangkaian Logika fuzzy tersebut dapat direpresentasikan dalam bentuk Fuzzy Government yang akan digunakan untuk melakukan pengontrolan probabilitas pindah silang (Pc) dan pengontrolan probabilitas mutasi (Pm) untuk menghindari konvergensi prematur dan agar solusi lebih cepat didapatkan.

3. Implementasi Fuzzy EAs

Secara sederhana, Fuzzy EAs diimplementasikan dengan cara sebagai berikut:

a. Jika semua data bersifat kategoris, maka tidak harus dilakukan diskritisasi,namun jika terdapat data numerik dan nilai berbeda lebih dari 9 maka harus dilakukan dikretisasi menggunakan teknik Segmentation By Natural Partitioning (dengan mengasumsikan jumlah partisi yang didapat menggunakan teknik ini paling sedikit adalah 9 partisi).

b. Tentukan nilai-nilai dari data yang mempunya asosiasi dengan target menjadi First Order rule menggunakan APACS.

c. Setiap First Order rule dimasukkan ke calon

rule, lalu bentuk kromosom Second Order rule

dari calon rule

d. Kromosom dibentuk hingga jumlah kromosom pada populasi terpenuhi

e. Hitung fitness setiap kromosom.

f. Pilih dua orang tua dari kromosom-kromosom tersebut menggunakan skema roulette wheel. g. Lakukan proses pindah silang, karena

kromosom terdiri dari 2 gen maka pindah silang dilakukan dengan batas satu titik.

h. Lakukan proses mutasi dari kedua anak, nilai mutasi didapat dari probabilitas mutasi, sedangkan isi dari mutasi didapat dari calon

rule.

i. Hitung fitness kromosom kedua orang tua dan kedua anak, urutkan kromosom berdasarkan

fitness dari fitness terbesar.

j. Dua fitness terbesar menggantikan kromosom dipilih (pergantian populasi dengan steady

state).

k. Adaptasi nilai probabilitas pindah silang dan nilai probabilitas mutasi berdasarkan perubahan dari fitness terbaik dan rata-rata fitness .

l. Dilakukan langkah a sampai k hingga selisih

fitness kromosom = 0 atau jumlah generasi

mencapai jumlah generasi maksimal.

m. Setiap kromosom yang dihasilkan dimasukkan ke calon rule.

n. Buat kromosom Order rule berikutnya dari calon rule.

o. Lakukan proses pindah silang dan mutasi pada kromosom yang terpilih sebagai orang tua, pindah silang untuk order rule lebih dari dua

allele menggunakan dua titik, dimana titik

pertama adalah titik setelah allele pertama dan titik kedua adalah titik sebelum allele terakhir, metode ini terbukti memiliki akurasi tertinggi pada kasus klasifikasi[14].

p. Lakukan langkah tersebut diatas hingga tidak ada lagi rule yang menarik.

4.

Performansi Sistem Prediksi Churn

Tahap pengujian melibatkan tiga skenario berupa perbedaan tingkat prosentase churner dari data latih. Pengujian ditujukan untuk membandingkan performansi dari model yang terbentuk dengan parameter yang khusus untuk menguji performansi dari model DMEL yang merupakan bentuk dari EAs yang digunakan, dan model penerapan Fuzzy Governement (oleh Hongbo Liu, Zhanguo Xu, Ajith Abraham) pada DMEL tersebut.

Pengujian dilakukan pada dua fokus, yaitu: kecepatan learning dan performansi model prediksi

churn yang dihasilkan dalam bentuk lift curve. Data

latih yang digunakan untuk proses learning dapat dilihat pada Tabel 1.

Tabel 1. Data Latih untuk Proses Learning. Skenario _ChurnData _ActiveData % Data _Churn Total

A 375 7125 5% 7500

B 375 3375 10% 3750

C 375 1500 20% 1875

Data latih pada Tabel 1 meruapakan hasil

sampling dari data nyata yang diperoleh dari suatu

operator telekomunikasi di Indonesia. Jumlah atribut yang dipakai untuk membangun model adalah 22 atribut termasuk atribut kelas churn_m1 (yang di sebut artifact). Artifact tersebut diambil dari 4 data yang telah dilakukan preprocessing menjadi satu

record satu pelanggan. Empat data itu terdiri dari:

(1) data demographic (meliputi jenis kelamin, nama paket layanan, kategori kelompok pelanggan, serta lamanya layanan tersebut di gunakan), (2) data

traffic (meliputi frekuensi pemanggilan ke layanan

(11)

39

Prediksi Churn Terhadap Data Pelanggan Pada Operator Telekomunikasi Menggunakan Fuzzy Evolutionary Algorithms [Syafuan] (3) data payment (meliputi data kategori pembayaran

apakah late, early, normal serta standar deviasi pembayarannya), dan (4) data revenue (meliputi data revenue sebelum pajak pada bulan itu).

Sedangkan data yang dipakai untuk pengujian (testing) adalah data seluruh customer yang berjumlah 48.384 record.

4.1 Kecepatan learning

Tabel 2 menunjukkan hasil pengujian dalam bentuk waktu eksekusi yang dibutuhkan pada proses

learning untuk ketiga sistem yang dibangun :

DMEL, fuzzy DMEL dengan penskalaan dan fuzzy DMEL tanpa penskalaan. Kecepatan learning ini diukur dalam skala detik.

Tabel 2. Kecepatan Learning. Skenario

Kecepatan Learning (detik) DMEL Fuzzy DMEL

skala Fuzzy DMEL tanpa skala

A 6053 3599 3865

B 2235 1848 2030

C 1241 860 1618

Dari Tabel 2 dapat dilihat bahwa Fuzzy DMEL dengan penskalaan mebutuhkan waktu learning yang jauh lebih kecil dibandingkan dengan DMEL maupun Fuzzy DMEL tanpa penskalaan. Hal ini terutama terjadi pada skenario C, di mana jumlah data aktif hanya sedikit sedangkan data churn cukup besar hingga mencapai 20%.

4.2 Performansi dalam bentuk lift curve

Pengujian tiga model prediksi churn difokuskan pada performansi lift curve pada 20% customer awal. Untuk DMEL, parameter EAs yang digunakan adalah probabilitas mutasi (Pm) = 0,01 dan probabilitas pindah silang (Pc) = 0,8.

Gambar 1 menunjukkan bahwa performansi DMEL dan Fuzzy DMEL skala adalah sama. Pada prosentase customer 20%, model DMEL dan Fuzzy DMEL skala mendapatkan prosentase actual churn 76%, sedangkan pada Fuzzy DMEL tanpa skala hanya mendapatkan 47%.

Gambar 1. Performansi lift curve dari ketiga model untuk Skenario A

Gambar 2 menunjukkan bahwa pada skenario B, performansi ketiga model yang dibangun adalah sama. Pada prosentase customer 20%, model DMEL, Fuzzy DMEL skala dan Fuzzy DMEL tanpa skala mendapatkan prosentase actual churn 51%.

Gambar 3 menunjukkan bahwa pada skenario C, performansi ketiga model yang dibangun adalah sama. Pada prosentase customer 20%, model DMEL, Fuzzy DMEL skala dan Fuzzy DMEL tanpa skala mendapatkan prosentase actual churn 46%.

Gambar 2. Performansi lift curve dari ketiga model untuk Skenario B

Gambar 3. Performansi lift curve dari ketiga model untuk Skenario C

5. Kesimpulan dan Saran

Prediksi churn dapat dilakukan dengan menggunakan Fuzzy EAs dan menghasilkan pola prediksi yang mudah dimengerti.

Rule yang didapat melalui proses learning dapat membedakan pelanggan yang akan melakukan churn dengan yang tidak. Nilai Weight of Evidence dapat digunakan untuk membedakan probabilitas kemungkinan terjadinya churn atau tidak.

Dari kedua hasil pengujian, Fuzzy Government dengan skala lebih baik dibandingkan tanpa skala.

Pengimplementasian Logika fuzzy dalam bentuk Fuzzy Government pada Evolutionary Algorithm dapat mempercepat waktu yang dibutuhkan untuk mendapatkan solusi.

Optimasi dapat dilakukan lebih jauh dengan memperhitungkan jumlah populasi yang optimal.

(12)

40

Jurnal Penelitian dan Pengembangan TELEKOMUNIKASI, Juni 2007, Vol. 12, No. 1 Optimasi terhadap performansi lift curve pada hasil

prediksi dapat dilakukan dengan melakukan data

boosting maupun data regeneration.

Daftar Pustaka:

[1] Berry and Linoff, 2000, Mastering Data

Mining, John Wiley & Son, Inc.

[2] Chan, K.C.C. and Wong, A.K.C., 1990,

APACS,: A System for the Automatic Analysis and Classification of Conceptual Patterns, Computational Intelligence, vol 6,

pp. 119-131.

[3] Fahrudin, Tora, 2007, Analisis dan Implementasi Metoda Databoost-IM (Studi

Kasus Churn Prediction Mobile

Telecomunication), Jurusan Teknik Informatika, Sekolah Tinggi Teknologi Telkom, Bandung.

[4] Han, J. and Kamber, M., 2001, Data Mining

: Concepts and Techniques. Morgan Kaufmann.

[5] Hongbo Liu, Zhanguo Xu, Ajith Abraham,

Hybrid Fuzzy-Genetic Algorithm Approach for Crew Grouping, Department of Computer Dalian University of Technology,Dalian,China, Schoolof Computer Science and Engineering Chung-Ang University, Seoul, Korea

[6] Lee, Michael A., and Hideyuki Takagi, 1993, Dynamic Control of Genetic Algorithms using Fuzzy Logic Techniques,

Proc. of the Fifth Int. Conf. on Genetic Algorithms.

[7] Lockwood, J., Study Predicts ‘Epidemic’

Churn,” Wireless Week, Aug. 25, 1997.

[8] Mitchell M. Tom. 1997. ”Machine Learning”. McGraw-Hill International Editions. Printed in Singapore.

[9] Russel, Stuart and Norvig, Peter, 1995,

Artificial Intelligence: A Modern Approach,

Prentice Hall International, Inc.

[10] Suyanto, 2005, “Algoritma Genetika Dalam Matlab”, Andi Offset, Yogyakarta, Indonesia.

[11] Syafuan, 2005, Perangkat Lunak Prediksi

Kelulusan TPB pada Mahasiswa (Studi Kasus STT Telkom), Jurusan Teknik Informatika, Sekolah Tinggi Teknologi Telkom, Bandung.

[12] Tettamanzi A., Tomassini M., 2001, Soft

Computing. Springer-Verlag Berlin Heidelberg. Printed in Germany.

[13] Thiang, Resmana, Wahyudi, 2000, Kendali

Logika Fuzzy dengan Metoda Defuzzifikasi Center of Area dan Mean of Maxima,

Jurusan Teknik Elektro, Universitas Kristen Petra, Surabaya, Indonesia.

[14] Wai-Ho Au, Chan K.C.C. and Xin Yao, 2005, A Novel Evolutionary Data Mining

Algorithm with Applications to Churn Prediction, Department of Computing, The

Hong Kong Polytechnic University, Hung Hom, Kowloon, Hong Kong, 2005.

[15] Whitley, Darell, 2001, An Overview of Evolutionary Algorithms, Journal of Information Software Technology 43:817-831.

[16] Wikipedia,“Genetic Algorithm,” http://en.wikipedia.org/ wiki/ Genetic_algorithm, Wikipedia, the free encyclopedia

[17] Wikipedia,“Evolutionary_Programming,” http://en.wikipedia.org/ wiki/ Evolutionary_ programming, Wikipedia, the free encyclopedia

[18] Wikipedia,“Genetic_Programming,”

http://en.wikipedia.org/ wiki/ Genetic_ programming, Wikipedia, the free encyclopedia