• Tidak ada hasil yang ditemukan

Anggita Dyan Kusumadety¹, Dhinta Darmantoro², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

N/A
N/A
Protected

Academic year: 2021

Membagikan "Anggita Dyan Kusumadety¹, Dhinta Darmantoro², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom"

Copied!
7
0
0

Teks penuh

(1)

ANALISIS BOOSTING PADA DECISION TREE DENGAN STUDI KASUS KLASIFIKASI DAERAH PELANGGAN TELEKOMUNIKASI BERDASAR DATA CALLING DETAIL RECORD (CDR) BOOSTING ANALYSIS IN DECISION TREE WITH CASE STUDY CLASSIFICATION OF TELECOMMUNICATION CUSTOMER

AREA BASED ON CAL

Anggita Dyan Kusumadety¹, Dhinta Darmantoro², Kiki Maulana³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Data merupakan aset berharga yang dimiliki oleh perusahaan. dengan adanya ilmu data mining yang menggali informasi dari data, maka suatu data akan lebih bermanfaat dalam perkembangan perusahaan tersebut. Salah satu data yang dimiliki oleh perusahaan telekomunikasi adalah Calling Detail Record, dimana data ini menyimpan transaksi pemanggilan yang terjadi pada jaringan telekomunikasi. Pada tugas akhir ini, data CDR yang secara tidak langsung

menggambarkan perilaku pelanggan pada daerah tertentu akan diolah dengan proses data mining, yaitu klasifikasi dengan metode ensemble.

Metode ensemble dalam klasifikasi bertujuan untuk meningkatkan performansi, dengan menggunakan base classifier untuk menghasilkan hipotesis dari model yang dibentuk. Tugas akhir ini menerapkan salah satu metode ensemble, yaitu boosting, dengan decision tree C45 sebagai base classifier. Dengan proses boosting, setiap hipotesis yang diperoleh dari model C45 akan dikombinasikan, sehingga performansi yang dihasilkan lebih baik disbanding dengan proses klasifikasi tanpa boosting.

Dari hasil pengujian, diperoleh kesimpulan bahwa boosting dapat meningkatkan performansi pada proses klasifikasi daerah pelanggan, disbanding dengan klasifikasi menggunakan decision tree C45 tanpa boosting. Ini karena dengan boosting, data yang sulit diklasifikasi pada suatu iterasi akan mendapat kesempatan yang lebih banyak untuk dilatih lagi pada iterasi selanjutnya. Sehingga classifier lebih banyak memahami data yang sulit tersebut.

Kata Kunci : boosting, algoritma C45, AdaboostM1, AdaboostReg, CDR, iterasi

Abstract

Data is very important for many companies. With data mining, which digging information from data, this data can be more useful for development of its company. One most important data in telecommunication company is Calling Detail Record, that contains transactions of calling in network. In this final task, CDR that describe behavior of customer in every region, will processed by data mining techniques, classification with ensemble method.

Ensemble method is used to increase performance of classification process, that use base classifier to prodeuce hypothesis from its model. This final task implements bbosting, with C45 decision tree as base classifier.with this method, all of hypothesis from C45 would be combined to get final hypothesis, so that the performance will be better then classification without boosting. The results of testing show that boosting clearly improve the performance of classification with C45 decision tree. It is because in boosting, data that hard to classify get more chance to be classified in the next iteration. So that classifier learns more from this data.

Keywords : boosting, C45 algorythm, AdaboostM1, AdaboostReg, iteration,CDR

Powered by TCPDF (www.tcpdf.org)

(2)

1. Pendahuluan

1.1 Latar Belakang Masalah

Ada hal yang lebih berharga dari suatu perusahaan disbandingkan produk maupun layanannya, yaitu data. Dalam persaingan industri pertelekomunikasian pun, data menjadi suatu harta yang tak ternilai karena banyak informasi dan pengetahuan yang bisa diperoleh dengan mengolah data- data tersebut. Salah satu data yang dihasilkan oleh perusahaan adalah Calling Detail Record (CDR). CDR merupakan data yang mencatat transaksi yang dilakukan oleh pengguna jasa telekomunikasi.

Jika data CDR tidak diolah, mungkin kurang bermanfaat bagi perusahaannya. oleh karena itu, dari data transaksi yang ada ini, daerah- daerah pelanggan akan diklasifikasikan sesuai dengan perilaku- perilaku yang dimilikinya. Misalnya waktu pemakaian telepon, durasi pemakaian, dll. Dengan adanya pengklasifikasian ini, dapat terlihat tingkat traffic komunikasi yang terjadi di suatu daerah, yang berarti dapat pula menggambarkan potensi daerah tersebut akan perannya sebagai pengguna jasa telekomunikasi. Potensi daerah ini dapat digunakan sebagai pertimbangan dalam menentukan target pemasaran produk baru, pertimbangan dalam menentukan layanan yang harus dikembangkan, dll. Dengan demikian data yang tadinya hanya tersimpan akan bisa dimanfaatkan oleh perusahaan.

Klasifikasi dalam data mining berarti melakukan pembentukan model dari data training yang diberikan. Ada banyak cara pembentukan model, dan yang akan digunakan pada tugas akhir ini adalah decision tree. Decision tree memiliki beberapa kelebihan, yaitu mudah dimengerti, mudah dikonversi menjadi rule, dan dapat menangani atribut numerical maupun categorical [15]. Namun, model yang dihasilkan dari decision tree terkadang cukup komplek, sehingga memicu terjadinya overfitting, yaitu keadaan model terlalu sesuai dengan training set, sehingga solusi sulit ditemukan. Oleh karena itu, akan dilakukan pruning terhadap

tree yang sudah terbentuk. Dengan adanya pruning, model akan lebih sederhana

dan overfitting bisa dihindari [4].

Pada klasifikasi dikenal istilah ensemble methods, yaitu membangun beberapa set classifier dari data latih (training data), atau memprediksi class label dengan mengkombinasikan prediksi yang dibangkitkan dari beberapa classifier (model). Tujuannya adalah untuk meningkatkan akurasi model yang terbentuk. Hal ini dapat diterapkan dengan boosting. Boosting adalah suatu metode berulang untuk mengubah distribusi data latih [4]. Idenya adalah menciptakan beberapa model secara berulang dengan mengubah- ubah training samplenya, kemudian mengkombinasikan model yang dihasilkan oleh weak learner untuk mendapatkan model tunggal yang digunakan untuk prediksi [6]. Pada setiap iterasinya, data yang dijadikan training sample adalah data yang sulit diklasifikasikan pada iterasi sebelumnya [9].

Oleh karena itu, dalam tugas akhir ini akan diterapkan boosting pada

decision tree. Hal ini berarti akan dilakukan pembentukan decision tree secara

berulang, sesuai jumlah iterasi boostingnya, agar tingkat akurasi modelnya akan lebih baik [4].

(3)

2

1.2. Perumusan Masalah

Mengacu pada latar belakang di atas, maka permasalahan yang akan diselesaikan pada tugas akhir ini adalah :

1. Bagaimana menerapkan boosting pada decision tree untuk mengklasifikasikan daerah berdasar perilakunya.

2. Bagaimana boosting dilakukan agar dapat membentuk sekumpulan classifier yang akan menghasilkan prediksi yang lebih baik disbanding dengan model tanpa boosting.

Sedangkan batasan masalah pada tugas akhir ini adalah :

1. Data yang akan digunakan untuk klasifikasi adalah data CDR (Calling Detail Record). Atribut, feature, dan preprocessing yang dipakai akan ditentukan terlebih dahulu berdasarkan referensi, sehingga penelitian lebih berfokus pada proses klasifikasinya. Proses preprocessing dijelaskan pada bab 4.

2. Digunakan 2 algoritma boosting dalam pengujian, yaitu AdaboostM1 dan AdaboostReg, untuk mewakili algoritma boosting secara keseluruhan.

3. Sistem akan dibangun menggunakan base classifier decision tree dengan algoritma C45.

4. Untuk menganalisis performansinya, digunakan parameter recall, precision, dan f-measure, dan akurasi.

1.3. Tujuan

Berdasarkan masalah yang telah dirumuskan di atas, tujuan dari tugas akhir ini adalah:

1. Mengimplementasikan algoritma boosting pada pembentukan model dengan

decision tree untuk mengklasifikasikan daerah berdasar transaksi pemanggilan

yang terjadi.

2. Menganalisis pengaruh iterasi pada boosting terhadap akurasinya.

3. Menganalisis pengaruh penggunaan boosting pada pembentukan model dengan decision tree terhadap performansinya, dengan parameter recall,

precision, f-measure dan akurasi.

1.4. Metodologi Penyelesaian Masalah

a. Studi literatur

 Mencari dan mempelajari sumber- sumber literatur mengenai topik terkait, seperti algoritma pada decision tree, boosting.

 Mempelajari dan memahami bentuk data yang akan digunakan, yaitu data CDR.

b. Analisis dan perancangan sistem

 Menganalisis permalahan yang telah dirumuskan dan tahapan yang akan dilakukan dalam penyelesaian masalah

 Melakukan perancangan dan pemodelan sistem yang akan dibuat. c. Implementasi sistem.

 Melakukan preprocessing terhadap data berupa pemilihan fitur, dan pengelompokan tiap daerah.

(4)

tree untuk klasifikasi daerah menggunakan data CDR.

d. Pengujian sistem dan analisis hasil

 Melakukan pengujian terhadap model dengan menghitung akurasi berdasar confusion matrix yang terbentuk setelah proses klasifikasi.  Melakukan analisis terhadap hasil pengujian

(5)

35

5. Penutup

5.1

Kesimpulan

Setelah menjalankan langkah-langkah perancangan, implementasi, dan analisis pada bab-bab sebelumnya, penulis merumuskan kesimpulan –kesimpulan sebagai berikut :

1. Penggunaan algoritma boosting dengan decisión tree C45 sebagai base

classifier dapat diimplementasikan dalam proses klasifikasi daerah pelanggan

telekomunikasi.

2. Algoritma AdaboostReg lebih baik dari AdaboostM1 dalam mengklasifikasi data yang mengandung noise. Namun pada data tanpa noise ternyata AdaboostReg juga lebih baik disbanding AdaboostM1.

3. Jumlah iterasi boosting berpengaruh terhadap akurasi pengujian. Namun, akurasi terbaik bukan ditentukan oleh semakin banyaknya jumlah iterasi, melainkan seberapa baik kombinasi hipotesis dari serangkaian model yang dihasilkan pada iterasi tersebut.

4. Dengan boosting pada decision tree C45, proses klasifikasi dapat menghasilkan performansi yang lebih baik, meliputi precision, recall,dan

fmeasure, disbanding hanya menggunakan C45 saja. Ini karena pada boosting

pemodelan dilakukan beberapa kali, dah hipotesis akhir-nya dipilih dari model- model dengan error rate yang rendah.

5. Apabila prosentase daytime call berkisar antara 50%, durasi rata- rata lebih berpengaruh dalam penentuan kelas daerah. Namun apabila prosentase daytime-nya variatif, kedua parameter tersebut sama- sama berpengaruh terhadap penentuan kelas.

6. Pelanggan pada daerah dengan kelas bisnis lebih banyak melakukan pemanggilan pada waktu- waktu daytime. Sehingga rata- rata panggilan pada akhir minggu sebesar 19.06%. Sedangkan pada kelas residensial, pemanggilan pada weekend dan daytime relatif sama karena pola transaksi pemanggilan pada daerah dengan kelas residensial stabil sepanjang hari dalam 1 minggu. 7. Kelebihan boosting adalah adanya kombinasi hipotesis dari base classifier ,

sesuai dengan konsep ensemble method. Tujuannya adalah agar hipotesis akhir yang dihasilkan lebih baik daripada tanpa penggunaan boosting.

5.2

Saran

Dengan memperhatikan kendala yang dihadapi selama pembangunan sistem dan proses analisis, dan dengan mempertimbangkan kekurangan dari sistem yang telah dibangun, penulis mengajukan saran-saran sebagai berikut : 1. Akan lebih baik bila fitur yang digunakan dalam penentuan kelas daerah

dikembangkan lagi, seperti fitur- fitur yang disebutkan pada bab 2. Selain itu, dapat dimungkinkan akan muncul kelas baru dengan adanya penambahan fitur.

2. Sistem dapat dikembangkan lagi agar dapat melakukan pemilihan kolom-kolom yang akan dipergunakan. Sehingga dapat dianalisis pengaruh penggunaan kolom dalam proses klasifikasi.

(6)

classifier lain maupun kombinasi beberapa jenis base classifier, untuk melihat

(7)

37

Daftar Pustaka

[1] Ahola, J. and Rinta Runsala. 2001. Data Mining Case Studies in Customer

Profiling. Research Report TTE1-2001-29, VTT Information Technology.

[2] Han, Jiawei and Micheline Kamber. Data Mining Concepts and Techniques. Canada : School of Computing Science.

[3] Janson, S.M.H.. Customer Segmentation and Customer Profiling for a

Mobile Telecommunications Company Based on Usage Behavior. A

Vodafone Case Study.

[4] Machova, Kristina, Miroslav Puszta, Peter Bednar. A Boosting Method in

Combination with Decision Tree. Department of Cybernetics and Artificial

Intelligence,TechnicalUniversity,Letná,Košice.

[5] Polikar, Robi. 2006. Ensemble Based System in Decision Making. IEEE Circuits And Systems Magazine.

[6] Quinlan, J.R. 2006 Bagging, Boosting, and C4.5. University of Sydney,

Australia. Didownload dari

http://citeseer.ist.psu.edu/cache/papers/cs/3635/quinlan96bagging.pdf pada tanggal 6 Januari 2008.

[7] Quinlan, J.Ross, Morgan Kauffman.1993. C4.5 : Programs for Machine

Learning. Publisher, Inc.

[8] Sano, Natsuki, Suzuki, Hideo Suzuki, Masato Koda. A Robust Boosting

Method for Mislabeled Data. Japan : University of Tsukuba.

[9] Schapire, Robert E. 2001. A Short Introduction to Boosting. USA: AT&T Labs Research Shannon Laboratory. Didownload dari

http://www.site.uottawa.ca/~stan/csi5387/boost-tut-ppr.pdf pada tanggal 1 Januari 2008.

[10] Schapire, Robert, Yoav Freund. Experiments with a New Boosting

Algorithm. USA: AT&T Labs Research Shannon Laboratory.

[11] Schapire, Robert E. 2000. Soft Margin for Adaboost. Boston : Kluwer Academic Publisher.

[12] Tan, Steinbach, Kumar. 2004. Introduction to Data Mining

[13] Weiss, Gary M., Data Mining in Telecommunications. Departement of Computer and Information Science Fordham University.

[14] , J48 Decision Trees. Didownload dari

http://miles.bc.edu/~compbio/C5.0/C50Release1/Doc/tutorial.html#USE

pada tanggal 30 Januari 2008.

[15] , Building Classification Models : C4.5 and ID3. Didownload dari

http://www.cis.temple.edu/~ingargio/cis587/readings/id3-c45.html pada tanggal 30 Januari 2008

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

Hubungan Tingkat Kemandirian dalam Melakukan Aktivitas Kehidupan Sehari-Hari dan Status Gizi pada Usia Lanjut di Panti Sosial Tresna Werdha Sabai Nan Aluih

Pembalakan ilegal terjadi secara luas dan sistematis dibanyak wilayah Indonesia, dan pada tahun 2000, memasuki sekitar 50 sampai 70 persen kebutuhan kayu

Hasil uji parsial (Uji t) penelitian ini menunjukan bahwa semua variabel bebas (job embeddedness dan kepuasan kerja) secara parsial berpengaruh negatif dan

Adapun permasalahan yang akan diteliti dalam tugas akhir ini adalah bagaimana mengimplementasikan berbagai tingkatan QoS dengan menggunakan arsitektur Diffserv pada jaringan

berbentuk kata, kalimat, skema, dan gambar adalah data mengenai objek penelitian yang merupakan data kualitatif dianalisis berdasarkanperbandingan teori dari

//Kagungane pangeran kang jati / kabeh yayi pan ana ing sira / malekat tunggal jatine / kang mukarabah rumuhun / maring Allah ingkang sajati / kabeh yayi wus ana

Kuesioner tersebut mencakup berbagai pertanyaan menyangkut: (a) profil/karakteristik sosio-demografis responden; (b) profil/karakteristik usahatani; (c) persepsi dan

Besarnya displacement horisontal bored pile walls untuk kedua tipe tanah yang ditinjau dengan penambahan sirtu di atas lapisan soft clay dapat dilihat pada Tabel 4.3 dan