APLIKASI PENDUKUNG KEPUTUSAN
KLASIFIKASI KARYAWAN MUTASI WILAYAH
MENGGUNAKAN ALGORITMA C4.5
(Study Kasus PT. Indosat)
Laporan Tugas Akhir
Diajukan Untuk Melengkapi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Abdul Latif
41511120140
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER
UNIVERSITAS MERCUBUANA
JAKARTA
KATA PENGANTAR
Dengan mengucapkan puji syukur kepada Allah SWT, yang telah melimpahkan segala rahmat
dan karunia-Nya, sehingga laporan tugas akhir ini telah dapat diselesaikan dengan baik.
Dengan segala keterbatasan, penulis menyadari pula bahwa laporan Tugas Akhir ini tidak akan
terwujud tanpa bantuan bimbingan dan dorongan dari berbagai pihak. Untuk itu, dengan segala
kerendahan hati, penulis menyampaikan ucapan terima kasih kepada :
1.
Ibu Devi Fitrianah, S.Kom, M.T.I selaku pembimbing yang telah membimbing dalam penulisan
Tugas Akhir ini.
2.
Bapak Sabar Rudiarto, S.Kom, M.Kom Ketua Program Studi Teknik Informatika.
3.
Ibu Umniy Salamah, ST., MMSI selaku Koordinator Tugas Akhir yang telah mengarahkan dalam
pembuatan Tugas Akhir ini.
4.
Keluarga terutama orang tua saya dan adik-adik saya yang telah banyak memberikan dukungan
moril dan materil khususnya.
5.
Keluarga besar Teknik Informatika Mercubuana, khususnya Kelas Karyawan angkatan 2012 yang
selalu solid dalam pertemanan.
Semoga dengan ini semua Allah SWT membalas kebaikan dan selalu mencurahkan hidayah dan
taufik-NYA, Amin.
Jakarta, 10 Oktober 2014
plikasi Pendukung Keputusan Klasifikasi
Karyawan Mutasi Wilayah Menggunakan C4.5
(Study Kasus PT. Indosat)
Abdul Latif, Devi Fitrianah
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Mercu Buana Jl. Raya Meruya Selatan, Kembangan, Jakarta 11650
Email: alatif_09@yahoo.com, devi. fitrianah@mercubuana.ac.id
Abstract - Data mining is a technology that is very useful to
help human resouces in telco company to support management decision maker. The problems faced by management is reviewing effectiveness of reorganization of management in its decision mutation or not the employee. Writing is about employee classification decision support applications mutations in the region of the freeway. classification models made by analyzing training data from Indosat employee data . The resulting model can then be used to predict the class of unknown data. Training data that has been entered class mutation is a mutation or not, it is intended that the training data can be reused in the process performance , this study calculates the performance of the C4.5 algorithm in performing data classification percentage of employees using precision, recall and accuracy. The measurement results show that the algorithm C4.5 has a better performance with the accuracy rate above 80% so that the results of the decision support system can consider precisely how the relocation employees or not . Keywords: Data mining, classification, C4.5
Abstrak - Data mining merupakan teknologi yang sangat
berguna untuk membantu human resouces perusahaan telko untuk mendukung pengambilan keputusan manajemen.
Masalah-masalah yang dihadapi manajemen adalah
mereview efektifitas dari reorganisasi yang dilakukan manajemen dalam keputusan mutasi atau tidak nya karyawan. Penulisan ini berisi tentang aplikasi pendukung keputusan klasifikasi karyawan mutasi wilayah di indosat. model klasifikasi dibuat dengan cara menganalisis training data dari data karyawan indosat. Model yang dihasilkan nantinya dapat digunakan untuk memprediksi kelas dari unknown data. Data training yang dimasukan telah memiliki kelas apakah mutasi atau tidak mutasi, hal ini bertujuan agar data training dapat digunakan kembali pada proses kinerja, penelitian ini menghitung kinerja algoritma c4.5 dalam
melakukan klasifikasi data karyawan menggunakan
presentase precision, recall dan accuracy. Hasil pengukuran menunjukan algoritma c4.5 memiliki kinerja yang baik dengan tingkat accuracy rata-rata diatas 80 % sehingga hasil dari sistem dapat mendukung keputusan seberapa tepatnya mempertimbangkan mutasi atau tidak nya karyawan.
Keywords: Data mining, klasifikasi, C4.5
1. PENDAHULUAN
1.1 Latar Belakang
Dunia bisnis telko yang penuh persaingan dan kompetitif membuat manajemen memandang perlu ada nya strategi bisnis yang harus dijalankan dengan adanya reorganisasi transformasi pada suatu organisasi struktur dimanejemen. Yaitu dengan adanya mutasi wilayah, dengan hal ini juga memberikan kesempatan positif kepada karyawan yang nantinya ditempatkan dilokasi baru untuk berkontribusi secara maksimal untuk perusahaan.
Namun pihak manajemen mendapat kesulitan dalam menempatkan karyawan mutasi wilayah yang tepat dan sesuai dengan kebutuhan perusahaan pada setiap reorganisasi akan
dilakukan. Diantaranya adalah karyawan mengajukan
permohonan atas permintaan sendiri untuk mutasi yang mana permohonan tersebut belum dapat diberikan karena belum / tidak sesuai dengan kebutuhan manajemen perusahaan. Ini melahirkan kebutuhan adanya teknologi yang dapat membantu dalam pengaturan reorganisasi karyawan. Prediksi data karyawan dalam reorganisasi mutasi wilayah sangat penting bagi suatu perusahaan telko, dimana dengan adanya prediksi data karyawan, manajemen perusahaan dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi karyawan nya, data mining hadir sebagai solusi.
Teknik data mining dapat dimanfaatkan untuk membantu pengambilan keputusan diwaktu yang akan datang. Salah satu teknik yang dapat dimanfaatkan dalam pengambilan keputusan yang tepat agar memenuhi aspek kebutuhan perusahaan tersebut adalah teknik klasifikasi dengan model pohon keputusan
Aplikasi data mining ini memanfaatkan data masukan berupa data karyawan, dari data tersebut, akan di olah dengan metode klasifikasi dan untuk menganalisis data menggunakan teknik Pohon Keputusan. Setelah melewati proses tersebut, maka akan didapatnya pola-pola dalam pengambilan keputusan. Aplikasi data mining dengan Model Pohon Keputusan ini inputnya adalah data karyawan PT. indosat, sedangkan outputnya adalah prediksi karyawan mutasi dan tidak mutasi.
1.2 Rumusan Masalah
Berdasarkan latar belakang masalah yang dijelaskan sebelumnya, maka yang menjadi rumusan masalah penelitian ini adalah :
1. Bagaimana cara mengklasifikasi mutasi karyawan
menggunakan algoritma pohon keputusan C4.5?
2. Bagaimana perbandingan kinerja algoritma tersebut jika diukur dari sisi akurasi, presisi, dan recall?
1.3 Batasan Masalah
Ruang Lingkup Tugas Akhir ini dibatasi pada :
1. Data training diperoleh dari PT. Indosat.
2. Kinerja algoritma diukur berdasarkan keakuratan hasil prediksi yang dinilai dari nilai akurasi, presisi, dan recall. 3. Atribut akan diseleksi sebelum diimplementasikan pada
algoritma C4.5.
2. TINJAUANPUSTAKA
2.1. Definisi Data Mining
Data mining merupakan disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data. Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari
data mining ini bisa dipakai untuk memperbaiki
pengambilan keputusan di masa depan (Santosa, 2013). Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data (Kusrini, 2009).
Pola dan aturan ini dapat digunakan untuk memandu pengambilan keputusan dan meramalkan efek keputusan. Data mining dapat mempercepat analisis dengan memusatkan perhatian pada variabel yang paling penting.
Pada penelitian ini algoritma Model Pohon
Keputusan digunakan untuk mengetahui hasil
perhitungan data karyawan mutasi wilayah dengan kinerja algoritma di ukur berdasarkan hasil prediksi yang dinilai dari nilai akurasi, presisi, dan recall. Dalam arti yang lebih luas, Metode Pohon Keputsan adalah salah satu metode klasifikasi yang paling popular karena mudah untuk diinterpretasi oleh manusia. Konsep dasar algoritma ini adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan (rule).
Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan dengan pemilihan sebuah
atribut, formulasi sebuah logical test pada atribut tersebut
dan pencabangan pada setiap hasil dari test. Langkah ini terus bergerak ke subset ke contoh yang memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada setiap simpul anak cabang. Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree memiliki contoh dari satu kelas tertentu. Gambar 1 memuat contoh dari sebuah Pohon Keputusan.
Gambar 1. Decission Tree (Hermawati, 2013)
2.2. Algoritma C4.5
Algoritma C4.5 adalah pengembangan dari algoritma ID3. Oleh karena pengembangan tersebut algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Hanya saja dalam algoritma C4.5 pemilihan atribut dilakukan dengan menggunakan Gain Ratio dengan rumus:
Dimana:
S = ruang (data) sample yang digunakan untuk training. A = atribut.
Gain(S,A) = information gain pada atribut A SplitInfo(S,A) = split information pada atribut A
Atribut dengan nilai Gain Ratio tertinggi dipilih sebagai atribut test untuk simpul. Dengan gain adalah
information gain. Pendekatan ini menerapkan normalisasi
pada information gain dengan menggunakan apa yang disebut sebagai split information. SplitInfo menyatakan entropy atau informasi potensial dengan rumus:
Dimana:
S = ruang (data) sample yang digunakan untuk training. A = atribut
Si = jumlah sample untuk atribut i
Pada saat pembangunan pohon keputusan, banyaknya cabang mungkin mencerminkan adanya noise atau outlier pada
training data. Pemangkasan pohon dapat dilakukan untuk
mengenali dan menghapus cabang-cabang tersebut. Pohon yang dipangkas akan menjadi lebih kecil dan lebih mudah dipahami. Pohon semacam itu biasanya juga menjadi lebih cepat dan lebih baik dalam melakukan klasifikasi.
Ada dua metode dalam melakukan pemangkasan dalam pohon keputusan, yaitu :
a. Prepruning yaitu menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak
lebih jauh mempartisi data training. Pada pendekatan prepruning, sebuah pohon dipangkas dengan cara
menghentikan pembangunannya jika partisi yang akan dibuat dianggap tidak signifikan.
b. Postpruning yaitu menyederhanakan pohon dengan cara
membuang beberapa cabang subtree setelah pohon selesai dibangun. Metode postpruning ini merupakan metode
standard untuk algoritma C4.5.
Gambar 2. Decision Tree sebelum dan setelah dipangkas Pemangkasan pohon juga dapat digunakan untuk mengatasi overfitting. Overfitting terjadi karena ada noise
data training, yaitu data yang tidak relevan sehingga
mengakibatkan pohon memiliki subtree yang panjang dan tidak seimbang. Misal internal node memiliki kelas YA = 5 dan TIDAK = 1. Data yang berada pada kelas TIDAK merupakan noise, sehingga apabila data tersebut diolah akan menghasilkan pohon dengan subtree yang panjang.
Overfitting juga dapat terjadi karena data training yang
sedikit
3. PERANCANGANSISTEM
3.1. Analisis Sistem Berjalan
Relokasi adalah Perpindahan lokasi / tempat kerja Karyawan dari suatu wilayah ke wilayah lain di indosat, namun pihak manajemen mendapat kesulitan dalam menempatkan karyawan mutasi wilayah yang tepat dan
sesuai dengan kebutuhan perusahaan pada setiap
reorganisasi akan dilakukan. Diantaranya adalah karyawan mengajukan permohonan atas permintaan sendiri untuk mutasi yang mana permohonan tersebut belum dapat diberikan karena belum / tidak sesuai dengan kebutuhan manajemen perusahaan.
3.2. Use Case Diagram
Use case diagram adalah suatu bentuk diagram yang
menggambarkan fungsionalitas yang diharapkan dari sebuah sistem dilihat dari perspektif pengguna diluar sistem.
Gambar 3. Use Case Diagram
Aktor dalam use case diagram ini adalah admin, dimana admin dapat melakukan keseluruhan proses di dalam aplikasi. Aktor Admin dapat melakukan:
a. Manage data training, yaitu menambah, merubah, dan menghapus data training yang selanjutnya akan ditraining. Data training yang dimasukkan telah memiliki kelas apakah mutasi atau tidak mutasi, hal ini bertujuan agar data training dapat digunakan kembali pada proses kinerja.
b. Proses mining, yaitu proses penambangan informasi dari
data training dengan menggunakan algoritma C4.5 sampai terbentuk pohon keputusan dari masing-masing algoritma.
c. Proses Kinerja, yaitu proses membandingkan pohon
keputusan C4.5 yang telah dibentuk sebelumnya dengan data testing yang ada. Data testing yang sebelumnya memiliki kelas, diproses dengan rule pohon keputusan sehingga membentuk kelas baru, dari perbandingan kelas tersebut kemudian dapat dihitung nilai akurasi, presisi dan recall.
d. Proses penentu keputusan, yaitu proses penentuan
keputusan dari data baru yang akan dilakukan pencocokan pada rule pohon keputusan sehingga data tersebut memiiki kelas.
3.3. Activity Diagram
Activity diagram merupakan suatu diagram yang dapat
menampilkan secara detail urutan proses dari aplikasi.
Perancangan aplikasi dapat digambarkan dengan
menggunakan activity diagram sebagai berikut: a. Activity Diagram Input Data Karyawan
Gambar 4. Activity Diagram Input Data Karyawan Saat pertama kali membuka aplikasi, maka user akan langsung masuk ke halaman utama. Di halaman utama ini,
user dapat memilih operasi yang diinginkan. Dengan memilih menu Data Karyawan, user dapat melakukan manajemen data
karyawan yang meliputi penambahan data dengan
memasukkan nilai-nilai atribut dan kelas pada form input data karyawan.
b. Activity Diagram Proses Mining Algoritma C4.5
Gambar 5. Activity Diagram Proses Mining Algoritma C4.5 Setelah masuk halaman utama, user memilih menu C4.5. Dengan memilih proses mining, maka sistem akan memproses data training dan membentuk pohon keputusan menggunakan algoritma C4.5. Setelah itu, sistem akan menampilkan pohon keputusan beserta rule yang dibentuk.
c. Activity Diagram Proses Perbandingan Kinerja Pohon
Keputusan
Gambar 6. Activity Diagram Proses Kinerja
Setelah masuk halaman utama, user memilih menu Kinerja. Dengan melakukan proses kinerja, maka sistem akan memproses data testing menggunakan pohon keputusan C4.5 yang telah dibentuk sebelumnya, kemudian
menghasilkan kelas baru. Setelah itu dilakukan
perbandingan antara kelas data sebelumnya dengan kelas yang baru terbentuk. Lalu dilakukan perhitungan nilai presisi, recall dan akurasi.
4. HASILDANPEMBAHASAN
Salah satu algoritma yang digunakan untuk membangun pohon keputusan yang berbasis algoritma induksi pohon keputusan yaitu C4.5. algoritma C4.5
merupakan algoritma yang digunakan untuk membentuk pohon keputusan Algoritma decision
4.1. Data yang Digunakan
Data uji yang digunakan dalam penelitian ini adalah data karyawan yang berasal dari fungsi SDM indosat dengan melakukan wawancara dan observasi langsung untuk memperoleh data-data yang akurat demi terbentuknya sistem yang sesuai dengan kebutuhan. Data yang diperoleh ini nantinya akan menjadi kasus dalam proses operasional data
mining, berikut field-field datanya :
Tabel 1. Tabel field data karyawan
Field Type Personnel_No varchar(100) Prev_PersNo varchar(100) Personnel_Number varchar(100) Job_Title varchar(100) Position_Name varchar(100) Directorate varchar(100) Chief varchar(100) Group varchar(100) Division varchar(100) Name_of_Organizational_Unit varchar(100) Personnel_Area_Text varchar(100) Lokasi varchar(100) Name_of_EE_Subgroup varchar(100) Gender_text varchar(100) Birthplace varchar(100) Lokasi_Baru varchar(100) married varchar(20) date_birth varchar(20) age varchar(50) tanggungan varchar(10) class varchar(25) status_data varchar(25)
4.2. Atribut yang Digunakan
Berikut atribut yang digunakan dalam proses mutasi karyawan di PT Indosat, atribut data diperoleh dari keseluruhan data karyawan indosat:
Tabel 2. Tabel Atribut
1 Job Title - Administrator
- Analyst - Assistant - Counsel - Department Head - Division Head - Expert
- Group Head - Officer - Operator - Secretary - Senior Analyst - Senior Auditor - Senior Buyer - Senior Counsel - Senior Engineer - Senior Officer - Technician
2 Directorate - Directorate', 'Off. of Dir. &
Chief Wholesale And Infr.
- Directorate', 'Office of Director
& Chief Commercial
- Directorate', 'Office of Director
& Chief Financial
- Directorate', 'Office of Director
& Chief Technology
- Directorate', 'Office of Pres.
Dir & Chief Executive
3 Chief - Off. of Dir. & Chief Wholesale
And Infr.
- Office of Chief Corporate
Services
- Office of Chief Human
Resources
- Office of Chief Strategy &
Planning
- Office of Chief Tower Business
Executive
- Office of Director & Chief
Commercial
- Office of Director & Chief
Financial
- Office of Director & Chief
echnology
- Office of Pres. Dir & Chief
4 Personnel Area
Text
- Central - East Java Bali Nusra
- Head Quarter
- Jabodetabek & West Java
- Kalimantan – Sulampapua - Sumatera 5 Name of EE Subgroup - Kontrak - Percobaan - Tetap 6 Gender - Female - Male
7 Married Status - Nikah
- Single - Janda / Duda 9 Usia - 20 – 35 tahun - 36 – 50 tahun - Diatas 50 Tahun 10 Tanggungan pemohon - K / 1 - K / 2 - K / 3 - S / 0 - S / 1 - S / 2
Dari atribut tersebut dibuatlah sample data set sebanyak 100 field, data set kemudian dipartisi / dibagi menjadi dua kategori untuk perbandingan kinerja data mining, pertama data training dibagi menjadi (80%) dan data testing (20), kedua data training (50%) dan data testing (50%).
Gambar 8. Partisi Data Set
4.3. Perhitungan Mining C4.5
Hitung Entropy, Information Gain, Split Info dan
Gain Ratio dari masing-masing atribut data training yang
ada.
Gambar 9. Perhitungan C4.5
Dengan memperhatikan pohon keputusan pada gambar 9 diketahui bahwa pohon keputusan telah terbentuk. Dan setelah didapatkan tree akhirnya kemudian diubah menjadi rule. Berikut ini adalah bentuk tree yang diubah menjadi rule:
Gambar 10. Perhitungan Pohon Keputusan C4.5
4.4. Pengukuran Kinerja Algoritma
Untuk permasalahan dalam klasifikasi, pengukuran yang biasa digunakan adalah precision, recall dan accuracy. Karena mutasi karyawan merupakan binary classification, maka precision, recall dan accuracy dapat dihitung dengan cara seperti pada Tabel 3.
Tabel 3. Tabel Penilaian Diidentifikasi sebagai tidak mutasi Diidentifikasi sebagai mutasi Tidak Mutasi A B Mutasi C D 1. Precision
Precision adalah bagian data yang di ambil sesuai dengan
informasi yang dibutuhkan. Rumus precision adalah
Gambar 11. Grafik Precision Berdasarkan Data Testing (20%)
Gambar 12. Grafik Precision Berdasarkan Data Testing (50%)
2. R e c a l l
Recall adalah pengambilan data yang berhasil dilakukan
terhadap bagian data yang relevan dengan query. Rumus
Recall adalah :
Gambar 13. Grafik Recall Berdasarkan Data Testing (20%)
Gambar 14. Grafik Recall Berdasarkan Data Testing (50%) Dalam klasifikasi binari, recall disebut juga dengan
sensitivity. Peluang munculnya data relevan yang diambil
sesuai dengan query dapat dilihat dengan recall.
3. A c c u r a c y
Accuracy adalah persentase dari total data ujicoba yang
benar diidentifikasi. Rumus Accuracy adalah :
Gambar 16. Grafik Accuracy Berdasarkan Data Testing (50%)
5. KESIMPULAN
Kesimpulan yang dapat diambil dari pembahasan di dalam jurnal ini adalah:
1. Klasifikasi data mining yang menghasilkan model rule
pohon keputusan dapat memprediksi kelas dari objek-objek pada basisdata karyawan indosat.
2. Pengukuran kinerja sebuah algoritma data mining dari data testing dilakukan berdasarkan beberapa kriteria yang diuji coba antar lain Precision, Recall dan Accuracy. 3. Hasil dari kinerja data testing (20%) antara lain
Precision : 88.24 %, Recall: 93.75 %, Accuracy : 84.21 %. 4. Hasil dari kinerja data testing (50%) antara lain Precision : 64.71 %, Recall: 94.50 %, Accuracy : 78.33 %. 5. Dengan tingkat accuracy adalah rata-rata diatas 80 % sehingga hasil dari sistem dapat mendukung keputusan seberapa tepatnya mempertimbangkan mutasi atau tidaknya karyawan.
DAFTARPUSTAKA
1. Hermawati Astuti, Fajar, 2013 Data Mining. Yogyakarta :
Andi
2. Kusrini dan Emha Taufiq Lutfi. 2009. Algoritma Data Mining. Yogyakarta : Andi
3. Khairina, Indah. Penggunaan Pohon Keputusan untuk Data
Mining, Program Studi Teknik Informatika Sekolah Teknik
Elektro dan Informatika. Bandung: 2013
4. Pramudiono, Iko. Pengantar Data Mining: Menambang
Permata Pengetahuan di Gunung Data.
http://www.ilmukomputer.com
5. Anonim, A Data Mining Glossary,