• Tidak ada hasil yang ditemukan

LAPORAN TUGAS AKHIR KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA

N/A
N/A
Protected

Academic year: 2021

Membagikan "LAPORAN TUGAS AKHIR KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA"

Copied!
84
0
0

Teks penuh

(1)

LAPORAN TUGAS AKHIR

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5

DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION

UNTUK MEMPREDIKSI KELULUSAN MAHASISWA

Disusun Oleh :

Nama

: Khoirul Muarif

NIM

: A11.2009.05066

Program Studi

: Teknik Informatika

FAKULTAS ILMU KOMPUTER

UNIVERSITAS DIAN NUSWANTORO

SEMARANG

2013

(2)

i

LAPORAN TUGAS AKHIR

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5

DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION

UNTUK MEMPREDIKSI KELULUSAN MAHASISWA

Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan

program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer Universitas Dian Nuswantoro

Disusun Oleh :

Nama

: Khoirul Muarif

NIM

: A11.2009.05066

Program Studi

: Teknik Informatika

FAKULTAS ILMU KOMPUTER

UNIVERSITAS DIAN NUSWANTORO

SEMARANG

2013

(3)

ii

PERSETUJUAN LAPORAN TUGAS AKHIR

Nama Pelaksana : Khoirul Muarif

NIM : A11.2009.05066

Program Studi : Teknik Informatika

Fakultas : Ilmu Komputer

Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5 Berbasis Particle Swarm Optimization Untuk Memprediksi Kelulusan Mahasiswa

Tugas Akhir ini telah diperiksa dan disetujui, Semarang, 24 Juli 2013

Menyetujui : Pembimbing

L. Budi Handoko, M.Kom.

Mengetahui :

Dekan Fakultas Ilmu Komputer

(4)

iii

PENGESAHAN DEWAN PENGUJI

Nama Pelaksana : Khoirul Muarif

NIM : A11.2009.05066

Program Studi : Teknik Informatika

Fakultas : Ilmu Komputer

Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5 Berbasis Particle Swarm Optimization Untuk Memprediksi Kelulusan Mahasiswa

Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir tanggal 18 Juli 2013. Menurut pandangan kami, tugas akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom.)

Semarang, 18 Juli 2013

Dewan Penguji:

Erna Zuni Astuti, M.Kom Sendi Novianto, S.Kom, MT

Anggota Anggota

Noor Ageng Setiyanto, M.Kom

(5)

iv

PERNYATAAN KEASLIAN TUGAS AKHIR

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya:

Nama : Khoirul Muarif

NIM : A11.2009.05066

Menyatakan bahwa karya ilmiah saya yang berjudul:

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK

MEMPREDIKSI KELULUSAN MAHASISWA

merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Semarang

Pada tanggal : 18 Juli 2013

Yang menyatakan,

(6)

v

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya:

Nama : Khoirul Muarif NIM : A11.2009.05066

demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive

Royalty-Free Right) atas karya ilmiah saya yang berjudul:

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK

MEMPREDIKSI KELULUSAN MAHASISWA

beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti Non-Eksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta.

Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini.

Demikian surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Semarang Pada tanggal : 12 Juli 2013

Yang menyatakan,

(7)

vi

KATA PENGANTAR

Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS

PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI

KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih kepada :

1. Dr.Ir. Edi Noersasongko,M.Kom, selaku Rektor Universitas Dian Nuswantoro Semarang.

2. Dr. Abdul Syukur selaku Dekan Fasilkom.

3. Dr. Heru Agus Santoso,M.Kom, selaku Ka.Progdi Teknik Informatika.

4. L. Budi Handoko, M.Kom, selaku pembimbing tugas akhir yang memberikan bimbingan yang berkaitan dengan penelitian penulis.

5. Ardhyta Luthfiarta, M.Kom.,M.Cs, yang memberikan masukan dan saran kepada penulis.

6. Amalia Hilda, yang memberikan lampiran berupa data kelulusan mahasiswa dalam thesisnya sebagai dasar obyek penelitian bagi penulis.

7. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan.

8. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro yang telah memberikan dukungan material dan moral kepada penulis.

Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya.

Semarang, 12 Juli 2013

(8)

vii

ABSTRAK

Perguruan tinggi merupakan tempat bagi mahasiswa untuk mendapat pengetahuan sebelum terjun bersaing dalam dunia kerja. Perguruan tinggi menjadi sangat berperan untuk menciptakan lulusan terbaik bagi kebutuhan dunia kerja. Jumlah kelulusan mahasiswa akan menjadi salah satu indikator keberhasilan suatu perguruan tinggi yang berdampak pada akreditasi pemerintah dan penilaian masyarakat. Penelitian tentang prediksi kelulusan mahasiswa telah banyak dilakukan untuk mengetahui lulus tepat waktu atau terlambat. Berdasarkan kondisi tersebut teknik data mining yang tepat digunakan adalah klasifikasi. Salah satu teknik klasifikasi data mining adalah C4.5. Dalam penelitian ini, membandingkan algoritma C4.5 dengan C4.5 berbasis PSO(Particle Swarm

Optimization) yang diterapkan pada data kelulusan mahasiswa. Dari hasil

pengujian digunakan tes cross validation, confusion matrix dan kurva ROC, diketahui bahwa C4.5 berbasis PSO terbukti dapat meningkat akurasi dari prediksi dengan 86.09% dan peforma yang ditunjukkan nilai AUC adalah 0.883 sedangkan C4.5 memiliki akurasi prediksi 84.13% dan nilai AUC 0.837. Dari penelitian ini, terbukti bahwa PSO dapat meningkatkan akurasi dan performa AUC.

Kata kunci : kelulusan mahasiswa, data mining, teknik klasifikasi data mining, C4.5, C4.5 berbasis PSO.

xiii + 70 halaman; 28 gambar; 17 tabel Daftar acuan: 24 (1995 – 2012)

(9)

viii

ABSTRACT

College is a place for students to gain knowledge before plunging to compete in the working world. College became a very important role to create the best graduates for the needs of the workforce. The minimum number of students would be one indicator of the success of a college accreditation impact on government and community assessment. Research on student graduation predictions have been carried out to determine graduate on time or late. Under these conditions the exact data mining techniques used are classification. One of the classification techniques of data mining is C4.5. In this study, compared with C4.5 C4.5 algorithm based on PSO (Particle Swarm Optimization) is applied to the data graduation. From the test results used cross validation test, confusion matrix and ROC curves, it is known that the PSO-based C4.5 proven to increase the accuracy of prediction by 86.09% and AUC values Performance shown is 0.883 while the C4.5 has a 84.13% prediction accuracy and AUC values 0837. From this study, it is evident that the PSO can improve the accuracy and performance of AUC.

Keywords: graduation, data mining, data mining classification techniques, C4.5, C4.5 based PSO.

(10)

ix

DAFTAR ISI

Halaman

Halaman Sampul Dalam i

Halaman Persetujuan ii

Halaman Pengesahan iii

Halaman Pernyataan Keaslian Tugas Akhir iv

Halaman Pernyataan Persetujuan Publikasi v

Halaman Kata Pengantar vi

Halaman Abstrak vii

Halaman Daftar Isi ix

Halaman Daftar Tabel xi

Halaman Daftar Gambar xii

BAB I PENDAHULUAN 1 1.1 Latar belakang 1 1.2 Rumusan masalah 5 1.3 Batasan masalah 6 1.4 Tujuan 6 1.5 Manfaat 7

BAB II TINJAUAN PUSTAKA 8

2.1 Tinjauan studi. 8 2.2 Landasan teori 12 2.2.1 Kelulusan Mahasiswa 12 2.2.2 Data mining 12 2.2.3 CRISP-DM 13 2.2.4 Pembobotan atribut 15 2.2.5 Algoritma C4.5 15

2.2.5.1 Pruning dalam pohon keputusan 18 2.2.6 Particle Swarm Optimization (PSO) 20

(11)

x

2.2.8 Confusion matrix 22

2.2.9 Kurva ROC 23

2.2.10 Kerangka pemikiran 23

BAB III METODE PENELITIAN 25

3.1 Desain penelitian 25 3.1.1 Pengumpulan data 25 3.1.1.1 Pemahaman bisnis 25 3.1.1.2 Pemahaman data 26 3.1.2 Pengolahan data 27 3.1.3 Pemodelan 28 3.1.3.1 Model C4.5 30

3.1.3.2 Model C4.5 dioptimasi PSO 35

3.1.4 Validasi dan evaluasi 39

3.1.5 Penyebaran 39

3.2 Alat penelitian 40

BAB IV HASIL PENELITIAN DAN PEMBAHASAN 41

4.4 Validasi dan evaluasi 41

4.4 Hasil percobaan dan pengujian metode 44

4.2.1 C4.5 44

4.2.2 C4.5 berbasis PSO 45

4.4 Pembahasan 50

4.4 Hasil pemodelan pohon keputusan dan Ruleₐ 51

4.4.1 Model C4.5 berbasis PSO 51

4.4.2 Model C4.5 59

BAB V PENUTUP 67

5.1 Kesimpulan 67

5.2 Saran 67

(12)

xi

DAFTAR TABEL

Halaman

Tabel 2.1 State of the art 9

Tabel 2.2 Contoh confusion matrix. 22

Tabel 3.1 Kedudukan atribut yang akan digunakan 27

Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk

pemodelan dalam bentuk excel 28

Tabel 3.3 Contoh Data Traning yang telah di replace missing value 28

Tabel 3.4 Jumlah kasus dari tiap atribut 30

Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi 33 Tabel 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu 33

Tabel 3.7 Split point yang digunakan 35

Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25 35 Tabel 3.9 Split point berdasar weight yang digunakan 38

Tabel 3.10 Confusion matrik C4.5 39

Tabel 3.11 Spesifikasi Software dan Hardware 40

Tabel 4.1 Hasil akurasi dan AUC dari C4.5 45

Tabel 4.2 Hasil percobaan menggunakan population size dan maximum number of generation secara berbeda 45

Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO 48

(13)

xii

DAFTAR GAMBAR

Halaman

Gambar 2.1 Siklus CRISP-DM ... 14

Gambar 2.2 Contoh pohon keputusan yang terbentuk ... 16

Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten ... 19

Gambar 2.4 Pohon keputusan setelah di pruning ... 20

Gambar 2.5 Ilustrasi tenfold cross validation ... 21

Gambar 2.6 Confusion matrix untuk 2 model kelas ... 22

Gambar 2.7 Kerangka pemikiran ... 24

Gambar 3.1 Data yang dilampirkan oleh Hilda ... 26

Gambar 3.2 Data set dalam bentuk excel ... 27

Gambar 3.3 Model yang di usulkan ... 29

Gambar 3.4 Model proses yang di usulkan ... 29

Gambar 4.1 Setting parameter pada rapidminer ... 41

Gambar 4.2 Desain model validasi C4.5 ... 42

Gambar 4.3 Desain model validasi C4.5 berbasis PSO ... 43

Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang ditampilkan oleh RapidMiner ... 44

Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh RapidMiner ... 44

Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar pada population size dan maximum number of generation ... 46

Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar pada population size dan maximum number of generation ... 46

(14)

xiii

Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang ditampilkan oleh RapidMiner berdasar pada population size bernilai 15

dan maximum number of generation bernilai 40 ... 47

Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan oleh RapidMiner berdasar pada population size bernilai 15 dan maximum number of generation bernilai 40 ... 48

Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5 dengan C4.5-PSO ... 49

Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5 dengan C4.5-PSO ... 49

Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri) ... 51

Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah) ... 52

Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan) ... 53

Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri) ... 59

Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah) ... 60

(15)

1

BAB I

PENDAHULUAN

1. Latar Belakang Masalah

Mahasiswa merupakan salah satu kelompok masyarakat elite yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012). Dalam masa kehidupan mahasiswanya, mereka berkembang untuk mematangkan intelektualnya sebagai persiapan dalam bersaing di dunia kerja nantinya dan lingkungan masyarakat.

Perguruan tinggi sekarang ini dituntut untuk mempunyai keunggulan daya saing dengan memanfaatkan dan memaksimalkan semua sumber daya yang dimiliki. Salah satunya adalah sistem informasi yang digunakan untuk meningkatkan daya saing dan juga dapat digunakan dalam pengolahan data menjadi informasi yang bernilai sebagai alat penunjang untuk kegiatan pengambilan keputusan strategis. Ini sesuai dengan dasar bahwa perguruan tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan sekolah.(Hilda, 2012).

Dalam lingkungan yang sangat kompetitif dan tujuan untuk mendapatkan keuntungan yang lebih dari bisnis maka organisasi pendidikan tinggi harus mampu meningkatkan kualitas layanan dan dapat memuaskan pelangan mereka. Mereka menganggap bahwa dosen dan mahasiswa merupakan aset utama, dengan menggunakan aset secara efektif dan efisien maka mereka berusaha untuk meningkatkan indikator – indikator kunci mereka.(Quadri &

(16)

2

Kalyankar, 2010). Dalam dunia pendidikan, mahasiswa merupakan aset yang penting di institusi pendidikan, maka harus diperhatikan tingkat kelulusan tepat waktunya.

Berbagai perguruan tinggi bersaing untuk meningkatkan tingkat kelulusan sesuai dengan misi masing-masing pergururuan tinggi dalam mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa. Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi tersebut.

Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan secara signifikan dan terus berkembang maka akan menjadi permasalahan yang serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat kelulusan mahasiswa diperlukan.

Berdasar pada peraturan yang disampaikan dalam buku II standard dan prosedur tentang akreditasi institusi perguruan tinggi oleh BAN-PT(Badan Akreditasi Nasional Perguruan Tinggi) tahun 2011 menyatakan bahwa salah satu aspek penilaian akreditasi adalah mahasiswa dan lulusan(BAN-PT, 2011). Jadi, tingkat kelulusan dan jumlah mahasiswa akan perpengaruh dalam proses akreditasi yang dilakukan oleh pemerintah. Setelah diberikan akreditasi terhadap komponen perguruan tinggi tersebut maka masyarakat umum akan mengetahui informasi akreditasi tersebut. Ketika akreditasi terhadap komponen

(17)

perguruan tinggi tersebut rendah maka akan berpengaruh terhadap penilaian masyarakat yang cinderung buruk dan penilaian buruk ini juga mempengaruhi minat masyarakat untuk mendaftarkan diri sebagai calon mahasiswa pada perguruan tinggi tersebut. Seperti yang tercantum pada berita replubika.co.id tanggal 24 Maret 2013 bahwa dalam lima tahun terakhir 11 Perguruan Tinggi Swasta(PTS) di Yogya tutup dikarenakan sepi peminat untuk menjadi calon mahasiswa di PTS tersebut(replubika, 2013). Oleh karena itu, analisa prediksi kelulusan mahasiswa diperlukan untuk memberikan informasi bagi civitas akademik mengenai mahasiswa yang dimungkinkan lulus terlambat.

Dewasa ini pendekatan data mining berkembang untuk mengatasi berbagai permasalahan menyangkut tentang pengolahan data. Beberapa peneliti menggunakan teknik data mining untuk menyelesaikan permasalahan prediksi kelulusan mahasiswa(Hilda, 2012), (Suhartina & Ernastuti, 2010).

Data mining adalah suatu cara yang bertujuan dalam penemuan pola

secara otomatis atau semi otomatis dari data yang sudah ada di dalam database atau sumber data lain yang dimanfaatkan untuk menyelesaikan suatu masalah melalui berbagai aturan proses(Witten, I.H, 2011 ). Data mining memiliki beberapa teknik, diantaranya klasifikasi dan clustering. Teknik klasifikasi adalah teknik pembelajaran yang digunakan untuk memprediksi nilai dari atribut kategori target (Vercellis, 2009). Klasifikasi bertujuan untuk membagi objek yang ditugaskan hanya ke salah satu nomor kategori yang disebut kelas ( Max Bramer, 2007). Clustering merupakan pengelompokkan objek atau data berdasarkan kemiripan antar data, sehingga anggota dalam satu kelompok memiliki banyak kemiripan dibandingkan dengan kelompok lain (Gorunescu, 2011). Untuk memprediksikan kelulusan mahasiswa, maka hasil pengolahan data akan diklasifikasikan menjadi dua kelas, yaitu tepat dan terlambat. Sehingga teknik klasifikasi paling tepat untuk digunakan dalam data mining ini. Metode yang paling populer digunakan untuk teknik klasifikasi adalah Decision

(18)

4

Trees, Naïve Bayes Classifiers (NBC), Statistical analysis, dan lain lain (Gorunescu, 2011).

Beberapa penelitian mengenai analisis prediksi kelulusan mahasiswa dengan metode klasifikasi data mining telah banyak dilakukan diantaranya adalah yang dilakukan oleh Hilda Amalia pada tahun 2012 yaitu mengkomparasi algoritma C4.5, naïve bayes, dan neural network. Dalam penelitian tersebut diketahui bahwa algoritma Nilai akurasi dan AUC tertinggi adalah neural network dan ternyata C4.5 masih tergolong fair classifacition. Dalam penelitian yang dilakukan Hilda belum ada optimasi dari algoritma yang digunakan, maka dimungkinkan untuk menggabungkan teknik algoritma lain dalam upaya meningkatkan akurasi dan AUC dari C4.5.

Decision tree memang populer dan sering digunakan dalam klasifikasi

karena memiliki hasil yang cukup baik jika dibanding algoritma lainnya. C4.5 juga dalam membentuk suatu model pembelajaran dari data tergolong cepat, selain itu karena model digambarkan dalam bentuk diagram pohon maka mudah dipahami. Namun, jika ada data yang tidak relevan dapat menurunkan akurasi C4.5 (Tsai & Chen, 2009). Di C4.5 seluruh atribut diseleksi untuk kemudian dibagi menjadi himpunan bagian yang lebih kecil (wu, 2009). Dengan jumlah data yang terlalu banyak, model yang terbentuk menjadi sulit dibaca seperti terbentuknya node yang redundant. Data yang akan diolah sebaiknya dilakukan proses pre-prosesing data.

Dibawah ini merupakan beberapa kelebihan dari pohon keputusan (Gorunescu, 2011):

a. Hasil analisa berupa diagram pohon yang sangat mudah dimengerti. b. Mudah untuk dibangun, serta membutuhkan data percobaan yang

lebih sedikit dibandingkan algoritma klasifikasi lainnya. c. Mampu mengolah data nominal dan kontinyu.

(19)

d. Model yang dihasilkan dapat dengan mudah dimengeri, berbeda dengan teknik klasifikasi yang lain seperti neural network yang menyajikan model dengan informasi logis yang tersirat.

e. Menggunakan teknik statistik sehingga dapat divalidasikan.

f. Waktu komputasi relative lebih cepat dibandingkan teknik klasifikasi yang lain.

g. Akurasi yang dihasilkan mampu menandingi teknik klasifikasi yang lainnya.

Salah satu algoritma optimasi yang cukup populer adalah PSO (Particle

Swarm Optimization). PSO banyak digunakan untuk memecahkan masalah

optimasi, serta sebagai masalah seleksi fitur (Liu, Wang, Chen, Dong, Zhu, & Wang, 2011). Algoritma PSO terinspirasi dari sekelompok burung yang bergerak secara dinamis kemudian dapat bersinergi serta dapat terorganisir. Ketika diterapkan dalam beberapa kasus untuk mengoptimalisasi algoritma klasifikasi, mampu meningkatkan akurasi lebih baik daripada Genetic

Algorithm adalah PSO(Sousa, Silva, & Neves, 2004, p. 768).

2. Rumusan Masalah

Prediksi kelulusan mahasiswa menjadi sangat penting untuk diketahui bagi civitas akademik sebagai model pertimbangan dalam menentukan kebijakan terkait kemudian memberikan treatment atau rangsangan terhadap mahasiswa diperkirakan terlambat lulus. Berdasarkan latar belakang permasalahan yang ada, penelitian yang menggunakan algoritma C4.5 untuk prediksi kelulusan mahasiswa masih kurang akurat. Diperlukan algoritma optimasi yang diterapkan untuk pembobotan atribut pada algoritma Particle

(20)

6

pengolahan data dapat digunakan sebagai salahsatu dasar pertimbangan untuk membuat suatu sistem pendukung keputusan dan dimanfaatkan oleh civitas akademik perguruan tinggi.

3. Batasan Masalah

Penelitian ini dibatasi pada perbandingan metode klasifikasi data mining yang menggunakan algoritma C4.5 dengan algoritma C4.5 berbasis PSO pada pembobotan atribut dalam prediksi kelulusan mahasiswa kemudian mengevaluasi hasil perbandingan untuk mengetahui dampak dari optimalisasi

PSO. Data diperoleh dari kelulusan mahasiswa sebuah perguruan tinggi.

Batasan masalah lebih rinci adalah sebagai berikut :

1. Teknik yang digunakan merupakan teknik klasifikasi data mining. 2. Algoritma yang dipakai adalah decision tree khususnya C4.5 berdasar

pada information gain.

3. Teknik optimasi yang dipakai adalah Particle Swarm Optimization (PSO).

4. Tujuan Penelitian

Tujuan dari penelitian ini adalah membuktikan bahwa optimalisasi dengan berdasar algoritma PSO yang digunakan untuk memilih dan memberi bobot atribut dari dataset pada algoritma C4.5 dapat meningkatan akurasi analisa kelulusan mahasiswa dibanding akurasi analisa yang hanya menggunakan algoritma C4.5.

(21)

5. Manfaat Penelitian a. Bagi Akademik

Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :

a. Memberikan informasi untuk menganalisa kelulusan mahasiswa yang dimungkinkan akan lulus tepat atau terlambat dan dapat membantu civitas akademik perguruan tinggi untuk memberikan peringatan dini dan pembimbingan awal bagi mahasiswa yang kemungkinan tidak lulus tepat waktu.

b. Membantu perguruan tinggi dalam membuat kebijakan untuk bisa meningkatkan kelulusan mahasiswa.

b. Bagi Masyarakat dan Ilmu Pengetahuan

Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :

a. Memberikan pertimbangan bahwa teknik atau model klasifikasi yang digunakan pada penelitian ini dapat dimanfaatkan tidak hanya fokus pada masalah dunia pendidikan, seperti bank, penjualan, kasus bisnis lain.

c. Bagi Peneliti

Manfaat yang dapat di ambil dari penelitian ini adalah :

a. Memberikan kontribusi keilmuan pada penelitian bidang klasifikasi data mining khususnya untuk prediksi kelulusan mahasiswa.

b. Dapat mengetahui perbandingan tingkat akurasi dan error terhadap algoritma yang digunakan.

c. Memberikan prediksi digunakan untuk rujukan penelitian selanjutnya dengan metode yang sama ataupun pengoptimalan dengan algoritma lain.

(22)

8

BAB II

TINJAUAN PUSTAKA

Penelitian TA ini menggunakan beberapa referensi media sebagai landasan teori diantaranya buku, jurnal baik jurnal nasional maupun internasional serta prosiding sebagai referensi.

2.1 Tinjauan studi

Beberapa jurnal dan artikel penelitian yang berhubungan dengan teknik klasifikasi algoritma data mining yang memiliki keterkaitan dalam topik penelitian yaitu :

1. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi Kelulusan Mahasiswa.(Hilda Amalia, 2012)

Membuat penelitian model dengan menggunakan tiga algoritma yaitu C4.5, neural network dan naïve bayes dan membandingkannya untuk menemukan algoritma terbaik dalam menyelesaikan masalah prediksi kelulusan mahasiswa menggunakan variabel fakultas, IPS(Indeks Prestasi Semester), umur dan jenis kelamin.

2. Drop Out Feature of Student Data for Academic Using Decision Tree Techniques (Quadri & Kaylanyar, 2010)

Melakukan penelitian dengan menggunakan algoritma J4.8 dan nantinya akan menggunakan C4.5 untuk memodelkan prestasi akademik siswa sangat penting bagi lembaga pendidikan untuk menyusun rencana strategis menghasilkan pohon keputusan.

3. Graduation Prediction of Gunadarma Student Using Naïve Bayes and Decision Tree (Suhartina & Ernastuti, 2010)

Penelitian ini membandingkan keakuratan antara algoritma native bayes dengan C4.5 berdasar pada variabel ips(indek prestasi semester)

(23)

4. Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan Multimedia Dengan Algoritma C4.5 Berbasis Particle Swarm Optimization(Desiyanna Lasut, 2012)

Penelitian yang dilakukan adalah memaksimalkan algoritma C4.5 dengan PSO dan membandingkan hasil keakurasian yang diperoleh untuk memprediksikan kemungkinan loyal atau tidak.

Tabel 2.1 State of the art

n o Peneliti t a h u n

Judul metode Hasil Catatan

1 Desiyan na Lasut 2 0 1 2 Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan Multimedia Dengan Algoritma C4.5 Berbasis Particle Swarm Optimization C4.5 dan C4.5 optimasi dengan PSO

Penggunaan PSO dalam

pembobotan attribut

dapat mengolah data

numerik sehingga

meningkatkan akurasi

model yang digunakan.

Dengan akurasi dari

78.40 menjadi 80.90 dan

AUC dari 0.794 menjadi 0.841

1. attribut yang diolah sebaiknya diproses terlabih dahulu, proses diskretisasi, pengelompokkan nilai attribut dapat secara efektif meningkatkan akurasi dari algoritma C4.5, 2. atribut numerik yang diolah dapat ditingkatkan, dengan begitu optimasi bobot oleh algoritma PSO dapat lebih efektif. 2 Hilda 2 0 1 2 ANALISA DAN KOMPARASI METODE KLASIFIKASI DATA MINING UNTUK PREDIKSI KELULUSAN MAHASISWA C4.5, neural network dan naïve bayes 1. Algoritma C4.5 menghasilkan nilai akurasi yaitu 74.33% dan nilai AUC yaitu 0.787, 2. Naïve Bayes

menghasilkan nilai

akurasi yaitu 69.72% dan nilai AUC yaitu

0.829, 3. Neural

Network menghasilkan

nilai akurasi yaitu

78.29% dan nilai AUC yaitu 0.848, 4. Nilai

akurasi dan AUC

tertinggi adalah metode Neural Network

1. Atribut jenis kelamin tidak berpengaruh pada hasil pohon

keputusan, sehingga perlu

dilakukan penyeleksian atribut seperti penggunaan Chi-Square, 2. Nilai akurasi yang dihasilkan dari setiap metode berada pada nilai 60-70 % saja, sehingga masih

bisa di tingkatkan dengan

menggunakan metode optimasi seperti AdaBoost, PSO atau yang lainnya, 3. Nilai akurasi dan AUC tertinggi untuk penelitian ini diperoleh oleh metode neural network dengan nilai 78.13% dan 0.848, yang termasuk kategori baik namun belum sangat baik,

sehingga dapat dilakukan

perbandingan lagi dengan

metode klasifikasi data mining lainnya

(24)

10 3 Susanto 2 0 1 2 Segmentasi dan Klasifikasi Perilaku Pembayaran Pelanggan pada Perusahaan Penyedia Layanan Multimedia dengan Algoritma K-Means dan C4.5 C4.5 dan C4.5 optimasi dengan K-Means 1. Dengan menggunakan k-means, tingkat potensial

pelanggan dapat diukur,

selain itu dapat

membentuk atribut

yang handal untuk

proses klasifikasi, 2.

Peningkatan model

yang terbentuk cukup signifikan peningkatan.

Hasil Akurasi dari

59.02% menjadi 77.31% dan AUC dari 0.537 menjadi 0.836

1. Karena data yang dimiliki sebagian besar terdiri dari nilai

numerik, dapat dilakukan

diskretisasi. 2. Dapat menerapkan

algoritma optimasi untuk

pemilihan atribut, atau

penyesuaian nilai parameter.

Menggunakan algoritma lain yang lebih cocok dalam pengolahan data numerik seperti chi square agar didapat titik perpecahan yang lebih beragam

4 Kahfi Heryandi Suradiraj a 2 0 1 2 DETEKSI TRANSAKSI PENCUCIAN UANG DENGAN ALGORITMA KLASIFIKASI C4.5 C4.5 1. algoritma klasifikasi C4.5 pada data transaksi perbankan yang memiliki akurasi terbaik untuk C4.5 adalah menggunakan Pre-Pruning dan Pruning yakni dengan nilai AUC 0.936 (Excelent Classification). 2. Pengaruh penerapan Pruning dan Pre-Pruning keduanya sebagai parameter dapat meningkatkan akurasi algoritma decision tree, pada information gain atau ID3 memiliki nilai 0.865, pada gini index memiliki nilai AUC 0.907 dan pada C4.5 memiliki nilai AUC terbaik 0.936.

1. Membandingkan tingkat akurasinya dengan model algoritma lain seperti Naive Bayes atau Support Vector Machine. 2. Membandingkan hasil akurasinya dengan data yang bukan imbalance. 3. Membandingkan pengukuran akurasi dengan model evaluasi lain seperti Precission and Recall atau Cost-sensitive Measure 5 Firmansy ah 2 0 1 1 Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan Kelayakan Pemberian Kredit Koperasi C4.5 algoritma klasifikasi C4.5 akurat diterapkan untuk penentuan kelayakan kredit koperasi, dengan tingkat keakuratan 90%

1.Melakukan pruning sehingga pohon yang terbentuk tidak

terlalu besar, untuk

mengefisienkan kinerja dari

pohon keputusan tanpa

mengurangi keakuratannnya

2.Untuk menambah keakuratan,

algoritma C4.5 dapat

digabungkan dengan metode lain seperti naive bayes atau support

vector machine 3.Penelitian

dapat dikembangkan dengan

menggunakan metode seleksi

atribut yang lain seperti chi-square, gini index dan sebagainya untuk ketepatan penyeleksian atribut

(25)

6 Henilei 2 0 1 1 Komparasi Algoritma Klasifikasi Data Mining untuk Penentuan Kelayakan Pembiayaan Konsumen Kredit Kendaraan Bermotor C4.5, naïve bayes dan neural network •metode pengujian Cross Validation,

Confusion Matrix dan Kurva ROC, diketahui bahwa algoritma C4.5 memiliki nilai accuracy dan AUC paling tinggi,

diikuti oleh metode

neural network, dan

yang paling rendah

metode naïve bayes

•Metode C4.5 dan

neural network

termasuk kelompok

klasifikasi sangat baik karena nilai AUC-nya

antara 0.90-1.00

sedangkan nilai AUC metode naïve bayes

termasuk kelompok

klasifikasi baik karena nilai AUC-nya antara 0.80-0.90.

•Agar hasil penelitiannya lebih bisa digeneralisasi secara luas, untuk penelitian selanjutnya, dapat dilakukan penelitian dengan data yang berasal dari banyak perusahaan leasing.

7 Siti Masripa h 2 0 1 1 Algoritma Klasifikasi C4.5 berbasis PSO (Particle Swarm Optimization) untuk Evaluasi Penentuan Kelayakan Pemberian Kredit Koperasi Syariah C4.5 dan C4.5 optimasi dengan PSO

1. Nilai akurasi untuk algoritma klasifikasi

C4.5 senilai 88%

sedangkan untuk nilai akurasi algoritma C4.5 berbasis PSO (Particle

Swarm Optimization)

senilai 94%, 2. Nilai AUC untuk algoritma C4.5 senilai 0,898 dengan

diagnosa Good

Classification.

Sedangkan nilai AUC untuk algoritma C4.5 berbasis PSO (Particle

Swarm Optimization) senilai 0.955 dengan diagnosa Excellent Classification N.A 8 M. N. Quadri and N.V. Kalyanka r 2 0 1 0

Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques decision

tree J48 N.A N.A

9 Marselin a Silvia Suhartin ah, Ernastuti 2 0 1 0 GRADUATION PREDICTION OF GUNADARMA UNIVERSITY STUDENTS USING ALGORITHM AND NAIVE BAYES C4.5 ALGORITHM Naive Bayes, C4.5 prediksi ketepatan dengan algoritma C4.5 85,7% dan error 14,3%, sedangkan algoritma

naïve bayes 80,85% dan error 19,05%

Pada penelitian kali ini data training yang digunakan terbatas yaitu sebanyak 65 record data dan ketidaklengkapan data yang diperoleh . Untuk

melihat kinerja yang lebih baik dalam hasil akurasi masing-masing algoritma maka jumlah record data yang digunakan untuk proses training sebaiknya ditingkatkan mendekati jumlah data sesungguhnya

(26)

12

Berdasarkan tinjauan studi diatas ada beberapa peneliti yang sudah menggunakan C4.5 dan PSO dalam berbagai kasus. Sesuai tabel performa terbukti menjadi lebih baik jika dikombinasikan dengan algoritma lain pada seleksi atribut. PSO yang diterapkan pada seleksi atribut terbukti berhasil meningkatkan akurasi pada C4.5. Penelitian ini menggunakan PSO untuk menentukan fitur terbaik pada bobot atribut yang sesuai dan optimal pada C4.5 sehingga hasil prediksi lebih akurat.

2.2 Landasan teori

Penulis meninjau beberapa buku dan jurnal sebagai landasan untuk menjelaskan berbagai hal yang berhubungan dengan topik penelitian.

2.2.1 Kelulusan Mahasiswa

Mahasiswa merupakan salah satu kelompok masyarakat elite yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012). Kelulusan mahasiwa merupakan hal yang penting untuk diperhatikan, karena penurunan jumlah kelulusan akan menghilangkan jumlah pendapatan institusi dan juga akan berpengaruh pada penilaian pemerintah dengan bentuk status akreditasi institusi (Karamouiz & Vrettos, 2008). Beberapa faktor yang dapat mempengaruhi kelulusan mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi Semester (IPS), gaji orang tua dan pekerjaan orang tua (Suhartinah & Ernastuti, 2010).

2.2.2 Data Mining

Data mining adalah suatu proses untuk menemukan hubungan

(27)

database menggunakan teknologi pengenalan pola dan statistik (Larose, 2005). Data mining adalah proses menggali informasi atau pola dalam data berukuran besar yang sudah ada dalam database untuk keperluan tertentu. Salah satu teknik dari data mining adalah klasifikasi yang tujuannya membagi objek untuk ditugaskan hanya ke salah satu nomor kategori yang disebut kelas (Max Bramer, 2007). Variable target dari klasifikasi adalah variable kategori (Larose, 2005). Klasifikasi adalah suatu proses pencarian untuk memprediksi kelas dari suatu obyek yang belum diketahui kelasnya.

2.2.3 CRIPS-DM

Cross-Industry Standart Proses for Data Mining (CRIPS-DM)

dikembangkan pada tahun 1996 oleh analis dari beberapa industri. CRIPS-DM menyediakan standart proses data mining sebagai pemecahan masalah secara umum dari bisnis atau unit penelitian. CRIPS-DM memiliki siklus hidup yang terbagi dalam enam fase, yaitu (Larose, 2005) :

(28)

14

Gambar 2.1 Siklus CRISP-DM (Larose, 2005)

a. Pemahaman Bisnis(Business Understanding)

Merupakan tahap awal yaitu pemahaman penelitian, penentuan tujuan dan rumusan masalah data mining.

b. Pemahaman Data(Data Understanding)

Dalam tahap ini dilakukan pengumpulan data, mengenali lebih lanjut data yang akan digunakan.

c. Pengolahan Data(Data Preparation)

Tahap ini adalah pekerjaan berat yang perlu dilaksanakan secara intensif. Memilih kasus atau variable yang ingin dianalisis, melakukan perubahan pada beberapa variable jika diperlukan sehingga data siap untuk dimodelkan.

(29)

d. Pemodelan(Modeling)

Memilih teknik pemodelan yang sesuai dan sesuaikan aturan model untuk hasil yang maksimal. Dapat kembali ke tahap pengolahan untuk menjadikan data ke dalam bentuk yang sesuai dengan model tertentu.

e. Evaluasi (Evaluation)

Mengevaluasi satu atau model yang digunakan dan menetapkan apakah terdapat model yang memenuhi tujuan pada tahap awal. Kemudian menentukan apakah ada permasalahan yang tidak dapat tertangani dengan baik serta mengambil keputusan hasil penelitian.

f. Penyebaran (Deployment)

Menggunakan model yang dihasilkan seperti pembuatan laporan atau penerapan proses data mining pada institusi lain.

2.2.4 Pembobotan atribut

Tidak semua atribut memiliki peranan penting dalam akurasi. Pembobotan atribut adalah proses pemberian nilai pada setiap atribut dengan metode tertentu berdasarkan tingkat pengaruhnya terhadap nilai akurasi (Witten, 2011). Pembobotan atribut pada penelitian ini menggunakan metode Particle Swarm Optimization (PSO).

2.2.5 Algoritma C4.5

Disebut juga dengan Desicion Tree adalah pengklasifikasian statistik yang didasarkan pada Desicion Tree yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas. Desicion

Tree terbukti memiliki akurasi dan kecepatan yang tinggi saat

(30)

16

Desicion Tree menyerupai struktur flowchart, yang

masing-masing internal node-nya dinyatakan sebagai atribut pengujian, setiap cabang mewakili output dari pengujian, dan setiap node daun (terminal

node) menentukan label class. Node paling atas dari sebuah pohon

adalah node akar (Han & Kamber, 2007). Salah satu metode klasifikasi yang menarik melibatkan konstruksi pohon keputusan, koleksi node keputusan, terhubung oleh cabang-cabang, memperpanjang bawah dari simpul akar sampai berakhir di node daun. Dimulai di node root, yang oleh konvensi ditempatkan di bagian atas dari diagram pohon keputusan, atribut diuji pada node keputusan, dengan setiap hasil yang mungkin dihasilkan dalam suatu cabang. Setiap cabang kemudian mengarah baik ke node lain keputusan atau ke node daun untuk mengakhiri (Larose, 2005).

Gambar 2.2 Contoh pohon keputusan yang terbentuk (Santosa, 2007)

Beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:

1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelas kelas tertentu.

2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari

(31)

masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung gain dari atribut, hitung dahulu nilai entropy yaitu:

(2.1)

Keterangan:

S : himpunan kasus A : atribut

N : jumlah partisi S

Pi : proporsi dari Si terhadap S

3. Kemudian hitung nilai gain dengan metode informasi gain:

(2.2)

4. Ulangi langkah ke-2 hingga semua tupel terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat:

a. Semua tupel dalam node N mendapat kelas yang sama. b. Tidak ada atribut di dalam tupel yang dipartisi lagi. c. Tidak ada tupel di dalam cabang yang kosong.

Langkah-langkah diatas digunakan untuk menangani atribut nominal. Perhitungan dengan metode Entropy Based Discretization di gunakan untuk menangani atribut yang bersifat kontinu. Metode ini menggunakan entropy sebagai bagian dari proses pemisahan selang data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai pemisah yang terbaik maka harus dihitung nilai split ploint, nilai

(32)

18

1. Urutkan data subset dari yang terkecil sampai yang terbesar. 2. Hitung rataan nilai per 2 data yang bersebelahan yang

digunakan untuk split point dengan formula 2.3. Setiap nilai rata-rata merupakan titik nilai yang mungkin menjadi titik perpecahan (split_point) untuk memilih titik terbaik, data akan dipecah menurut titik yang diuji.

3. Hitung nilai informasi dari kedua sampel(Sₐ) dengan formula 2.5. Kemudian T(split point) yang memilki nilai informasi terkecil diambil sebagai batas node.

(2.3)

(2.4)

(2.5)

Dimana, T merupakan nilai batas (split point)

2.2.5.1 Pruning dalam pohon keputusan

Untuk mendapatkan data yang benar benar sejenis, maka akan terbentuk banyak sekali cabang dalam pohon keputusan. Data yang terlalu beragam ataupun data acak akan membuat struktur pohon keputusan menjadi terlalu rumit (Alpaydın, 2010). Di dalam pohon keputusan dikenal istilah pruning yaitu memangkas cabang yang tidak terlalu besar pengaruhnya agar diagram dihasilkan lebih akurat dan simple.

(33)

Ada dua pendekatan pruning yang digunakan :

a. Prepruning menghentikan proses pembuatan cabang pada titik tertentu. Semakin besar perulangan pembuatan cabang yang diperbolehkan, semakin besar pula kompleksitas dari pohon keputusan yang didapat jika data beragam, namun jika jumlah perulangan terlalu kecil, diagram pohon yang dihasilkan menjadi kurang akurat.

b. Postpruning memotong cabang pohon yang kurang mereprensentasikan data setelah sebuah pohon keputusan terbentuk. Kelas yang diberikan akan diukur dari jumlah persebaran label yang ada pada cabang tersebut.

Algoritma C4.5 menggunakan pessimistic pruning yang mampu mengkalkulasi tingkat error yang digunakan sebagai acuan dalam pemangkasan cabang pohon keputusan. Baik

postpruning dan prepruning dapat dikombinasikan karena

tidakada teknik yang lebih baik antara keduanya. Walaupun pohonkeputusan yang muncul setelah pruning akan lebih singkat, namun terkadang masih muncul repetisi dan replikasi cabang.

Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten(Desiyana, 2012)

(34)

20

Gambar 2.4 Pohon keputusan setelah di pruning(Desiyana, 2012)

2.2.6 Particle Swarm Optimization (PSO)

PSO adalah algoritma pencarian berbasis populasi yang diinisialisasi dengan populasi solusi acak dan digunakan untuk memecahkan masalah optimasi (Abraham, Grosan, & Ramos, 2006). PSO adalah metode optimasi heuristic global yang diperkenalkan oleh Dokter Kennedy dan Eberhart pada tahun 1995 berdasarkan penelitian terhadap perilaku kawanan burung dan ikan (Bai, 2010).

Setiap partikel dalam PSO juga dikaitkan dengan kecepatan partikel terbang melalui ruang pencarian dengan kecepatan yang dinamis disesuaikan untuk perilaku historis mereka. Oleh karena itu, partikel memiliki kecenderungan untuk terbang menuju daerah pencarian yang lebih baik dan lebih baik selama proses pencarian (Abraham, Grosan, & Ramos, 2006).

Rumus untuk menghitung perpindahan posisi dan kecepatan partikel yaitu :

ܸ݅ሺݐሻ ൌ ܸ݅ሺݐ െ ͳሻ ൅ ܿͳݎͳൣܺ݌ܾ݁ݏݐ݅ െ ܺ݅ሺݐሻ൧ ൅ ܿʹݎʹሾܺܩܾ݁ݏݐ െ ܺ݅ሺݐሻሿ (2.6)

(35)

Dimana :

· Vi(t) = kecepatan partikel i saat iterasi t · Xi (t) = posisi partikel i saat iterasi t

· c1 dan c2 = learning rates untuk kemampuan individu (cognitive)

dan pengaruh sosial (group)

· r1 dan r2 = bilangan random yang berdistribusi uniformal dalam

interval 0 dan 1

· XPbesti = posisi terbaik partikel i · XGbest = posisi terbaik global

2.2.7 Cross validation

Cross validation adalah teknik pengambilan sampel secara

random yang menjamin setiap jumlah kemunculan data yang diamati dama dengan jumlah data training dan hanya sekali pada data testing (Vercellis, 2009). Dalam cross validation kita harus menetapkan jumlah partisi atau fold, standar yang biasa digunakan untuk memperoleh estimasi kesalahan terbaik adalah 10 kali partisi atau

tenfold cross-validation (Gorunescu, 2011). Data dibagi secara random

menjadi 10 bagian dengan perbandingan yang sama kemudian error

rate dihitung bagian demi bagian, selanjutnya error rate secara

keseluruhan diperoleh dari menghitung rata-rata error rate dari 10 bagian

.

(36)

22

2.2.8 Confusion matrix

Untuk melakukan evaluasi terhadap model klasifikasi berdasarkan perhitungan objek testing mana yang diprediksi benar dan tidak benar. Perhitungan ini ditabulasikan kedalam tabel yang disebut

confusion matrix (Gorunescu, 2011). Confusion matrix merupakan data set hanya memiliki dua kelas, kelas yang satu sebagai positif dan

kelas yang lain sebagai negatif. Terdiri dari empat sel yaitu True Positives (TP), False Positives (FP), True Negatives (TN) dan False Negatives (FN) (Max Bramer, 2007).

Gambar 2.6 Confusion matrix untuk 2 model kelas (Gorunescu, 2011)

Untuk menghitung akurasi menggunakan rumus (Gorunescu, 2011):

ܣܿܿݑݎܽܿݕ ൌ

ܽ൅ܾ൅ܿ൅݀ܽ൅݀

ܶܲ൅ܨܲ൅ܶܰ൅ܨܰܶܲ൅ܶܰ (2.8)

Tabel 2.2 Contoh confusion matrix

Model C4.5 Kelas yang prediksi

Kelas yang di amati

250 45

5 200

Dari table di atas dapat dilakukan pengukuran akurasi model C4.5 sebagai berikut :

(37)

—”ƒ•‹ ൌ ʹͷͲ ൅ Ͷͷ ൅ ͷ ൅ ʹͲͲ ൌ ʹͷͲ ൅ ʹͲͲ ͶͷͲͷͲͲ ൌ ͻͲΨ

2.2.9 Kurva ROC

Kurva ROC menunjukan visualisasi dari akurasi model dan perbandingkan perbedaan antar model klasifikasi. ROC

mengekspresikan confusion matrix (Vercellis, 2009). ROC adalah grafik dua dimensi dengan false positives sebagai garis horizontal dan

true positives untuk mengukur perbedaaan performasi metode yang

digunakan. Kurva ROC adalah teknik untuk memvisualisasi dan menguji kinerja pengklasifikasian berdasarkan performanya (Gorunescu, 2011). Model klasifikasi yang lebih baik adalah yang mempunyai kurva ROC lebih besar (Vercellis, 2009). Performa keakurasian AUC dapat diklasifikasikan menjadi lima kelompok yaitu (Gorunescu, 2011): a. 0.90 – 1.00 = Unggul b. 0.80 – 0.90 = Baik c. 0.70 – 0.80 = Cukup d. 0.60 – 0.70 = Kurang e. 0.50 – 0.60 = Gagal 2.2.10 Kerangka pemikiran

Masalah yang ditemui pada penelitian ini adalah kurang akuratnya algoritma C4.5 untuk memprediksikan kelulusan mahasiswa. Maka digunakan model algoritma Particle Swarm

Optimization (PSO) dalam seleksi atribut pada algoritma C4.5 untuk

meningkatkan akurasi. Desain penelitian ini menggunakan CRISP-DM dan RapidMiner digunakan sebagi aplikasi model untuk pengembangannya. Kemudian dilakukan pengujian hasil terhadap

(38)

24

kinerja dari algoritma C4.5 dan algoritma C4.5 berbasis PSO dengan menggunakan metode Cross Validation, tingkat akurasi algoritma diukur dengan Confusion Matrix dan AUC dengan kurva ROC. Dari hasil perbandingan nilai akurasi maka akan diketahui dampak penerapan PSO di algoritma C4.5.

Gambar 2.7 Kerangka pemikiran

Pengujiaan confusion matrix dan AUC Penerapan CRISP-DM Pengembangan metode masalah Kurang akuratnya algoritma C4.5 untuk memprediksikan kelulusan mahasiswa

Algoritma C4.5 Rapid miner framework

Data set mahasiswa lulus tepat waktu dan

terlambat akurasi

Algoritma C4.5 berbasis PSO pada seleksi atribut dan

bobot

Rapid miner framework

Data set mahasiswa lulus tepat waktu dan

terlambat

(39)

25 3.1 Desain penelitian

Metode yang digunakan dalam penelitian ini adalah model CRISP-DM, dengan langkah-langkah sebagai berikut :

3.1.1 Pengumpulan data

3.1.1.1 Pemahaman bisnis (Bussiness understanding)

Berbagai perguruan tinggi bersaing untuk meningkatkan tingkat kelulusan sesuai dengan misi masing-masing pergururuan tinggi dalam mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa. Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi tersebut.

Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan secara signifikan dan terus berkembang maka akan menjadi permasalahan yang serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat kelulusan mahasiswa diperlukan. Jadi, prediksi untuk

(40)

26

kelulusan sangat diperlukan untuk dapat memberikan pertimbangan kebijakan yang akan diambil oleh lembaga pendidikan setelah mengetahui kemungkinan aset mereka berupa mahasiswa akan telat untuk kelulusannya.

3.1.1.2 Pemahaman data (Data understanding)

Data yang digunakan pada penelitian ini berasal dari penelitian Hilda tahun 2012 level thesis STIMIK NUSA MANDIRI JAKARTA yang berupa lampiran data kelulusan mahasiswa berjumlah 1632 record dan terdiri dari 14 atribut, dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal. Data tersebut digunakan oleh Hilda untuk dilakukan prediksi kelulusan mahasiswa(Hilda, 2012).

Gambar 3.1 Data yang dilampirkan oleh Hilda (kolom status terpotong)

(41)

Setelah data tersebut dilakukan penulisan kembali dalam bentuk yang sama disimpan dengan ekstensi excel maka tampilan data seperti dibawah ini :

Gambar 3.2 Data set dalam bentuk excel

3.1.2 Pengolahan Data (Data preparation)

Dalam tahap ini, data yang akan dipergunakan adalah sebagai berikut :

Table 3.1 Kedudukan atribut yang akan digunakan

Atribut Kegunaan

NIP √ ID

NAMA X No

FALKULTAS √ regular(nilai model)

Jeniskelamin √ regular(nilai model)

Umur √ regular(nilai model)

IPS1 √ regular(nilai model)

IPS2 √ regular(nilai model)

IPS3 √ regular(nilai model)

IPS4 √ regular(nilai model)

IPS5 X No

IPS6 X No

IPS7 X No

IPS8 X No

(42)

28

Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk pemodelan dalam bentuk excel

NIP FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 STATUS

76183 ILMUPENDIDIKAN PEREMPUAN 21 3.44 3.43 3.91 3.45 TEPAT 70029 ILMUPENDIDIKAN PEREMPUAN 21 4 3.13 3.43 3.55 TEPAT 76152 ILMUPENDIDIKAN PEREMPUAN 0 2.9 3 3.03 TEPAT 76174 ILMUPENDIDIKAN PEREMPUAN 21 3.56 3.26 3.91 3.36 TEPAT

Kemudian dari data diatas maka langkah berikutnya dilakukan

replace missing value berdasar pada model average yaitu

menggantikan nilai yang kosong dengan nilai rataan yang akan muncul pada data traning tersebut.

Tabel 3.3 Contoh Data Traning yang telah di replace missing

value

NIP FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 STATUS

76049 ILMUPENDIDIKAN LAKI-LAKI 27 0 0 2.76 2.99 TEPAT 76050 ILMUPENDIDIKAN PEREMPUAN 26 0 0 3 2.9 TEPAT 76120 ILMUPENDIDIKAN PEREMPUAN 23 3.13 3.5 3.67 3.54 TEPAT 76149 ILMUPENDIDIKAN LAKI-LAKI 22 3.33 3.52 4 3.55 TEPAT 76151 ILMUPENDIDIKAN PEREMPUAN 22 3.44 3.26 3.65 3.45 TEPAT 76152 ILMUPENDIDIKAN PEREMPUAN 24 0 2.9 3 3.03 TEPAT 76154 ILMUPENDIDIKAN PEREMPUAN 22 3.22 3.35 3.3 3.36 TEPAT 76155 ILMUPENDIDIKAN PEREMPUAN 23 3.22 3.26 3.65 3.82 TEPAT 76157 ILMUPENDIDIKAN PEREMPUAN 22 2.89 3.3 3.65 3.09 TEPAT

3.1.3 Pemodelan (Modelling)

Terdapat dua metode yang digunakan yaitu algoritma C4.5 dan algoritma C4.5 yang dikombinasikan dengan algoritma PSO pada seleksi atribut. Untuk membandingkan atau mengkomparasi dalam penelitian ini akan menggunakan framework RapidMiner versi 5.3 sehingga akan ditemukan algoritma mana yang paling akurat.

(43)

act Gambaran umum data proses

start

replace missing v alue pada dataset dengan model av erage

menghitung nilai ENTROPY dari total data traning berdasar j umlah kasus

meruj uk ke label/hasil

perhitungan dikelompokkan per atribut

dari subset atribut yang ada didalamnya

menghitung nilai INFORMATION GAIN

data bersifat kontinyu ?

subset data dari atribut diurutkan dari yang terkecil ke yang terbesar

menghitung rata-rata nilai dari tiap subset data yang bersebelahan per 2 data (MEAN)sebagai split point

menghitung nilai entropi tersendiri untuk nilai rataan/split point berdasar

nilai entropy yang mengapitnya

menentukan nilai split point yang diambil berdasar information gain atribut- entropi tersendiri diambi split info nilainya

ter kecil menghitung information

gain atribut tersebut

menetukan information gain terbesar untuk dij adikan node/tupel

tertinggi

menentukan simpul berikutnya/node

dibaw ahnya

proses selesai ?

node terpilih berupa nilai kontinyu finish

nilai / range nilai node diatasnya sebagai batas dan tidak bisa

muncul di node baw ahnya menghitung nilai ENTROPY tiap

atribut yang memiliki subset berdasar j umlah kasus meruj uk ke

label/hasil

optimasi pso ?

Pemberian bobot pada tiap atribut

menghitung nilai entropy tiap atribut dikalikan bobot

menghitung nilai information gain dari

entropy

data bersifat kontinu ?

Setiap perhitungan information gain, entropi berdasar nilai bobot untuk menentukan

split point menghitung information gain berdasar bobot

node subset atribut sebagai batas untuk perhitungan node

dibaw ahnya [tidak]

[ya] [tidak] [tidak] [ya] [ya] [tidak] [ya] [tidak] [ya] Modelling C4.5 Modelling C4.5 + PSO Data set Preprocesing

Replace Missing value

New data set

Traning Data Traning Data Evaluation Confusion Matrix Kurva ROC

Data testing Data testing

Compare - Accuracy - AUC Perform

Gambar 3.3 Model yang di usulkan

(44)

30

Setelah memodelkan alur proses yang akan dilakukan, maka akan ilakukan pembentukan pohon keputusan. Perhitungan secara manual diberikan berdasar model C4.5 dan C4.5+PSO pada sub-bab dibawah ini.

3.1.3.1 Model C4.5

Beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:

1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelas kelas tertentu.

2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung gain dari atribut, hitung dahulu nilai entropy yaitu:

Table 3.4 Jumlah kasus dari tiap atribut

Simpul Kasus Tepat Terlambat

Jumlahkasus 1632 684 948

fakultas

bahasa dan seni 267 167 100

ekonomi 290 187 103 ilmu keolahragaan 91 3 88 ilmu pendidikan 377 137 240 ilmu sosial 228 100 128 matematika dan ipa 208 46 162 teknik 171 44 127 jenis kelamin laki-laki 517 155 362 perempuan 1115 529 586 Dst

(45)

(3.1)

Etotalkasus(684,948) = - (684/1632)*log2(684/1632)-(948/1632)*log2(948/1632) = 0.981

Dengan perhitungan yang sama dilakukan terhadap tiap atribut dengan berdasar pada pengelompokan jumlah kasus pada tiap atribut dan subset atribut didalamnya.

3. Kemudian hitung nilai gain dengan metode informasi

gain:

(3.2)

Contoh perhitungan gain pada atribut fakultas berdasar jumlah kasus per subset atribut yaitu:

Ebahasa&seni(167,100)= -(167/267)*log2(167/267)-(100/267)*log2(100/267) = 0.954 Eekonomi(187,103) = - (187/290)*log2(187/290)-(103/290)*log2(103/290) = 0.939 Eilmuolahraga(3,88) = - (3/91)*log2(3/91)-(88/91)*log2(88/91) = 0.209

(46)

32 Eilmpendidikn(137,240) = - (137/377)*log2(137/377)-(240/377)*log2(240/377) = 0.945 Eilmusosial(100,128) = - (100/228)*log2(100/228)-(128/228)*log2(128/228) = 0.989 Emtk&ipa(46,162) = - (46/208)*log2(46/208)-(162/208)*log2(162/208) = 0.762 Eteknik(44,127) = - (44/171)*log2(44/171)-(127/171)*log2(127/171) = 0.823

Setelah perhitungan subset atribut diatas, maka lanjutkan menghitung information gain yaitu :

Gain = 0.981-( (267/1632 * 0.954 )+(290/1632*0.939)+ (91/1632*0.209)+(377/1632*945)+(228/1632*98 9)+(208/1632*0.762)+(171/1632*0.823) )

= 0.107

4. Ulangi langkah ke-2 hingga semua tupel terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat:

a. Semua tupel dalam node N mendapat kelas yang sama. b. Tidak ada atribut di dalam tupel yang dipartisi lagi. c. Tidak ada tupel di dalam cabang yang kosong.

(47)

Perhitungan gain selengkapnya akan ditampilkan pada table berikut ini :

Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi

Simpul Kasus Tepat Terlambat entropi S/Stotal*E Gain Jumlahkasus 1632 684 948 0.981041

Fakultas bahasa dan seni 267 167 100 0.954088 0.156092 0.106567

Ekonomi 290 187 103 0.938603 0.166786 ilmu keolahragaan 91 3 88 0.20906 0.011657 ilmu pendidikan 377 137 240 0.945465 0.218407 ilmu social 228 100 128 0.989093 0.138182 matematika dan ipa 208 46 162 0.762269 0.097152 Teknik 171 44 127 0.82266 0.086198 jenis kelamin laki-laki 517 155 362 0.881054 0.279109 0.02001 Perempuan 1115 529 586 0.998114 0.681922 Umur <= 22.5 532 468 64 0.530225 0.172843 0.326546 >22.5 1100 216 884 0.714595 0.481651 IP1 0.805966 0.175075 IP2 0.869968 0.111073 IP3 0.893624 0.087416 IP4 0.874877 0.106164

Perhitungan dengan metode Entropy Based Discretization di gunakan untuk menangani atribut yang bersifat kontinu. Metode ini menggunakan entropy sebagai bagian dari proses pemisahan selang data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai pemisah yang terbaik maka harus dihitung nilai split ploint, nilai

informasi dari entropi antara 2 sample dengan rumus :

Table 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu

umur jumlah kasus tepat Terlambat

1632 684 948 20 1 1 0 21 67 67 0 22 464 400 64 23 487 125 362 24 267 59 208 25 151 14 137 26 70 6 64 27 40 2 38 Dst

(48)

34

1. Urutkan data subset dari yang terkecil sampai yang terbesar. Contoh perhitungan pada atribut umur sebagai berikut :

2. Hitung rataan nilai per 2 data yang bersebelahan yang digunakan untuk split point . Setiap nilai rata-rata merupakan titik nilai yang mungkin menjadi titik perpecahan (split_point) untuk memilih titik terbaik, data akan dipecah menurut titik yang diuji.

(3.3)

3. Hitung nilai informasi dari kedua sampel(Sₐ). Kemudian T(split point) yang memilki nilai informasi terkecil diambil sebagai batas node. Rumus yang digunakan :

(3.4) (3.5)

Dimana, T merupakan nilai batas (split point)

Dari perhitungan diatas, maka diperoleh nilai informasi terkecil ialah split point pada 22.5 dengan nilai informasinya adalah –0.04585.

(49)

Table 3.7 Split point yang digunakan

pemilihan split terbaik

Status Split point Nilai informasi

20.5 0.363902 no 21.5 0.199343 no 22.5 -0.04585 yes 23.5 -0.00595 no 24.5 0.198029 no 25.5 0.304585 no Dst

3.1.3.2 Model C4.5 dioptimasi PSO

Simulasi pembobotan atribut dengan PSO dihitung berdasar rumus :

(3.6)

(3.7)

Akan ditampilkan seperti tabel dibawah ini dengan pemisalan menggunakan 15 sampel subset data dalam atribut yang dipilih secara acak dan iterasi sebanyak 25 kali untuk menemukan nilai bobot yang terbaik untuk tiap atribut yaitu minimal dengan nilai 0 atau maksimal dengan nilai 1.

Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25

iterasi fakultas jenis

kelamin umur IPS1 IPS2 IPS3 IPS4 1 0.865 0.244 0.974 0.883 0.487 0.866 0.679 2 0.865 0.244 0.974 0.883 0.487 0.866 0.679 3 0.660 0 1 1 0.402 1 0.674 4 0.417 0.305 0.768 1 0.195 1 1 5 0.349 0.343 0.767 1 0.200 1 0.970 6 0.307 0.363 0.770 1 0.204 1 0.912

(50)

36 7 0.279 0.375 0.774 1 0.207 1 0.870 8 0.259 0.383 0.778 0.209 1 0.837 9 0.243 0.388 0.781 1 0.211 1 0.811 10 0.231 0.392 0.785 1 0.213 1 0.791 11 0.221 0.395 0.788 1 0.214 1 0.773 12 0.214 0.397 0.791 1 0.215 1 0.759 13 0.207 0.398 0.793 1 0.216 1 0.747 14 0.201 0.399 0.795 1 0.216 1 0.736 15 0.197 0.400 0.797 1 0.217 1 0.727 16 0.193 0.401 0.799 1 0.218 1 0.719 17 0.189 0.402 0.801 1 0.218 1 0.712 18 0.186 0.402 0.802 1 0.218 1 0.706 19 0.183 0.403 0.804 1 0.219 1 0.700 20 0.322 0 0.747 1 0 1 0 21 0.324 0 0.737 1 0 1 0 22 0.868 0.565 0.969 1 0 1 0 23 0.869 0.574 0.937 1 0 1 0 24 0.873 0.352 0.890 1 0 1 0.694 25 0.875 0.358 0.862 1 0 1 0.733

Berdasar perhitungan diatas, maka bobot memiliki kecenderungan untuk mendekati nilai minimum dan maksimum nilai ketika bobot tersebut mendekati nilai 0 lebih banyak daripada nilai 1 dalam rangkaian iterasi maka dimungkinkan untuk iterasi selanjutnya bobotnya keluar nilai 0, ketika nilai bobot tersebut mendekati nilai 1 lebih banyak daripada nilai 0 dalam rangkaian iterasi maka dimungkinkan untuk iterasi selanjutnya bobotnya keluar nilai 1, dan jika nilai bobot tersebut bernilai antara 0 dan 1 maka kecenderungan nilai bobot akan menuju ke nilai maksimum.

Langkah-langkah perhitungan weighting PSO pada C4.5 seperti dibawah ini :

(51)

1. Setelah nilai weighting/bobot di peroleh untuk tiap atribut. Kemudian dilakukan perkalian bobot dengan probabilitas atribut atau subset atribut (ping yau, 2009) merujuk pada (kai ming ting, 2002). Dengan perhitungan sebagai berikut:

Jika nilai bobot belum terpenuhi penerapan pada C4.5.

a. Perhitungan probabilitas

(3.8)

b. Perhitungan bobot untuk tiap atribut

(3.9)

c. Perhitungan bobot untuk subset atribut

(3.10)

Keterangan :

p(j|t) : probabilitas sampel

n(j)ᵗ : banyak sampel ∑n(i)ᵗ : total sampel ∑niʷ(t) : total sampel yang memiliki bobot

pw(j|t) : prob. Bobot w(j) : bobot atribut njʷ(t) : nilai atribut yang memiliki bobot

2. Bobot dikalikan dengan probabilitas sampel, kemudian menghitung nilai entropi untuk tiap sampel kasus menggunakan formula 3.1.

(52)

38

3. Menghitung nilai information gain dari entropi yang telah ditentukan dilangkah kedua sesuai formula 3.2.

4. Menghitung nilai split info berdasar formula 3.3. 5. Setelah ditemukan nilai information gain dan nilai info, maka dihitung nilai informasi split point dan diambil split point yang memiliki nilai terkecil.

(3.11)

Keterangan :

Gainweight : nilai information gain dari perhitungan entropi yang telah dikalikan bobot.

Eweight(E,S): total entropi dari dua sampel yang bersebelahan sesuai entropi yang telah diberi bobot.

Dari perhitungan diatas yang berdasar pada weight, maka diperoleh nilai informasi terkecil ialah split point pada 22.5 dengan nilai informasinya adalah 0.521718.

Table 3.9 Split point berdasar weight yang digunakan

pemilihan split terbaik

Status Split point Nilai informasi

20.5 0.699577 No 21.5 0.615132 No 22.5 0.521718 yes 23.5 0.555593 No 24.5 0.62234 No 25.5 0.660614 No Dst

Gambar

Tabel 2.1 State of the art
Gambar 2.1 Siklus CRISP-DM (Larose, 2005)  a.  Pemahaman Bisnis(Business Understanding)
Gambar 2.3 Pohon keputusan dengan cabang A5 tidak  konsisten(Desiyana, 2012)
Gambar 2.7 Kerangka pemikiran
+7

Referensi

Dokumen terkait

1) Dakwaan Jaksa Penuntut Umum. Bahwa pada tanggal 14 November 2018 Jaksa Penuntut Umum telah membacakan Surat Dakwaan terhadap terdakwa Nur Rahman Ismail selaku Account

(4) Walikota dapat memberikan persetujuan kepada Wajib Pajak untuk menunda pembayaran pajak sampai batas waktu yang ditentukan setelah memenuhi persyaratan yang

Melihat keberhasilan kegiatan ini dalam meningkatkan pengetahuan remaja tentang tumbuh kembang pada usianya, maka kegiatan ini perlu dilakukan secara berkelanjutan agar

STAD dikembangkan oleh Robert Slavin dan teman-temannya di Universitas John Hopkin, dan merupakan pendekatan pembelajaran kooperatif yang paling sederhana. Guru yang

Dalam penelitian ini ada ketentuan dan asumsi seperti berikut: (1) semua emisi partikel timbal tidak ada yang mengalami deposisi karena jarak antara sumber emisi dengan jalur

daerah sebagai prosedur operasional baku Camat dan perangkat dalam melaksanakan tugas masih menjadi bahan perdebatan oleh Satuan Kerja Perangkat Daerah, hal ini

Selain pencampuran budaya yang ditunjukkan dengan kebiasaan tokoh menonton film Hollywood di tengah bangsanya sendiri, pencampuran budaya juga ditunjukkan dengan

Perumusan, penetapan, dan pelaksanaan kebijakan dibidang tata ruang, infrastruktur keagrariaan/pertanahan hukum keagrariaan/pertanahan, penataan agraria/pertanahan,