• Tidak ada hasil yang ditemukan

Pembangkit Aturan pada Fuzzy Inference System menggunakan Fuzzy Decision Tree untuk Memprediksi Keberhasilan Studi Mahasiswa (Studi Kasus : Institut Bisnis dan Informatika Kwik Kian Gie)

N/A
N/A
Protected

Academic year: 2017

Membagikan "Pembangkit Aturan pada Fuzzy Inference System menggunakan Fuzzy Decision Tree untuk Memprediksi Keberhasilan Studi Mahasiswa (Studi Kasus : Institut Bisnis dan Informatika Kwik Kian Gie)"

Copied!
71
0
0

Teks penuh

(1)

PEMBANGKIT ATURAN PADA FUZZY INFERENCE SYSTEM MENGGUNAKAN FUZZY DECISION TREE

UNTUK MEMPREDIKSI KEBERHASILAN STUDI MAHASISWA (STUDI KASUS : INSTITUT BISNIS DAN INFORMATIKA KWIK KIAN GIE)

HERI BAMBANG SANTOSO

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

(2)

Dengan ini saya menyatakan bahwa tesis yang berjudul Pembangkit Aturan pada Fuzzy Inference System menggunakan Fuzzy Decision Tree untuk Memprediksi Keberhasilan Studi Mahasiswa (Studi Kasus : Institut Bisnis dan Informatika Kwik Kian Gie) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Juni 2015

(3)

menggunakan Fuzzy Decision Tree untuk Memprediksi Keberhasilan Studi Mahasiswa (Studi Kasus : Institut Bisnis Dan Informatika Kwik Kian Gie). Dibimbing oleh AGUS BUONO dan WISNU ANANTA KUSUMA.

Kualitas lulusan dari sebuah perguruan tinggi selain dapat dilihat dari rata-rata lama lulusannya mendapatkan pekerjaan juga dapat dilihat dari rata-rata lama studi dari mahasiswanya. Jumlah mahasiswa yang lulus tepat waktu merupakan salah satu aspek penting dalam penilaian akreditasi dari suatu perguruan tinggi. Namun permasalahan yang muncul adalah masih banyak mahasiswa yang lulus melampaui target waktu lulus yakni 4 tahun. Oleh sebab itu, model prediksi kelulusan tepat waktu mahasiswa dapat

berperan sebagai early warning terhadap manajemen perguruan tinggi untuk

mempersiapkan strategi yang berkaitan dengan kebijakan preventif terkait pencegahan kasus Drop Out.

Tujuan pada penelitian ini adalah membangun model dengan menggunakan

metode fuzzy decision tree yaitu algoritme Fuzzy ID3 dalam membentuk aturan

klasifikasi yang kemudian digunakan untuk memprediksi keberhasilan studi mahasiswa

dengan menggunakan Fuzzy Inference System Mamdani. Pada penelitian ini juga

melakukan pengukuran tingkat akurasi dalam memprediksi kelulusan tepat waktu mahasiswa dari hasil model yang terbentuk. Selain itu, pada penelitian ini juga

melakukan perbandingan performansi antara algoritme Fuzzy ID3 dan algoritme ID3

dalam membentuk aturan klasifikasi yang digunakan untuk memprediksi keberhasilan studi mahasiswa. Hal ini bertujuan untuk mengetahui apakah dengan menggunakan

pendekatan fuzzy dalam membentuk model pohon keputusan akan lebih baik jika

dibandingkan dengan metode decision tree yang tidak menggunakan pendekatan fuzzy,

dalam penelitian ini adalah algoritme ID3. Pada penelitian ini, model klasifikasi kelulusan tepat waktu mahasiswa dibangun berdasarkan 5 faktor yakni IPK Semester 1, IPK Semester 2, Kedisiplinan, Prilaku, dan Rapor.

Hasil dari penelitian ini menghasilkan model klasifikasi kelulusan tepat waktu

mahasiswa dengan jumlah aturan klasifikasi sebanyak 28 aturan pada saat nilai fuzziness

control threshold (θr) sebesar 98% dan leaf decision threshold (θn) sebesar 3% dengan

tingkat akurasi sebesar 95.85%. Jika semakin tinggi nilai θr dan semakin rendah nilai θn

maka tingkat akurasi akan semakin tinggi. Berdasarkan dari aturan klasifikasi yang terbentuk, faktor yang paling menentukan mahasiswa akan lulus tepat waktu adalah IPK

Semester 2. Model yang dihasilkan dengan menggunakan fuzzy decision tree yakni

algoritme Fuzzy ID3 memiliki tingkat akurasi sebesar 95.85%, algoritma ini lebih baik

dibandingkan dengan algoritme decision tree yakni ID3 dengan tingkat akurasi sebesar

93.42%, dalam hal memprediksi keberhasilan studi mahasiswa.

(4)

Fuzzy Decision Tree to Predict Success of Graduation, Case Study: Kwik Kian Gie School of Business. Supervised by AGUS BUONO and WISNU ANANTA KUSUMA.

The quality of graduates from a university, can be seen from the average length of its graduates get a job and can also be seen from the average length of studies of students. The number of students who graduate on time is one of the important aspects in the assessment of accreditation of a university. But the problem is still a lot of students who pass beyond the target of the study period, which is 4 years. Therefore, the model predictions timely graduation students can act as an early warning to the college management to prepare strategies related to preventive policies related to the prevention of cases of Drop Out.

Our objective is to build a model using the fuzzy decision tree algorithms namely Fuzzy ID3, in the form of classification rules which are then used to predict the success of a student's study using Mamdani Fuzzy Inference System. In this study, also conducted measurement accuracy rate in predicting the timely graduation of students from the results of the model are formed. In addition, this study also did a comparison of performance between algorithms Fuzzy ID3 and ID3 algorithm in shaping the rules of classification that is used to predict the success of a student's study. It aims to determine whether using a fuzzy approach in forming a decision tree model would be better if compared with methods that do not use a decision tree or a fuzzy approach in this study is the ID3 algorithm. In this paper, the model classification timely graduation of students is built on five factors namely 1st Semester GPA 2nd Semester GPA, Discipline, Behavior, and Report Card.

Results from this study produced a model with a number of classification rules as much as 28 rules during the value fuzziness control threshold (θr) of 98% and leaf

decision threshold (θn) by 3% with an accuracy of 95.85%. If the higher value θr and

the lower the value θn then the accuracy will be higher. Based on the classification rules

are established, the most decisive factor of students will graduate on time is the 2nd Semester GPA. Models produced by using the fuzzy decision tree algorithm Fuzzy ID3 has an accuracy rate of 95.85%, this algorithm is better than the ID3 decision tree algorithm with an accuracy level of 93.42%, in terms of predicting the success of a student's study.

(5)

© Hak Cipta Milik IPB, Tahun 2015

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB

(6)

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer

pada

Program Studi Ilmu Komputer

PEMBANGKIT ATURAN PADA FUZZY INFERENCE SYSTEM MENGGUNAKAN FUZZY DECISION TREE

UNTUK MEMPREDIKSI KEBERHASILAN STUDI MAHASISWA (STUDI KASUS : INSTITUT BISNIS DAN INFORMATIKA KWIK KIAN GIE)

HERI BAMBANG SANTOSO

SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR

(7)
(8)

Nama : Heri Bambang Santoso

NIM : G651130664

Disetujui oleh

Komisi Pembimbing

Dr Ir Agus Buono, MSi MKom Ketua

Dr Eng Wisnu Ananta Kusuma, ST MT Anggota

Diketahui oleh

Ketua Program Studi Ilmu Komputer

Dr Eng Wisnu Ananta Kusuma, ST MT

Dekan Sekolah Pascasarjana

Dr Ir Dahrul Syah, MScAgr.

(9)

karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian ini ialah Kecerdasan Komputasional, dengan judul Pembangkit Aturan pada Fuzzy Inference System menggunakan Fuzzy Decision Tree untuk Memprediksi Keberhasilan Studi Mahasiswa (Studi Kasus : Institut Bisnis dan Informatika Kwik Kian Gie).

Penulis menyampaikan ucapan terima kasih, penghargaan, dan apresiasi kepada Bapak Dr Ir Agus Buono, MSi MKom selaku pembimbing utama dan Bapak Dr Eng Wisnu Ananta Kusuma, ST MT selaku pembimbing kedua, yang telah banyak memberikan saran, kritikan, motivasi dan kemudahan kepada penulis dalam menyelesaikan karya ilmiah ini. Terima kasih juga penulis ucapkan kepada Dr Imas Sukaesih Sitanggang, SSi MKom yang telah menguji, membimbing, dan memberikan saran dalam penulisan karya ilmiah ini.

Selanjutnya, penulis juga ingin mengucapkan terima kasih banyak kepada:

1. Mama Mulyani dan Papa Sunardi tercinta, terima kasih atas segala doa, cinta, kasih

sayang, dan dukungan yang tiada batasnya baik materil maupun spiritual.

2. Ayah mertuaku Bapak H. Hasan Bakri Sidik dan Ibu mertuaku Ibu Hj. Siti Nurhaya

(Alm), terima kasih atas segala doa, cinta, kasih sayang, dan dukungan yang tiada batasnya baik materil maupun spiritual.

3. Istriku tersayang Leny Christine dan putriku tersayang Zahira Latisha Azzahra,

terima kasih atas segala doa, cinta, kasih sayang dan dukungan yang tiada batasnya serta keceriaan yang selalu diberikan sehingga penulis memiliki semangat yang sangat tinggi dalam menyelesaikan karya ilmiah ini.

4. Adik-adikku tersayang Miranti Wahyuni dan Voni Apriyani, terima kasih atas doa

dan keceriaan yang telah menambah semangat atas terselesaikannya penulisan ini.

5. Kakak-kakak iparku yakni teteh Ifa Faulina, teteh Rita Lutfiah, SH, Aa‟ Indra

Ridarta, SE, dan Aa‟ Saeful Mujahid, SE, terima kasih banyak atas segala doa dan

dukungan yang selalu diberikan.

6. Adik iparku sekaligus teman, sahabat, dan partner fishing yakni Anugerah Sandy

Yudhastiya, SKom atas segala doa dan dukungan yang selalu diberikan.

7. Jajaran rektorat Institut Bisnis dan Informatika Kwik Kian Gie atas izin studi yang

telah diberikan.

8. Bapak Jesaja HB Waterkamp, SKom MKom, selaku ICT Manager Institut Bisnis

dan Informatika Kwik Kian Gie yang telah memberikan izin studi, motivasi dan dukungan.

9. Teman-teman seperjuangan Bu Tita, Pak Fajar, Kang Agus, Rendy, terima kasih

atas segala dukungan, kritik, dan sarannya.

10. Seluruh teman-teman Program Magister Ilmu Komputer kelas khusus angkatan

2013 atas segala doa dan dukungannya.

Akhirnya penulis berharap semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Amin.

Bogor, Juni 2015

(10)

DAFTAR TABEL iii

Ruang Lingkup Penelitian 3

2 TINJAUAN PUSTAKA 4

Penelitian Terkait 4

Transformasi Data 5

Korelasi Pearson Product Moment (PPM) 5

Decision Tree (Pohon Keputusan) 6

Iterative Dychotomizer Version 3(ID3) 7

Himpunan Fuzzy 8

Fungsi Keanggotaan 9

Fuzzy Decision Tree (FDT) 10

Fuzzy Iterative Dychotomizer Version 3(Fuzzy ID3) 10

Fuzzy Entropy dan Information Gain 11

Fuzzy Decision Tree Threshold 12

Sistem Inferensi Fuzzy 12

Metode Mamdani 13

Defuzzifikasi Metode Centroid 13

3 METODE PENELITIAN 14

Kerangka Pemikiran 14

Pengumpulan Data 14

Analisis Korelasi Atribut 15

Transformasi Data 16

Pembagian Data Training dan Data Testing 16

Pemilihan Nilai Threshold 17

Pembentukan Model 17

Evaluasi Model 17

Representasi Pengetahuan 18

Alat Bantu Penelitian 18

Hasil dan Analisa 18

4 HASIL DAN PEMBAHASAN 19

Pengumpulan dan Pembersihan Data 19

Uji Korelasi Atribut 21

(11)

Pembentukan Model (Proses Training) 25

Pengujian Model (Proses Testing) 32

Evaluasi Kinerja Fuzzy ID3 32

Representasi Pengetahuan 34

Perbandingan Performansi Fuzzy ID3 dan ID3 35

5 SIMPULAN DAN SARAN 37

1. Contoh hasil perhitungan uji korelasi pearson product moment 15

2. Contoh data hasil fuzzifikasi 16

3. Confusion matrix untuk prediksi kelululusan tepat waktu 17

4. Contoh record data IPK sebelum di transpose 19

5. Contoh record data IPK setelah di transpose 20

6. Contoh record data dengan missing value 20

7. Hasil uji korelasi antara atribut predictor terhadap masa studi 21

8. Aturan klasifikasi pada contoh data trainingset 29

9. Rata-rata jumlah aturan 30

10.Rata-rata waktu eksekusi pembentukan model dalam satuan detik 31

11.Evaluasi akurasi rata-rata algoritme Fuzzy ID3 33

12.Transformasi data atribut untuk algoritme ID3 35

13.Perbandingan performansi Fuzzy ID3 dan ID3 35

DAFTAR GAMBAR

1. Pohon keputusan 6

2. Kurva segitiga 9

3. Kurva trapesium 9

4. Kerangka pemikiran 14

5. Himpunan fuzzy atribut IPK Semester 1 22

6. Himpunan fuzzy atribut IPK Semester 2 23

7. Himpunan fuzzy atribut Prilaku 23

8. Himpunan fuzzy atribut Rapor 24

9. Himpunan fuzzy atribut Kedisiplinan 24

10.Hasil ekspansi trainingset berdasarkan atribut IPK Semester 2 27

11.Fuzzy decision tree untuk contoh training set 29

(12)

14.Perbandingan rata-rata tingkat akurasi Fuzzy ID3 33

15.Tampilan utama aplikasi prediksi keberhasilan studi mahasiswa 34

16.Perbandingan jumlah aturan Fuzzy ID3 dan ID3 36

17.Perbandingan tingkat akurasi Fuzzy ID3 dan ID3 36

18.Tampilan form proses training algoritme Fuzzy ID3 55

19.Tampilan form proses testing algoritme Fuzzy Inference System 56

20.Tampilan form proses prediksi keberhasilan studi mahasiswa 57

DAFTAR LAMPIRAN

1. Contoh data hasil proses pembersihan data 40

2. Contoh data untuk proses training dan hasil fuzzifikasi data 41

3. Jumlah aturan klasifikasi yang dihasilkan oleh masing-masing training set 42

4. Waktu eksekusi algoritme Fuzzy ID3 untuk masing-masing training set

dalam satuan detik 43

5. Akurasi aturan klasifikasi setelah pengujian dengan menggunakan

testing set 45

6. Aturan klasifikasi dari hasil pembentukan model Fuzzy ID3 dengan θrdan

θn masing-masing 98% dan 3% 51

7. Aturan klasifikasi dari hasil pembentukan model algoritme ID3 53

8. Tampilan aplikasi prediksi keberhasilan studi mahasiswa menggunakan

(13)
(14)

1

PENDAHULUAN

Latar Belakang

Kualitas lulusan dari sebuah perguruan tinggi selain dapat dilihat dari rata-rata lama lulusannya mendapatkan pekerjaan juga dapat dilihat dari rata-rata lama studi dari mahasiswanya. Setiap program studi akan mempunyai variasi lama studi mahasiswa yang berbeda-beda. Program studi berkewajiban untuk memantau perkembangan studi

dari setiap mahasiswanya. Prediksi kelulusan tepat waktu dapat berperan sebagai early

warning bagi pihak terkait, seperti dosen wali atau ketua program studi terhadap kondisi performansi studi mahasiswa. Selanjutnya, hasil prediksi secara keseluruhan dapat digunakan sebagai acuan dalam mengevaluasi proses pendidikan, kurikulum, dan hal lain yang berkaitan dengan penyelenggaraan pendidikan. Untuk melakukan prediksi dapat dilakukan dengan berbagai cara, salah satunya dapat dilakukan dengan

menggunakan pendekatan teknik data mining. Institut Bisnis dan Informatika Kwik

Kian Gie mempunyai dataset pada SIMAK (Sistem Informasi Akademik) yang selama

ini belum dimanfaatkan secara maksimal. Sangat disayangkan jika dataset yang begitu

besar tersebut tidak dimanfaatkan untuk digali informasi apa yang terdapat di dalamnya. Data mining merupakan proses ekstraksi informasi atau pola penting dalam basis data berukuran besar (Han dan Kamber 2006). Klasifikasi merupakan salah satu metode

dalam data mining untuk mengetahui label kelas dari suatu record dalam data. Teknik

klasifikasi yang menjadi fokus pada penelitian ini adalah decision tree. Pada metode decision tree, jika atribut yang digunakan bertipe continuous maka harus dilakukan

diskritisasi untuk membagi range nilai pada atribut menggunakan titik potong, dimana

titik potong yang digunakan akan membedakan nilai suatu domain dengan batasan yang jelas sehingga dapat terjadi kesalahan klasifikasi (missclassification).

Pada penelitian ini salah satu atribut yang akan digunakan adalah Indeks Prestasi Akademik (IPK). Nilai IPK dari seorang mahasiswa dapat diekspresikan tidak saja secara numeris, tetapi juga dapat direpresentasikan dalam bentuk kualitatif secara linguistik. Contohnya, mahasiswa yang akan lulus tepat waktu adalah mahasiswa yang memiliki IPK tinggi. Penyajian secara linguistik ini dapat menimbulkan ambiguitas atau

keraguan. Konsep logika fuzzy merupakan alternatif untuk menyatakan sesuatu yang

tidak dapat didefinisikan dengan tepat. Pada himpunan fuzzy, peranan derajat

keanggotaan sebagai penentu keberadaan elemen dalam suatu himpunan sangatlah

penting. Nilai keanggotaan atau derajat keanggotaan (membership function) menjadi ciri

utama dalam penalaran logika fuzzy (Kusumadewi 2003). Penggunaan teknik fuzzy

memungkinkan untuk penentuan suatu objek yang dimiliki oleh lebih dari satu kelas. Beberapa penelitian dalam bidang akademik perguruan tinggi telah banyak

dilakukan dengan menggunakan teknik klasifikasi decision tree. Diantaranya penelitian

yang dilakukan oleh Vasani dan Gawali (2014) melakukan penelitian tentang klasifikasi

dan evaluasi performansi mahasiswa menggunakan algoritme decision tree C4.5 dan

Naive Bayesian. Adhatrao et al. (2013) menerapkan algoritme ID3 (Iterative Dichotomiser 3) dan C4.5 untuk memprediksi performansi mahasiswa pada semester pertama. Yadav dan Pal (2012) menerapkan algoritme C4.5, ID3, dan CART untuk

memprediksi performansi mahasiswa jurusan teknik. Yadav et al. (2012) memprediksi

(15)

Beberapa penelitian terkait penerapan teknik fuzzy inference system di antaranya penelitian yang dilakukan oleh Rahmadi dan Mustafidah (2014) melakukan penelitian

tentang fuzzy inference system untuk mengetahui pengaruh motivasi belajar dan

lingkungan belajar terhadap prestasi belajar mahasiswa. Mustafidah dan Aryanto (2012)

melakukan penelitian tentang fuzzy inference system untuk memprediksi prestasi belajar

mahasiswa berdasarkan nilai ujian nasional, tes potensi akademik dan motivasi belajar. Beberapa penelitian terkait penerapan teknik fuzzy decision tree di antaranya penelitian yang dilakukan oleh Yun et al. (2014) melakukan penelitian tentang fuzzy decision tree pada data bunga iris. Martin et al. (2012) melakukan penelitian tentang prediksi kebangkrutan sebuah perusahaan berdasarkan faktor kualitatif menggunakan

algoritme Fuzzy ID3. Li et al. (2012) melakukan penelitian tentang fuzzy decision tree

untuk mengevaluasi performansi kinerja karyawan. Idri dan Elyassami (2011)

melakukan penelitian tentang fuzzy decision tree untuk memperkirakan tingkat kesulitan

dalam pembuatan software. Romansyah et al. (2009) melakukan penelitian mengenai

penerapan teknik fuzzy decision tree dengan algoritme Fuzzy ID3 pada data diabetes.

Berdasarkan penelitian yang telah dilakukan dengan menggunakan teknik

klasifikasi decision tree (Vasani dan Gawali 2014; Adhatrao et al. 2013; Yadav dan Pal

2012; Yadav et al. 2012) maka pada penelitian ini akan dilakukan klasifikasi data

kelulusan mahasiswa menggunakan decision tree, namun pada penelitian ini akan

menggunakan pendekatan fuzzy, yakni dengan menggunakan salah satu teknik pada

fuzzy decision tree untuk memprediksi kelulusan tepat waktu mahasiswa dengan

menggunakan fuzzy inference system. Namun pada penelitian yang menggunakan fuzzy

inference system (Rahmadi dan Mustafidah 2014; Mustafidah dan Aryanto 2012), masih menggunakan sekumpulan aturan yang ditentukan sendiri atau bukan dibentuk berdasarkan data, sehingga apabila dalam pendefinisian aturan terdapat kesalahan maka dapat berpotensi akan menyebabkan tingkat akurasi yang dihasilkan tidak maksimal. Untuk itu pada penelitian ini akan membangun model klasifikasi data kelulusan

mahasiswa menggunakan metode fuzzy decision tree (Martin et al. 2012; Romansyah et

al. 2009). Hasil dari aturan-aturan klasifikasi dari fuzzy decision tree tersebut kemudian

digunakan pada fuzzy inference system sebagai sekumpulan aturan klasifikasi yang akan

digunakan untuk memprediksi kelulusan tepat waktu mahasiswa.

Perumusan Masalah

Berdasarkan latar belakang yang telah dijelaskan di atas, maka permasalahan yang bisa dirumuskan dalam penelitian ini adalah:

1. Bagaimana membangun model klasifikasi kelulusan tepat waktu mahasiswa

dengan menggunakan metode fuzzy decision tree.

2. Bagaimana cara memprediksi kelulusan tepat waktu mahasiswa dengan

menggunakan fuzzy inference system berdasarkan hasil pembentukan model

klasifikasi yang dihasilkan oleh fuzzy decision tree.

3. Bagaimana tingkat akurasi dari algoritme fuzzy decision tree dalam memprediksi

kelulusan tepat waktu mahasiswa berdasarkan dari hasil model yang terbentuk.

4. Bagaimana penggunaan pendekatan fuzzy dalam membentuk model pohon

keputusan. Apakah akan lebih baik jika dibandingkan dengan metode decision

(16)

Tujuan Penelitian

Berdasarkan permasalahan yang dirumuskan di atas, maka tujuan pada penelitian ini adalah:

1. Membangun model klasifikasi kelulusan tepat waktu mahasiswa dengan

menggunakan metode fuzzy decision tree (FDT).

2. Hasil dari pembentukan model tersebut kemudian digunakan untuk memprediksi

kelulusan tepat waktu mahasiswa dengan menggunakan fuzzy inference system

(FIS).

3. Melakukan pengukuran tingkat akurasi dari algoritme fuzzy decision tree dalam

memprediksi kelulusan tepat waktu mahasiswa berdasarkan dari hasil model yang terbentuk.

4. Melakukan perbandingan performansi antara algoritme Fuzzy ID3 dan algoritme

ID3 dalam membentuk aturan klasifikasi yang digunakan untuk memprediksi keberhasilan studi mahasiswa.

Manfaat Penelitian

Hasil dari model prediksi pada penelitian ini, dapat digunakan oleh manajemen perguruan tinggi dan dosen wali untuk memberikan perlakuan terhadap mahasiswa yang diprediksi memiliki masa studi akan melebihi batas waktu studi yakni 4 tahun. Diantaranya dengan cara memberikan bimbingan dan pengarahan agar mahasiswa bisa mengetahui bagaimana cara belajar mandiri yang efektif agar dapat memberikan hasil belajar yang optimal sehingga dapat lulus tepat waktu.

Ruang Lingkup Penelitian

Ruang lingkup pada penelitian ini dibatasi pada :

1. Seleksi atribut predictor atau atribut yang digunakan untuk melakukan prediksi akan

dilakukan dengan menggunakan metode korelasi pearson product moment, untuk

melihat hubungan antara atribut predictor tersebut terhadap kelulusan tepat waktu mahasiswa.

2. Membangun model untuk memprediksi apakah mahasiswa dapat lulus tepat waktu

atau tidak, dengan menggunakan data kelulusan mahasiswa Institut Bisnis dan Infomatika Kwik Kian Gie, jurusan S1-Akuntansi dan S1-Manajemen angkatan 2008-2010.

3. Menerapkan salah satu teknik klasifikasi pada fuzzy decision tree yaitu algoritme Fuzzy ID3.

4. Untuk memprediksi keberhasilan studi mahasiswa, dilakukan dengan menggunakan

(17)

2

TINJAUAN PUSTAKA

Penelitian Terkait

Penelitian yang dilakukan oleh Vasani dan Gawali (2014) melakukan klasifikasi

dan evaluasi performansi mahasiswa menggunakan algoritme data mining. Data yang

digunakan adalah 220 data mahasiswa dan diklasifikasikan kedalam tiga kategori yakni

Cerdas, Sedang, Lemah dengan menggunakan algoritme decision tree C4.5 dan Naive

Bayesian. Algoritme decision tree C4.5 memberikan hasil yang lebih baik dari pada

algoritme Naïve Bayesian dalam hal akurasi mengklasikasikan data.

Adhatrao et al. (2013) melakukan penelitian tentang prediksi performansi

mahasiswa menggunakan algoritme klasifikasi ID3 dan C4.5 yang bertujuan untuk memprediksi hasil belajar mahasiswa pada semester pertama berdasarkan atribut jenis kelamin, nilai rapor, nilai ujian masuk, jenis penerimaan. Hasil dari penelitian ini adalah algoritme ID3 dan C4.5 memiliki akurasi prediksi yang hampir sama, namun dalam hal waktu eksekusi, algoritme C4.5 lebih baik jika dibandingkan dengan algoritme ID3. Penelitian ini terbatas memprediksi hasil belajar mahasiswa pada semester pertama, belum memprediksi sampai mahasiswa tersebut lulus.

Yadav dan Pal (2012) melakukan penelitian tentang prediksi untuk meningkatkan performansi mahasiswa jurusan teknik menggunakan teknik klasifikasi. Algoritme yang digunakan adalah C4.5, ID3, dan CART, tujuannya adalah untuk memprediksi hasil ujian akhir semester mahasiswa dan diklasifikasikan menjadi tiga kategori yakni Promosi, Lulus, Gagal. Hasil dari penelitian ini adalah dapat memprediksi kemungkinan siswa yang akan mengalami gagal dalam ujian akhir berdasarkan data siswa pada tahun-tahun sebelumnya. Algoritme C4.5 memiliki akurasi prediksi yang lebih efektif dibandingkan ID3 dan CART. Namun dari sisi waktu eksekusi algoritme ID3 lebih efesien dibandingkan algoritme C4.5 dan CART.

Yadav et al. (2012) melakukan penelitian untuk memprediksi kinerja mahasiswa

dengan dataset 48 mahasiswa dan 7 atribut yang diperoleh dari VBS Purvachal

University, India. Data sampel yang digunakan adalah data mahasiswa Magister Ilmu Komputer angkatan 2008 sampai 2011. Algoritme yang digunakan adalah algoritme ID3, C4.5, CART yang digunakan untuk klasifikasi. Hasil penelitian menunjukkan bahwa CART adalah algoritme yang terbaik untuk klasifikasi data. Penelitian ini akan membantu dosen untuk mengidentifikasi mahasiswa yang membutuhkan perhatian khusus dan akan membantu untuk mengurangi rasio mahasiswa yang gagal.

Mustafidah dan Aryanto (2012) melakukan penelitian tentang sistem inferensi fuzzy untuk memprediksi prestasi belajar mahasiswa berdasarkan nilai ujian nasional, tes potensi akademik dan motivasi belajar. Penelitian ini bertujuan untuk memprediksi IPK berdasarkan 3 atribut prediktor yakni nilai TPA, NEM, dan tingkat motivasi.

Penelitian ini menunjukkan bahwa fuzzy mamdani dapat digunakan untuk memprediksi

prestasi belajar mahasiswa.

Romansyah et al. (2009) melakukan penelitian mengenai penerapan teknik fuzzy

(18)

pada data diabetes. Nilai akurasi terbaik dari model adalah 94.15% yang diperoleh pada

saat fuzziness control threshold = 75% dan leaf decision threshold = 8% atau 10%.

Transformasi Data

Sebelum menggunakan data dengan teknik fuzzy decision tree perlu dilakukan

praproses terhadap data. Hal ini dilakukan untuk mendapatkan hasil analisis yang lebih

akurat dalam pemakaian teknik fuzzy decision tree. Dalam beberapa hal, praproses bisa

membuat nilai data menjadi kecil tanpa merubah informasi yang dikandungnya. Beberapa cara antara lain adalah transformasi atau normalisasi data, yaitu prosedur mengubah data sehingga berada dalam skala tertentu. Skala ini bisa antara (0,1), (-1,1) atau skala lain yang dikehendaki. Salah satu metode yang umum dipakai untuk

transformasi data adalah Unary Encoding.

Unary Encoding merupakan metode transformasi data dengan mempresentasikan

data dengan kombinasi angka 1 dan 0 (numerical binary variable). Metode ini

digunakan untuk mentransformasi data kategorikal. Secara prinsip, data kategori dapat ditransformasi ke dalam bilangan numerik, dimana suatu bilangan numerik mewakili

nilai suatu kategori. Atribut kategori yang demikian disebut dengan “dummy variable”

(Kantardzic 2003). Misalnya „0‟ untuk kategori „melebih masa studi‟ dan „1‟ untuk

kategori „tepat waktu‟.

Korelasi Pearson Product Moment (PPM)

Korelasi merupakan angka yang menunjukkan arah dan kuatnya hubungan antara dua peubah atau lebih, arah dinyatakan dalam bentuk hubungan positif atau negatif. Kuatnya hubungan dinyatakan dalam besarnya koefisien korelasi (Sugiyono 2007). Korelasi ini dikemukakan oleh Karl Pearson tahun 1900. Rumus yang digunakan Korelasi PPM adalah:

= ∑ y−(∑ )(∑y)

∑ 2 ()2 ∑ 2 ()2 … … … …(1)

dimana:

= Koefisien korelasi antara variabel X dan variabel Y

∑ y = Jumlah perkalian antara variabel X dan Y

Kegunaan PPM adalah untuk mengetahui derajat hubungan dan kontribusi

variabel bebas (independent) dengan variabel terikat (dependent). Korelasi PPM

(19)

Decision Tree (Pohon Keputusan)

Pohon keputusan atau dikenal dengan decision tree adalah salah satu metode

klasifikasi yang menggunakan representasi suatu struktur pohon yang yang berisi alternatif-alternatif untuk pemecahan suatu masalah. Pohon ini juga menunjukkan faktor-faktor yang mempengaruhi hasil alternatif dari keputusan tersebut disertai dengan estimasi hasil akhir bila kita mengambil keputusan tersebut. Peranan pohon keputusan

ini adalah sebagai decision support tool untuk membantu manusia dalam mengambil

suatu keputusan (Tsang et al. 2009). Manfaat dari decision tree adalah melakukan break

down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga

orang yang mengambil keputusan akan lebih mudah menginterpretasikan solusi dari

permasalahan. Konsep yang digunakan oleh decision tree adalah mengubah data

menjadi suatu keputusan pohon dan aturan-aturan keputusan (rule). Decision tree

menggunakan struktur hierarki untuk pembelajaran supervised. Proses dari decision tree

dimulai dari root node hingga leaf node yang dilakukan secara rekursif (Alpaydin 2004).

Setiap percabangan menyatakan suatu kondisi yang harus dipenuhi dan pada

setiap ujung pohon menyatakan kelas dari suatu data. Pada decision tree terdiri dari tiga

bagian yaitu (Alpaydin 2004) :

Root Node : Node ini merupakan node yang terletak paling atas dari suatu pohon.

Internal Node : Node ini merupakan node percabangan, hanya terdapat satu input serta mempunyai minimal dua output.

Leaf Node : Node ini merupakan node akhir, hanya memiliki satu input, dan tidak memiliki output.

Contoh dari pohon keputusan dapat dilihat di Gambar 1 berikut ini.

(20)

Iterative Dychotomizer Version 3(ID3)

Salah satu algoritme yang termasuk dalam teknik pembentukan pohon keputusan

adalah algoritme decision tree Iterative Dychotomizer Version 3 (ID3). Iterative

Dychotomizer Version 3 atau yang sering disebut dengan ID3 adalah salah satu

algoritme dalam decision tree learning. Algoritme ini ditemukan oleh J. Ross Quinlan

pada tahun 1986 yang berdasarkan algoritme CLS (Concept Learning System) (Liang

2005). ID3 merupakan penyempurnaan algoritme CLS dengan menambahkan feature

selection heuristic. ID3 akan melakukan pencarian secara rakus (greedy search) ke

semua kemungkinan pohon keputusan. Untuk menentukan root dan node atribut

lainnya, ID3 menghitung nilai entropy untuk mendapatkan information gain.

Entropy adalah parameter yang digunakan untuk mengetahui keberagaman (homogeneity) dari suatu kumpulan sampel data (Suyanto 2007). Semakin beragam kumpulan sampel data, maka nilai entropy nya semakin besar. Nilai entropy berada pada rentang 0 sampai dengan 1. Sampel data yang nilainya sama mempunyai nilai entropy 0, sedangkan dengan keberagaman yang seimbang (balanced) nilai entropy nya

sama dengan 1. Rumus perhitungan nilai entropy adalah sebagai berikut (Liang 2005):

= ∑ −� 2(�)………...(2)

dimana H (S) adalah nilai entropy dari sampel data S. N adalah jumlah kelas yang ada di atribut, sedangkan � adalah jumlah sampel untuk kelas i atau rasio dari kelas. Setelah mencari nilai entropy, maka selanjutnya dapat dihitung nilai information gain. Information gain adalah ukuran atau parameter keefektifitasan suatu atribut untuk

mengklasifikasikan data. Untuk menghitung information gain dapat digunakan rumus

berikut (Liang 2005):

H( ) : Entropy untuk sampel-sampel yang memiliki nilai v

Menurut Quinlan (1986) algoritme ID3 secara umum dapat dilihat sebagai berikut:

1. Buat simpul root

2. If semua sampel adalah kelas I, maka

Return pohon satu simpul Root dengan label=i

3. If Kumpulan Atribut kosong, Return pohon satu simpul Root dengan label=nilai

atribut target yang paling umum (yang paling sering muncul) Else

 A←Atribut yang merupakan the best classifier (dengan information gain terbesar)

 Atribut keputusan untuk RootA

(21)

o Tambahkan suatu cabang di bawah Root sesuai dengan nilai

o Buat suatu variabel, misalnya Sample vi, sebagai himpunan bagian

(subset) dari kumpulan Sampel yang bernilai pada atribut A

o If Sample , kosong

Then dibawah cabang ini tambahkan suatu simpul daun (leaf node, simpul yang tidak punya anak di bawahnya) dengan label=nilai atribut target yang paling umum atau yang paling sering muncul)

Else dibawah cabang ini tambahkan subtree dengan memanggil fungsi ID3 (Sampel , Atribut Target, Atribut-{A})

End End End

4. Return Root

Himpunan Fuzzy

Himpunan fuzzy merupakan pengembangan dari himpunan biasa (crisp) (Marimin

2002). Pada himpunan biasa, fungsi karakteristik memetakan derajat keanggotaan ke nilai 1 jika suatu elemen masuk ke dalam suatu himpunan dan bernilai 0 jika elemen

tersebut tidak masuk ke dalam anggota himpunan tersebut. Himpunan fuzzy didasarkan

pada gagasan untuk memperluas jangkauan fungsi karakteristik sedemikian hingga fungsi tersebut akan mencakup bilangan real pada interval [0,1]. Derajat keanggotaan tidak hanya 0 atau 1, tetapi juga nilai yang terletak di antaranya (Kusumadewi 2002).

Ada beberapa hal yang perlu diketahui dalam memahami himpunan fuzzy, yaitu

(Kusumadewi 2003) :

a. Variabel Fuzzy

Variabel fuzzy merupakan variabel yang hendak dibahas dalam suatu sistem.

Contoh : temperatur, suhu, umur.

b. Himpunan Fuzzy

Himpunan fuzzy merupakan suatu grup yang mewakili suatu kondisi atau keadaan

tertentu dalam suatu variabel fuzzy.

Contoh : Variabel suhu, terbagi menjadi 3 himpunan fuzzy, yaitu Tinggi, Normal, dan Rendah.

c. Semesta pembicaraan

Semesta pembicaraan adalah keseluruhan nilai yang diperbolehkan untuk

dioperasikan dalam suatu variabel fuzzy. Semesta pembicaraan merupakan

himpunan bilangan real yang senantiasa naik (bertambah) secara monoton dari kiri kekanan. Nilai semesta pembicaraan dapat berupa bilangan positif maupun negatif. Adakalanya nilai semesta pembicaraan ini tidak dibatasi batas atasnya.

d. Domain

Domain himpunan fuzzy adalah keseluruhan nilai yang diizinkan dalam semesta

pembicaraan dan boleh dioperasikan dalam suatu himpunan fuzzy. Seperti halnya

semesta pembicaraan, domain merupakan himpunan bilangan real yang senantiasa

(22)

Fungsi Keanggotaan

Fungsi keanggotaan (membership function) adalah suatu kurva yang menunjukkan

pemetaan titik-titik masukan data ke dalam nilai keanggotaannya (Kusumadewi 2002). Pada sistem fuzzy, terdapat beberapa fungsi keanggotaan yang dapat digunakan untuk

pemberian nilai keanggotaan pada suatu elemen dalam himpunan fuzzy. Beberapa fungsi

keanggotaan yang umum digunakan adalah kurva segitiga dan kurva trapesium.

1. Representasi Kurva Segitiga (Triangle)

Representasi kurva segitiga merupakan gabungan dari dua garis linear seperti terlihat pada Gambar 2.

Gambar 2 Kurva Segitiga

Fungsi keanggotaan untuk kurva segitiga adalah sebagai berikut :

µ =

0 ; atau

− ; −

− ;

… … … …. . (4)

2. Representasi Kurva Trapesium

Representasi kurva trapesium pada dasarnya seperti bentuk segitiga, hanya saja ada beberapa titik yang memiliki nilai keanggotaan 1 seperti terlihat pada Gambar 3.

Gambar 3 Kurva Trapesium

Fungsi keanggotaan untuk kurva trapesium adalah sebagai berikut :

µ =

0 ; atau

− ;

1 ;

− − ;

(23)

Fuzzy Decision Tree (FDT)

Fuzzy decision tree adalah pengembangan dari algoritme ID3 dengan cara

menggabungkan algoritme klasik ID3 dengan teori fuzzy set yang efektif untuk

mendapatkan pengetahuan pada permasalahan yang tidak pasti. Dalam pohon

keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari

root dan internal node lainnya, mengandung kondisi-kondisi uji atribut untuk

memisahkan record yang memiliki karakteristik yang berbeda. Edge-edge dapat

dilabelkan dengan nilai-nilai numeric-symbolic. Sebuah atribut numeric-symbolic adalah

sebuah atribut yang dapat bernilai numeric ataupun symbolic yang dihubungkan dengan

sebuah variable kuantitatif. Sebagai contoh, ukuran seseorang dapat dituliskan sebagai

atribut numeric-symbolic: dengan nilai kuantitatif, dituliskan dengan “1,72 meter”,

ataupun sebagai nilai numeric-symbolic seperti “tinggi” yang berkaitan dengan suatu

ukuran (size). Nilai-nilai seperti inilah yang menyebabkan perluasan dari decision tree

menjadi fuzzy decision tree (Yuan dan Shaw 1995). Penggunaan teknik fuzzy

memungkinkan untuk mengetahui suatu objek yang dimiliki oleh lebih dari satu kelas. Fuzzy decision tree memungkinkan untuk menggunakan nilai-nilai numeric-symbolic selama konstruksi atau saat mengklasifikasikan kasus-kasus baru. Manfaat dari

teori himpunan fuzzy dalam decision tree ialah meningkatkan kemampuan dalam

memahami decision tree ketika digunakan atribut-atribut kuantitatif. Bahkan, dengan

menggunakan teknik fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi

kasus-kasus baru (Marsala 1998).

Fuzzy Iterative Dychotomizer Version 3 (Fuzzy ID3)

Algoritme ID3 pertama kali diperkenalkan oleh Quinlan pada tahun 1986. Algoritme ini menggunakan teori informasi untuk menentukan atribut mana yang paling informatif, namun ID3 sangat tidak stabil dalam melakukan penggolongan berkenaan

dengan gangguan kecil pada data pelatihan. Logika fuzzy dapat memberikan suatu

peningkatan dalam melakukan penggolongan pada saat pelatihan (Liang 2005).

Algoritme Fuzzy ID3 merupakan algoritme yang efisien untuk membuat suatu

fuzzy decision tree. Algoritme Fuzzy ID3 adalah sebagai berikut (Liang 2005):

1. Buat root node yang memiliki dataset fuzzy dengan nilai membership 1.

2. Jika node t pada himpunan data fuzzy D memenuhi beberapa kondisi berikut maka

turunkan leaf node dan berikan label nama kelas:

 Proporsi kelas lebih besar atau sama dengan threshold� ,

| |

� ………(6)

 Jumlah record data lebih kecil dari threshold

 Tidak ada lagi atribut untuk klasifikasikan, maka leaf node diberi label nama

kelas.

3. Jika kondisi di atas tidak terpenuhi, maka itu bukan leaf-node. Sub-node baru akan

dihasilkan sebagai berikut:

 Untuk setiap 1 s (i=1,2,...,L), hitung information gain G( 1, D) dan pilih

atribut yang nilai information gain nya paling besar.

 Bagi D menjadi beberapa fuzzy subset 1,…, , sesuai dengan ,

dimana derajat keanggotaan data di adalah perkalian derajat keanggotaan

(24)

 Buat node baru 1,..., , untuk fuzzy subset 1,..., , dan beri label

himpunan fuzzy j antara cabang yang menghubungkan node dan t.

 Gantikan D dengan (j = 1,2,...,m) dan ulangi dari urutan nomor 2 secara rekursif.

Fuzzy Entropy dan Information Gain

Information gain adalah suatu nilai statistik yang digunakan untuk memilih atribut yang akan mengekspansi tree dan menghasilkan node baru pada algoritme ID3. Suatu entropy dipergunakan untuk mendefinisikan nilai information gain. Entropy dirumuskan sebagai berikut (Liang 2005):

Terdapat 2 kasus khusus yang terjadi pada klasifikasi boolean, yang pertama adalah jika

semua anggota dari himpunan S memiliki tipe yang sama, maka nilai entropy adalah 0

(nol). Hal ini berarti tidak terjadi ketidakpastian klasifikasi.

=−1∗ 2 1 −0∗ 2 0 = 0… … … …(9)

Kedua, jika jumlah contoh positif sama dengan jumlah contoh negatif, maka nilai entropy adalah 1 (satu), hal ini menandakan terjadi ketidakpastian klasifikasi maksimum.

=−0.5∗ 2 0.5 −0.5∗ 2 0.5 = 1… … …(10)

Untuk melakukan perluasan atribut, yang didasarkan pada data dari himpunan contoh, terlebih dahulu harus didefinisikan ukuran standar information gain. Information gain

digunakan sebagai ukuran seleksi atribut, yang merupakan hasil pengurangan entropy

dari himpunan contoh setelah membagi ukuran himpunan contoh dengan jumlah

atributnya. Information gain untuk atribut A didefinisikan sebagai berikut (Liang 2005):

, = −

… …. (11)

∈ ( )

dengan bobot = | |

| | adalah rasio dari data dengan atribut v pada himpunan contoh.

Pada himpunan data fuzzy, terdapat penyesuaian rumus untuk menghitung nilai entropy

untuk atribut dan information gain karena adanya ekspresi data fuzzy. Berikut adalah

(25)

= = −� ∗ 2(�)

… …. (12)

Untuk menentukan fuzzy entropy setelah dilakukan splitting data dan information gain

dari suatu atribut A pada algoritme Fuzzy ID3 digunakan persamaan sebagai berikut

entropy dari himpunan S dari data pelatihan pada node. | | adalah ukuran dari subset

⊆ S dari data pelatihan dengan atribut v. |S| menunjukkan ukuran dari himpunan S (Liang 2005).

Fuzzy Decision Tree Threshold

Jika proses learning dari fuzzy decision tree (FDT) dihentikan sampai semua data

contoh pada masing-masing leaf-node menjadi anggota sebuah kelas, akan dihasilkan

akurasi yang rendah. Oleh karena itu untuk meningkatkan akurasinya, proses learning

harus dihentikan lebih awal atau melakukan pemangkasan tree secara umum (Liang

2005). Untuk itu diberikan 2 (dua) buah threshold yang harus terpenuhi jika tree akan

diekspansi, yaitu (Liang 2005):

Fuzziness control threshold (FCT) / θr

Jika proporsi himpunan data dari kelas Ck lebih besar atau sama dengan nilai

threshold θr, maka ekspansi tree dihentikan. Sebagai contoh: jika diberikan θr

adalah 85%, pada sebuah sub-dataset rasio dari kelas 1 adalah 90% dan kelas 2

adalah 10%, maka ekspansi tree dihentikan.

Leaf decision threshold (LDT) / θn

Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari

threshold θn, maka ekspansi tree dihentikan. Sebagai contoh: sebuah himpunan data memiliki 600 contoh dengan θn adalah 2%. Jika jumlah data contoh pada

sebuah node lebih kecil dari 12 (2% dari 600), maka ekspansi tree dihentikan.

Sistem Inferensi Fuzzy

Inferensi merupakan proses penarikan suatu kesimpulan berdasarkan data dan

aturan tertentu (Siler dan Buckley 2005). Sistem inferensi fuzzy merupakan sebuah

framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning. Fuzzy Inference System (FIS) dapat menerima input berupa bilangan crisp

atau bilangan fuzzy, tapi outputnya hampir semua berupa himpunan fuzzy. Pada sistem

inferensi fuzzy yang outputnya berupa nilai crisp dibutuhkan metode defuzzifikasi untuk

(26)

Metode Mamdani

Metode Mamdani diperkenalkan oleh Ebrahim Mamdani pada tahun 1975. Metode ini sering juga dikenal dengan nama Metode Max-Min. Untuk mendapatkan output, diperlukan 4 tahapan (Kusumadewi 2002) :

1. Pembentukan himpunan fuzzy

Pada Metode Mamdani, baik variabel input maupun variabel output dibagi menjadi satu atau lebih himpunan fuzzy.

2. Aplikasi fungsi implikasi (aturan)

Pada Metode Mamdani, fungsi implikasi yang digunakan adalah Min.

3. Komposisi aturan

Tidak seperti penalaran monoton, apabila sistem terdiri-dari beberapa aturan, maka inferensi diperoleh dari kumpulan dan korelasi antar aturan. Ada 3 metode yang

digunakan dalam melakukan inferensi sistem fuzzy, yaitu: max, additive dan

probabilistik OR (probor). Pada penelitian ini, metode yang digunakan adalah

metode Max.

 Metode Max (Maximum)

Pada metode ini, solusi himpunan fuzzy diperoleh dengan cara mengambil nilai

maksimum aturan, kemudian menggunakannya untuk memodifikasi daerah fuzzy,

dan mengaplikasikannya ke output dengan menggunakan operator OR (union).

Jika semua proposisi telah dievaluasi, maka output akan berisi suatu himpunan fuzzy yang merefleksikan konstribusi dari tiap-tiap proposisi. Secara umum dapat dituliskan:

Input dari proses defuzzifikasi adalah suatu himpunan fuzzy yang diperoleh dari

komposisi aturan-aturan fuzzy, sedangkan output yang dihasilkan merupakan suatu

bilangan pada domain himpunan fuzzy tersebut. Sehingga jika diberikan suatu

himpunan fuzzy dalam range tertentu, maka harus dapat diambil suatu nilai crisp tertentu sebagai output.

Defuzzifikasi Metode Centroid

Defuzzifikasi adalah merupakan proses pengubahan keluaran fuzzy ke dalam

keluaran yang bernilai tunggal (crisp). Oleh karena itu, masukan dari poses

defuzzifikasi adalah suatu himpunan fuzzy yang diperoleh dari komposisi aturan-aturan

fuzzy, sedangkan keluarannya adalah suatu bilangan pada domain himpunan fuzzy

tersebut (Kusumadewi 2002). Defuzzifikasi metode Centroid adalah teknik yang solusi

nilai tunggalnya didapatkan dengan mengambil titik pusat daerah fuzzy. Secara umum dapat diformulasikan sebagai berikut:

(27)

3

METODE PENELITIAN

Kerangka Pemikiran

Adapun kerangka pemikiran pada penelitian ini dapat digambarkan dalam suatu bagan alir seperti yang dapat dilihat pada Gambar 4.

Gambar 4 Kerangka pemikiran

Pengumpulan Data

Sumber data yang digunakan diambil dari data kelulusan mahasiswa yang

diperoleh dari database SIMAK (Sistem Informasi Akademik) Institut Bisnis dan

Informatika Kwik Kian Gie pada tahun 2015, dari dua program studi dan dari tiga angkatan yaitu S1-Manajemen dan S1-Akuntansi angkatan 2008-2010. Data tersebut

merupakan gabungan dari beberapa tabel diantaranya berasal dari dari dataset identitas

(28)

Analisis Korelasi Atribut

Atribut predictor merupakan atribut-atribut yang akan digunakan untuk

melakukan prediksi terhadap kelulusan tepat waktu mahasiswa. Pemilihan atribut-atribut prediktor dilakukan dengan menggunakan pendekatan uji statistika yakni uji

korelasi pearson product moment menggunakan software IBM SPSS Statistics v.20 agar

dapat mengetahui apakah prediktor-prediktor tersebut memiliki hubungan terhadap kelulusan tepat waktu mahasiswa. Proses ini dilakukan untuk meningkatkan efisiensi dan skalabilitas dari sebuah sistem prediksi.

Tahap awal dalam menentukan korelasi antara atribut-atribut prediktor dengan kelulusan tepat waktu mahasiswa adalah menentukan hipotesis dari penelitian, sebagai contoh :

Ho : Tidak ada hubungan yang signifikan antara IPK Semester 1 dengan

kelulusan tepat waktu mahasiswa.

Ha : Ada hubungan yang signifikan antara IPK Semester 1 dengan kelulusan

tepat waktu mahasiswa.

Selanjutnya dihitung korelasinya menggunakan formula dari korelasi pearson

product moment hingga didapat nilai korelasi dari atribut IPK Semester 1 terhadap kelulusan tepat waktu mahasiswa. Dengan cara yang sama dilakukan perhitungan korelasi pada seluruh atribut yang akan digunakan dalam penelitian ini terhadap kelulusan tepat waktu mahasiswa. Tabel 1 menunjukkan contoh hasil perhitungan korelasi salah satu atribut prediktor yakni IP Semester 1 terhadap kelulusan tepat waktu mahasiswa.

Tabel 1 Contoh hasil perhitungan uji korelasi pearson product moment

Correlations

IPK Sem1 Lulus Tepat Waktu

IPK Sem1

**. Correlation is significant at the 0.01 level (2-tailed).

(29)

Transformasi Data

Proses transformasi data diantaranya dilakukan untuk data target yang bersifat

kategorikal, dengan menggunakan metode Unary Encoding, dimana data target

dipresentasikan dengan kombinasi angka 0 dan 1 (numerical binary variable). Dimana

„0‟ untuk kategori masa studi 8 semester atau ≤ 48 bulan dan „1‟ untuk kategori tidak

tepat waktu atau melebihi masa studi 8 semester atau > 48 bulan. Selain itu pada

penelitian ini juga menerapkan salah satu teknik data mining yaitu decision tree dengan

menggunakan pendekatan fuzzy dan algoritme yang digunakan adalah fuzzy decision

tree (FDT), Oleh karena itu data kelulusan yang digunakan harus direpresentasikan ke

dalam bentuk fuzzy. Proses ini diawali dengan membuat fungsi nilai keanggotaan

(membership function) pada masing-masing atribut yang dipakai. Hal ini merupakan

bagian dari penerapan prinsip fuzzy yang menjadi pedoman penelitian. Salah satu contoh

ilustrasi membership function yang digunakan untuk mentransformasi data IPK ke

dalam bentuk fuzzy adalah sebagai berikut :

� =

Berikut ini salah satu contoh ilustrasi hasil fuzzifikasi dari atribut IP Semester 1

terhadap kelulusan tepat waktu mahasiswa dengan menggunakan membership function

yang sudah didefinisikan sebelumnya, seperti yang dapat dilihat pada Tabel 2.

Tabel 2 Contoh data hasil fuzzifikasi

No_Data IPK_Sem1 MF_Rendah MF_Sedang MF_Tinggi MF_SangatTinggi Class Target

1 2.85 0 1 0 0 2

Pembagian Data Training dan Data Testing

Dalam penelitian ini metode yang digunakan untuk membagi data latih dan data uji adalah k-fold cross validation. Pembagian data latih dan data uji dengan proporsi

(30)

Pemilihan Nilai Threshold

Penentuan nilai fuzziness control threshold (θr ) dan nilai leaf decision threshold

(θn) hingga mendapatkan model yang terbaik dan dengan tingkat akurasi yang tinggi

(>80%) terhadap prediksi kelulusan tepat waktu mahasiswa. Sebagai contoh apabila nilai threshold yang digunakan untuk fuzziness control threshold (FDT) 80% dan leaf decision threshold (LDT) 20% namun masih menghasilkan akurasi model yang kurang

dari 80% maka dilakukan percobaan kombinasi threshold yang lain hingga mencapai

akurasi yang lebih tinggi dari 80%.

Pembentukan Model

Langkah-langkah pada metode fuzzy decision tree dalam pembentukan model

klasifikasi kelulusan tepat waktu mahasiswa adalah sebagai berikut :

o Menentukan atribut yang akan digunakan.

o Menentukan banyaknya fuzzy set untuk masing-masing atribut.

o Menentukan banyaknya training set yang akan digunakan.

o Menghitung membership value.

o Memilih besarnya threshold yang akan digunakan.

o Membangun fuzzy decision tree dengan algoritme Fuzzy ID3.

o Menguji model klasifikasi

Evaluasi Model

Dalam penelitian ini dipilih alat ukur evaluasi berupa confusion matrix dengan

tujuan untuk mempermudah dalam menganilisis performa algoritme Fuzzy ID3, karena

confusion matrix memberikan informasi dalam bentuk angka sehingga dapat dihitung rasio keberhasilan klasifikasi. Confusion matrix digunakan sebagai dasar dari variasi ukuran penilaian seperti akurasi, precision dan recall. Kombinasi precision dan recall

merepresentasikan nilai F-measure. Seperti terlihat pada Tabel 3 yang menunjukkan

tabel confision matrix untuk memprediksi kelulusan tepat waktu mahasiswa.

Tabel 3 Confusion matrix untuk prediksi kelulusan tepat waktu

Kelas Prediksi

Lulus Tepat Waktu

Ya Tidak

Ya True Positive (TP) False Negative (FN)

Tidak False Positive (FP) True Negative (TN)

(31)

Keterangan untuk Tabel 3 dinyatakan sebagai berikut :

True Positive (TP) : jumlah instance kelas positif yang diprediksi benar sebagai kelas positif.

False Positive (FP) : jumlah instance kelas negatif yang diprediksi salah sebagai kelas positif.

Tahapan representasi pengetahuan merupakan tahapan akhir pada penelitian ini, dimana pada tahap ini pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika yang selanjutnya akan dievaluasi hasil dari pengetahuan yang didapatkan.

Alat Bantu Penelitian

Alat-alat bantu yang digunakan dalam penelitian ini adalah sebagai berikut :

a. Komputer Personal

Komputer personal dengan spesifikasi prosesor Intel® Core i5-2520M CPU @ 2.50 GHz, Memory (RAM) 4 GB.

b. Sistem Operasi Windows 7 Ultimate.

c. Aplikasi Microsoft Excel 2010 untuk melakukan praproses terhadap data sebelum

digunakan sebagai input model yang dikembangkan karena tampilan data dalam

bentuk datasheet maka aplikasi ini dapat digunakan unuk mempermudah dalam

pengolahan data.

d. Aplikasi IBM SPSS Statistics 20 untuk melakukan perhitungan korelasi pearson

product moment terhadap atribut-atribut predictor yang akan digunakan.

e. Aplikasi Matlab versi 7.04 digunakan dalam penelitian ini untuk pembentukan

model menggunakan algoritme Fuzzy ID3 dan visualisasi hasil.

Hasil dan Analisa

Analisa yang dilakukan terhadap predictor yang memiliki hubungan dengan

kelulusan tepat waktu mahasiswa menggunakan analisis korelasi pearson product

moment yang digunakan untuk membentuk model klasifikasi. Model yang paling bagus dari hasil pembentukan aturan klasifikasi yang dihasilkan menggunakan algoritme Fuzzy ID3 digunakan untuk memprediksi apakah seorang mahasiswa dapat lulus tepat

waktu atau tidak menggunakan Fuzzy Inference System Mamdani. Pada penelitian ini

juga dilakukan perbandingan akurasi dari beberapa rule yang dibentuk oleh Fuzzy ID3

berdasarkan nilai threshold yang ditentukan. Selain itu juga dilakukan perbandingan

performansi antara algoritme Fuzzy ID3 dan algoritme ID3 dalam membentuk aturan

(32)

4

HASIL DAN PEMBAHASAN

Pengumpulan dan Pembersihan Data

Data kelulusan mahasiswa diperoleh dari database SIMAK (Sistem Informasi

Akademik) Institut Bisnis dan Informatika Kwik Kian Gie pada tahun 2015, dari dua program studi dan dari tiga angkatan yaitu S1-Manajemen dan S1-Akuntansi angkatan 2008-2010. Data tersebut merupakan gabungan dari beberapa tabel diantaranya berasal dari dataset identitas mahasiswa, dataset transkrip nilai mahasiswa, dan dataset presensi mahasiswa.

Jumlah data yang diperoleh adalah sebanyak 957, dimana data IPK setiap

semester dari setiap mahasiswa sudah dilakukan transpose data sehingga didapat IPK

setiap semester dari masing-masing mahasiswa. Data yang diambil adalah data IPK

mahasiswa yang memiliki IPK ≥ 2.00. Dataset identitas mahasiswa terdiri dari 13 atribut yang menjelaskan identitas diri mahasiswa dan informasi tentang data mahasiswa yang bersangkutan saat mendaftar diri pada Institut Bisnis dan Informatika Kwik Kian Gie. Atribut-atribut tersebut diantaranya nomor induk mahasiswa (NIM), nama, jenis kelamin, tempat lahir, tanggal lahir, agama, pekerjaan orang tua, pendidikan orang tua, alamat, tanggal lulus, jurusan smu, nilai rata-rata rapor kelas 2 SMA, dan asal kota smu. Atribut tanggal lulus digunakan untuk menghitung masa studi yang ditempuh mahasiswa tersebut sehingga dapat menentukan apakah mahasiswa-mahasiswa tersebut

lulus tepat waktu atau tidak, yang nantinya akan digunakan sebagai atribut class target.

Mahasiswa dapat dinyatakan lulus tepat waktu adalah mahasiswa yang menempuh studi

dalam waktu tidak lebih dari 8 semester (≤ 48 bulan). Dataset presensi mahasiswa terdiri dari 3 atribut yakni NIM, semester dan jumlah kehadiran.

Dataset transkrip nilai terdiri dari 6 atribut yakni NIM, nama, nilai pendidikan kewarganegaraan, nilai pancasila, indeks prestasi komulatif (IPK) semester 1, IPK

semester 2. Dataset ini merupakan dataset yang sudah dilakukan perubahan dari kolom

menjadi baris atau dari baris menjadi kolom (transpose) data menggunakan structured

query language (SQL). Contoh query yang digunakan untuk transpose data IPK setiap semester adalah sebagai berikut :

SELECT a.idnim, b.fullname,

SUM(IF (a.idsemest=01, a.nilipk,0)) ipk_sem1, SUM(IF (a.idsemest=02, a.nilipk,0)) ipk_sem2,

FROM satr0000 a INNER JOIN satr0002 b ON b.idnim = a.idnim WHERE a.idangkat IN('2008','2009','2010') GROUP BY a.idnim, b.fullname

Contoh data sebelum di transpose dan yang sudah di transpose menggunakan

query diatas dapat dilihat pada Tabel 4 dan Tabel 5.

Tabel 4 Contoh record data IPK sebelum di transpose

NIM Nama Semester Indeks Prestasi

39100027 Kenneth Limindo 01 3.00

39100027 Kenneth Limindo 02 3.25

39100027 Kenneth Limindo 03 2.62

(33)

Tabel 5 Contoh record data IPK setelah di transpose

NIM Nama IP Sem 1 IP Sem 2 IP Sem 3 IP Sem 4

39100027 Kenneth Limindo 3.00 3.25 2.62 2.71

Data yang diambil ini adalah data yang sudah bersih atau tidak mengandung missing value, relevan, dan tidak redundant. Dikatakan missing value jika nilai dari salah satu atau beberapa dari atribut tersebut tidak berisi nilai atau kosong.

Tabel 6 Contoh record data dengan missing value

No Nama Jenis Kelamin Agama Jumlah Kehadiran

1 Jimmy Leonard Laki-Laki Khatolik 0

2 Nitha Oktavianty Perempuan Kristen 190

3 Caterine Gunawan Perempuan Khatolik 187

4 Henricus Leonard Laki-Laki Kristen 172

5 Shiela Agustine Y. Perempuan Kristen 0

6 Norma Juwita Perempuan Buddha 191

7 Wiwin Perempuan Khonghucu 178

Pada Tabel 6 di atas terlihat bahwa record ke 1 dan 5 terdapat atribut yang tidak

berisi data atau kosong, yakni pada atribut jumlah kehadiran. Maka keadaan seperti di atas dikatakan bahwa atribut tersebut missing value. Maka data seperti contoh di atas akan dihapus karena record tersebut dinilai tidak konsisten.

Selanjutnya dilakukan pemilihan atribut. Atribut yang tidak relevan dan atribut

yang banyak mengandung missing value akan dihilangkan. Semua atribut yang terpilih

adalah atribut yang kontinu. Sementara untuk kelas target dikategorikan menjadi dua

kategori yakni Lulus Tepat Waktu (masa studi ≤ 48 bulan) dan kategori Tidak Lulus

Tepat Waktu (masa studi > 48 bulan). Record yang mengandung nilai kosong dan atau

duplikat dihapus, karena akan berpotensi menyebabkan kesalahan terhadap hasil dari model klasifikasi kelulusan tepat waktu mahasiswa yang terbentuk.

Dari hasil akhir penggabungan antara dataset identitas mahasiswa, dataset

transkrip nilai mahasiswa, dan dataset presensi mahasiswa terdiri dari 410 record yang

(34)

Uji Korelasi Atribut

Dari 5 atribut yang ada akan dilakukan pemilihan atribut lagi menggunakan uji hipotesis statistika yaitu dengan menggunakan pendekatan uji statistika yakni uji

korelasi pearson product moment (PPM) agar dapat mengetahui apakah

prediktor-prediktor tersebut memiliki hubungan terhadap kelulusan tepat waktu mahasiswa. Berdasarkan uji korelasi yang telah dilakukan terhadap seluruh atribut

menggunakan metode pearson product moment diperoleh hasil harga indeks korelasi

setiap atribut yang dirangkum pada Tabel 7. Seperti yang terlihat pada Tabel 7, semua atribut memiliki korelasi negatif terhadap lulus tepat waktu. Atribut IPK semester 2 memiliki korelasi yang paling tinggi dengan besar koefisien -0.740 (74%). Korelasi negatif memiliki makna bahwa semakin tinggi nilai dari suatu atribut prediktor maka lama masa studi yang ditempuh akan semakin kecil atau semakin cepat. Atribut-atribut inilah yang selanjutnya akan digunakan pada penelitian ini.

Tabel 7 Hasil uji korelasi antara atribut predictor terhadap masa studi

Fuzzifikasi Data

Penelitian ini menerapkan salah satu teknik pada data mining, yaitu fuzzy decision

tree, oleh karena itu data yang digunakan harus direpresentasikan ke dalam bentuk fuzzy. Proses diawali dengan membuat fungsi nilai keanggotaan (membership function) pada masing-masing atribut yang dipakai. Dari 5 (lima) atribut yang digunakan pada penelitian ini semuanya merupakan atribut yang bersifat kontinu, yaitu IPK Semester 1,

IPK Semester 2, Kedisiplinan, Prilaku, dan Rapor. Pada penelitian ini, range nilai dari

setiap atribut didapatkan berdasarkan hasil diskusi bersama pakar yakni beberapa orang

dosen dan management dari Institut Bisnis dan Informatika Kwik Kian Gie. Atribut

yang telah ditransformasi ke dalam bentuk fuzzy antara lain:

Correlations

IPK Sem1 IPK Sem2 Prilaku Kedisiplinan Rapor Lulus Tepat Waktu

(35)

 Atribut IPK Semester 1

Atribut IPK Semester 1 dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah

(x≤ 2.75), sedang (2.65 ≤ x≤ 3), tinggi (2.9 ≤ x≤ 3.6), dan sangat tinggi (3.5 ≤ x ≤ 4). Dari pembagian itu dapat ditentukan membership function dari setiap himpunan fuzzy untuk atribut IPK Semester 1, yaitu:

� =

Himpunan fuzzy untuk setiap linguistic term dari atribut IPK Semester 1 menggunakan

kurva dengan bentuk trapesium seperti pada Gambar 5.

Gambar 5 Himpunan fuzzy atribut IPK Semester 1

 Atribut IPK Semester 2

Atribut IPK Semester 2 dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah

(x≤ 2.75), sedang (2.65 ≤ x≤ 3), tinggi (2.9 ≤ x≤ 3.6), dan sangat tinggi (3.5 ≤ x ≤ 4). Dari pembagian itu dapat ditentukan membership function dari setiap himpunan fuzzy untuk atribut IPK Semester 2, yaitu:

(36)

Himpunan fuzzy untuk setiap linguistic term dari atribut IPK Semester 2 menggunakan kurva dengan bentuk trapesium seperti pada Gambar 6.

Gambar 6 Himpunan fuzzy atribut IPK Semester 2

 Atribut Prilaku

Atribut Prilaku dibagi menjadi 4 kelompok atau linguistic term, yaitu kurang (x

65), sedang (63 ≤ x ≤ 70), baik (68 ≤ x ≤ 80), dan sangat baik (78 ≤ x ≤ 100). Dari

pembagian itu dapat ditentukan membership function dari setiap himpunan fuzzy untuk

atribut Prilaku, yaitu:

Himpunan fuzzy untuk setiap linguistic term dari atribut Prilaku menggunakan kurva dengan bentuk trapesium seperti pada Gambar 7.

Gambar 7 Himpunan fuzzy atribut Prilaku

 Atribut Rapor

Atribut Rapor dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah (x≤ 7),

sedang (6.75 ≤ x ≤ 7.5), tinggi (7.25 ≤ x ≤ 8.25), dan sangat tinggi (8 ≤ x ≤ 10). Dari

pembagian itu dapat ditentukan membership function dari setiap himpunan fuzzy untuk

(37)

� =

dengan bentuk trapesium seperti pada Gambar 8.

Gambar 8 Himpunan fuzzy atribut Rapor

 Atribut Kedisiplinan

Atribut Kedisiplinan dibagi menjadi 3 kelompok atau linguistic term, yaitu kurang (x

≤ 180 hadir), sedang (175 hadir ≤ x≤ 190 hadir), dan baik (185 hadir ≤ x ≤ 196 hadir). Dari pembagian itu dapat ditentukan membership function dari setiap himpunan fuzzy untuk atribut Kedisiplinan, yaitu:

Himpunan fuzzy untuk setiap linguistic term dari atribut Kedisiplinan menggunakan

kurva dengan bentuk trapesium seperti pada Gambar 9.

Gambar

Gambar 2 Kurva Segitiga
Gambar 4 Kerangka pemikiran
Tabel 7 Hasil uji korelasi antara atribut predictor terhadap masa studi
Gambar 5 Himpunan fuzzy atribut IPK Semester 1     Atribut IPK Semester 2
+7

Referensi

Dokumen terkait