PINDAH DENGAN METODE
DECISION TREE
TESIS
AFEN PRANA UTAMA SEMBIRING
097038029/TIF
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MODEL
RULE
PENYEBAB MAHASISWA PERGURUAN TINGGI
PINDAH DENGAN METODE
DECISION TREE
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
AFEN PRANA UTAMA SEMBIRING
097038029/TIF
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
Judul : MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE
DECISION TREE
Kategori : Tesis
Nama : Afen Prana Utama Sembiring
Nomor Induk Mahasiswa : 097038029
Program Studi : S2 Teknik Informatika
Fakultas : ILMUKOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Dr. ZakariasSitumorang Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh
Program Studi S2 Teknik Informatika
Ketua
MODEL RULE PENYEBAB MAHASISWA PERGURUAN TINGGI PINDAH DENGAN METODE DECISION TREE
TESIS
Saya mengakui bahwa tesis ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan
dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 10 Juli 2013
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah
ini:
Nama : AFEN PRANA UTAMA SEMBIRING
Nim : 097038029
Program Studi : Magister (S2) TeknikInformatika
JenisKaryaIlmiah : TESIS
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas
Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas
tesis saya yang berjudul:
MODEL
RULE
PENYEBAB MAHASISWA PERGURUAN TINGGI
PINDAH DENGAN METODE
DECISION TREE
Beserta perangkat yang ada (jika diperlukan).Dengan Hak Bebas Royalti Non-Eksklusif
ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat,
mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa
meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai
pemegang dan atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 10 Juli 2013
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Muhammad Zarlis.
Anggota : 1. Dr. ZakariasSitumorang, M.T.
2. Prof. Dr. Opim Salim Sitompul.
3. Prof. Dr.Herman Mawengkang.
DATA PRIBADI
Nama lengkap : AfenPranaUtama Sembiring, S.T., M.Kom.
TempatdanTanggalLahir : Medan, 27 April 1974
AlamatRumah : Jl. Sei Batanghari No. 58 A
Medan - 20121
Telepon / HP : (061)4155410 / +628126088893
Email : afen366@yahoo.com
InstansiTempatBekerja : STMIK-STIE MIKROSKIL
Alamat Kantor : Jl. Thamrin No 122, 124, 140
Medan - 20212
Telepon : (061) 4573767
DATA PENDIDIKAN
SD : SD NEGERI No. 060831 TAMAT : 1987
SMP : SMP TUNAS KARTIKA-1 TAMAT : 1990
SMU : SMA TUNAS KARTIKA-2 TAMAT : 1993
S1 : STT Mandala Bandung TAMAT : 2001
Pertama-tama kami panjatkan puji syukur kehadirat Tuhan Yang Maha Esa
atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan
melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya
pembimbing, pembanding, para dosen, khususnya mahasiswa Program Studi S2
Teknik Informatika di Fakultas Ilmu Komputer dan Teknologi Informasi Universitas
Sumatera Utara.
Tesis dengan judul: ”Model Rule Penyebab Mahasiswa Perguruan Tinggi Pindah Dengan Metode Decision Tree” adalah merupakan Tesis dan syarat untuk memperoleh ijazah magister pada Program Studi S2 Teknik Informatika Fakultas Ilmu
Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima
kasih yang sebesar-besarnya kepada:
Ketua STMIK Mikroskil Dr. Mimpin Ginting, M.S, beserta jajarannya yang
telah memberikan izin, dukungan dan kesempatan kepada penulis untuk mengikuti
pendidikan lanjutan pada Program Studi S2 Teknik Informatika Universitas Sumatera
Utara.
Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H,
M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk
mengikuti dan menyelesaikan pendidikan Program Studi S2 Teknik Informatika
Universitas Sumatera Utara.
Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera
Utara, Prof. Dr. Muhammad Zarlis yang juga sebagai Ketua Program Studi S2 Teknik
Informatika atas kesempatan yang diberikan kepada penulis menjadi mahasiswa
Program Studi S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknologi
Informasi Universitas Sumatera Utara.
Sekretaris Program Studi S2 Teknik Informatika M. Andri Budiman, ST, M.
Comp. Sc, M.EM. beserta seluruh Staff Pengajar dan Staff Administrasi yang telah
memberikan bantuan dan pelayanan yang baik selama mengikuti perkuliahan.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami
Zakarias Situmorang, M.T selaku Pembimbing Anggota yang dengan penuh
kesabaran membimbing dan memotivasi, serta memberi saran yang berkaitan dengan
penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kepada
Prof. Dr. Herman Mawengkang, Prof. Dr. Opim Salim Sitompul, Prof. Dr. Tulus
sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik
demi penyelesaian tesis ini.
Orangtua tercinta Ibunda M Br Ginting, serta Ibu Mertua K Br Sitepu (+) serta
semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada
penulis.
Istri tercinta, Helen Morina Ginting, A.Md, beserta anak anakku terkasih
Deryl Aditya, Jessica Nadine Regina dan Shelly Christine yang selalu mendoakan,
memberikan semangat, dengan kasih dan sabar selama penulis mengikuti pendidikan,
budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa.
Sekali lagi terima kasih.
Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam
tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang Anda
berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan
yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga
kiranya Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah
diberikan.
Medan, 10 Juli 2013 Penulis,
ABSTRAK
Faktor-faktor yang mempengaruhi potensi mahasiswa mengundurkan diri/pindah masih belum dapat diketahui dengan pasti. Data mahasiswa diperoleh dari database mahasiswa STMIK Mikroskil dan hasil survei terhadap mahasiswa tahun ajaran 2011 dan 2012 yang dilakukan melalui website. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk mendapatkan decision tree sehingga mendapatkan suatu model aturan/rule yang dapat memperlihatkan keterhubungan IPK antara data ekonomi orang tua, dukungan keluarga, fasilitas, motivasi, confidence, dan kualitas pelayanan terhadap faktor-faktor mahasiswa yang diprediksi berpotensi mengundurkan diri/pindah dan memerlukan perhatian ekstra. Model aturan yang diperoleh menunjukkan bahwa keenam variable predictor memberikan kontribusi 80.2 %. Sedangkan variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 58.3% terhadap mahasiswa yang berpotensi mengundurkan diri/pindah.
MODEL
RULE
THE CAUSE OF COLLEGE STUDENT MOVING
WITH A METHOD OF DECISION TREE
ABSTRACT
Factors that influence students' potential resigned still not be known with certainty. Student data obtained from the database of students STMIK Mikroskil and the results of a survey of student academic year 2011 and 2012 were carried out through the website. Algorithms data mining technique used is the algorithm C 4.5 to get the decision tree so getting a model rule that can demonstrate a grade point average connectedness between economic data of parents, family support, facilities, motivation, confidence, and quality of service to the factors students potentially predictable resigned and require extra attention. Model rules showed that six predictor variables contribute 80.2%. While the best of predictor variables used are economic factors which contributed 58.3% of the students who could potentially resigned.
DAFTAR ISI
Halaman
KATA PENGANTAR i
ABSTRAK iii
ABSTRACT iv
DAFTAR ISI v
DAFTAR TABEL viii
DAFTAR GAMBAR x
DAFTAR LAMPIRAN xi
BAB I PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Perumusan Masalah 2
1.3. Batasan Masalah 2
1.4 Tujuan Penelitian 3
1.5 Manfaat Penelitian 3
BAB II TINJAUAN PUSTAKA 4
2.1 Pengunduran Diri Mahasiswa 4
2.2 Pengertian Data Mining 5
2.3 Pengelompokan Data Mining 10
2.4 Pengertian Decision Tree 12
2.5 Algoritma C 4.5 13
2.6 Ekstraksi Rule dari Decision Tree 20
2.7 Riset- riset Terkait 23
2.8 Persamaan dengan Riset – riset lain 23
2.9 Perbedaan dengan Riset-riset lain 24
2.10 Kontribusi Riset 24
BAB III METODE PENELITIAN 26
3.1. Pendahuluan 26
3.2 Lokasi dan Waktu Penelitian 26
3.4 Prosedur Pengumpulan Data 27
3.4.1 Mahasiswa Mengundurkan Diri 27
3.4.2 Mahasiswa Berpotensi Mengundurkan Diri 27
3.5 Validitas dan Reabilitas (Keakuratan Data) 30
3.6 Preprocessing Data 30
3.6.1 Preprocessing Database Akademik 30
3.6.2 Preprocessing Data Kuesioner 33
3.7 Alat Analisis Data 34
3.7.1 Paket Statitik Untuk Ilmu Sosial 34
3.7.2 Komunitas Rapid Miner 34
3.8 Instrument Penelitian 35
3.9 Diagram Aktifitas Kerja Penelitian 37
BAB IV HASIL DAN PEMBAHASAN 40
4.1. Pendahuluan 40
4.2 Hasil Transformasi Data Set Pengunduran Diri
Mahasiswa 40
4.3 Hasil Transformasi Data Set 42
4.3.1 Hasil Percobaan Sampel Data 42
4.3.2 Hasil Percobaan Descriptive Data 45
4.3.3 Hasil Percobaan Frekuensi Data 46
4.3.3.1 Statistik Frekuensi Faktor Ekonomi 46
4.3.3.2 Statistik Frekuensi Faktor Dukungan
Keluarga 47
4.3.3.3 Statistik Frekuensi Faktor Fasilitas Belajar 47
4.3.3.4 Statistik Frekuensi Faktor Motivasi 48
4.3.3.5 Statistik Frekuensi Faktor Confidence 49
4.3.3.6 Statistik Frekuensi Faktor Kualitas
Pelayanan 50
4.3.4 Signifikan 51
4.4.4 Hasil Percobaan Decision Tree 53
BAB V KESIMPULAN DAN SARAN 70
5.1. Kesimpulan 70
DAFTAR PUSTAKA 72
DAFTAR TABEL
Halaman
Tabel 2.1 Keputusan Bermain Tenis 15
Tabel 2.2 Perhitungan Node 1 17
Tabel 2.3 Perhitungan Node 1.1 18
Tabel 2.4 Perhitungan Node 1.1.2 19
Tabel 3.1 Tampilan Data Set Pertama Pengunduran Diri 27
Tabel 3.2 Tampilan Data Set Pertama Potensi Mengundurkan Diri 28
Tabel 3.3 Tampilan Data Set Kedua 28
Tabel 3.4 Tampilan Data Set Pertama dan Kedua 29
Tabel 3.5 Mahasiswa Pindah 31
Tabel 3.6 Biodata Mahasiswa 32
Tabel 3.7 Sks Lulus Mahasiswa 32
Tabel 3.8 Data Penelitian 33
Tabel 3.9 Data Kuesioner 33
Tabel 4.1 Korelasi Signifikan IPK dan Pendidikan Orang Tua 41
Tabel 4.2 Signifikan dan Reliabilitas Statistik Faktor Ekonomi
Orang Tua 42
Tabel 4.3 Signifikan dan Reliabilitas Statistik Faktor Dukungan
Keluarga 42
Tabel 4.4 Signifikan dan Reliabilitas Statistik Faktor Fasilitas Belajar 43
Tabel 4.5 Signifikan dan Reliabilitas Statistik Faktor Motivasi 43
Tabel 4.6 Signifikan dan Reliabilitas Statistik Faktor Confidence 43
Tabel 4.7 Signifikan dan Reliabilitas Statistik Faktor Kualitas Pelayanan 44
Tabel 4.8 Signifikan dan Reliabilitas Statistic Data 44
Tabel 4.9 Descriptive Statistik Testing Data 45
Tabel 4.10 Hasil Uji Frekuensi Faktor Ekonomi Orang Tua 46
Tabel 4.11 Hasil Uji Frekuensi Faktor Dukungan Keluarga 47
Tabel 4.12 Hasil Uji Frekuensi Faktor Fasilitas Belajar 48
Tabel 4.14 Hasil Uji Frekuensi Faktor Confidence 49
Tabel 4.15 Hasil Uji Frekuensi Faktor Kualitas Pelayanan 50
Tabel 4.16 Statistik Frekuensi Enam Faktor Pendukung 51
Tabel 4.17 Korelasi Signifikan dari Enam Prediktor Variable Predikat 52
Tabel 4.18 Signifikan Dari Enam Variable Prediktor 53
Tabel 4.19 Keterangan Rule Grafik 54
Tabel 4.20 Keterangan Rule Text dengan Gain Rasio 59
DAFTAR GAMBAR
Halaman
Gambar 2.1 Bidang Ilmu Data Mining 6
Gambar 2.2 Taksonomi Data Mining 7
Gambar 2.3 Tahap-tahap Data Mining 8
Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1 18
Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1 19
Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2 20
Gambar 3.1 Proses Percobaan 35
Gambar 3.2 Diagram Aktivitas Kerja Penelitian 38
Gambar 4.1 Grafik Decision Tree 53
Gambar 4.2 Model Aturan Text Decision Tree 58
Gambar 4.3 Model Aturan Induction Rule 64
Gambar 4.4 Hubungan Antara Predikat Dengan Ekonomi Orang Tua 66 Gambar 4.5 Hubungan Antara Predikat Dengan Dukungan Keluarga 67
Gambar 4.6 Hubungan Antara Predikat Dengan Fasilitas 67
Gambar 4.7 Hubungan Antara Predikat Dengan Motivasi 68
Gambar 4.8 Hubungan Antara Predikat Confidence 68
DAFTAR LAMPIRAN
Halaman
Lampiran A Bentuk Kuesioner Mahasiswa 74
Lampiran B Jawaban Kuesioner Mahasiswa 77
Lampiran C Database Mahasiswa SIPT 78
Lampiran D Output Korelasi Signifikan 82
Lampiran E Output Reliabilitas Keenam Faktor 84
Lampiran F Output Descriptive Statistik Pengujian 96
Lampiran G Output Statistik Frekuensi Enam Faktor 98
ABSTRAK
Faktor-faktor yang mempengaruhi potensi mahasiswa mengundurkan diri/pindah masih belum dapat diketahui dengan pasti. Data mahasiswa diperoleh dari database mahasiswa STMIK Mikroskil dan hasil survei terhadap mahasiswa tahun ajaran 2011 dan 2012 yang dilakukan melalui website. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk mendapatkan decision tree sehingga mendapatkan suatu model aturan/rule yang dapat memperlihatkan keterhubungan IPK antara data ekonomi orang tua, dukungan keluarga, fasilitas, motivasi, confidence, dan kualitas pelayanan terhadap faktor-faktor mahasiswa yang diprediksi berpotensi mengundurkan diri/pindah dan memerlukan perhatian ekstra. Model aturan yang diperoleh menunjukkan bahwa keenam variable predictor memberikan kontribusi 80.2 %. Sedangkan variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 58.3% terhadap mahasiswa yang berpotensi mengundurkan diri/pindah.
MODEL
RULE
THE CAUSE OF COLLEGE STUDENT MOVING
WITH A METHOD OF DECISION TREE
ABSTRACT
Factors that influence students' potential resigned still not be known with certainty. Student data obtained from the database of students STMIK Mikroskil and the results of a survey of student academic year 2011 and 2012 were carried out through the website. Algorithms data mining technique used is the algorithm C 4.5 to get the decision tree so getting a model rule that can demonstrate a grade point average connectedness between economic data of parents, family support, facilities, motivation, confidence, and quality of service to the factors students potentially predictable resigned and require extra attention. Model rules showed that six predictor variables contribute 80.2%. While the best of predictor variables used are economic factors which contributed 58.3% of the students who could potentially resigned.
PENDAHULUAN
1.1 Latar Belakang
Kemampuan teknologi informasi untuk menghasilkan, mengumpulkan dan
menyimpan berbagai tipe data kemampuannya sangat pesat sekali jika dibandingkan
kemampuan untuk menganalisis pola yang menarik, meringkas dan mengekstraksi
knowledge dari data yang terdapat dalam set data berukuran besar. Penggunaan yang
luas atas teknologi komputer dan jaringan telah membentuk database-database
elektronik besar yang menyimpan berbagai transaksi bisnis.
Perguruan tinggi baik negeri maupun swasta (PTN/PTS) telah memiliki sistem
informasi perguruan tinggi (SIPT) yang mendukung sebagian besar dalam
pengelolaan data perguruan tinggi. Jenis data yang terdapat pada SIPT dapat berupa
data akademik, sumber daya manusia (dosen, laboran, teknisi, staf administrasi dll),
inventaris, keuangan dan sebagainya. Dalam fitur akademik biasanya terdapat data
mahasiswa, kurikulum, dosen, kartu rencana studi, jadual kuliah, nilai, kartu hasil
studi dan alumni. Apabila SIPT telah digunakan beberapa tahun lamanya, tentu pada
basis data tersebut tersimpan data yang cukup banyak dan bersifat historis. Namun
data yang banyak ini belum banyak dimanfaatkan dalam menggali informasi atau
pengetahuan yang dapat membantu pimpinan perguruan tinggi dalam membuat
rencana yang bersifat strategis. Salah satu informasi yang urgent adalah informasi
yang berhubungan dengan pengunduran diri/pindahnya mahasiswa dari sebuah
perguruan tinggi (PT).
Hampir tidak ada perguruan tinggi baik negeri maupun swasta (PTN/PTS)
yang tidak pernah mahasiswanya mengundurkan diri/pindah sebagai mahasiswa di
PTN/PTS tersebut. Hal ini dibuktikan dengan adanya peraturan pengunduran diri
mahasiswa baru dan reguler. Pengunduran diri mahasiswa termasuk putus studi atau
drop out di PTS bahkan cukup banyak, seperti pada STMIK Mikroskil mencapai 88
orang rata-rata per tahun mahasiswa yang mengundurkan diri dari rata-rata 2500
mahasiswa yang tercatat aktif kuliah dalam periode tahun 2007 hingga 2010. (sumber:
SIPT Mikroskil). Merupakan hal yang penting bagi PTS/PTN untuk mengenali,
informasi tentang faktor-faktor yang dominan berpengaruh pada pengunduran diri
mahasiswa. Faktor-faktor yang dimaksud berupa data pribadi mahasiswa sebagai
faktor eksternal sedangkan faktor internal terdiri dari indeks prestasi mahasiswa,
program studi, grade ujian saringan masuk (USM).
Walaupun banyak penelitian yang telah dilakukan berkaitan dengan
memprediksi mahasiswa drop out, namun faktor faktor yang mempengaruhi potensi
mahasiswa mengundurkan diri/pindah masih belum dapat diketahui dengan pasti
sehingga perlu dilakukan penelitian untuk membuat model aturan keterhubungan data
mahasiswa berdasarkan prediksi risiko. Penelitian tesis ini akan diperoleh model
aturan / rule penyebab mahasiswa perguruan tinggi yang mengundurkan diri/pindah .
1.2 Perumusan Masalah
Dari uraian pada latar belakang dapat dirumuskan permasalahan yang dihadapi yakni
membuat suatu model rule dan menggunakan rule pengetahuan yang dapat disajikan
kepada pimpinan dalam rangka mendukung pembuatan kebijakan dalam merespon
masalah yang muncul ke permukaan dan mengantisipasi munculnya masalah baru.
Sehingga pertanyaan yang harus dijawab dalam penelitian ini adalah:
1. Bagaimana membuat model aturan/rule penyebab mahasiswa perguruan
tinggi yang mengundurkan diri/pindah menggunakan algoritma C 4.5.
2. Bagaimana menggunakan model aturan/rule untuk melihat penyebab
mahasiswa mengundurkan diri/pindah.
1.3 Batasan Masalah
Rumusan masalah di atas, dibatasi dengan beberapa hal sebagai berikut:
1. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5 untuk
mendapatkan decision tree.
2. Penelitian ini dibatasi hanya pada analisis data mahasiwa, baik data akademik
maupun biodatanya yang diperoleh dari database SIPT STMIK Mikroskil,
dan data hasil survey mahasiswa yang telah mengundurkan diri/pindah
menggunakan kuesioner.
3. Aturan atau rule yang dibuat, penulis menggunakan perangkat lunak
1.4 Tujuan Penelitian
Tujuan yang ingin dicapai pada penelitian tesis ini yaitu untuk mendapatkan sebuah
model aturan/rule penyebab mahasiswa perguruan tinggi mengundurkan diri/pindah
dengan menggunakan metode decision tree.
1.5 Manfaat Penelitian
Manfaat dari penelitian tesis ini adalah:
1. Membantu pimpinan dalam rangka mendukung pembuat kebijakan penyebab
mahasiswa berpotensi berisiko mengundurkan diri/pindah.
2. Pimpinan dapat mengetahui dimana adanya kertekaitan satu atau lebih
penyebab mahasiswa mengundurkan diri/pindah.
3. Memberi masukan pada manajemen STMIK Mikroskil untuk membuat
TINJAUAN PUSTAKA
2.1 Pengunduran Diri Mahasiswa
Hampir tidak ada perguruan tinggi baik negeri maupun swasta (PTN/PTS) yang tidak
pernah mahasiswanya mengundurkan diri sebagai mahasiswa di PTN/PTS tersebut.
Hal ini dibuktikan dengan adanya peraturan pengunduran diri mahasiswa. Sebagai
contoh, Universitas Indonesia (UI) sendiri memiliki peraturan tersebut dan khusus
program studi computer science dapat diakses secara online, dan pada ketentuan
pengunduran mahasiswa Institut Pertanian Bogor (IPB) dicantumkan ketentuan
pengunduran diri mahasiswa baru dan reguler.
Peraturan Akademik STMIK Mikroskil Pasal 37 tentang drop out / putus studi
diberlakukan apabila: telah melewati batas masa studi untuk program sarjana paling
lama 14 semester atau program diploma paling lama 10 semester, tidak memenuhi
persyaratan minimal akademik, mendapat sanksi akibat melanggar tata tertib yang
berlaku (sumber : peraturan Akademik Mikroskil 2011-2015)
Pengunduran diri mahasiswa termasuk drop out di PTS bahkan cukup banyak,
seperti pada STMIK Mikroskil mencapai 88 orang rata-rata per tahun mahasiswa yang
mengundurkan diri dalam periode tahun 2007 hingga 2010 (sumber : SIPT Mikroskil).
Alasan pengunduran diri sangat beragam, seperti orangtua pindah tugas,
mahasiswa pindah kerja, berhenti kuliah, tidak sanggup mengikuti pelajaran, dan lain
sebagainya. Banyak diantara alasan tersebut ternyata hanya karangan belaka setelah
dibuktikan melalui beberapa penelusuran. Sehingga dibutuhkan lebih banyak
penelitian lagi tentang pola tersembunyi, kecenderungan pengunduran diri
mahasiswa. Berbeda dengan pengunduran diri, dropout diakibatkan oleh
ketidakmampuan mahasiswa dalam mencapai sejumlah SKS hingga semester tertentu.
Kecenderungan yang mempengaruhi drop out hampir sama dengan faktor
pengunduran diri.
2.2 Pengertian Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi
dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau
menarik dari data yang terdapat dalam basisdata.
Data mining adalah suatu istilah yang digunakan untuk menemukan
pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses
semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan,
dan machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam
database besar. (Turban et al, 2005 ).
Menurut Gartner Group data mining adalah suatu proses menemukan
hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam
sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan
teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006).
Data mining adalah sebuah proses secara berulang dimana kemajuan
ditentukan oleh penemuan, baik melalui metode otomatis atau manual. Data mining
sangat berguna dalam sebuah analisis skenario eksplorasi dimana tidak adanya
gagasan tentang suatu hasil yang “menarik”. Data mining menemukan informasi yang baru, berharga dalam volume data yang besar yang merupakan upaya kerjasama
manusia dan komputer. Hasil terbaik dicapai dengan menyeimbangkan pengetahuan
para ahli dalam menggambarkan masalah dan tujuan dengan kemampuan pencarian
komputer (Kantardzic, 2003).
“Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang
berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data.”
(Larose, 2006).
“Data mining merupakan bidang dari beberapa keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi
untuk penanganan permasalahan pengambilan informasi dari database yang besar.”
(Larose, 2006).
Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong
oleh beberapa faktor, antara lain (Larose, 2006).
1. Pertumbuhan yang cepat dalam kumpulan data.
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan
3. Adanya peningkatan akses data melalui navigasi web dan intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi.
5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan
teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasitas media penyimpanan.
Dari definisi-definisi yang telah disampaikan, hal penting yang terkait dengan
data mining adalah:
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah
ada.
2. Data yang akan diproses berupa data yang sangat besar.
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin
memberikan indikasi yang bermanfaat.
Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua
atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, kita dapat melihat
keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan
juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek.
(Ponniah, 2001).
Gambar 2.1 Bidang Ilmu Data Mining
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan
untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi
Pencarian Informasi
Database
Artificial Intelligent
Statistik Data Mining
Ekstraksi data (bahasa alami, web)
Penstrukturan)
Dasar (Seleksi, presentase
Hasil) Data yang besar (Normalisasi data Transformasi, OLAP)
Pembelajaran (Neural Network, pohon
banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu.
Gambar 2.1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang
ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik,
database, dan juga information retrieval (Pramudiono, 2006).
Metode data mining secara garis besar dapat dibagi dalam dua kelompok:
verifikasi dan discover. Metode verifikasi umumnya meliputi teknik-teknik statistic
seperti goodness of fit, Uji-T rata-rata dan analisis variansi. Metode discovery lebih
lanjut dapat dibagi atas model prediktif dan model deskriptif. Model prediktif
melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah
diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan data
historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola
atau hubungan dalam data dan memberikan cara untuk mengeksplorasi sifat sifat data
yang diselidiki (Dunham 2003). Taksonomi metode-metode data mining dapat dilihat
pada gambar 2.2.
Gambar 2.2 Taksonomi data mining (Maimon & Last 2000, Dunham 2003)
Data mining terutama digunakan untuk mencari pengetahuan yang terdapat
dalam basis data yang besar sehingga sering disebut Knowledge Discovery in
Database (KDD). Proses pencarian pengetahuan ini menggunakan berbagai
teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk
-Neural network
menemukan pola atau model yang sahih, baru, bermanfaat dan dimengerti. Dalam
penerapannya data mining memerlukan berbagai perangkat lunak analisis data untuk
menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi
dengan akurat.
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap yang diilustrasikan di gambar 2.3. Tahap-tahap tersebut bersifat iterative dan
interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.
Gambar 2.3 Tahap-tahap data mining (Han dan Kamber, 2006)
Tahap-tahap data mining ada 6 (enam) yaitu:
1. Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang tidak
konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik
dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian
yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga
hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak
relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak
mempengaruhi performasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke dalam
satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari beberapa database
atau file teks. Integrasi data dilakukan pada atribut-aribut yang
mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis
produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara
cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang
menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai
contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan
produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk
yang sebenarnya tidak ada.
3. Seleksi Data (Data Selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena
itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang
membeli dalam kasus market basket analysis, tidak perlu mengambil nama
pelanggan, cukup dengan id pelanggan saja.
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam
data mining. Beberapa metode data mining membutuhkan format data yang
khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar
seperti analisis asosiasi dan clustering hanya bisa menerima input data
kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu
dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi
data.
5. Datamining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa
yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai
hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba metode data
mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang
di luar dugaan yang mungkin bermanfaat.
7. Presentasi pengetahuan (knowledge presentation)
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang
digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap
terakhir dari proses data mining adalah bagaimana memformulasikan
keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus
melibatkan orang-orang yang tidak memahami data mining. Karenanya
presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami
semua orang adalah satu tahapan yang diperlukan dalam proses data mining.
Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan
hasil data mining (Han dan Kamber, 2006).
2.3 Pengelompokan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di
lakukan, yaitu (Larose, 2006):
1. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecendrungan yang terdapat dalam data.
Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat
menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional
akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan
kecendrungan sering memberikan kemungkinan penjelasan untuk suatu pola
atau kecendrungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai
dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh,
akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit
berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah.
Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam
proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang
dihasilkan dapat digunakan untuk kasus baru lainnya.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa mendatang.
Contoh prediksi dalam bisnis dan penelitian adalah:
a. Prediksi harga beras dalam tiga bulan yang akan datang.
b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika
batas bawah kecepatan dinaikan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi
dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
Contoh lain klasifikasi dalam bisnis dan penelitian adalah:
a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi
yang curang atau bukan.
b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah
merupakan suatu kredit yang baik atau buruk.
c. Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk
kategori apa.
5. Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.
Kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target
dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan
tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian
terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki
kemiripan (homogen), yang mana kemiripan dengan record dalam kelompok
lain akan bernilai minimal.
Contoh pengklusteran dalam bisnis dan penelitian adalah:
a. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran
dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar.
b. Untuk tujuan audit akutansi, yaitu melakukan pemisahan terhadap
prilaku finansial dalam baik dan mencurigakan.
c. Melakukan pengklusteran terhadap ekspresi dari gen, dalam jumlah
besar.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah:
a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler
yang diharapkan untuk memberikan respon positif terhadap penawaran
upgrade layanan yang diberikan.
b. Menemukan barang dalam supermarket yang dibeli secara bersamaan
dan barang yang tidak pernah dibeli bersamaan.
2.4 Pengertian Decision Tree
Decision tree merupakan salah satu metode klasifikasi yang menggunakan
representasi struktur pohon (tree) di mana setiap node merepresentasikan atribut,
cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas.
Decision tree merupakan metode klasifikasi yang paling populer digunakan.
Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah
untuk dipahami.
Pada decision tree terdapat 3 jenis node, yaitu:
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan
bisa tidak mempunyai output atau mempunyai output lebih dari satu.
b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat
satu input dan mempunyai output minimal dua.
c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya
terdapat satu input dan tidak mempunyai output.
2.5 Algoritma C 4.5
Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan
training data yang telah disediakan. Algoritma C 4.5 merupakan pengembangan dari
ID3. Beberapa pengembangan yang dilakukan pada C 4.5 adalah sebagai antara lain
bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode decision tree mengubah fakta yang sangat besar menjadi pohon
keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami
dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis
data seperti Structured Query Language untuk mencari record pada kategori tertentu.
Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan,
pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan
ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon
keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan
data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan
menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian
pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan
Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi
memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun
dengan seksama secara manual atau dapat tumbuh secara otomatis dengan
menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan
himpunan data yang belum terklasifikasi.
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon
keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap
kategori-kategori tersebut atau untuk mengklasifikasi record dengan
mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk
mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih
sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,
antara lain ID3, CART, dan C4.5 (Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan
atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria
dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca, angin, dan temperatur. Salah satu atribut merupakan atribut
yang menyatakan data solusi per item data yang disebut target atribut. Atribut
memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca
mempunyai instance berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)
Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi
model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule
(Basuki dan Syarif, 2003). Berikut ini algoritma dasar dari C4.5:
Input : sampel training, label training, atribut
1. Membuat simpul akar untuk pohon yang dibuat
2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training
5. Untuk yang lain, Mulai
a. A --- atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
b. Atribut keputusan untuk simpul akar --- A c. Untuk setiap nilai, vi, yang mungkin untuk A
2) Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
3) Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training
ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A])
d. Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan
jumlah path yang mungkin dapat dibangun dari root sampai leafnode.
Tree Pruning dilakukan untuk menyederhanakan tree sehingga akurasi dapat
bertambah. Pruning ada dua pendekatan, yaitu:
a. Pre-pruning, yaitu menghentikan pembangunan suatu subtree lebih awal
(yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training).
Saat seketika berhenti, maka node berubah menjadi leaf (node akhir). Node
akhir ini menjadi kelas yang paling sering muncul di antara subset sampel.
b.Post-pruning, yaitu menyederhanakan tree dengan cara membuang
beberapa cabang subtree setelah tree selesai dibangun. Node yang jarang
dipotong akan menjadi leaf (node akhir) dengan kelas yang paling sering
muncul.
Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini contoh
kasus keputusan bermain tenis yang dituangkan dalam Tabel 2.1
Tabel 2.1 Keputusan Bermain Tenis
No CUACA TEMPERATUR KELEMBABAN ANGIN BERMAIN
Dalam kasus yang tertera pada Tabel 2.1 akan dibuat pohon keputusan untuk
menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur,
kelembaban dan keadaan angin.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut:
1. Pilih atribut sebagai akar
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada
cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera
dalam rumus (2.1) (Craw, 2005).
Gain(S,A) = Entrropy(S) – Expectation(A) Gain(S,A) = Entrropy(S) –∑ ⃓ �⃓
⃓ ⃓
�= * Entropy(Si) (2.1)
Dengan
S : Himpunan Kasus
A : Atribut
N : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah total kasus dalam S
Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus (2.2) berikut
(Craw, 2005):
Entropy(A) = ∑�= − �� ∗ log pi (2.2)
Dengan
S : Himpunan Kasus
A : Fitur
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah
dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk
1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus
untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang
dibagi berdasarkan atribut cuaca, temperatur, kelembaban dan angin.
Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil
perhitungan contoh kasus keputusan bermain tenis ditunjukkan oleh Tabel
2.2
Baris total kolom Entropy pada Tabel 2.2 dihitung dengan rumus (2.2), sebagai
berikut:
Entropy(Total) = (- *Log2( ))+(- *Log2( ))
Entropy(Total) =0.863120569
Sementara itu nilai Gain pada baris cuaca dihitung dengan menggunakan
rumus (2.1), sebagai berikut:
Gain(Total,Cuaca) = Entropy(Total) - ∑ |� ���|
| ��|
�= * Entropy(Cuaca)
Gain(Total,Cuaca) = 0.863120569 – (( *0) + ( *0.723) + ( *0.97))
Sehingga didapat Gain(Total,Cuaca) = 0.258521037
Dari hasil pada Tabel 2.2 dapat diketahui bahwa atribut dengan Gain tertinggi
adalah kelembaban yaitu sebesar 0.37. Dengan demikian kelembaban dapat menjadi
nilai atribut tersebut, nilai atribut normal sudah mengklasifikasikan kasus menjadi 1
yaitu keputusannya Ya, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi
untuk nilai atribut tinggi masih perlu dilakukan perhitungan lagi.
Dari hasil tersebut dapat digambarkan pohon keputusan sementara, tampak
seperti Gambar 2.4
Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1
2. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk
keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan
atribut cuaca, temperatur dan angin yang dapat menjadi node akar dari nilai atribut
tinggi. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil
perhitungan ditunjukkan oleh Tabel 2.3
Tabel 2.3 Perhitungan Node 1.1
Node
Dari hasil pada Tabel 2.3 dapat diketahui bahwa atribut dengan Gain tertinggi
adalah cuaca yaitu sebesar 0.699. Dengan demikian cuaca dapat menjadi node cabang
dari nilai atribut tinggi. Ada 3 nilai atribut dari cuaca yaitu mendung, hujan dan cerah.
dari ketiga nilai atribut tersebut, nilai atribut mendung sudah mengklasifikasikan
kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut cerah sudah
mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu
dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut hujan masih perlu
dilakukan perhitungan lagi.
Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar
2.5
Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1
3. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk
keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut temperatur dan angin yang dapat menjadi node cabang dari
nilai atribut hujan. Setelah itu lakukan penghitungan Gain untuk masing-masing
atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4
Tabel 2.4 Perhitungan Node 1.1.2
Dari hasil pada Tabel 2.4 dapat diketahui bahwa atribut dengan Gain tertinggi
adalah angin yaitu sebesar 1. Dengan demikian angin dapat menjadi node cabang dari
nilai atribut hujan. Ada 2 nilai atribut dari angin yaitu Tidak dan Ya. Dari kedua nilai
atribut tersebut, nilai atribut Tidak sudah mengklasifikasikan kasus menjadi 1 yaitu
keputusannya Ya dan nilai atribut Ya sudah mengklasifikasikan kasus menjadi satu
dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut
untuk nilai atribut ini. Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan
pada Gambar 2.6
Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2
Dengan memperhatikan pohon keputusan pada Gambar 2.6 diketahui bahwa
semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada
Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.
2.6 Ekstraksi Rule dari Decision Tree
Pengetahuan yang diperoleh dari decision tree dapat direpresentasikan dalam bentuk
klasifikasi IF-THEN rules. Nilai suatu atribut akan menjadi bagian anticendent
(bagian IF), sedang daun (leaf) dari sebuah decision tree akan menjadi bagian
Ya Tidak
Tidak Ya
1.
Kelemba ban
Ya
1.1
Cuaca
Normal Tinggi
Tidak
1.1.2 Angin
Ya
Cerah
consequent (THEN). Aturan seperti ini akan menjadi sangat membantu manusia
dalam memahami model klasifikasi terutama jika ukuran decisiontree terlalu besar.
2.7 Riset-Riset Terkait
Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan
seperti yang akan dijelaskan di bawah ini:
Kotsiantis (2009) dalam risetnya mengatakan bahwa mahasiswa drop out
terjadi cukup sering yang menyelenggarakan pendidikan jarak jauh dan tingkat putus
sekolah lebih tinggi dibandingkan pendidikan konvensional. Membatasi mahasiswa
drop out sangat penting dalam pembelajaran jarak jauh dan oleh karena itu
kemampuan untuk memprediksi drop out mahasiswa sangat bermanfaat dengan
sejumlah cara yang berbeda. Menggunakan studi eksperimental metodologi yang
diusulkan local cost sensitive tevhnique. Percobaan berlangsung dalam dua tahap yang
berbeda. Tahap pertama (fase pelatihan) algoritma dilatih dengan menggunakan data
yang dikumpulkan dari tahun ajaran sebelumnya. Atribut yang dikumpulkan antara
lain gender, age, marital status, number of children, occupation, computer literacy,
job associated with computers, face to face meeting, written assignment. Selanjutnya
tutor mengumpulkan sepuluh kelompok data dari tahun ajaran baru. Masing masing
dari sepuluh kelompok digunakan untuk mengukur prediksi akurasi dalam kelompok
ini (fase pengujian)
Kumar dan Vijayalakshmi (2011) dalam risetnya mempelajari data pendidikan
dengan metode klasifikasi seperti decision tree untuk memprediksi perilaku siswa dan
kinerja dalam hasil ujian akhir, hasil prediksi akan membantu tutor untuk
mengidentifikasi siswa yang lemah dan membantu siswa untuk nilai skor yang lebih
baik. Algoritma decision tree 4.5 diterapkan pada data penilaian internal siswa untuk
memprediksi siswa dalam performance ujian akhir. Hasil dari pohon keputusan
memprediksi jumlah siswa yang cenderung gagal atau lulus. Hasilnya diberikan
kepada tutor dan mengambil langkah-langkah untuk meningkatkan performance siswa
yang diprediksi akan gagal. Hasil analisis menyatakan bahwa pembuatan prediksi
telah membantu siswa yang lebih lemah untuk membawa perbaikan dan meningkatkan
keberhasilannya.
Sunjana (2010a) hasil risetnya mengenai teknik klasifikasi menggunakan
menemukan pola yang terjadi pada data mata kuliah mahasiswa. Penerapan algoritma
C 4.5 untuk melihat apakah IPK seorang mahasiswa dapat diperkirakan berdasarkan
nilai beberapa mata kuliah yang dianggap paling signifikan dalam menentukan IPK
seorang mahasiswa. Matakuliah yang diambil merupakan matakuliah yang wajib
diambil oleh setiap mahasiswa di setiap semesternya dan yang saling berhubungan
satu dengan yang lainnya atau matakuliah prasyarat. Hasil uji yang diperoleh
didapatkan prosentase error rate dari data training pada matakuliah. Semakin besar
prosentase nilai error rate yang dihasilkan pada data testing, maka rule yang
dihasilkan pun tidak baik. Begitu juga sebaliknya.
Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data nasabah
sebuah asuransi menggunakan algoritma C 4.5. Dengan algoritma tersebut dapat
diketahui data nasabah mana yang dikelompokkan ke kelas lancar dan data nasabah
mana yang dikelompokkan kekelas tidak lancar. Kemudian pola tersebut dapat
digunakan untuk memperkirakan nasabah yang bergabung, sehingga perusahaan bisa
mengambil keputusan menerima atau menolak calon nasabah tersebut. Atribut yang
digunakan dalam penelitian adalah penghasilan, premi dasar, cara pembayaran, mata
uang dan status sedang. Label yang digunakan untuk pengklasifikasian adalah lancar
dan tidak lancar
Quadri dan Kalyankar (2010) juga menjelaskan tentang performance akademik
mahasiswa sangat penting untuk lembaga pendidikan dan membuat rencana program
strategis yang dapat direncanakan dalam meningkatkan atau mempertahankan
performance siswa selama periode mereka mengikuti pelajaran di perguruan tinggi
tersebut. performance siswa diukur dengan rata-rata IPK setelah lulus. Penelitian ini
menyajikan data mining dalam memprediksi siswa drop out. Menggunakan teknik
decision tree untuk memilih analisis dan prediksi yang terbaik. Daftar mahasiswa
yang sudah diprediksi kemungkinan untuk drop out dengan data mining diserahkan
kepada guru dan manajemen untuk intervensi langsung atau tidak langsung. Analisis
komponen menggabungkan sejumlah metode machine learning secara otomatis
menganalisis data dalam log database. Menggunakan metode decision tree yang
bertujuan untuk mengkarakterisasi motivasi siswa.
Al-Radaideh et al. (2006) menjelaskan dalam risetnya tentang performance
siswa menjadi perhatian besar terhadap pendidikan tinggi dimana ada beberapa faktor
mining khususnya klasifikasi untuk membantu dalam meningkatkan kualitas sistem
pendidikan tinggi dengan mengevaluasi data siswa, mempelajari atribut utama yang
dapat mempengaruhi performance siswa dalam program pendidikan. Tiga metode
klasifikasi algoritma yang berbeda diuji ID3, C 4.5 dan Naïve Bayes. Proses generasi
didasarkan pada decision tree sebagai metode klasifikasi dimana rule yang dihasilkan
dipelajari dan dievaluasi. Rule dibangun yang memungkinkan siswa untuk
memprediksi nilai akhir dalam suatu program studi yang diteliti. Pengetahuan yang
didapat digunakan untuk memberikaan pola pemahaman pendaftaran siswa diteliti,
tindakan untuk memberikan kelas keterampilan kursus dasar tambahan, konseling
akademis.
Adeyemo dan Kuye (2006) menjelaskan dalam risetnya, menyajikan evaluasi
faktor-faktor yang berkontribusi terhadap performance akademik siswa di perguruan
tinggi. Variable kualifikasi untuk masuk dan tipe penerimaan mahasiswa dan
bagaimana faktor-faktor yang mempengaruhi performance akademik siswa. Evaluasi
dilakukan menggunakan perangkat lunak komputer yang mengimplementasikan
algoritma decision tree.
2.8. Persamaan dengan riset-riset lain
Curtis et al (1983) dalam penelitiannya pelajar sekolah menengah yang drop out di
sekolah adalah yang tidak mampu secara sosial dan ekonomi.
Gerben W. Dekker et all (2009) dalam penelitiannya melakukan prediksi
mahasiswa yang drop out dengan mengkalsifikasikan kelompok mahasiswa yang
drop out setelah semester pertama mereka belajar atau memprediksi sebelum mereka
masuk ke program studi serta mengidentifikasi faktor-faktor sukses tertentu.
Hasil penelitian Khoirunnisak dan Iriawan (2010) dalam penelitiannya
tingginya tingkat keberhasilan dan rendahnya tingkat kegagalan mahasiswa
mencerminkan kualitas proses belajar mengajar dari suatu perguruan tinggi. Dan
membuktikan bahwa mahasiswa yang dropout dari ITS Surabaya dipengaruhi oleh
faktor perbedaan usia, perbedaan asal daerah mahasiswa, perbedaan penghasilan
orang tua, perbedaan fakultas mahasiswa, perbedaan jalur masuk, serta perbedaan
nilai IPK dan nilai TPB. menggunakan pendekatan Bayesian mixture survival melalui
Jadric, et all (2010) dalam penelitiannya data diproses dengan aplikasi metode
data mining, regressi logistic, pohon keputusan dan neural network. Model dibangun
menggunakan metodologi SEMMA yang dibandingkan dengan memilih salah satu
prediksi terbaik mahasiswa drop out .
2.9 Perbedaan dengan Riset-Riset lain
Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik
perbedaan dengan riset yang akan dilakukan ini:
1. Analisis mahasiswa yang mengundurkan diri/pindah, risetnya dilakukan di
Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Mikroskil
Medan. Yang akan dilakukan penulis adalah mendapatkan model aturan / rule
penyebab mahasiswa pindah/mengundurkan diri dari sekumpulan data set historis
sehingga didapatkan klasifikasi keterhubungan dalam bentuk decision tree.
variabel datanya diolah dari data kuesioner mahasiswa STMIK Mikroskil Medan
seperti fasilitas belajar mahasiswa, lingkungan belajar, interest, disiplin, peraturan
akademik, dukungan orang tua, ekonomi orang tua, biodata mahasiswa dan data
akademik mahasiswa.
Kuesioner dilakukan sebagai alat penting dalam mendapatkan sejumlah
perwakilan orang untuk menjawab pertanyaan dan membuat penilaian dari apa
yang kebanyakan orang pikirkan. Informasi yang diperoleh dari kuesioner dapat
digunakan untuk tren dan perubahan plot pada persepsi publik.
2. Predikat mahasiswa beresiko
Pada riset ini, hasil akhir yang diharapkan pihak manajamen dan program studi
mendapatkan model rule penyebab mahasiswa perguruan tinggi mengundurkan
diri/pindah.
2.10 Kontribusi Riset
Penelitian ini memberikan kontribusi pada pemahaman tentang hubungan data
mahasiswa yang berpotensi berisiko dengan faktor faktor yang mempengaruhi
mahasiswa berhenti studi, berdasarkan predikat berisiko mengundurkan diri/pindah
dan predikat perlunya perhatian ekstra sehingga dapat diberi motivasi dan
Kontribusi lainnya adalah membantu pimpinan perguruan tinggi dalam
membuat suatu rencana yang bersifat strategis. Penelitian ini memperkenalkan suatu
aplikasi metode klasifikasi rule decision tree menggunakan algoritma C4.5 untuk
METODOLOGI PENELITIAN
3.1 Pendahuluan
Tujuan tesis ini untuk mendapatkan sebuah model rule penyebab mahasiswa
perguruan tinggi mengundurkan diri/pindah menggunakan algoritma C 4.5 decision
tree untuk dapat digunakan sebagai pedoman analisis dalam membuat keputusan di
program studi.
Data dari SQL database SIPT STMIK Mikroskil dilakukan query dan data
kuesioner mahasiswa didapat melalui pengisian secara online di website survey
mongkey. Instrumen penelitian yang digunakan harus mempunyai ukuran yang akurat.
3.2
Lokasi dan Waktu PenelitianPenelitian dilakukan di sekolah tinggi manajemen informatika dan komputer STMIK
Mikroskil Medan, Jl. Thamrin No, 122, 124, 140 Medan. Lamanya waktu yang
dibutuhkan untuk menyelesaikan penelitian ini selama 6 bulan yang dimulai pada
awal Juni 2011 sampai dengan akhir bulan Desember 2011
3.3 Rancangan Penelitian
Sasaran utama pada penelitian ini adalah mengkaji faktor faktor yang mempengaruhi
potensi mahasiswa mengundurkan diri/pindah.
Pada rancangan penelitian ini pertama kali dilakukan dengan melakukan
observasi alasan pengunduran diri mahasiswa yang sangat beragam, seperti orangtua
pindah tugas, mahasiswa pindah kerja, tidak sanggup mengikuti pelajaran dan lain
sebagainya. Banyak diantara alasan tersebut ternyata hanya karangan belaka setelah
dibuktikan melalui beberapa penulusuran. Hasil observasi kemudian dibuat percobaan
yang mendukung, selanjutnya dilakukan teknik pengukuran untuk mengukur kekuatan
hubungan diantara dua variable. Ke dua variable yang diukur adalah variable IPK dan
variable pendidikan orang tua. Hasil dari eksperimen data pengunduran ini dijadikan
model aturan/rule penyebab mahasiswa perguruan tinggi pindah di STMIK Mikroskil
Pada rancangan penelitian kedua, data akademik, data demografi dan data
kuesioner mahasiswa, dengan menggunakan perangkat lunak RapidMiner yang
merupakan perangkat lunak open source untuk membuat set aturan data. Hasil dari
eksperimen data ini merupakan menambang pengetahuan (mining knowledge) yang
nantinya dapat membantu pimpinan perguruan tinggi untuk membuat rencana strategis
dan mengantisipasi munculnya masalah baru,
3.4 Prosedur Pengumpulan Data
3.4.1 Mahasiswa Mengundurkan Diri
Penulis mengumpulkan dari database SIPT data akademik mahasiswa yang dikelola
oleh Unit Pelaksana Teknis Pusat Sistem Informasi (UPT PSI). Data set pertama pada
mahasiswa yang mengundurkan diri dapat dilihat pada table
Tabel 3.1 Tampilan Data Set Pertama Pengunduran Diri
No Role Name Type
1 label predikat nominal
2 regular programstudi nominal
3 regular IPK nominal
4 regular Total SKS Lulus nominal
5 regular Total SKS tidak lulus nominal 6 regular Total SKS belum diambil nominal
7 regular Total SKS nilai D nominal
8 regular Total SKS nilai E nominal
9 regular Jlh SKS diambil nominal
10 regular Semester nominal
11 regular Pendidikan orangtua nominal
3.4.2. Mahasiswa Berpotensi Mengundurkan Diri
Data set pertama pada data akademik mahasiswa yang berpotensi risiko
mengundurkan diri terdiri dari: predikat, program studi, IPK, Total sks lulus, total
sks tidak lulus, total sks belum diambil, total sks nilai D, total sks nilai E, jumlah sks
diambil, semester dan pendidikan orang tua.
Pada dataset kedua penulis melakukan suatu teknik kuesioner ke mahasiswa
dengan menggunakan kuesioner diisi melalui website
http://surveymonkey.com/s/kuesioner untuk mengumpulkan informasi mempelajari
sikap-sikap, keyakinan, perilaku dan karakteristik beberapa mahasiswa. Penulis